Adattár

A Data Warehouse egy domain  - specifikus információs adatbázis , amelyet kifejezetten jelentéskészítésre és üzleti elemzésre terveztek, hogy támogassa a döntéshozatalt a szervezetben. Adatbázis-kezelő rendszerekre és döntéstámogató rendszerekre épül . Az adattárházba belépő adatok jellemzően csak olvashatóak.

Az OLTP rendszer adatai úgy másolódnak az adattárházba, hogy a riportok és az OLAP elemzések készítésekor a tranzakciós rendszer erőforrásai ne kerüljenek felhasználásra és stabilitása ne sérüljön. Két lehetőség van a tárhelyen lévő adatok frissítésére:

Tárolásszervezési alapelvek

Adattárház tervezés

Két fő építészeti irányvonal létezik – a normalizált adattárak és a mérettárak.

A normalizált tárolókban az adatok tartományspecifikus harmadik normál formátumú táblákban tárolódnak . A normalizált tárolók könnyen létrehozhatók és kezelhetők, a normalizált tárolók hátránya a normalizálás eredményeként a táblák nagy száma, ami miatt bármilyen információ megszerzéséhez egyszerre több tábla közül kell választani. idő, ami a rendszer teljesítményének romlásához vezet. A probléma megoldására denormalizált táblákat használnak - data marts , amelyek alapján a jelentési űrlapok már megjelennek. Hatalmas adatmennyiséggel több szintű "mart" / "tárhely" használható.

A méretekkel rendelkező üzletek csillagsémát vagy hópehelysémát használnak . Ebben az esetben az adatok ( ténytáblázat ) a "csillag" közepén vannak , és a mérések a csillag sugarait alkotják. A különböző ténytáblák megosztják a dimenziótáblázatokat, ami sokkal könnyebbé teszi a több tárgyadattáblázatból származó adatok kombinálását (például értékesítési tények és termékszállítások). Az adattáblák és a megfelelő dimenziók alkotják a "busz" architektúrát. A méreteket gyakran harmadik normál formában hozzák létre, beleértve a méretváltozások rögzítését is. A mérésekkel ellátott tárolók fő előnye az egyszerűség és az áttekinthetőség a fejlesztők és a felhasználók számára, emellett a hatékonyabb adattárolásnak és a formalizált méréseknek köszönhetően az adatokhoz való hozzáférés is könnyebbé és gyorsabbá válik, különösen a komplex elemzéseknél. A fő hátrány az adatok előkészítésének és betöltésének, valamint az adatdimenziók kezelésének és módosításának bonyolultabb eljárásai.

Megfelelően nagy mennyiségű adat esetén a csillag- és hópehelysémák teljesítményromlást is okoznak a méretekhez való csatlakozáskor.

Adatfolyamatok

Adatforrások lehetnek:

  1. Hagyományos regisztrációs rendszerek
  2. Külön dokumentumok
  3. Adatkészletek

Adatműveletek:

  1. Kivonás - információ áthelyezése adatforrásokból egy külön adatbázisba, egyetlen formátumba hozva azokat.
  2. Az átalakítás az információk tárolásra való előkészítése optimális formában a döntéshozatalhoz szükséges kérés teljesítéséhez.
  3. Loading - adatok tárolása a tárhelyen, atomszerűen végrehajtva, új tények hozzáadásával vagy a meglévők módosításával.
  4. Elemzés - OLAP , Adatbányászat , összefoglaló jelentések.
  5. Elemzési eredmények bemutatása.

Mindezeket az információkat a metaadatszótár használja . A metaadatszótár automatikusan tartalmazza az adatforrás-szótárakat. Leírja továbbá azok utólagos egyeztetésének adatformátumait, az adatpótlás gyakoriságát, az időbeni konzisztenciát. A metaadatszótár célja, hogy mentesítse a fejlesztőt az adatforrások szabványosításának szükségessége alól. Az adattárházak létrehozása nem mond ellent a meglévő információgyűjtési és -feldolgozási rendszereknek. A szótárak speciális összetevőinek biztosítaniuk kell az adatok időben történő kinyerését belőlük, és egy metaadatszótáron alapuló egyetlen formátumba konvertálást kell biztosítaniuk.

Az adattárház logikai adatstruktúrája jelentősen eltér az adatforrások adatszerkezetétől. A hatékony átalakítási folyamat megtervezéséhez jól megtervezett vállalati adatmodellre és döntéstechnológiai modellre van szükség. A felhasználó számára kényelmes az adatok bemutatása többdimenziós adatbázisokban, ahol az idő, az ár vagy a földrajzi régió használható mérésként.

Az adatbázisból való adatkinyerés mellett a döntéshozatalhoz fontos a tudáskinyerés folyamata, a felhasználó információs igényeinek megfelelően . A felhasználó szempontjából az adatbázisból való tudás kinyerése során a következő átalakításokat kell megoldani: adat → információ → tudás → kapott megoldások.

Lásd még