Az adatbányászat ( orosz adatbányászat, adatbányászat, adatbányászat ) egy olyan gyűjtőnév, amely a korábban ismeretlen, nem triviális, gyakorlatilag hasznos és hozzáférhető ismeretek kimutatására szolgáló módszerekre utal, amelyek a különböző területeken döntéshozatalhoz szükségesek. emberi tevékenység. A kifejezést Grigory Pyatetsky-Shapiro vezette be 1989 -ben [1] [2] [3] .
Az angol " adatbányászat " kifejezésnek még nincs jól bevált orosz fordítása. Az orosz nyelvű átvitel során a következő kifejezéseket használják [4] : információszitálás , adatbányászat, adatkinyerés , valamint adatbányászat [5] [6] [7] . Teljesebb és pontosabb a " tudás felfedezése adatbázisokban " kifejezés ( angolul Know discovery in databases , KDD).
Az adatbányászati módszerek alapja mindenféle osztályozási, modellezési és előrejelzési módszer , amely döntési fák , mesterséges neurális hálózatok , genetikai algoritmusok , evolúciós programozás , asszociatív memória , fuzzy logika használatán alapul . Az adatbányászati módszerek gyakran tartalmaznak statisztikai módszereket ( leíró elemzés , korreláció- és regresszióanalízis , faktoranalízis , varianciaanalízis , komponensanalízis , diszkriminancia-analízis , idősor -elemzés , túlélési elemzés , kapcsolatelemzés ). Az ilyen módszerek azonban feltételeznek bizonyos a priori elképzeléseket az elemzett adatokról, ami némileg ellentmond az adatbányászat céljainak (korábban ismeretlen, nem triviális és gyakorlatilag hasznos ismeretek feltárása).
Az adatbányászati módszerek egyik legfontosabb célja a számítások eredményeinek megjelenítése (vizualizáció), amely lehetővé teszi az adatbányászati eszközök használatát olyan személyek számára, akik nem rendelkeznek speciális matematikai képzettséggel.
Az adatelemzés statisztikai módszereinek alkalmazása megköveteli a valószínűségszámítás és a matematikai statisztika alapos ismeretét .
Az adatbányászati módszerek (vagy ami ugyanaz: tudásfeltárás az adatokban, röviden KDD) az adatbázisok , a statisztika és a mesterséges intelligencia metszéspontjában helyezkednek el [8] .
Az adatbányászat területe Grigory Pyatetsky-Shapiro szemináriumával kezdődött 1989-ben [1] .
Grigory Pyatetsky-Shapiro korábban, amikor a GTE Labs-nál dolgozott, érdeklődött a kérdés iránt: lehetséges-e automatikusan megtalálni bizonyos szabályokat, hogy felgyorsítsák a nagy adatbázisok lekérdezését. Ugyanakkor két kifejezést javasoltak: adatbányászatot („adatbányászat” [9] ) és tudásfelfedezést az adatokban (amit „tudáskutatásnak az adatbázisokban” kell fordítani).
1993-ban megjelent az első Knowledge Discovery Nuggets levelezőlista, 1994-ben pedig az egyik első adatbányászati oldal.
Kezdetben a feladat beállítása a következő:
Módszereket kell kidolgozni a nagy mennyiségű kezdeti „nyers” adatban rejtett tudás felfedezésére. A globális verseny jelenlegi körülményei között a megtalált minták (tudás) jelenthetnek további versenyelőnyt.
Mit jelent a „rejtett tudás”? Ismernie kell a következőket:
Ezek a követelmények nagymértékben meghatározzák az adatbányászati módszerek lényegét, és azt, hogy az adatbányászati technológiában milyen formában és milyen arányban alkalmazzák az adatbázis-kezelő rendszereket , a statisztikai elemzési módszereket és a mesterséges intelligencia módszereket.
Adatbányászat és adatbázisokAz adatbányászati módszerek egyaránt alkalmazhatók nagy adatokkal való munkavégzésre és viszonylag kis mennyiségű adat feldolgozására (például egyedi kísérletek eredményeiből, vagy a cég tevékenységére vonatkozó adatok elemzésekor) . Az elegendő adatmennyiség kritériumaként mind a vizsgált területet, mind az alkalmazott elemzési algoritmust figyelembe kell venni. .
Az adatbázis-technológiák fejlődése először egy speciális nyelv - az adatbázis-lekérdező nyelv - létrehozásához vezetett. A relációs adatbázisok esetében ez az SQL nyelv , amely bőséges lehetőséget biztosított a tárolt adatok létrehozására, módosítására és visszakeresésére. Aztán szükség volt analitikus információk beszerzésére (például egy vállalkozás tevékenységére vonatkozó információk egy bizonyos időszakra), majd kiderült, hogy a hagyományos relációs adatbázisok, amelyek jól alkalmazhatók például a vállalati működési nyilvántartások vezetésére, rosszul alkalmasak elemzésre. Ez pedig oda vezetett, hogy létrejött az ún. " adattárak ", amelyek szerkezete a legjobb módja egy átfogó matematikai elemzés elvégzésének.
Adatbányászat és mesterséges intelligenciaAz adatbányászati módszerekkel megszerzett tudást általában minták (minták) formájában ábrázolják . Ezek:
Az ilyen minták keresésére szolgáló algoritmusok a következő területek metszéspontjában találhatók: mesterséges intelligencia, matematikai statisztika, matematikai programozás, vizualizáció, OLAP .
Adatbányászat és üzletAz IBM szerint a "big data" feldolgozása "az információ új módon történő felhasználásának képessége hasznos ötletek generálására vagy nagy értékű áruk és szolgáltatások létrehozására". Ez a meghatározás a big data-ot az elemzés egy fajtájaként kezeli , mivel a velük való munka. olyan hasznos információk kinyerésére irányul, amelyek versenyelőnyt biztosíthatnak [10] .
Az adatbányászati módszerekkel megoldott feladatokat általában leíró ( angol leíró ) és prediktív ( angol prediktív ) részekre osztják.
A leíró feladatoknál a legfontosabb a meglévő rejtett minták vizuális leírása, míg a prediktív feladatoknál az előrejelzés kérdése van előtérben azokra az esetekre, amelyekre még nincs adat.
A leíró feladatok közé tartozik:
Az előrejelző feladatok a következők:
Az osztályozási problémákat a " felügyelt tanulás " jellemzi , amelyben a modell felépítése (tréningje) egy bemeneti és kimeneti vektorokat tartalmazó mintán történik.
Klaszterezési és asszociációs problémák esetén a „ felügyelet nélküli tanulást ” használják, amelyben a modell olyan mintára épül, amelynek nincs kimeneti paramétere. A kimeneti paraméter értéke („klaszterre utal…”, „vektornak néz ki…”) automatikusan kiválasztásra kerül a tanulási folyamatban.
A leíráscsökkentési problémákat a bemeneti és kimeneti vektorokra való felosztás hiánya jellemzi . C. Pearson főkomponens -elemzésről szóló klasszikus munkájától kezdve a hangsúly az adatok közelítésén van .
A problémák adatbányászati módszerekkel történő megoldásának több szakasza:
Az adatbányászati algoritmusok használata előtt el kell készíteni egy elemzett adatkészletet. Mivel az IAD csak az adatokban jelenlévő mintákat képes észlelni, a kiindulási adatoknak egyrészt elegendő mennyiségűnek kell lenniük ahhoz, hogy ezek a minták jelen legyenek bennük, másrészt elég kompaktnak kell lennie ahhoz, hogy az elemzést elfogadható idő. Leggyakrabban adattárházak vagy adatpiacok szolgálnak forrásadatként . Felkészülés szükséges a többdimenziós adatok elemzéséhez a klaszterezés vagy adatbányászat előtt.
Az adatok ezután szűrésre kerülnek. A szűrés eltávolítja a zajos mintákat és a hiányzó adatokat.
A szűrt adatok jellemzőkészletekre (vagy vektorokra, ha az algoritmus csak fix dimenziós vektorokkal tud működni), megfigyelésenként egy jellemzőkészletre redukálódnak. A jellemzők halmazát azon hipotéziseknek megfelelően alakítjuk ki, hogy a nyers adatok mely jellemzői rendelkeznek nagy prediktív képességgel a feldolgozáshoz szükséges számítási teljesítmény alapján. Például egy 100×100 pixeles fekete-fehér arckép 10 000 bit nyers adatot tartalmaz. A képen látható szemek és szájak észlelésével jellemzővektorokká alakíthatók. Ennek eredményeként az adatmennyiség 10 ezer bitről a pozíciókódok listájára csökken, jelentősen csökkentve az elemzett adatok mennyiségét, és ezáltal az elemzési időt is.
Számos algoritmus képes feldolgozni a hiányzó adatokat, amelyeknek prediktív ereje van (például egy bizonyos típusú vásárlás hiánya az ügyfél részéről). Például az asszociációs szabályok módszerének használatakor nem jellemzővektorok, hanem változó dimenziók halmazai kerülnek feldolgozásra.
A célfüggvény kiválasztása attól függ, hogy mi az elemzés célja; a „megfelelő” funkció kiválasztása alapvető a sikeres adatbányászathoz.
A megfigyelések két kategóriába vannak osztva - képzési készlet és tesztkészlet. A tanítókészlet az adatbányászati algoritmus „tanítására”, a tesztkészlet pedig a talált minták tesztelésére szolgál.
Szótárak és enciklopédiák | |
---|---|
Bibliográfiai katalógusokban |
|
Tudásmérnöki | |
---|---|
Általános fogalmak | |
Merev modellek | |
Lágy módszerek | |
Alkalmazások | |
Adattár | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||
| ||||||||||||||
| ||||||||||||||
Kategória |
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|