Adatbányászat

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2022. május 7-én felülvizsgált verziótól ; az ellenőrzések 6 szerkesztést igényelnek .

Az adatbányászat ( orosz adatbányászat, adatbányászat, adatbányászat ) egy olyan gyűjtőnév, amely a korábban ismeretlen, nem triviális, gyakorlatilag hasznos és hozzáférhető ismeretek kimutatására szolgáló módszerekre utal, amelyek a különböző területeken döntéshozatalhoz szükségesek. emberi tevékenység. A kifejezést Grigory Pyatetsky-Shapiro vezette be 1989 -ben [1] [2] [3] .

Az angol " adatbányászat " kifejezésnek még nincs jól bevált orosz fordítása. Az orosz nyelvű átvitel során a következő kifejezéseket használják [4] : ​​információszitálás , adatbányászat, adatkinyerés , valamint adatbányászat [5] [6] [7] . Teljesebb és pontosabb a " tudás felfedezése adatbázisokban " kifejezés ( angolul Know  discovery in databases , KDD).

Az adatbányászati ​​módszerek alapja mindenféle osztályozási, modellezési és előrejelzési módszer , amely döntési fák , mesterséges neurális hálózatok , genetikai algoritmusok , evolúciós programozás , asszociatív memória , fuzzy logika használatán alapul . Az adatbányászati ​​módszerek gyakran tartalmaznak statisztikai módszereket ( leíró elemzés , korreláció- és regresszióanalízis , faktoranalízis , varianciaanalízis , komponensanalízis , diszkriminancia-analízis , idősor -elemzés , túlélési elemzés , kapcsolatelemzés ). Az ilyen módszerek azonban feltételeznek bizonyos a priori elképzeléseket az elemzett adatokról, ami némileg ellentmond az adatbányászat céljainak (korábban ismeretlen, nem triviális és gyakorlatilag hasznos ismeretek feltárása).

Az adatbányászati ​​módszerek egyik legfontosabb célja a számítások eredményeinek megjelenítése (vizualizáció), amely lehetővé teszi az adatbányászati ​​eszközök használatát olyan személyek számára, akik nem rendelkeznek speciális matematikai képzettséggel.

Az adatelemzés statisztikai módszereinek alkalmazása megköveteli a valószínűségszámítás és a matematikai statisztika alapos ismeretét .

Bevezetés

Az adatbányászati ​​módszerek (vagy ami ugyanaz: tudásfeltárás az adatokban, röviden KDD) az adatbázisok , a statisztika és a mesterséges intelligencia metszéspontjában helyezkednek el [8] .

Történelmi kitérő

Az adatbányászat területe Grigory Pyatetsky-Shapiro szemináriumával kezdődött 1989-ben [1] .

Grigory Pyatetsky-Shapiro korábban, amikor a GTE Labs-nál dolgozott, érdeklődött a kérdés iránt: lehetséges-e automatikusan megtalálni bizonyos szabályokat, hogy felgyorsítsák a nagy adatbázisok lekérdezését. Ugyanakkor két kifejezést javasoltak: adatbányászatot („adatbányászat” [9] ) és tudásfelfedezést az adatokban (amit „tudáskutatásnak az adatbázisokban” kell fordítani).

1993-ban megjelent az első Knowledge Discovery Nuggets levelezőlista, 1994-ben pedig az egyik első adatbányászati ​​oldal.

A probléma leírása

Kezdetben a feladat beállítása a következő:

Módszereket kell kidolgozni a nagy mennyiségű kezdeti „nyers” adatban rejtett tudás felfedezésére. A globális verseny jelenlegi körülményei között a megtalált minták (tudás) jelenthetnek további versenyelőnyt.

Mit jelent a „rejtett tudás”? Ismernie kell a következőket:

Ezek a követelmények nagymértékben meghatározzák az adatbányászati ​​módszerek lényegét, és azt, hogy az adatbányászati ​​technológiában milyen formában és milyen arányban alkalmazzák az adatbázis-kezelő rendszereket , a statisztikai elemzési módszereket és a mesterséges intelligencia módszereket.

Adatbányászat és adatbázisok

Az adatbányászati ​​módszerek egyaránt alkalmazhatók nagy adatokkal való munkavégzésre és viszonylag kis mennyiségű adat feldolgozására (például egyedi kísérletek eredményeiből, vagy a cég tevékenységére vonatkozó adatok elemzésekor) . Az elegendő adatmennyiség kritériumaként mind a vizsgált területet, mind az alkalmazott elemzési algoritmust figyelembe kell venni. .

Az adatbázis-technológiák fejlődése először egy speciális nyelv - az adatbázis-lekérdező nyelv - létrehozásához vezetett. A relációs adatbázisok  esetében ez az SQL nyelv , amely bőséges lehetőséget biztosított a tárolt adatok létrehozására, módosítására és visszakeresésére. Aztán szükség volt analitikus információk beszerzésére (például egy vállalkozás tevékenységére vonatkozó információk egy bizonyos időszakra), majd kiderült, hogy a hagyományos relációs adatbázisok, amelyek jól alkalmazhatók például a vállalati működési nyilvántartások vezetésére, rosszul alkalmasak elemzésre. Ez pedig oda vezetett, hogy létrejött az ún. " adattárak ", amelyek szerkezete a legjobb módja egy átfogó matematikai elemzés elvégzésének.

Adatbányászat és mesterséges intelligencia

Az adatbányászati ​​módszerekkel megszerzett tudást általában minták (minták) formájában ábrázolják . Ezek:

Az ilyen minták keresésére szolgáló algoritmusok a következő területek metszéspontjában találhatók: mesterséges intelligencia, matematikai statisztika, matematikai programozás, vizualizáció, OLAP .

Adatbányászat és üzlet

Az IBM szerint a "big data" feldolgozása "az információ új módon történő felhasználásának képessége hasznos ötletek generálására vagy nagy értékű áruk és szolgáltatások létrehozására". Ez a meghatározás a big data-ot az elemzés egy fajtájaként kezeli , mivel a velük való munka. olyan hasznos információk kinyerésére irányul, amelyek versenyelőnyt biztosíthatnak [10] .

Feladatok

Az adatbányászati ​​módszerekkel megoldott feladatokat általában leíró ( angol  leíró ) és prediktív ( angol  prediktív ) részekre osztják.

A leíró feladatoknál a legfontosabb a meglévő rejtett minták vizuális leírása, míg a prediktív feladatoknál az előrejelzés kérdése van előtérben azokra az esetekre, amelyekre még nincs adat.

A leíró feladatok közé tartozik:

  • asszociációs szabályok vagy minták (minták) keresése;
  • objektumok csoportosítása, klaszteranalízis;
  • regressziós modell felépítése.

Az előrejelző feladatok a következők:

Tanulási algoritmusok

Az osztályozási problémákat a " felügyelt tanulás " jellemzi , amelyben a modell felépítése (tréningje) egy bemeneti és kimeneti vektorokat tartalmazó mintán történik.

Klaszterezési és asszociációs problémák esetén a „ felügyelet nélküli tanulást ” használják, amelyben a modell olyan mintára épül, amelynek nincs kimeneti paramétere. A kimeneti paraméter értéke („klaszterre utal…”, „vektornak néz ki…”) automatikusan kiválasztásra kerül a tanulási folyamatban.

A leíráscsökkentési problémákat a bemeneti és kimeneti vektorokra való felosztás hiánya jellemzi . C. Pearson főkomponens -elemzésről szóló klasszikus munkájától kezdve a hangsúly az adatok közelítésén van .

A tanulás szakaszai

A problémák adatbányászati ​​módszerekkel történő megoldásának több szakasza:

  1. Az elemzés problémájának megfogalmazása;
  2. Adatgyűjtés;
  3. Adatok előkészítése (szűrés, összeadás, kódolás);
  4. Modell kiválasztása (adatelemző algoritmus);
  5. Modellparaméterek és tanulási algoritmus kiválasztása;
  6. Modell betanítás (más modellparaméterek automatikus keresése);
  7. Az oktatás minőségének elemzése, ha az elemzés nem kielégítő - ugorjon az 5. vagy a 4. bekezdésre;
  8. Az azonosított minták elemzése, ha az elemzés nem kielégítő - folytassa az 1., 4. vagy 5. lépéssel.

Adat előkészítés

Az adatbányászati ​​algoritmusok használata előtt el kell készíteni egy elemzett adatkészletet. Mivel az IAD csak az adatokban jelenlévő mintákat képes észlelni, a kiindulási adatoknak egyrészt elegendő mennyiségűnek kell lenniük ahhoz, hogy ezek a minták jelen legyenek bennük, másrészt elég kompaktnak kell lennie ahhoz, hogy az elemzést elfogadható idő. Leggyakrabban adattárházak vagy adatpiacok szolgálnak forrásadatként . Felkészülés szükséges a többdimenziós adatok elemzéséhez a klaszterezés vagy adatbányászat előtt.

Az adatok ezután szűrésre kerülnek. A szűrés eltávolítja a zajos mintákat és a hiányzó adatokat.

A szűrt adatok jellemzőkészletekre (vagy vektorokra, ha az algoritmus csak fix dimenziós vektorokkal tud működni), megfigyelésenként egy jellemzőkészletre redukálódnak. A jellemzők halmazát azon hipotéziseknek megfelelően alakítjuk ki, hogy a nyers adatok mely jellemzői rendelkeznek nagy prediktív képességgel a feldolgozáshoz szükséges számítási teljesítmény alapján. Például egy 100×100 pixeles fekete-fehér arckép 10 000 bit nyers adatot tartalmaz. A képen látható szemek és szájak észlelésével jellemzővektorokká alakíthatók. Ennek eredményeként az adatmennyiség 10 ezer bitről a pozíciókódok listájára csökken, jelentősen csökkentve az elemzett adatok mennyiségét, és ezáltal az elemzési időt is.

Számos algoritmus képes feldolgozni a hiányzó adatokat, amelyeknek prediktív ereje van (például egy bizonyos típusú vásárlás hiánya az ügyfél részéről). Például az asszociációs szabályok módszerének használatakor nem jellemzővektorok, hanem változó dimenziók halmazai kerülnek feldolgozásra.

A célfüggvény kiválasztása attól függ, hogy mi az elemzés célja; a „megfelelő” funkció kiválasztása alapvető a sikeres adatbányászathoz.

A megfigyelések két kategóriába vannak osztva - képzési készlet és tesztkészlet. A tanítókészlet az adatbányászati ​​algoritmus „tanítására”, a tesztkészlet pedig a talált minták tesztelésére szolgál.

Lásd még

Jegyzetek

  1. 1 2 Lásd az interjúját , amelyet 2010. december 16-án archivált a Wayback Machine -nél, 2007-ben adott a Computerra magazinnak.
  2. V. A. Dyuk, A. V. Flegontov, I. K. Fomina, Adatbányászati ​​technológiák alkalmazása a természettudományok, műszaki és humanitárius területeken.
  3. O. S. Kovalenko, Az adatelemzés problémáinak és kilátásainak áttekintése  (elérhetetlen link) .
  4. A. A. Ezhov, S. A. Shumsky, Lecture: Knowledge Extraction Using Neural Networks Archivált 2011. április 7-én a Wayback Machine -nél .
  5. Microsoft SQL Server 2008 R2: Az információkezelés új megközelítése Archiválva : 2014. július 15.
  6. Oracle Data Mining: Present and Future Archiválva : 2012. március 8. a Wayback Machine -nél .
  7. Stepanov R.G. Adatbányászati ​​technológia: Adatbányászat 2017. június 11-én kelt archív másolat a Wayback Machine -nél .
  8. Grigory Pyatetsky-Shapiro, Data Mining and Information Overload // Bevezető cikk a könyvhöz: Data and Process Analysis / A. A. Barseghyan, M. S. Kupriyanov, I. I. Kholod, M. D. Tess, S. I Elizarov. 3. kiadás átdolgozva és további Szentpétervár: BHV-Péterburg, 2009. 512 p. S. 13.
  9. A kifejezés megvitatása: adatbányászat / Műszaki Fordítóiskola Archiválva : 2014. február 2. a Wayback Machine -nél .
  10. Millner, Khan, 2022 , Moving to Big Data, p. 77-78.

Irodalom

  • Paklin N. B., Oreshkov V. I. Üzleti elemzés: az adatoktól a tudásig (+ CD). - Szentpétervár. : Szerk. Péter, 2009. - 624 p.
  • Duke V., Samoylenko A. Adatbányászat: képzés (+CD). - Szentpétervár. : Szerk. Péter, 2001. - 368 p.
  • Zhuravlev Yu.I. , Ryazanov V.V., Senko O.V. ELISMERÉS. Matematikai módszerek. Szoftver rendszer. Praktikus alkalmazások. - M . : Szerk. "Fázis", 2006. - 176 p. — ISBN 5-7036-0108-8 .
  • Chubukova I. A. Adatbányászat: oktatóanyag . - M. : Internet University of Information Technologies: BINOM: Tudáslaboratórium, 2006. - 382 p. — ISBN 5-9556-0064-7 .
  • Sitnik V. F., Krasnyuk M. T. Szellemi adatelemzés (adatbányászat): Navch. segítő. - K .: KNEU, 2007. - 376 p.
  • Ian H. Witten, Eibe Frank és Mark A. Hall. Adatbányászat: gyakorlati gépi tanulási eszközök és technikák . - 3. kiadás. - Morgan Kaufmann, 2011. -  664. o . — ISBN 9780123748560 .
  • Dave Millner, Nadeem Khan. HR elemzés. Bevezetés a People Analytics-be: Gyakorlati útmutató az adatvezérelt HR-hez. — M .: Alpina Kiadó , 2022. — 384 p. — ISBN 978-5-9614-7831-0 .
  • Orlov A.I. Mesterséges intelligencia: statisztikai módszerek az adatelemzéshez: tankönyv. - M .: AI Pi Ar Media, 2022. - 843 p. — ISBN 978-5-4497-1470-1 [1]
  • Orlov A.I., Lutsenko E.V. Adatok, információk és ismeretek elemzése a szisztémás fuzzy intervallummatematikában: tudományos monográfia. - Krasznodar: KubGAU, 2022. - 405 p. [2]

Linkek