A webbányászat az adatbányászati technikák használata a webes dokumentumok és szolgáltatások automatikus felfedezésére , információk kinyerésére a webes erőforrásokból, és általános minták felfedezésére az interneten [1] .
A webbányászatban a következő szakaszok különböztethetők meg:
Ezek azok az általános lépések, amelyeken keresztül kell mennie az internetes adatok elemzéséhez. Az egyes szakaszokra vonatkozó konkrét eljárások az adott feladattól függenek. Ebben a tekintetben a webbányászatnak különböző kategóriái vannak:
A Web Content Mining az a folyamat, amely az interneten elérhető dokumentumok tartalmából vagy leírásaikból tudást nyer ki [2] . A tudás keresése az interneten nehéz és időigényes feladat. A webbányászatnak ez az iránya oldja meg. Az információ-visszakeresés, a gépi tanulás és az adatbányászat kombinációján alapul.
A Web Structure Mining a strukturális információk feltárásának folyamata az interneten [3] . Ez az irány a weboldalak közötti kapcsolatokat veszi figyelembe a közöttük lévő linkek alapján. Az elkészített modellek felhasználhatók hasonló webes források kategorizálására és keresésére, valamint szerzői jogi oldalak felismerésére.
A webhasználati bányászat a felhasználó utazási útvonalának mintáinak és a kapcsolódó adatoknak az automatikus felfedezése, amelyet egy vagy több weboldallal való interakció eredményeként gyűjtöttek vagy szereztek [4] . Ez az irány a webszerver naplóiból való adatok kinyerésén alapul. Az elemzés célja, hogy azonosítsa a látogatók preferenciáit bizonyos internetes források használatakor.
Egyesek azzal érvelnek, hogy az internetes információkeresés a webbányászat speciális esete, mások a webbányászatot az intelligens információ-visszakereséssel társítják . Valójában az információkeresés az összes szükséges dokumentum automatikus keresése, ugyanakkor lehetőség van irreleváns dokumentumok fogadására [5] . Az információkeresés fő feladatai a hasznos dokumentumok felkutatása, a teljes szövegű indexelés, jelenleg az információ-visszakeresés területén végzett kutatások körébe tartozik a dokumentumok modellezése, osztályozása és kategorizálása, felhasználói felületek , adatvizualizáció , szűrés stb. a Web Mining egy speciális esetének végrehajtására – ez az indexeléshez használható webes dokumentumok osztályozása vagy kategorizálása. Ebben a tekintetben a webbányászat az információ-visszakeresési folyamat része. Meg kell azonban jegyezni, hogy nem minden indexelési feladat használ adatbányászati technikákat .
Az információkinyerés célja, hogy egy dokumentumgyűjteményt, általában információkereső rendszerek segítségével , könnyen emészthető és elemezhető információvá alakítson. Az információkinyerési folyamat célja a releváns tények kinyerése a dokumentumokból, míg az információkeresési folyamat a releváns dokumentumok kiválasztását. Az elsőt a dokumentum szerkezete vagy megjelenítése érdekli, vagyis a finom részletek szintjén működik, a második pedig rendezetlen szavak gyűjteményének tekinti a dokumentum szövegét. A két folyamat közötti különbségek azonban jelentéktelenné válnak, ha az információ- visszakeresés célja az információ kinyerése [ 6] .
A webes tartalmak dinamikája és változatossága miatt nem lehetséges az információnyerő rendszerek kézi üzemmódja. Emiatt a legtöbb adatbányászati rendszer meghatározott webhelyekre összpontosít. Mások tanulógépeket vagy adatbányászati technikákat használnak, és képesek automatikusan vagy félautomatikusan kibontani a webes dokumentumokat . Ebből a szempontból a webbányászat része az internetről származó információk kinyerésének folyamatának .
A webbányászat nem ugyanazon az elven működik, mint az interneten használt gépi tanulási módszerek . Egyrészt vannak olyan gépi tanulási alkalmazások, amelyek nem a Web Mining speciális esetei. Példa erre egy olyan módszer, amely hatékonyan használ egy webpókot egy adott témához, vagy olyan módszer, amely a következő legjobb út tervezését hangsúlyozza. Másrészt a gépi tanulási módszerek mellett más módszerek is alkalmazhatók a webbányászatra. Például néhány szabadalmaztatott algoritmus , amelyeket a központok és jogosultsági oldalak, DataGuides és webséma-felderítési algoritmusok bányászására használnak. A két kutatási terület között azonban szoros kapcsolat van, és a gépi tanulási technikák alkalmazhatók a webbányászati folyamatokban. A legújabb tanulmányok például kimutatták, hogy a gépi tanulási módszerek alkalmazása javíthatja a szövegosztályozás folyamatát, összehasonlítva a hagyományos információ-visszakeresési módszerek eredményeivel [7] .
A Web Content Mining az információs források automatikus keresését írja le az interneten, és magában foglalja a tartalom webes adatokból történő bányászását. Lényegében a Web Content Mining analóg a relációs adatbázisok adatbányászatával, mivel a webes dokumentumokban található strukturálatlan adatokból is lehet hasonló típusú tudást találni. Egy webdokumentum többféle adatot tartalmazhat, például szöveget, képeket, hangot, videót, metaadatokat és hivatkozásokat . Némelyik félig strukturált, például HTML - dokumentumok, mások strukturáltabbak, például táblázatokban vagy adatbázisokban lévő adatok , de az információk nagy része strukturálatlan szöveges adatokban tárolódik [8] .
Számos módszer létezik az interneten történő információkeresésre. A leggyakoribb módszer a kulcsszó alapú keresés. A hagyományos keresőmotorok feltérképező robotokkal találják meg és gyűjtsék össze a hasznos információkat az interneten, indexelési módszerekkel tárolják az információkat, és a lekérdezések feldolgozásával pontosabb információkat kínálnak a felhasználóknak. A Web Content Mining túlmutat a hagyományos IR ( Information Retrieval ) technológián .
A webtartalom bányászatának két megközelítése létezik: ügynökalapú és adatbázis-vezérelt. Az első esetben az adatbányászatot szoftverügynökök végzik, a második esetben az adatokat az adatbázishoz tartozónak tekintjük [9] .
Az ügynök alapú megközelítés a következő rendszereket tartalmazza [10] :
Példák intelligens keresőügynök-rendszerekre:
Az adatbázis-vezérelt megközelítés magában foglalja a rendszereket [10] :
Példák webes lekérő rendszerekre:
A Web Structure Mining az interneten található strukturális információk azonosításának folyamata, amely a felhasznált információ szerkezete alapján két típusra osztható [3] :
A hiperhivatkozás olyan szerkezeti egység, amely egy weboldalon lévő helyet összeköt egy másikkal, akár ugyanazon a weboldalon, akár egy másik weboldalon. Az ugyanazon oldal egy másik részéhez kapcsolódó hiperhivatkozást dokumentumon belüli hivatkozásnak, a két különböző oldalt összekötő hivatkozást pedig dokumentumközi hivatkozásnak nevezzük.
Egy weboldal tartalma különböző HTML és XML tagek alapján fa formátumban is megjeleníthető. A cél a DOM struktúra (dokumentumobjektum modell) automatikus kinyerése a dokumentumokból.
A Web Structure Mining megpróbálja felfedezni a weben található hivatkozási struktúra mögött meghúzódó modellt. A modell egy hiperhivatkozás-topológián alapul, hivatkozásleírással vagy anélkül. Ez a modell használható egy weboldal osztályozására, és hasznos információk megszerzésére, például a webhelyek közötti hasonlóságokra és kapcsolatokra [11] . A linkstruktúra fontos információkat tartalmaz, és segíthet a weboldalak szűrésében és rangsorolásában. Különösen az A oldalról B oldalra mutató hivatkozás tekinthető A szerző által a B oldalra vonatkozó ajánlásnak.
Javasoltak néhány új algoritmust, amelyek nem csak kulcsszavas keresésekhez használják a linkstruktúrát, hanem más feladatokhoz is, például Yahoo-szerű hierarchiák vagy közösségi identitások automatikus generálásához az interneten. Ezeknek az algoritmusoknak a teljesítménye általában jobb, mint az IR-algoritmusoké, mivel több információt használnak fel, mint csak az oldalak tartalmát.
A webhasználati bányászat hasznos információk kinyerésének folyamata a felhasználói hozzáférési naplókból, a proxyszerver-naplókból, a böngészőnaplókból és a felhasználói munkamenet-adatokból. Egyszerűen fogalmazva, a Web Usage Mining az a folyamat, amellyel megtudják, mit keresnek a felhasználók az interneten. Egyes felhasználókat csak a szöveges adatok, míg másokat inkább a multimédiás adatok érdekelhetnek [12] .
A következő információkat elemezzük:
Azt is elemzi, hogy a webhely böngészési előzményei alapján mely felhasználói csoportok különböztethetők meg teljes számuk között.
A Web Usage Mining a következő összetevőket tartalmazza:
Az első lépés az adatgyűjtés és az adatok előfeldolgozása. A feldolgozás előzetes szakasza magában foglalja a clickstream adatok megtisztítását és az adatok felosztását számos felhasználói tranzakcióra a webhely látogatásával. A mintafelderítési szakaszban statisztikai és adatbázis-algoritmusok futnak a tranzakciós naplókon, hogy megtalálják a rejtett mintákat és a felhasználói viselkedést. A mintaelemzés utolsó lépésében az előző lépésben észlelt mintákat szekvenciálisan feldolgozzák és szűrik, így olyan modelleket állítanak elő, amelyeket később különféle vizualizációs és jelentéskészítő eszközök bemeneteként használhatnak [12] .
A statisztikák rögzítik a webfelhasználók személyazonosságát, valamint a webhelyen tanúsított viselkedésüket. Az adathasználat típusától függően a Web Usage Mining eredménye a következő lesz:
A webszerver felhasználói naplókat gyűjt, és általában tartalmazza az IP-címet, az oldalhivatkozást és a hozzáférési időt.
Az olyan kereskedelmi alkalmazásszerverek, mint a WebLogic , a StoryServer, jelentős képességekkel rendelkeznek, amelyek lehetővé teszik az e-kereskedelmi alkalmazások számára, hogy a tetejükön üljenek. A kulcsfontosságú funkció a különféle típusú üzleti tevékenységek nyomon követése és naplózása az alkalmazáskiszolgáló naplóiban.
Az alkalmazás új típusú eseményeket tud definiálni, amelyek regisztrációja tartalmazhatja ezen események létrejöttének történetét. Megjegyzendő, hogy sok végalkalmazás a fenti kategóriákban használt egy vagy több módszer kombinációját igényli.
A Web Usage Mining számos előnnyel rendelkezik, amelyek vonzóvá teszik ezt a technológiát a vállalatok, köztük a kormányzati szervek számára [13] :