Webbányászat

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt hozzászólók, és jelentősen eltérhet a 2016. szeptember 22-én felülvizsgált verziótól ; az ellenőrzések 8 szerkesztést igényelnek .

A webbányászat az adatbányászati ​​technikák  használata a webes dokumentumok és szolgáltatások automatikus felfedezésére , információk kinyerésére a webes erőforrásokból, és általános minták felfedezésére az interneten [1] .

A webbányászatban a következő szakaszok különböztethetők meg:

Ezek azok az általános lépések, amelyeken keresztül kell mennie az internetes adatok elemzéséhez. Az egyes szakaszokra vonatkozó konkrét eljárások az adott feladattól függenek. Ebben a tekintetben a webbányászatnak különböző kategóriái vannak:

A Web Content Mining  az a folyamat, amely az interneten elérhető dokumentumok tartalmából vagy leírásaikból tudást nyer ki [2] . A tudás keresése az interneten nehéz és időigényes feladat. A webbányászatnak ez az iránya oldja meg. Az információ-visszakeresés, a gépi tanulás és az adatbányászat kombinációján alapul.

A Web Structure Mining  a strukturális információk feltárásának folyamata az interneten [3] . Ez az irány a weboldalak közötti kapcsolatokat veszi figyelembe a közöttük lévő linkek alapján. Az elkészített modellek felhasználhatók hasonló webes források kategorizálására és keresésére, valamint szerzői jogi oldalak felismerésére.

A webhasználati bányászat  a felhasználó utazási útvonalának mintáinak és a kapcsolódó adatoknak az automatikus felfedezése, amelyet egy vagy több weboldallal való interakció eredményeként gyűjtöttek vagy szereztek [4] . Ez az irány a webszerver naplóiból való adatok kinyerésén alapul. Az elemzés célja, hogy azonosítsa a látogatók preferenciáit bizonyos internetes források használatakor.

Web Mining

Webbányászat és információkeresés

Egyesek azzal érvelnek, hogy az internetes információkeresés a webbányászat speciális esete, mások a webbányászatot az intelligens információ-visszakereséssel társítják . Valójában az információkeresés az összes szükséges dokumentum automatikus keresése, ugyanakkor lehetőség van irreleváns dokumentumok fogadására [5] . Az információkeresés fő feladatai a hasznos dokumentumok felkutatása, a teljes szövegű indexelés, jelenleg az információ-visszakeresés területén végzett kutatások körébe tartozik a dokumentumok modellezése, osztályozása és kategorizálása, felhasználói felületek , adatvizualizáció , szűrés stb. a Web Mining egy speciális esetének végrehajtására – ez az indexeléshez használható webes dokumentumok osztályozása vagy kategorizálása. Ebben a tekintetben a webbányászat az információ-visszakeresési folyamat része. Meg kell azonban jegyezni, hogy nem minden indexelési feladat használ adatbányászati ​​technikákat .

Webbányászat és információ-kinyerés

Az információkinyerés célja, hogy egy dokumentumgyűjteményt, általában információkereső rendszerek segítségével , könnyen emészthető és elemezhető információvá alakítson. Az információkinyerési folyamat célja a releváns tények kinyerése a dokumentumokból, míg az információkeresési folyamat a releváns dokumentumok kiválasztását. Az elsőt a dokumentum szerkezete vagy megjelenítése érdekli, vagyis a finom részletek szintjén működik, a második pedig rendezetlen szavak gyűjteményének tekinti a dokumentum szövegét. A két folyamat közötti különbségek azonban jelentéktelenné válnak, ha az információ- visszakeresés célja az információ kinyerése  [ 6] .

A webes tartalmak dinamikája és változatossága miatt nem lehetséges az információnyerő rendszerek kézi üzemmódja. Emiatt a legtöbb adatbányászati ​​rendszer meghatározott webhelyekre összpontosít. Mások tanulógépeket vagy adatbányászati ​​technikákat használnak, és képesek automatikusan vagy félautomatikusan kibontani a webes dokumentumokat . Ebből a szempontból a webbányászat része az internetről származó információk kinyerésének folyamatának .

Webbányászat és gépi tanulás

A webbányászat nem ugyanazon az elven működik, mint az interneten használt gépi tanulási módszerek . Egyrészt vannak olyan gépi tanulási alkalmazások, amelyek nem a Web Mining speciális esetei. Példa erre egy olyan módszer, amely hatékonyan használ egy webpókot egy adott témához, vagy olyan módszer, amely a következő legjobb út tervezését hangsúlyozza. Másrészt a gépi tanulási módszerek mellett más módszerek is alkalmazhatók a webbányászatra. Például néhány szabadalmaztatott algoritmus , amelyeket a központok és jogosultsági oldalak, DataGuides és webséma-felderítési algoritmusok bányászására használnak. A két kutatási terület között azonban szoros kapcsolat van, és a gépi tanulási technikák alkalmazhatók a webbányászati ​​folyamatokban. A legújabb tanulmányok például kimutatták, hogy a gépi tanulási módszerek alkalmazása javíthatja a szövegosztályozás folyamatát, összehasonlítva a hagyományos információ-visszakeresési módszerek eredményeivel [7] .

Webtartalom bányászat

A Web Content Mining az információs források automatikus keresését írja le az interneten, és magában foglalja a tartalom webes adatokból történő bányászását. Lényegében a Web Content Mining analóg a relációs adatbázisok adatbányászatával, mivel a webes dokumentumokban található strukturálatlan adatokból is lehet hasonló típusú tudást találni. Egy webdokumentum többféle adatot tartalmazhat, például szöveget, képeket, hangot, videót, metaadatokat és hivatkozásokat . Némelyik félig strukturált, például HTML - dokumentumok, mások strukturáltabbak, például táblázatokban vagy adatbázisokban lévő adatok , de az információk nagy része strukturálatlan szöveges adatokban tárolódik [8] .

Számos módszer létezik az interneten történő információkeresésre. A leggyakoribb módszer a kulcsszó alapú keresés. A hagyományos keresőmotorok feltérképező robotokkal találják meg és gyűjtsék össze a hasznos információkat az interneten, indexelési módszerekkel tárolják az információkat, és a lekérdezések feldolgozásával pontosabb információkat kínálnak a felhasználóknak. A Web Content Mining túlmutat a hagyományos IR ( Information Retrieval ) technológián . 

A webtartalom bányászatának két megközelítése létezik: ügynökalapú és adatbázis-vezérelt. Az első esetben az adatbányászatot szoftverügynökök végzik, a második esetben az adatokat az adatbázishoz tartozónak tekintjük [9] .

Az ügynök alapú megközelítés a következő rendszereket tartalmazza [10] :

Példák intelligens keresőügynök-rendszerekre:

Az adatbázis-vezérelt megközelítés magában foglalja a rendszereket [10] :

Példák webes lekérő rendszerekre:

Web Structure Mining

A Web Structure Mining  az interneten található strukturális információk azonosításának folyamata, amely a felhasznált információ szerkezete alapján két típusra osztható [3] :

Hiperhivatkozások

A hiperhivatkozás olyan szerkezeti egység, amely egy weboldalon lévő helyet összeköt egy másikkal, akár ugyanazon a weboldalon, akár egy másik weboldalon. Az ugyanazon oldal egy másik részéhez kapcsolódó hiperhivatkozást dokumentumon belüli hivatkozásnak, a két különböző oldalt összekötő hivatkozást pedig dokumentumközi hivatkozásnak nevezzük.

Dokumentum szerkezete

Egy weboldal tartalma különböző HTML és XML tagek alapján fa formátumban is megjeleníthető. A cél a DOM struktúra (dokumentumobjektum modell) automatikus kinyerése a dokumentumokból.

A Web Structure Mining megpróbálja felfedezni a weben található hivatkozási struktúra mögött meghúzódó modellt. A modell egy hiperhivatkozás-topológián alapul, hivatkozásleírással vagy anélkül. Ez a modell használható egy weboldal osztályozására, és hasznos információk megszerzésére, például a webhelyek közötti hasonlóságokra és kapcsolatokra [11] . A linkstruktúra fontos információkat tartalmaz, és segíthet a weboldalak szűrésében és rangsorolásában. Különösen az A oldalról B oldalra mutató hivatkozás tekinthető A szerző által a B oldalra vonatkozó ajánlásnak.

Javasoltak néhány új algoritmust, amelyek nem csak kulcsszavas keresésekhez használják a linkstruktúrát, hanem más feladatokhoz is, például Yahoo-szerű hierarchiák vagy közösségi identitások automatikus generálásához az interneten. Ezeknek az algoritmusoknak a teljesítménye általában jobb, mint az IR-algoritmusoké, mivel több információt használnak fel, mint csak az oldalak tartalmát.

Webhasználat bányászat

A webhasználati bányászat  hasznos információk kinyerésének folyamata a felhasználói hozzáférési naplókból, a proxyszerver-naplókból, a böngészőnaplókból és a felhasználói munkamenet-adatokból. Egyszerűen fogalmazva, a Web Usage Mining az a folyamat, amellyel megtudják, mit keresnek a felhasználók az interneten. Egyes felhasználókat csak a szöveges adatok, míg másokat inkább a multimédiás adatok érdekelhetnek [12] .

A következő információkat elemezzük:

Azt is elemzi, hogy a webhely böngészési előzményei alapján mely felhasználói csoportok különböztethetők meg teljes számuk között.

A Web Usage Mining a következő összetevőket tartalmazza:

Az első lépés az adatgyűjtés és az adatok előfeldolgozása. A feldolgozás előzetes szakasza magában foglalja a clickstream adatok megtisztítását és az adatok  felosztását  számos felhasználói tranzakcióra a webhely látogatásával. A mintafelderítési szakaszban statisztikai és adatbázis-algoritmusok futnak a tranzakciós naplókon, hogy megtalálják a rejtett mintákat és a felhasználói viselkedést. A mintaelemzés utolsó lépésében az előző lépésben észlelt mintákat szekvenciálisan feldolgozzák és szűrik, így olyan modelleket állítanak elő, amelyeket később különféle vizualizációs és jelentéskészítő eszközök bemeneteként használhatnak [12] .

A statisztikák rögzítik a webfelhasználók személyazonosságát, valamint a webhelyen tanúsított viselkedésüket. Az adathasználat típusától függően a Web Usage Mining eredménye a következő lesz:

Webszerver adatok

A webszerver felhasználói naplókat gyűjt, és általában tartalmazza az IP-címet, az oldalhivatkozást és a hozzáférési időt.

Szerveralkalmazás adatai

Az olyan kereskedelmi alkalmazásszerverek, mint a WebLogic , a StoryServer, jelentős képességekkel rendelkeznek, amelyek lehetővé teszik az e-kereskedelmi alkalmazások számára, hogy a tetejükön üljenek. A kulcsfontosságú funkció a különféle típusú üzleti tevékenységek nyomon követése és naplózása az alkalmazáskiszolgáló naplóiban.

Alkalmazási réteg adatai

Az alkalmazás új típusú eseményeket tud definiálni, amelyek regisztrációja tartalmazhatja ezen események létrejöttének történetét. Megjegyzendő, hogy sok végalkalmazás a fenti kategóriákban használt egy vagy több módszer kombinációját igényli.

A webhasználat bányászatának előnyei és hátrányai

Előnyök

A Web Usage Mining számos előnnyel rendelkezik, amelyek vonzóvá teszik ezt a technológiát a vállalatok, köztük a kormányzati szervek számára [13] :

Hátrányok

Jegyzetek

  1. Web Mining: Gépi tanulás webes alkalmazásokhoz, 2004 , p. 290.
  2. Web Mining Functions, 2009 , p. 132.
  3. 1 2 Webbányászat – Koncepciók, alkalmazások és kutatási irányok, 2004 , p. 3.
  4. Webhasználati bányászat leírása, 2011 , p. 527.
  5. Felmérés a webbányászatról, 2000 , p. 2.
  6. Felmérés a webbányászatról, 2000 , p. 2-3.
  7. Felmérés a webbányászatról, 2000 , p. 3.
  8. Webtartalom, 2000 , p. 5.
  9. Web Content Methods, 2008 , p. 263.
  10. 1 2 Ügynök-alapú és adatbázis-orientált megközelítések, 2006 .
  11. Web Structure Mining, 2007 , p. 3.
  12. 1 2 Webhasználati bányászat, 2008 , p. 7.
  13. Webhasználati bányászat előnyei és hátrányai
  14. Etikai kérdések, 2004 .

Irodalom