HITS algoritmus

A  HITS ( Hyperlink Induced Topic Search ) algoritmus, amelyet 1999-ben John Kleinberg javasolt , lehetővé teszi a felhasználó lekérdezésének megfelelő internetes oldalak megtalálását a hiperhivatkozásokban található információk alapján [1] .

A HITS mérőszámot gyakran használják széles témával kapcsolatos kérdések megválaszolására és dokumentumközösségek (pl .  Tightly-Knit Community ) megtalálására az interneten . Az algoritmus ötlete azon a feltételezésen alapul, hogy a hiperhivatkozások jelentős számú rejtett jogosultsági oldalt kódolnak [2] .

Mérvadó dokumentum (hiteles oldal, szerző)  a felhasználó kérésének megfelelő, e tárgykör dokumentumai között nagyobb arányú dokumentum, vagyis nagyobb számú dokumentum hivatkozik erre a dokumentumra [1] .

A hub dokumentum (központi oldal, közvetítő)  olyan dokumentum, amely számos hivatkozást tartalmaz hiteles dokumentumokra.

Az oldal, amelyre sok más pont hivatkozik, jó "szerzőnek" kell lennie. A sok másra mutató oldalnak viszont jó „közvetítőnek” kell lennie. Ennek alapján a HITS algoritmus minden weboldalra két pontszámot számít ki : egy jogosultsági pontszámot és egy közvetítő pontszámot. Vagyis minden oldal esetében rekurzív módon számítják ki annak „szerzői” és „közvetítői” jelentőségét [3] [4] .

Algoritmus

A HITS algoritmus első lépése a legrelevánsabb oldalak lekérése a keresési lekérdezésben . Ezt a halmazt gyökérhalmaznak nevezzük, és a szövegkereső algoritmus által visszaadott legnépszerűbb n oldal figyelembevételével érhető el. Az alapkészlet úgy jön létre, hogy a gyökérkészletet megnöveli a hozzá hivatkozott összes weblappal , és néhány olyan oldallal, amelyek hivatkoznak rá. Az alapkészletben lévő weboldalak és az oldalak közötti hiperhivatkozások egy összevont részgráfot alkotnak. A HITS számításokat csak ezen az algrafikonon hajtják végre.

A hatósági dokumentum és a közvetítő pontszáma egymásra vonatkoztatva, kölcsönös rekurzióban kerül meghatározásra . Az oldal jogosultsági pontszáma az adott oldalra mutató proxyoldalak pontszámainak összegeként kerül kiszámításra. A viszonteladói pontszám értéke azon mérvadó oldalak pontszámainak összegeként kerül kiszámításra, amelyekre mutat.

Az algoritmus számos iterációt hajt végre , amelyek mindegyike két fő lépésből áll:

Egy csúcs tekintélypontszámát és közvetítési pontszámát a következő algoritmussal számítjuk ki:

Részletezés

A rangsorolás megkezdéséhez , és . Tekintsen kétféle frissítést: egy jogosultsági frissítési szabályt és egy hub-frissítést. A jogosultság-frissítés és a hub-frissítési szabályok ismételt iterációi kerülnek alkalmazásra a jogosultsági/proxy-pontszámok kiszámításához . Az algoritmus alkalmazásának k-lépése magában foglalja az első jogosultságfrissítési szabály k alkalommal történő alkalmazását, majd a hub frissítési szabályt.

Hatóság frissítési szabály

, azt kapjuk, hogy = ahol n a p-re hivatkozott oldalak száma, i pedig a p-re hivatkozott oldal. Így egy oldal tekintélypontszáma az adott oldalra mutató közvetítő oldalak pontszámainak összegeként kerül kiszámításra.

A hub frissítési szabály

, azt kapjuk, hogy = ahol n a p-vel mutatott oldalak száma, i pedig a p-vel mutatott oldalak száma. Így egy oldal proxypontszáma a hivatkozott oldalak jogosultsági pontszámainak összegeként kerül kiszámításra.

Ezektől az értékektől függően a rendszer kiszámítja a weboldalak fontosságát egy adott kérés szempontjából, majd megjeleníti a felhasználó számára. A HITS Rank modul a letöltés és a helyi adatbázisban való tárolás után offline módban kiszámítja a weboldal rangját. [5]

Normalizálás

A végső csúcspontszámokat az algoritmus végtelen ismétlése után határozzuk meg. A hub-frissítési és jogosultsági frissítési szabályok közvetlen és következetes alkalmazása eltérő értékeket eredményez, amelyeket a mátrixnak minden iteráció után normalizálnia kell. Így az ebből a folyamatból nyert értékek végül konvergálnak.

HITS algoritmus és PageRank

A HITS algoritmusnak számos fontos különbsége van a PageRank algoritmushoz képest . [6]

A HITS és a PageRank közötti különbségek ellenére ezekben az algoritmusokban az a közös, hogy egy csomópont jogosultsága (súlya) a többi csomópont súlyától függ, a "közvetítő" szintje pedig attól függ, hogy mennyire hitelesek azok a csomópontok, amelyekre hivatkozik.

Az egyes dokumentumok jogosultságának számítását manapság széles körben használják olyan alkalmazásokban, mint a dokumentumok IPS robot általi szkennelésének sorrendjének meghatározása a hálózatban, a keresési eredmények rangsorolása, tematikus áttekintések generálása stb.

Jelenleg széles körben elterjedtek azok a technológiák, amelyek mesterségesen növelik az egyes webdokumentumok vagy webhelycsoportjaik rangját olyan hiperhivatkozások létrehozásával, amelyek nem kapcsolódnak a tartalomhoz . Ezek a technológiák, amelyek a keresőoptimalizálás ( Search Engine Optimization ) keresőoptimalizálási  módszereinek megbízhatatlan változata , úgynevezett "fekete kalap" SEO, a webes dokumentumok legnépszerűbb ( keresőmotorok ) általi rangsorolására szolgáló meglévő algoritmusokhoz való alkalmazkodáson alapulnak.

Az ilyen technológiák viszont a keresőmotorokban a rangsorolási algoritmusok folyamatos fejlesztésének szükségességét jelentik , a webes dokumentumok tartalmi összetevőire összpontosítva a rangsoruk meghatározásakor. [négy]

A HITS hátrányai

Sok kutatást végeztek a HITS algoritmus kiértékelésével kapcsolatban, és bebizonyosodott, hogy míg az algoritmus a legtöbb lekérdezésnél jól működik, más lekérdezéseknél nem. Ennek több oka is van [7] :

Nem helyénvaló egyértelmű különbséget tenni a „közvetítők” és a „szerzők” között, mivel sok közvetítő oldal is szerződik.

Néhány tematikusan szorosan összefüggő dokumentum domináns helye a HITS algoritmus eredményeként. Egyes esetekben ezek a dokumentumok nem relevánsak a kérelem szempontjából . Egy esetben, amikor a keresési elem "Jaguar" volt, a HITS algoritmus a Jaguars nevű futballcsapathoz konvergált.

A probléma megoldására a PHITS algoritmust [4] javasolták a szabványos HITS algoritmus kiterjesztéseként. Ennek az algoritmusnak a keretein belül feltételezzük:  — idéző ​​dokumentumok halmazát,  — hivatkozások halmazát,  — osztályok (tényezők) halmazát. Azt is feltételezzük, hogy az esemény valószínűséggel következik be . Feltételes valószínűségek és a hivatkozások jelenléte , egy látens tényező és egy dokumentum közötti függőségek leírására szolgálnak .

A valószínűségi függvény becslése :

,

A PHITS algoritmus célja , , maximalizálása .

Ezután:

– a „szerzők” rangja; – a „közvetítők” sorai.

A rangsorok kiszámításához meg kell adni a faktorok számát a halmazban , majd a témakörben "szerzőként" fogja jellemezni az oldal minőségét. A módszer hátrányai közé tartozik, hogy az iteratív folyamat leggyakrabban nem az abszolút, hanem a likelihood függvény lokális maximumánál áll meg . Azonban azokban a helyzetekben, amikor a lekérdezés tárgyának nincs egyértelmű dominanciája a talált weboldalak halmazában, a PHITS jobban teljesít, mint a HITS algoritmus.

A hivatkozások egy részét számítógéppel generálják, de a HITS algoritmus továbbra is egyenlő értékeket ad nekik.

Egyes lekérdezések az irreleváns dokumentumokat a rangsorban előkelő helyre juttathatják vissza, ami a HITS-algoritmus hibás eredményeihez vezet.

Jegyzetek

  1. 1 2 Krizhanovsky, 2008 , p. 27.
  2. A HITS metrikája, 2005 , p. 55.
  3. Kleinberg, 1999 .
  4. 1 2 3 Algoritmus HITS, 2009 .
  5. Központok és hatóságok, 2010 , p. 5.
  6. PageRank és HITS, 2010 , p. 257.
  7. Problémák a HITS algoritmussal, 2011 , p. 255.

Irodalom