A HITS ( Hyperlink Induced Topic Search ) algoritmus, amelyet 1999-ben John Kleinberg javasolt , lehetővé teszi a felhasználó lekérdezésének megfelelő internetes oldalak megtalálását a hiperhivatkozásokban található információk alapján [1] .
A HITS mérőszámot gyakran használják széles témával kapcsolatos kérdések megválaszolására és dokumentumközösségek (pl . Tightly-Knit Community ) megtalálására az interneten . Az algoritmus ötlete azon a feltételezésen alapul, hogy a hiperhivatkozások jelentős számú rejtett jogosultsági oldalt kódolnak [2] .
Mérvadó dokumentum (hiteles oldal, szerző) a felhasználó kérésének megfelelő, e tárgykör dokumentumai között nagyobb arányú dokumentum, vagyis nagyobb számú dokumentum hivatkozik erre a dokumentumra [1] .
A hub dokumentum (központi oldal, közvetítő) olyan dokumentum, amely számos hivatkozást tartalmaz hiteles dokumentumokra.
Az oldal, amelyre sok más pont hivatkozik, jó "szerzőnek" kell lennie. A sok másra mutató oldalnak viszont jó „közvetítőnek” kell lennie. Ennek alapján a HITS algoritmus minden weboldalra két pontszámot számít ki : egy jogosultsági pontszámot és egy közvetítő pontszámot. Vagyis minden oldal esetében rekurzív módon számítják ki annak „szerzői” és „közvetítői” jelentőségét [3] [4] .
A HITS algoritmus első lépése a legrelevánsabb oldalak lekérése a keresési lekérdezésben . Ezt a halmazt gyökérhalmaznak nevezzük, és a szövegkereső algoritmus által visszaadott legnépszerűbb n oldal figyelembevételével érhető el. Az alapkészlet úgy jön létre, hogy a gyökérkészletet megnöveli a hozzá hivatkozott összes weblappal , és néhány olyan oldallal, amelyek hivatkoznak rá. Az alapkészletben lévő weboldalak és az oldalak közötti hiperhivatkozások egy összevont részgráfot alkotnak. A HITS számításokat csak ezen az algrafikonon hajtják végre.
A hatósági dokumentum és a közvetítő pontszáma egymásra vonatkoztatva, kölcsönös rekurzióban kerül meghatározásra . Az oldal jogosultsági pontszáma az adott oldalra mutató proxyoldalak pontszámainak összegeként kerül kiszámításra. A viszonteladói pontszám értéke azon mérvadó oldalak pontszámainak összegeként kerül kiszámításra, amelyekre mutat.
Az algoritmus számos iterációt hajt végre , amelyek mindegyike két fő lépésből áll:
Egy csúcs tekintélypontszámát és közvetítési pontszámát a következő algoritmussal számítjuk ki:
A rangsorolás megkezdéséhez , és . Tekintsen kétféle frissítést: egy jogosultsági frissítési szabályt és egy hub-frissítést. A jogosultság-frissítés és a hub-frissítési szabályok ismételt iterációi kerülnek alkalmazásra a jogosultsági/proxy-pontszámok kiszámításához . Az algoritmus alkalmazásának k-lépése magában foglalja az első jogosultságfrissítési szabály k alkalommal történő alkalmazását, majd a hub frissítési szabályt.
, azt kapjuk, hogy = ahol n a p-re hivatkozott oldalak száma, i pedig a p-re hivatkozott oldal. Így egy oldal tekintélypontszáma az adott oldalra mutató közvetítő oldalak pontszámainak összegeként kerül kiszámításra.
, azt kapjuk, hogy = ahol n a p-vel mutatott oldalak száma, i pedig a p-vel mutatott oldalak száma. Így egy oldal proxypontszáma a hivatkozott oldalak jogosultsági pontszámainak összegeként kerül kiszámításra.
Ezektől az értékektől függően a rendszer kiszámítja a weboldalak fontosságát egy adott kérés szempontjából, majd megjeleníti a felhasználó számára. A HITS Rank modul a letöltés és a helyi adatbázisban való tárolás után offline módban kiszámítja a weboldal rangját. [5]
A végső csúcspontszámokat az algoritmus végtelen ismétlése után határozzuk meg. A hub-frissítési és jogosultsági frissítési szabályok közvetlen és következetes alkalmazása eltérő értékeket eredményez, amelyeket a mátrixnak minden iteráció után normalizálnia kell. Így az ebből a folyamatból nyert értékek végül konvergálnak.
A HITS algoritmusnak számos fontos különbsége van a PageRank algoritmushoz képest . [6]
A HITS és a PageRank közötti különbségek ellenére ezekben az algoritmusokban az a közös, hogy egy csomópont jogosultsága (súlya) a többi csomópont súlyától függ, a "közvetítő" szintje pedig attól függ, hogy mennyire hitelesek azok a csomópontok, amelyekre hivatkozik.
Az egyes dokumentumok jogosultságának számítását manapság széles körben használják olyan alkalmazásokban, mint a dokumentumok IPS robot általi szkennelésének sorrendjének meghatározása a hálózatban, a keresési eredmények rangsorolása, tematikus áttekintések generálása stb.
Jelenleg széles körben elterjedtek azok a technológiák, amelyek mesterségesen növelik az egyes webdokumentumok vagy webhelycsoportjaik rangját olyan hiperhivatkozások létrehozásával, amelyek nem kapcsolódnak a tartalomhoz . Ezek a technológiák, amelyek a keresőoptimalizálás ( Search Engine Optimization ) keresőoptimalizálási módszereinek megbízhatatlan változata , úgynevezett "fekete kalap" SEO, a webes dokumentumok legnépszerűbb ( keresőmotorok ) általi rangsorolására szolgáló meglévő algoritmusokhoz való alkalmazkodáson alapulnak.
Az ilyen technológiák viszont a keresőmotorokban a rangsorolási algoritmusok folyamatos fejlesztésének szükségességét jelentik , a webes dokumentumok tartalmi összetevőire összpontosítva a rangsoruk meghatározásakor. [négy]
Sok kutatást végeztek a HITS algoritmus kiértékelésével kapcsolatban, és bebizonyosodott, hogy míg az algoritmus a legtöbb lekérdezésnél jól működik, más lekérdezéseknél nem. Ennek több oka is van [7] :
Nem helyénvaló egyértelmű különbséget tenni a „közvetítők” és a „szerzők” között, mivel sok közvetítő oldal is szerződik.
Néhány tematikusan szorosan összefüggő dokumentum domináns helye a HITS algoritmus eredményeként. Egyes esetekben ezek a dokumentumok nem relevánsak a kérelem szempontjából . Egy esetben, amikor a keresési elem "Jaguar" volt, a HITS algoritmus a Jaguars nevű futballcsapathoz konvergált.
A probléma megoldására a PHITS algoritmust [4] javasolták a szabványos HITS algoritmus kiterjesztéseként. Ennek az algoritmusnak a keretein belül feltételezzük: — idéző dokumentumok halmazát, — hivatkozások halmazát, — osztályok (tényezők) halmazát. Azt is feltételezzük, hogy az esemény valószínűséggel következik be . Feltételes valószínűségek és a hivatkozások jelenléte , egy látens tényező és egy dokumentum közötti függőségek leírására szolgálnak .
A valószínűségi függvény becslése :
,A PHITS algoritmus célja , , maximalizálása .
Ezután:
– a „szerzők” rangja; – a „közvetítők” sorai.A rangsorok kiszámításához meg kell adni a faktorok számát a halmazban , majd a témakörben "szerzőként" fogja jellemezni az oldal minőségét. A módszer hátrányai közé tartozik, hogy az iteratív folyamat leggyakrabban nem az abszolút, hanem a likelihood függvény lokális maximumánál áll meg . Azonban azokban a helyzetekben, amikor a lekérdezés tárgyának nincs egyértelmű dominanciája a talált weboldalak halmazában, a PHITS jobban teljesít, mint a HITS algoritmus.
A hivatkozások egy részét számítógéppel generálják, de a HITS algoritmus továbbra is egyenlő értékeket ad nekik.
Egyes lekérdezések az irreleváns dokumentumokat a rangsorban előkelő helyre juttathatják vissza, ami a HITS-algoritmus hibás eredményeihez vezet.