A fordított index olyan adatstruktúra , amelyben a dokumentumgyűjtemény minden egyes szavához a megfelelő lista felsorolja a gyűjteményben található összes dokumentumot, amelyben előfordul. A fordított index a szövegek közötti keresésre szolgál.
A fordított indexnek két változata van:
Leírjuk, hogyan oldjuk meg a keresési lekérdezésből származó összes szót tartalmazó dokumentumok megtalálásának problémáját . Egyszavas keresési lekérdezés feldolgozásakor a válasz már az invertált indexben van - csak vegye ki a szónak megfelelő listát a lekérdezésből. Többszavas lekérdezés feldolgozása során az egyes lekérdezési szavaknak megfelelő listák metszéspontját veszik fel.
Általában a keresőmotorokban , miután egy fordított indexet használó lekérdezésből származó szavakat tartalmazó dokumentumlistát állítanak össze, a listában szereplő dokumentumokat rangsorolják . Az invertált index az információkeresésben használt legnépszerűbb adatstruktúra [2] .
Legyen három szövegből álló korpuszunk és , akkor a fordított index így fog kinézni: "it is what it is""what is it""it is a banana"
"a": {2} "banán": {2} "van": {0, 1, 2} "it": {0, 1, 2} "mi": {0, 1}Itt a számok azoknak a szövegeknek a számait jelzik, amelyekben a megfelelő szó előfordul. Ezután a keresési "what is it"lekérdezés feldolgozása a következő eredményt adja .
A dokumentumokban előforduló szók listájában a dokumentumok azonosítója mellett általában olyan tényezőket is feltüntetnek ( TF-IDF , bináris faktor: „eltalálta-e a szó a címet vagy sem”, egyéb tényezők), amelyek használt a rangsorban. Az index nem minden szóalak szerint, hanem lemmák szerint (a szavak kanonikus alakjai szerint) felépíthető. A stopszavak kizárhatók és index nem építhető rájuk, feltételezve, hogy mindegyik előfordul a korpusz szinte minden dokumentumában. A metszéspontok kiszámításának felgyorsítása érdekében az átugrási mutatók heurisztikáját használják . A sok szót tartalmazó kérelmek feldolgozásakor a határozatképesség függvényt használjuk, amely a dokumentum azon részének rangsorolásának következő szakaszába ugrik, amelyben nem található meg a kérés összes szava.