Fordított index

A  fordított index olyan adatstruktúra , amelyben a dokumentumgyűjtemény minden egyes szavához a megfelelő lista felsorolja a gyűjteményben található összes dokumentumot, amelyben előfordul. A fordított index a szövegek közötti keresésre szolgál.

A fordított indexnek két változata van:

Alkalmazás

Leírjuk, hogyan oldjuk meg a keresési lekérdezésből származó összes szót tartalmazó dokumentumok megtalálásának problémáját . Egyszavas keresési lekérdezés feldolgozásakor a válasz már az invertált indexben van - csak vegye ki a szónak megfelelő listát a lekérdezésből. Többszavas lekérdezés feldolgozása során az egyes lekérdezési szavaknak megfelelő listák metszéspontját veszik fel.

Általában a keresőmotorokban , miután egy fordított indexet használó lekérdezésből származó szavakat tartalmazó dokumentumlistát állítanak össze, a listában szereplő dokumentumokat rangsorolják . Az invertált index az információkeresésben használt legnépszerűbb adatstruktúra [2] .

Példa

Legyen három szövegből álló korpuszunk és , akkor a fordított index így fog kinézni: "it is what it is""what is it""it is a banana"

"a": {2} "banán": {2} "van": {0, 1, 2} "it": {0, 1, 2} "mi": {0, 1}

Itt a számok azoknak a szövegeknek a számait jelzik, amelyekben a megfelelő szó előfordul. Ezután a keresési "what is it"lekérdezés feldolgozása a következő eredményt adja .

Alkalmazási funkciók valódi keresőmotorokban

A dokumentumokban előforduló szók listájában a dokumentumok azonosítója mellett általában olyan tényezőket is feltüntetnek ( TF-IDF , bináris faktor: „eltalálta-e a szó a címet vagy sem”, egyéb tényezők), amelyek használt a rangsorban. Az index nem minden szóalak szerint, hanem lemmák szerint (a szavak kanonikus alakjai szerint) felépíthető. A stopszavak kizárhatók és index nem építhető rájuk, feltételezve, hogy mindegyik előfordul a korpusz szinte minden dokumentumában. A metszéspontok kiszámításának felgyorsítása érdekében az átugrási mutatók heurisztikáját használják . A sok szót tartalmazó kérelmek feldolgozásakor a határozatképesség függvényt használjuk, amely a dokumentum azon részének rangsorolásának következő szakaszába ugrik, amelyben nem található meg a kérés összes szava.

Lásd még

Jegyzetek

  1. Baeza-Yates, 1999 .
  2. Zobel, Moffat, Ramamohanarao, 1998 .

Irodalom