Index keresése

A keresési index egy olyan adatstruktúra , amely dokumentumokkal kapcsolatos információkat tartalmaz, és a keresőmotorokban használatos . A keresőmotor által végzett indexelés az adatok gyűjtésének, rendezésének és tárolásának folyamata a gyors és pontos információ-visszakeresés érdekében . Az index létrehozása a nyelvészet , a kognitív pszichológia , a matematika , a számítástechnika és a fizika interdiszciplináris fogalmait foglalja magában . A webindexelés a weboldalak keresésére tervezett keresőmotorok indexelési folyamatára utal .az interneten.

A népszerű keresőmotorok a természetes nyelveken írt dokumentumok teljes szöveges indexelésére összpontosítanak [1] . A keresésben olyan multimédiás dokumentumok is részt vehetnek, mint a videó és hang [2] , valamint a grafikák [3] [4] .

A metakeresők más keresőmotorok indexeit használják, és nem tárolnak helyi indexet, míg a gyorsítótárazott oldalakon alapuló keresőmotorok hosszú ideig tárolják az indexet és a szöveges korpuszokat is . A teljes szövegű indexekkel ellentétben a részleges szöveges szolgáltatások korlátozzák az indexelési mélységet, hogy csökkentsék az index méretét. A nagyobb szolgáltatások általában egy adott időkereten belül indexelnek a feldolgozási idő és a költségek miatt, míg az ügynökalapú keresőmotorok valós időben építik fel az indexet .

Indexelés

Az index használatának célja, hogy felgyorsítsa a keresési lekérdezéshez releváns dokumentumok megtalálását . Index nélkül a keresőmotornak minden dokumentumot fel kellene térképeznie a korpuszban, ami sok időt és feldolgozási energiát igényelne. Például míg egy 10 000 dokumentumból álló index ezredmásodperceken belül lekérdezhető, 10 000 nagy dokumentum minden egyes szavának szekvenciális beolvasása órákig tarthat. Az index tárolására lefoglalt további memóriát és az index frissítéséhez szükséges időnövekedést ellensúlyozza az információkereséshez szükséges idő csökkenése.

A keresőmotorok kialakítását befolyásoló tényezők

A keresőmotor tervezésekor a következő tényezőket kell figyelembe venni:

Összefolyási tényezők Hogyan szerepelnek az adatok az indexben? Hogyan kerülnek a szavak és az alfüggvények az indexbe a szövegkorpusz bejárása során? És több bejáró is működhet aszinkron módon? A bejárónak először ellenőriznie kell, hogy frissít-e régi tartalmat, vagy új tartalmat ad-e hozzá. A keresőmotor- index egyesítése hasonló az SQL Merge -hez és más egyesítő algoritmusokhoz [5] . Tárolási módszerek Hogyan tároljunk indexelt adatokat ? Vagyis meghatározzák a tárolt információ típusát: tömörített vagy szűrt. Index mérete Mennyi számítógépmemória szükséges egy index fenntartásához. Keresés sebessége Milyen gyorsan található egy szó egy fordított indexben . A számítástechnika számára fontos, hogy összehasonlítsa az adatstruktúrában lévő rekord megtalálásának sebességét az index frissítésének/törlésének sebességével. Tárolás Az index hosszú távú tárolása [6] . hibatűrés Fontos, hogy a keresőszolgáltatás megbízható legyen. A hibatűrési problémák közé tartozik az index sérülésének kérdése, annak meghatározása, hogy a rossz hardverhez kapcsolódó hibás adatok, a particionálás és a hash függvényeken alapuló sémák és az összetett particionálás [7] , valamint a replikáció külön kezelhető-e .

Index adatszerkezetek

A keresőmotor architektúrája különbözik az indexelési módszerekben és az indextárolási módokban, kielégítve a tényezőket . Az indexek a következő típusúak:

utótag fa Képletesen faként strukturált , támogatja a lineáris keresési időt. A szóutótagok tárolására épült. A fák támogatják a fejlett kivonatolást, ami fontos a keresőmotorok indexeléséhez [8] . A DNS-szekvenciák mintaillesztésére és klaszterezésre használják . A fő hátrány az, hogy egy szó fában való tárolása több helyet igényelhet, mint amennyi magának a szónak a tárolásához szükséges [9] . Egy alternatív ábrázolás egy utótag tömb . Úgy gondolják, hogy kevesebb virtuális memóriát igényel, és támogatja a blokk szerinti adattömörítést. Fordított index Tárolja az egyes keresési kifejezések előfordulási listáját [10] , általában hash-táblázatok vagy bináris fa formájában [11] [12] . Hivatkozási index Hivatkozások vagy dokumentumok közötti hiperhivatkozások tárháza a hivatkozáselemzés támogatására, a bibliometria tárgya . N-gramm Adathosszúságú sorozatok tárolása más típusú keresés vagy szövegelemzés támogatására [13] . Dokumentum kifejezés mátrix A látens szemantikai elemzésben (LSA) használatos, kétdimenziós ritka mátrixban tárolja a szavak előfordulását a dokumentumokban .

Problémák a párhuzamos indexeléssel

A keresőmotorok tervezésének egyik fő feladata a szekvenciális számítási folyamatok menedzselése. Vannak helyzetek, amikor versenyfeltételeket és összefüggő kudarcokat lehet teremteni. Például egy új dokumentumot adnak hozzá egy korpuszhoz, és frissíteni kell az indexet, ugyanakkor az indexnek továbbra is válaszolnia kell a keresésekre. Ez két egymással versengő feladat ütközése. Úgy gondolják, hogy a szerzők az információk előállítói, és a bejáró ennek az információnak a fogyasztója, rögzíti a szöveget és tárolja a gyorsítótárban (vagy korpuszban). A direkt index a korpusz által előállított információ fogyasztója, a fordított index pedig a közvetlen index által előállított információ fogyasztója. Ezt általában termelő-fogyasztó modellnek nevezik . Az indexelő a kereshető információ előállítója, az azt kereső felhasználók pedig a fogyasztók. A problémát súlyosbítja az elosztott tárolás és az elosztott feldolgozás. Nagy mennyiségű indexelt információ skálázásához a keresőmotor elosztott számítási architektúrán alapulhat , ahol a keresőmotor több, egymással összehangoltan működő gépből áll. Ez növeli a logikátlanság valószínűségét, és megnehezíti a teljesen szinkronizált, elosztott, párhuzamos architektúra fenntartását [14] .

Közvetlen index

A továbbítási index az egyes dokumentumokhoz tartozó szavak listáját tárolja. A következő a közvetlen index egyszerűsített formája:

közvetlen index

Dokumentum	A szavak
1. dokumentum	a mi, Tanya, hangosan, sírva
2. dokumentum	leesett, be, folyó, labda
3. dokumentum	hallgass, Tanechka, ne sírj!
4. dokumentum	nem, megfullad, be, folyó, labda

A közvetlen index kialakításának oka, hogy a szavakat célszerű azonnal a dokumentumok mögé tárolni, mivel azokat később elemezve keresési indexet készítenek. A továbbított indexgenerálás aszinkron rendszerfeldolgozást foglal magában, amely részben megkerüli a fordított indexfrissítési szűk keresztmetszetet [15] . A közvetlen index úgy van rendezve , hogy fordítsa át az indexet. A közvetlen index lényegében dokumentumok és szavak párjainak listája, dokumentumok szerint rendezve. A közvetlen index invertálttá alakítása csak a szópárok rendezésének kérdése. Ebből a szempontból az invertált index szó szerint rendezett közvetlen index.

Fordított index

Sok keresőmotor fordított indexet használ a keresési lekérdezés kiértékelésekor, hogy gyorsan megtalálja a lekérdezésben szereplő szavakat tartalmazó dokumentumokat, majd ezeket a dokumentumokat relevancia szerint rangsorolja . Mivel a fordított index az egyes szavakat tartalmazó dokumentumok listáját tárolja, a keresőmotor közvetlen hozzáféréssel megkeresheti a lekérdezésben szereplő egyes szavakhoz társított dokumentumokat, és gyorsan visszakeresheti azokat. Az alábbiakban a fordított index egyszerűsített ábrázolása látható:

Fordított index

Szó	A dokumentumok
ban ben	2. dokumentum, 4. dokumentum
hangosan	1. dokumentum
labda	2. dokumentum, 4. dokumentum
a miénk	1. dokumentum
nem	3. dokumentum, 4. dokumentum
kiáltás	1. dokumentum, 3. dokumentum
folyó	2. dokumentum, 4. dokumentum
Tanya	1. dokumentum, 3. dokumentum
csendes	3. dokumentum
csepp	2. dokumentum
megfullad	4. dokumentum

Az invertált index csak azt tudja meghatározni, hogy egy szó létezik-e egy adott dokumentumon belül, mivel nem tárol semmilyen információt a szó gyakoriságáról és helyzetéről, ezért logikai indexnek minősül. Az invertált index meghatározza, hogy mely dokumentumok felelnek meg a lekérdezésnek, de nem értékeli ki a megfelelő dokumentumokat. Bizonyos esetekben az index további információkat is tartalmaz, például az egyes szavak gyakoriságát az egyes dokumentumokban, vagy a szó pozícióját a dokumentumban [16] . A szópozíció információ lehetővé teszi a keresési algoritmus számára, hogy azonosítsa a szó közelségét a kifejezéskeresés támogatása érdekében. A gyakoriság segítségével a dokumentumok rangsorolhatók egy lekérdezéshez. Ilyen témák állnak az információkeresési kutatások középpontjában.

Az invertált indexet ritka mátrix képviseli, mivel nem minden szó szerepel minden dokumentumban. Az index hasonló az LSA-ban használt dokumentumkifejezés-mátrixhoz. Az invertált index felfogható egy hash-tábla formájának. Egyes esetekben az index bináris fa formájában van, amely további memóriát igényel, de csökkentheti a keresési időt. Nagy indexeknél az architektúrát általában egy elosztott hash tábla reprezentálja [17] .

Index egyesítése

Az invertált indexet egyesítés vagy visszaállítás tölti fel. Az architektúra úgy tervezhető, hogy támogassa a növekményes indexelést [18] [19] , ahol az összevonás meghatározza a hozzáadandó vagy frissítendő dokumentumot vagy dokumentumokat, majd minden dokumentumot szavakba elemez. A technikai pontosság érdekében az egyesítés egyesíti az újonnan indexelt dokumentumokat, amelyek általában a virtuális memóriában találhatók , egy index-gyorsítótárral, amely a számítógép egy vagy több merevlemezén található .

Az elemzés után az indexelő hozzáadja a megadott dokumentumot a dokumentumok listájához a megfelelő szavakhoz. Egy nagyobb keresőben a fordított indexhez tartozó szavak keresése túlságosan időigényes lehet, ezért általában két részre oszlik:

közvetlen indexfejlesztés,
előremutató index rendezése fordított indexbe.

Az invertált indexet azért nevezték így, mert ez a közvetlen index inverze .

Tömörítés

Egy nagyszabású keresési index felépítése és karbantartása jelentős memória- és feldolgozási feladatokat igényel. Sok keresőmotor valamilyen tömörítést használ a lemezen lévő indexek méretének csökkentésére [6] . Fontolja meg a következő forgatókönyvet egy teljes szövegű internetes keresőmotor esetében:

Egy karakter tárolásához 8 bit (1 bájt ) szükséges. Egyes kódolások karakterenként 2 bájtot használnak [20] .
Vegyük az oldal bármely szavának átlagos karakterszámát 5-nek.

Ebben a forgatókönyvben egy 2 milliárd weboldal tömörítetlen indexének 500 milliárd szóbejegyzést kellene tárolnia. Karakterenként 1 bájt vagy szónként 5 bájt csak 2500 gigabájt memóriaterületet igényelne. Ez több, mint 2 személyi számítógép átlagos szabad lemezterülete. A hibatűrő elosztott architektúra még több memóriát igényel. A választott tömörítési módszertől függően az index ennek a méretnek a töredékére csökkenhet. A tömörítés és a kitömörítés végrehajtásához szükséges idő és feldolgozási teljesítmény kompromisszuma.

Nevezetesen, a nagyszabású keresőmotor-projektek tartalmazzák a tárolási költségeket, valamint a tárolás energiaköltségeit.

Dokumentum elemzése

A dokumentum elemzése (vagy elemzése ) magában foglalja a dokumentum komponensekre (szavakra) történő elemzését a közvetlen és fordított indexekbe való beillesztéshez. A talált szavakat tokennek hívják , a keresőmotor indexelése és a természetes nyelvi feldolgozás kontextusában pedig az elemzést gyakran tokenizációnak (vagyis tokenekre bontásnak) nevezik. Az elemzést néha beszédrész- jelölésnek , morfológiai elemzésnek, tartalomelemzésnek , szövegelemzésnek, szövegelemzésnek, megállapodásgenerálásnak , beszédszegmentálásnak , lexikális elemzésnek is nevezik . Az „indexelés”, „elemzés” és „tokenizálás” kifejezéseket a vállalati szleng felcserélhetően használják.

A természetes nyelvi feldolgozást folyamatosan kutatják és fejlesztik. A tokenizációnak problémái vannak a szükséges információk kinyerésével a dokumentumokból az indexeléshez a minőségi keresések támogatása érdekében. Az indexelés tokenizálása számos technológiát foglal magában, amelyek megvalósítása üzleti titok lehet .

Problémák a természetes nyelvi feldolgozásban

Szóhatár kétértelműség Első pillantásra úgy tűnhet, hogy a tokenizálás egyszerű feladat, de nem az, különösen többnyelvű indexelő fejlesztésekor. Számszerűen egyes nyelvek, például a kínai vagy a japán szövegei kihívást jelentenek, mivel a szavakat nem választják el egyértelműen szóközök . A tokenizálás célja a felhasználók által keresni kívánt szavak felismerése. A nyelvspecifikus logikát használják a szóhatárok helyes felismerésére, ami szükséges egy elemző kifejlesztéséhez minden támogatott nyelvhez (vagy hasonló határvonalú és szintaxisú nyelvcsoportokhoz). Nyelvi kétértelműség A dokumentumok pontosabb rangsorolásához a keresőmotorok további információkat is figyelembe vehetnek egy szóval kapcsolatban, például azt, hogy milyen nyelvhez vagy szórészhez tartozik. Ezek a módszerek nyelvfüggőek, mivel a szintaxis nyelvenként eltérő. A tokenizálással egyes keresőmotorok megpróbálják automatikusan felismerni a dokumentum nyelvét. Különféle fájlformátumok Annak érdekében, hogy helyesen meghatározzuk, mely bájtok képviselik a karaktereket a dokumentumban, a fájlformátumot megfelelően kell feldolgozni. A különféle fájlformátumokat támogató keresőmotoroknak megfelelően meg kell nyitniuk a dokumentumot, hozzá kell férniük a dokumentumhoz, és tokenizálniuk kell a karaktereit. Memória hibák A természetes nyelvi adatok minősége nem mindig tökéletes. A sérülékenység oka ismeretlen számú dokumentum – különösen az interneten –, amelyek nem engedelmeskednek a megfelelő fájlprotokollnak. A bináris karakterek hibásan kódolhatók a dokumentum különböző részein. E karakterek felismerése és megfelelő feldolgozás nélkül az index vagy az indexelés minősége romolhat.

Tokenizálás

A legtöbb emberrel ellentétben a számítógépek nem értik a természetes nyelvű dokumentumok szerkezetét, és nem képesek automatikusan felismerni a szavakat és mondatokat. A számítógép számára a dokumentum csak bájtok sorozata. A számítógép nem "tudja", hogy a szóköz karakter a szóelválasztó a dokumentumban. A személynek be kell programoznia a számítógépet, hogy meghatározza, mi az a szó, amelyet tokennek neveznek. Az ilyen programot általában tokenizálónak vagy elemzőnek (parser), valamint lexikális elemzőnek nevezik [21] . Egyes keresőmotorok és más természetes nyelvi feldolgozó szoftverek támogatják az olyan speciális elemző programokat, mint a YACC vagy a Lex [22] .

A tokenizálás során az elemző meghatároz egy olyan karaktersorozatot, amely szavakat és más elemeket, például írásjeleket , numerikus kódokkal képvisel, amelyek közül néhány nem nyomtatható vezérlőkarakter . Az elemző képes felismerni bizonyos objektumokat, például e-mail címeket , telefonszámokat és URL -eket . Az egyes tokenek felismerésekor néhány jellemző tárolható, például a nyelv vagy a kódolás, a beszédrész, a pozíció, a mondat száma, a mondatban elfoglalt hely, a hossza és a sorszám [21] .

Nyelvfelismerés

Ha a kereső több nyelvet is támogat, akkor a tokenizálás során az első lépés az egyes dokumentumok nyelvének meghatározása lesz, mivel sok további lépés ettől függ (például a szótövis és a beszédrész meghatározása). A nyelvfelismerés az a folyamat, amelynek során egy számítógépes program megpróbálja automatikusan felismerni vagy besorolni egy dokumentum nyelvét. Az automatikus nyelvfelismerés a természetes nyelvi feldolgozás kutatásának tárgya [23] .

Dokumentumformátum-elemzés

Ha a kereső több dokumentumformátumot is támogat, akkor a dokumentumokat fel kell készíteni a tokenizálásra. A probléma az, hogy egyes dokumentumformátumok a szöveges tartalom mellett formázási információkat is tartalmaznak. Például a HTML dokumentumok HTML címkéket tartalmaznak [24] . Ha a keresőmotor figyelmen kívül hagyja a tartalom és a szövegjelölés közötti különbséget, akkor az indexbe idegen információk kerülnének, ami rossz keresési eredményeket eredményezne. Formátumelemzés – A dokumentumba ágyazott jelölőnyelv azonosítása és feldolgozása. A formátumelemzést szerkezeti elemzésnek, címkefelosztásnak , szövegnormalizálásnak is nevezik .

A formátum elemzésének feladatát bonyolítja a különféle fájlformátumok bonyolultsága. Egyes fájlformátumokat szellemi tulajdonjogok védik , kevés információ áll rendelkezésre róluk, míg mások éppen ellenkezőleg, jól dokumentáltak. A keresőmotorok által támogatott általános, jól dokumentált fájlformátumok [25] [26] :

HTML
ASCII szöveges fájlok (szöveges dokumentumok számítógéppel olvasható formázás nélkül)
Adobe elektronikus dokumentum formátum ( PDF )
PostScript (PS)
Latex
Usenet internetes hírszerver formátum
XML és származékai, például RSS
SGML
Multimédiás metaadat- formátumok , mint például az ID3
Microsoft Word
Microsoft Excel
Microsoft PowerPoint
IBM Lotus Notes

Egyes keresőmotorok támogatják a tömörített vagy titkosított formátumban tárolt fájlokat [27] [28] [29] . Ha tömörített formátummal dolgozik, az indexelő először kicsomagolja a dokumentumot. Ez a lépés egy vagy több fájlt eredményezhet, amelyek mindegyikét külön kell indexelni. A következő tömörített fájlformátumok támogatottak:

A ZIP egy adattömörítési és fájlarchiválási formátum
RAR - adattömörítési formátum és shareware archiváló
CAB – Microsoft Windows kabinetfájl
Gzip - gzip tömörített fájlformátum
BZIP - bzip tömörített fájlformátum
Szalagarchívum (TAR) , egy tömörített Unix fájl
TAR.Z, TAR.GZ vagy TAR.BZ2 – A Compress, GZIP vagy BZIP2 formátumban tömörített fájlok Unix archívuma

A formátumelemzés minőségjavító technikákat is tartalmazhat, hogy elkerülje a szükségtelen információk indexbe való felvételét. A tartalom kezelheti a formázási információkat, hogy további információkat is tartalmazzon. Példák a dokumentum formázásával való visszaélésre internetes spam esetén :

Több száz vagy több ezer szó szerepeltetése egy olyan szakaszban, amely el van rejtve a monitoron, de látható az indexelő számára formázási címkék segítségével (például a CSS vagy a JavaScript használatát bele lehet foglalni egy rejtett div címkébe a HTML-ben).
A szavak betűszínének beállítása a háttér színével megegyezőre, ami a szavakat az ember számára láthatatlanná teszi a dokumentum megtekintésekor, de a szavak láthatóak maradnak az indexelő számára.

Partíció felismerés

Egyes keresőmotorok tartalmaznak szakaszfelismerést, amely azonosítja a dokumentum főbb részeit a tokenizálás előtt. A korpuszban nem minden dokumentum olvasható úgy, mint egy jól megírt, fejezetekre és oldalakra osztott könyv. Az interneten található egyes dokumentumok, például a hírlevelek és a vállalati jelentések hibás tartalmat és oldalsávokat tartalmaznak, amelyekből hiányzik a fő tartalom. Ez a cikk például más weboldalakra mutató hivatkozásokat jelenít meg a bal oldali menüben . Egyes fájlformátumok, például a HTML vagy a PDF, lehetővé teszik a tartalom oszlopokban való megjelenítését. Bár a dokumentum tartalma különböző területeken jelenik meg a képernyőn, a forrásszöveg szekvenciálisan tárolja ezeket az információkat. A forrásszövegben szekvenciálisan megjelenő szavak szekvenciálisan indexelve vannak, még akkor is, ha a mondatok és bekezdések a monitor különböző részein jelennek meg. Ha a keresőmotorok minden tartalmat úgy indexelnek, mintha az a dokumentum fő tartalma lenne, akkor az index és a keresés minősége romolhat. Két fő probléma merül fel:

A különböző szakaszok tartalmát az indexhez kapcsolódónak tekintjük, pedig valójában nem az.
Az extra "oldalsáv" tartalom szerepel az indexben, de nem járul hozzá a dokumentum valós értékéhez, így az index a dokumentum gyengén ábrázolásával van kitöltve.

Egy szakasz elemzése megkövetelheti, hogy a keresőmotor megvalósítsa az egyes dokumentumok megjelenítési logikáját , azaz magának a dokumentumnak absztrakt ábrázolását, majd a dokumentum helyett az ábrázolást indexelje. Például néha JavaScriptet használnak a tartalom megjelenítésére egy weboldalon . Ha a keresőmotor "nem látja" a JavaScriptet, akkor az oldalak hibásan vannak indexelve, mivel a tartalom egy része nincs indexelve. Tekintettel arra, hogy egyes keresőmotorok nem törődnek a megjelenítési problémákkal, a webfejlesztők igyekeznek nem JavaScript-en keresztül megjeleníteni a tartalmat, vagy a NoScript címkét használják annak biztosítására, hogy a weboldal megfelelően legyen indexelve [30] . Ugyanakkor ez a tény felhasználható arra, hogy a keresőindexelő „láthassa” a különféle rejtett tartalmakat.

Meta tag indexelés

Bizonyos dokumentumok gyakran tartalmaznak beágyazott metaadatokat, például szerzőt, kulcsszavakat , leírást és nyelvet. A HTML-oldalakon a metacímkék olyan kulcsszavakat tartalmaznak, amelyek szintén szerepelnek az indexben. A korábbi internetes keresési technológiák indexelték a kulcsszavakat a közvetlen index metacímkéiben, és nem elemezték a dokumentum teljes szövegét. Ekkor még nem volt teljes szöveges indexelés, és a számítógépes hardver nem volt képes támogatni ezt a technológiát. A HTML jelölőnyelv eredetileg tartalmazta a meta tagek támogatását a helyes és egyszerű indexelés érdekében, tokenizálás nélkül [31] .

Az internet 1990- es évekbeli fejlődése során számos vállalat hozott létre vállalati webhelyeket. A weboldalak leírására használt kulcsszavak marketingorientáltabbá váltak, és úgy tervezték, hogy növeljék az eladásokat azáltal, hogy bizonyos keresési kifejezések esetén egy weboldalt helyeznek el a keresési eredményoldal tetején. Az a tény, hogy ezeket a kulcsszavakat szubjektív módon határozták meg, spamekhez vezetett, ami arra kényszerítette a keresőmotorokat, hogy elfogadják a teljes szöveges indexelést. Előfordulhat, hogy a keresőmotor-fejlesztők sok "marketing kulcsszót" tettek bele egy weboldal tartalmába, mielőtt érdekes és hasznos információkkal töltötték volna meg. A weboldalak tervezésének célja azonban az ügyfelek vonzása volt, ezért a fejlesztők érdekeltek voltak abban, hogy a látogatók megtartása érdekében több hasznos tartalom kerüljön az oldalra . Ebben az értelemben a teljes szövegű indexelés objektívebb volt, és javította a keresőmotorok eredményeinek minőségét, ami hozzájárult a teljes szövegű indexelési technológiák kutatásához.

A helyi keresésben a megoldások tartalmazhatnak metacímkéket, amelyek lehetővé teszik a szerzők általi keresést, mivel a keresőmotor különféle fájlok tartalmát indexeli, amelyek tartalma nem nyilvánvaló. A helyi keresés inkább a felhasználó ellenőrzése alatt áll, míg az internetes keresőmotoroknak inkább a teljes szöveges indexre kell összpontosítaniuk.

Lásd még

Jegyzetek

↑ Clarke, Cormack, 1995 .
↑ Rice, Bailey .
↑ Jacobs, Finkelstein, Salesin, 2006 .
↑ Lee .
↑ Barna, 1996 .
↑ 1 2 Vágás, Pedersen, 1990 .
↑ mysql .
↑ próbáld meg .
↑ Gusfield, 1997 .
↑ fordított index .
↑ Foster, 1965 .
↑ Landauer, 1963 .
↑ 5 gramm .
↑ Dean, Ghemawat, 2004 .
↑ Brin, Page, 2006 .
↑ Grossman, Frieder, Goharian, 2002 .
↑ Tang, Sandhya, 2004 .
↑ Tomasic, 1994 .
↑ Luk, Lam, 2007 .
↑ unicode .
↑ 12 Tokenization Guidelines, 2011 .
↑ Lex&Yacc, 1992 .
↑ Automatizált nyelvfelismerés, 2009 .
↑ html, 2011 .
↑ formátumú fájlok .
↑ Google/Yandex fájltípusok .
↑ Programok indexeléshez és fájlok kereséséhez .
↑ Archívum indexelés .
↑ Windows indexelő szolgáltatás .
↑ JS indexelés .
↑ Lee Hypertext, 1995 .

Irodalom

Charles L. A. Clarke, Gordon V. Cormack. Dinamikus fordított indexek elosztott teljes szöveges visszakereső rendszerhez // MultiText Project Technical Report MT-95-01. – Waterloo Egyetem, Waterloo, Ontario N2L 3G1, Kanada, 1995.

Charles E. Jacobs, Adam Finkelstein, David H. Salesin. Gyors többfelbontású képlekérdezés // Számítástechnikai és Mérnöki Tanszék. – Washingtoni Egyetem, Seattle, Washington 98195, 2006.

Cutting, D., Pedersen, J. Optimizations for dynamic inverted index karbantartás / Jean-Luc Vidick. - NY, USA: ACM New York, 1990. - P. 405-411 . — ISBN 0-89791-408-2 .

Eric W. Brown. Végrehajtási teljesítménnyel kapcsolatos problémák a teljes szöveges információ-visszakeresésben . - University of Massachusetts Amherst: Számítástechnikai Tanszék, 1996. - 179 p. — (Műszaki jelentés 95-81).
Dan Gusfield. Algoritmusok karakterláncokon, fákon és szekvenciákon: Számítástechnika és számítási biológia . - USA: Cambridge University Press, 1997. - 326 p. — ISBN 0-521-58519-8 .
Caxton Croxford Foster. Információkeresés: információtárolás és visszakeresés AVL fák segítségével // ACM '65 Proceedings of the 1965 20th National Conference. - NY, USA, 1965. - P. 192-205 . - doi : 10.1145/800197.806043 .
Landauer, WI A kiegyensúlyozott fa és felhasználása az információkeresésben // IEEE Trans. az elektronikus számítógépekről. – USA, 1963. – Nem. 6 . — 12. o .
Jeffrey Dean, Sanjay Ghemawat. MapReduce : Egyszerűsített adatfeldolgozás nagy klasztereken . – Google, Inc., 2004.
Sergey Brin, Lawrence Page. Egy nagyszabású hipertextuális webes kereső anatómiája . – Stanford Egyetem, Stanford: Számítástechnikai Tanszék, 2006.
Grossman, Frieder, Goharian. A fordított index IR alapjai . – 2002.
Tang Hunqiang, Sandhya Dwarkadas. Hibrid globális helyi indexelés a hatékony peer-to-peer információ- visszakeresés érdekében . — Rochesteri Egyetem: Számítástechnikai Tanszék, 2004.
Anthony Thomas. Fordított listák fokozatos frissítése szöveges dokumentumok lekéréséhez : Konferencia folyamatban. – Stanford Egyetem, 1994.
Robert W. P. Luk, Wai Lam. Hatékony, a memóriában bővíthető fordított fájl // Információs rendszerek. - 2007. - Nem. 32. (5) bekezdése alapján . - P. 733-754 . - doi : 10.1016/j.is.2006.06.001 .
Radim Rehůrek, Milan Kolkus. Nyelvi azonosítás a weben: A szótári módszer kiterjesztése // Lecture Notes in Computer Science Volume. – Mexikó, 2009. – Nem. 5449 . — P. 357-368 . - ISBN 978-3-642-00382-0 . (nem elérhető link)
Scoping SIG, Tokenization Taskforce PCI Security Standards Council. Információs kiegészítés: PCI DSS tokenizációs irányelvek . - 2011. - S. 23.
B. Lawson, R. Sharp. HTML5 tanulása = A HTML5 bemutatása. - Péter, 2011. - 272 p. — (Szakkönyvtár). - 2000 példány. - ISBN 978-5-459-00269-0 , 978-0321687296.
T. Berners-Lee. Hypertext Markup Language - 2.0 (angol) . — Hálózati Munkacsoport, 1995.
Levine JR, Mason T, Brown D. Lex & Yacc. - Sebastopol: O'Reilly & Associates, 1992. - P. 387. - ISBN 1565920007 .

Linkek

James Lee. A szoftver megtanulja megcímkézni a fényképeket (angol) (nem elérhető link) . MIT Technology Review 1-2 (2006. november 09.). Letöltve: 2013. december 3. Az eredetiből archiválva : 2013. október 20..

Stephen V. Rice, Stephen M. Bailey. Hangok keresése Összehasonlítások Hangok keresése . © 2013 Comparisonics Corporation (2004. május).
S. Breen , L. Page Egy nagyszabású hipertextuális webes kereső anatómiája . Letöltve: 2013. december 3. Az eredetiből archiválva : 2012. március 30. (határozatlan)
MySQL 5.1 kézikönyv . 18.2.3.1 LINEÁRIS HASH particionálás . mysql.com . © Oracle és/vagy leányvállalatai 1997, 2013 . Letöltve: 2013. október 24.
Vreda Pieterse és Paul E. Black. "próbáld ki" az Algoritmusok és adatstruktúrák szótárában . http://www.nist.gov (2011. február 22.).
Vreda Pieterse és Paul E. Black. "fordított index" az Algoritmusok és adatstruktúrák szótárában . http://www.nist.gov US National Institute of Standards and Technology (2008. augusztus 14.).
Thorsten Brants, Alex Franz. Web 1T 5 grammos 1. verzió (angol) . http://catalog.ldc.upenn.edu/ (2006. szeptember 19.).
Az Unicode szabvány – Gyakran Ismételt Kérdések ( 2006. december).
Milyen fájlformátumokat indexel a Google? . http://www.seowords.ru _ © 2008-2013 Egy kicsit a SEO-ról (2010. február 22.). Letöltve: 2013. november 24. (határozatlan)
rznasa. Milyen típusú fájlokat indexelhet a Google és a Yandex (elérhetetlen hivatkozás) . http://excalibur.com.ua . © 2009-2010 Honlapkészítés és promóciós portál :: EXCALIBUR. (2010-09-21 22:42). Letöltve: 2013. november 24. Az eredetiből archiválva : 2013. december 4.. (határozatlan)
kísérteties. Fájlindexelő és keresőprogramok / Desktop Search (2003. március 25.). Letöltve: 2013. december 1. (határozatlan)
Maxim Zakharov. Archívum indexelése (2010. május 11.). Letöltve: 2013. december 1. (határozatlan)
Windows indexelő szolgáltatás (2013. augusztus 20.). Letöltve: 2013. december 1. (határozatlan)
A Google Site Search támogatja az oldalaim JavaScript-tartalmának indexelését? (nem elérhető link) . ©2013 Google . Letöltve: 2013. december 1. Az eredetiből archiválva : 2013. december 10. (határozatlan)

Információk keresése az interneten
Eszközök	Keresőrendszer Metakereső motor keresőmotor
Indexelés	Index keresése Indexelés a keresőkben Kereső robot Robot kivétel szabvány
Kérés	Keresési lekérdezés Lekérdezési nyelv
keresési eredményeket	Keresési eredményoldal Körű Relevancia PageRank Keresőoptimalizáció
Egyéb	Függőleges keresés Információszerzés közösségi keresés Search Marketing opensearch Weboldal archiválás Offline böngésző WAIS