Vektoros térmodell — az információkeresésben egy dokumentumgyűjtemény vektoros ábrázolása egy , a teljes gyűjteményre közös vektortérből .
A vektormodell számos információ-visszakeresési probléma megoldásának alapja, mint például: dokumentum keresése kérésre , dokumentumok osztályozása, dokumentumok klaszterezése .
A vektormodellben szereplő dokumentumot a kifejezések rendezetlen halmazának tekintjük. Az információkeresésben kifejezések a szöveget alkotó szavak, valamint olyan szövegelemek, mint például a 2010 , II-5 vagy Tien Shan .
Különféle módon meg lehet határozni egy kifejezés súlyát egy dokumentumban - egy szó „jelentőségét” egy adott szöveg azonosítása szempontjából. Például egyszerűen megszámolhatja egy kifejezés előfordulásának számát egy dokumentumban, az úgynevezett kifejezés gyakoriságát – minél gyakrabban fordul elő egy szó egy dokumentumban, annál nagyobb súlya lesz. Ha egy kifejezés nem fordul elő egy dokumentumban, akkor a súlya abban a dokumentumban nulla.
A feldolgozás alatt álló gyűjtemény dokumentumaiban előforduló összes feltétel megrendelhető. Ha most egy dokumentumhoz kiírjuk az összes kifejezés súlyát, beleértve azokat is, amelyek nem szerepelnek ebben a dokumentumban, akkor egy vektort kapunk, amely ennek a dokumentumnak a vektortérben való ábrázolása lesz. Ennek a vektornak a dimenziója, akárcsak a tér dimenziója, megegyezik a teljes gyűjteményben lévő különböző kifejezések számával, és minden dokumentumra azonos.
Formálisabban
d j = ( w 1j , w 2j , …, w nj )ahol d j a j -edik dokumentum vektoros reprezentációja , w ij az i -edik tag súlya a j -edik dokumentumban, n a különböző tagok száma a gyűjtemény összes dokumentumában.
Az összes dokumentum ilyen ábrázolásával például megtalálhatja a térbeli pontok közötti távolságot, és ezáltal megoldhatja a dokumentumok hasonlóságának problémáját - minél közelebb vannak a pontok, annál hasonlóbbak a megfelelő dokumentumok. Dokumentum lekérés alapján történő keresése esetén a kérés ugyanennek a térnek a vektoraként is ábrázolódik - és kiszámolható a dokumentumok kérésnek való megfelelése.
A vektormodell teljes definiálásához pontosan meg kell határozni, hogy a kifejezés súlya a dokumentumban hogyan található. A súlyozási függvény beállításának számos szabványos módja van:
A koszinusz -hasonlóság két Hilbert előtti térvektor hasonlóságának mértéke, és a közöttük lévő szög koszinuszának mérésére szolgál .
Adott két jellemzővektor , A és B , akkor a cos(θ) koszinusz hasonlóságot a pontszorzat és a norma segítségével ábrázolhatjuk :
Információkeresés esetén két dokumentum koszinusz hasonlósága 0-tól 1-ig terjed, mivel egy kifejezés gyakorisága (a tf-idf súlyok ) nem lehet negatív. A két terminus frekvenciavektor közötti szög nem lehet nagyobb 90°-nál.
A koszinusz-hasonlóság népszerűségének egyik oka, hogy hatásos pontozási mérőszámként, különösen ritka vektorok esetén, mivel csak a nullától eltérő dimenziókat kell figyelembe venni.
A „lágy” koszinusz mérték [1] két vektor hasonlóságának „lágy” mértéke, vagyis olyan mérték, amely figyelembe veszi a jellemzőpárok közötti hasonlóságokat. A hagyományos koszinusz hasonlóság a vektormodell tulajdonságait függetlennek vagy teljesen izoláltnak tekinti, míg a „puha” koszinuszos mérték a vektormodellben lévő jellemzők hasonlóságát. Ez lehetővé teszi a koszinusz mértékének általánosítását, valamint a vektortérben lévő objektumok hasonlóságának gondolatát ("puha" hasonlóság).
Például a természetes nyelvi feldolgozás területén az objektumok közötti hasonlóság meglehetősen intuitív. Az olyan jellemzők, mint a szavak, az N-grammok vagy a szintaktikai N-gramok [2] , meglehetősen hasonlóak lehetnek, bár formálisan a vektormodellben különböző jellemzőknek tekintik őket. Például a "játék" és a "játék" szavak különböznek egymástól, és így különböző dimenziókban jelennek meg a vektormodellben, bár szemantikailag nyilvánvalóan összefüggenek. N-gramok vagy szintaktikai N-gramok esetén Levenshtein távolság alkalmazható (ráadásul a Levenshtein távolság a szavakra is alkalmazható).
A "lágy" koszinusz mértékének kiszámításához egy s hasonlósági mátrixot vezetünk be a jellemzők között. Kiszámítható a Levenshtein távolság vagy más hasonlósági mértékek használatával, például a Wordnet különböző hasonlósági mértékeivel . Ezután ezzel a mátrixszal hajtjuk végre a szorzást.
Adott két N -dimenziós a és b vektor, akkor a lágy koszinusz mértékét a következőképpen számítjuk ki:
ahol s ij = hasonlóság( i jellemző, j jellemző ) .
Ha nincs hasonlóság a jellemzők között ( s ii = 1 , s ij = 0 i ≠ j esetén ), ez az egyenlet ekvivalens a hagyományos koszinusz hasonlósági képlettel.
Ennek a mértéknek a bonyolultsági foka másodfokú, ami a valós világ problémáira meglehetősen alkalmazható. A komplexitás foka lineárisra is transzformálható.