Vektor minta

Vektoros térmodell — az információkeresésben egy dokumentumgyűjtemény vektoros ábrázolása egy , a teljes gyűjteményre közös vektortérből .

A vektormodell számos információ-visszakeresési probléma megoldásának alapja, mint például: dokumentum keresése kérésre , dokumentumok osztályozása, dokumentumok klaszterezése .

Definíció

A vektormodellben szereplő dokumentumot a kifejezések rendezetlen halmazának tekintjük. Az információkeresésben kifejezések a szöveget alkotó szavak, valamint olyan szövegelemek, mint például a 2010 , II-5 vagy Tien Shan .

Különféle módon meg lehet határozni egy kifejezés súlyát egy dokumentumban - egy szó „jelentőségét” egy adott szöveg azonosítása szempontjából. Például egyszerűen megszámolhatja egy kifejezés előfordulásának számát egy dokumentumban, az úgynevezett kifejezés gyakoriságát – minél gyakrabban fordul elő egy szó egy dokumentumban, annál nagyobb súlya lesz. Ha egy kifejezés nem fordul elő egy dokumentumban, akkor a súlya abban a dokumentumban nulla.

A feldolgozás alatt álló gyűjtemény dokumentumaiban előforduló összes feltétel megrendelhető. Ha most egy dokumentumhoz kiírjuk az összes kifejezés súlyát, beleértve azokat is, amelyek nem szerepelnek ebben a dokumentumban, akkor egy vektort kapunk, amely ennek a dokumentumnak a vektortérben való ábrázolása lesz. Ennek a vektornak a dimenziója, akárcsak a tér dimenziója, megegyezik a teljes gyűjteményben lévő különböző kifejezések számával, és minden dokumentumra azonos.

Formálisabban

d j = ( w 1j , w 2j , …, w nj )

ahol d j a j -edik dokumentum vektoros reprezentációja , w ij az i -edik tag súlya a j -edik dokumentumban, n a különböző tagok száma a gyűjtemény összes dokumentumában.

Az összes dokumentum ilyen ábrázolásával például megtalálhatja a térbeli pontok közötti távolságot, és ezáltal megoldhatja a dokumentumok hasonlóságának problémáját - minél közelebb vannak a pontok, annál hasonlóbbak a megfelelő dokumentumok. Dokumentum lekérés alapján történő keresése esetén a kérés ugyanennek a térnek a vektoraként is ábrázolódik - és kiszámolható a dokumentumok kérésnek való megfelelése.

Term súlyozási módszerek

A vektormodell teljes definiálásához pontosan meg kell határozni, hogy a kifejezés súlya a dokumentumban hogyan található. A súlyozási függvény beállításának számos szabványos módja van:

logikai súly - egyenlő 1-gyel, ha a kifejezés előfordul a dokumentumban, és 0-val ellenkező esetben;
tf (kifejezés gyakorisága, kifejezés gyakorisága) - a súlyt a kifejezés előfordulási számának függvényében határozzák meg a dokumentumban;
tf-idf (kifejezés gyakorisága - fordított bizonylatgyakoriság, kifejezés gyakorisága - inverz bizonylatgyakoriság) - a súlyt a dokumentumban előforduló kifejezések számának függvényének és a bizonylatok számának reciprokának a szorzataként definiálják. abban a gyűjteményben, amelyben ez a kifejezés előfordul.

Koszinusz hasonlóság

A koszinusz -hasonlóság két Hilbert előtti térvektor hasonlóságának mértéke, és a közöttük lévő szög koszinuszának mérésére szolgál .

Adott két jellemzővektor , A és B , akkor a cos(θ) koszinusz hasonlóságot a pontszorzat és a norma segítségével ábrázolhatjuk :

{\text{hasonlóság}}=\cos(\theta )={A\cdot B \over \|A\|\|B\|}={\frac {\sum \limits _{{i=1}} ^{{n}}{A_{i}\times B_{i}}}{{\sqrt {\sum \limits _{{i=1}}^{{n}}{(A_{i})^ {2))))\times {\sqrt {\sum \limits _{{i=1}}^{{n}}{(B_{i})^{2}}}}}}

Információkeresés esetén két dokumentum koszinusz hasonlósága 0-tól 1-ig terjed, mivel egy kifejezés gyakorisága (a tf-idf súlyok ) nem lehet negatív. A két terminus frekvenciavektor közötti szög nem lehet nagyobb 90°-nál.

A koszinusz-hasonlóság népszerűségének egyik oka, hogy hatásos pontozási mérőszámként, különösen ritka vektorok esetén, mivel csak a nullától eltérő dimenziókat kell figyelembe venni.

"Lágy" koszinusz mérték

A „lágy” koszinusz mérték [1] két vektor hasonlóságának „lágy” mértéke, vagyis olyan mérték, amely figyelembe veszi a jellemzőpárok közötti hasonlóságokat. A hagyományos koszinusz hasonlóság a vektormodell tulajdonságait függetlennek vagy teljesen izoláltnak tekinti, míg a „puha” koszinuszos mérték a vektormodellben lévő jellemzők hasonlóságát. Ez lehetővé teszi a koszinusz mértékének általánosítását, valamint a vektortérben lévő objektumok hasonlóságának gondolatát ("puha" hasonlóság).

Például a természetes nyelvi feldolgozás területén az objektumok közötti hasonlóság meglehetősen intuitív. Az olyan jellemzők, mint a szavak, az N-grammok vagy a szintaktikai N-gramok [2] , meglehetősen hasonlóak lehetnek, bár formálisan a vektormodellben különböző jellemzőknek tekintik őket. Például a "játék" és a "játék" szavak különböznek egymástól, és így különböző dimenziókban jelennek meg a vektormodellben, bár szemantikailag nyilvánvalóan összefüggenek. N-gramok vagy szintaktikai N-gramok esetén Levenshtein távolság alkalmazható (ráadásul a Levenshtein távolság a szavakra is alkalmazható).

A "lágy" koszinusz mértékének kiszámításához egy s hasonlósági mátrixot vezetünk be a jellemzők között. Kiszámítható a Levenshtein távolság vagy más hasonlósági mértékek használatával, például a Wordnet különböző hasonlósági mértékeivel . Ezután ezzel a mátrixszal hajtjuk végre a szorzást.

Adott két N -dimenziós a és b vektor, akkor a lágy koszinusz mértékét a következőképpen számítjuk ki:

{\begin{aligned}\operatorname {soft\_cosine}_{1}(a,b)={\frac {\sum \nolimits _{{i,j}}^{N}s_{{ij}}a_ {i}b_{j}}{{\sqrt {\sum \nolimits _{{i,j}}^{N}s_{{ij}}a_{i}a_{j}}}{\sqrt {\ összeg \nolimits _{{i,j}}^{N}s_{{ij}}b_{i}b_{j}}}},\end{igazított}}

ahol s ij = hasonlóság( i jellemző, j jellemző ) .

Ha nincs hasonlóság a jellemzők között ( s ii = 1 , s ij = 0 i ≠ j esetén ), ez az egyenlet ekvivalens a hagyományos koszinusz hasonlósági képlettel.

Ennek a mértéknek a bonyolultsági foka másodfokú, ami a valós világ problémáira meglehetősen alkalmazható. A komplexitás foka lineárisra is transzformálható.

Jegyzetek

↑ Grigori Sidorov, Alexander Gelbukh, Helena Gómez-Adorno és David Pinto. Lágy hasonlóság és lágy koszinusz mértéke: A vektortér-modell jellemzőinek hasonlósága Archivált 2014. október 13-án a Wayback Machine -nél . Computacion y Sistemas, Vol. 18, sz. 3, pp. 491-504, 2014, DOI: 10.13053/CyS-18-3-2043 Archiválva : 2014. október 13. a Wayback Machine -nél .
↑ Grigori Sidorov, Francisco Velasquez, Efstathios Stamatatos, Alexander Gelbukh és Liliana Chanona-Hernández. A szintaktikai függőségen alapuló N-gramok osztályozási jellemzőkként archiválva 2017. július 3-án a Wayback Machine -nél . LNAI 7630, pp. 2012. 1-11., ISBN 978-3-642-37798-3 Archivált 2017. július 3-án a Wayback Machine -nél .

Irodalom

Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An Introduction to Information Retrieval Archivált 2012. december 9-én a Wayback Machine Draftnál. online kiadás. Cambridge University Press. - 2009. - 544 pp.
Daniel Jurafsky, James H. Martin Beszéd és nyelvfeldolgozás. Bevezetés a természetes nyelvi feldolgozásba, a számítógépes nyelvészetbe és a beszédfelismerésbe. második kiadás. Pearson Education International. - 2009. - 1024 pp.

Lásd még

Az Apache Lucene egy vektormodellre épülő információ-visszakereső szoftver.