Vektor minta

Vektoros térmodell — az információkeresésben egy dokumentumgyűjtemény vektoros ábrázolása egy , a teljes gyűjteményre közös vektortérből . 

A vektormodell számos információ-visszakeresési probléma megoldásának alapja, mint például: dokumentum keresése kérésre , dokumentumok osztályozása, dokumentumok klaszterezése .

Definíció

A vektormodellben szereplő dokumentumot a kifejezések rendezetlen halmazának tekintjük. Az információkeresésben kifejezések a szöveget alkotó szavak, valamint olyan szövegelemek, mint például a 2010 , II-5 vagy Tien Shan .

Különféle módon meg lehet határozni egy kifejezés súlyát egy dokumentumban - egy szó „jelentőségét” egy adott szöveg azonosítása szempontjából. Például egyszerűen megszámolhatja egy kifejezés előfordulásának számát egy dokumentumban, az úgynevezett kifejezés gyakoriságát – minél gyakrabban fordul elő egy szó egy dokumentumban, annál nagyobb súlya lesz. Ha egy kifejezés nem fordul elő egy dokumentumban, akkor a súlya abban a dokumentumban nulla.

A feldolgozás alatt álló gyűjtemény dokumentumaiban előforduló összes feltétel megrendelhető. Ha most egy dokumentumhoz kiírjuk az összes kifejezés súlyát, beleértve azokat is, amelyek nem szerepelnek ebben a dokumentumban, akkor egy vektort kapunk, amely ennek a dokumentumnak a vektortérben való ábrázolása lesz. Ennek a vektornak a dimenziója, akárcsak a tér dimenziója, megegyezik a teljes gyűjteményben lévő különböző kifejezések számával, és minden dokumentumra azonos.

Formálisabban

d j = ( w 1j , w 2j , …, w nj )

ahol d j a j -edik dokumentum  vektoros reprezentációja , w ij  az i -edik tag súlya a j -edik dokumentumban, n  a különböző tagok száma a gyűjtemény összes dokumentumában.

Az összes dokumentum ilyen ábrázolásával például megtalálhatja a térbeli pontok közötti távolságot, és ezáltal megoldhatja a dokumentumok hasonlóságának problémáját - minél közelebb vannak a pontok, annál hasonlóbbak a megfelelő dokumentumok. Dokumentum lekérés alapján történő keresése esetén a kérés ugyanennek a térnek a vektoraként is ábrázolódik - és kiszámolható a dokumentumok kérésnek való megfelelése.

Term súlyozási módszerek

A vektormodell teljes definiálásához pontosan meg kell határozni, hogy a kifejezés súlya a dokumentumban hogyan található. A súlyozási függvény beállításának számos szabványos módja van:

Koszinusz hasonlóság

A koszinusz -hasonlóság  két Hilbert előtti térvektor hasonlóságának mértéke, és a közöttük lévő szög koszinuszának mérésére szolgál .

Adott két jellemzővektor , A és B , akkor a cos(θ) koszinusz hasonlóságot a pontszorzat és a norma segítségével ábrázolhatjuk :

Információkeresés esetén két dokumentum koszinusz hasonlósága 0-tól 1-ig terjed, mivel egy kifejezés gyakorisága (a tf-idf súlyok ) nem lehet negatív. A két terminus frekvenciavektor közötti szög nem lehet nagyobb 90°-nál.

A koszinusz-hasonlóság népszerűségének egyik oka, hogy hatásos pontozási mérőszámként, különösen ritka vektorok esetén, mivel csak a nullától eltérő dimenziókat kell figyelembe venni.

"Lágy" koszinusz mérték

A „lágy” koszinusz mérték [1]  két vektor hasonlóságának „lágy” mértéke, vagyis olyan mérték, amely figyelembe veszi a jellemzőpárok közötti hasonlóságokat. A hagyományos koszinusz hasonlóság a vektormodell tulajdonságait függetlennek vagy teljesen izoláltnak tekinti, míg a „puha” koszinuszos mérték a vektormodellben lévő jellemzők hasonlóságát. Ez lehetővé teszi a koszinusz mértékének általánosítását, valamint a vektortérben lévő objektumok hasonlóságának gondolatát ("puha" hasonlóság).

Például a természetes nyelvi feldolgozás területén az objektumok közötti hasonlóság meglehetősen intuitív. Az olyan jellemzők, mint a szavak, az N-grammok vagy a szintaktikai N-gramok [2] , meglehetősen hasonlóak lehetnek, bár formálisan a vektormodellben különböző jellemzőknek tekintik őket. Például a "játék" és a "játék" szavak különböznek egymástól, és így különböző dimenziókban jelennek meg a vektormodellben, bár szemantikailag nyilvánvalóan összefüggenek. N-gramok vagy szintaktikai N-gramok esetén Levenshtein távolság alkalmazható (ráadásul a Levenshtein távolság a szavakra is alkalmazható).

A "lágy" koszinusz mértékének kiszámításához egy s hasonlósági mátrixot vezetünk be a jellemzők között. Kiszámítható a Levenshtein távolság vagy más hasonlósági mértékek használatával, például a Wordnet különböző hasonlósági mértékeivel . Ezután ezzel a mátrixszal hajtjuk végre a szorzást.

Adott két N -dimenziós a és b vektor, akkor a lágy koszinusz mértékét a következőképpen számítjuk ki:

ahol s ij = hasonlóság( i jellemző, j jellemző ) .

Ha nincs hasonlóság a jellemzők között ( s ii = 1 , s ij = 0 ij esetén ), ez az egyenlet ekvivalens a hagyományos koszinusz hasonlósági képlettel.

Ennek a mértéknek a bonyolultsági foka másodfokú, ami a valós világ problémáira meglehetősen alkalmazható. A komplexitás foka lineárisra is transzformálható.

Jegyzetek

  1. Grigori Sidorov, Alexander Gelbukh, Helena Gómez-Adorno és David Pinto. Lágy hasonlóság és lágy koszinusz mértéke: A vektortér-modell jellemzőinek hasonlósága Archivált 2014. október 13-án a Wayback Machine -nél . Computacion y Sistemas, Vol. 18, sz. 3, pp. 491-504, 2014, DOI: 10.13053/CyS-18-3-2043 Archiválva : 2014. október 13. a Wayback Machine -nél .
  2. Grigori Sidorov, Francisco Velasquez, Efstathios Stamatatos, Alexander Gelbukh és Liliana Chanona-Hernández. A szintaktikai függőségen alapuló N-gramok osztályozási jellemzőkként archiválva 2017. július 3-án a Wayback Machine -nél . LNAI 7630, pp. 2012. 1-11., ISBN 978-3-642-37798-3 Archivált 2017. július 3-án a Wayback Machine -nél .

Irodalom

Lásd még