Látens szemantikai elemzés

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2014. május 3-án felülvizsgált verziótól ; az ellenőrzések 34 szerkesztést igényelnek .

A látens szemantikai elemzés (LSA ) egy  természetes nyelvi információfeldolgozási módszer , amely a dokumentumok könyvtára és a bennük található kifejezések közötti kapcsolatot elemzi, és feltárja az összes dokumentumban és kifejezésben rejlő jellemző tényezőket ( témákat ).

A látens szemantikai elemzés módszere a faktoranalízis elvein alapul , különösen a vizsgált jelenségek vagy objektumok látens összefüggéseinek azonosításán. A dokumentumok osztályozásánál / klaszterezésénél ezt a módszert alkalmazzuk a lexikai tételek kontextusfüggő jelentéseinek kinyerésére nagy szövegkorpusok statisztikai feldolgozásával [1] .

Történelem

Az LSA-t 1988 -ban [2] szabadalmaztatta Scott Deerwester , Susan Dumais , George Furnas , Richard Harshman , Thomas Landauer , Karen Lochbaum és Lynn Streeter . Az információ-visszakeresés területén ezt a megközelítést látens szemantikai indexelésnek (LSI) nevezik .

Első alkalommal használták az LSA-t szövegek automatikus indexelésére, a szöveg szemantikai szerkezetének azonosítására és pszeudodokumentumok beszerzésére [3] . Ezt a módszert aztán meglehetősen sikeresen alkalmazták tudásbázisok reprezentálására [4] és kognitív modellek felépítésére [5] .

Az utóbbi években az LSA módszert gyakran használták információkeresésre ( dokumentumindexelés ), dokumentumok osztályozására [6] , megértési modellekre [7] és más olyan területekre, ahol információs adattömbből kell azonosítani a főbb tényezőket.

Munkaleírás LSA

Az LSA összehasonlítható egy egyszerű típusú neurális hálózattal , amely három rétegből áll: az első réteg szavakat ( kifejezéseket ) tartalmaz, a második egy bizonyos helyzeteknek megfelelő dokumentumkészletet, a harmadik, középső, rejtett réteget. különböző súlyegyütthatókkal rendelkező csomópontok halmaza, amelyek összekötik az első és a második réteget.

Az LSA egy kifejezés-dokumentum mátrixot használ bemenetként , amely leírja a rendszer betanításához használt adatkészletet. Ennek a mátrixnak az elemei főszabály szerint olyan súlyokat tartalmaznak, amelyek figyelembe veszik az egyes kifejezések használatának gyakoriságát az egyes dokumentumokban és a kifejezés részvételét az összes dokumentumban ( TF-IDF ). Az LSA legelterjedtebb verziója a Singular Value Decomposition (SVD ) használatán alapul. Az SVD dekompozíció segítségével bármely mátrixot ortogonális mátrixok halmazára bontják, amelyek lineáris kombinációja meglehetősen pontos közelítés az eredeti mátrixhoz.

Formálisabban a szinguláris érték tétele szerint [9] bármely valós téglalap alakú mátrix felbontható három mátrix szorzatára:

,

ahol a és a mátrixok  ortogonálisak, és  egy átlós mátrix, amelynek átlóján lévő értékeket a mátrix szinguláris értékeinek nevezzük . A T betű a kifejezésben a mátrix transzponálását jelenti .

Egy ilyen dekompozíciónak van egy figyelemre méltó tulajdonsága: ha csak a legnagyobb szinguláris értékek maradnak meg a mátrixban, és  csak az ezeknek az értékeknek megfelelő oszlopok maradnak a mátrixokban, akkor a kapott mátrixok szorzata , és lesz az eredeti mátrix legjobb közelítése a rangmátrixhoz :

,

A látens szemantikai elemzés fő gondolata az, hogy ha a terminusok-dokumentumok mátrixát használták mátrixként , akkor a csak az első lineárisan független komponenseket tartalmazó mátrix tükrözi az eredeti mátrixban jelenlévő különféle függőségek fő szerkezetét. A függőségi szerkezetet a kifejezések súlyfüggvényei határozzák meg.

Így minden kifejezést és dokumentumot vektorok reprezentálnak egy közös dimenziótérben (az úgynevezett hipotézistérben). A kifejezések és/vagy dokumentumok bármely kombinációja közötti közelség könnyen kiszámítható a vektorok pontszorzatával.

A választás általában az adott feladattól függ, és empirikusan választják ki. Ha a kiválasztott érték túl nagy, akkor a módszer elveszti erejét és megközelíti a standard vektoros módszerek jellemzőit. A k túl kicsi értéke nem teszi lehetővé a hasonló kifejezések vagy dokumentumok közötti különbségek rögzítését.

Alkalmazás

Az LSA módszert használó problémamegoldásnak három fő típusa van:

Az LSA előnyei és hátrányai

A módszer előnyei:

Hibák:

Jegyzetek

  1. Thomas Landauer , Peter W. Foltz és Darrell Laham. Bevezetés a látens szemantikai elemzésbe  //  Discourse Processes : folyóirat. - 1998. - 1. évf. 25 . - P. 259-284 . - doi : 10.1080/01638539809545028 .
  2. 4,839,853 számú amerikai egyesült államokbeli szabadalom
  3. 1 2 Scott Deerwester , Susan T. Dumais , George W. Furnas , Thomas K. Landauer , Richard Harshman . Indexelés látens szemantikai elemzéssel  //  Journal of the American Society for Information Science : folyóirat. - 1990. - 1. évf. 41 , sz. 6 . - P. 391-407 . - doi : 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 . Archiválva az eredetiből 2012. július 17-én.
  4. Thomas Landauer , Susan T. Dumais . Megoldás Platón problémájára: A tudás megszerzésének, indukciójának és reprezentációjának látens szemantikai elemzése  //  JPsychological Review. : folyóirat. - 1997. - 1. évf. 104 . - P. 211-240 . Az eredetiből archiválva : 2012. március 14.
  5. B. Lemaire , G. Denhière . Kognitív modellek látens szemantikai elemzésen  (határozatlan)  // Oktatóanyag az 5. Nemzetközi Kognitív Modellezési Konferencián (ICCM'2003), Bamberg, Németország, 2003. április 9.. - 2003.  (nem elérhető link)
  6. Nekrestyanov I. S. Az információkeresés témaorientált módszerei / Disszertáció Ph.D. fokozatért. Szentpétervári Állami Egyetem, 2000.
  7. Szolovjov A. N. Beszédértési folyamatok modellezése látens szemantikai elemzéssel / Disszertáció a Ph.D. fokozathoz. Szentpétervári Állami Egyetem, 2008.
  8. Archivált másolat . Letöltve: 2017. szeptember 1. Az eredetiből archiválva : 2017. szeptember 1..
  9. Golub J., Van Lone C. Matrix Computing. M.: Mir, 1999.

Linkek