A látens szemantikai elemzés (LSA ) egy természetes nyelvi információfeldolgozási módszer , amely a dokumentumok könyvtára és a bennük található kifejezések közötti kapcsolatot elemzi, és feltárja az összes dokumentumban és kifejezésben rejlő jellemző tényezőket ( témákat ).
A látens szemantikai elemzés módszere a faktoranalízis elvein alapul , különösen a vizsgált jelenségek vagy objektumok látens összefüggéseinek azonosításán. A dokumentumok osztályozásánál / klaszterezésénél ezt a módszert alkalmazzuk a lexikai tételek kontextusfüggő jelentéseinek kinyerésére nagy szövegkorpusok statisztikai feldolgozásával [1] .
Az LSA-t 1988 -ban [2] szabadalmaztatta Scott Deerwester , Susan Dumais , George Furnas , Richard Harshman , Thomas Landauer , Karen Lochbaum és Lynn Streeter . Az információ-visszakeresés területén ezt a megközelítést látens szemantikai indexelésnek (LSI) nevezik .
Első alkalommal használták az LSA-t szövegek automatikus indexelésére, a szöveg szemantikai szerkezetének azonosítására és pszeudodokumentumok beszerzésére [3] . Ezt a módszert aztán meglehetősen sikeresen alkalmazták tudásbázisok reprezentálására [4] és kognitív modellek felépítésére [5] .
Az utóbbi években az LSA módszert gyakran használták információkeresésre ( dokumentumindexelés ), dokumentumok osztályozására [6] , megértési modellekre [7] és más olyan területekre, ahol információs adattömbből kell azonosítani a főbb tényezőket.
Az LSA összehasonlítható egy egyszerű típusú neurális hálózattal , amely három rétegből áll: az első réteg szavakat ( kifejezéseket ) tartalmaz, a második egy bizonyos helyzeteknek megfelelő dokumentumkészletet, a harmadik, középső, rejtett réteget. különböző súlyegyütthatókkal rendelkező csomópontok halmaza, amelyek összekötik az első és a második réteget.
Az LSA egy kifejezés-dokumentum mátrixot használ bemenetként , amely leírja a rendszer betanításához használt adatkészletet. Ennek a mátrixnak az elemei főszabály szerint olyan súlyokat tartalmaznak, amelyek figyelembe veszik az egyes kifejezések használatának gyakoriságát az egyes dokumentumokban és a kifejezés részvételét az összes dokumentumban ( TF-IDF ). Az LSA legelterjedtebb verziója a Singular Value Decomposition (SVD ) használatán alapul. Az SVD dekompozíció segítségével bármely mátrixot ortogonális mátrixok halmazára bontják, amelyek lineáris kombinációja meglehetősen pontos közelítés az eredeti mátrixhoz.
Formálisabban a szinguláris érték tétele szerint [9] bármely valós téglalap alakú mátrix felbontható három mátrix szorzatára:
,
ahol a és a mátrixok ortogonálisak, és egy átlós mátrix, amelynek átlóján lévő értékeket a mátrix szinguláris értékeinek nevezzük . A T betű a kifejezésben a mátrix transzponálását jelenti .
Egy ilyen dekompozíciónak van egy figyelemre méltó tulajdonsága: ha csak a legnagyobb szinguláris értékek maradnak meg a mátrixban, és csak az ezeknek az értékeknek megfelelő oszlopok maradnak a mátrixokban, akkor a kapott mátrixok szorzata , és lesz az eredeti mátrix legjobb közelítése a rangmátrixhoz :
,
A látens szemantikai elemzés fő gondolata az, hogy ha a terminusok-dokumentumok mátrixát használták mátrixként , akkor a csak az első lineárisan független komponenseket tartalmazó mátrix tükrözi az eredeti mátrixban jelenlévő különféle függőségek fő szerkezetét. A függőségi szerkezetet a kifejezések súlyfüggvényei határozzák meg.
Így minden kifejezést és dokumentumot vektorok reprezentálnak egy közös dimenziótérben (az úgynevezett hipotézistérben). A kifejezések és/vagy dokumentumok bármely kombinációja közötti közelség könnyen kiszámítható a vektorok pontszorzatával.
A választás általában az adott feladattól függ, és empirikusan választják ki. Ha a kiválasztott érték túl nagy, akkor a módszer elveszti erejét és megközelíti a standard vektoros módszerek jellemzőit. A k túl kicsi értéke nem teszi lehetővé a hasonló kifejezések vagy dokumentumok közötti különbségek rögzítését.
Az LSA módszert használó problémamegoldásnak három fő típusa van:
A módszer előnyei:
Hibák:
természetes nyelvi feldolgozás | |
---|---|
Általános meghatározások | |
Szövegelemzés |
|
Hivatkozás |
|
Gépi fordítás |
|
Azonosítás és adatgyűjtés | |
Tematikus modell | |
Peer review |
|
Természetes nyelvű felület |