A kifejezés-dokumentum mátrix egy matematikai mátrix , amely leírja a dokumentumok gyűjteményében előforduló kifejezések gyakoriságát. A kifejezés-dokumentum mátrixban a sorok a gyűjtemény dokumentumainak, az oszlopok pedig a kifejezéseknek felelnek meg. Különféle sémák léteznek az egyes mátrixelemek értékének meghatározására. Ezek egyike a TF-IDF séma . Hasznosak a természetes nyelvi feldolgozás területén , különösen a látens szemantikai elemzés módszereiben .
A dokumentumok halmazában használt kifejezések adatbázisának létrehozásakor a kifejezések mátrixa előfordulási mátrixként kerül kialakításra, amelynek sorai megfelelnek a dokumentumoknak, a sorok elemei pedig a megfelelő kifejezések jelenlétének ezekben a dokumentumokban. . Például, ha két rövid dokumentum van:
akkor a megfelelő kifejezésmátrix így fog kinézni:
nekem | tetszik | Nem tetszik | adat | |
---|---|---|---|---|
D1 | egy | egy | 0 | egy |
D2 | egy | 0 | egy | egy |
amely megmutatja, hogy bizonyos dokumentumok milyen kifejezéseket tartalmaznak, és hányszor fordulnak elő. Ez a megközelítés hasonló az előfordulási mátrix használatához a szavak korpuszát alkotó mondatok elemzésénél [1] .
természetes nyelvi feldolgozás | |
---|---|
Általános meghatározások | |
Szövegelemzés |
|
Hivatkozás |
|
Gépi fordítás |
|
Azonosítás és adatgyűjtés | |
Tematikus modell | |
Peer review |
|
Természetes nyelvű felület |