Term Document Matrix

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2018. június 8-án felülvizsgált verziótól ; az ellenőrzések 6 szerkesztést igényelnek .

A kifejezés-dokumentum mátrix egy matematikai mátrix , amely leírja a dokumentumok gyűjteményében előforduló kifejezések gyakoriságát. A kifejezés-dokumentum mátrixban a sorok a gyűjtemény dokumentumainak, az oszlopok pedig a kifejezéseknek felelnek meg. Különféle sémák léteznek az egyes mátrixelemek értékének meghatározására. Ezek egyike a TF-IDF séma . Hasznosak a természetes nyelvi feldolgozás területén , különösen a látens szemantikai elemzés módszereiben .

Általános koncepció

A dokumentumok halmazában használt kifejezések adatbázisának létrehozásakor a kifejezések mátrixa előfordulási mátrixként kerül kialakításra, amelynek sorai megfelelnek a dokumentumoknak, a sorok elemei pedig a megfelelő kifejezések jelenlétének ezekben a dokumentumokban. . Például, ha két rövid dokumentum van:

akkor a megfelelő kifejezésmátrix így fog kinézni:

nekem tetszik Nem tetszik adat
D1 egy egy 0 egy
D2 egy 0 egy egy

amely megmutatja, hogy bizonyos dokumentumok milyen kifejezéseket tartalmaznak, és hányszor fordulnak elő. Ez a megközelítés hasonló az előfordulási mátrix használatához a szavak korpuszát alkotó mondatok elemzésénél [1] .

Jegyzetek

  1. Slyusar, V.I. Mátrixok végtermékének alkalmazása természetes nyelvi feldolgozási problémákban. . Neuromuszkuláris technológiák és az NMT&Z-2020 fejlesztése: a XIX. Nemzetközi Tudományos Konferencia tudományos gyakorlatainak gyűjteménye "Neuro-temperancia technológiák és az NMT&Z-2020 fejlesztése". - Kramatorszk: Donbas Állami Gépépítő Akadémia. -2020. 156-162. (2020). Letöltve: 2020. december 12. Az eredetiből archiválva : 2021. január 25.