A témamodellezés a szöveges dokumentumok gyűjteményének modelljének felépítésének módja, amely meghatározza, hogy az egyes dokumentumok mely témákhoz tartoznak [1] .
A szöveges dokumentumok gyűjteményének témamodellje ( angol témamodell ) meghatározza, hogy az egyes dokumentumok mely témákhoz tartoznak, és mely szavak (kifejezések) alkotják az egyes témákat [2] .
A terminusok teréből a talált témák terébe való átmenet segít a terminusok szinonimáinak és poliszémiájának feloldásában, valamint olyan problémák hatékonyabb megoldásában, mint a dokumentumgyűjtemények, hírfolyamok tematikus keresése , osztályozása , összegzése , annotálása.
A témamodellezés, mint egyfajta statisztikai modell a dokumentumok gyűjteményében talált rejtett témák megtalálására, utat talált olyan területeken, mint a gépi tanulás és a természetes nyelvi feldolgozás . A kutatók különféle témamodelleket használnak szövegek, dokumentumok szövegarchívumainak elemzésére, dokumentumhalmazok témaváltozásainak elemzésére . Intuitív módon megértve, hogy a dokumentum egy bizonyos témára vonatkozik, az egy témának szentelt dokumentumokban néhány szó gyakrabban található, mint mások. Például: a „kutya” és a „csont” gyakrabban fordul elő a kutyákról szóló dokumentumokban, a „macska” és a „tej” a cicákról szóló dokumentumokban, az „és” és „ben” elöljárószó mindkét témakörben előfordul. Általában egy dokumentum több témával foglalkozik, eltérő arányban, így egy olyan dokumentumban, amelyben a téma 10%-a macskák, 90%-a pedig kutyák, feltételezhető, hogy 9-szer több szó van a kutyákról. A témamodellezés ezt az intuíciót egy olyan matematikai struktúrában tükrözi, amely egy dokumentumgyűjtemény tanulmányozása és az egyes dokumentumokban található szavak gyakorisági jellemzőinek tanulmányozása alapján arra a következtetésre jut, hogy az egyes dokumentumok a témák egy bizonyos egyensúlyát alkotják.
A modern alkalmazásokban a legelterjedtebbek a Bayes-hálózatokon alapuló megközelítések – az irányított gráfokon alapuló valószínűségi modellek . A valószínűségi témamodellek az öntanulási elmélet viszonylag fiatal kutatási területei [ . Az egyik első javasolt valószínűségi látens szemantikai analízis (PLSA), amely a maximum likelihood elvén alapul, a klasszikus klaszterezési módszerek alternatívájaként, távolságfüggvények számításán alapul. A PLSA nyomán javasolták a látens Dirichlet allokációs módszert és annak számos általánosítását [3] .
A valószínűségi témamodellek "puha" klaszterezést hajtanak végre, lehetővé téve, hogy egy dokumentum vagy kifejezés egyszerre több témához kapcsolódjon, különböző valószínűséggel. A valószínűségi témamodellek minden egyes témát egy kifejezéskészleten belüli diszkrét eloszlással írnak le , az egyes dokumentumokat pedig egy témacsoporton belüli diszkrét eloszlással. Feltételezzük, hogy egy dokumentumgyűjtemény az ilyen eloszlások keverékéből véletlenszerűen és függetlenül választott kifejezések sorozata, és a feladat a keverék összetevőinek visszaállítása a mintából [4] .
Bár a témamodellezést hagyományosan a természetes nyelvi feldolgozásban írják le és alkalmazzák, más területekre is eljutott, például a bioinformatikába .
A témamodellezés első leírása Ragawan, Papadimitriou, Tomaki és Vempola 1998-as cikkében jelent meg [5] . Thomas Hofmann 1999-ben [6] javasolta a valószínűségi látens szemantikai indexelést (PLSI). Az egyik leggyakoribb aktuális modell a látens Dirichlet elhelyezés (LDA), ez a modell a valószínűségi szemantikai indexelés általánosítása, és David Blei , Andrew Ng és Michael Jordan ( angolul Michael I. Jordan ) [fejlesztette ki 2002-ben . Más témamodellek általában az LDA kiterjesztései, például a pachinko elhelyezés javítja az LDA-t azáltal, hogy további korrelációs együtthatókat vezet be minden egyes témát alkotó szóhoz.
Templeton áttekintette a humán tudományok témamodellezésével kapcsolatos munkát, szinkron és diakrón megközelítések alá csoportosítva [8] . A szinkron megközelítések bizonyos időpontokban kiemelik a témákat, például Jockers egy témamodellt használt annak feltárására, hogy miről írtak a bloggerek a 2010-es Digitális Humántudományi Napon [9] .
Diakronikus megközelítések, beleértve Block és Newman definícióját a témák időbeli dinamikájáról a Pennsylvania Gazette 1728-1800-ban [10] . Griffiths és Stavers témamodellezést használt a PNAS folyóirat-ismertetőkhöz , meghatározva a téma népszerűségének változását 1991 és 2001 között [11] . Blevin tematikus modellt készített Martha Ballads naplójához [12] . A Mimno témamodellezés segítségével 24 klasszikus és régészeti folyóiratot elemzett 150 év alatt, hogy meghatározza a témák népszerűségének változásait, és azt, hogy a folyóiratok mennyit változtak ez idő alatt [13] .
David Blay „Bevezetés a témamodellezésbe” című könyve a legnépszerűbb algoritmusnak tekinti a Latent Dirichlet Allocation [14] . A gyakorlatban a kutatók a maximum likelihood módszer egyik heurisztikáját alkalmazzák, a szinguláris érték dekompozíciós (SVD) módszereket, a momentumok módszerét , a nemnegatív faktorizációs mátrixon (NMF) alapuló algoritmust, a valószínűségi témamodelleket, a valószínűségi látens szemantikai elemzést. , látens Dirichlet elhelyezés. Vorontsov K.V. munkájában a fő témamodellezési algoritmusok variációit veszik figyelembe: robusztus témamodell, témaosztályozási modellek, dinamikus témamodellek, hierarchikus témamodellek, többnyelvű témamodellek, szövegmodellek mint szavak sorozata, multimodális témamodellek [2 ] .
A valószínűségi témamodellek a következő feltevéseken alapulnak [15] [16] [17] [18] :
Témamodell felépítése azt jelenti, hogy mátrixokat keresünk és gyűjtéssel . A bonyolultabb valószínűségi témamodellekben ezen feltételezések egy részét reálisabbak váltják fel.
A valószínűségi látens szemantikai elemzést (PLSA) Thomas Hofmann javasolta 1999-ben. A dokumentum-szópár előfordulásának valószínűségi modellje három ekvivalens módon írható fel:
hol van a témakör;
— a témakörök eleve ismeretlen megoszlása a teljes gyűjteményben; a priori eloszlás egy dokumentumkészleten, empirikus becslés , ahol az összes dokumentum teljes hossza; a priori eloszlás a szavak halmazán, empirikus becslés , ahol egy szó előfordulásának száma az összes dokumentumban;A kívánt feltételes eloszlásokat a Bayes-képlet segítségével fejezzük ki :
A témamodell paramétereinek dokumentumgyűjteményből történő azonosításához a maximum likelihood elvet alkalmazzuk , ami a funkcionális maximalizálás problémájához vezet [19].
normalizálási korlátok mellett
ahol a szó előfordulásának száma a dokumentumban . Ennek az optimalizálási problémának a megoldására általában az EM algoritmust használják .
A PLSA fő hátrányai:
A látens Dirichlet allokációt (LDA) David Bley javasolta 2003-ban.
Ez a módszer kiküszöböli a PLSA fő hátrányait.
Az LDA módszer ugyanazon a valószínűségi modellen alapul
további feltételezésekkel:
A Gibbs-mintavételt , a variációs Bayes-i következtetést vagy a várakozási terjedési módszert használják az LDA-modell paramétereinek azonosítására egy dokumentumgyűjteményből .(Elvárás terjedése).
természetes nyelvi feldolgozás | |
---|---|
Általános meghatározások | |
Szövegelemzés |
|
Hivatkozás |
|
Gépi fordítás |
|
Azonosítás és adatgyűjtés | |
Tematikus modell | |
Peer review |
|
Természetes nyelvű felület |