Tematikus modellezés

A témamodellezés  a szöveges dokumentumok gyűjteményének modelljének felépítésének módja, amely meghatározza, hogy az egyes dokumentumok mely témákhoz tartoznak [1] .

A szöveges dokumentumok gyűjteményének témamodellje ( angol  témamodell ) meghatározza, hogy az egyes dokumentumok mely témákhoz tartoznak, és mely szavak (kifejezések) alkotják az egyes témákat [2] .

A terminusok teréből a talált témák terébe való átmenet segít a terminusok szinonimáinak és poliszémiájának feloldásában, valamint olyan problémák hatékonyabb megoldásában, mint a dokumentumgyűjtemények, hírfolyamok tematikus keresése , osztályozása , összegzése , annotálása.

A témamodellezés, mint egyfajta statisztikai modell a dokumentumok gyűjteményében talált rejtett témák megtalálására, utat talált olyan területeken, mint a gépi tanulás és a természetes nyelvi feldolgozás . A kutatók különféle témamodelleket használnak szövegek, dokumentumok szövegarchívumainak elemzésére, dokumentumhalmazok témaváltozásainak elemzésére . Intuitív módon megértve, hogy a dokumentum egy bizonyos témára vonatkozik, az egy témának szentelt dokumentumokban néhány szó gyakrabban található, mint mások. Például: a „kutya” és a „csont” gyakrabban fordul elő a kutyákról szóló dokumentumokban, a „macska” és a „tej” a cicákról szóló dokumentumokban, az „és” és „ben” elöljárószó mindkét témakörben előfordul. Általában egy dokumentum több témával foglalkozik, eltérő arányban, így egy olyan dokumentumban, amelyben a téma 10%-a macskák, 90%-a pedig kutyák, feltételezhető, hogy 9-szer több szó van a kutyákról. A témamodellezés ezt az intuíciót egy olyan matematikai struktúrában tükrözi, amely egy dokumentumgyűjtemény tanulmányozása és az egyes dokumentumokban található szavak gyakorisági jellemzőinek tanulmányozása alapján arra a következtetésre jut, hogy az egyes dokumentumok a témák egy bizonyos egyensúlyát alkotják.

A modern alkalmazásokban a legelterjedtebbek a Bayes-hálózatokon alapuló megközelítések – az irányított gráfokon alapuló  valószínűségi modellek . A valószínűségi témamodellek az öntanulási elmélet viszonylag fiatal kutatási területei [ . Az egyik első javasolt valószínűségi látens szemantikai analízis (PLSA), amely a maximum likelihood elvén alapul, a klasszikus klaszterezési módszerek alternatívájaként, távolságfüggvények számításán alapul. A PLSA nyomán javasolták a látens Dirichlet allokációs módszert és annak számos általánosítását [3] .

A valószínűségi témamodellek "puha" klaszterezést hajtanak végre, lehetővé téve, hogy egy dokumentum vagy kifejezés egyszerre több témához kapcsolódjon, különböző valószínűséggel. A valószínűségi témamodellek minden egyes témát egy kifejezéskészleten belüli diszkrét eloszlással írnak le , az egyes dokumentumokat pedig egy témacsoporton belüli diszkrét eloszlással. Feltételezzük, hogy egy dokumentumgyűjtemény az ilyen eloszlások keverékéből véletlenszerűen és függetlenül választott kifejezések sorozata, és a feladat a keverék összetevőinek visszaállítása a mintából [4] .

Bár a témamodellezést hagyományosan a természetes nyelvi feldolgozásban írják le és alkalmazzák, más területekre is eljutott, például a bioinformatikába .

Történelem

A témamodellezés első leírása Ragawan, Papadimitriou, Tomaki és Vempola 1998-as cikkében jelent meg [5] . Thomas Hofmann 1999-ben [6] javasolta a valószínűségi látens szemantikai indexelést (PLSI). Az egyik leggyakoribb aktuális modell a látens Dirichlet elhelyezés (LDA), ez a modell a valószínűségi szemantikai indexelés általánosítása, és David Blei , Andrew Ng és Michael Jordan ( angolul Michael  I. Jordan ) [fejlesztette ki 2002-ben . Más témamodellek általában az LDA kiterjesztései, például a pachinko elhelyezés javítja az LDA-t azáltal, hogy további korrelációs együtthatókat vezet be minden egyes témát alkotó szóhoz.  

Esettanulmányok

Templeton áttekintette a humán tudományok témamodellezésével kapcsolatos munkát, szinkron és diakrón megközelítések alá csoportosítva [8] . A szinkron megközelítések bizonyos időpontokban kiemelik a témákat, például Jockers egy témamodellt használt annak feltárására, hogy miről írtak a bloggerek a 2010-es Digitális Humántudományi Napon [9] .

Diakronikus megközelítések, beleértve Block és Newman definícióját a témák időbeli dinamikájáról a Pennsylvania Gazette 1728-1800-ban [10] . Griffiths és Stavers témamodellezést használt a PNAS folyóirat-ismertetőkhöz , meghatározva a téma népszerűségének változását 1991 és 2001 között [11] . Blevin tematikus modellt készített Martha Ballads naplójához [12] . A Mimno témamodellezés segítségével 24 klasszikus és régészeti folyóiratot elemzett 150 év alatt, hogy meghatározza a témák népszerűségének változásait, és azt, hogy a folyóiratok mennyit változtak ez idő alatt [13] .

Témamodellező algoritmusok

David Blay „Bevezetés a témamodellezésbe” című könyve a legnépszerűbb algoritmusnak tekinti a Latent Dirichlet Allocation [14] . A gyakorlatban a kutatók a maximum likelihood módszer egyik heurisztikáját alkalmazzák, a szinguláris érték dekompozíciós (SVD) módszereket, a momentumok módszerét , a nemnegatív faktorizációs mátrixon (NMF) alapuló algoritmust, a valószínűségi témamodelleket, a valószínűségi látens szemantikai elemzést. , látens Dirichlet elhelyezés. Vorontsov K.V. munkájában a fő témamodellezési algoritmusok variációit veszik figyelembe: robusztus témamodell, témaosztályozási modellek, dinamikus témamodellek, hierarchikus témamodellek, többnyelvű témamodellek, szövegmodellek mint szavak sorozata, multimodális témamodellek [2 ] .

A valószínűségi témamodellek a következő feltevéseken alapulnak [15] [16] [17] [18] :

Témamodell felépítése azt jelenti, hogy mátrixokat keresünk és gyűjtéssel . A bonyolultabb valószínűségi témamodellekben ezen feltételezések egy részét reálisabbak váltják fel.

Valószínűségi látens szemantikai elemzés

A valószínűségi látens szemantikai elemzést (PLSA) Thomas Hofmann javasolta 1999-ben. A dokumentum-szópár előfordulásának valószínűségi modellje három ekvivalens módon írható fel:

hol  van a témakör;

 — a témakörök eleve ismeretlen megoszlása ​​a teljes gyűjteményben;  a priori eloszlás egy dokumentumkészleten, empirikus becslés , ahol  az összes dokumentum teljes hossza;  a priori eloszlás a szavak halmazán, empirikus becslés , ahol  egy szó előfordulásának száma az összes dokumentumban;

A kívánt feltételes eloszlásokat a Bayes-képlet segítségével fejezzük ki :

A témamodell paramétereinek dokumentumgyűjteményből történő azonosításához a maximum likelihood elvet alkalmazzuk , ami a funkcionális maximalizálás problémájához vezet [19].

normalizálási korlátok mellett

ahol  a szó előfordulásának száma a dokumentumban . Ennek az optimalizálási problémának a megoldására általában az EM algoritmust használják .

A PLSA fő hátrányai:

Dirichlet látens elhelyezése

A látens Dirichlet allokációt (LDA) David Bley javasolta 2003-ban.

Ez a módszer kiküszöböli a PLSA fő hátrányait.

Az LDA módszer ugyanazon a valószínűségi modellen alapul

további feltételezésekkel:

A Gibbs-mintavételt , a variációs Bayes-i következtetést vagy a várakozási terjedési módszert használják az LDA-modell paramétereinek azonosítására egy dokumentumgyűjteményből .(Elvárás terjedése).

Lásd még

Jegyzetek

  1. Korsunov, 2012 .
  2. 1 2 Voroncov, 2013 .
  3. Ali10, 2010 .
  4. Voroncov 2012. 12 .
  5. Papadimitriou, 1998 .
  6. Hofmann, 1999 .
  7. Blay 2003, 2003 .
  8. Templeton, 2011 .
  9. Jokerek, 2010 .
  10. Newman Block, 2006 .
  11. Griffiths, 2004 .
  12. Blevin, 2010 .
  13. Mimno, 2012 .
  14. Blay 2012, 2012 .
  15. Korshunov, 2012 , p. 229.
  16. Voroncov, 2013 , p. 6.
  17. Voroncov 13, 2013 , p. 5.
  18. VorontsovML, 2013 , p. 5.
  19. K. V. Voroncov. Valószínűségi tematikus modellezés  (orosz)  ? . Hozzáférés időpontja: 2013. október 26. Az eredetiből archiválva : 2014. július 24.

Irodalom

Linkek

Szoftver és szoftverkönyvtárak