A szövegbányászat ( IAT , angol szövegbányászat ) a mesterséges intelligencia egyik iránya , melynek célja szöveges dokumentumgyűjteményekből történő információszerzés a gépi tanulás és a természetes nyelvi feldolgozás gyakorlati módszereinek felhasználásával . A "szövegbányászat" névnek van valami közös az " adatbányászat " fogalmával ( IAD , eng. data mining), amely céljaik, információfeldolgozási megközelítéseik és alkalmazási területeik hasonlóságát fejezi ki; a különbség csak a végső módszerekben mutatkozik meg, és abban is, hogy az IAD tárterületekkel és adatbázisokkal foglalkozik , nem pedig elektronikus könyvtárakkal és szövegkorpusokkal .
Az IAT-feladatok kulcscsoportjai: szövegkategorizálás, információ-kinyerés és információ-visszakeresés , szöveggyűjteményekben bekövetkezett változások feldolgozása, valamint a felhasználó számára információmegjelenítési eszközök fejlesztése. [egy]
A dokumentumok kategorizálása abból áll, hogy egy gyűjtemény dokumentumait hasonló szövegek egy vagy több csoportjához (osztályhoz, klaszterhez) rendelik (például téma vagy stílus szerint). A kategorizálás történhet egy személy részvételével és nélküle. Az első esetben, amelyet dokumentumok osztályozásának neveznek , az IAT-rendszernek már meghatározott (számára kényelmes) osztályokhoz kell hozzárendelnie a szövegeket. A gépi tanulás szempontjából ez felügyelt tanulást igényel , amelyhez a felhasználónak biztosítania kell az IAT-rendszert mind az osztályok készletével, mind az ezekhez az osztályokhoz tartozó dokumentumok mintáival.
A kategorizálás második esetét dokumentumfürtözésnek nevezzük . Ugyanakkor az IAT-rendszernek magának kell meghatároznia a klaszterek halmazát, amelyek között a szövegek eloszthatók - a gépi tanulásban a megfelelő feladatot felügyetlen tanulásnak nevezik . Ebben az esetben a felhasználónak tájékoztatnia kell az IAT-rendszert azon klaszterek számáról, amelyekre fel szeretné osztani a feldolgozás alatt álló gyűjteményt (feltételezzük, hogy a funkciók kiválasztásának eljárása már benne van a programalgoritmusban ).
Az utóbbi időben a szövegelemzés egyre nagyobb figyelmet kelt különböző területeken, mint például a biztonság, a kereskedelem és a tudomány.
Számos szövegelemző csomag, például az Aerotext és az Attensity a biztonsági alkalmazások piacát célozza meg, különösen az egyszerű szöveges források, például a híroldalak elemzését.
Az olyan nagyvállalatok kutatási és fejlesztési részlegei, mint az IBM , az Apple és a Microsoft , szövegelemzési technológiákat vizsgálnak az adatelemzési és -kinyerési folyamatok jövőbeni automatizálása céljából.
Oroszul:
Angolul:
természetes nyelvi feldolgozás | |
---|---|
Általános meghatározások | |
Szövegelemzés |
|
Hivatkozás |
|
Gépi fordítás |
|
Azonosítás és adatgyűjtés | |
Tematikus modell | |
Peer review |
|
Természetes nyelvű felület |