Az információkinyerés a strukturált adatok automatikus kinyerése (felépítése) strukturálatlan vagy félig strukturált, géppel olvasható dokumentumokból.
Az információkinyerés a természetes nyelvi szövegfeldolgozáshoz kapcsolódó információ-visszakeresés egy fajtája . Az információ kinyerésére példa lehet az üzleti látogatások keresése - formálisan így írják: - hírfolyamokból , például: "Tegnap, 2007. április 1-jén a Pepelac International Corporation képviselői meglátogatták a Gravitsap Productions irodáját." Az ilyen átalakítás fő célja a kezdetben "kaotikus" információk elemzésének képessége szabványos adatfeldolgozási módszerekkel . [1] Szűkebb cél lehet például a szövegben leírt események logikai mintáinak azonosítása. [2]НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита)
A modern információs technológiákban az ilyen eljárások, mint például az információ kinyerése, szerepe egyre inkább növekszik - a strukturálatlan ( metaadatok nélküli ) információk mennyiségének gyors növekedése miatt, különösen az interneten . Ez az információ strukturáltabbá tehető relációs formára való konvertálással vagy XML - jelölés hozzáadásával. [3] Ha intelligens ügynökökkel figyeli a hírfolyamokat, olyan módszerekre lesz szüksége, amelyek segítségével kinyerheti az információkat, és olyan formává alakíthatja, amellyel később kényelmesebb lesz dolgozni.
Egy tipikus információkinyerési feladat természetes nyelvű dokumentumok halmazának szkennelése és egy adatbázis feltöltése a kinyert hasznos információkkal. A modern információkeresési megközelítések természetes nyelvi feldolgozási módszereket használnak , amelyek csak nagyon korlátozott témakörrel (kérdésekkel, problémákkal) foglalkoznak – gyakran csak egy témával. Például a Message Understanding Conference (MUC ) egy versenykonferencia, és korábban a következőkre összpontosított:
A természetes nyelvű szövegeknél szükség lehet valamilyen előzetes átalakításra egy számítógép számára érthető nyelvre (például RDF - Resource Description Framework).
Az információkinyerés tipikus részfeladatai:
Tudásmérnöki | |
---|---|
Általános fogalmak | |
Merev modellek | |
Lágy módszerek | |
Alkalmazások | |
természetes nyelvi feldolgozás | |
---|---|
Általános meghatározások | |
Szövegelemzés |
|
Hivatkozás |
|
Gépi fordítás |
|
Azonosítás és adatgyűjtés | |
Tematikus modell | |
Peer review |
|
Természetes nyelvű felület |