Információ kinyerése

Az információkinyerés a strukturált adatok automatikus  kinyerése (felépítése) strukturálatlan vagy félig strukturált, géppel olvasható dokumentumokból.

Az információkinyerés a természetes nyelvi szövegfeldolgozáshoz kapcsolódó információ-visszakeresés egy fajtája . Az információ kinyerésére példa lehet az üzleti látogatások keresése - formálisan így írják:  - hírfolyamokból , például: "Tegnap, 2007. április 1-jén a Pepelac International Corporation képviselői meglátogatták a Gravitsap Productions irodáját." Az ilyen átalakítás fő célja a kezdetben "kaotikus" információk elemzésének képessége szabványos adatfeldolgozási módszerekkel . [1] Szűkebb cél lehet például a szövegben leírt események logikai mintáinak azonosítása. [2]НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита)

A modern információs technológiákban az ilyen eljárások, mint például az információ kinyerése, szerepe egyre inkább növekszik - a strukturálatlan ( metaadatok nélküli ) információk mennyiségének gyors növekedése miatt, különösen az interneten . Ez az információ strukturáltabbá tehető relációs formára való konvertálással vagy XML - jelölés hozzáadásával. [3] Ha intelligens ügynökökkel figyeli a hírfolyamokat, olyan módszerekre lesz szüksége, amelyek segítségével kinyerheti az információkat, és olyan formává alakíthatja, amellyel később kényelmesebb lesz dolgozni.

Egy tipikus információkinyerési feladat természetes nyelvű dokumentumok halmazának szkennelése és egy adatbázis feltöltése a kinyert hasznos információkkal. A modern információkeresési megközelítések természetes nyelvi feldolgozási módszereket használnak , amelyek csak nagyon korlátozott témakörrel (kérdésekkel, problémákkal) foglalkoznak – gyakran csak egy témával. Például a Message Understanding Conference (MUC ) egy versenykonferencia, és korábban a következőkre összpontosított:

A természetes nyelvű szövegeknél szükség lehet valamilyen előzetes átalakításra  egy számítógép számára érthető nyelvre (például RDF - Resource Description Framework).

Az információkinyerés tipikus részfeladatai:

Jegyzetek

  1. Az adatfeldolgozás érthető többek között , és egyszerűen azok adatbázisban való felhalmozása .
  2. Az adatbányászat foglalkozik ezzel a feladattal .
  3. Az internet fejlesztésének koncepcióját, amelyben minden dokumentumhoz XML formátumú metaadatokat tartalmazó fájlt csatolnak , szemantikus webnek nevezik, és nagyon ígéretesnek tartják; de érdemes megjegyezni: ez nem ugyanaz, mint magát a dokumentumot átalakítani .

Lásd még

Linkek

idegen nyelv