Tudáskinyerés

A  tudáskinyerés tudás létrehozása strukturált ( relációs adatbázisok , XML ) és strukturálatlan forrásokból ( szövegek , dokumentumok , képek ) . A kapott tudásnak olyan formátumban kell lennie, amely lehetővé teszi a számítógépes bevitelt, és a tudást oly módon kell reprezentálnia, amely megkönnyíti a következtetést. Bár a folyamat módszertana hasonló az információkinyeréshez ( természetes nyelvi feldolgozás , eng. Természetes nyelvi feldolgozás , NLP) és az „ Extraction, Transformation, Loading ” folyamathoz ( eng.  Extract, Transform, Load , ETL, adattárházak esetén), a fő eredménykritérium strukturált információ létrehozása vagy relációs sémává alakítása . Ehhez vagy a meglévő formális tudás átalakítása szükséges (azonosítók vagy ontológiák újrafelhasználása ), vagy az eredeti adatok alapján egy séma létrehozása.

Az RDB2RDF W3C csoport [1] egy nyelvet szabványosít az erőforrásleíró keretrendszerek ( RDF) relációs adatbázisból való kinyerésére .  A tudáskinyerés másik népszerű példája a Wikipédia strukturált adatokká való konvertálása és a meglévő tudáshoz való leképezés (lásd: DBpedia és Freebase ).

Áttekintés

A tudásreprezentációs nyelvek, mint például a Resource Description Framework ( RDF) és a Web Ontology Language ( OWL ) szabványosítása után sok kutatás folyt ezen a területen, különösen a relációs adatbázis átalakításával kapcsolatban. , felismerési képességek , tudásfelfedezés és ontológiatanulás. A fő folyamat hagyományos információ-kinyerési módszereket és kivonat , átalakítás, betöltés ( ETL) módszereket használ, amelyek az adatokat forrásformátumokból strukturált formátumokba konvertálják .   

Ebben a témakörben a következő kritériumok használhatók a kategorizálási kísérletekhez (egyesek tudáskinyerést biztosítanak relációs adatbázisokból) [2] :

Forrás Milyen adatokat lehet feldolgozni: Szöveg, Relációs adatbázis, XML , CSV
Teljesítmény Hogyan lehet a kinyert adatokat felhasználásra bemutatni (ontológia (objektummodell) fájl, szemantikai adatbázis)? Hogyan lehet tájékoztatást kérni a kapott képviselettől?
Szinkronizálás A tudáskinyerést egyszer hajtják végre a kiíratáshoz, vagy az eredményt szinkronizálják a forrással? A kivonás statikus vagy dinamikus? Az eredmény változásait visszaírják a forrásba (kétirányúság)?
Szótár újrafelhasználása A kivonat lehetővé teszi-e a meglévő szótárak újrafelhasználását kibontáskor. Például a 'firstName' táblázat oszlopa leképezhető a foaf: firstName oszlopra. Egyes automatikus megközelítések nem képesek szótár megjelenítésére.
Automatizálás A részvétel mértéke / a kitermelés automatizálása: Kézi mód, van GUI , félautomata, automatikus.
Domainobjektum-modell szükségessége Szükséges-e egy előre definiált objektummodell hozzárendelése. Így vagy létrejön egy leképezés, vagy egy sémát kapunk a forrásból a ( training ontologies ).

Példák

Megnevezett entitás kötése

  1. A DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API , Extractiv és PoolParty Extractor tetszőleges szöveget elemzi a megnevezett entitások felismerésével , majd a kétértelműség feloldásával a nevek feloldásával , és a talált entitásokat a DBpedia tudástárhoz kapcsolja . 3] ( Dandelion dataTXT demó , vagy DBpedia Spotlight webdemó , vagy PoolParty Extractor Demo ).

Obama elnök szerdán felszólította a Kongresszust , hogy a hallgatói adókedvezmények kiterjesztését foglalja bele a gazdaságösztönző csomagba, azzal érvelve, hogy a politika erősebb támogatást generál majd.

Mivel Obama elnök a DBpediában össze van kapcsolva a LinkedData erőforrással , további információk automatikusan lekérhetők, és a Szemantikai Reasoner például arra következtethet, hogy a hivatkozott entitás egy személyiségtípus ( FOAF használatával ), és az Egyesült Államok elnöke (a YAGO ). Ellenpéldák: Azok a módszerek, amelyek csak entitásokat ismernek fel, és nem kapcsolódnak Wikipédia-cikkekhez vagy más entitásokhoz, nem biztosítanak további strukturált adatokat és formális tudáskinyerést.

Relációs adatbázis átalakítása RDF-re

  1. A Triplify, a D2R Server, az Ultrawrap és a Virtuoso RDF nézetek olyan eszközök, amelyek a relációs adatbázist RDF-re konvertálják. A folyamat során ezek az eszközök lehetővé teszik a szókincsek és az ontológia újrafelhasználását az átalakítási folyamatban. Amikor egy tipikus user nevű relációs táblát konvertálunk , egyetlen oszlopnak (például név ) vagy oszlopcsoportnak (például keresztnév és vezetéknév ) egységes azonosítót kell biztosítania a létrehozandó entitáshoz. Általában a főkulcsot használják. Bármely más oszlop lekérhető az entitáshoz kapcsolódóan [4] . Ezután a formálisan meghatározott szemantikával rendelkező tulajdonságokat használják (és újra felhasználják) az információ értelmezésére. Például a marriedTo nevű felhasználói tábla oszlop definiálható szemantikai relációként, a kezdőlap oszlop pedig leképezhető a FOAF szótár foaf: homepage nevű tulajdonságára , így fordított funkciónak minősül . Ekkor a felhasználói tábla minden bejegyzése a foaf:Person osztály (populációs ontológia) példányává tehető. Ezenkívül a status_id -ből manuálisan létrehozott szabályokkal (ha a status_id értéke 2, a táblázat sora a Tanár osztályhoz tartozik) vagy (fél)automatikus módszerekkel ( Learn Ontologies ) létrehozható egy tárgyterület (ontológia formájában ). Az alábbiakban egy átalakítási példa látható:
Név házasok hozzá kezdőlap status_id
Péter Mary http://example.org/Peters_page  (nem elérhető link) egy
Claus Eva http://example.org/Claus_page  (nem elérhető link) 2
: Peter : házas : Mary . : házas OWL - lal : SymmetricProperty . : Peter foaf : kezdőlap <http://example.org/Peters_page> . : Peter foaf : Személy ( Egyén ) . : Péter : Diák ( Diák ). : Claus : Tanár ( Tanár ).

Kibontás strukturált forrásokból RDF-ben

1:1 leképezés relációs adatbázis táblákból/nézetekből RDF entitásokhoz/attribútumokhoz/értékekhez

Egy relációs adatbázis (RDB, angol  relációs adatbázis ) reprezentációjának felépítésekor a kiindulópont gyakran egy entitás-relációs diagram ( eng.  entity-relationship diagram , ERD). Általában minden entitást adatbázistáblaként ábrázolnak, minden entitástulajdonság oszlopmá válik a táblában, és az entitások közötti kapcsolatot idegen kulcsok mutatják. Minden tábla jellemzően egy adott entitásosztályt határoz meg, és minden oszlop az adott entitás egy-egy tulajdonságát határozza meg. A táblázat minden sora egy entitás egy példányát írja le, amelyet egy mesterkulcs egyedileg azonosít. A táblázat sorai együtt írják le az entitáskészletet. Ugyanannak az entitáskészletnek az RDF egyenértékű reprezentációjában:

  • A táblázat minden oszlopa egy tulajdonság (vagyis egy predikátum)
  • Egy oszlopban minden érték attribútum tulajdonság (vagyis objektum)
  • Minden sorkulcs egy entitásazonosítót (vagyis tárgyat) jelöl.
  • Minden sor egy entitás egy példányát jelöli
  • Minden sor (entitáspéldány) az RDF-ben közös tárgyú (entitásazonosító) sorok gyűjteményeként jelenik meg.

Tehát az RDF szemantikán alapuló ekvivalens reprezentáció kifejezéséhez az alapvető algoritmus a következő lenne:

  1. hozzon létre egy RDF Schema (RDFS) osztályt minden táblához
  2. konvertálja az összes mesterkulcsot és idegen kulcsot IRI -azonosítókká
  3. minden oszlophoz rendeljen egy IRI predikátumot
  4. rendelje hozzá az rdf: type predikátumot minden sorhoz az RDFS osztály IRI azonosítójával társítva
  5. Minden olyan oszlophoz, amely nem része sem a fő kulcsnak, sem az idegen kulcsnak, létrehozunk egy hármast, amely tartalmazza a fő kulcs IRI-jét tárgyként (tárgyként), az oszlop IRI-jét predikátumként , és az oszlop értékét. oszlopot tárgyként.

Az alapvető vagy közvetlen leképezésre vonatkozó korai utalás megtalálható Tim Berners-Lee ER modell és az RDF modell összehasonlításában [4] .

Komplex relációs adatbázis-leképezések RDF-ben

A fent említett 1:1 leképezés a régi adatokat közvetlenül RDF-ként ábrázolja, és további finomításokkal javítható az RDF kimenet hasznossága az adott felhasználási esetnek megfelelően. Általános szabály, hogy az entitás -relációs  diagram (ERD) relációs táblákká való átalakítása során az információ elveszik (a részletes leírást az " Object-relational mismatch " cikkben találja ), és visszafejtéssel kell visszaállítani . Koncepcionálisan a kitermelési megközelítések két irányból származhatnak. Az első irány egy OWL sémát próbál kivonni vagy betanítani (gépi tanulás segítségével) egy adott adatbázissémából. A korai megközelítések meghatározott számú, kézzel készített leképezési szabályt használtak az 1:1-es leképezés javítására [5] [6] [7] . Kidolgozottabb módszerek heurisztikus vagy tanulási algoritmusokat használtak sematikus információk generálására (a módszerek átfedésben vannak az ontológiatanulással ). Míg egyes megközelítések megpróbálnak információt kinyerni az SQL sémában rejlő struktúrából [8] (például idegen kulcsok elemzésével), más megközelítések a táblák tartalmát és értékeit elemzik, hogy fogalmi hierarchiákat hozzanak létre [9] (pl. , a kevés értékű oszlopok kategóriákká válhatnak). A második irány megkísérli leképezni a sémát és annak tartalmát egy létező tartományontológiára (lásd még " Ontológia leképezés "). Gyakran azonban nem létezik megfelelő tartományontológia, és először létre kell hozni.

XML

Mivel az XML egy fa szerkezetű, könnyen ábrázolható bármilyen adat RDF formátumban, amely grafikonként strukturált. Az XML2 RDF egy példa arra a megközelítésre, amely üres RDF csomópontokat használ, és az XML elemeket és attribútumokat RDF tulajdonságokká alakítja. Az eset azonban bonyolultabb, mint a relációs adatbázisok esetében. A relációs táblákban a főkulcs ideális jelölt a megkülönböztetett hármasok témaköréhez. Egy XML elem azonban - kontextustól függően - alanymá, predikátummá vagy tripla objektummá konvertálható. Az XSLT szabványos transzformációs nyelvként használható az XML kézi RDF-re konvertálásához.

A módszerek/eszközök áttekintése

Név Adatforrás
_
Az eredmény bemutatása Adatszinkronizálás Megjelenítési nyelv
A szótár újrafelhasználása
Kijelző automatizálás
_
Domain ontológia szükséges A
GUI
használata
A relációs adatok közvetlen leképezése RDF-re relációs
adatok
SPARQL / ETL dinamikus Nem automatikus
_
Nem Nem
CSV2RDF4LOD csv ETL statikus RDF Igen kézikönyv Nem Nem
Convert2RDF Határozott szövegfájl ETL statikus RDF/DAML Igen kézikönyv Nem Igen
D2R szerver archiválva : 2012. február 26. a Wayback Machine -nél RBD SPARQL kétirányú D2R térkép Igen kézikönyv Nem Nem
Dart Grid RBD OWL lekérdezési nyelv dinamikus szemléltetőeszközök Igen kézikönyv Nem Igen
adatmester RBD ETL statikus saját Igen kézikönyv Igen Igen
A Google Refine RDF kiterjesztése CSV, XML ETL statikus hiányzó félautomata
_
Nem Igen
Crextor XML ETL statikus XSLT Igen kézikönyv Igen Nem
MAPONTO RBD ETL statikus saját Igen kézikönyv Igen Nem
METAmorfózisok RBD ETL statikus xml leképezésen alapuló saját nyelv Igen kézikönyv Nem Igen
MappingMaster csv ETL statikus MappingMaster Igen GUI Nem Igen
ODEMapster RBD ETL statikus saját Igen kézikönyv Igen Igen
OntoWiki CSV importáló beépülő modul – DataCube & Tabular csv ETL statikus RDF Data Cube Vocaublar Igen félautomata
_
Nem Igen
Poolparty Extractor (PPX) XML, szöveg LinkedData dinamikus RDF ( SKOS ) Igen félautomata
_
Igen Nem
RDBToOnto RBD ETL statikus hiányzó Nem automatikus
, a felhasználónak lehetősége van az eredmény finomhangolására
Nem Igen
RDF 123 csv ETL statikus Nem Nem kézikönyv Nem Igen
RDOTE RBD ETL statikus SQL Igen kézikönyv Igen Igen
Relációs.BAGOLY RBD ETL statikus hiányzó Nem automatikus
_
Nem Nem
T2LD csv ETL statikus Nem Nem automatikus
_
Nem Nem
RDF szótáradatkocka ( eng.  RDF Data Cube Vocabulary ) Többdimenziós statisztikai adatok táblázatokban adatkocka szótár Igen kézikönyv Nem
TopBraid zeneszerző csv ETL statikus SKOS Nem félautomata
_
Nem Igen
megháromszorozzuk RBD LinkedData dinamikus SQL Igen kézikönyv Nem Nem
ultracsomagolás RBD SPARQL/ETL dinamikus R2RML Igen félautomata
_
Nem Igen
Virtuóz RDF nézetek RBD SPARQL dinamikus Meta séma nyelv Igen félautomata
_
Nem Igen
Virtuóz Sponger strukturált
és félig strukturált
adatforrások
SPARQL dinamikus Virtuóz PL és XSLT Igen félautomata
_
Nem Nem
Visavis RBD RDQL [10] kézikönyv SQL Igen kézikönyv Igen Igen
XLWrap: Táblázat az RDF-re csv ETL statikus TriG szintaxis Igen kézikönyv Nem Nem
XML-ből RDF-be XML ETL statikus Nem Nem automatikus
_
Nem Nem

Kivonat természetes nyelvi forrásból

Az üzleti dokumentumokban található információk legnagyobb része (körülbelül 80%-a [11] ) természetes nyelven van kódolva, ezért nem strukturált. Mivel a strukturálatlan adatok meglehetősen nehéz feladat az ismeretek kinyeréséhez, bonyolultabb módszerekre van szükség, amelyek általában rosszabb eredményeket adnak, mint a strukturált adatok. A hatalmas mennyiségű kinyert tudás megszerzésének képessége azonban kompenzálja a kinyerés növekvő bonyolultságát és minőségének romlását. Továbbá a természetes nyelvű források olyan információforrások, amelyekben az adatokat strukturálatlan szöveges adatként adják meg. Ha az adott szöveget beillesztjük egy jelölő dokumentumba (például HTML dokumentumba), ezek a rendszerek általában automatikusan eltávolítják a jelölőelemeket.

Hagyományos információkinyerés

A hagyományos információ - kinyerés ( IE [12] ) [13] egy   természetes nyelvi feldolgozási technológia, amely információt nyer ki a természetes nyelvű szövegekből, és megfelelően strukturálja azokat. A modellben a feldolgozás megkezdése előtt meg kell határozni a kinyerendő információk típusait, ezért a hagyományos információkinyerés teljes folyamata a vizsgált tárgyterülettől függ. A FROM ( eng. IE ) a következő öt részfeladatra oszlik.  

  • Elnevezett entitás felismerése ( eng.  Named entity discovery , NER)
  • Coreferencia felbontás ( CO  )
  • Sablonelem -konstrukció ( TE  ) (vagy attribútumok hozzáadása entitásokhoz)
  • Az entitások közötti kapcsolatok azonosítása (BC, eng.  Template relation construction , TR)
  • Az esemény teljes leírásának elkészítése (PPO, eng.  Template scenario production , ST)

A megnevezett entitás felismerés feladata a szövegben található összes megnevezett entitás felismerése és kategorizálása (elnevezett entitások hozzárendelése előre meghatározott kategóriákhoz). Nyelvtani alapú módszerek vagy statisztikai modellek alkalmazásával működik.

A referenciafelbontás egyenértékű entitásokat hoz létre, amelyeket a NER algoritmus felismert a szövegben. Az ekvivalenciarelációnak két összefüggő fajtája van. Az első reláció két különböző entitás (pl. IBM Europe és IBM) közötti kapcsolatra, a második pedig egy entitás és annak anaforikus hivatkozása (pl. az IBM és az IBM) közötti kapcsolatra utal. Mindkét faj felismerhető a koreferencia felbontással .

A sablonelemek felépítése során az IE rendszer beállítja a NER és CO rendszerek által felismert entitások leíró tulajdonságait. Ezek a tulajdonságok olyan közös tulajdonságoknak felelnek meg, mint a "piros" vagy a "nagy".

Az egyes entitások közötti kapcsolatok azonosítása létrehozza a sablon elemei között fennálló kapcsolatokat. Ezek a kapcsolatok többféle típusúak lehetnek, például „work-for” vagy „place-in”, azzal a megkötéssel, hogy mind a hatókör, mind a tartomány megfeleljen az entitásoknak.

A szövegben végrehajtott események teljes leírását a rendszer a NER és CO rendszerek által felismert entitások szerint ismeri fel és strukturálja, a kapcsolatokat pedig a BC rendszer ismeri fel.

Információ kinyerése ontológiák alapján

Az ontológia alapú információ-kinyerés ( OBIE  ) [11] az információkinyerés olyan részterülete, amely legalább egy ontológiát használ a természetes nyelvű szövegekből történő információkinyerés folyamatának kezelésére. Az OBIE rendszer hagyományos információkinyerési technikákat használ a használt ontológiák fogalmainak , entitásainak és kapcsolatainak felismerésére a szövegben, amely a folyamat után ontológiává strukturálódik. Így a bemeneti ontológiák modellt alkotnak a visszakeresett információból.

Ontológia tanulás

Az ontológiatanulás ( OL ) az  ontológiák automatikus vagy félautomata létrehozása, beleértve a releváns objektumtartomány-kifejezések kinyerését a természetes nyelvű szövegből. Mivel az ontológiák kézi felépítése rendkívül munka- és időigényes, erős ösztönzés van a folyamat automatizálására.

Szemantikus annotáció

A szemantikus annotáció ( SA ) [14] során a természetes nyelvű szöveget metaadatok kísérik (amelyek gyakran az RDF -ben  [ , az Attribútumokban szereplő erőforrásleíró keretrendszerben jelennek meg ), amelyeknek a gépek számára érthetővé kell tenniük a benne foglalt elemek szemantikáját . Ebben a folyamatban, amely általában félautomata, a tudást abban az értelemben veszik vissza, hogy kapcsolat jön létre a lexikai elemek és például az ontológiák fogalmai között. Így olyan tudáshoz jutunk, amely felfedi az entitás jelentését a feldolgozott kontextusban, és ezért meghatározza a szöveg jelentését a gép által felfogott információban logikus következtetések levonásának képességével. A szemantikai megjegyzés általában a következő két részfeladatra oszlik.  

  1. Terminológia kinyerése
  2. Megnevezett entitások összekapcsolása

A terminológia kinyerési szintjén a lexikális kifejezéseket a szövegből vonják ki. Ennek érdekében a lexikális elemző először meghatározza a szóhatárokat és kivonja a rövidítéseket. A fogalmaknak megfelelő kifejezéseket ezután a rendszer kivonja a szövegből egy tartomány-specifikus szókincs segítségével az entitások összekapcsolásához.

Az entitások összekapcsolásakor [15] kapcsolat jön létre a forrásszövegből kinyert lexikai tagok és egy ontológia vagy tudásbázis, például a DBpedia fogalmai között . Ehhez a jelölt fogalmakat bizonyos elemértékek szerint azonosítják egy szótár segítségével. Végül elemezzük a kifejezések kontextusát, hogy meghatározzuk a legmegfelelőbb egyértelműsítést, és hozzárendeljük a megfelelő fogalmat a kifejezéshez.

Azt jelenti,

A természetes nyelvű szövegekből tudást kinyerő eszközök kategorizálására a következő kritériumok használhatók.

Forrás Milyen beviteli formátumok dolgozhatók fel (például egyszerű szöveg, HTML vagy PDF )?
Hozzáférési paradigma Lekérdezheti-e az eszköz az adatok egy részét a forrásból, vagy teljes kiíratásra van szükség a kinyerési folyamathoz?
Adatszinkronizálás A kinyerés eredménye szinkronban van a forrással?
Az objektummodell használata Az eszköz társítja az eredményt az objektummodellhez?
Kijelző automatizálás Mennyire automatizált az extrakciós folyamat (kézi, félautomata vagy automatikus)?
Objektummodell követelmény Szüksége van az eszközhöz objektummodellt lekérni?
A GUI használata Van az eszköznek grafikus felhasználói felülete ( GUI  ) ?
Megközelítés Milyen megközelítést (IE, OBIE, OL vagy SA) használ az eszköz?
Kivonható entitások                    Milyen típusú entitásokat (például elnevezett entitásokat, fogalmakat vagy kapcsolatokat) lehet lekérni az eszközzel?
Alkalmazott technikák Milyen technikákat használnak (pl. NLP, statisztikai módszerek, klaszterezés vagy gépi tanulás )?
kimeneti modell Milyen modellt használunk az eszköz eredményének ábrázolására (pl. RDF vagy OWL)?
Támogatott témakörök Milyen tantárgyakat támogatnak (pl. közgazdaságtan vagy biológia)?
Támogatott nyelvek Milyen nyelveket lehet feldolgozni (pl. angol, német vagy orosz)?

Az alábbi táblázat a természetes nyelvi forrásokból való tudás kinyerésének néhány eszközét ismerteti.

Név Forrás Hozzáférési paradigma Adatszinkronizálás Az objektummodell használata Kijelző automatizálás Objektummodell követelmény A GUI használata Megközelítés Kivonható entitások                    Alkalmazott technikák kimeneti modell Támogatott területek Támogatott nyelvek
Aero szöveg [16] szöveges adatok, HTML, XML, SGML lerak Nem Igen automatikus Igen Igen AZAZ megnevezett entitások, kapcsolatok, események nyelvi szabályokat saját nem a területtől függ Angol, spanyol, arab, kínai, indonéz
Alchemy API [17] szöveges adatok, HTML automatikus Igen SA többnyelvű
ANNIE

[tizennyolc]

szöveges adatok lerak Igen Igen AZAZ állapotgép algoritmusok többnyelvű
ÁSIUM (LRI) szöveges adatok lerak félautomata Igen OL fogalmak, fogalmak hierarchiája NLP, klaszterezés
Kimerítő kivonás figyelem szerint automatikus AZAZ megnevezett entitások, kapcsolatok, események NLP
Dandelion API szöveges adatok, HTML, URL PIHENÉS Nem Nem automatikusan Nem Igen SA megnevezett entitások, fogalmak statisztikai módszerek JSON nem a területtől függ többnyelvű
DBpedia Spotlight [19] szöveges adatok, HTML dump, SPARQL Igen Igen automatikus Nem Igen SA annotáció minden szóhoz, megjegyzés a non-stopszavakhoz NLP, statisztikai módszerek, gépi tanulás RDFa nem a területtől függ angol
EntityClassifier.eu szöveges adatok, HTML lerak Igen Igen automatikus Nem Igen IE, OL, SA annotáció minden szóhoz, megjegyzés a non-stopszavakhoz szabályalapú nyelvtan XML nem a területtől függ Angol, német, holland
Fred [20] szöveges adatok dump, REST API Igen Igen automatikus Nem Igen IE, OL, SA, ontológiai tervezési minták, keretszemantika NIF vagy EarMark szavak absztrakt, predikátumok, példányok, kompozíciós szemantika, taxonómia fogalmak , szemantikai szerepek, leíró kapcsolatok, események, hangulat, nyelvtani idő, elnevezett entitás összekapcsolása, eseménylinkelés, érzelmek NLP, gépi tanulás, heurisztikus szabályok RDF/OWL nem a területtől függ Angol, más nyelvek fordítás után
iDocument [21] HTML, PDF , DOC SPARQL Igen Igen OBIE példányok, tulajdonságértékek NLP személyes ügy
NetOwl Extractor [22] szöveges adatok, HTML, XML, SGML , PDF, MS Office lerak Nem Igen automatikusan Igen Igen AZAZ megnevezett entitások, kapcsolatok, események NLP XML, JSON , RDF - OWL, mások több terület angol, arab, kínai (egyszerűsített és hagyományos), francia, koreai, perzsa (fárszi és dari), orosz, spanyol
OntoGen archiválva : 2010. március 30. a Wayback Machine -nél [23] félautomata Igen OL fogalmak, fogalomhierarchia, nem taxonómiai viszonyok, példányok NLP, gépi tanulás, klaszterezés
OntoLearn archiválva : 2017. augusztus 9. a Wayback Machine -nél [24] szöveges adatok, HTML lerak Nem Igen automatikusan Igen Nem OL fogalmak, fogalomhierarchia, példányok NLP, statisztikai módszerek saját nem a területtől függ angol
OntoLearn újratöltve szöveges adatok, HTML lerak Nem Igen automatikusan Igen Nem OL fogalmak, fogalomhierarchia, példányok NLP, statisztikai módszerek saját nem a területtől függ angol
OntoSiphon [25] HTML, PDF, DOC dump, keresőmotor lekérdezések Nem Igen automatikusan Igen Nem OBIE fogalmak, kapcsolatok, esetek NLP, statisztikai módszerek RDF nem a területtől függ angol
ontoX [26] szöveges adatok lerak Nem Igen félautomata Igen Nem OBIE példányok, adattípus tulajdonságértékek heurisztikus alapú módszerek saját nem a területtől függ nem nyelvtől függ
Nyissa meg Calais-t szöveges adatok, HTML, XML lerak Nem Igen automatikusan Igen Nem SA annotáció entitásokhoz, annotáció eseményekhez, annotáció tényekhez NLP, gépi tanulás RDF nem a területtől függ Angol, francia, spanyol
Pool Party Extractor (2011) szöveges adatok, HTML, DOC, ODT lerak Nem Igen automatikusan Igen Igen OBIE megnevezett entitások, fogalmak, kapcsolatok, fogalmak, amelyek a szöveget kategorizálják, gazdagítások NLP, gépi tanulás, statisztikai módszerek RDF, OWL nem a területtől függ Angol, német, spanyol, francia
Rosoka szöveges adatok, HTML, XML, SGML , PDF, MS Office lerak Igen Igen automatikusan Nem Igen AZAZ elnevezett entitás kinyerése, entitásfeloldás, kapcsolat, attribútum, fogalomkinyerés, többvektoros hangulatelemzés, georeferálás, nyelvi azonosítás , gépi tanulás NLP XML, JSON , POJO több terület többnyelvű (200+ nyelv)
SCOOBIE szöveges adatok, HTML lerak Nem Igen automatikusan Nem Nem OBIE példányok, tulajdonságértékek, RDFS típusok NLP, gépi tanulás RDF, RDFa nem a területtől függ angol német
SemTag [27] [28] HTML lerak Nem Igen automatikusan Igen Nem SA gépi tanulás adatbázis rekord nem a területtől függ nem nyelvtől függ
smart FIX szöveges adatok, HTML, PDF, DOC, e-mail lerak Igen Nem automatikusan Nem Igen OBIE nevű entitások NLP, gépi tanulás saját nem a területtől függ Angol, német, francia, holland, lengyel
Text2Onto [29] szöveges adatok, HTML, PDF lerak Igen Nem félautomata Igen Igen OL fogalmak, fogalomfogalom, nem taxonómiai viszonyok, példányok, axiómák NLP, statisztikai módszerek, gépi tanulás, szabályalapú módszerek BAGOLY nem a területtől függ Angol, német, spanyol
Szöveg átadása [30] szöveges adatok, HTML, PDF, PostScript lerak félautomata Igen Igen OL fogalmak, fogalomhierarchia, nem taxonómiai relációk, fogalmakra utaló lexikai entitások, kapcsolatokra utaló lexikai entitások NLP, gépi tanulás, klaszterezés, statisztikai módszerek Deutsch
Az a Tű Szöveges adatok lerak automatikusan Nem fogalmak, kapcsolatok, hierarchia NLP, saját JSON több terület angol
A Wiki gép [31] szöveges adatok, HTML, PDF, DOC lerak Nem Igen automatikusan Igen Igen SA tulajdonnevek címkézése, köznevek címkézése gépi tanulás RDFa régió független Angol, német, spanyol, francia, portugál, olasz, orosz
Thing Finder [32] AZAZ megnevezett entitások, kapcsolatok, események többnyelvű

Knowledge Discovery

A tudásfelfedezés azt a folyamatot írja le, amikor nagy mennyiségű adatban automatikusan keresnek olyan modelleket, amelyek az adatokkal kapcsolatos tudásnak tekinthetők [33] . Ezt gyakran úgy írják le, mint a tudás kinyerését a bemenetből . A tudásfeltárást adatelemzésre fejlesztették ki, és szorosan kapcsolódik mind a módszertanhoz, mind a terminológiához [34] .

Az adatbányászat legismertebb ága a  tudásfeltárás, más néven tudásfelfedezés az adatbázisokban . A tudásfeltárás sok más formájához hasonlóan ez az elemzés is a bemeneti adatok absztrakcióit hozza létre. A folyamat eredményeként megszerzett ismeretek további adatokká válhatnak , amelyek további felhasználásra, keresésre használhatók fel. A tudásfeltárási folyamat kimenetének gyakran nincs gyakorlati értéke, ezért az aktív tudásfelfedezés , más néven " Domain data analysis " [35] célja, hogy felfedezze és (gyakorlati jelentőségű) kinyerje az aktív tudást, és következtetéseket ebből a tudásból.

A tudásfeltárás másik ígéretes alkalmazása a szoftvermodernizálás a gyengeségek észlelése és a szabványoknak való megfelelés területén van, amely magában foglalja a meglévő szoftverek megértését. Ez a folyamat a visszafejtés fogalmához kapcsolódik . Jellemzően a meglévő szoftverekből szerzett ismereteket modellek formájában mutatják be, amelyekre szükség esetén konkrét lekérdezéseket lehet tenni. Az entitás-kapcsolat modell egy általános formátum, amely a tudást reprezentálja, és a meglévő szoftverekből származik. Az Object Management Group konzorcium kidolgozott egy specifikációt a Knowledge Discovery Metamodel ( KDM) számára, amely egy ontológiát határoz meg a szoftver-erőforrásokhoz és azok kapcsolataihoz, amelyek célja a tudás felfedezése a meglévő kódban. Az ismert szoftverrendszerekből származó tudás felfedezése, más néven szoftverbányászat , szorosan összefügg az adatbányászattal , mivel a meglévő szoftverfelfedezések nagy jelentőséggel bírnak a kockázatkezelés és a kereskedelmi érték szempontjából , amelyek kulcselemei az elemzésnek. és szoftverrendszerek fejlesztése. Az egyes adatkészletek elemzése helyett a szoftverbányászat olyan metaadatokra összpontosít, mint a termelési folyamat (pl. adatfolyam, vezérlési folyamat, hívásminta), architektúra, adatbázissémák és üzleti szabályok/kifejezések/folyamatok.  

Adatbevitel

Kimeneti formátumok

Lásd még

Jegyzetek

  1. RDB2RDF munkacsoport, Weboldal: http://www.w3.org/2001/sw/rdb2rdf/ , alapszabály: http://www.w3.org/2009/08/rdb2rdf-charter , R2RML: RDB to RDF Mapping Nyelv: http://www.w3.org/TR/r2rml/
  2. LOD2 EU  (nem elérhető link) Teljesíthető 3.1.1 Tudáskinyerés strukturált forrásokból
  3. Calais 4. kiadás, 2009 .
  4. 1 2 Berners-Lee, 1998 .
  5. Hu, Qu, 2007 , p. 225-238.
  6. Ghawi, Cullot, 2007 .
  7. Li, Du, Wang, 2005 , p. 209-220.
  8. Tirmizi, Miranker, Sequeda, 2008 .
  9. Cerbah, 2008 .
  10. RDQL = RDF lekérdezési nyelv
  11. 1 2 Wimalasuriya, Dou, 2010 , p. 306-323.
  12. Nem tévesztendő össze az MS IE-vel = Microsoft Internet Explorer!
  13. Cunningham, 2005 , p. 665–677.
  14. Erdmann, Maedche, Schnurr, Staab, 2000 .
  15. Rao, McNamee, Dredze, 2011 , p. 93-115.
  16. Rocket Software Inc. (2012). „technológia az intelligencia szövegből való kinyerésére”
  17. Orchestral8 (2012): "AlchemyAPI áttekintése"
  18. A Sheffieldi Egyetem (2011). "ANNIE: egy szinte új információgyűjtő rendszer"
  19. Mendes, Jakob, Garcia-Sílva, Bizer, 2011 , p. tizennyolc.
  20. Gangemi, Presutti, Recupero et al., 2016 .
  21. Adrian, Maus, Dengel, 2009 .
  22. SRA International Inc. (2012). NetOwl Extractor
  23. Fortuna, Grobelnik, Mladenic, 2007 , p. 309–318.
  24. Missikoff, Navigli, Velardi, 2002 , p. 60-63.
  25. McDowell, Cafarella, 2006 , p. 428-444.
  26. Yildiz, Miksch, 2007 , p. 660-673.
  27. Dill, Eiron, Gibson et al., 2003 , p. 178-186.
  28. Uren, Cimiano, Iria et al., 2006 , p. 14-28.
  29. Cimiano, Völker, 2005 .
  30. Maedche, Volz, 2001 .
  31. Gépi összekapcsolás. "Csatlakozunk a Linked Open Data felhőhöz"
  32. Inxight ThingFinder és ThingFinder Professional (lefelé irányuló kapcsolat) . Inxight Federal Systems (2008). Letöltve: 2012. június 18. Az eredetiből archiválva : 2012. június 29. 
  33. Frawley, Piatetsky-Shapiro, Matheus, 1992 , p. 57-70.
  34. Fayyad, Piatetsky-Shapiro, Smyth, 1996 , p. 37-54.
  35. Cao, 2010 , p. 755–769.

Irodalom