Tudáskinyerés

A tudáskinyerés tudás létrehozása strukturált ( relációs adatbázisok , XML ) és strukturálatlan forrásokból ( szövegek , dokumentumok , képek ) . A kapott tudásnak olyan formátumban kell lennie, amely lehetővé teszi a számítógépes bevitelt, és a tudást oly módon kell reprezentálnia, amely megkönnyíti a következtetést. Bár a folyamat módszertana hasonló az információkinyeréshez ( természetes nyelvi feldolgozás , eng. Természetes nyelvi feldolgozás , NLP) és az „ Extraction, Transformation, Loading ” folyamathoz ( eng. Extract, Transform, Load , ETL, adattárházak esetén), a fő eredménykritérium strukturált információ létrehozása vagy relációs sémává alakítása . Ehhez vagy a meglévő formális tudás átalakítása szükséges (azonosítók vagy ontológiák újrafelhasználása ), vagy az eredeti adatok alapján egy séma létrehozása.

Az RDB2RDF W3C csoport [1] egy nyelvet szabványosít az erőforrásleíró keretrendszerek ( RDF) relációs adatbázisból való kinyerésére . A tudáskinyerés másik népszerű példája a Wikipédia strukturált adatokká való konvertálása és a meglévő tudáshoz való leképezés (lásd: DBpedia és Freebase ).

Áttekintés

A tudásreprezentációs nyelvek, mint például a Resource Description Framework ( RDF) és a Web Ontology Language ( OWL ) szabványosítása után sok kutatás folyt ezen a területen, különösen a relációs adatbázis átalakításával kapcsolatban. , felismerési képességek , tudásfelfedezés és ontológiatanulás. A fő folyamat hagyományos információ-kinyerési módszereket és kivonat , átalakítás, betöltés ( ETL) módszereket használ, amelyek az adatokat forrásformátumokból strukturált formátumokba konvertálják .

Ebben a témakörben a következő kritériumok használhatók a kategorizálási kísérletekhez (egyesek tudáskinyerést biztosítanak relációs adatbázisokból) [2] :

Forrás	Milyen adatokat lehet feldolgozni: Szöveg, Relációs adatbázis, XML , CSV
Teljesítmény	Hogyan lehet a kinyert adatokat felhasználásra bemutatni (ontológia (objektummodell) fájl, szemantikai adatbázis)? Hogyan lehet tájékoztatást kérni a kapott képviselettől?
Szinkronizálás	A tudáskinyerést egyszer hajtják végre a kiíratáshoz, vagy az eredményt szinkronizálják a forrással? A kivonás statikus vagy dinamikus? Az eredmény változásait visszaírják a forrásba (kétirányúság)?
Szótár újrafelhasználása	A kivonat lehetővé teszi-e a meglévő szótárak újrafelhasználását kibontáskor. Például a 'firstName' táblázat oszlopa leképezhető a foaf: firstName oszlopra. Egyes automatikus megközelítések nem képesek szótár megjelenítésére.
Automatizálás	A részvétel mértéke / a kitermelés automatizálása: Kézi mód, van GUI , félautomata, automatikus.
Domainobjektum-modell szükségessége	Szükséges-e egy előre definiált objektummodell hozzárendelése. Így vagy létrejön egy leképezés, vagy egy sémát kapunk a forrásból a ( training ontologies ).

Példák

Megnevezett entitás kötése

A DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API , Extractiv és PoolParty Extractor tetszőleges szöveget elemzi a megnevezett entitások felismerésével , majd a kétértelműség feloldásával a nevek feloldásával , és a talált entitásokat a DBpedia tudástárhoz kapcsolja . 3] ( Dandelion dataTXT demó , vagy DBpedia Spotlight webdemó , vagy PoolParty Extractor Demo ).

Obama elnök szerdán felszólította a Kongresszust , hogy a hallgatói adókedvezmények kiterjesztését foglalja bele a gazdaságösztönző csomagba, azzal érvelve, hogy a politika erősebb támogatást generál majd.

Mivel Obama elnök a DBpediában össze van kapcsolva a LinkedData erőforrással , további információk automatikusan lekérhetők, és a Szemantikai Reasoner például arra következtethet, hogy a hivatkozott entitás egy személyiségtípus ( FOAF használatával ), és az Egyesült Államok elnöke (a YAGO ). Ellenpéldák: Azok a módszerek, amelyek csak entitásokat ismernek fel, és nem kapcsolódnak Wikipédia-cikkekhez vagy más entitásokhoz, nem biztosítanak további strukturált adatokat és formális tudáskinyerést.

Relációs adatbázis átalakítása RDF-re

A Triplify, a D2R Server, az Ultrawrap és a Virtuoso RDF nézetek olyan eszközök, amelyek a relációs adatbázist RDF-re konvertálják. A folyamat során ezek az eszközök lehetővé teszik a szókincsek és az ontológia újrafelhasználását az átalakítási folyamatban. Amikor egy tipikus user nevű relációs táblát konvertálunk , egyetlen oszlopnak (például név ) vagy oszlopcsoportnak (például keresztnév és vezetéknév ) egységes azonosítót kell biztosítania a létrehozandó entitáshoz. Általában a főkulcsot használják. Bármely más oszlop lekérhető az entitáshoz kapcsolódóan [4] . Ezután a formálisan meghatározott szemantikával rendelkező tulajdonságokat használják (és újra felhasználják) az információ értelmezésére. Például a marriedTo nevű felhasználói tábla oszlop definiálható szemantikai relációként, a kezdőlap oszlop pedig leképezhető a FOAF szótár foaf: homepage nevű tulajdonságára , így fordított funkciónak minősül . Ekkor a felhasználói tábla minden bejegyzése a foaf:Person osztály (populációs ontológia) példányává tehető. Ezenkívül a status_id -ből manuálisan létrehozott szabályokkal (ha a status_id értéke 2, a táblázat sora a Tanár osztályhoz tartozik) vagy (fél)automatikus módszerekkel ( Learn Ontologies ) létrehozható egy tárgyterület (ontológia formájában ). Az alábbiakban egy átalakítási példa látható:

Név	házasok hozzá	kezdőlap	status_id
Péter	Mary	http://example.org/Peters_page (nem elérhető link)	egy
Claus	Eva	http://example.org/Claus_page (nem elérhető link)	2

: Peter : házas : Mary . : házas OWL - lal : SymmetricProperty . : Peter foaf : kezdőlap <http://example.org/Peters_page> . : Peter foaf : Személy ( Egyén ) . : Péter : Diák ( Diák ). : Claus : Tanár ( Tanár ).

Kibontás strukturált forrásokból RDF-ben

1:1 leképezés relációs adatbázis táblákból/nézetekből RDF entitásokhoz/attribútumokhoz/értékekhez

Egy relációs adatbázis (RDB, angol relációs adatbázis ) reprezentációjának felépítésekor a kiindulópont gyakran egy entitás-relációs diagram ( eng. entity-relationship diagram , ERD). Általában minden entitást adatbázistáblaként ábrázolnak, minden entitástulajdonság oszlopmá válik a táblában, és az entitások közötti kapcsolatot idegen kulcsok mutatják. Minden tábla jellemzően egy adott entitásosztályt határoz meg, és minden oszlop az adott entitás egy-egy tulajdonságát határozza meg. A táblázat minden sora egy entitás egy példányát írja le, amelyet egy mesterkulcs egyedileg azonosít. A táblázat sorai együtt írják le az entitáskészletet. Ugyanannak az entitáskészletnek az RDF egyenértékű reprezentációjában:

A táblázat minden oszlopa egy tulajdonság (vagyis egy predikátum)
Egy oszlopban minden érték attribútum tulajdonság (vagyis objektum)
Minden sorkulcs egy entitásazonosítót (vagyis tárgyat) jelöl.
Minden sor egy entitás egy példányát jelöli
Minden sor (entitáspéldány) az RDF-ben közös tárgyú (entitásazonosító) sorok gyűjteményeként jelenik meg.

Tehát az RDF szemantikán alapuló ekvivalens reprezentáció kifejezéséhez az alapvető algoritmus a következő lenne:

hozzon létre egy RDF Schema (RDFS) osztályt minden táblához
konvertálja az összes mesterkulcsot és idegen kulcsot IRI -azonosítókká
minden oszlophoz rendeljen egy IRI predikátumot
rendelje hozzá az rdf: type predikátumot minden sorhoz az RDFS osztály IRI azonosítójával társítva
Minden olyan oszlophoz, amely nem része sem a fő kulcsnak, sem az idegen kulcsnak, létrehozunk egy hármast, amely tartalmazza a fő kulcs IRI-jét tárgyként (tárgyként), az oszlop IRI-jét predikátumként , és az oszlop értékét. oszlopot tárgyként.

Az alapvető vagy közvetlen leképezésre vonatkozó korai utalás megtalálható Tim Berners-Lee ER modell és az RDF modell összehasonlításában [4] .

Komplex relációs adatbázis-leképezések RDF-ben

A fent említett 1:1 leképezés a régi adatokat közvetlenül RDF-ként ábrázolja, és további finomításokkal javítható az RDF kimenet hasznossága az adott felhasználási esetnek megfelelően. Általános szabály, hogy az entitás -relációs diagram (ERD) relációs táblákká való átalakítása során az információ elveszik (a részletes leírást az " Object-relational mismatch " cikkben találja ), és visszafejtéssel kell visszaállítani . Koncepcionálisan a kitermelési megközelítések két irányból származhatnak. Az első irány egy OWL sémát próbál kivonni vagy betanítani (gépi tanulás segítségével) egy adott adatbázissémából. A korai megközelítések meghatározott számú, kézzel készített leképezési szabályt használtak az 1:1-es leképezés javítására [5] [6] [7] . Kidolgozottabb módszerek heurisztikus vagy tanulási algoritmusokat használtak sematikus információk generálására (a módszerek átfedésben vannak az ontológiatanulással ). Míg egyes megközelítések megpróbálnak információt kinyerni az SQL sémában rejlő struktúrából [8] (például idegen kulcsok elemzésével), más megközelítések a táblák tartalmát és értékeit elemzik, hogy fogalmi hierarchiákat hozzanak létre [9] (pl. , a kevés értékű oszlopok kategóriákká válhatnak). A második irány megkísérli leképezni a sémát és annak tartalmát egy létező tartományontológiára (lásd még " Ontológia leképezés "). Gyakran azonban nem létezik megfelelő tartományontológia, és először létre kell hozni.

XML

Mivel az XML egy fa szerkezetű, könnyen ábrázolható bármilyen adat RDF formátumban, amely grafikonként strukturált. Az XML2 RDF egy példa arra a megközelítésre, amely üres RDF csomópontokat használ, és az XML elemeket és attribútumokat RDF tulajdonságokká alakítja. Az eset azonban bonyolultabb, mint a relációs adatbázisok esetében. A relációs táblákban a főkulcs ideális jelölt a megkülönböztetett hármasok témaköréhez. Egy XML elem azonban - kontextustól függően - alanymá, predikátummá vagy tripla objektummá konvertálható. Az XSLT szabványos transzformációs nyelvként használható az XML kézi RDF-re konvertálásához.

A módszerek/eszközök áttekintése

Név	Adatforrás _	Az eredmény bemutatása	Adatszinkronizálás	Megjelenítési nyelv	A szótár újrafelhasználása	Kijelző automatizálás _	Domain ontológia szükséges	A GUI használata
A relációs adatok közvetlen leképezése RDF-re	relációs adatok	SPARQL / ETL	dinamikus		Nem	automatikus _	Nem	Nem
CSV2RDF4LOD	csv	ETL	statikus	RDF	Igen	kézikönyv	Nem	Nem
Convert2RDF	Határozott szövegfájl	ETL	statikus	RDF/DAML	Igen	kézikönyv	Nem	Igen
D2R szerver archiválva : 2012. február 26. a Wayback Machine -nél	RBD	SPARQL	kétirányú	D2R térkép	Igen	kézikönyv	Nem	Nem
Dart Grid	RBD	OWL lekérdezési nyelv	dinamikus	szemléltetőeszközök	Igen	kézikönyv	Nem	Igen
adatmester	RBD	ETL	statikus	saját	Igen	kézikönyv	Igen	Igen
A Google Refine RDF kiterjesztése	CSV, XML	ETL	statikus	hiányzó		félautomata _	Nem	Igen
Crextor	XML	ETL	statikus	XSLT	Igen	kézikönyv	Igen	Nem
MAPONTO	RBD	ETL	statikus	saját	Igen	kézikönyv	Igen	Nem
METAmorfózisok	RBD	ETL	statikus	xml leképezésen alapuló saját nyelv	Igen	kézikönyv	Nem	Igen
MappingMaster	csv	ETL	statikus	MappingMaster	Igen	GUI	Nem	Igen
ODEMapster	RBD	ETL	statikus	saját	Igen	kézikönyv	Igen	Igen
OntoWiki CSV importáló beépülő modul – DataCube & Tabular	csv	ETL	statikus	RDF Data Cube Vocaublar	Igen	félautomata _	Nem	Igen
Poolparty Extractor (PPX)	XML, szöveg	LinkedData	dinamikus	RDF ( SKOS )	Igen	félautomata _	Igen	Nem
RDBToOnto	RBD	ETL	statikus	hiányzó	Nem	automatikus , a felhasználónak lehetősége van az eredmény finomhangolására	Nem	Igen
RDF 123	csv	ETL	statikus	Nem	Nem	kézikönyv	Nem	Igen
RDOTE	RBD	ETL	statikus	SQL	Igen	kézikönyv	Igen	Igen
Relációs.BAGOLY	RBD	ETL	statikus	hiányzó	Nem	automatikus _	Nem	Nem
T2LD	csv	ETL	statikus	Nem	Nem	automatikus _	Nem	Nem
RDF szótáradatkocka ( eng. RDF Data Cube Vocabulary )	Többdimenziós statisztikai adatok táblázatokban			adatkocka szótár	Igen	kézikönyv	Nem
TopBraid zeneszerző	csv	ETL	statikus	SKOS	Nem	félautomata _	Nem	Igen
megháromszorozzuk	RBD	LinkedData	dinamikus	SQL	Igen	kézikönyv	Nem	Nem
ultracsomagolás	RBD	SPARQL/ETL	dinamikus	R2RML	Igen	félautomata _	Nem	Igen
Virtuóz RDF nézetek	RBD	SPARQL	dinamikus	Meta séma nyelv	Igen	félautomata _	Nem	Igen
Virtuóz Sponger	strukturált és félig strukturált adatforrások	SPARQL	dinamikus	Virtuóz PL és XSLT	Igen	félautomata _	Nem	Nem
Visavis	RBD	RDQL [10]	kézikönyv	SQL	Igen	kézikönyv	Igen	Igen
XLWrap: Táblázat az RDF-re	csv	ETL	statikus	TriG szintaxis	Igen	kézikönyv	Nem	Nem
XML-ből RDF-be	XML	ETL	statikus	Nem	Nem	automatikus _	Nem	Nem

Kivonat természetes nyelvi forrásból

Az üzleti dokumentumokban található információk legnagyobb része (körülbelül 80%-a [11] ) természetes nyelven van kódolva, ezért nem strukturált. Mivel a strukturálatlan adatok meglehetősen nehéz feladat az ismeretek kinyeréséhez, bonyolultabb módszerekre van szükség, amelyek általában rosszabb eredményeket adnak, mint a strukturált adatok. A hatalmas mennyiségű kinyert tudás megszerzésének képessége azonban kompenzálja a kinyerés növekvő bonyolultságát és minőségének romlását. Továbbá a természetes nyelvű források olyan információforrások, amelyekben az adatokat strukturálatlan szöveges adatként adják meg. Ha az adott szöveget beillesztjük egy jelölő dokumentumba (például HTML dokumentumba), ezek a rendszerek általában automatikusan eltávolítják a jelölőelemeket.

Hagyományos információkinyerés

A hagyományos információ - kinyerés ( IE [12] ) [13] egy természetes nyelvi feldolgozási technológia, amely információt nyer ki a természetes nyelvű szövegekből, és megfelelően strukturálja azokat. A modellben a feldolgozás megkezdése előtt meg kell határozni a kinyerendő információk típusait, ezért a hagyományos információkinyerés teljes folyamata a vizsgált tárgyterülettől függ. A FROM ( eng. IE ) a következő öt részfeladatra oszlik.

Elnevezett entitás felismerése ( eng. Named entity discovery , NER)
Coreferencia felbontás ( CO )
Sablonelem -konstrukció ( TE ) (vagy attribútumok hozzáadása entitásokhoz)
Az entitások közötti kapcsolatok azonosítása (BC, eng. Template relation construction , TR)
Az esemény teljes leírásának elkészítése (PPO, eng. Template scenario production , ST)

A megnevezett entitás felismerés feladata a szövegben található összes megnevezett entitás felismerése és kategorizálása (elnevezett entitások hozzárendelése előre meghatározott kategóriákhoz). Nyelvtani alapú módszerek vagy statisztikai modellek alkalmazásával működik.

A referenciafelbontás egyenértékű entitásokat hoz létre, amelyeket a NER algoritmus felismert a szövegben. Az ekvivalenciarelációnak két összefüggő fajtája van. Az első reláció két különböző entitás (pl. IBM Europe és IBM) közötti kapcsolatra, a második pedig egy entitás és annak anaforikus hivatkozása (pl. az IBM és az IBM) közötti kapcsolatra utal. Mindkét faj felismerhető a koreferencia felbontással .

A sablonelemek felépítése során az IE rendszer beállítja a NER és CO rendszerek által felismert entitások leíró tulajdonságait. Ezek a tulajdonságok olyan közös tulajdonságoknak felelnek meg, mint a "piros" vagy a "nagy".

Az egyes entitások közötti kapcsolatok azonosítása létrehozza a sablon elemei között fennálló kapcsolatokat. Ezek a kapcsolatok többféle típusúak lehetnek, például „work-for” vagy „place-in”, azzal a megkötéssel, hogy mind a hatókör, mind a tartomány megfeleljen az entitásoknak.

A szövegben végrehajtott események teljes leírását a rendszer a NER és CO rendszerek által felismert entitások szerint ismeri fel és strukturálja, a kapcsolatokat pedig a BC rendszer ismeri fel.

Információ kinyerése ontológiák alapján

Az ontológia alapú információ-kinyerés ( OBIE ) [11] az információkinyerés olyan részterülete, amely legalább egy ontológiát használ a természetes nyelvű szövegekből történő információkinyerés folyamatának kezelésére. Az OBIE rendszer hagyományos információkinyerési technikákat használ a használt ontológiák fogalmainak , entitásainak és kapcsolatainak felismerésére a szövegben, amely a folyamat után ontológiává strukturálódik. Így a bemeneti ontológiák modellt alkotnak a visszakeresett információból.

Ontológia tanulás

Az ontológiatanulás ( OL ) az ontológiák automatikus vagy félautomata létrehozása, beleértve a releváns objektumtartomány-kifejezések kinyerését a természetes nyelvű szövegből. Mivel az ontológiák kézi felépítése rendkívül munka- és időigényes, erős ösztönzés van a folyamat automatizálására.

Szemantikus annotáció

A szemantikus annotáció ( SA ) [14] során a természetes nyelvű szöveget metaadatok kísérik (amelyek gyakran az RDF -ben [ , az Attribútumokban szereplő erőforrásleíró keretrendszerben jelennek meg ), amelyeknek a gépek számára érthetővé kell tenniük a benne foglalt elemek szemantikáját . Ebben a folyamatban, amely általában félautomata, a tudást abban az értelemben veszik vissza, hogy kapcsolat jön létre a lexikai elemek és például az ontológiák fogalmai között. Így olyan tudáshoz jutunk, amely felfedi az entitás jelentését a feldolgozott kontextusban, és ezért meghatározza a szöveg jelentését a gép által felfogott információban logikus következtetések levonásának képességével. A szemantikai megjegyzés általában a következő két részfeladatra oszlik.

Terminológia kinyerése
Megnevezett entitások összekapcsolása

A terminológia kinyerési szintjén a lexikális kifejezéseket a szövegből vonják ki. Ennek érdekében a lexikális elemző először meghatározza a szóhatárokat és kivonja a rövidítéseket. A fogalmaknak megfelelő kifejezéseket ezután a rendszer kivonja a szövegből egy tartomány-specifikus szókincs segítségével az entitások összekapcsolásához.

Az entitások összekapcsolásakor [15] kapcsolat jön létre a forrásszövegből kinyert lexikai tagok és egy ontológia vagy tudásbázis, például a DBpedia fogalmai között . Ehhez a jelölt fogalmakat bizonyos elemértékek szerint azonosítják egy szótár segítségével. Végül elemezzük a kifejezések kontextusát, hogy meghatározzuk a legmegfelelőbb egyértelműsítést, és hozzárendeljük a megfelelő fogalmat a kifejezéshez.

Azt jelenti,

A természetes nyelvű szövegekből tudást kinyerő eszközök kategorizálására a következő kritériumok használhatók.

Forrás	Milyen beviteli formátumok dolgozhatók fel (például egyszerű szöveg, HTML vagy PDF )?
Hozzáférési paradigma	Lekérdezheti-e az eszköz az adatok egy részét a forrásból, vagy teljes kiíratásra van szükség a kinyerési folyamathoz?
Adatszinkronizálás	A kinyerés eredménye szinkronban van a forrással?
Az objektummodell használata	Az eszköz társítja az eredményt az objektummodellhez?
Kijelző automatizálás	Mennyire automatizált az extrakciós folyamat (kézi, félautomata vagy automatikus)?
Objektummodell követelmény	Szüksége van az eszközhöz objektummodellt lekérni?
A GUI használata	Van az eszköznek grafikus felhasználói felülete ( GUI ) ?
Megközelítés	Milyen megközelítést (IE, OBIE, OL vagy SA) használ az eszköz?
Kivonható entitások	Milyen típusú entitásokat (például elnevezett entitásokat, fogalmakat vagy kapcsolatokat) lehet lekérni az eszközzel?
Alkalmazott technikák	Milyen technikákat használnak (pl. NLP, statisztikai módszerek, klaszterezés vagy gépi tanulás )?
kimeneti modell	Milyen modellt használunk az eszköz eredményének ábrázolására (pl. RDF vagy OWL)?
Támogatott témakörök	Milyen tantárgyakat támogatnak (pl. közgazdaságtan vagy biológia)?
Támogatott nyelvek	Milyen nyelveket lehet feldolgozni (pl. angol, német vagy orosz)?

Az alábbi táblázat a természetes nyelvi forrásokból való tudás kinyerésének néhány eszközét ismerteti.

Név	Forrás	Hozzáférési paradigma	Adatszinkronizálás	Az objektummodell használata	Kijelző automatizálás	Objektummodell követelmény	A GUI használata	Megközelítés	Kivonható entitások	Alkalmazott technikák	kimeneti modell	Támogatott területek	Támogatott nyelvek
Aero szöveg [16]	szöveges adatok, HTML, XML, SGML	lerak	Nem	Igen	automatikus	Igen	Igen	AZAZ	megnevezett entitások, kapcsolatok, események	nyelvi szabályokat	saját	nem a területtől függ	Angol, spanyol, arab, kínai, indonéz
Alchemy API [17]	szöveges adatok, HTML				automatikus		Igen	SA					többnyelvű
ANNIE [tizennyolc]	szöveges adatok	lerak				Igen	Igen	AZAZ		állapotgép algoritmusok			többnyelvű
ÁSIUM (LRI)	szöveges adatok	lerak			félautomata		Igen	OL	fogalmak, fogalmak hierarchiája	NLP, klaszterezés
Kimerítő kivonás figyelem szerint					automatikus			AZAZ	megnevezett entitások, kapcsolatok, események	NLP
Dandelion API	szöveges adatok, HTML, URL	PIHENÉS	Nem	Nem	automatikusan	Nem	Igen	SA	megnevezett entitások, fogalmak	statisztikai módszerek	JSON	nem a területtől függ	többnyelvű
DBpedia Spotlight [19]	szöveges adatok, HTML	dump, SPARQL	Igen	Igen	automatikus	Nem	Igen	SA	annotáció minden szóhoz, megjegyzés a non-stopszavakhoz	NLP, statisztikai módszerek, gépi tanulás	RDFa	nem a területtől függ	angol
EntityClassifier.eu	szöveges adatok, HTML	lerak	Igen	Igen	automatikus	Nem	Igen	IE, OL, SA	annotáció minden szóhoz, megjegyzés a non-stopszavakhoz	szabályalapú nyelvtan	XML	nem a területtől függ	Angol, német, holland
Fred [20]	szöveges adatok	dump, REST API	Igen	Igen	automatikus	Nem	Igen	IE, OL, SA, ontológiai tervezési minták, keretszemantika	NIF vagy EarMark szavak absztrakt, predikátumok, példányok, kompozíciós szemantika, taxonómia fogalmak , szemantikai szerepek, leíró kapcsolatok, események, hangulat, nyelvtani idő, elnevezett entitás összekapcsolása, eseménylinkelés, érzelmek	NLP, gépi tanulás, heurisztikus szabályok	RDF/OWL	nem a területtől függ	Angol, más nyelvek fordítás után
iDocument [21]	HTML, PDF , DOC	SPARQL		Igen			Igen	OBIE	példányok, tulajdonságértékek	NLP		személyes ügy
NetOwl Extractor [22]	szöveges adatok, HTML, XML, SGML , PDF, MS Office	lerak	Nem	Igen	automatikusan	Igen	Igen	AZAZ	megnevezett entitások, kapcsolatok, események	NLP	XML, JSON , RDF - OWL, mások	több terület	angol, arab, kínai (egyszerűsített és hagyományos), francia, koreai, perzsa (fárszi és dari), orosz, spanyol
OntoGen archiválva : 2010. március 30. a Wayback Machine -nél [23]					félautomata		Igen	OL	fogalmak, fogalomhierarchia, nem taxonómiai viszonyok, példányok	NLP, gépi tanulás, klaszterezés
OntoLearn archiválva : 2017. augusztus 9. a Wayback Machine -nél [24]	szöveges adatok, HTML	lerak	Nem	Igen	automatikusan	Igen	Nem	OL	fogalmak, fogalomhierarchia, példányok	NLP, statisztikai módszerek	saját	nem a területtől függ	angol
OntoLearn újratöltve	szöveges adatok, HTML	lerak	Nem	Igen	automatikusan	Igen	Nem	OL	fogalmak, fogalomhierarchia, példányok	NLP, statisztikai módszerek	saját	nem a területtől függ	angol
OntoSiphon [25]	HTML, PDF, DOC	dump, keresőmotor lekérdezések	Nem	Igen	automatikusan	Igen	Nem	OBIE	fogalmak, kapcsolatok, esetek	NLP, statisztikai módszerek	RDF	nem a területtől függ	angol
ontoX [26]	szöveges adatok	lerak	Nem	Igen	félautomata	Igen	Nem	OBIE	példányok, adattípus tulajdonságértékek	heurisztikus alapú módszerek	saját	nem a területtől függ	nem nyelvtől függ
Nyissa meg Calais-t	szöveges adatok, HTML, XML	lerak	Nem	Igen	automatikusan	Igen	Nem	SA	annotáció entitásokhoz, annotáció eseményekhez, annotáció tényekhez	NLP, gépi tanulás	RDF	nem a területtől függ	Angol, francia, spanyol
Pool Party Extractor (2011)	szöveges adatok, HTML, DOC, ODT	lerak	Nem	Igen	automatikusan	Igen	Igen	OBIE	megnevezett entitások, fogalmak, kapcsolatok, fogalmak, amelyek a szöveget kategorizálják, gazdagítások	NLP, gépi tanulás, statisztikai módszerek	RDF, OWL	nem a területtől függ	Angol, német, spanyol, francia
Rosoka	szöveges adatok, HTML, XML, SGML , PDF, MS Office	lerak	Igen	Igen	automatikusan	Nem	Igen	AZAZ	elnevezett entitás kinyerése, entitásfeloldás, kapcsolat, attribútum, fogalomkinyerés, többvektoros hangulatelemzés, georeferálás, nyelvi azonosítás , gépi tanulás	NLP	XML, JSON , POJO	több terület	többnyelvű (200+ nyelv)
SCOOBIE	szöveges adatok, HTML	lerak	Nem	Igen	automatikusan	Nem	Nem	OBIE	példányok, tulajdonságértékek, RDFS típusok	NLP, gépi tanulás	RDF, RDFa	nem a területtől függ	angol német
SemTag [27] [28]	HTML	lerak	Nem	Igen	automatikusan	Igen	Nem	SA		gépi tanulás	adatbázis rekord	nem a területtől függ	nem nyelvtől függ
smart FIX	szöveges adatok, HTML, PDF, DOC, e-mail	lerak	Igen	Nem	automatikusan	Nem	Igen	OBIE	nevű entitások	NLP, gépi tanulás	saját	nem a területtől függ	Angol, német, francia, holland, lengyel
Text2Onto [29]	szöveges adatok, HTML, PDF	lerak	Igen	Nem	félautomata	Igen	Igen	OL	fogalmak, fogalomfogalom, nem taxonómiai viszonyok, példányok, axiómák	NLP, statisztikai módszerek, gépi tanulás, szabályalapú módszerek	BAGOLY	nem a területtől függ	Angol, német, spanyol
Szöveg átadása [30]	szöveges adatok, HTML, PDF, PostScript	lerak			félautomata	Igen	Igen	OL	fogalmak, fogalomhierarchia, nem taxonómiai relációk, fogalmakra utaló lexikai entitások, kapcsolatokra utaló lexikai entitások	NLP, gépi tanulás, klaszterezés, statisztikai módszerek			Deutsch
Az a Tű	Szöveges adatok	lerak			automatikusan		Nem		fogalmak, kapcsolatok, hierarchia	NLP, saját	JSON	több terület	angol
A Wiki gép [31]	szöveges adatok, HTML, PDF, DOC	lerak	Nem	Igen	automatikusan	Igen	Igen	SA	tulajdonnevek címkézése, köznevek címkézése	gépi tanulás	RDFa	régió független	Angol, német, spanyol, francia, portugál, olasz, orosz
Thing Finder [32]								AZAZ	megnevezett entitások, kapcsolatok, események				többnyelvű

Knowledge Discovery

A tudásfelfedezés azt a folyamatot írja le, amikor nagy mennyiségű adatban automatikusan keresnek olyan modelleket, amelyek az adatokkal kapcsolatos tudásnak tekinthetők [33] . Ezt gyakran úgy írják le, mint a tudás kinyerését a bemenetből . A tudásfeltárást adatelemzésre fejlesztették ki, és szorosan kapcsolódik mind a módszertanhoz, mind a terminológiához [34] .

Az adatbányászat legismertebb ága a tudásfeltárás, más néven tudásfelfedezés az adatbázisokban . A tudásfeltárás sok más formájához hasonlóan ez az elemzés is a bemeneti adatok absztrakcióit hozza létre. A folyamat eredményeként megszerzett ismeretek további adatokká válhatnak , amelyek további felhasználásra, keresésre használhatók fel. A tudásfeltárási folyamat kimenetének gyakran nincs gyakorlati értéke, ezért az aktív tudásfelfedezés , más néven " Domain data analysis " [35] célja, hogy felfedezze és (gyakorlati jelentőségű) kinyerje az aktív tudást, és következtetéseket ebből a tudásból.

A tudásfeltárás másik ígéretes alkalmazása a szoftvermodernizálás a gyengeségek észlelése és a szabványoknak való megfelelés területén van, amely magában foglalja a meglévő szoftverek megértését. Ez a folyamat a visszafejtés fogalmához kapcsolódik . Jellemzően a meglévő szoftverekből szerzett ismereteket modellek formájában mutatják be, amelyekre szükség esetén konkrét lekérdezéseket lehet tenni. Az entitás-kapcsolat modell egy általános formátum, amely a tudást reprezentálja, és a meglévő szoftverekből származik. Az Object Management Group konzorcium kidolgozott egy specifikációt a Knowledge Discovery Metamodel ( KDM) számára, amely egy ontológiát határoz meg a szoftver-erőforrásokhoz és azok kapcsolataihoz, amelyek célja a tudás felfedezése a meglévő kódban. Az ismert szoftverrendszerekből származó tudás felfedezése, más néven szoftverbányászat , szorosan összefügg az adatbányászattal , mivel a meglévő szoftverfelfedezések nagy jelentőséggel bírnak a kockázatkezelés és a kereskedelmi érték szempontjából , amelyek kulcselemei az elemzésnek. és szoftverrendszerek fejlesztése. Az egyes adatkészletek elemzése helyett a szoftverbányászat olyan metaadatokra összpontosít, mint a termelési folyamat (pl. adatfolyam, vezérlési folyamat, hívásminta), architektúra, adatbázissémák és üzleti szabályok/kifejezések/folyamatok.

Adatbevitel

Adatbázis
- Relációs adatok
- Adatbázis
- Dokumentumtárolás
- Adattár
Szoftver
Szöveg
- Fogalom kinyerése
Grafikonok
- Molekulák intelligens elemzése
Sorozatok
- Adatfolyam bányászat
- Concept Drift
web

Kimeneti formátumok

Lásd még

Jegyzetek

↑ RDB2RDF munkacsoport, Weboldal: http://www.w3.org/2001/sw/rdb2rdf/ , alapszabály: http://www.w3.org/2009/08/rdb2rdf-charter , R2RML: RDB to RDF Mapping Nyelv: http://www.w3.org/TR/r2rml/
↑ LOD2 EU (nem elérhető link) Teljesíthető 3.1.1 Tudáskinyerés strukturált forrásokból
↑ Calais 4. kiadás, 2009 .
↑ 1 2 Berners-Lee, 1998 .
↑ Hu, Qu, 2007 , p. 225-238.
↑ Ghawi, Cullot, 2007 .
↑ Li, Du, Wang, 2005 , p. 209-220.
↑ Tirmizi, Miranker, Sequeda, 2008 .
↑ Cerbah, 2008 .
↑ RDQL = RDF lekérdezési nyelv
↑ 1 2 Wimalasuriya, Dou, 2010 , p. 306-323.
↑ Nem tévesztendő össze az MS IE-vel = Microsoft Internet Explorer!
↑ Cunningham, 2005 , p. 665–677.
↑ Erdmann, Maedche, Schnurr, Staab, 2000 .
↑ Rao, McNamee, Dredze, 2011 , p. 93-115.
↑ Rocket Software Inc. (2012). „technológia az intelligencia szövegből való kinyerésére”
↑ Orchestral8 (2012): "AlchemyAPI áttekintése"
↑ A Sheffieldi Egyetem (2011). "ANNIE: egy szinte új információgyűjtő rendszer"
↑ Mendes, Jakob, Garcia-Sílva, Bizer, 2011 , p. tizennyolc.
↑ Gangemi, Presutti, Recupero et al., 2016 .
↑ Adrian, Maus, Dengel, 2009 .
↑ SRA International Inc. (2012). NetOwl Extractor
↑ Fortuna, Grobelnik, Mladenic, 2007 , p. 309–318.
↑ Missikoff, Navigli, Velardi, 2002 , p. 60-63.
↑ McDowell, Cafarella, 2006 , p. 428-444.
↑ Yildiz, Miksch, 2007 , p. 660-673.
↑ Dill, Eiron, Gibson et al., 2003 , p. 178-186.
↑ Uren, Cimiano, Iria et al., 2006 , p. 14-28.
↑ Cimiano, Völker, 2005 .
↑ Maedche, Volz, 2001 .
↑ Gépi összekapcsolás. "Csatlakozunk a Linked Open Data felhőhöz"
↑ Inxight ThingFinder és ThingFinder Professional (lefelé irányuló kapcsolat) . Inxight Federal Systems (2008). Letöltve: 2012. június 18. Az eredetiből archiválva : 2012. június 29. (határozatlan)
↑ Frawley, Piatetsky-Shapiro, Matheus, 1992 , p. 57-70.
↑ Fayyad, Piatetsky-Shapiro, Smyth, 1996 , p. 37-54.
↑ Cao, 2010 , p. 755–769.

Irodalom

Cao L. Domainvezérelt adatbányászat: kihívások és kilátások // IEEE Trans. a tudás- és adatmérnöki szakon. - 2010. - T. 22 , sz. 6 . - doi : 10.1109/tkde.2010.32 .
Élet a linkelt adatfelhőben // www.opencalais.com. - 2009. Archiválva : 2009. november 24. Kivonat: A Wikipédiának van egy DBpedia nevű megfelelője. A DBpedia ugyanazokkal a strukturált információkkal rendelkezik, mint a Wikipédia, de géppel olvasható formátumba konvertálva.
Benjamin Adrian, Heiko Maus, Andreas Dengel. iDocument: Ontológiák használata információ kinyerésére szövegből. – 2009.
William J. Frawley, Gregory Piatetsky-Shapiro, Christopher J. Matheus. Tudásfeltárás az adatbázisokban: áttekintés // AI Magazine. - 1992. - T. 13 , 3. sz . - S. 57-70 . Az eredetiből archiválva: 2016. március 4.
Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth. Az adatbányászattól a tudásfeltárásig az adatbázisokban // AI Magazine. - 1996. - T. 17 , 3. sz . - S. 37-54 . Az eredetiből archiválva: 2016. május 4.
Tim Berners Lee. Relációs adatbázisok a szemantikus weben . – 1998.
Farid Cerbah. Erősen strukturált szemantikai adattárak tanulása relációs adatbázisokból // A szemantikus web: kutatás és alkalmazások . - Berlin / Heidelberg: Springer, 2008. - T. 5021. - (Lecture Notes in Computer Science). Archiválva : 2011. július 20. a Wayback Machine -nél
Syed Hamid Tirmizi, Daniel P. Miranker, Juan Sequeda. SQL alkalmazások fordítása a szemantikus webre // Adatbázis- és szakértői rendszeralkalmazások . - 2008. - T. 5181/2008. — (Számítástechnikai előadásjegyzetek).
Wei Hu, Yuzhong Q. Egyszerű leképezések felfedezése relációs adatbázissémák és ontológiák között // Proc. 6. Nemzetközi Szemantikus Web Konferencia (ISWC 2007), 2. Ázsiai Szemantikus Web Konferencia (ASWC 2007) . - Busan, Korea, 2007. november 11-15., 2007. - T. 4825. - S. 225-238. — (Számítástechnikai előadásjegyzetek).
Ghawi R., Cullot N. Database-to-Ontology Mapping Generation for Semantic Interoperability // Third International Workshop on Database Interoperability (InterDB 2007). . – 2007.
Man Li, Xiaoyong Du, Shan Wang. Félautomata ontológiaszerzési módszer a szemantikus webhez // WAIM. - Springer, 2005. - T. 3739. - S. 209-220. — (Számítástechnikai előadásjegyzetek). - doi : 10.1007/11563952_19 .
Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero, Andrea Giovanni Nuzzolese, Francesco Draicchio, Misael Mongiovì. Szemantikus webes gépi olvasás FRED segítségével // Szemantikus webnapló. - 2016. - doi : 10.3233/SW-160240 .
Philipp Cimiano, Johanna Volker. Text2Onto – Keretrendszer az ontológiatanuláshoz és az adatvezérelt változások felfedezéséhez // A természetes nyelv információs rendszerekben történő alkalmazásai 10. nemzetközi konferenciájának anyaga. - 2005. - T. 3513. - S. 227 - 238.
Hamish Cunningham. Automatikus információnyerés // Nyelvi és Nyelvészeti Enciklopédia . - 2005. - S. 665 - 677.
Stephen Dill, Nadav Eiron, David Gibson, Daniel Gruhl, R. Guha, Anant Jhingran, Tapas Kanungo, Sridhar Rajagopalan, Andrew Tomkins, John A. Tomlin, Jason Y. Zien. SemTag and Seeker: Bootstraping the Semantic Web via Automated Semantic Annotation // Proceedings of the 12. international Conference on World Wide Web . - 2003. - S. 178 - 186.
Erdmann M., Maedche A., Schnurr H.-P., Staab S. Manual to Semi-automatic szemantic Annotation: About Ontology-based Text Annotation Tools // Proceedings of the COLING. – 2000.
Blaz Fortuna, Marko Grobelnik, Dunja Mladenic. OntoGen: Semi-automatic Ontology Editor // Proceedings of the 2007 Conference on Human interface, Part 2 . - 2007. - S. 309 - 318.
Alexander Maedche, Raphael Volz. The Ontology Extraction & Maintenance Framework Text-To-Onto // Az IEEE International Conference on Data Mining konferencia anyaga . – 2001.
Luke K. McDowell, Michael Cafarella. Ontológia-vezérelt információ-kinyerés OntoSyphon segítségével // A szemantikus web 5. nemzetközi konferenciájának anyaga . - 2006. - S. 428 - 444.
Pablo N. Mendes, Max Jakob, Andrés Garcia-Sílva, Christian Bizer. DBpedia Spotlight: Shedding Light on the Web of Documents // Proceedings of the 7th International Conference on Semantic Systems . - 2011. - S. 1 - 8. 2012. április 5-i archív példány a Wayback Machine -nál
Michele Missikoff, Roberto Navigli, Paola Velardi. Integrált megközelítés a webontológia tanulásához és tervezéséhez // Számítógép. - 2002. - T. 35 , sz. 11 . - S. 60 - 63 .
Delip Rao, Paul McNamee, Mark Dredze. Entitások összekapcsolása: Kivonatolt entitások keresése a tudásbázisban // Többforrású, többnyelvű információ kinyerése és összegzése . — 2011. (elérhetetlen link)
Victoria Uren, Philipp Cimiano, José Iria, Siegfried Handschuh, Maria Vargas-Vera, Enrico Motta, Fabio Ciravegna. Szemantikus megjegyzés a tudásmenedzsmenthez: Követelmények és felmérés a technika állásáról // Web Semantics: Science, Services and Agents on the World Wide Web. - 2006. - V. 4 , sz. 1 . - S. 14 - 28 . (nem elérhető link)
Daya C. Wimalasuriya, Dejing Dou. Ontológia alapú információkinyerés: Bevezetés és felmérés a jelenlegi megközelítésekről // Journal of Information Science. - 2010. - T. 36 , sz. 3 . - S. 306 - 323 .
Burcu Yildiz, Silvia Miksch. ontoX - A Method for Ontology-Driven Information Extraction // A Számítástudomány és alkalmazásai 2007-es nemzetközi konferencia előadásai . - 2007. - T. 3. - S. 660 - 673.

szemantikus web
Alapok	A világháló Internet Hipertext Adatbázis Szemantikus hálózatok Ontológiák Leírás logika
alszakaszok	Kapcsolt adatok adatháló Hiperadatok Üzleti szabály-végrehajtási kiszolgáló Adatterek
Alkalmazások	Szemantikus Wiki Szemantikus publikáció Szemantikus keresés Szemantikus számítástechnika szemantikus reklámozás Szemantikus érvelési mechanizmus szemantikai illesztés szemantikai leképező szemantikai bróker szemantikai elemzés szemantikus szolgáltatásorientált architektúra
Kapcsolódó témák	Folksonomia Könyvtár 2.0 Web 2.0 Linkek Információs architektúra Tudásmenedzsment kollektív intelligencia Tematikus térképek Gondolattérképezés metaadatokat Geocímkézés webtudomány
Szabványok	Szintaxis : RDF RDF/XML 3. jelölés Teknősbéka N-hármas JSON-LD SPARQL URI HTTP XML Sémák, ontológiák : RDFS BAGOLY Szabálycsere formátuma Szemantikus webszabály nyelve közös logika Schema.org Szemantikai megjegyzés : RDFa erDF GRDDL Mikroformátumok Mikroadatok Szótárak : DOAP FOAF SIOC Dublin mag SKOS ERNYŐVIRÁGZAT Előzmények : Egyszerű régi szemantikus HTML DAML+OLAJ