A tudáskinyerés tudás létrehozása strukturált ( relációs adatbázisok , XML ) és strukturálatlan forrásokból ( szövegek , dokumentumok , képek ) . A kapott tudásnak olyan formátumban kell lennie, amely lehetővé teszi a számítógépes bevitelt, és a tudást oly módon kell reprezentálnia, amely megkönnyíti a következtetést. Bár a folyamat módszertana hasonló az információkinyeréshez ( természetes nyelvi feldolgozás , eng. Természetes nyelvi feldolgozás , NLP) és az „ Extraction, Transformation, Loading ” folyamathoz ( eng. Extract, Transform, Load , ETL, adattárházak esetén), a fő eredménykritérium strukturált információ létrehozása vagy relációs sémává alakítása . Ehhez vagy a meglévő formális tudás átalakítása szükséges (azonosítók vagy ontológiák újrafelhasználása ), vagy az eredeti adatok alapján egy séma létrehozása.
Az RDB2RDF W3C csoport [1] egy nyelvet szabványosít az erőforrásleíró keretrendszerek ( RDF) relációs adatbázisból való kinyerésére . A tudáskinyerés másik népszerű példája a Wikipédia strukturált adatokká való konvertálása és a meglévő tudáshoz való leképezés (lásd: DBpedia és Freebase ).
A tudásreprezentációs nyelvek, mint például a Resource Description Framework ( RDF) és a Web Ontology Language ( OWL ) szabványosítása után sok kutatás folyt ezen a területen, különösen a relációs adatbázis átalakításával kapcsolatban. , felismerési képességek , tudásfelfedezés és ontológiatanulás. A fő folyamat hagyományos információ-kinyerési módszereket és kivonat , átalakítás, betöltés ( ETL) módszereket használ, amelyek az adatokat forrásformátumokból strukturált formátumokba konvertálják .
Ebben a témakörben a következő kritériumok használhatók a kategorizálási kísérletekhez (egyesek tudáskinyerést biztosítanak relációs adatbázisokból) [2] :
Forrás | Milyen adatokat lehet feldolgozni: Szöveg, Relációs adatbázis, XML , CSV |
---|---|
Teljesítmény | Hogyan lehet a kinyert adatokat felhasználásra bemutatni (ontológia (objektummodell) fájl, szemantikai adatbázis)? Hogyan lehet tájékoztatást kérni a kapott képviselettől? |
Szinkronizálás | A tudáskinyerést egyszer hajtják végre a kiíratáshoz, vagy az eredményt szinkronizálják a forrással? A kivonás statikus vagy dinamikus? Az eredmény változásait visszaírják a forrásba (kétirányúság)? |
Szótár újrafelhasználása | A kivonat lehetővé teszi-e a meglévő szótárak újrafelhasználását kibontáskor. Például a 'firstName' táblázat oszlopa leképezhető a foaf: firstName oszlopra. Egyes automatikus megközelítések nem képesek szótár megjelenítésére. |
Automatizálás | A részvétel mértéke / a kitermelés automatizálása: Kézi mód, van GUI , félautomata, automatikus. |
Domainobjektum-modell szükségessége | Szükséges-e egy előre definiált objektummodell hozzárendelése. Így vagy létrejön egy leképezés, vagy egy sémát kapunk a forrásból a ( training ontologies ). |
Obama elnök szerdán felszólította a Kongresszust , hogy a hallgatói adókedvezmények kiterjesztését foglalja bele a gazdaságösztönző csomagba, azzal érvelve, hogy a politika erősebb támogatást generál majd.
Mivel Obama elnök a DBpediában össze van kapcsolva a LinkedData erőforrással , további információk automatikusan lekérhetők, és a Szemantikai Reasoner például arra következtethet, hogy a hivatkozott entitás egy személyiségtípus ( FOAF használatával ), és az Egyesült Államok elnöke (a YAGO ). Ellenpéldák: Azok a módszerek, amelyek csak entitásokat ismernek fel, és nem kapcsolódnak Wikipédia-cikkekhez vagy más entitásokhoz, nem biztosítanak további strukturált adatokat és formális tudáskinyerést.Név | házasok hozzá | kezdőlap | status_id |
---|---|---|---|
Péter | Mary | http://example.org/Peters_page (nem elérhető link) | egy |
Claus | Eva | http://example.org/Claus_page (nem elérhető link) | 2 |
Egy relációs adatbázis (RDB, angol relációs adatbázis ) reprezentációjának felépítésekor a kiindulópont gyakran egy entitás-relációs diagram ( eng. entity-relationship diagram , ERD). Általában minden entitást adatbázistáblaként ábrázolnak, minden entitástulajdonság oszlopmá válik a táblában, és az entitások közötti kapcsolatot idegen kulcsok mutatják. Minden tábla jellemzően egy adott entitásosztályt határoz meg, és minden oszlop az adott entitás egy-egy tulajdonságát határozza meg. A táblázat minden sora egy entitás egy példányát írja le, amelyet egy mesterkulcs egyedileg azonosít. A táblázat sorai együtt írják le az entitáskészletet. Ugyanannak az entitáskészletnek az RDF egyenértékű reprezentációjában:
Tehát az RDF szemantikán alapuló ekvivalens reprezentáció kifejezéséhez az alapvető algoritmus a következő lenne:
Az alapvető vagy közvetlen leképezésre vonatkozó korai utalás megtalálható Tim Berners-Lee ER modell és az RDF modell összehasonlításában [4] .
A fent említett 1:1 leképezés a régi adatokat közvetlenül RDF-ként ábrázolja, és további finomításokkal javítható az RDF kimenet hasznossága az adott felhasználási esetnek megfelelően. Általános szabály, hogy az entitás -relációs diagram (ERD) relációs táblákká való átalakítása során az információ elveszik (a részletes leírást az " Object-relational mismatch " cikkben találja ), és visszafejtéssel kell visszaállítani . Koncepcionálisan a kitermelési megközelítések két irányból származhatnak. Az első irány egy OWL sémát próbál kivonni vagy betanítani (gépi tanulás segítségével) egy adott adatbázissémából. A korai megközelítések meghatározott számú, kézzel készített leképezési szabályt használtak az 1:1-es leképezés javítására [5] [6] [7] . Kidolgozottabb módszerek heurisztikus vagy tanulási algoritmusokat használtak sematikus információk generálására (a módszerek átfedésben vannak az ontológiatanulással ). Míg egyes megközelítések megpróbálnak információt kinyerni az SQL sémában rejlő struktúrából [8] (például idegen kulcsok elemzésével), más megközelítések a táblák tartalmát és értékeit elemzik, hogy fogalmi hierarchiákat hozzanak létre [9] (pl. , a kevés értékű oszlopok kategóriákká válhatnak). A második irány megkísérli leképezni a sémát és annak tartalmát egy létező tartományontológiára (lásd még " Ontológia leképezés "). Gyakran azonban nem létezik megfelelő tartományontológia, és először létre kell hozni.
Mivel az XML egy fa szerkezetű, könnyen ábrázolható bármilyen adat RDF formátumban, amely grafikonként strukturált. Az XML2 RDF egy példa arra a megközelítésre, amely üres RDF csomópontokat használ, és az XML elemeket és attribútumokat RDF tulajdonságokká alakítja. Az eset azonban bonyolultabb, mint a relációs adatbázisok esetében. A relációs táblákban a főkulcs ideális jelölt a megkülönböztetett hármasok témaköréhez. Egy XML elem azonban - kontextustól függően - alanymá, predikátummá vagy tripla objektummá konvertálható. Az XSLT szabványos transzformációs nyelvként használható az XML kézi RDF-re konvertálásához.
Név | Adatforrás _ |
Az eredmény bemutatása | Adatszinkronizálás | Megjelenítési nyelv | A szótár újrafelhasználása |
Kijelző automatizálás _ |
Domain ontológia szükséges | A GUI használata |
---|---|---|---|---|---|---|---|---|
A relációs adatok közvetlen leképezése RDF-re | relációs adatok |
SPARQL / ETL | dinamikus | Nem | automatikus _ |
Nem | Nem | |
CSV2RDF4LOD | csv | ETL | statikus | RDF | Igen | kézikönyv | Nem | Nem |
Convert2RDF | Határozott szövegfájl | ETL | statikus | RDF/DAML | Igen | kézikönyv | Nem | Igen |
D2R szerver archiválva : 2012. február 26. a Wayback Machine -nél | RBD | SPARQL | kétirányú | D2R térkép | Igen | kézikönyv | Nem | Nem |
Dart Grid | RBD | OWL lekérdezési nyelv | dinamikus | szemléltetőeszközök | Igen | kézikönyv | Nem | Igen |
adatmester | RBD | ETL | statikus | saját | Igen | kézikönyv | Igen | Igen |
A Google Refine RDF kiterjesztése | CSV, XML | ETL | statikus | hiányzó | félautomata _ |
Nem | Igen | |
Crextor | XML | ETL | statikus | XSLT | Igen | kézikönyv | Igen | Nem |
MAPONTO | RBD | ETL | statikus | saját | Igen | kézikönyv | Igen | Nem |
METAmorfózisok | RBD | ETL | statikus | xml leképezésen alapuló saját nyelv | Igen | kézikönyv | Nem | Igen |
MappingMaster | csv | ETL | statikus | MappingMaster | Igen | GUI | Nem | Igen |
ODEMapster | RBD | ETL | statikus | saját | Igen | kézikönyv | Igen | Igen |
OntoWiki CSV importáló beépülő modul – DataCube & Tabular | csv | ETL | statikus | RDF Data Cube Vocaublar | Igen | félautomata _ |
Nem | Igen |
Poolparty Extractor (PPX) | XML, szöveg | LinkedData | dinamikus | RDF ( SKOS ) | Igen | félautomata _ |
Igen | Nem |
RDBToOnto | RBD | ETL | statikus | hiányzó | Nem | automatikus , a felhasználónak lehetősége van az eredmény finomhangolására |
Nem | Igen |
RDF 123 | csv | ETL | statikus | Nem | Nem | kézikönyv | Nem | Igen |
RDOTE | RBD | ETL | statikus | SQL | Igen | kézikönyv | Igen | Igen |
Relációs.BAGOLY | RBD | ETL | statikus | hiányzó | Nem | automatikus _ |
Nem | Nem |
T2LD | csv | ETL | statikus | Nem | Nem | automatikus _ |
Nem | Nem |
RDF szótáradatkocka ( eng. RDF Data Cube Vocabulary ) | Többdimenziós statisztikai adatok táblázatokban | adatkocka szótár | Igen | kézikönyv | Nem | |||
TopBraid zeneszerző | csv | ETL | statikus | SKOS | Nem | félautomata _ |
Nem | Igen |
megháromszorozzuk | RBD | LinkedData | dinamikus | SQL | Igen | kézikönyv | Nem | Nem |
ultracsomagolás | RBD | SPARQL/ETL | dinamikus | R2RML | Igen | félautomata _ |
Nem | Igen |
Virtuóz RDF nézetek | RBD | SPARQL | dinamikus | Meta séma nyelv | Igen | félautomata _ |
Nem | Igen |
Virtuóz Sponger | strukturált és félig strukturált adatforrások |
SPARQL | dinamikus | Virtuóz PL és XSLT | Igen | félautomata _ |
Nem | Nem |
Visavis | RBD | RDQL [10] | kézikönyv | SQL | Igen | kézikönyv | Igen | Igen |
XLWrap: Táblázat az RDF-re | csv | ETL | statikus | TriG szintaxis | Igen | kézikönyv | Nem | Nem |
XML-ből RDF-be | XML | ETL | statikus | Nem | Nem | automatikus _ |
Nem | Nem |
Az üzleti dokumentumokban található információk legnagyobb része (körülbelül 80%-a [11] ) természetes nyelven van kódolva, ezért nem strukturált. Mivel a strukturálatlan adatok meglehetősen nehéz feladat az ismeretek kinyeréséhez, bonyolultabb módszerekre van szükség, amelyek általában rosszabb eredményeket adnak, mint a strukturált adatok. A hatalmas mennyiségű kinyert tudás megszerzésének képessége azonban kompenzálja a kinyerés növekvő bonyolultságát és minőségének romlását. Továbbá a természetes nyelvű források olyan információforrások, amelyekben az adatokat strukturálatlan szöveges adatként adják meg. Ha az adott szöveget beillesztjük egy jelölő dokumentumba (például HTML dokumentumba), ezek a rendszerek általában automatikusan eltávolítják a jelölőelemeket.
A hagyományos információ - kinyerés ( IE [12] ) [13] egy természetes nyelvi feldolgozási technológia, amely információt nyer ki a természetes nyelvű szövegekből, és megfelelően strukturálja azokat. A modellben a feldolgozás megkezdése előtt meg kell határozni a kinyerendő információk típusait, ezért a hagyományos információkinyerés teljes folyamata a vizsgált tárgyterülettől függ. A FROM ( eng. IE ) a következő öt részfeladatra oszlik.
A megnevezett entitás felismerés feladata a szövegben található összes megnevezett entitás felismerése és kategorizálása (elnevezett entitások hozzárendelése előre meghatározott kategóriákhoz). Nyelvtani alapú módszerek vagy statisztikai modellek alkalmazásával működik.
A referenciafelbontás egyenértékű entitásokat hoz létre, amelyeket a NER algoritmus felismert a szövegben. Az ekvivalenciarelációnak két összefüggő fajtája van. Az első reláció két különböző entitás (pl. IBM Europe és IBM) közötti kapcsolatra, a második pedig egy entitás és annak anaforikus hivatkozása (pl. az IBM és az IBM) közötti kapcsolatra utal. Mindkét faj felismerhető a koreferencia felbontással .
A sablonelemek felépítése során az IE rendszer beállítja a NER és CO rendszerek által felismert entitások leíró tulajdonságait. Ezek a tulajdonságok olyan közös tulajdonságoknak felelnek meg, mint a "piros" vagy a "nagy".
Az egyes entitások közötti kapcsolatok azonosítása létrehozza a sablon elemei között fennálló kapcsolatokat. Ezek a kapcsolatok többféle típusúak lehetnek, például „work-for” vagy „place-in”, azzal a megkötéssel, hogy mind a hatókör, mind a tartomány megfeleljen az entitásoknak.
A szövegben végrehajtott események teljes leírását a rendszer a NER és CO rendszerek által felismert entitások szerint ismeri fel és strukturálja, a kapcsolatokat pedig a BC rendszer ismeri fel.
Az ontológia alapú információ-kinyerés ( OBIE ) [11] az információkinyerés olyan részterülete, amely legalább egy ontológiát használ a természetes nyelvű szövegekből történő információkinyerés folyamatának kezelésére. Az OBIE rendszer hagyományos információkinyerési technikákat használ a használt ontológiák fogalmainak , entitásainak és kapcsolatainak felismerésére a szövegben, amely a folyamat után ontológiává strukturálódik. Így a bemeneti ontológiák modellt alkotnak a visszakeresett információból.
Az ontológiatanulás ( OL ) az ontológiák automatikus vagy félautomata létrehozása, beleértve a releváns objektumtartomány-kifejezések kinyerését a természetes nyelvű szövegből. Mivel az ontológiák kézi felépítése rendkívül munka- és időigényes, erős ösztönzés van a folyamat automatizálására.
A szemantikus annotáció ( SA ) [14] során a természetes nyelvű szöveget metaadatok kísérik (amelyek gyakran az RDF -ben [ , az Attribútumokban szereplő erőforrásleíró keretrendszerben jelennek meg ), amelyeknek a gépek számára érthetővé kell tenniük a benne foglalt elemek szemantikáját . Ebben a folyamatban, amely általában félautomata, a tudást abban az értelemben veszik vissza, hogy kapcsolat jön létre a lexikai elemek és például az ontológiák fogalmai között. Így olyan tudáshoz jutunk, amely felfedi az entitás jelentését a feldolgozott kontextusban, és ezért meghatározza a szöveg jelentését a gép által felfogott információban logikus következtetések levonásának képességével. A szemantikai megjegyzés általában a következő két részfeladatra oszlik.
A terminológia kinyerési szintjén a lexikális kifejezéseket a szövegből vonják ki. Ennek érdekében a lexikális elemző először meghatározza a szóhatárokat és kivonja a rövidítéseket. A fogalmaknak megfelelő kifejezéseket ezután a rendszer kivonja a szövegből egy tartomány-specifikus szókincs segítségével az entitások összekapcsolásához.
Az entitások összekapcsolásakor [15] kapcsolat jön létre a forrásszövegből kinyert lexikai tagok és egy ontológia vagy tudásbázis, például a DBpedia fogalmai között . Ehhez a jelölt fogalmakat bizonyos elemértékek szerint azonosítják egy szótár segítségével. Végül elemezzük a kifejezések kontextusát, hogy meghatározzuk a legmegfelelőbb egyértelműsítést, és hozzárendeljük a megfelelő fogalmat a kifejezéshez.
A természetes nyelvű szövegekből tudást kinyerő eszközök kategorizálására a következő kritériumok használhatók.
Forrás | Milyen beviteli formátumok dolgozhatók fel (például egyszerű szöveg, HTML vagy PDF )? |
Hozzáférési paradigma | Lekérdezheti-e az eszköz az adatok egy részét a forrásból, vagy teljes kiíratásra van szükség a kinyerési folyamathoz? |
Adatszinkronizálás | A kinyerés eredménye szinkronban van a forrással? |
Az objektummodell használata | Az eszköz társítja az eredményt az objektummodellhez? |
Kijelző automatizálás | Mennyire automatizált az extrakciós folyamat (kézi, félautomata vagy automatikus)? |
Objektummodell követelmény | Szüksége van az eszközhöz objektummodellt lekérni? |
A GUI használata | Van az eszköznek grafikus felhasználói felülete ( GUI ) ? |
Megközelítés | Milyen megközelítést (IE, OBIE, OL vagy SA) használ az eszköz? |
Kivonható entitások | Milyen típusú entitásokat (például elnevezett entitásokat, fogalmakat vagy kapcsolatokat) lehet lekérni az eszközzel? |
Alkalmazott technikák | Milyen technikákat használnak (pl. NLP, statisztikai módszerek, klaszterezés vagy gépi tanulás )? |
kimeneti modell | Milyen modellt használunk az eszköz eredményének ábrázolására (pl. RDF vagy OWL)? |
Támogatott témakörök | Milyen tantárgyakat támogatnak (pl. közgazdaságtan vagy biológia)? |
Támogatott nyelvek | Milyen nyelveket lehet feldolgozni (pl. angol, német vagy orosz)? |
Az alábbi táblázat a természetes nyelvi forrásokból való tudás kinyerésének néhány eszközét ismerteti.
Név | Forrás | Hozzáférési paradigma | Adatszinkronizálás | Az objektummodell használata | Kijelző automatizálás | Objektummodell követelmény | A GUI használata | Megközelítés | Kivonható entitások | Alkalmazott technikák | kimeneti modell | Támogatott területek | Támogatott nyelvek |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Aero szöveg [16] | szöveges adatok, HTML, XML, SGML | lerak | Nem | Igen | automatikus | Igen | Igen | AZAZ | megnevezett entitások, kapcsolatok, események | nyelvi szabályokat | saját | nem a területtől függ | Angol, spanyol, arab, kínai, indonéz |
Alchemy API [17] | szöveges adatok, HTML | automatikus | Igen | SA | többnyelvű | ||||||||
ANNIE | szöveges adatok | lerak | Igen | Igen | AZAZ | állapotgép algoritmusok | többnyelvű | ||||||
ÁSIUM (LRI) | szöveges adatok | lerak | félautomata | Igen | OL | fogalmak, fogalmak hierarchiája | NLP, klaszterezés | ||||||
Kimerítő kivonás figyelem szerint | automatikus | AZAZ | megnevezett entitások, kapcsolatok, események | NLP | |||||||||
Dandelion API | szöveges adatok, HTML, URL | PIHENÉS | Nem | Nem | automatikusan | Nem | Igen | SA | megnevezett entitások, fogalmak | statisztikai módszerek | JSON | nem a területtől függ | többnyelvű |
DBpedia Spotlight [19] | szöveges adatok, HTML | dump, SPARQL | Igen | Igen | automatikus | Nem | Igen | SA | annotáció minden szóhoz, megjegyzés a non-stopszavakhoz | NLP, statisztikai módszerek, gépi tanulás | RDFa | nem a területtől függ | angol |
EntityClassifier.eu | szöveges adatok, HTML | lerak | Igen | Igen | automatikus | Nem | Igen | IE, OL, SA | annotáció minden szóhoz, megjegyzés a non-stopszavakhoz | szabályalapú nyelvtan | XML | nem a területtől függ | Angol, német, holland |
Fred [20] | szöveges adatok | dump, REST API | Igen | Igen | automatikus | Nem | Igen | IE, OL, SA, ontológiai tervezési minták, keretszemantika | NIF vagy EarMark szavak absztrakt, predikátumok, példányok, kompozíciós szemantika, taxonómia fogalmak , szemantikai szerepek, leíró kapcsolatok, események, hangulat, nyelvtani idő, elnevezett entitás összekapcsolása, eseménylinkelés, érzelmek | NLP, gépi tanulás, heurisztikus szabályok | RDF/OWL | nem a területtől függ | Angol, más nyelvek fordítás után |
iDocument [21] | HTML, PDF , DOC | SPARQL | Igen | Igen | OBIE | példányok, tulajdonságértékek | NLP | személyes ügy | |||||
NetOwl Extractor [22] | szöveges adatok, HTML, XML, SGML , PDF, MS Office | lerak | Nem | Igen | automatikusan | Igen | Igen | AZAZ | megnevezett entitások, kapcsolatok, események | NLP | XML, JSON , RDF - OWL, mások | több terület | angol, arab, kínai (egyszerűsített és hagyományos), francia, koreai, perzsa (fárszi és dari), orosz, spanyol |
OntoGen archiválva : 2010. március 30. a Wayback Machine -nél [23] | félautomata | Igen | OL | fogalmak, fogalomhierarchia, nem taxonómiai viszonyok, példányok | NLP, gépi tanulás, klaszterezés | ||||||||
OntoLearn archiválva : 2017. augusztus 9. a Wayback Machine -nél [24] | szöveges adatok, HTML | lerak | Nem | Igen | automatikusan | Igen | Nem | OL | fogalmak, fogalomhierarchia, példányok | NLP, statisztikai módszerek | saját | nem a területtől függ | angol |
OntoLearn újratöltve | szöveges adatok, HTML | lerak | Nem | Igen | automatikusan | Igen | Nem | OL | fogalmak, fogalomhierarchia, példányok | NLP, statisztikai módszerek | saját | nem a területtől függ | angol |
OntoSiphon [25] | HTML, PDF, DOC | dump, keresőmotor lekérdezések | Nem | Igen | automatikusan | Igen | Nem | OBIE | fogalmak, kapcsolatok, esetek | NLP, statisztikai módszerek | RDF | nem a területtől függ | angol |
ontoX [26] | szöveges adatok | lerak | Nem | Igen | félautomata | Igen | Nem | OBIE | példányok, adattípus tulajdonságértékek | heurisztikus alapú módszerek | saját | nem a területtől függ | nem nyelvtől függ |
Nyissa meg Calais-t | szöveges adatok, HTML, XML | lerak | Nem | Igen | automatikusan | Igen | Nem | SA | annotáció entitásokhoz, annotáció eseményekhez, annotáció tényekhez | NLP, gépi tanulás | RDF | nem a területtől függ | Angol, francia, spanyol |
Pool Party Extractor (2011) | szöveges adatok, HTML, DOC, ODT | lerak | Nem | Igen | automatikusan | Igen | Igen | OBIE | megnevezett entitások, fogalmak, kapcsolatok, fogalmak, amelyek a szöveget kategorizálják, gazdagítások | NLP, gépi tanulás, statisztikai módszerek | RDF, OWL | nem a területtől függ | Angol, német, spanyol, francia |
Rosoka | szöveges adatok, HTML, XML, SGML , PDF, MS Office | lerak | Igen | Igen | automatikusan | Nem | Igen | AZAZ | elnevezett entitás kinyerése, entitásfeloldás, kapcsolat, attribútum, fogalomkinyerés, többvektoros hangulatelemzés, georeferálás, nyelvi azonosítás , gépi tanulás | NLP | XML, JSON , POJO | több terület | többnyelvű (200+ nyelv) |
SCOOBIE | szöveges adatok, HTML | lerak | Nem | Igen | automatikusan | Nem | Nem | OBIE | példányok, tulajdonságértékek, RDFS típusok | NLP, gépi tanulás | RDF, RDFa | nem a területtől függ | angol német |
SemTag [27] [28] | HTML | lerak | Nem | Igen | automatikusan | Igen | Nem | SA | gépi tanulás | adatbázis rekord | nem a területtől függ | nem nyelvtől függ | |
smart FIX | szöveges adatok, HTML, PDF, DOC, e-mail | lerak | Igen | Nem | automatikusan | Nem | Igen | OBIE | nevű entitások | NLP, gépi tanulás | saját | nem a területtől függ | Angol, német, francia, holland, lengyel |
Text2Onto [29] | szöveges adatok, HTML, PDF | lerak | Igen | Nem | félautomata | Igen | Igen | OL | fogalmak, fogalomfogalom, nem taxonómiai viszonyok, példányok, axiómák | NLP, statisztikai módszerek, gépi tanulás, szabályalapú módszerek | BAGOLY | nem a területtől függ | Angol, német, spanyol |
Szöveg átadása [30] | szöveges adatok, HTML, PDF, PostScript | lerak | félautomata | Igen | Igen | OL | fogalmak, fogalomhierarchia, nem taxonómiai relációk, fogalmakra utaló lexikai entitások, kapcsolatokra utaló lexikai entitások | NLP, gépi tanulás, klaszterezés, statisztikai módszerek | Deutsch | ||||
Az a Tű | Szöveges adatok | lerak | automatikusan | Nem | fogalmak, kapcsolatok, hierarchia | NLP, saját | JSON | több terület | angol | ||||
A Wiki gép [31] | szöveges adatok, HTML, PDF, DOC | lerak | Nem | Igen | automatikusan | Igen | Igen | SA | tulajdonnevek címkézése, köznevek címkézése | gépi tanulás | RDFa | régió független | Angol, német, spanyol, francia, portugál, olasz, orosz |
Thing Finder [32] | AZAZ | megnevezett entitások, kapcsolatok, események | többnyelvű |
A tudásfelfedezés azt a folyamatot írja le, amikor nagy mennyiségű adatban automatikusan keresnek olyan modelleket, amelyek az adatokkal kapcsolatos tudásnak tekinthetők [33] . Ezt gyakran úgy írják le, mint a tudás kinyerését a bemenetből . A tudásfeltárást adatelemzésre fejlesztették ki, és szorosan kapcsolódik mind a módszertanhoz, mind a terminológiához [34] .
Az adatbányászat legismertebb ága a tudásfeltárás, más néven tudásfelfedezés az adatbázisokban . A tudásfeltárás sok más formájához hasonlóan ez az elemzés is a bemeneti adatok absztrakcióit hozza létre. A folyamat eredményeként megszerzett ismeretek további adatokká válhatnak , amelyek további felhasználásra, keresésre használhatók fel. A tudásfeltárási folyamat kimenetének gyakran nincs gyakorlati értéke, ezért az aktív tudásfelfedezés , más néven " Domain data analysis " [35] célja, hogy felfedezze és (gyakorlati jelentőségű) kinyerje az aktív tudást, és következtetéseket ebből a tudásból.
A tudásfeltárás másik ígéretes alkalmazása a szoftvermodernizálás a gyengeségek észlelése és a szabványoknak való megfelelés területén van, amely magában foglalja a meglévő szoftverek megértését. Ez a folyamat a visszafejtés fogalmához kapcsolódik . Jellemzően a meglévő szoftverekből szerzett ismereteket modellek formájában mutatják be, amelyekre szükség esetén konkrét lekérdezéseket lehet tenni. Az entitás-kapcsolat modell egy általános formátum, amely a tudást reprezentálja, és a meglévő szoftverekből származik. Az Object Management Group konzorcium kidolgozott egy specifikációt a Knowledge Discovery Metamodel ( KDM) számára, amely egy ontológiát határoz meg a szoftver-erőforrásokhoz és azok kapcsolataihoz, amelyek célja a tudás felfedezése a meglévő kódban. Az ismert szoftverrendszerekből származó tudás felfedezése, más néven szoftverbányászat , szorosan összefügg az adatbányászattal , mivel a meglévő szoftverfelfedezések nagy jelentőséggel bírnak a kockázatkezelés és a kereskedelmi érték szempontjából , amelyek kulcselemei az elemzésnek. és szoftverrendszerek fejlesztése. Az egyes adatkészletek elemzése helyett a szoftverbányászat olyan metaadatokra összpontosít, mint a termelési folyamat (pl. adatfolyam, vezérlési folyamat, hívásminta), architektúra, adatbázissémák és üzleti szabályok/kifejezések/folyamatok.
szemantikus web | |
---|---|
Alapok | |
alszakaszok |
|
Alkalmazások |
|
Kapcsolódó témák | |
Szabványok |
|