Szövegmérnöki általános architektúra (GATE) | |
---|---|
| |
Típusú | Adatbányászat, információ kinyerés |
Fejlesztők | Sheffieldi Egyetem |
Beírva | Jáva |
Felület | Grafikus, GATE API-k |
Operációs rendszer | Windows Vista, Windows XP, Mac OS X, Linux, Mac OS X, Solaris stb. |
Interfész nyelvek | angol |
Első kiadás | 1995 |
Hardver platform | Java virtuális gép |
legújabb verzió |
|
Engedély | LGPL |
Weboldal | kapu.ac.uk |
Médiafájlok a Wikimedia Commons oldalon |
A General Architecture for Text Engineering (GATE, program) egy nyílt forráskódú természetes nyelvi feldolgozó rendszer , amely Java nyelv komponenskészleteit használja [1] . A rendszert eredetileg a Sheffieldi Egyetemen fejlesztették ki, és 1995 óta fejlesztik.
A GATE segítségével olyan feladatok valósulnak meg, ahol szükséges a szöveg szemantikai tartalmának azonosítása és strukturált formában történő kódolása a szövegszegmensekhez annotációkkal. A GATE-t az NLTK , R és RapidMiner [2] mellett használják . A rendszert információ kinyerésére , kézi és automatikus szemantikai annotációra, korreferenciaelemzésre, ontológiákkal való munkára (például WordNet), gépi tanulásra (Weka, RASP , MAXENT, SVM Light), blogbejegyzések áramlásának elemzésére (például Twitter) használják. [3] .
A GATE eszközcsalád a következőket tartalmazza: GATE Developer, GATE Mímir, GATE Cloud (nagyszabású nyelvi projektekkel való munkavégzéshez), GATE Teamware (szerveroptimalizálás kollaboratív szövegannotációhoz), GATE Embedded (objektumkönyvtár) [4] .
A GATE mögött fejlesztők, felhasználók, oktatók, diákok és tudósok nagy közössége áll. Kereskedelmi és kutatási projektekben használják nagyvállalatok, kutatólaboratóriumok és egyetemek, kis- és középvállalkozások szerte a világon. A GATE-et a számítógépes nyelvészethez , a természetes nyelvi feldolgozáshoz , a nyelvi folyamatok modellezéséhez, a számítási biológiához és az orvostudományhoz kapcsolódó tudományos területek széles skáláján alkalmazzák [5] . GATE-t használó projektek: ForgetIT (Egyesült Királyság), The National Archives (UK), EMILLE (Egyesült Királyság), myGRID Archivált 2013. szeptember 29-én a Wayback Machine -nél (Egyesült Királyság), AKT (Egyesült Királyság), KIT Semantic Platform , Ontotext (Bulgária), MeManage (nem elérhető link) (Németország), Med Dictate (Kanada), IE Denso (Japán) [6] .
A GATE architektúra egymással összefüggő komponensekből áll: jól definiált interfészekkel rendelkező szoftverdarabokból, amelyek sokféle környezetben telepíthetők. A GATE kész megoldásokat valósít meg a tokenizáláshoz, címkézéshez, szöveg utasításokra való felosztásához (osztó), elnevezett entitások kivonásához , gépi tanuláshoz . Az alkatrészek funkció szerint három kategóriába sorolhatók:
A következő dokumentumformátumok támogatottak: egyszerű szöveg, HTML, SGML, XML, RTF, e-mail, PDF (egyes dokumentumok), Microsoft Office (egyes formátumok), OpenOffice (egyes formátumok), UIMA CAS, CoNLL/IOB. A dokumentumformátumokkal való munka a GATE-ben számos speciális tulajdonsággal rendelkezik [7] . A GATE különféle beépített eszközökkel rendelkezik a Unicode-dal való munkához. Támogatott nyelvek: angol (alapértelmezett), spanyol, kínai, arab, bolgár, francia, német, hindi, olasz, cebuano, román, orosz.
A program indításakor a főablakában négy fő menüpont található: Alkalmazások, Nyelvi erőforrások, Feldolgozási erőforrások, Adattárak.
A vezérlő, a hozzá tartozó szövegfeldolgozó programokkal (feldolgozási erőforrások) együtt. A definiált és tárolt szövegszerkesztő folyamatok újra alkalmazhatók egyetlen dokumentumra vagy szövegkorpuszra. Ez biztosítja a megbízható szövegfeldolgozást és időt takarít meg.
Háromféle adatot tartalmaz: dokumentumokat, korpuszokat és annotációs grafikonokat.
Szövegszerkesztő programok. A GATE-ben az erőforrásokat a megjegyzések automatikus létrehozására és kezelésére használják. A PR segítségével dokumentumjelöléseket adhat hozzá vagy módosíthat. Az új PR ugyanúgy jön létre, mint az LR. PR létrehozásakor paraméterek kerülnek beállításra, amelyek kétféleek: inicializálási paraméterek és indítási paraméterek. Az előbbit az erőforrás létrehozásakor kell beállítani, az utóbbit közvetlenül azelőtt, hogy elindulna a vezérlőből. A vezérlők irányítják a PR működését. Ők felelősek a PR alkalmazásának sorrendjéért, valamint a PR és az LR kölcsönhatásáért. A vezérlők fő típusai:
A Pipeline és a Corpus Pipeline használatának elvei hasonlóak: létrejön egy új vezérlő (jobb gombbal kattintson az Alkalmazások > Új > vezérlő neve elemre), a bal oldali listából kiválasztja a PR-kat, és a felhasználó által megadott sorrendben telepíti. Pipeline esetén adja meg a céldokumentumot, Corpus Pipeline esetén célkorpuszt, a PR paraméterei meg vannak határozva. A Futtatás elindítása után a vezérlő szekvenciálisan elindítja a PR-eket a kiválasztott dokumentumokon a felhasználó által megadott sorrendben.
A vezérlőkonfigurációk (PR + beállítások) az Alkalmazások (Alkalmazás állapotának mentése) menüpontban menthetők, lehetőleg a .gapp kiterjesztéssel.
CREOLE erőforráscsomagA GATE-be integrált erőforráskészlet CREOLE – Reusable Objects for Language Engineering néven ismert. Az erőforrásokat CREOLE tárolókban tárolják, amelyek XML fájlokat, Java-archívum kódokat és az erőforrásokhoz szükséges könyvtárakat tartalmaznak. A felhasznált erőforrások beépülő modulokba [8] vannak csoportosítva, amelyeket egy adott címen (URL vagy fájl:/URL) tárolnak. A beépülő modulok lehetnek alapvetőek (a GATE telepítése során töltődnek be) és egyediek, lehetnek helyi meghajtón vagy távoli szerveren. Amikor a fájl betöltődik a GATE-be, úgy néz ki, mint egy creole.xml beállításfájl. A CREOLE beépülő modulok a felületen keresztül kezelhetők a Fájl > CREOLE beépülő modulok kezelése > Új creole adattár hozzáadása paranccsal. A GATE beállítások (függvények) halmazaként jelenik meg, ahol a felhasználó összekapcsolja a CREOLE komponenseket: a felhasználó megadja a címek listáját, a GATE kivonja belőlük a megfelelő erőforrásokat (PR). Ha kiválaszt egy beépülő modult, a beállítási listája megjelenik a jobb oldali mezőben.
Adattár. Dokumentumok/ügyek és folyamatok tárolásához szükséges későbbi felhasználáshoz. Az összes tárolótípus közül gyakran használják a Serial DataStore-t. tárolódoboz
Az Applications szövegszerkesztő folyamatainak sorozata futtatható a DataStore alatt. Meg kell nyitnia a DataStore-t, meg kell nyitnia a tokot, majd az Alkalmazásokban válassza ki ezt az esetet. Amikor az Alkalmazást a DataStore-ból egy törzsön futtatja, minden dokumentum betöltődik, feldolgozódik, mentve és bezárásra kerül. Vagyis egyszerre csak egy dokumentum kerül feldolgozásra. Ez nem terheli túl a memóriát, de a folyamat lassabb, mintha az összes dokumentumot egyszerre dolgoznák fel.
A dokumentumok egységes szabályok szerinti jelölése lehetővé teszi adatok keresését és kinyerését , ontológiák létrehozását .
A GATE-ben a dokumentumszerkesztő megnyitása után megjelennek az Annotation Sets és Annotations List (illetve a Gate verziójától függően a Annotations List) fülek, ahol a jobb oldali listában ellenőrizheti a megjeleníteni kívánt kommentárok típusait, illetve megjegyzéseket hozhat létre. . A Színváltoztatás funkció elérhető. Ha kijelöl egy szövegrészt, amelyhez megjegyzést kíván rendelni, megjelenik a Jegyzetszerkesztő ablak, amely a következő mezőket és vezérlőket tartalmazza:
A megjegyzések AnnotationSet-ekbe vannak csoportosítva. Ez egy praktikus funkció, amely lehetővé teszi több jelölési lehetőség tárolását egy dokumentumhoz, például szakértői és automatikus. A szakértői jelöléseket általában a Kulcs nevű megjegyzéskészletben tárolják. Az automatikus jelölés általában egy üres AnnotationSet-be van írva, amely alapértelmezés szerint minden dokumentumban megtalálható. A dokumentumokban nincs AnnotationSet Key, ezt létre kell hozni, a jegyzettípusok alatti mezőbe be kell írni a Key szót, majd az Új gombra kattintani.
A GATE rendelkezik egy ANNIE (A Nearly-New Information Extraction System) nevű mesterséges intelligencia rendszerrel , amely olyan erőforrásokat tartalmaz, amelyek tokenizálást (ANNIE English Tokenizer), POS-címkézést (ANNIE POS-Tagger) biztosítanak, és mondatokra osztják (ANNIE mondatosztó). , elnevezett entitás kivonás (ANNIE Gazetteer és ANNIE NE Transducer) és korreferenciaelemzés (ANNIE OrthoMatcher). Fejlesztők: Hamish Cunningham, Valentin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov és mások. Az ANNIE fejlesztői a JAPE [9] véges automata algoritmusait és reguláris kifejezéseit használják .
Az ANNIE összetevői integrálva vannak az alkalmazásba, így az inicializáláshoz csak kattintson a megfelelő zöld ikonra a GATE eszköztáron, és válassza ki az alapértelmezett beállításokkal. Miután az összes erőforrás megjelenik a Feldolgozási erőforrások listában, kattintson duplán az ANNIE alkalmazás megnyitásához, amely az Alkalmazások listában található. Az ANNIE alkalmazás felülete ugyanaz, mint a többi alkalmazásé. A jobb oldalon az erőforrások rendezett listája található, amelyeket a dokumentum pontosan a listában megadott sorrendben hív meg. Az ANNIE alkalmazás a Corpus Pipeline osztályba tartozik, azaz szövegkorpuszon kell futnia. Az ANNIE rendszer működésének eredményeként számos megjegyzés kerül az alapértelmezett AnnotationSet-be, beleértve a Token (token), a Sentence (mondatok), a Lookup (szótári bejegyzések), a Személy, a Hely, a Szervezet. Ha a korpusz és a dokumentumok az ANNIE futtatása előtt a DataStore-ban voltak, az ANNIE egyenként lekéri a dokumentumokat, feldolgozza és visszahelyezi.
Összetevők listája:
A GATE beépített eszközökkel rendelkezik a szövegfeldolgozás eredményeinek tesztelésére:
Paraméterek: Kulcskészlet (AnnotationSet neve 1-es jelöléssel), Válaszkészlet (AnnotationSet neve 2-es jelöléssel), Típus (egyszerre csak egy típus tesztelhető), Jellemzők (összehasonlított attribútumok). Az összehasonlítás (Összehasonlítás) elindítása után az AnnotationDiff megjegyzéspárokat ad ki, színnel megjelölve a pár típusát. Típusok: Helyes (teljes egyezés), Hiányzó (helyes megjegyzés nem található), Hamis/Hamis pozitív (extra megjegyzés található), Részben helyes (részben átlépi a megjegyzés határait). A különböző típusú párok számának megfelelően a szabványos Precision, Recall és F metrikák kiszámítása történik.
A Corpus Quality Assurance fül megnyílik a kívánt korpusz ablakban. A CQA adatokat gyűjt a készletekről, megjegyzésekről és attribútumokról. Be kell állítani a paramétereket, meg kell választani az értékelés típusait (például F1.0-score szigorú, engedékeny és átlagos). Futtassa az összehasonlítást. A Dokumentumstatisztika lapon megtekintheti a dokumentumok statisztikáit, valamint azonnal megnyithatja a kiválasztott dokumentumot, vagy megtekintheti a hozzá tartozó AnnotationDiff-et. A teszteredmények HTML-be exportálhatók.
A GATE Mímir egy nyílt forráskódú keresőmotor, amelyet a SourceForge-on tárolnak, és a GNU Lesser General Public License 3.0 alatt terjesztik. A GATE Mímir támogatja a nyelvi és szemantikai információk indexelését és keresését hatalmas nyelvi adatbázisokkal rendelkező alkalmazásokból. A GATE Mímir lehetőséget biztosít a szövegre, a megjegyzésekre, a szemantikai ontológiákra és a szemantikai metaadatokra vonatkozó információk keresésére a szöveg, a szerkezeti információk és a SPARQL tetszőleges kombinációi segítségével. A fejlesztők nem kész csomagolt terméket biztosítanak, hanem felajánlják a források letöltését és a saját fájlok összeállítását. A GATE Mímir felhasználói kézikönyv [10] , használati példák [11] találhatók , a legújabb kiadási verziókhoz egy teljes forrásfa archívuma elérhető [12] .