GATE (program)

Szövegmérnöki általános architektúra (GATE)

GATE fejlesztői főablak
Típusú Adatbányászat, információ kinyerés
Fejlesztők Sheffieldi Egyetem
Beírva Jáva
Felület Grafikus, GATE API-k
Operációs rendszer Windows Vista, Windows XP, Mac OS X, Linux, Mac OS X, Solaris stb.
Interfész nyelvek angol
Első kiadás 1995
Hardver platform Java virtuális gép
legújabb verzió
Engedély LGPL
Weboldal kapu.ac.uk
 Médiafájlok a Wikimedia Commons oldalon

A General Architecture for Text Engineering (GATE, program)  egy nyílt forráskódú természetes nyelvi feldolgozó rendszer , amely Java nyelv komponenskészleteit használja [1] . A rendszert eredetileg a Sheffieldi Egyetemen fejlesztették ki, és 1995 óta fejlesztik.

A GATE segítségével olyan feladatok valósulnak meg, ahol szükséges a szöveg szemantikai tartalmának azonosítása és strukturált formában történő kódolása a szövegszegmensekhez annotációkkal. A GATE-t az NLTK , R és RapidMiner [2] mellett használják . A rendszert információ kinyerésére , kézi és automatikus szemantikai annotációra, korreferenciaelemzésre, ontológiákkal való munkára (például WordNet), gépi tanulásra (Weka, RASP , MAXENT, SVM Light), blogbejegyzések áramlásának elemzésére (például Twitter) használják. [3] .

A GATE eszközcsalád a következőket tartalmazza: GATE Developer, GATE Mímir, GATE Cloud (nagyszabású nyelvi projektekkel való munkavégzéshez), GATE Teamware (szerveroptimalizálás kollaboratív szövegannotációhoz), GATE Embedded (objektumkönyvtár) [4] .

A GATE mögött fejlesztők, felhasználók, oktatók, diákok és tudósok nagy közössége áll. Kereskedelmi és kutatási projektekben használják nagyvállalatok, kutatólaboratóriumok és egyetemek, kis- és középvállalkozások szerte a világon. A GATE-et a számítógépes nyelvészethez , a természetes nyelvi feldolgozáshoz , a nyelvi folyamatok modellezéséhez, a számítási biológiához és az orvostudományhoz kapcsolódó tudományos területek széles skáláján alkalmazzák [5] . GATE-t használó projektek: ForgetIT (Egyesült Királyság), The National Archives (UK), EMILLE (Egyesült Királyság), myGRID Archivált 2013. szeptember 29-én a Wayback Machine -nél (Egyesült Királyság), AKT (Egyesült Királyság), KIT Semantic Platform , Ontotext (Bulgária), MeManage  (nem elérhető link) (Németország), Med Dictate (Kanada), IE Denso (Japán) [6] .

Architektúra és alapműveletek

A GATE architektúra egymással összefüggő komponensekből áll: jól definiált interfészekkel rendelkező szoftverdarabokból, amelyek sokféle környezetben telepíthetők. A GATE kész megoldásokat valósít meg a tokenizáláshoz, címkézéshez, szöveg utasításokra való felosztásához (osztó), elnevezett entitások kivonásához , gépi tanuláshoz . Az alkatrészek funkció szerint három kategóriába sorolhatók:

A következő dokumentumformátumok támogatottak: egyszerű szöveg, HTML, SGML, XML, RTF, e-mail, PDF (egyes dokumentumok), Microsoft Office (egyes formátumok), OpenOffice (egyes formátumok), UIMA CAS, CoNLL/IOB. A dokumentumformátumokkal való munka a GATE-ben számos speciális tulajdonsággal rendelkezik [7] . A GATE különféle beépített eszközökkel rendelkezik a Unicode-dal való munkához. Támogatott nyelvek: angol (alapértelmezett), spanyol, kínai, arab, bolgár, francia, német, hindi, olasz, cebuano, román, orosz.

A program indításakor a főablakában négy fő menüpont található: Alkalmazások, Nyelvi erőforrások, Feldolgozási erőforrások, Adattárak.

Alkalmazások

A vezérlő, a hozzá tartozó szövegfeldolgozó programokkal (feldolgozási erőforrások) együtt. A definiált és tárolt szövegszerkesztő folyamatok újra alkalmazhatók egyetlen dokumentumra vagy szövegkorpuszra. Ez biztosítja a megbízható szövegfeldolgozást és időt takarít meg.

Nyelvi források (LR)

Háromféle adatot tartalmaz: dokumentumokat, korpuszokat és annotációs grafikonokat.

Erőforrások feldolgozása (PR)

Szövegszerkesztő programok. A GATE-ben az erőforrásokat a megjegyzések automatikus létrehozására és kezelésére használják. A PR segítségével dokumentumjelöléseket adhat hozzá vagy módosíthat. Az új PR ugyanúgy jön létre, mint az LR. PR létrehozásakor paraméterek kerülnek beállításra, amelyek kétféleek: inicializálási paraméterek és indítási paraméterek. Az előbbit az erőforrás létrehozásakor kell beállítani, az utóbbit közvetlenül azelőtt, hogy elindulna a vezérlőből. A vezérlők irányítják a PR működését. Ők felelősek a PR alkalmazásának sorrendjéért, valamint a PR és az LR kölcsönhatásáért. A vezérlők fő típusai:

A Pipeline és a Corpus Pipeline használatának elvei hasonlóak: létrejön egy új vezérlő (jobb gombbal kattintson az Alkalmazások > Új > vezérlő neve elemre), a bal oldali listából kiválasztja a PR-kat, és a felhasználó által megadott sorrendben telepíti. Pipeline esetén adja meg a céldokumentumot, Corpus Pipeline esetén célkorpuszt, a PR paraméterei meg vannak határozva. A Futtatás elindítása után a vezérlő szekvenciálisan elindítja a PR-eket a kiválasztott dokumentumokon a felhasználó által megadott sorrendben.

A vezérlőkonfigurációk (PR + beállítások) az Alkalmazások (Alkalmazás állapotának mentése) menüpontban menthetők, lehetőleg a .gapp kiterjesztéssel.

CREOLE erőforráscsomag

A GATE-be integrált erőforráskészlet CREOLE  – Reusable Objects for Language Engineering néven ismert. Az erőforrásokat CREOLE tárolókban tárolják, amelyek XML fájlokat, Java-archívum kódokat és az erőforrásokhoz szükséges könyvtárakat tartalmaznak. A felhasznált erőforrások beépülő modulokba [8] vannak csoportosítva, amelyeket egy adott címen (URL vagy fájl:/URL) tárolnak. A beépülő modulok lehetnek alapvetőek (a GATE telepítése során töltődnek be) és egyediek, lehetnek helyi meghajtón vagy távoli szerveren. Amikor a fájl betöltődik a GATE-be, úgy néz ki, mint egy creole.xml beállításfájl. A CREOLE beépülő modulok a felületen keresztül kezelhetők a Fájl > CREOLE beépülő modulok kezelése > Új creole adattár hozzáadása paranccsal. A GATE beállítások (függvények) halmazaként jelenik meg, ahol a felhasználó összekapcsolja a CREOLE komponenseket: a felhasználó megadja a címek listáját, a GATE kivonja belőlük a megfelelő erőforrásokat (PR). Ha kiválaszt egy beépülő modult, a beállítási listája megjelenik a jobb oldali mezőben.

adattárak

Adattár. Dokumentumok/ügyek és folyamatok tárolásához szükséges későbbi felhasználáshoz. Az összes tárolótípus közül gyakran használják a Serial DataStore-t. tárolódoboz

  • létrehozás (Datastores > Datastore létrehozása > Serial DataStore > adjon meg egy üres mappát cirill karakterek és szóközök nélkül az elérési útban),
  • megnyitása korábban létrehozott (Open Datastore),
  • dokumentumok és ügyek mentése bele (Adattár megnyitása > kattintson duplán egy dokumentumra/ügyre),
  • a dokumentumban vagy korpuszban végzett változtatások mentése (Mentés az adattárába).

Az Applications szövegszerkesztő folyamatainak sorozata futtatható a DataStore alatt. Meg kell nyitnia a DataStore-t, meg kell nyitnia a tokot, majd az Alkalmazásokban válassza ki ezt az esetet. Amikor az Alkalmazást a DataStore-ból egy törzsön futtatja, minden dokumentum betöltődik, feldolgozódik, mentve és bezárásra kerül. Vagyis egyszerre csak egy dokumentum kerül feldolgozásra. Ez nem terheli túl a memóriát, de a folyamat lassabb, mintha az összes dokumentumot egyszerre dolgoznák fel.

Dokumentumjelölés a GATE Developerben

A dokumentumok egységes szabályok szerinti jelölése lehetővé teszi adatok keresését és kinyerését , ontológiák létrehozását .

A GATE-ben a dokumentumszerkesztő megnyitása után megjelennek az Annotation Sets és Annotations List (illetve a Gate verziójától függően a Annotations List) fülek, ahol a jobb oldali listában ellenőrizheti a megjeleníteni kívánt kommentárok típusait, illetve megjegyzéseket hozhat létre. . A Színváltoztatás funkció elérhető. Ha kijelöl egy szövegrészt, amelyhez megjegyzést kíván rendelni, megjelenik a Jegyzetszerkesztő ablak, amely a következő mezőket és vezérlőket tartalmazza:

  1. Annotáció típusa (ha néhány típust már hozzáadtak, választhat a meglévők közül)
  2. Attribútum neve (a következő attribútum üres mezői automatikusan megjelennek)
  3. Attribútum értéke
  4. Annotáció törlése gomb

A megjegyzések AnnotationSet-ekbe vannak csoportosítva. Ez egy praktikus funkció, amely lehetővé teszi több jelölési lehetőség tárolását egy dokumentumhoz, például szakértői és automatikus. A szakértői jelöléseket általában a Kulcs nevű megjegyzéskészletben tárolják. Az automatikus jelölés általában egy üres AnnotationSet-be van írva, amely alapértelmezés szerint minden dokumentumban megtalálható. A dokumentumokban nincs AnnotationSet Key, ezt létre kell hozni, a jegyzettípusok alatti mezőbe be kell írni a Key szót, majd az Új gombra kattintani.

ANNIE rendszer

A GATE rendelkezik egy ANNIE (A Nearly-New Information Extraction System) nevű mesterséges intelligencia rendszerrel , amely olyan erőforrásokat tartalmaz, amelyek tokenizálást (ANNIE English Tokenizer), POS-címkézést (ANNIE POS-Tagger) biztosítanak, és mondatokra osztják (ANNIE mondatosztó). , elnevezett entitás kivonás (ANNIE Gazetteer és ANNIE NE Transducer) és korreferenciaelemzés (ANNIE OrthoMatcher). Fejlesztők: Hamish Cunningham, Valentin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov és mások. Az ANNIE fejlesztői a JAPE [9] véges automata algoritmusait és reguláris kifejezéseit használják .

Az ANNIE összetevői integrálva vannak az alkalmazásba, így az inicializáláshoz csak kattintson a megfelelő zöld ikonra a GATE eszköztáron, és válassza ki az alapértelmezett beállításokkal. Miután az összes erőforrás megjelenik a Feldolgozási erőforrások listában, kattintson duplán az ANNIE alkalmazás megnyitásához, amely az Alkalmazások listában található. Az ANNIE alkalmazás felülete ugyanaz, mint a többi alkalmazásé. A jobb oldalon az erőforrások rendezett listája található, amelyeket a dokumentum pontosan a listában megadott sorrendben hív meg. Az ANNIE alkalmazás a Corpus Pipeline osztályba tartozik, azaz szövegkorpuszon kell futnia. Az ANNIE rendszer működésének eredményeként számos megjegyzés kerül az alapértelmezett AnnotationSet-be, beleértve a Token (token), a Sentence (mondatok), a Lookup (szótári bejegyzések), a Személy, a Hely, a Szervezet. Ha a korpusz és a dokumentumok az ANNIE futtatása előtt a DataStore-ban voltak, az ANNIE egyenként lekéri a dokumentumokat, feldolgozza és visszahelyezi.

Összetevők listája:

  1. A PR-lista rendelkezik egy Dokumentum-visszaállítás PR -erőforrással , amely feldolgozás előtt eltávolítja a jelöléseket a dokumentumból. Az erőforrás rendelkezik egy setsToKeep paraméterrel, amely felsorolja azon AnnotationSets neveket, amelyeket nem kell törölni. Ha van kézi jelölés a dokumentumban, akkor meg kell győződnie arról, hogy az ezt a jelölést tartalmazó AnnotationSet szerepel a listában, ellenkező esetben törlődik. Alapértelmezés szerint ott van megadva a Kulcskészlet.
  2. Tokenizátor . A szöveget tokenekre osztja, nevezetesen számokra, írásjelekre, szavakra, szimbólumokra, szóközökre. Minden jogkivonathoz hozzá van rendelve a típusa, a Word (orth attribútum paraméterekkel: felsőkezdő, csupa nagybetűs, kisbetűs, vegyes nagybetűs), szám, szimbólum, írásjelek, szóköz token.
  3. Közlöny . Megnevezett entitásokat határoz meg a listának megfelelően, azaz egy szöveges fájlt (sima szöveg), amely a megnevezett entitásokat soronként felsorolja. Minden lista más megnevezett entitást tartalmaz: városokat, szervezeteket, a hét napjait stb. csak az egyik adott nyelvhez. A lists.def fájl hozzáférést biztosít a megnevezett entitások listájához. Beállíthatja a megjegyzés típusát a megnevezett entitások egyedi listájához. Minden listának ugyanabban a könyvtárban kell lennie, mint a lists.def indexfájlnak.
  4. Mondatosztó . A szöveget mondatokra osztja. Az osztó a Közlönyben található rövidítések listáját használja, hogy megkülönböztesse a mondat végét a többi írásjeltől. Minden megszólaláshoz hozzá van rendelve a „mondat” annotáció, amelyen belül található a „Split” megjegyzés „belső” és „külső” értékkel a kérdő, felkiáltó és megerősítő mondatok megkülönböztetésére.
  5. RegEx mondatosztó . Alternatív módszer a szöveg mondatokra osztására JAPE reguláris kifejezések használatával.
  6. A Speech Tagger része . Minden szót és karaktert jegyzetekkel lát el. Van egy lista a használt címkékről. A Wall Street Journal korpuszán alapuló szókincset és számos szabályt használ. A szabályok és a szókincs manuálisan módosítható.
  7. Szemantikus címkéző . A szemantikus annotáció a JAPE feloldószabályok (reguláris kifejezések) segítségével történik, amelyek az előző megjegyzési lépésekben kapott címkéket használják.
  8. Ortográfiai összefüggés (OrthoMatcher vagy 'NameMatcher'). Kapcsolattípust ad hozzá az elnevezett entitáscímkék és a szemantikai címkék közé. Nem talál új elnevezett entitásokat, de besorolhatatlan típust tud rendelni egy tulajdonnévhez a szóegyezések alapján.
  9. Pronominális koreferencia . Csatlakozva a PR-hez az ANNIE bővítmény kiegészítő erőforrásaként. Találhat idézett szöveget, közvetlen beszédet, névmásokat (főnevek helyettesítése, anafora ), ismétléseket. Előzetes megjegyzést igényel címkék szerint: Token (angol Tokenizer), Mondat (mondatosztó), Split (mondatosztó), Hely (NE Transducer, OrthoMatcher), Személy (NE Transducer, OrthoMatcher), Szervezet (NE Transducer, OrthoMatcher). Az elemzés a JAPE konverter szabályai (reguláris kifejezések) felhasználásával történik, egy állapotgépet építenek a közvetlen beszéd jeleinek és idézeteinek (egy- és kettős idézőjelek stb.) keresésére, az "it, its, magát” és „Én, én, én, magam”.

Szövegfeldolgozás eredményeinek tesztelése

A GATE beépített eszközökkel rendelkezik a szövegfeldolgozás eredményeinek tesztelésére:

  • Az AnnotationDiff eszköz összehasonlítást végez ugyanazon a dokumentumon (összehasonlítás gomb a GATE panelen).

Paraméterek: Kulcskészlet (AnnotationSet neve 1-es jelöléssel), Válaszkészlet (AnnotationSet neve 2-es jelöléssel), Típus (egyszerre csak egy típus tesztelhető), Jellemzők (összehasonlított attribútumok). Az összehasonlítás (Összehasonlítás) elindítása után az AnnotationDiff megjegyzéspárokat ad ki, színnel megjelölve a pár típusát. Típusok: Helyes (teljes egyezés), Hiányzó (helyes megjegyzés nem található), Hamis/Hamis pozitív (extra megjegyzés található), Részben helyes (részben átlépi a megjegyzés határait). A különböző típusú párok számának megfelelően a szabványos Precision, Recall és F metrikák kiszámítása történik.

  • A Corpus Quality Assurance (CQA) a korpuszon lévő minőségi mutatók kiszámítására szolgál.

A Corpus Quality Assurance fül megnyílik a kívánt korpusz ablakban. A CQA adatokat gyűjt a készletekről, megjegyzésekről és attribútumokról. Be kell állítani a paramétereket, meg kell választani az értékelés típusait (például F1.0-score szigorú, engedékeny és átlagos). Futtassa az összehasonlítást. A Dokumentumstatisztika lapon megtekintheti a dokumentumok statisztikáit, valamint azonnal megnyithatja a kiválasztott dokumentumot, vagy megtekintheti a hozzá tartozó AnnotationDiff-et. A teszteredmények HTML-be exportálhatók.

GATE Mimir

A GATE Mímir egy nyílt forráskódú keresőmotor, amelyet a SourceForge-on tárolnak, és a GNU Lesser General Public License 3.0 alatt terjesztik. A GATE Mímir támogatja a nyelvi és szemantikai információk indexelését és keresését hatalmas nyelvi adatbázisokkal rendelkező alkalmazásokból. A GATE Mímir lehetőséget biztosít a szövegre, a megjegyzésekre, a szemantikai ontológiákra és a szemantikai metaadatokra vonatkozó információk keresésére a szöveg, a szerkezeti információk és a SPARQL tetszőleges kombinációi segítségével. A fejlesztők nem kész csomagolt terméket biztosítanak, hanem felajánlják a források letöltését és a saját fájlok összeállítását. A GATE Mímir felhasználói kézikönyv [10] , használati példák [11] találhatók , a legújabb kiadási verziókhoz egy teljes forrásfa archívuma elérhető [12] .

Lásd még

Jegyzetek

  1. tao , p. 5.
  2. Grimes, 2009 .
  3. TwitIE, 2013 .
  4. tao , p. 6.
  5. BiomedicalGate, 2013 .
  6. Projektek .
  7. GATE Felhasználói kézikönyv , p. 93.
  8. A GATE bővítmények listája .
  9. A JAPE-ről szóló rész .
  10. Mimir .
  11. MimirPéldák .
  12. Mímir forrás .

Irodalom

Linkek