A megjelölt korpusz automatikus átvétele

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2019. augusztus 9-én felülvizsgált verziótól ; az ellenőrzések 4 szerkesztést igényelnek .

Ha a nem felügyelt tanulási módszerek egy megjegyzés nélküli (nem címkézett) korpuszra támaszkodnak az egyértelműsítési problémában , akkor a felügyelt tanulás alapvetően egy címkézett tesztkorpusztól függ. A kellő mennyiségű tudás megszerzésének problémája az egyik legfontosabb akadály a rendkívül hatékony tanulási algoritmusok megvalósításában.. Ha azonban az algoritmust nem olyan nagy erőforrású események valósítják meg, mint a Senseval, hanem egy kisebb, akkor ilyen esetekben nem lehet jó minőségű annotált korpuszt kapni a hatalmas munkaerőköltségek miatt. hogy ezt a folyamatot manuálisan hajtsa végre. Ezért az ilyen korpuszokra szoruló kutatók azzal a feladattal szembesültek, hogy automatikusan megszerezzék a címkézett korpuszokat.

A kiút az, hogy automatikusan megtaláljuk azokat a kontextusokat, amelyekben a kívánt poliszemantikus szó 100%-os valószínűséggel felveszi a számunkra szükséges értéket. És ilyen módszereket találtak ki; több olyan módszer létezik, amelyek alapvetően különböznek egymástól.

Meglévő megoldások

Az egyik megoldás egy Rada Michelsia [1] által kifejlesztett algoritmus , amely a tezauruszban rendelkezésre álló ismeretek felhasználásával a keresőmotoroktól (például a Google vagy a Yandex) kontextusok beszerzésén alapul. A korpusz megszerzésének teljes folyamata három szakaszból áll: előfeldolgozásból, keresésből és utófeldolgozásból.

Előfeldolgozás. Minden w szóhoz és #i értékéhez az egyértékű szinonimákat veszik, valamint a glossz feldolgozása után kapott szavakat (szótári értelmezés, nyelvtani magyarázatok, példák a szó használatára különféle összefüggésekben stb.)
Keresés. Ezután a keresési szakaszban keresési lekérdezések jönnek létre, amelyek segítenek megtalálni pontosan azokat a kontextusokat, amelyekben az adott szó a számunkra szükséges jelentésben van jelen.
Utófeldolgozás. Ezt követően a kapott kontextusokat feldolgozzák, a rosszakat kiszűrik stb.

A módszer hatékonysága nagyszámú kontextus megszerzését teszi lehetővé, amelyeknek megközelítőleg 91%-a helyes, ami meglehetősen magas eredmény, elegendő a gépi tanuláshoz. Ennek a módszernek is vannak utódai és elődjei (például a Leacock és Chodorow algoritmus), de mindegyiket nem hasonlították össze a hatékonyság szempontjából.

A második módszer, amelyet Jarowski [2] talált ki, és amelyet gyakran bootstrapping-nek neveznek, néhány kézzel definiált példából (az úgynevezett seed példákból) kiindulva javasolja az osztályok automatikus és iteratív kiterjesztését, felosztva a többi kontextust az egyszerű szövegben. osztályokba, így képzési mintát szerezve. Ugyanakkor az olyan dolgokat, mint „egy érzék kollokációnként” és „egy érzék beszédenként” axiómának tekintjük. Ez a módszer azonban kevésbé pontos, mint a Mihalcea módszer, mivel ebben az esetben nem kapunk egyértelmű összefüggéseket .

Ezenkívül van még 3 módszer [3] , amelyek gyakorlatilag nem alkalmazhatók az orosz nyelvre:

Weboldal-könyvtárak (például az Open Directory Project );
igazított kétnyelvű szövegek (azonban az ilyen anyagok gyors növekedése ellenére számuk még mindig nem elég nagy az orosz nyelv számára);
wiki - stílusú kollaboratív munka (Open Mind Word Expert projekt): az alapelv az, hogy a kétértelműség egyszerű eseteit gép oldja meg, a bonyolultakat az interneten mutatják meg az önkénteseknek ; ez a módszer sajnos nem mutatott kellően magas eredményeket az önkéntesek professzionalizmusának hiánya miatt (62,8%-os egyetértés volt az emberek között, szemben a Senseval 85,5%-ával).

Eredmény

Eredmények

A példák automatikus beszerzése az osztályozó képzéshez (felügyelt tanulás) a legjobb internetes bányászati módszernek bizonyult a lexikális egyértelműség feloldására . Íme néhány biztató eredmény:

Egyes kísérletekben az internetről származó adatok minősége majdnem megegyezett az ember által készített korpusz minőségével: a SemCor példáiból [4] és az ODP - ből [5] kapott példák egyértelmű szinonimák és bootstrapping segítségével történő megszerzésének kombinációja. . Az elsőben viszont a SemCor példái szükségesek és csak az angol nyelvhez léteznek, és a tesztelést túl kevés főnévvel végezték, a másodiknál pedig túl kicsi a kísérlet lefedettsége és nem tudni, hogy mennyi. a kapott korpusz minősége romlik, ha növeljük.
Azt is kimutatták [6] , hogy szinte minden felügyelt tanulási technika, amelyet az internetről automatikusan letöltött korpuszokon tanítanak, felülmúlja a Senseval -2 -ben szereplő összes felügyelet nélküli tanulási technikát.
Az internetes példák nagy hasznot hoznak a hatékonyság szempontjából a Senseval-2 legjobb angol, minden szóból álló algoritmusai számára [7] .

Problémák

Vannak azonban bizonyos problémák és nehézségek is, amelyek közvetlenül kapcsolódnak egy ilyen eset megszerzéséhez:

A kapott példák jó minősége (vagyis a példák helyes besorolása az értékosztályokhoz) nem feltétlenül biztosítja az osztályozó nagy pontosságát [8] .
A kapott példák minőségének felmérésére irányuló legobjektívebb kísérletek azt mutatták [9] , hogy az ezeken a példákon végzett képzés jelentősen növeli a kétértelműség-feloldás pontosságát, ennek ellenére az eredmények messze nem ideálisak: nem rosszabbak, mint a manuálisan kapottak. , még csak nem is haladják meg a leggyakrabban érzékelt alapvonallal kapott minőséget.
Az eredmények nem mindig megismételhetők: ugyanazok vagy hasonló módszerek eltérő eredményekhez vezethetnek különböző kísérletekben. Összehasonlításképpen össze lehet hasonlítani a kísérleteket: Mihalcea (2002 [10] ) Agirre és Martínez (2004 [9] ), vagy Agirre és Martínez (2000 [8] ) Mihalcea és Moldovan (1999 [11] ). Az internet segítségével kapott eredmények azt mutatták, hogy az adatok nagyon érzékenyek a betanítási algoritmus apró változtatásaira, akár a korpusz beérkezésének dátumára is (a keresőmotor eredményei folyamatosan változnak), illetve az észrevehetetlen heurisztikus problémákra (pl. eltérések). szűrőkben néhány kapott példa elvetéséhez).
Az eredményeket erősen befolyásolja egy olyan jelenség, mint a "ferdítés" (vagyis a szó egyes jelentéseinek példáinak gyakoriságának aránya a többihez képest [9] ). Tehát nem teljesen világos, hogy ez csak az internetről származó információkkal van-e probléma, vagy a felügyelt tanulásban rejlő probléma, vagy a módszerek értékelésének módjában van a probléma (valóban a Senseval adatok viszonylag kis mennyisége igen valószínű nem az a reprezentatív dolog az egész internethez mint korpuszhoz képest).
Mindenesetre az internetről származó adatok torzulnak, mivel a keresőmotorokhoz intézett lekérdezések közvetlenül korlátozzák a kapott kontextuskészletet. Vannak módszerek ennek a hatásnak a mérséklésére, például: több mag vagy lekérdezés használata a szó minden egyes jelentésére [10] , vagy értékek hozzárendelése a megfelelő kategóriákhoz a webhely - könyvtárakból [5] ; ez a probléma azonban még messze van a teljes megoldástól.
Bármely kapott kontextuskorpusz esetében a használati engedély problémája nem mindig egyértelmű (a jogi összetevő nem egyértelmű).

A régió jövője

A fenti technikákon túlmenően a korpusz webről való lekérésére, néhány más kísérletet is végeztek az internet segítségével:

Az internetet , mint közösségi hálózatot már többször sikeresen használták az anonim felhasználók kollaboratív annotációra (OMWE projekt, Open Mind Word Expert projekt) [12] : már háromszor használták Senseval-3 feladatokhoz (angol, román, ill. többnyelvű feladat ).
Az internetet arra is használták, hogy a WordNet értékeit tartomány-specifikus információkkal gazdagítsák: az úgynevezett téma-aláírásokkal [13] és a webes könyvtárakkal [5] , amelyeket sikeresen alkalmaztak a kétértelműség feloldására .
A közelmúltban kutatásokat is végeztek annak feltárására, hogy a Wikipédia segítségével feloldható-e a kétértelmű szójelentési oldalakon felsorolt kétértelműségek [14] [15] .

Az internet által megnyíló és nyújtott lehetőségeket azonban még nem tárták fel teljesen. Például keveset tudunk arról, hogyan kell felhasználni a tudásalapú egyértelműsítő rendszerekből nyert lexikális információkat; és az sem világos, hogyan lehet párhuzamos korpuszokat szerezni az internetről , bár már léteznek hatékony algoritmusok az ilyen korpuszok feldolgozására. Ezért a közeljövőben még sok érdekes eredményre számíthatunk ezen a területen.

Jegyzetek

↑ Rada Mihalcea, Dan Moldovan. Automatikus módszer értelmes címkével ellátott korpuszok generálására.
↑ Yarowsky, D. "A felügyelet nélküli szóérzék egyértelműsítése a felügyelt módszerekkel rivalizálva". A Számítógépes Nyelvészeti Egyesület 33. éves közgyűlésének anyaga. Cambridge, M.A., pp. 189-196, 1995.
↑ Word Sense Disambiguation: Algorithms and Applications, szerkesztette: Eneko Agirre és Philip Edmonds (2006), Springer.
↑ Mihalcea, Rada. 2002. Bootstrapping large sense tagged corpora. A Language Resources and Evaluation Conference (LREC) anyaga, Las Palmas, Spanyolország.
↑ 1 2 3 Santamaria, Celina, Julio Gonzalo és Felisa Verdejo. 2003. Webkönyvtárak automatikus társítása szóérzékekkel. Számítógépes Nyelvészet, 29(3): 485-502.
↑ Agirre, Eneko és David Martinez. 2004. Felügyelet nélküli WSD automatikusan lekeresett példák alapján: Az elfogultság fontossága. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, Spanyolország, 25-33.
↑ Mihalcea, Rada. 2002a. Szóérzékelés egyértelművé tétele mintatanulással és automatikus funkcióválasztással. Natural Language Engineering, 8(4): 348-358.
↑ 1 2 Agirre, Eneko és David Martinez. 2000. Az automatikus szóértelmi egyértelműsítés felfedezése döntési listákkal és a weben. A szemantikus annotációról és az intelligens annotációról szóló COLING Workshop anyaga, Luxembourg, 11-19.
↑ 1 2 3 Agirre, Eneko és David Martinez. 2004. Felügyelet nélküli WSD automatikusan letöltött példák alapján: Az elfogultság fontossága. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, Spanyolország, 25-33.
↑ 1 2 Mihalcea, Rada. 2002b. Bootstrapping nagy értelmes címkézett korpuszok. A Language Resources and Evaluation Conference (LREC) anyaga, Las Palmas, Spanyolország.
↑ Mihalcea, Rada és Dan Moldovan. 1999. Automatikus módszer értelmes korpuszok generálására. Proceedings of the American Association for Artificial Intelligence (AAAI), Orlando, USA, 461-466.
↑ Chklovski, Tim és Rada Mihalcea. 2002. Egy értelmes korpusz készítése az Open Mind Word Expert segítségével. Proceedings of the ACL SIGLEX Workshop on Word Sense Disambiguation: Recent Success and Future Directions, Philadelphia, USA, 116-122.
↑ Agirre, Eneko, Olatz Ansa, Eduard H. Hovy és David Martínez. 2000. Nagyon nagy ontológiák gazdagítása a WWW segítségével. Az Ontológia Tanulási Workshop anyaga, Európai Mesterséges Intelligencia Konferencia (ECAI), Berlin, Németország.
↑ Denis Turdakov, Pavel Velikhov. A hivatkozáselemzésen alapuló Wikipédia-fogalmak szemantikai rokonsági mérőszáma és alkalmazása a szóértelmi egyértelműsítésre // SYRCoDIS.- 2008.
↑ Denis Turdakov. A Wikipédia-kifejezések lexikális poliszémiájának felszámolása a rejtett Markov-modell alapján // XI. Összoroszországi Tudományos Konferencia "Digitális könyvtárak: Fejlett módszerek és technológiák, digitális gyűjtemények" - 2009. fej (orosz) A Wayback 2010. július 5-i archív példánya Gép