A megjelölt korpusz automatikus átvétele

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2019. augusztus 9-én felülvizsgált verziótól ; az ellenőrzések 4 szerkesztést igényelnek .

Ha a nem felügyelt tanulási módszerek egy megjegyzés nélküli (nem címkézett) korpuszra támaszkodnak az egyértelműsítési problémában , akkor a felügyelt tanulás alapvetően egy címkézett tesztkorpusztól függ. A kellő mennyiségű tudás megszerzésének problémája az egyik legfontosabb akadály a rendkívül hatékony tanulási algoritmusok megvalósításában.. Ha azonban az algoritmust nem olyan nagy erőforrású események valósítják meg, mint a Senseval, hanem egy kisebb, akkor ilyen esetekben nem lehet jó minőségű annotált korpuszt kapni a hatalmas munkaerőköltségek miatt. hogy ezt a folyamatot manuálisan hajtsa végre. Ezért az ilyen korpuszokra szoruló kutatók azzal a feladattal szembesültek, hogy automatikusan megszerezzék a címkézett korpuszokat.

A kiút az, hogy automatikusan megtaláljuk azokat a kontextusokat, amelyekben a kívánt poliszemantikus szó 100%-os valószínűséggel felveszi a számunkra szükséges értéket. És ilyen módszereket találtak ki; több olyan módszer létezik, amelyek alapvetően különböznek egymástól.

Meglévő megoldások

Az egyik megoldás egy Rada Michelsia [1] által kifejlesztett algoritmus , amely a tezauruszban rendelkezésre álló ismeretek felhasználásával a keresőmotoroktól (például a Google vagy a Yandex) kontextusok beszerzésén alapul. A korpusz megszerzésének teljes folyamata három szakaszból áll: előfeldolgozásból, keresésből és utófeldolgozásból.

  1. Előfeldolgozás. Minden w szóhoz és #i értékéhez az egyértékű szinonimákat veszik, valamint a glossz feldolgozása után kapott szavakat (szótári értelmezés, nyelvtani magyarázatok, példák a szó használatára különféle összefüggésekben stb.)
  2. Keresés. Ezután a keresési szakaszban keresési lekérdezések jönnek létre, amelyek segítenek megtalálni pontosan azokat a kontextusokat, amelyekben az adott szó a számunkra szükséges jelentésben van jelen.
  3. Utófeldolgozás. Ezt követően a kapott kontextusokat feldolgozzák, a rosszakat kiszűrik stb.

A módszer hatékonysága nagyszámú kontextus megszerzését teszi lehetővé, amelyeknek megközelítőleg 91%-a helyes, ami meglehetősen magas eredmény, elegendő a gépi tanuláshoz. Ennek a módszernek is vannak utódai és elődjei (például a Leacock és Chodorow algoritmus), de mindegyiket nem hasonlították össze a hatékonyság szempontjából.

A második módszer, amelyet Jarowski [2] talált ki, és amelyet gyakran bootstrapping-nek neveznek, néhány kézzel definiált példából (az úgynevezett seed példákból) kiindulva javasolja az osztályok automatikus és iteratív kiterjesztését, felosztva a többi kontextust az egyszerű szövegben. osztályokba, így képzési mintát szerezve. Ugyanakkor az olyan dolgokat, mint „egy érzék kollokációnként” és „egy érzék beszédenként” axiómának tekintjük. Ez a módszer azonban kevésbé pontos, mint a Mihalcea módszer, mivel ebben az esetben nem kapunk egyértelmű összefüggéseket .

Ezenkívül van még 3 módszer [3] , amelyek gyakorlatilag nem alkalmazhatók az orosz nyelvre:

Eredmény

Eredmények

A példák automatikus beszerzése az osztályozó képzéshez (felügyelt tanulás) a legjobb internetes bányászati ​​módszernek bizonyult a lexikális egyértelműség feloldására . Íme néhány biztató eredmény:

Problémák

Vannak azonban bizonyos problémák és nehézségek is, amelyek közvetlenül kapcsolódnak egy ilyen eset megszerzéséhez:

A régió jövője

A fenti technikákon túlmenően a korpusz webről való lekérésére, néhány más kísérletet is végeztek az internet segítségével:

Az internet által megnyíló és nyújtott lehetőségeket azonban még nem tárták fel teljesen. Például keveset tudunk arról, hogyan kell felhasználni a tudásalapú egyértelműsítő rendszerekből nyert lexikális információkat; és az sem világos, hogyan lehet párhuzamos korpuszokat szerezni az internetről , bár már léteznek hatékony algoritmusok az ilyen korpuszok feldolgozására. Ezért a közeljövőben még sok érdekes eredményre számíthatunk ezen a területen.

Jegyzetek

  1. Rada Mihalcea, Dan Moldovan. Automatikus módszer értelmes címkével ellátott korpuszok generálására.
  2. Yarowsky, D. "A felügyelet nélküli szóérzék egyértelműsítése a felügyelt módszerekkel rivalizálva". A Számítógépes Nyelvészeti Egyesület 33. éves közgyűlésének anyaga. Cambridge, M.A., pp. 189-196, 1995.
  3. Word Sense Disambiguation: Algorithms and Applications, szerkesztette: Eneko Agirre és Philip Edmonds (2006), Springer.
  4. Mihalcea, Rada. 2002. Bootstrapping large sense tagged corpora. A Language Resources and Evaluation Conference (LREC) anyaga, Las Palmas, Spanyolország.
  5. 1 2 3 Santamaria, Celina, Julio Gonzalo és Felisa Verdejo. 2003. Webkönyvtárak automatikus társítása szóérzékekkel. Számítógépes Nyelvészet, 29(3): 485-502.
  6. Agirre, Eneko és David Martinez. 2004. Felügyelet nélküli WSD automatikusan lekeresett példák alapján: Az elfogultság fontossága. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, ​​​​Spanyolország, 25-33.
  7. Mihalcea, Rada. 2002a. Szóérzékelés egyértelművé tétele mintatanulással és automatikus funkcióválasztással. Natural Language Engineering, 8(4): 348-358.
  8. 1 2 Agirre, Eneko és David Martinez. 2000. Az automatikus szóértelmi egyértelműsítés felfedezése döntési listákkal és a weben. A szemantikus annotációról és az intelligens annotációról szóló COLING Workshop anyaga, Luxembourg, 11-19.
  9. 1 2 3 Agirre, Eneko és David Martinez. 2004. Felügyelet nélküli WSD automatikusan letöltött példák alapján: Az elfogultság fontossága. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, ​​​​Spanyolország, 25-33.
  10. 1 2 Mihalcea, Rada. 2002b. Bootstrapping nagy értelmes címkézett korpuszok. A Language Resources and Evaluation Conference (LREC) anyaga, Las Palmas, Spanyolország.
  11. Mihalcea, Rada és Dan Moldovan. 1999. Automatikus módszer értelmes korpuszok generálására. Proceedings of the American Association for Artificial Intelligence (AAAI), Orlando, USA, 461-466.
  12. Chklovski, Tim és Rada Mihalcea. 2002. Egy értelmes korpusz készítése az Open Mind Word Expert segítségével. Proceedings of the ACL SIGLEX Workshop on Word Sense Disambiguation: Recent Success and Future Directions, Philadelphia, USA, 116-122.
  13. Agirre, Eneko, Olatz Ansa, Eduard H. Hovy és David Martínez. 2000. Nagyon nagy ontológiák gazdagítása a WWW segítségével. Az Ontológia Tanulási Workshop anyaga, Európai Mesterséges Intelligencia Konferencia (ECAI), Berlin, Németország.
  14. Denis Turdakov, Pavel Velikhov. A hivatkozáselemzésen alapuló Wikipédia-fogalmak szemantikai rokonsági mérőszáma és alkalmazása a szóértelmi egyértelműsítésre // SYRCoDIS.- 2008.
  15. Denis Turdakov. A Wikipédia-kifejezések lexikális poliszémiájának felszámolása a rejtett Markov-modell alapján // XI. Összoroszországi Tudományos Konferencia "Digitális könyvtárak: Fejlett módszerek és technológiák, digitális gyűjtemények" - 2009. fej (orosz) A Wayback 2010. július 5-i archív példánya Gép