A lexikális poliszémia feloldása

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. április 3-án felülvizsgált verziótól ; az ellenőrzések 12 szerkesztést igényelnek .

A szóértelmi egyértelműsítés ( WSD ) egy  megoldatlan természetes nyelvi feldolgozási probléma , amely abból áll, hogy meg kell választani egy kétértelmű szó vagy kifejezés jelentését (vagy jelentését) attól függően, hogy milyen kontextusban található. Ez a probléma a diszkurzív elemzésben , a találatok relevanciájának keresőmotorok általi optimalizálásakor , az anaforikus hivatkozások feloldásakor, a szöveg nyelvi koherenciájának vizsgálatakor, a következtetések elemzésekor merül fel .

A lexikális poliszémia feloldásának tudományos kutatása régóta az alkalmazott és a számítógépes nyelvészet területén folyik, és nagy múltra tekint vissza. Az évek során a javasolt megoldások száma és hatékonyságuk folyamatosan nőtt, amíg a hatékonyság el nem érte a viszonylag hatékony pontosság egy bizonyos szintjét a szavak és a poliszémia bizonyos típusai esetében . A probléma még nem kapott teljes megoldást, hiszen számos, az emberi beszéd nyelvi sajátosságaihoz közvetlenül kapcsolódó probléma áll a sikeres megoldás útjában.

Számos módszert tártak fel, kezdve a tudásalapú módszerektől, szabályoktól, lexikográfiai forrásoktól, a szövegkorpuszon végzett irányított tanulástól a szavakat jelentés alapján csoportosító , felügyelet nélküli tanulási módszerekig. Ezek közül a mai napig a felügyelt tanulási módszerek bizonyultak a legjobb hatékonyságnak. A módszerek objektív összehasonlítása és értékelése azonban összetett folyamat, amely számos tényezőtől függ. Az általánosított szókincsrendszerek esetében (angol esetében) a hatékonyság rendszeresen meghaladja a 90%-os szintet, néha eléri a 96%-ot is. A differenciáltabb szókincsrendszereknél a hatékonyság 59% és 69% közötti tartományba esik.

Az egyértelműsítési folyamatról

Általában egy nyelvi kifejezés vagy beszédmű (szöveg) kétértelműségét (vagy kétértelműségét) több különböző jelentés egyidejű jelenlétének kell érteni [1] . A tudósok több fajta kétértelműséget osztanak: lexikális, szintaktikai és beszéd, de a "WSD" kifejezés magában foglalja a lexikális (szemantikai) kétértelműséget is.

Amiről beszélünk, az a következő példából megérthető a kétértelmű „kulcs” szóval:

  1. kulcs a nyitáshoz
  2. kulcs, mint vízforrás

valamint 3 kontextus:

  1. Előkerült a kulcs, kinyílt az ajtó
  2. Berúgtam a kulcstól
  3. Az élet bővelkedik

Az ember számára nyilvánvaló, hogy az első mondatban a " kulcs " szó az első jelentésben szerepel, a második mondatban - illetve a másodikban, a harmadikban pedig - változatok lehetségesek. Ezt az emberi képességet utánzó algoritmusok fejlesztése néha ijesztő feladat lehet.

A feloldási folyamathoz több dologra van szükség: szókincs-ismereti rendszerekre a szavak többféle jelentésének meghatározásához, és szövegkorpuszra a feloldáshoz ( egyes esetekben más tudásforrásokra is szükség lehet ).

A terület rövid története

Ezt a problémát először az 1940-es években, a gépi fordítás korai szakaszában fogalmazták meg külön problémaként, így a számítógépes nyelvészet egyik legrégebbi problémája lett. Warren Weaver híres " The  'Translation" memorandumában (1949) [2] a problémát számítógépes számítástechnikai szempontból mutatta be . Az akkori kutatók jól ismerték ennek jelentőségét és összetettségét, különösen Joshua Bar-Hillel (az egyik úttörő) 1960-ban kétségeit fejezte ki azzal kapcsolatban, hogy az univerzális, teljesen automatikus gépi fordítás valaha is megvalósítható lenne a modellezés szükségessége miatt. minden emberi tudás a világról [3] .

A 70-es években a WSD-probléma a mesterséges intelligencia területén kifejlesztett szemantikai értelmezési rendszerek részévé vált , azonban ezek többnyire manuálisan levezetett szabályokból álltak, így teljes mértékben a rendelkezésre álló tudás mennyiségétől függtek, ami akkoriban rendkívül munkaigényes volt. kivonni.

Az 1980-as évekre olyan terjedelmes források váltak elérhetővé, mint az Oxford Advanced Learner's Dictionary of Current English , és a szabályok kézi írását felváltotta az ilyen forrásokból származó tudás automatikus kinyerése , de a módszerek továbbra sem hagyták el az úgynevezett „tudás- alapú módszerek".

A 90-es években azonban a "statisztikai forradalom" teljesen megváltoztatta a számítógépes nyelvészet megközelítéseit és módszereit, és a lexikális poliszémia megoldásának problémája olyan problémává vált, amelyre mindenféle felügyelt tanulási módszer alkalmazható [4] .

A 2000-es évek megmutatták, hogy a felügyelt tanulási módszerek elértek egy bizonyos pontossági szintet, és ezt nem tudják felülmúlni, így a tudósok figyelme az általánosabb szókincs-ismereti rendszerekkel való munka (durvaszemcsés érzékszervek), a tantárgyi területekhez való alkalmazkodás (domain adaptáció) felé terelődött. , részlegesen felügyelt tanulás (félig felügyelt rendszerek) és nem felügyelt tanulás (nem felügyelt korpusz alapú rendszerek), vegyes módszerek, valamint tudásbázisok feldolgozása és eredmények gráfok formájában való megjelenítése (tudásalapú rendszerek gráf alapú visszaadása módszerek) . A mai napig azonban a felügyelt tanulási rendszereket tartják a leghatékonyabbnak.

Problémák és nehézségek

De vajon miért okoz egy ilyen feladat annyi nehézséget, és megoldásainak eredménye viszonylag alacsony hatékonyságot mutat? A lexikális poliszémia megoldásának problémáján való munka során számos nehézséget fedeztek fel, leggyakrabban az emberi pszichológia és a beszéd tulajdonságai miatt.

Szótárak összeállítása

Először is, minden szótár különböző, és nem egyenértékű egymással. Leggyakrabban egy szó jelentésének egymástól való megkülönböztetésének feladata nem okoz nehézséget, azonban bizonyos esetekben egy szó különböző jelentése szemantikailag nagyon közel állhat egymáshoz (például ha mindegyik metafora vagy metonímia egymásra), és ilyen helyzetekben a jelentés szerinti felosztás a különböző szótárakban és tezauruszokban jelentősen eltérhet. Ennek a nehézségnek a megoldása ugyanazon adatforrás univerzális felhasználása lehet: egyetlen univerzális szótár. Globálisan az általánosabb szemantikai felosztást alkalmazó vizsgálatok eredményei hatékonyabbak [5] [6] , ezért egyes kutatók egyszerűen figyelmen kívül hagyják munkájuk során a részletesebb szemantikai felosztással rendelkező szótárak és tezauruszok feldolgozását.

A beszédrészlet meghatározása

Másodszor, egyes nyelveken a szórészek jelölése nagyon szorosan összefügghet az egyértelműsítés problémájával, aminek eredményeképpen ez a két probléma zavarhatja egymást. A tudósok nem jutottak konszenzusra abban, hogy érdemes-e két autonóm komponensre osztani őket, de előnyük azoknak van, akik szerint ez szükséges [7] .

Az emberi tényező és a kézi eredmények következetessége

A harmadik nehézség az emberi tényezőben rejlik . Az egyértelműsítő rendszereket mindig is úgy értékelték, hogy az eredményeket az emberi munkával hasonlították össze. És az emberek számára ez a feladat nem olyan egyszerű, mint a POS-címkézés  – többszörösen nehezebb jelentéseket megjelölni több javasolt között [8] . Ha valaki észben tartja vagy könnyen kitalálja a beszéd azon részeit, amelyek egy szónak lehetnek, akkor nem lehetséges a szavak összes lehetséges jelentésének emlékezése. Ráadásul, mint kiderült, a különböző emberek eredményei nem mindig esnek egybe [9] , és gyakran nem jutnak közös döntésre arról, hogy egy adott szót egy adott kontextusban milyen jelentésben használnak. Ennek ellenére a tudósok egy személy eredményét tekintik szabványnak, a számítógép eredményeivel való összehasonlítás mércéjének. Megjegyzendő, hogy az ember sokkal jobban megbirkózik az általánosított szótárrendszerekkel, mint a részletesekkel – ezért a kutatók figyelme ezekre irányult [5] [6] .

A józan ész

Egyes kutatók azzal érvelnek [10] , hogy a szövegek feldolgozásakor a józan ész is fontos , amit a számítógép aligha képes megtanítani. A következő két mondat példa:

Az első mondat arra utal, hogy Jill és Mary egymás nővérei; a másodikban, hogy Jill és Mary is anyák, és nem tény, hogy rokonok. Ezért a jelentések pontosabb elemzéséhez ilyen ismeretek szükségesek a világról és a társadalomról. Sőt, ez az ismeret néha a szintaktikai kétértelműségek feloldásához, az anafora és katafora elemzéséhez is szükséges .

Feladat függőség

Ötödször, az állandó feladat-független (feladattól független) módszerkészletnek nincs értelme, mivel például az egér szó kétértelműsége (állat és számítógépes eszköz) nem befolyásolja az angol-orosz és az orosz- Egyáltalán az angol fordítás (mivel mindkét nyelven mindkét jelentés ugyanabban a szóban testesül meg), de erősen befolyásolja az információkeresést. Ezzel ellentétes példa is hozható: amikor a 'river' szót angolról franciára fordítjuk, ismernünk kell a szó jelentését (a 'fleuve' egy folyó, amely a tengerbe ömlik, a 'rivière' pedig egy folyó, amely egy másik folyóba ömlik). Ennek eredményeként a különböző problémák különböző algoritmusokat igényelnek – így ha bármilyen jó lexikális egyértelműsítő algoritmust kifejlesztenek, nem lehet teljesen biztos abban, hogy az minden feladathoz illeszkedik.

A szavak jelentéseinek megkülönböztetése

Hatodszor, a tudósok felvetik egy szó jelentésének diszkrét ábrázolásának lehetőségét. Még maga a „ szó jelentése ” kifejezés is meglehetősen általános és ellentmondásos. A legtöbben egyetértenek abban, amikor általánosított tudásrendszerekkel dolgoznak, magas szintű szóhomográfia, de a szint csökkenésével és a szótárak részletesebbé válásával nagyszámú eltérés mutatkozik. Például a Senseval-2 konferencián, amely részletes rendszereket használt, az emberi annotátorok csak az esetek 85%-ában jutottak megegyezésre [11] .

A szavak jelentése nagyon rugalmas, meglehetősen változékony és rendkívül kontextuális, sőt olykor kontextuális függő is, ezért nem mindig oszlanak szigorúan több részjelentésre [12] . A lexikográfusok gyakran találkoznak túl tág és szemantikailag átfedő részjelentésekkel a szövegekben, és a szavak standard jelentéseit gyakran a legfurcsább és legváratlanabb módokon kell javítani, bővíteni és szűkíteni. Például ebben a helyzetben a „gyerekek az anyjukhoz rohannak” a „gyerekek” szót egyszerre két értelemben használják: ők a szüleik gyermekei és csak gyerekek. A lexikográfus feladata hatalmas mennyiségű szöveg és anyag elemzése és egy szó teljes lehetséges jelentéstartományának leírása. Azt azonban máig nem tudni, hogy ez a megközelítés alkalmazható-e a számítástechnika és a számítógépes nyelvészet területén, mert a lexikográfusok döntései a leírt jelentések teljessége, nem pedig a szövegfeldolgozás során megszerzett információk alkalmazhatósága mellett születnek.

A közelmúltban egy lexikai helyettesítésnek nevezett problémát javasoltak megoldásként a szavak jelentései megkülönböztetésének problémájára [13] . Jelentése az, hogy a szót helyettesítse egy másikkal, amely ebben az összefüggésben megtartja a régi jelentését.  

A probléma relevanciája, lehetséges alkalmazások

Köztudott, hogy a folyamat eredménye nem csak a módszerek innovatívságától és hatékonyságától függ, hanem a feladat különböző beállításaitól/tulajdonságaitól, a megoldási folyamat követelményeitől (például a differenciálástól) is. a szó jelentéseiről, az eredmények értékelésének jellemzőiről, az egyértelműség lefedettségéről stb.). Az is fontos, hogy nagyszámú NLP-mező profitálhasson a WSD eredményeiből.

Információkeresés

Információkereső rendszerekben - ha a lekérdezés során azokat a dokumentumokat figyelmen kívül hagyjuk, amelyekben a lekérdezés bármely szava a felhasználót aktuálisan érdeklőtől eltérő jelentésben használatos, akkor a lekérdezés eredményeinek relevanciája csökkenthető. megnövekedett.

A legelső munkák, amelyek a WSD alkalmazásának lehetőségét kutatták az információkeresés területén, nem mutattak a keresési pontosság növekedését. Sanderson azonban 1994-ben úgy találta [14] , hogy a javulás csak akkor észlelhető, ha az egyértelműsítési hatékonyság meghaladja a 90%-ot, aminek általános érvényessége vitatott. 1995-ben pedig Schutze és Pedersen kimutatta [15] , ami azt mutatta, hogy a fenti hatékonyság mellett 4%-os keresési javulás érhető el. Stokey azonban kimutatta, hogy a WSD használata, bár csekély mértékben, átlagosan 1,73%-os eredményt adhat még a WSD alacsonyabb hatékonysága mellett is (62,1%) [16] .

Gépi fordítás

A gépi fordítási rendszerekben a szó jelentésének felismerésére szolgáló megbízható mechanizmusok hiánya jelentősen csökkenti a fordítás minőségét, mivel a szót nem mindig fordítják le egyértelműen egy másik nyelvre. A helyes fordítás automatikus meghatározása pedig a kontextustól függően nagyon nehéz feladat. A lexikális egyértelműsítést már régóta nagy kihívásnak tekintik a majdnem tökéletes gépi fordítás eléréséhez – ezek a gondolatok azon az elgondoláson alapulnak, hogy a WSD nem tehet mást, mint javítja a fordítási rendszereket a megfelelő fordítási értékű jelöltek kiválasztásában. Ezt a területet nem tárták fel annyira, amennyire szükség lenne, a hagyományos, kevésbé hatékony előre definiált szókincs-adatbázisok ( eng.  sense inventory ) miatt, amelyek már régóta hagyományossá váltak .

Információ kinyerése

Konkrét területeken a rájuk jellemző fogalmak feloldásának problémái a legérdekesebbek: például az orvostudományban hasznos lehet a gyógyszerek elnevezésének szövegben történő meghatározása, míg a bioinformatikában a megnevezési kétértelműségeket kell feloldani. gének és fehérjék – ezt a folyamatot információ - kivonásnak nevezték. Olyan feladatokat foglal magában, mint a named-entity-felismerés ( eng.  named-entity discovery ) (NER), a mozaikszó kiterjesztése (például Orosz Föderáció - Orosz Föderáció) és mások – mindez feloldási feladat-poliszémiának tekinthető, bár ez új és még nem igazán feltárt irány.

Tartalomelemzés

A tartalomelemzés és a szöveg főbb részeinek azonosítása ötletek, témák és hasonlók tekintetében nagy hasznot húzhat a WSD-ből. Példáula szövegek (blogok) osztályozása , címkék hozzárendelése cikkekhez vagy blogbejegyzésekhez , vagy releváns (talán szemantikai) kapcsolatok meghatározása közöttük, vagy a közösségi hálózatok (szemantikai) elemzése , amely egyre inkább elterjedt. az utóbbi időben aktív. Ez a terület a legújabb, ismeretlen a fentiek közül.

Egyéb területek

A metódusok fő típusai

Mint mindig, a természetes nyelvi feldolgozásban két megközelítés létezik: mély és sekély.

Az első kategóriába tartozó megközelítések az ún. világismerethez (világismerethez vagy józan ész tudásbázishoz) való hozzáférést foglalják magukban . Például annak ismerete, hogy "bármilyen élettelen, anyagi dolog lehet zöld a szín értelmében, de nem lehet zöld a tapasztalatlanság értelmében", lehetővé teszi annak meghatározását, hogy egy adott kontextusban milyen értelemben használjuk a "zöld" szót. Az ilyen megközelítések a gyakorlatban nem olyan hatékonyak, mivel a világról szóló tudás ilyen osztálya, bár számítógépbarát formátumban tárolható, életünk nagyon kis [22] területeit fedi le, és nem alkalmazható teljesen mindenkire. tanulmányok. Azt kell mondanom, hogy ez a megközelítés sem mindig működik, például a „A rendező olyan zöld volt” mondatban a tudás alapján lehetetlen meghatározni, ebben az esetben a rendező azért zöld, mert zöld lett, vagy mert tapasztalatlan - ez gyakran csak a szövegkörnyezetből, hanem a teljes szöveg logikájából és jelentéséből határozható meg.

A számítógépes nyelvészetben is régi hagyománya van e módszerek programismereti alkalmazásának, és gyakran meglehetősen nehéz megállapítani, hogy ez a tudás nyelvi vagy a világról szóló tudás ( English  Commonsense tudásbázis ). Az első kísérletet Margaret Masterman és munkatársai a Cambridge-i Nyelvkutató Egységnél, Angliában tették meg az 1950-es években: Roger tezaurusza-adatait és számozott címszavait használták . ) a témák indikátoraként, és a szövegben előforduló ismétlődéseket elemezték a beállított metszésponti algoritmus segítségével. Ez a kísérlet nem volt túl sikeres [23] , de erősen befolyásolta a későbbi munkákat, különösen Yarovksky munkáját az 1990-es években a tezaurusz-módszer felügyelt tanulógép segítségével történő optimalizálásával kapcsolatban.   

A felszíni megközelítések nem próbálják megérteni a szöveget, csak a közeli szavak elemzésére hagyatkoznak, például: ha a „tenger” vagy a „halászat” szó szerepel a „basszus” szó mellett, akkor nagy valószínűséggel ebben az esetben biológiai értelemben vett jelentés. Ezek a szabályok automatikusan kinyerhetők egy címkézett szójelentésű szövegkorpusz segítségével. Ez a megközelítés, bár teljesítményben nem fedi az előzőt, a gyakorlatban könnyen felülmúlja azt. Azonban mindig vannak buktatók, például a "A kutyák ugatnak a fán" mondatban, amely a "fa" és a "kutyák" szavakat tartalmazza a "ugat" szó mellett.

Négy fő módszer létezik az egyértelműsítésre:

Tudásalapú módszerek

A Lesk-módszer [24]  szókincs-ismeretek felhasználásán alapuló produktív módszer. Azon a hipotézisen alapul, hogy a szövegben egymás mellett található szavak egymáshoz kapcsolódnak, és ez a kapcsolat megfigyelhető a szavak és jelentésük meghatározásaiban. Két (vagy több) szó közel állhat egymáshoz, ha mindkettőnek az az értékpárja van, amely a szótárban a legnagyobb átfedést okozó szavakkal rendelkezik. Például a "fenyőtoboz" kifejezés mindkét jelentésben olyan szavakat tartalmaz, mint az "örökzöld" és a "fa". Ezenkívül az előző módszer alternatívájaként használhatja a szavak közötti globális kapcsolatot az egyes értékpárok szemantikai közelségének kiszámításával a WordNetben .

A fenti módszerek alternatívájaként használhatja a szavak jelentéseinek általános szemantikai hasonlóságát ( angol  szemantikai hasonlóságot ), a WordNet 'e. alapján. A terjedő aktiváláson alapuló gráf alapú módszereket is alkalmazták némi sikerrel: némelyikük a felügyelt tanulási módszerekkel összemérhető [25] pontosságot mutatott, és bizonyos területeken néha jobb is, mint [5] [26] . Ezenkívül nemrégiben kimutatták [27] , hogy a gráfösszeköttetés mértékén (például a teljes gráf mértékén/valenciáján) alapuló legegyszerűbb módszerek is magas eredményeket mutathatnak gazdag lexikai bázis jelenlétében.  

Az úgynevezett irányítási modellek („szelekciós preferenciák” vagy „szelekciós korlátozások”) alkalmazása szintén igen hasznos lehet. Például annak tudatában, hogy a "basszus" szó a hal jelentésében gyakran előfordul a "főzni" vagy "enni" szóval, feloldhatjuk a kétértelműséget egy olyan mondatban, mint például: "Bőgőt főzök". A világról ilyen tudás létrehozása azonban rendkívül munkaigényes és szinte lehetetlen.

Felügyelt oktatási módszerek

Minden felügyelt tanulási módszer azon a feltételezésen alapul, hogy az általunk vizsgált szó kontextusa elegendő információt nyújt ahhoz, hogy kiszámítsa, milyen jelentésben alkalmazzák ebben az esetben (és ezért a szótárakból és tezauruszokból szerzett ismereteket feleslegesnek tekintjük). Minden felügyelt tanulási modellt alkalmaztak a WSD-problémára , beleértve a kapcsolódó technikákat, például a változók kiválasztását , a paraméterek optimalizálását és az együttes tanulást . A támogató vektorgépek és a példányalapú tanulás a ma elérhető leghatékonyabb módszerek egyikének bizonyultak, talán azért, mert képesek kezelni a szavak és kontextusok többparaméteres tulajdonságait. A fenti módszerek szűk keresztmetszete azonban az a követelmény, hogy hatalmas mennyiségű, manuálisan megjelölt szöveggel kell rendelkezni a képzéshez, ami, mint már említettük, munkaigényes és költséges. Ismét felmerül az ilyen felcímkézett hajótestek birtoklásának problémája.   

Részlegesen felügyelt módszerek

A bootstrapping módszer [28] egy általános módszer az osztályozó iteratív tanulására és értékelésére annak hatékonyságának növelése érdekében. Az algoritmus kis mennyiségű kezdő adattal kezdődik minden szóhoz: vagy néhány kézzel beírt példa kontextusra, vagy egy pár összetéveszthetetlen szabály egy szó jelentésének meghatározására (például a "play" szó a kontextusban a „basszus” szó szinte mindig azt jelenti, hogy a szó zenei értelemben értendő). Ezeket az adatokat az osztályozó betanításához használják fel a fenti felügyelt tanulási módszerek bármelyikével. Ezután az osztályozót a rendszer a már címkézetlen szövegek halmazára alkalmazza egy nagy betanítási minta kinyeréséhez, amely csak "megbízható" kontextusokat tartalmaz. A folyamat iteratív módon megismétlődik: minden következő osztályozó a megfelelő nagyobb kontextuskészletre van betanítva - és addig ismétlődik, amíg a teljes korpusz le nem terjed, vagy amíg el nem éri az iterációk maximális számát.

Egy másik módszer nagy mennyiségű jelöletlen szöveget használ a szavak együttes előfordulásáról való információszerzésre, ami nagyban kiegészítheti adatainkat. Ezenkívül egy jól igazított kétnyelvű korpusz használható a többnyelvű kétértelműség feloldására, mivel az egyik nyelv poliszemantikus szava mindig lefordításra kerül egy másik nyelvre, attól függően, hogy milyen jelentésben használják. Ez a módszer bizonyos értelemben a részleges tanulás módszerének is tekinthető.

A fenti technikák mindegyike lehetővé teszi a felügyelt tanulási módszerek más területekhez való adaptálását.

Felügyelet nélküli tanulási módszerek

Az ilyen típusú módszerek az egyik legnehezebb WSD-feladat. Ennek a módszernek a fő feltételezése az az állítás, hogy "hasonló jelentések hasonló kontextusban fordulnak elő", és így a szövegből klaszterezéssel, a kontextusok bizonyos mértékével kinyerhetők [29] . Ezután új kontextusokat lehet hozzárendelni az egyik legközelebbi fürthöz. A módszer teljesítménye minden bizonnyal alacsonyabb, mint más módszerek, azonban az összehasonlítás némileg problematikus, mivel a kapott klasztereket a szótárban elérhető értékekre kell vetíteni. Ha nincs szükség vetítésre, akkor becslések készíthetők a klaszterezésre (beleértve az entrópiát és a tisztaságot is). A tudósok nagy reményeket fűznek ahhoz , hogy a felügyelet nélküli tanulási módszerek segíthetnek áthidalni az ismeretszerzés hiányosságait , mivel nem igényelnek túlságosan fáradságos feladatokat a teljes korpusz szintaktikai és szemantikai jelölésével kapcsolatban.  

Egyéb módszerek

Vannak más módszerek is, amelyek a fentiektől teljesen eltérő elveken alapulnak:

Helyi problémák és eredmények

A tudásszerzés szűk keresztmetszete alegnagyobb akadálya a kétértelműség probléma megoldásának .  A nem felügyelt tanulási módszerek olyan tudásra támaszkodnak, amely alig van jelen az elektronikus szótárakban és más nyelvi elektronikus tudásrendszerekben. A felügyelt tanulási módszerek ezzel szemben egy manuálisan annotált korpusz meglétére támaszkodnak, amelynek megléte technikailag csak egy kis szókészletre valósítható meg tesztelési céllal, ahogyan azt a Senseval esetében is tették.

Ezért az egyik legbiztatóbb tendencia az Internet mint korpusz használata a lexikális információk automatikus megszerzésére [36] . A WSD-t hagyományosan úgy értelmezték, mint az eredmények javítását olyan területeken, mint az információkeresés (IR). Ebben az esetben azonban a fordítottja is igaz: a keresőmotorok egyszerű és elég gyors képességekkel rendelkeznek ahhoz, hogy sikeresen bányászják az internetet WSD-ben való használatra. Ezért a tudás megszerzésének problémája bizonyos módszerek megjelenését váltotta ki a megszerzésére:

Külső tudásforrások

A tudás az egyértelműség feloldásának egyik kulcsa: biztosítja azokat az adatokat, amelyekre maga a feloldási folyamat támaszkodik. Ezek az adatok lehetnek szövegkorpusok és szótárak, tesurusok, szószedetek, ontológiák is: [37] [38] [39]

Strukturált források

Strukturálatlan források

Módszerek értékelése és összehasonlítása, Senseval konferencia

A módszerek tesztelése és összehasonlítása nem triviális feladat a különböző tesztkészletek, az érzékelési készletek és a felhasznált adatforrások eltérései miatt. Mielőtt speciális eseményeket hoztak létre a rendszerek összehasonlítására, manuálisan hasonlították össze őket, gyakran kis adathalmazok alapján. Valójában annak érdekében, hogy teszteljék algoritmusukat, a fejlesztőknek időt kell fordítaniuk arra, hogy manuálisan megjelöljék az összes szóhasználatot. És még ugyanazon szövegeken sem lehet ugyanazokat a módszereket összehasonlítani, ha különböző szóértelmezési rendszereket alkalmaznak.

A WSD-rendszereket összehasonlító nemzetközi konferenciákat szerveztek a módszerek „kombinálására” és összehasonlítására. A Senseval (jelenleg Semeval néven ) egy nemzetközi konferencia, amely a lexikális egyértelműsítési rendszereket hasonlítja össze, 1998 óta háromévente tartanak: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), és ezek logikailag a SemEval utódja. , amelyet teljes egészében a WSD-feladatnak szenteltek, és egyszer, 2007-ben került megrendezésre. Feladatai közé tartozik szemináriumok és workshopok szervezése, korpuszok manuális előkészítése és jelölése rendszerteszthez, valamint különféle típusú algoritmusok összehasonlítása ("minden szó" és "lexikális minta" WSD, annotált és annotálatlan palgoritmusok), valamint olyan részfeladatok, mint a szemantikai szerepcímkézés , a gloss WSD , a lexikai helyettesítés stb. A fenti tevékenységek részeként a WSD-rendszerek összehasonlítása is megtörtént nem csak az angol nyelven. Az eseményeken azonban a szláv csoport egyetlen nyelve sem volt jelen.

Kiértékelési modellek kiválasztása

A szó jelentésrendszere . Az első konferenciákon szójelentésrendszerekként (szótárak, lexikai adatbázisok), vagy korábban kevéssé ismert, hozzáférhetetlen (például a HECTOR projekt), vagy egy valódi komplett rendszer kicsi, kicsi, hiányos változatai, amelyekre a versenyben szükség volt. használt. Általában mindkettő nem volt kellően részletes és differenciált (angol durvaszemcsés), azonban azért választották őket, hogy elkerüljék a legnépszerűbb és legrészletesebb (angol finomszemcsés) példák használatát (például WordNet ), mivel ez „tisztátalanítaná” a kísérletet, mivel ezek a tudásbázisok már többször „világítottak” különböző tanulmányokban és értékelésekben. Észrevettük, hogy a részletesebbnél teljesen eltérő eredmények születtek, ezért úgy döntöttünk, hogy mindkét érzékletáron teszteljük az algoritmusokat.

Ellenőrizendő szavak készlete . Ezenkívül az egyértelműsítési módszerek összehasonlítása két típusra oszlik az ellenőrizendő szavak száma szerint: egy bizonyos szókészlet (leggyakrabban több tucat) lexikális poliszémia felbontása és a szöveg összes szava lexikális poliszémia felbontása. Különbségük az adatelemzés és -feldolgozás mennyiségében rejlik: a „minden szó” („minden szó-szöveg”) feladat magában foglalja a szövegben szereplő összes szó feldolgozását a kétértelműség érdekében (a korpuszban lévő összes szót meg kell oldani ), a „lexikai minta” („korlátozott halmaz”) feladat az, hogy csak előre meghatározott és a korpuszunkban található célszavakat engedjük meg. Az első típus állítólag reálisabb becslés, de sokkal munkaigényesebb az eredmények ellenőrzése szempontjából. A második tesztelésének nehézségei miatt az első konferenciákon csak teszteket végeztek tesztkészlet, de később mindkettő bekerült a tesztelésbe.

A „korlátozott szókészlet” feladatnál a szervezőknek pontosan azokat a kulcsszavakat kellett kiválasztaniuk, amelyeken a rendszereket tesztelni akarták. A Senseval előtt lezajlott tevékenységek kritikája az volt, hogy ezeket a mintákat a készletből a kísérletezők kénye-kedve szerint választották ki. A Senseval'e-nál ezt úgy próbálták elkerülni, hogy tetszőleges szavakat választottak, a beszédrészek, gyakoriság és a kétértelműség mértéke szerint csoportokra osztva. Szintén sok vita alakult ki azzal kapcsolatban, hogy a WSD programba bekerült-e a szórész meghatározásának problémája, ezért a szervezők úgy döntöttek, hogy a szómintába beépítenek mind a jól megjelölt, mind pedig bizonyos számú határozatlan szórészeket.

hadtest . Tisztázni kell, hogy mi a megjelölt szöveg és mi a jelöletlen szöveg. Az allokálatlan korpusz lényegében közönséges szövegek tömege, amelyek tartalmazzák a „feloldandó” szavak szükséges számú említését. A Marked up ugyanaz a szöveggyűjtemény, de azzal a különbséggel, hogy az összes említett szó tartalmaz információkat (például címkeként vagy egyéb metainformációként) az ezekben a kontextusokban használt szavak jelentéséről.

Mind a jelölt szövegek (felügyelt tanulási rendszerek), mind a jelöletlen szövegek (felügyelt tanulási rendszerek) képzési anyagként szolgálhatnak a lexikális poliszémia feloldására szolgáló rendszereink számára. Ez a folyamat a következőképpen zajlik: több nyelvész-lexikográfus végigjárja a teljes szöveget, és a jelentésszótárnak megfelelően metainformációkat rendel hozzá az ezekben a szövegösszefüggésekben használt szavak jelentésére vonatkozó összes szóhoz egy adott szómintából. poliszémia. Ezután minden szónál egyfajta határozatképesség születik a lexikográfusok döntéseiből, és döntés születik arról, hogy itt milyen jelentésben használják, majd a kapott címkéket hozzáadják a szöveg végső változatához; más szóval, az általunk választott szavak minden használata kiegészül a szükséges metainformációkkal.

Ezután a testet három részre osztják. Az első, az úgynevezett szárazon futó disztribúció (angol. "előzetes futás") lehetővé teszi a csapatok számára, hogy programjaikat a bemeneti információ típusához és szerkezetéhez igazítsák; tartalmazza a minimálisan szükséges információkat.

A második rész neve képzési terjesztés, amely szótári bejegyzéseket és egy korpuszt tartalmaz a célszavak jelentésére vonatkozó metainformációkkal), amely lehetővé teszi a versengő programok képzését a szavak megfelelő jelentésének helyes kiválasztására; azt minden csapat azonnal megkapja az előfutam után. A szavakhoz szükséges kontextusok száma nagyon változó lehet (néhánytól több mint 1000-ig), és a rendelkezésre álló kontextusok számától függ. Aztán jön a képzési szakasz.

Az utolsó rész, az úgynevezett értékelési eloszlás, a célszavak jelentésére vonatkozó metainformációk nélkül, a képzési programok befejezése után elérhető, lehetővé teszi az algoritmusok pontosságának kiszámítását. Minden kontextushoz legalább három személy manuálisan megjegyzést fűzött, de ez a metainformáció nem került bele a terjesztett adatokba, mivel ez az ellenőrzés alatt álló. A mintán áthaladó összes programnak ki kellett számítania minden kontextusban a használt szó legvalószínűbb jelentését (vagy az értékek listáját a megfelelő valószínűségekkel); az adatok elküldése után a szervezőknek automatikusan megkapják az eredményeket a sajátjukkal összehasonlítva (hiszen az értékelési minta, valamint a képzési minta markáns szóhasználatot tartalmaz).

Csoportok és alapvonalak . Megjegyzendő, hogy minden algoritmus eltérően működik és más információforrást használ, ezért mindegyiket a szövegfeldolgozási módszer szerint csoportokra osztották: felügyelt tanulási módszerek és nem felügyelt tanulási módszerek. A már ismert algoritmusokkal (az úgynevezett kiindulási pontokkal - alapvonalakkal ) való összehasonlítás céljából ezek eredményeit is közzétették, például a Lesk algoritmus összes lehetséges változatát .

Továbbá, mivel a WSD feladathoz értékszótárra és korpuszra van szükség , a szervezőknek a meglévők közül kellett néhányat kiválasztaniuk a projekthez. A WordNet és a SemCor a legnépszerűbb példa a fenti szükséges komponensekre, használatuk azonban tisztátalanná tenné a kísérletet, hiszen ezek a tudásbázisok már többször „kiemelték” a különböző tanulmányokban, értékelésekben, ezért hiányos, korábban nem elérhető verziók, ill. a szervezők által készített saját készítésűeket általában mindkét dolog tesztelésére választják ki (például a Senseval-1-en mindkettőt a HECTOR projekt biztosította [41] ).

Az algoritmusok pontossága . Szinte bármilyen objektum osztályozási algoritmusának kiértékelésekor a két legáltalánosabb értékelési mérőszámot alkalmazzuk – a pontosságot és a visszahívást ( eng.  Precision and Recovery ):

Ha azonban a rendszer minden szót megjegyzésekkel lát el, vagy az eredményt az összes osztályra egyszerre számítja ki, a pontosság és a visszahívás ugyanazt az értéket jelenti – ezt a számítások pontosságának, a számítások pontosságának nevezik ( eng.  Accuracy ). Ezt a modellt kibővítették arra az esetre, amikor az algoritmusok értéklistát állítanak elő a megfelelő valószínűségekkel.

Eredmények és funkciók

A Senseval műhelyek a legjobb példa arra, hogy a WSD-rendszerekből és a terület jövőbeli kutatási irányaiból megismerjük a legjobb eredményeket. A későbbi konferenciák elemzésével és összefoglalásával bizonyos következtetések vonhatók le:

Ahhoz, hogy megértsük a terület általános állapotát és a legjobb egyértelműsítő rendszerek által elért szintet, elemezni kell és alaposan tanulmányozni kell a legjobb eredményeket és azok jellemzőit:

Jegyzetek

  1. Anna A. Zaliznyak. A POLISZEMINÁCIÓ JELENSÉGE ÉS LEÍRÁSÁNAK MÓDJA. Nyelvtudományi kérdések. - M., 2004. - 2. sz. - S. 20-45
  2. W. Weaver. 1949. A fordítás archiválva : 2011. július 24. a Wayback Machine -nél . In Languages ​​Machine Translation of Languages: Fourteen Essays, ed. szerző: Locke, WN és Booth, AD Cambridge, MA: MIT Press.
  3. Y. Bar-Hillel, Nyelv és információ (Reading, Mass.: Addison-Wesley, 1964), 174-179.
  4. Mark Johnson, How the Statistical Revolution Changes (Computational) Linguistics, ( http://www.aclweb.org/anthology/W/W09/W09-0103.pdf Archiválva 2015. április 14-én a Wayback Machine -nél )
  5. 1 2 3 R. Navigli, K. Litkowski, O. Hargraves. 2007. SemEval-2007 07. feladat: Durva szemcsés angol All-Words feladat archiválva 2012. március 18-án a Wayback Machine -nél . Proc. Semeval-2007 Workshop (SEMEVAL), a Számítógépes Nyelvészeti Szövetség 45. éves találkozóján (ACL 2007), Prága, Cseh Köztársaság, pp. 30-35.
  6. 1 2 S. Pradhan, E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 17. feladat: Angol lexikai minta, SRL és minden szó Archivált 2012. március 18-án a Wayback Machine -nél . Proc. Semeval-2007 Workshop (SEMEVAL), a Számítógépes Nyelvészeti Szövetség 45. éves találkozóján (ACL 2007), Prága, Cseh Köztársaság, pp. 87-92.
  7. Lynette Hirschmann, Az értékelés evolúciója (1998) - Számítógépes beszéd és tudás
  8. C. Fellbaum 1997. Egy handtagging feladat elemzése. In Proc. ANLP-97 Workshop a szöveg címkézéséről lexikális szemantikával: Miért, mit és hogyan? Washington D.C., USA.
  9. B. Snyder és M. Palmer. 2004. The English all-words task archiválva 2011. június 29-én a Wayback Machine -nél . In Proc. 3. Nemzetközi Workshop on the Evaluation of Systems for the Semantic Analysis of Text (Senseval-3), Barcelona, ​​​​Spanyolország, pp. 41-43.
  10. Douglas Lenat. Számítógépek a józan ész ellen . Hozzáférés dátuma: 2008. december 10. Az eredetiből archiválva : 2013. július 27. (GoogleTachTalks a youtube-on)
  11. P. Edmonds. 2000. Feladat tervezése a SENSEVAL-2 számára Archiválva 2011. szeptember 28. a Wayback Machine -nál . Tech. jegyzet. Brightoni Egyetem, Brighton. Egyesült Királyság
  12. A. Kilgarriff. 1997. Nem hiszek a szó értelmében Archiválva : 2011. július 24., a Wayback Machine -ben . Comput. emberi. 31. (2) o. 91-113.
  13. D. McCarthy, R. Navigli. 2009. The English Lexical Substitution Task Archived 9 July 2009 at the Wayback Machine , Language Resources and Evaluation, 43(2), Springer, pp. 139-159.
  14. SANDERSON, M. 1994. Szóértelmű egyértelműsítés és információkeresés. In Proceedings of the Special Interest Group on Information Retrieval (SIGIR, Dublin, Írország). 142-151.
  15. SCHUTZE, H. ÉS PEDERSEN, J. 1995. Információkeresés szóérzékelés alapján. In Proceedings of SDAIR'95 (Las Vegas, NV). 161-175.
  16. STOKOE, C., OAKES, MJ, AND TAIT, JI 2003. Szóértelmű egyértelműsítés az információkeresésben újra megvizsgálva. In Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (Toronto, Onto., Kanada). 159-166.
  17. YAROWSKY, D. 1994. Döntési listák a lexikális kétértelműség feloldásához: Alkalmazás az akcentus helyreállítására spanyol és francia nyelven. In Proceedings of the Association for Computational Linguistics (Las Cruces, NM) 32. éves közgyűlése. 88-95.
  18. RICHARDSON, SD, DOLAN, WB, AND VANDERWENDE, L. 1998. Mindnet: Szemantikai információk megszerzése és strukturálása szövegből. In Proceedings of the 17th International Conference on Computational Linguistics (COLING, Montreal, PQ, Kanada). 1098-1102.
  19. NAVIGLI, R., VELARDI, P., ÉS GANGEMI, A. 2003. Ontológiatanulás és alkalmazása az automatizált terminológiafordításra. IEEE Intel. Syst. 18:1, 22-31.
  20. NAVIGLI, R. ÉS VELARDI, P. 2004. Domain ontológiák tanulása dokumentumraktárakból és dedikált webhelyekről. Comput. Ling. 30, 2, 151-179.
  21. CIMIANO, P. 2006. Ontológiatanulás és populáció szövegből: algoritmusok, értékelés és alkalmazások. Springer, New York, NY.
  22. Lenat, Douglas; Guha, R.V. (1989), Building Large Knowledge-Based Systems, Addison-Wesley
  23. Y. Wilks, B. Slator, L. Guthrie. 1996. Elektromos szavak: szótárak, számítógépek és jelentések. Cambridge, MA: MIT Press.
  24. Michael Lesk, Automatic sense disambiguation using machine readable dictionaries: hogyan lehet megkülönböztetni a fenyőtobozt a fagylalttoboztól, ACM Special Interest Group for Design of Communication Proceedings of the 5th éves International Conference on Systems documentation, p. 24-26, 1986. ISBN 0-89791-224-1
  25. R. Navigli, P. Velardi. 2005. Strukturális szemantikai összekapcsolások: tudásalapú megközelítés a szóértelmi egyértelműsítéshez Archiválva : 2009. július 9. a Wayback Machine -nél . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27(7), pp. 1063-1074.
  26. E. Agirre, O. Lopez de Lacalle, A. Soroa. 2009. Tudásalapú WSD meghatározott tartományokon: jobban teljesít, mint az általános felügyelt WSD Archiválva : 2011. július 24. a Wayback Machine -nél . In Proc. of IJCAI, pp. 1501-1506.
  27. R. Navigli, M. Lapata. Kísérleti tanulmány a grafikonok összekapcsolhatóságáról a felügyelet nélküli szóértelmi egyértelműsítéshez , archiválva 2010. december 14-én a Wayback Machine -nél . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010, pp. 678-692.
  28. D. Yarowsky. 1995. A felügyelt módszerekkel rivalizáló, felügyelet nélküli szóértelmű egyértelműsítés Archivált : 2010. június 7., a Wayback Machine webhelyen . In Proc. a Számítógépes Nyelvészeti Egyesület 33. évi közgyűléséről, pp. 189-196.
  29. H. Schütze. 1998. Automatic word sense discrimination Archivált : 2012. március 18. a Wayback Machine -nél . Számítógépes Nyelvészet, 24 (1), pp. 97-123.
  30. MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2004. Túlnyomó érzékek megtalálása címkézetlen szövegben. In Proceedings of the Association for Computational Linguistics (Barcelona, ​​​​Spanyolország) 42. éves találkozója. 280-287.
  31. MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2007. Túlnyomó szóérzékek felügyelet nélküli elsajátítása. Comput. Ling. 33, 4, 553-590.
  32. MOHAMMAD, S. ÉS HIRST, G. 2006. A szóértelmi dominancia meghatározása tezaurusz segítségével. In Proceedings of the 11th Conference on European Chapter of the Association for Computational Linguistics (EACL, Trento, Italy). 121-128.
  33. LAPATA, M. ÉS KELLER, F. 2007. Az érzékszervi rangsorolás információkeresési megközelítése. In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL, Rochester, NY). 348-355.
  34. GLIOZZO, A., MAGNINI, B., ÉS STRAPPARAVA, C. 2004. Unsupervised domain relevance estimation for word sense disambiguation. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP, Barcelona, ​​​​Spanyolország). 380-387.
  35. BUITELAAR, P., MAGNINI, B., STRAPPARAVA, C., AND VOSSEN, P. 2006. Domain-specific WSD. In Word Sense Disambiguation: Algorithms and Applications, E. Agirre és P. Edmonds, szerk. Springer, New York, NY, 275-298.
  36. KILGARRIFF, A. ÉS GREFENSTETTE, G. 2003. Bevezetés a különszámba a weben, mint korpuszról. Comput. Ling. 29, 3, 333-347.
  37. E IDE, N. ÉS VE´RONIS, J. 1998. Szóértelmű egyértelműsítés: A technika állása. Comput. Ling. 24:1, 1-40.
  38. LITKOWSKI, KC 2005. Számítógépes lexikonok és szótárak. In Encyclopedia of Language and Linguistics (2. kiadás), KR Brown, szerk. Elsevier Publishers, Oxford, Egyesült Királyság, 753-761.
  39. AGIRRE, E. ÉS STEVENSON, M. 2006. Tudásforrások a WSD-hez. In Word Sense Disambiguation: Algorithms and Applications, E. Agirre és P. Edmonds, szerk. Springer, New York, NY, 217-251.
  40. MAGNINI, B. ÉS CAVAGLIA, G. 2000. Tárgymezőkódok integrálása a WordNetbe. In Proceedings of the 2nd Conference on Language Resources and Evaluation (LREC, Athén, Görögország). 1413-1418.
  41. 1. Adam Kilgarriff és Joseph Rosenzweig, English Senseval: Report and Results, 2000. május-június, Brightoni Egyetem
  42. Rada Mihalcea, Timothy Chklovski, Adam Kilgarriff. A Senseval-3 angol lexikai mintafeladat, 2004. p. 2
  43. Loukachevitch N., Chuiko D. Tezaurusz-alapú Word Sense Disambiguation, 2007

Javasolt olvasmány