A lexikális poliszémia feloldása

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. április 3-án felülvizsgált verziótól ; az ellenőrzések 12 szerkesztést igényelnek .

A szóértelmi egyértelműsítés ( WSD ) egy megoldatlan természetes nyelvi feldolgozási probléma , amely abból áll, hogy meg kell választani egy kétértelmű szó vagy kifejezés jelentését (vagy jelentését) attól függően, hogy milyen kontextusban található. Ez a probléma a diszkurzív elemzésben , a találatok relevanciájának keresőmotorok általi optimalizálásakor , az anaforikus hivatkozások feloldásakor, a szöveg nyelvi koherenciájának vizsgálatakor, a következtetések elemzésekor merül fel .

A lexikális poliszémia feloldásának tudományos kutatása régóta az alkalmazott és a számítógépes nyelvészet területén folyik, és nagy múltra tekint vissza. Az évek során a javasolt megoldások száma és hatékonyságuk folyamatosan nőtt, amíg a hatékonyság el nem érte a viszonylag hatékony pontosság egy bizonyos szintjét a szavak és a poliszémia bizonyos típusai esetében . A probléma még nem kapott teljes megoldást, hiszen számos, az emberi beszéd nyelvi sajátosságaihoz közvetlenül kapcsolódó probléma áll a sikeres megoldás útjában.

Számos módszert tártak fel, kezdve a tudásalapú módszerektől, szabályoktól, lexikográfiai forrásoktól, a szövegkorpuszon végzett irányított tanulástól a szavakat jelentés alapján csoportosító , felügyelet nélküli tanulási módszerekig. Ezek közül a mai napig a felügyelt tanulási módszerek bizonyultak a legjobb hatékonyságnak. A módszerek objektív összehasonlítása és értékelése azonban összetett folyamat, amely számos tényezőtől függ. Az általánosított szókincsrendszerek esetében (angol esetében) a hatékonyság rendszeresen meghaladja a 90%-os szintet, néha eléri a 96%-ot is. A differenciáltabb szókincsrendszereknél a hatékonyság 59% és 69% közötti tartományba esik.

Az egyértelműsítési folyamatról

Általában egy nyelvi kifejezés vagy beszédmű (szöveg) kétértelműségét (vagy kétértelműségét) több különböző jelentés egyidejű jelenlétének kell érteni [1] . A tudósok több fajta kétértelműséget osztanak: lexikális, szintaktikai és beszéd, de a "WSD" kifejezés magában foglalja a lexikális (szemantikai) kétértelműséget is.

Amiről beszélünk, az a következő példából megérthető a kétértelmű „kulcs” szóval:

kulcs a nyitáshoz
kulcs, mint vízforrás

valamint 3 kontextus:

Előkerült a kulcs, kinyílt az ajtó
Berúgtam a kulcstól
Az élet bővelkedik

Az ember számára nyilvánvaló, hogy az első mondatban a " kulcs " szó az első jelentésben szerepel, a második mondatban - illetve a másodikban, a harmadikban pedig - változatok lehetségesek. Ezt az emberi képességet utánzó algoritmusok fejlesztése néha ijesztő feladat lehet.

A feloldási folyamathoz több dologra van szükség: szókincs-ismereti rendszerekre a szavak többféle jelentésének meghatározásához, és szövegkorpuszra a feloldáshoz ( egyes esetekben más tudásforrásokra is szükség lehet ).

A terület rövid története

Ezt a problémát először az 1940-es években, a gépi fordítás korai szakaszában fogalmazták meg külön problémaként, így a számítógépes nyelvészet egyik legrégebbi problémája lett. Warren Weaver híres " The 'Translation" memorandumában (1949) [2] a problémát számítógépes számítástechnikai szempontból mutatta be . Az akkori kutatók jól ismerték ennek jelentőségét és összetettségét, különösen Joshua Bar-Hillel (az egyik úttörő) 1960-ban kétségeit fejezte ki azzal kapcsolatban, hogy az univerzális, teljesen automatikus gépi fordítás valaha is megvalósítható lenne a modellezés szükségessége miatt. minden emberi tudás a világról [3] .

A 70-es években a WSD-probléma a mesterséges intelligencia területén kifejlesztett szemantikai értelmezési rendszerek részévé vált , azonban ezek többnyire manuálisan levezetett szabályokból álltak, így teljes mértékben a rendelkezésre álló tudás mennyiségétől függtek, ami akkoriban rendkívül munkaigényes volt. kivonni.

Az 1980-as évekre olyan terjedelmes források váltak elérhetővé, mint az Oxford Advanced Learner's Dictionary of Current English , és a szabályok kézi írását felváltotta az ilyen forrásokból származó tudás automatikus kinyerése , de a módszerek továbbra sem hagyták el az úgynevezett „tudás- alapú módszerek".

A 90-es években azonban a "statisztikai forradalom" teljesen megváltoztatta a számítógépes nyelvészet megközelítéseit és módszereit, és a lexikális poliszémia megoldásának problémája olyan problémává vált, amelyre mindenféle felügyelt tanulási módszer alkalmazható [4] .

A 2000-es évek megmutatták, hogy a felügyelt tanulási módszerek elértek egy bizonyos pontossági szintet, és ezt nem tudják felülmúlni, így a tudósok figyelme az általánosabb szókincs-ismereti rendszerekkel való munka (durvaszemcsés érzékszervek), a tantárgyi területekhez való alkalmazkodás (domain adaptáció) felé terelődött. , részlegesen felügyelt tanulás (félig felügyelt rendszerek) és nem felügyelt tanulás (nem felügyelt korpusz alapú rendszerek), vegyes módszerek, valamint tudásbázisok feldolgozása és eredmények gráfok formájában való megjelenítése (tudásalapú rendszerek gráf alapú visszaadása módszerek) . A mai napig azonban a felügyelt tanulási rendszereket tartják a leghatékonyabbnak.

Problémák és nehézségek

De vajon miért okoz egy ilyen feladat annyi nehézséget, és megoldásainak eredménye viszonylag alacsony hatékonyságot mutat? A lexikális poliszémia megoldásának problémáján való munka során számos nehézséget fedeztek fel, leggyakrabban az emberi pszichológia és a beszéd tulajdonságai miatt.

Szótárak összeállítása

Először is, minden szótár különböző, és nem egyenértékű egymással. Leggyakrabban egy szó jelentésének egymástól való megkülönböztetésének feladata nem okoz nehézséget, azonban bizonyos esetekben egy szó különböző jelentése szemantikailag nagyon közel állhat egymáshoz (például ha mindegyik metafora vagy metonímia egymásra), és ilyen helyzetekben a jelentés szerinti felosztás a különböző szótárakban és tezauruszokban jelentősen eltérhet. Ennek a nehézségnek a megoldása ugyanazon adatforrás univerzális felhasználása lehet: egyetlen univerzális szótár. Globálisan az általánosabb szemantikai felosztást alkalmazó vizsgálatok eredményei hatékonyabbak [5] [6] , ezért egyes kutatók egyszerűen figyelmen kívül hagyják munkájuk során a részletesebb szemantikai felosztással rendelkező szótárak és tezauruszok feldolgozását.

A beszédrészlet meghatározása

Másodszor, egyes nyelveken a szórészek jelölése nagyon szorosan összefügghet az egyértelműsítés problémájával, aminek eredményeképpen ez a két probléma zavarhatja egymást. A tudósok nem jutottak konszenzusra abban, hogy érdemes-e két autonóm komponensre osztani őket, de előnyük azoknak van, akik szerint ez szükséges [7] .

Az emberi tényező és a kézi eredmények következetessége

A harmadik nehézség az emberi tényezőben rejlik . Az egyértelműsítő rendszereket mindig is úgy értékelték, hogy az eredményeket az emberi munkával hasonlították össze. És az emberek számára ez a feladat nem olyan egyszerű, mint a POS-címkézés – többszörösen nehezebb jelentéseket megjelölni több javasolt között [8] . Ha valaki észben tartja vagy könnyen kitalálja a beszéd azon részeit, amelyek egy szónak lehetnek, akkor nem lehetséges a szavak összes lehetséges jelentésének emlékezése. Ráadásul, mint kiderült, a különböző emberek eredményei nem mindig esnek egybe [9] , és gyakran nem jutnak közös döntésre arról, hogy egy adott szót egy adott kontextusban milyen jelentésben használnak. Ennek ellenére a tudósok egy személy eredményét tekintik szabványnak, a számítógép eredményeivel való összehasonlítás mércéjének. Megjegyzendő, hogy az ember sokkal jobban megbirkózik az általánosított szótárrendszerekkel, mint a részletesekkel – ezért a kutatók figyelme ezekre irányult [5] [6] .

A józan ész

Egyes kutatók azzal érvelnek [10] , hogy a szövegek feldolgozásakor a józan ész is fontos , amit a számítógép aligha képes megtanítani. A következő két mondat példa:

Jill és Mary testvérek. (testvérei egymásnak).
Jill és Mary anyák. - (mindegyik önállóan egy anya).

Az első mondat arra utal, hogy Jill és Mary egymás nővérei; a másodikban, hogy Jill és Mary is anyák, és nem tény, hogy rokonok. Ezért a jelentések pontosabb elemzéséhez ilyen ismeretek szükségesek a világról és a társadalomról. Sőt, ez az ismeret néha a szintaktikai kétértelműségek feloldásához, az anafora és katafora elemzéséhez is szükséges .

Feladat függőség

Ötödször, az állandó feladat-független (feladattól független) módszerkészletnek nincs értelme, mivel például az egér szó kétértelműsége (állat és számítógépes eszköz) nem befolyásolja az angol-orosz és az orosz- Egyáltalán az angol fordítás (mivel mindkét nyelven mindkét jelentés ugyanabban a szóban testesül meg), de erősen befolyásolja az információkeresést. Ezzel ellentétes példa is hozható: amikor a 'river' szót angolról franciára fordítjuk, ismernünk kell a szó jelentését (a 'fleuve' egy folyó, amely a tengerbe ömlik, a 'rivière' pedig egy folyó, amely egy másik folyóba ömlik). Ennek eredményeként a különböző problémák különböző algoritmusokat igényelnek – így ha bármilyen jó lexikális egyértelműsítő algoritmust kifejlesztenek, nem lehet teljesen biztos abban, hogy az minden feladathoz illeszkedik.

A szavak jelentéseinek megkülönböztetése

Hatodszor, a tudósok felvetik egy szó jelentésének diszkrét ábrázolásának lehetőségét. Még maga a „ szó jelentése ” kifejezés is meglehetősen általános és ellentmondásos. A legtöbben egyetértenek abban, amikor általánosított tudásrendszerekkel dolgoznak, magas szintű szóhomográfia, de a szint csökkenésével és a szótárak részletesebbé válásával nagyszámú eltérés mutatkozik. Például a Senseval-2 konferencián, amely részletes rendszereket használt, az emberi annotátorok csak az esetek 85%-ában jutottak megegyezésre [11] .

A szavak jelentése nagyon rugalmas, meglehetősen változékony és rendkívül kontextuális, sőt olykor kontextuális függő is, ezért nem mindig oszlanak szigorúan több részjelentésre [12] . A lexikográfusok gyakran találkoznak túl tág és szemantikailag átfedő részjelentésekkel a szövegekben, és a szavak standard jelentéseit gyakran a legfurcsább és legváratlanabb módokon kell javítani, bővíteni és szűkíteni. Például ebben a helyzetben a „gyerekek az anyjukhoz rohannak” a „gyerekek” szót egyszerre két értelemben használják: ők a szüleik gyermekei és csak gyerekek. A lexikográfus feladata hatalmas mennyiségű szöveg és anyag elemzése és egy szó teljes lehetséges jelentéstartományának leírása. Azt azonban máig nem tudni, hogy ez a megközelítés alkalmazható-e a számítástechnika és a számítógépes nyelvészet területén, mert a lexikográfusok döntései a leírt jelentések teljessége, nem pedig a szövegfeldolgozás során megszerzett információk alkalmazhatósága mellett születnek.

A közelmúltban egy lexikai helyettesítésnek nevezett problémát javasoltak megoldásként a szavak jelentései megkülönböztetésének problémájára [13] . Jelentése az, hogy a szót helyettesítse egy másikkal, amely ebben az összefüggésben megtartja a régi jelentését.

A probléma relevanciája, lehetséges alkalmazások

Köztudott, hogy a folyamat eredménye nem csak a módszerek innovatívságától és hatékonyságától függ, hanem a feladat különböző beállításaitól/tulajdonságaitól, a megoldási folyamat követelményeitől (például a differenciálástól) is. a szó jelentéseiről, az eredmények értékelésének jellemzőiről, az egyértelműség lefedettségéről stb.). Az is fontos, hogy nagyszámú NLP-mező profitálhasson a WSD eredményeiből.

Információkeresés

Információkereső rendszerekben - ha a lekérdezés során azokat a dokumentumokat figyelmen kívül hagyjuk, amelyekben a lekérdezés bármely szava a felhasználót aktuálisan érdeklőtől eltérő jelentésben használatos, akkor a lekérdezés eredményeinek relevanciája csökkenthető. megnövekedett.

A legelső munkák, amelyek a WSD alkalmazásának lehetőségét kutatták az információkeresés területén, nem mutattak a keresési pontosság növekedését. Sanderson azonban 1994-ben úgy találta [14] , hogy a javulás csak akkor észlelhető, ha az egyértelműsítési hatékonyság meghaladja a 90%-ot, aminek általános érvényessége vitatott. 1995-ben pedig Schutze és Pedersen kimutatta [15] , ami azt mutatta, hogy a fenti hatékonyság mellett 4%-os keresési javulás érhető el. Stokey azonban kimutatta, hogy a WSD használata, bár csekély mértékben, átlagosan 1,73%-os eredményt adhat még a WSD alacsonyabb hatékonysága mellett is (62,1%) [16] .

Gépi fordítás

A gépi fordítási rendszerekben a szó jelentésének felismerésére szolgáló megbízható mechanizmusok hiánya jelentősen csökkenti a fordítás minőségét, mivel a szót nem mindig fordítják le egyértelműen egy másik nyelvre. A helyes fordítás automatikus meghatározása pedig a kontextustól függően nagyon nehéz feladat. A lexikális egyértelműsítést már régóta nagy kihívásnak tekintik a majdnem tökéletes gépi fordítás eléréséhez – ezek a gondolatok azon az elgondoláson alapulnak, hogy a WSD nem tehet mást, mint javítja a fordítási rendszereket a megfelelő fordítási értékű jelöltek kiválasztásában. Ezt a területet nem tárták fel annyira, amennyire szükség lenne, a hagyományos, kevésbé hatékony előre definiált szókincs-adatbázisok ( eng. sense inventory ) miatt, amelyek már régóta hagyományossá váltak .

Információ kinyerése

Konkrét területeken a rájuk jellemző fogalmak feloldásának problémái a legérdekesebbek: például az orvostudományban hasznos lehet a gyógyszerek elnevezésének szövegben történő meghatározása, míg a bioinformatikában a megnevezési kétértelműségeket kell feloldani. gének és fehérjék – ezt a folyamatot információ - kivonásnak nevezték. Olyan feladatokat foglal magában, mint a named-entity-felismerés ( eng. named-entity discovery ) (NER), a mozaikszó kiterjesztése (például Orosz Föderáció - Orosz Föderáció) és mások – mindez feloldási feladat-poliszémiának tekinthető, bár ez új és még nem igazán feltárt irány.

Tartalomelemzés

A tartalomelemzés és a szöveg főbb részeinek azonosítása ötletek, témák és hasonlók tekintetében nagy hasznot húzhat a WSD-ből. Példáula szövegek (blogok) osztályozása , címkék hozzárendelése cikkekhez vagy blogbejegyzésekhez , vagy releváns (talán szemantikai) kapcsolatok meghatározása közöttük, vagy a közösségi hálózatok (szemantikai) elemzése , amely egyre inkább elterjedt. az utóbbi időben aktív. Ez a terület a legújabb, ismeretlen a fentiek közül.

Egyéb területek

A szövegszerkesztés a WSD egyik alkalmazása, mivel ez utóbbi segítheti a szavak helyesírásának javítását [17] , a kis- és nagybetűk javítását, a kontextusszemantikán alapuló diakritikus jelölések javítását/feladását.
a lexikográfia és a WSD tanulmányai kölcsönösen gazdagítják egymást:
1. A WSD empirikus ismeretek segítségével segíthet a szavak jelentésekre való szétválasztásában, és indikátorokat szolgáltat bizonyos jelentések összefüggéseire; ráadásul a WSD segíthet szemantikai hálózatok létrehozásában elektronikus szótárakból [18]
2. másrészt a lexikográfusok gazdagabb és logikailag/empirikusan helyes felosztást tudnak biztosítani a szavak jelentésekre, értelmi leltárakat, valamint annotált szövegkorpusokat (például "HECTOR projekt" és "Sketch Engine")
Szemantikus Web : Mivel a szemantikus webnek alapvetően tartomány-specifikus és korlátlan lexikális egyértelműsítésre van szüksége a webdokumentumok szemantikájának kezeléséhez, a rendszerek, ontológiák és felhasználók közötti interakcióhoz. A WSD-t olyan területeken használják és kutatják, mint az ontológia tanulás , ataxonómia építése [19] [20] [21] és a szemantikai hálózat gazdagítása .

A metódusok fő típusai

Mint mindig, a természetes nyelvi feldolgozásban két megközelítés létezik: mély és sekély.

Az első kategóriába tartozó megközelítések az ún. világismerethez (világismerethez vagy józan ész tudásbázishoz) való hozzáférést foglalják magukban . Például annak ismerete, hogy "bármilyen élettelen, anyagi dolog lehet zöld a szín értelmében, de nem lehet zöld a tapasztalatlanság értelmében", lehetővé teszi annak meghatározását, hogy egy adott kontextusban milyen értelemben használjuk a "zöld" szót. Az ilyen megközelítések a gyakorlatban nem olyan hatékonyak, mivel a világról szóló tudás ilyen osztálya, bár számítógépbarát formátumban tárolható, életünk nagyon kis [22] területeit fedi le, és nem alkalmazható teljesen mindenkire. tanulmányok. Azt kell mondanom, hogy ez a megközelítés sem mindig működik, például a „A rendező olyan zöld volt” mondatban a tudás alapján lehetetlen meghatározni, ebben az esetben a rendező azért zöld, mert zöld lett, vagy mert tapasztalatlan - ez gyakran csak a szövegkörnyezetből, hanem a teljes szöveg logikájából és jelentéséből határozható meg.

A számítógépes nyelvészetben is régi hagyománya van e módszerek programismereti alkalmazásának, és gyakran meglehetősen nehéz megállapítani, hogy ez a tudás nyelvi vagy a világról szóló tudás ( English Commonsense tudásbázis ). Az első kísérletet Margaret Masterman és munkatársai a Cambridge-i Nyelvkutató Egységnél, Angliában tették meg az 1950-es években: Roger tezaurusza-adatait és számozott címszavait használták . ) a témák indikátoraként, és a szövegben előforduló ismétlődéseket elemezték a beállított metszésponti algoritmus segítségével. Ez a kísérlet nem volt túl sikeres [23] , de erősen befolyásolta a későbbi munkákat, különösen Yarovksky munkáját az 1990-es években a tezaurusz-módszer felügyelt tanulógép segítségével történő optimalizálásával kapcsolatban.

A felszíni megközelítések nem próbálják megérteni a szöveget, csak a közeli szavak elemzésére hagyatkoznak, például: ha a „tenger” vagy a „halászat” szó szerepel a „basszus” szó mellett, akkor nagy valószínűséggel ebben az esetben biológiai értelemben vett jelentés. Ezek a szabályok automatikusan kinyerhetők egy címkézett szójelentésű szövegkorpusz segítségével. Ez a megközelítés, bár teljesítményben nem fedi az előzőt, a gyakorlatban könnyen felülmúlja azt. Azonban mindig vannak buktatók, például a "A kutyák ugatnak a fán" mondatban, amely a "fa" és a "kutyák" szavakat tartalmazza a "ugat" szó mellett.

Négy fő módszer létezik az egyértelműsítésre:

tudásalapú módszerek (szótári és tudásalapú módszerek): ezek a módszerek elsősorban szótárak, tezauruszok, lexikográfiai adatbázisokra támaszkodnak, nem támaszkodnak szövegkorpusokra.
felügyelt módszerek : ezek a módszerek címkézett szövegkorpusokat használnak az osztályozó betanításához .
részlegesen felügyelt módszerek (félig felügyelt vagy minimálisan felügyelt módszerek): ezek a módszerek másodlagos ismereteket használnak, mint például a szódefiníciókban szereplő kifejezések meghatározása vagy egy igazított kétnyelvű korpusz .
Felügyelet nélküli módszerek: a legtöbb ilyen módszer nem használ semmilyen külső adatot, és csak nyers, megjegyzés nélküli korpuszokat használ; a klaszterezés és a „szóértelmi diszkrimináció” kifejezéssel is ismertek.

Tudásalapú módszerek

A Lesk-módszer [24] szókincs-ismeretek felhasználásán alapuló produktív módszer. Azon a hipotézisen alapul, hogy a szövegben egymás mellett található szavak egymáshoz kapcsolódnak, és ez a kapcsolat megfigyelhető a szavak és jelentésük meghatározásaiban. Két (vagy több) szó közel állhat egymáshoz, ha mindkettőnek az az értékpárja van, amely a szótárban a legnagyobb átfedést okozó szavakkal rendelkezik. Például a "fenyőtoboz" kifejezés mindkét jelentésben olyan szavakat tartalmaz, mint az "örökzöld" és a "fa". Ezenkívül az előző módszer alternatívájaként használhatja a szavak közötti globális kapcsolatot az egyes értékpárok szemantikai közelségének kiszámításával a WordNetben .

A fenti módszerek alternatívájaként használhatja a szavak jelentéseinek általános szemantikai hasonlóságát ( angol szemantikai hasonlóságot ), a WordNet 'e. alapján. A terjedő aktiváláson alapuló gráf alapú módszereket is alkalmazták némi sikerrel: némelyikük a felügyelt tanulási módszerekkel összemérhető [25] pontosságot mutatott, és bizonyos területeken néha jobb is, mint [5] [26] . Ezenkívül nemrégiben kimutatták [27] , hogy a gráfösszeköttetés mértékén (például a teljes gráf mértékén/valenciáján) alapuló legegyszerűbb módszerek is magas eredményeket mutathatnak gazdag lexikai bázis jelenlétében.

Az úgynevezett irányítási modellek („szelekciós preferenciák” vagy „szelekciós korlátozások”) alkalmazása szintén igen hasznos lehet. Például annak tudatában, hogy a "basszus" szó a hal jelentésében gyakran előfordul a "főzni" vagy "enni" szóval, feloldhatjuk a kétértelműséget egy olyan mondatban, mint például: "Bőgőt főzök". A világról ilyen tudás létrehozása azonban rendkívül munkaigényes és szinte lehetetlen.

Felügyelt oktatási módszerek

Minden felügyelt tanulási módszer azon a feltételezésen alapul, hogy az általunk vizsgált szó kontextusa elegendő információt nyújt ahhoz, hogy kiszámítsa, milyen jelentésben alkalmazzák ebben az esetben (és ezért a szótárakból és tezauruszokból szerzett ismereteket feleslegesnek tekintjük). Minden felügyelt tanulási modellt alkalmaztak a WSD-problémára , beleértve a kapcsolódó technikákat, például a változók kiválasztását , a paraméterek optimalizálását és az együttes tanulást . A támogató vektorgépek és a példányalapú tanulás a ma elérhető leghatékonyabb módszerek egyikének bizonyultak, talán azért, mert képesek kezelni a szavak és kontextusok többparaméteres tulajdonságait. A fenti módszerek szűk keresztmetszete azonban az a követelmény, hogy hatalmas mennyiségű, manuálisan megjelölt szöveggel kell rendelkezni a képzéshez, ami, mint már említettük, munkaigényes és költséges. Ismét felmerül az ilyen felcímkézett hajótestek birtoklásának problémája.

Részlegesen felügyelt módszerek

A bootstrapping módszer [28] egy általános módszer az osztályozó iteratív tanulására és értékelésére annak hatékonyságának növelése érdekében. Az algoritmus kis mennyiségű kezdő adattal kezdődik minden szóhoz: vagy néhány kézzel beírt példa kontextusra, vagy egy pár összetéveszthetetlen szabály egy szó jelentésének meghatározására (például a "play" szó a kontextusban a „basszus” szó szinte mindig azt jelenti, hogy a szó zenei értelemben értendő). Ezeket az adatokat az osztályozó betanításához használják fel a fenti felügyelt tanulási módszerek bármelyikével. Ezután az osztályozót a rendszer a már címkézetlen szövegek halmazára alkalmazza egy nagy betanítási minta kinyeréséhez, amely csak "megbízható" kontextusokat tartalmaz. A folyamat iteratív módon megismétlődik: minden következő osztályozó a megfelelő nagyobb kontextuskészletre van betanítva - és addig ismétlődik, amíg a teljes korpusz le nem terjed, vagy amíg el nem éri az iterációk maximális számát.

Egy másik módszer nagy mennyiségű jelöletlen szöveget használ a szavak együttes előfordulásáról való információszerzésre, ami nagyban kiegészítheti adatainkat. Ezenkívül egy jól igazított kétnyelvű korpusz használható a többnyelvű kétértelműség feloldására, mivel az egyik nyelv poliszemantikus szava mindig lefordításra kerül egy másik nyelvre, attól függően, hogy milyen jelentésben használják. Ez a módszer bizonyos értelemben a részleges tanulás módszerének is tekinthető.

A fenti technikák mindegyike lehetővé teszi a felügyelt tanulási módszerek más területekhez való adaptálását.

Felügyelet nélküli tanulási módszerek

Az ilyen típusú módszerek az egyik legnehezebb WSD-feladat. Ennek a módszernek a fő feltételezése az az állítás, hogy "hasonló jelentések hasonló kontextusban fordulnak elő", és így a szövegből klaszterezéssel, a kontextusok bizonyos mértékével kinyerhetők [29] . Ezután új kontextusokat lehet hozzárendelni az egyik legközelebbi fürthöz. A módszer teljesítménye minden bizonnyal alacsonyabb, mint más módszerek, azonban az összehasonlítás némileg problematikus, mivel a kapott klasztereket a szótárban elérhető értékekre kell vetíteni. Ha nincs szükség vetítésre, akkor becslések készíthetők a klaszterezésre (beleértve az entrópiát és a tisztaságot is). A tudósok nagy reményeket fűznek ahhoz , hogy a felügyelet nélküli tanulási módszerek segíthetnek áthidalni az ismeretszerzés hiányosságait , mivel nem igényelnek túlságosan fáradságos feladatokat a teljes korpusz szintaktikai és szemantikai jelölésével kapcsolatban.

Egyéb módszerek

Vannak más módszerek is, amelyek a fentiektől teljesen eltérő elveken alapulnak:

A szóérzék dominanciájának meghatározása [30] [31] [32] [33] .
Domain-vezérelt egyértelműsítés [34] [35]
WSD Cross-Lingual Evidence használatával

Helyi problémák és eredmények

A tudásszerzés szűk keresztmetszete alegnagyobb akadálya a kétértelműség probléma megoldásának . A nem felügyelt tanulási módszerek olyan tudásra támaszkodnak, amely alig van jelen az elektronikus szótárakban és más nyelvi elektronikus tudásrendszerekben. A felügyelt tanulási módszerek ezzel szemben egy manuálisan annotált korpusz meglétére támaszkodnak, amelynek megléte technikailag csak egy kis szókészletre valósítható meg tesztelési céllal, ahogyan azt a Senseval esetében is tették.

Ezért az egyik legbiztatóbb tendencia az Internet mint korpusz használata a lexikális információk automatikus megszerzésére [36] . A WSD-t hagyományosan úgy értelmezték, mint az eredmények javítását olyan területeken, mint az információkeresés (IR). Ebben az esetben azonban a fordítottja is igaz: a keresőmotorok egyszerű és elég gyors képességekkel rendelkeznek ahhoz, hogy sikeresen bányászják az internetet WSD-ben való használatra. Ezért a tudás megszerzésének problémája bizonyos módszerek megjelenését váltotta ki a megszerzésére:

Külső tudásforrások

A tudás az egyértelműség feloldásának egyik kulcsa: biztosítja azokat az adatokat, amelyekre maga a feloldási folyamat támaszkodik. Ezek az adatok lehetnek szövegkorpusok és szótárak, tesurusok, szószedetek, ontológiák is: [37] [38] [39]

Strukturált források

Szinonimaszótár
Elektronikus szótárak ( eng. machine-readable dictionaries, MRDs )
Ontológiák

Strukturálatlan források

Szövegkorpusz : a szavak jelentésével annotálva ( eng. sense-annotated corpora ) és nem jegyzett ( eng. raw corpora )
A szavak együttes előfordulásának ismerete ( eng. kollokációs források )
Egyéb források , például szólisták , stoplisták , domain címkék [ 40 ]

Módszerek értékelése és összehasonlítása, Senseval konferencia

A módszerek tesztelése és összehasonlítása nem triviális feladat a különböző tesztkészletek, az érzékelési készletek és a felhasznált adatforrások eltérései miatt. Mielőtt speciális eseményeket hoztak létre a rendszerek összehasonlítására, manuálisan hasonlították össze őket, gyakran kis adathalmazok alapján. Valójában annak érdekében, hogy teszteljék algoritmusukat, a fejlesztőknek időt kell fordítaniuk arra, hogy manuálisan megjelöljék az összes szóhasználatot. És még ugyanazon szövegeken sem lehet ugyanazokat a módszereket összehasonlítani, ha különböző szóértelmezési rendszereket alkalmaznak.

A WSD-rendszereket összehasonlító nemzetközi konferenciákat szerveztek a módszerek „kombinálására” és összehasonlítására. A Senseval (jelenleg Semeval néven ) egy nemzetközi konferencia, amely a lexikális egyértelműsítési rendszereket hasonlítja össze, 1998 óta háromévente tartanak: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), és ezek logikailag a SemEval utódja. , amelyet teljes egészében a WSD-feladatnak szenteltek, és egyszer, 2007-ben került megrendezésre. Feladatai közé tartozik szemináriumok és workshopok szervezése, korpuszok manuális előkészítése és jelölése rendszerteszthez, valamint különféle típusú algoritmusok összehasonlítása ("minden szó" és "lexikális minta" WSD, annotált és annotálatlan palgoritmusok), valamint olyan részfeladatok, mint a szemantikai szerepcímkézés , a gloss WSD , a lexikai helyettesítés stb. A fenti tevékenységek részeként a WSD-rendszerek összehasonlítása is megtörtént nem csak az angol nyelven. Az eseményeken azonban a szláv csoport egyetlen nyelve sem volt jelen.

Kiértékelési modellek kiválasztása

A szó jelentésrendszere . Az első konferenciákon szójelentésrendszerekként (szótárak, lexikai adatbázisok), vagy korábban kevéssé ismert, hozzáférhetetlen (például a HECTOR projekt), vagy egy valódi komplett rendszer kicsi, kicsi, hiányos változatai, amelyekre a versenyben szükség volt. használt. Általában mindkettő nem volt kellően részletes és differenciált (angol durvaszemcsés), azonban azért választották őket, hogy elkerüljék a legnépszerűbb és legrészletesebb (angol finomszemcsés) példák használatát (például WordNet ), mivel ez „tisztátalanítaná” a kísérletet, mivel ezek a tudásbázisok már többször „világítottak” különböző tanulmányokban és értékelésekben. Észrevettük, hogy a részletesebbnél teljesen eltérő eredmények születtek, ezért úgy döntöttünk, hogy mindkét érzékletáron teszteljük az algoritmusokat.

Ellenőrizendő szavak készlete . Ezenkívül az egyértelműsítési módszerek összehasonlítása két típusra oszlik az ellenőrizendő szavak száma szerint: egy bizonyos szókészlet (leggyakrabban több tucat) lexikális poliszémia felbontása és a szöveg összes szava lexikális poliszémia felbontása. Különbségük az adatelemzés és -feldolgozás mennyiségében rejlik: a „minden szó” („minden szó-szöveg”) feladat magában foglalja a szövegben szereplő összes szó feldolgozását a kétértelműség érdekében (a korpuszban lévő összes szót meg kell oldani ), a „lexikai minta” („korlátozott halmaz”) feladat az, hogy csak előre meghatározott és a korpuszunkban található célszavakat engedjük meg. Az első típus állítólag reálisabb becslés, de sokkal munkaigényesebb az eredmények ellenőrzése szempontjából. A második tesztelésének nehézségei miatt az első konferenciákon csak teszteket végeztek tesztkészlet, de később mindkettő bekerült a tesztelésbe.

A „korlátozott szókészlet” feladatnál a szervezőknek pontosan azokat a kulcsszavakat kellett kiválasztaniuk, amelyeken a rendszereket tesztelni akarták. A Senseval előtt lezajlott tevékenységek kritikája az volt, hogy ezeket a mintákat a készletből a kísérletezők kénye-kedve szerint választották ki. A Senseval'e-nál ezt úgy próbálták elkerülni, hogy tetszőleges szavakat választottak, a beszédrészek, gyakoriság és a kétértelműség mértéke szerint csoportokra osztva. Szintén sok vita alakult ki azzal kapcsolatban, hogy a WSD programba bekerült-e a szórész meghatározásának problémája, ezért a szervezők úgy döntöttek, hogy a szómintába beépítenek mind a jól megjelölt, mind pedig bizonyos számú határozatlan szórészeket.

hadtest . Tisztázni kell, hogy mi a megjelölt szöveg és mi a jelöletlen szöveg. Az allokálatlan korpusz lényegében közönséges szövegek tömege, amelyek tartalmazzák a „feloldandó” szavak szükséges számú említését. A Marked up ugyanaz a szöveggyűjtemény, de azzal a különbséggel, hogy az összes említett szó tartalmaz információkat (például címkeként vagy egyéb metainformációként) az ezekben a kontextusokban használt szavak jelentéséről.

Mind a jelölt szövegek (felügyelt tanulási rendszerek), mind a jelöletlen szövegek (felügyelt tanulási rendszerek) képzési anyagként szolgálhatnak a lexikális poliszémia feloldására szolgáló rendszereink számára. Ez a folyamat a következőképpen zajlik: több nyelvész-lexikográfus végigjárja a teljes szöveget, és a jelentésszótárnak megfelelően metainformációkat rendel hozzá az ezekben a szövegösszefüggésekben használt szavak jelentésére vonatkozó összes szóhoz egy adott szómintából. poliszémia. Ezután minden szónál egyfajta határozatképesség születik a lexikográfusok döntéseiből, és döntés születik arról, hogy itt milyen jelentésben használják, majd a kapott címkéket hozzáadják a szöveg végső változatához; más szóval, az általunk választott szavak minden használata kiegészül a szükséges metainformációkkal.

Ezután a testet három részre osztják. Az első, az úgynevezett szárazon futó disztribúció (angol. "előzetes futás") lehetővé teszi a csapatok számára, hogy programjaikat a bemeneti információ típusához és szerkezetéhez igazítsák; tartalmazza a minimálisan szükséges információkat.

A második rész neve képzési terjesztés, amely szótári bejegyzéseket és egy korpuszt tartalmaz a célszavak jelentésére vonatkozó metainformációkkal), amely lehetővé teszi a versengő programok képzését a szavak megfelelő jelentésének helyes kiválasztására; azt minden csapat azonnal megkapja az előfutam után. A szavakhoz szükséges kontextusok száma nagyon változó lehet (néhánytól több mint 1000-ig), és a rendelkezésre álló kontextusok számától függ. Aztán jön a képzési szakasz.

Az utolsó rész, az úgynevezett értékelési eloszlás, a célszavak jelentésére vonatkozó metainformációk nélkül, a képzési programok befejezése után elérhető, lehetővé teszi az algoritmusok pontosságának kiszámítását. Minden kontextushoz legalább három személy manuálisan megjegyzést fűzött, de ez a metainformáció nem került bele a terjesztett adatokba, mivel ez az ellenőrzés alatt álló. A mintán áthaladó összes programnak ki kellett számítania minden kontextusban a használt szó legvalószínűbb jelentését (vagy az értékek listáját a megfelelő valószínűségekkel); az adatok elküldése után a szervezőknek automatikusan megkapják az eredményeket a sajátjukkal összehasonlítva (hiszen az értékelési minta, valamint a képzési minta markáns szóhasználatot tartalmaz).

Csoportok és alapvonalak . Megjegyzendő, hogy minden algoritmus eltérően működik és más információforrást használ, ezért mindegyiket a szövegfeldolgozási módszer szerint csoportokra osztották: felügyelt tanulási módszerek és nem felügyelt tanulási módszerek. A már ismert algoritmusokkal (az úgynevezett kiindulási pontokkal - alapvonalakkal ) való összehasonlítás céljából ezek eredményeit is közzétették, például a Lesk algoritmus összes lehetséges változatát .

Továbbá, mivel a WSD feladathoz értékszótárra és korpuszra van szükség , a szervezőknek a meglévők közül kellett néhányat kiválasztaniuk a projekthez. A WordNet és a SemCor a legnépszerűbb példa a fenti szükséges komponensekre, használatuk azonban tisztátalanná tenné a kísérletet, hiszen ezek a tudásbázisok már többször „kiemelték” a különböző tanulmányokban, értékelésekben, ezért hiányos, korábban nem elérhető verziók, ill. a szervezők által készített saját készítésűeket általában mindkét dolog tesztelésére választják ki (például a Senseval-1-en mindkettőt a HECTOR projekt biztosította [41] ).

Az algoritmusok pontossága . Szinte bármilyen objektum osztályozási algoritmusának kiértékelésekor a két legáltalánosabb értékelési mérőszámot alkalmazzuk – a pontosságot és a visszahívást ( eng. Precision and Recovery ):

precizitás (pontosság, vagyis az osztályhoz rendelt összes objektum százalékos aránya)
visszahívás (teljesség, azaz a helyesen hozzárendeltek százalékos aránya azok között, amelyeket ehhez az osztályhoz kell rendelni).

Ha azonban a rendszer minden szót megjegyzésekkel lát el, vagy az eredményt az összes osztályra egyszerre számítja ki, a pontosság és a visszahívás ugyanazt az értéket jelenti – ezt a számítások pontosságának, a számítások pontosságának nevezik ( eng. Accuracy ). Ezt a modellt kibővítették arra az esetre, amikor az algoritmusok értéklistát állítanak elő a megfelelő valószínűségekkel.

Eredmények és funkciók

A Senseval műhelyek a legjobb példa arra, hogy a WSD-rendszerekből és a terület jövőbeli kutatási irányaiból megismerjük a legjobb eredményeket. A későbbi konferenciák elemzésével és összefoglalásával bizonyos következtetések vonhatók le:

A felügyelt tanulási rendszerek közül a memória alapú tanulást vagy az SVM-et alkalmazó megközelítések mutatták a legjobb hatékonyságot, ugyanakkor a konferencia szervezői hangsúlyozzák, hogy a legjobb eredményeket azok a rendszerek érik el, amelyek több megközelítés kombinációját alkalmazzák, és különösen azok, amelyek a címkézett tanuláson alapulnak. korpusz [42] .
A SemEval-2007 konferencia keretein belül annak vizsgálatára, hogy az egyértelműsítő rendszerek milyen mértékben használhatók információkereső alkalmazásokban, az információkeresési feladat keretében az egyértelműsítő algoritmusok alkalmazása volt az egyik feladat. A feladat lényege a következő: minden résztvevőnek ugyanazon a keresőn kell keresnie, de a keresés előtt a lekérdezéseket vagy szövegeket ki kell bővíteni a kiválasztott értékeknek megfelelő szinonimákkal.
Az ilyen konferenciák tartása a tudósok számára nagy értékű adatok időszakos publikálásához vezet: például összehasonlítás céljából megjelölt szövegkorpusok. A konferencia egyértelműsítő algoritmusai szemantikailag megjelölt WordNet korpuszokat használnak. A korpusz szemantikai jelölését általában két fő módon használják: egy egyértelműsítő program betanításának és ellenőrzésének alapjaként, valamint információként a leggyakoribb értékről, amelyet olyan esetekben választanak ki, amikor a fő algoritmus nem tudott értéket kiválasztani. Becslések szerint a tesztszövegekben szereplő szavak mintegy 60%-a a szemantikailag jelölt SemCor korpuszból kapott leggyakoribb jelentésben szerepel.
Megjegyzendő, hogy a szavak jelentésre bontására szolgáló különböző rendszerek használata: finom (differenciáltabb) és durvaszemcsés (kevésbé differenciált) nagyon eltérő eredményeket mutatott, így most minden konferencián belül a rendszereket az elsőhöz képest hasonlítják össze. csoport (például ., WordNet), tehát a második (pl. Wordsmyth). Azonban továbbra is nagyobb hangsúlyt fektetnek a finomszemcsékre , mert az ott kapott eredmények sokkal alacsonyabbak.

Ahhoz, hogy megértsük a terület általános állapotát és a legjobb egyértelműsítő rendszerek által elért szintet, elemezni kell és alaposan tanulmányozni kell a legjobb eredményeket és azok jellemzőit:

a WordNetnél kevésbé differenciált értékrendszerrel kapott eredmények szignifikánsan magasabbak voltak: a lexikális mintánál 88,7%, a "minden szó" feladatnál 82-83%. Ez jó hír az egész területre nézve, mert azt mutatja, hogy a szóértelmi reprezentáció problémája szorosan összefügg a 80%-90%-os pontosság problémájával, miközben a szavak jelentés szerinti differenciálása meglehetősen kifejező és értelmes marad. ;
a „lexikális minta” feladatrendszerek eredményei azt mutatják, hogy elérték a felső sávot (az úgynevezett „fennsíkot”), amikor differenciált rendszereket, például WordNet használunk: a kutatók láthatják, hogy a rendszerek nem léphetik túl ezen keresztül ilyen kezdeti feltételekkel;
"finomszemcsés" "minden szó" feladat eredményei rendezve 65% és 70% között WordNettel, míg magasabb pontszámok a szépirodalmi korpuszon 78% és 81% között durva szemcsés szójelentéseket használva;
az MFC (leggyakoribb értelem) alapvonalának legyőzése igazi kihívás a "szöveg minden szava" rendszerek számára, és csak néhány képes volt rá; Ez a tény természetesen nem vonatkozik a "lexikális minta" rendszerekre;
Fontos megjegyezni, hogy néha egyértelmű kifejezések is beletartoznak a „kedvezően” feloldott poliszemantikus egységek számlájába: egyes becslések szerint [43] a megjelölt szavak körülbelül 3-10%-a lehet egyértelmű a WordNetben, és ha kiszámítjuk a a legjobb rendszer egyértelműsítési felbontásának pontossága, nem számítva egyértékű szavakat, a legjobb rendszer egyértelműsítési felbontásának pontossága több százalékkal csökkenhet.

Jegyzetek

↑ Anna A. Zaliznyak. A POLISZEMINÁCIÓ JELENSÉGE ÉS LEÍRÁSÁNAK MÓDJA. Nyelvtudományi kérdések. - M., 2004. - 2. sz. - S. 20-45
↑ W. Weaver. 1949. A fordítás archiválva : 2011. július 24. a Wayback Machine -nél . In Languages Machine Translation of Languages: Fourteen Essays, ed. szerző: Locke, WN és Booth, AD Cambridge, MA: MIT Press.
↑ Y. Bar-Hillel, Nyelv és információ (Reading, Mass.: Addison-Wesley, 1964), 174-179.
↑ Mark Johnson, How the Statistical Revolution Changes (Computational) Linguistics, ( http://www.aclweb.org/anthology/W/W09/W09-0103.pdf Archiválva 2015. április 14-én a Wayback Machine -nél )
↑ 1 2 3 R. Navigli, K. Litkowski, O. Hargraves. 2007. SemEval-2007 07. feladat: Durva szemcsés angol All-Words feladat archiválva 2012. március 18-án a Wayback Machine -nél . Proc. Semeval-2007 Workshop (SEMEVAL), a Számítógépes Nyelvészeti Szövetség 45. éves találkozóján (ACL 2007), Prága, Cseh Köztársaság, pp. 30-35.
↑ 1 2 S. Pradhan, E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 17. feladat: Angol lexikai minta, SRL és minden szó Archivált 2012. március 18-án a Wayback Machine -nél . Proc. Semeval-2007 Workshop (SEMEVAL), a Számítógépes Nyelvészeti Szövetség 45. éves találkozóján (ACL 2007), Prága, Cseh Köztársaság, pp. 87-92.
↑ Lynette Hirschmann, Az értékelés evolúciója (1998) - Számítógépes beszéd és tudás
↑ C. Fellbaum 1997. Egy handtagging feladat elemzése. In Proc. ANLP-97 Workshop a szöveg címkézéséről lexikális szemantikával: Miért, mit és hogyan? Washington D.C., USA.
↑ B. Snyder és M. Palmer. 2004. The English all-words task archiválva 2011. június 29-én a Wayback Machine -nél . In Proc. 3. Nemzetközi Workshop on the Evaluation of Systems for the Semantic Analysis of Text (Senseval-3), Barcelona, Spanyolország, pp. 41-43.
↑ Douglas Lenat. Számítógépek a józan ész ellen . Hozzáférés dátuma: 2008. december 10. Az eredetiből archiválva : 2013. július 27. (határozatlan) (GoogleTachTalks a youtube-on)
↑ P. Edmonds. 2000. Feladat tervezése a SENSEVAL-2 számára Archiválva 2011. szeptember 28. a Wayback Machine -nál . Tech. jegyzet. Brightoni Egyetem, Brighton. Egyesült Királyság
↑ A. Kilgarriff. 1997. Nem hiszek a szó értelmében Archiválva : 2011. július 24., a Wayback Machine -ben . Comput. emberi. 31. (2) o. 91-113.
↑ D. McCarthy, R. Navigli. 2009. The English Lexical Substitution Task Archived 9 July 2009 at the Wayback Machine , Language Resources and Evaluation, 43(2), Springer, pp. 139-159.
↑ SANDERSON, M. 1994. Szóértelmű egyértelműsítés és információkeresés. In Proceedings of the Special Interest Group on Information Retrieval (SIGIR, Dublin, Írország). 142-151.
↑ SCHUTZE, H. ÉS PEDERSEN, J. 1995. Információkeresés szóérzékelés alapján. In Proceedings of SDAIR'95 (Las Vegas, NV). 161-175.
↑ STOKOE, C., OAKES, MJ, AND TAIT, JI 2003. Szóértelmű egyértelműsítés az információkeresésben újra megvizsgálva. In Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (Toronto, Onto., Kanada). 159-166.
↑ YAROWSKY, D. 1994. Döntési listák a lexikális kétértelműség feloldásához: Alkalmazás az akcentus helyreállítására spanyol és francia nyelven. In Proceedings of the Association for Computational Linguistics (Las Cruces, NM) 32. éves közgyűlése. 88-95.
↑ RICHARDSON, SD, DOLAN, WB, AND VANDERWENDE, L. 1998. Mindnet: Szemantikai információk megszerzése és strukturálása szövegből. In Proceedings of the 17th International Conference on Computational Linguistics (COLING, Montreal, PQ, Kanada). 1098-1102.
↑ NAVIGLI, R., VELARDI, P., ÉS GANGEMI, A. 2003. Ontológiatanulás és alkalmazása az automatizált terminológiafordításra. IEEE Intel. Syst. 18:1, 22-31.
↑ NAVIGLI, R. ÉS VELARDI, P. 2004. Domain ontológiák tanulása dokumentumraktárakból és dedikált webhelyekről. Comput. Ling. 30, 2, 151-179.
↑ CIMIANO, P. 2006. Ontológiatanulás és populáció szövegből: algoritmusok, értékelés és alkalmazások. Springer, New York, NY.
↑ Lenat, Douglas; Guha, R.V. (1989), Building Large Knowledge-Based Systems, Addison-Wesley
↑ Y. Wilks, B. Slator, L. Guthrie. 1996. Elektromos szavak: szótárak, számítógépek és jelentések. Cambridge, MA: MIT Press.
↑ Michael Lesk, Automatic sense disambiguation using machine readable dictionaries: hogyan lehet megkülönböztetni a fenyőtobozt a fagylalttoboztól, ACM Special Interest Group for Design of Communication Proceedings of the 5th éves International Conference on Systems documentation, p. 24-26, 1986. ISBN 0-89791-224-1
↑ R. Navigli, P. Velardi. 2005. Strukturális szemantikai összekapcsolások: tudásalapú megközelítés a szóértelmi egyértelműsítéshez Archiválva : 2009. július 9. a Wayback Machine -nél . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27(7), pp. 1063-1074.
↑ E. Agirre, O. Lopez de Lacalle, A. Soroa. 2009. Tudásalapú WSD meghatározott tartományokon: jobban teljesít, mint az általános felügyelt WSD Archiválva : 2011. július 24. a Wayback Machine -nél . In Proc. of IJCAI, pp. 1501-1506.
↑ R. Navigli, M. Lapata. Kísérleti tanulmány a grafikonok összekapcsolhatóságáról a felügyelet nélküli szóértelmi egyértelműsítéshez , archiválva 2010. december 14-én a Wayback Machine -nél . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010, pp. 678-692.
↑ D. Yarowsky. 1995. A felügyelt módszerekkel rivalizáló, felügyelet nélküli szóértelmű egyértelműsítés Archivált : 2010. június 7., a Wayback Machine webhelyen . In Proc. a Számítógépes Nyelvészeti Egyesület 33. évi közgyűléséről, pp. 189-196.
↑ H. Schütze. 1998. Automatic word sense discrimination Archivált : 2012. március 18. a Wayback Machine -nél . Számítógépes Nyelvészet, 24 (1), pp. 97-123.
↑ MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2004. Túlnyomó érzékek megtalálása címkézetlen szövegben. In Proceedings of the Association for Computational Linguistics (Barcelona, Spanyolország) 42. éves találkozója. 280-287.
↑ MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2007. Túlnyomó szóérzékek felügyelet nélküli elsajátítása. Comput. Ling. 33, 4, 553-590.
↑ MOHAMMAD, S. ÉS HIRST, G. 2006. A szóértelmi dominancia meghatározása tezaurusz segítségével. In Proceedings of the 11th Conference on European Chapter of the Association for Computational Linguistics (EACL, Trento, Italy). 121-128.
↑ LAPATA, M. ÉS KELLER, F. 2007. Az érzékszervi rangsorolás információkeresési megközelítése. In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL, Rochester, NY). 348-355.
↑ GLIOZZO, A., MAGNINI, B., ÉS STRAPPARAVA, C. 2004. Unsupervised domain relevance estimation for word sense disambiguation. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP, Barcelona, Spanyolország). 380-387.
↑ BUITELAAR, P., MAGNINI, B., STRAPPARAVA, C., AND VOSSEN, P. 2006. Domain-speciﬁc WSD. In Word Sense Disambiguation: Algorithms and Applications, E. Agirre és P. Edmonds, szerk. Springer, New York, NY, 275-298.
↑ KILGARRIFF, A. ÉS GREFENSTETTE, G. 2003. Bevezetés a különszámba a weben, mint korpuszról. Comput. Ling. 29, 3, 333-347.
↑ E IDE, N. ÉS VE´RONIS, J. 1998. Szóértelmű egyértelműsítés: A technika állása. Comput. Ling. 24:1, 1-40.
↑ LITKOWSKI, KC 2005. Számítógépes lexikonok és szótárak. In Encyclopedia of Language and Linguistics (2. kiadás), KR Brown, szerk. Elsevier Publishers, Oxford, Egyesült Királyság, 753-761.
↑ AGIRRE, E. ÉS STEVENSON, M. 2006. Tudásforrások a WSD-hez. In Word Sense Disambiguation: Algorithms and Applications, E. Agirre és P. Edmonds, szerk. Springer, New York, NY, 217-251.
↑ MAGNINI, B. ÉS CAVAGLIA, G. 2000. Tárgymezőkódok integrálása a WordNetbe. In Proceedings of the 2nd Conference on Language Resources and Evaluation (LREC, Athén, Görögország). 1413-1418.
↑ 1. Adam Kilgarriff és Joseph Rosenzweig, English Senseval: Report and Results, 2000. május-június, Brightoni Egyetem
↑ Rada Mihalcea, Timothy Chklovski, Adam Kilgarriff. A Senseval-3 angol lexikai mintafeladat, 2004. p. 2
↑ Loukachevitch N., Chuiko D. Tezaurusz-alapú Word Sense Disambiguation, 2007

Javasolt olvasmány

Számítógépes nyelvészeti különszám a szóértelmi egyértelműsítésről (1998)
Értékelési gyakorlatok a Word Sense egyértelműsítéséhez Archiválva : 2005. szeptember 2. a Wayback Machine -nél A WSD-rendszerek de-facto szabványos referenciaértékei.
Robert Navigli. Word Sense Disambiguation: A Survey , ACM Computing Surveys, 41(2), 2009, pp. 1-69. A szakterület korszerű állapota.
A Word Sense egyértelműsítése a Scholarpedia-ban meghatározottak szerint
A Word Sense egyértelműsítése: A technika állása (PDF) Átfogó áttekintés: Prof. Nancy Ide és Jean Veronis (1998).
A Word Sense Disambiguation Tutorial , Rada Mihalcea és Ted Pedersen (2005).
Word Sense Disambiguation: Algorithms and Applications , szerkesztette Eneko Agirre és Philip Edmonds (2006), Springer. A teljes területet lefedi vezető kutatók által készített fejezetekkel. A könyv www.wsdbook.org webhelye
Bar-Hillel, Yehoshua. 1964. Nyelv és Információ. New York: Addison-Wesley.
Edmonds, Philip és Adam Kilgarriff. 2002. Bevezetés a szóértelmi egyértelműsítő rendszerek értékeléséről szóló különszámba. Journal of Natural Language Engineering, 8(4):279-291.
Edmonds, Philip. 2005. Lexikai egyértelműsítés. The Elsevier Encyclopedia of Language and Linguistics, 2. kiadás, szerk. írta Keith Brown, 607-23. Oxford: Elsevier.
Ide, Nancy és Jean Veronis. 1998. Szóértelmű egyértelműsítés: A technika állása. Számítógépes Nyelvészet, 24(1):1-40.
Jurafsky, Daniel és James H. Martin. 2000. Beszéd és nyelvi feldolgozás. New Jersey, USA: Prentice Hall.
Litkowski, KC 2005. Számítógépes lexikonok és szótárak. In Encyclopaedia of Language and Linguistics (2. kiadás), KR Brown, szerk. Elsevier Publishers, Oxford, Egyesült Királyság, 753-761.
Manning, Christopher D. és Hinrich Schütze. 1999. A statisztikai természetes nyelvi feldolgozás alapjai. Cambridge, MA: MIT Press. http://nlp.stanford.edu/fsnlp/
Mihalcea, Rada. 2007. Szóértelmű egyértelműsítés. Encyclopedia of Machine Learning. Springer-Verlag.
Resnik, Philip és David Yarowsky. 2000. Megkülönböztető rendszerek és megkülönböztető érzékek: Új értékelési módszerek a szóértelmezés egyértelművé tételére, Natural Language Engineering, 5(2):113-133. http://www.cs.jhu.edu/~yarovsky/pubs/nle00.ps
Yarowsky, David. 2001. Szóértelmű egyértelműsítés. Természetes nyelvi feldolgozás kézikönyve, szerk. Dale és munkatársai, 629-654. New York: Marcel Dekker.
Kwong, O. New Perspectives on Computational and Cognitive Strategies for Word Sense Disambiguation. — Springer, 2012. — 118 p. — ISBN 9781461413202 .

természetes nyelvi feldolgozás
Általános meghatározások	Szövegkorpusz beszédkorpusz Hagyd abba a szavakat zsák szavakat AI teljesség N-gramm Biggram titkosítás trigram
Szövegelemzés	Szöveg szegmentálása Részleges jelölés Felületi elemzés Összetett szövegszerkesztés Kollokációk kibontása eredő Lemmatizálás Elnevezett entitás felismerés Koreferencia felbontás Szöveges hangulatelemzés Fogalom kinyerése elemzése A lexikális poliszémia feloldása terminológia kivonat Információ kinyerése Nyelvi azonosítás Esetmeghatározás
Hivatkozás	Mondatok kibontása Absztrakt generáció Több dokumentumra való hivatkozás Szöveg egyszerűsítés
Gépi fordítás	automatizált Hibrid nyelvközi Szabály alapú Példák alapján Szótár alapú Átalakulás alapján idegi Statisztikai Szinkron
Azonosítás és adatgyűjtés	Beszédfelismerés beszédszintézis Optikai karakter felismerés Szöveggenerálás
Tematikus modell	Pachinko elhelyezés Látens Dirichlet elhelyezés Látens szemantikai elemzés
Peer review	Az esszék automatizált értékelése Concordancer Prediktív szövegbevitel Nyelvtan-ellenőrző Helyesírás-ellenőrző Szintaxis találgatás
Természetes nyelvű felület	virtuális asszisztens Virtuális beszélgetőpartner Kérdés-felelet rendszer Hang interfész Interaktív irodalom