A szóértelmi egyértelműsítés ( WSD ) egy megoldatlan természetes nyelvi feldolgozási probléma , amely abból áll, hogy meg kell választani egy kétértelmű szó vagy kifejezés jelentését (vagy jelentését) attól függően, hogy milyen kontextusban található. Ez a probléma a diszkurzív elemzésben , a találatok relevanciájának keresőmotorok általi optimalizálásakor , az anaforikus hivatkozások feloldásakor, a szöveg nyelvi koherenciájának vizsgálatakor, a következtetések elemzésekor merül fel .
A lexikális poliszémia feloldásának tudományos kutatása régóta az alkalmazott és a számítógépes nyelvészet területén folyik, és nagy múltra tekint vissza. Az évek során a javasolt megoldások száma és hatékonyságuk folyamatosan nőtt, amíg a hatékonyság el nem érte a viszonylag hatékony pontosság egy bizonyos szintjét a szavak és a poliszémia bizonyos típusai esetében . A probléma még nem kapott teljes megoldást, hiszen számos, az emberi beszéd nyelvi sajátosságaihoz közvetlenül kapcsolódó probléma áll a sikeres megoldás útjában.
Számos módszert tártak fel, kezdve a tudásalapú módszerektől, szabályoktól, lexikográfiai forrásoktól, a szövegkorpuszon végzett irányított tanulástól a szavakat jelentés alapján csoportosító , felügyelet nélküli tanulási módszerekig. Ezek közül a mai napig a felügyelt tanulási módszerek bizonyultak a legjobb hatékonyságnak. A módszerek objektív összehasonlítása és értékelése azonban összetett folyamat, amely számos tényezőtől függ. Az általánosított szókincsrendszerek esetében (angol esetében) a hatékonyság rendszeresen meghaladja a 90%-os szintet, néha eléri a 96%-ot is. A differenciáltabb szókincsrendszereknél a hatékonyság 59% és 69% közötti tartományba esik.
Általában egy nyelvi kifejezés vagy beszédmű (szöveg) kétértelműségét (vagy kétértelműségét) több különböző jelentés egyidejű jelenlétének kell érteni [1] . A tudósok több fajta kétértelműséget osztanak: lexikális, szintaktikai és beszéd, de a "WSD" kifejezés magában foglalja a lexikális (szemantikai) kétértelműséget is.
Amiről beszélünk, az a következő példából megérthető a kétértelmű „kulcs” szóval:
valamint 3 kontextus:
Az ember számára nyilvánvaló, hogy az első mondatban a " kulcs " szó az első jelentésben szerepel, a második mondatban - illetve a másodikban, a harmadikban pedig - változatok lehetségesek. Ezt az emberi képességet utánzó algoritmusok fejlesztése néha ijesztő feladat lehet.
A feloldási folyamathoz több dologra van szükség: szókincs-ismereti rendszerekre a szavak többféle jelentésének meghatározásához, és szövegkorpuszra a feloldáshoz ( egyes esetekben más tudásforrásokra is szükség lehet ).
Ezt a problémát először az 1940-es években, a gépi fordítás korai szakaszában fogalmazták meg külön problémaként, így a számítógépes nyelvészet egyik legrégebbi problémája lett. Warren Weaver híres " The 'Translation" memorandumában (1949) [2] a problémát számítógépes számítástechnikai szempontból mutatta be . Az akkori kutatók jól ismerték ennek jelentőségét és összetettségét, különösen Joshua Bar-Hillel (az egyik úttörő) 1960-ban kétségeit fejezte ki azzal kapcsolatban, hogy az univerzális, teljesen automatikus gépi fordítás valaha is megvalósítható lenne a modellezés szükségessége miatt. minden emberi tudás a világról [3] .
A 70-es években a WSD-probléma a mesterséges intelligencia területén kifejlesztett szemantikai értelmezési rendszerek részévé vált , azonban ezek többnyire manuálisan levezetett szabályokból álltak, így teljes mértékben a rendelkezésre álló tudás mennyiségétől függtek, ami akkoriban rendkívül munkaigényes volt. kivonni.
Az 1980-as évekre olyan terjedelmes források váltak elérhetővé, mint az Oxford Advanced Learner's Dictionary of Current English , és a szabályok kézi írását felváltotta az ilyen forrásokból származó tudás automatikus kinyerése , de a módszerek továbbra sem hagyták el az úgynevezett „tudás- alapú módszerek".
A 90-es években azonban a "statisztikai forradalom" teljesen megváltoztatta a számítógépes nyelvészet megközelítéseit és módszereit, és a lexikális poliszémia megoldásának problémája olyan problémává vált, amelyre mindenféle felügyelt tanulási módszer alkalmazható [4] .
A 2000-es évek megmutatták, hogy a felügyelt tanulási módszerek elértek egy bizonyos pontossági szintet, és ezt nem tudják felülmúlni, így a tudósok figyelme az általánosabb szókincs-ismereti rendszerekkel való munka (durvaszemcsés érzékszervek), a tantárgyi területekhez való alkalmazkodás (domain adaptáció) felé terelődött. , részlegesen felügyelt tanulás (félig felügyelt rendszerek) és nem felügyelt tanulás (nem felügyelt korpusz alapú rendszerek), vegyes módszerek, valamint tudásbázisok feldolgozása és eredmények gráfok formájában való megjelenítése (tudásalapú rendszerek gráf alapú visszaadása módszerek) . A mai napig azonban a felügyelt tanulási rendszereket tartják a leghatékonyabbnak.
De vajon miért okoz egy ilyen feladat annyi nehézséget, és megoldásainak eredménye viszonylag alacsony hatékonyságot mutat? A lexikális poliszémia megoldásának problémáján való munka során számos nehézséget fedeztek fel, leggyakrabban az emberi pszichológia és a beszéd tulajdonságai miatt.
Először is, minden szótár különböző, és nem egyenértékű egymással. Leggyakrabban egy szó jelentésének egymástól való megkülönböztetésének feladata nem okoz nehézséget, azonban bizonyos esetekben egy szó különböző jelentése szemantikailag nagyon közel állhat egymáshoz (például ha mindegyik metafora vagy metonímia egymásra), és ilyen helyzetekben a jelentés szerinti felosztás a különböző szótárakban és tezauruszokban jelentősen eltérhet. Ennek a nehézségnek a megoldása ugyanazon adatforrás univerzális felhasználása lehet: egyetlen univerzális szótár. Globálisan az általánosabb szemantikai felosztást alkalmazó vizsgálatok eredményei hatékonyabbak [5] [6] , ezért egyes kutatók egyszerűen figyelmen kívül hagyják munkájuk során a részletesebb szemantikai felosztással rendelkező szótárak és tezauruszok feldolgozását.
Másodszor, egyes nyelveken a szórészek jelölése nagyon szorosan összefügghet az egyértelműsítés problémájával, aminek eredményeképpen ez a két probléma zavarhatja egymást. A tudósok nem jutottak konszenzusra abban, hogy érdemes-e két autonóm komponensre osztani őket, de előnyük azoknak van, akik szerint ez szükséges [7] .
A harmadik nehézség az emberi tényezőben rejlik . Az egyértelműsítő rendszereket mindig is úgy értékelték, hogy az eredményeket az emberi munkával hasonlították össze. És az emberek számára ez a feladat nem olyan egyszerű, mint a POS-címkézés – többszörösen nehezebb jelentéseket megjelölni több javasolt között [8] . Ha valaki észben tartja vagy könnyen kitalálja a beszéd azon részeit, amelyek egy szónak lehetnek, akkor nem lehetséges a szavak összes lehetséges jelentésének emlékezése. Ráadásul, mint kiderült, a különböző emberek eredményei nem mindig esnek egybe [9] , és gyakran nem jutnak közös döntésre arról, hogy egy adott szót egy adott kontextusban milyen jelentésben használnak. Ennek ellenére a tudósok egy személy eredményét tekintik szabványnak, a számítógép eredményeivel való összehasonlítás mércéjének. Megjegyzendő, hogy az ember sokkal jobban megbirkózik az általánosított szótárrendszerekkel, mint a részletesekkel – ezért a kutatók figyelme ezekre irányult [5] [6] .
Egyes kutatók azzal érvelnek [10] , hogy a szövegek feldolgozásakor a józan ész is fontos , amit a számítógép aligha képes megtanítani. A következő két mondat példa:
Az első mondat arra utal, hogy Jill és Mary egymás nővérei; a másodikban, hogy Jill és Mary is anyák, és nem tény, hogy rokonok. Ezért a jelentések pontosabb elemzéséhez ilyen ismeretek szükségesek a világról és a társadalomról. Sőt, ez az ismeret néha a szintaktikai kétértelműségek feloldásához, az anafora és katafora elemzéséhez is szükséges .
Ötödször, az állandó feladat-független (feladattól független) módszerkészletnek nincs értelme, mivel például az egér szó kétértelműsége (állat és számítógépes eszköz) nem befolyásolja az angol-orosz és az orosz- Egyáltalán az angol fordítás (mivel mindkét nyelven mindkét jelentés ugyanabban a szóban testesül meg), de erősen befolyásolja az információkeresést. Ezzel ellentétes példa is hozható: amikor a 'river' szót angolról franciára fordítjuk, ismernünk kell a szó jelentését (a 'fleuve' egy folyó, amely a tengerbe ömlik, a 'rivière' pedig egy folyó, amely egy másik folyóba ömlik). Ennek eredményeként a különböző problémák különböző algoritmusokat igényelnek – így ha bármilyen jó lexikális egyértelműsítő algoritmust kifejlesztenek, nem lehet teljesen biztos abban, hogy az minden feladathoz illeszkedik.
Hatodszor, a tudósok felvetik egy szó jelentésének diszkrét ábrázolásának lehetőségét. Még maga a „ szó jelentése ” kifejezés is meglehetősen általános és ellentmondásos. A legtöbben egyetértenek abban, amikor általánosított tudásrendszerekkel dolgoznak, magas szintű szóhomográfia, de a szint csökkenésével és a szótárak részletesebbé válásával nagyszámú eltérés mutatkozik. Például a Senseval-2 konferencián, amely részletes rendszereket használt, az emberi annotátorok csak az esetek 85%-ában jutottak megegyezésre [11] .
A szavak jelentése nagyon rugalmas, meglehetősen változékony és rendkívül kontextuális, sőt olykor kontextuális függő is, ezért nem mindig oszlanak szigorúan több részjelentésre [12] . A lexikográfusok gyakran találkoznak túl tág és szemantikailag átfedő részjelentésekkel a szövegekben, és a szavak standard jelentéseit gyakran a legfurcsább és legváratlanabb módokon kell javítani, bővíteni és szűkíteni. Például ebben a helyzetben a „gyerekek az anyjukhoz rohannak” a „gyerekek” szót egyszerre két értelemben használják: ők a szüleik gyermekei és csak gyerekek. A lexikográfus feladata hatalmas mennyiségű szöveg és anyag elemzése és egy szó teljes lehetséges jelentéstartományának leírása. Azt azonban máig nem tudni, hogy ez a megközelítés alkalmazható-e a számítástechnika és a számítógépes nyelvészet területén, mert a lexikográfusok döntései a leírt jelentések teljessége, nem pedig a szövegfeldolgozás során megszerzett információk alkalmazhatósága mellett születnek.
A közelmúltban egy lexikai helyettesítésnek nevezett problémát javasoltak megoldásként a szavak jelentései megkülönböztetésének problémájára [13] . Jelentése az, hogy a szót helyettesítse egy másikkal, amely ebben az összefüggésben megtartja a régi jelentését.
Köztudott, hogy a folyamat eredménye nem csak a módszerek innovatívságától és hatékonyságától függ, hanem a feladat különböző beállításaitól/tulajdonságaitól, a megoldási folyamat követelményeitől (például a differenciálástól) is. a szó jelentéseiről, az eredmények értékelésének jellemzőiről, az egyértelműség lefedettségéről stb.). Az is fontos, hogy nagyszámú NLP-mező profitálhasson a WSD eredményeiből.
Információkereső rendszerekben - ha a lekérdezés során azokat a dokumentumokat figyelmen kívül hagyjuk, amelyekben a lekérdezés bármely szava a felhasználót aktuálisan érdeklőtől eltérő jelentésben használatos, akkor a lekérdezés eredményeinek relevanciája csökkenthető. megnövekedett.
A legelső munkák, amelyek a WSD alkalmazásának lehetőségét kutatták az információkeresés területén, nem mutattak a keresési pontosság növekedését. Sanderson azonban 1994-ben úgy találta [14] , hogy a javulás csak akkor észlelhető, ha az egyértelműsítési hatékonyság meghaladja a 90%-ot, aminek általános érvényessége vitatott. 1995-ben pedig Schutze és Pedersen kimutatta [15] , ami azt mutatta, hogy a fenti hatékonyság mellett 4%-os keresési javulás érhető el. Stokey azonban kimutatta, hogy a WSD használata, bár csekély mértékben, átlagosan 1,73%-os eredményt adhat még a WSD alacsonyabb hatékonysága mellett is (62,1%) [16] .
A gépi fordítási rendszerekben a szó jelentésének felismerésére szolgáló megbízható mechanizmusok hiánya jelentősen csökkenti a fordítás minőségét, mivel a szót nem mindig fordítják le egyértelműen egy másik nyelvre. A helyes fordítás automatikus meghatározása pedig a kontextustól függően nagyon nehéz feladat. A lexikális egyértelműsítést már régóta nagy kihívásnak tekintik a majdnem tökéletes gépi fordítás eléréséhez – ezek a gondolatok azon az elgondoláson alapulnak, hogy a WSD nem tehet mást, mint javítja a fordítási rendszereket a megfelelő fordítási értékű jelöltek kiválasztásában. Ezt a területet nem tárták fel annyira, amennyire szükség lenne, a hagyományos, kevésbé hatékony előre definiált szókincs-adatbázisok ( eng. sense inventory ) miatt, amelyek már régóta hagyományossá váltak .
Konkrét területeken a rájuk jellemző fogalmak feloldásának problémái a legérdekesebbek: például az orvostudományban hasznos lehet a gyógyszerek elnevezésének szövegben történő meghatározása, míg a bioinformatikában a megnevezési kétértelműségeket kell feloldani. gének és fehérjék – ezt a folyamatot információ - kivonásnak nevezték. Olyan feladatokat foglal magában, mint a named-entity-felismerés ( eng. named-entity discovery ) (NER), a mozaikszó kiterjesztése (például Orosz Föderáció - Orosz Föderáció) és mások – mindez feloldási feladat-poliszémiának tekinthető, bár ez új és még nem igazán feltárt irány.
A tartalomelemzés és a szöveg főbb részeinek azonosítása ötletek, témák és hasonlók tekintetében nagy hasznot húzhat a WSD-ből. Példáula szövegek (blogok) osztályozása , címkék hozzárendelése cikkekhez vagy blogbejegyzésekhez , vagy releváns (talán szemantikai) kapcsolatok meghatározása közöttük, vagy a közösségi hálózatok (szemantikai) elemzése , amely egyre inkább elterjedt. az utóbbi időben aktív. Ez a terület a legújabb, ismeretlen a fentiek közül.
Mint mindig, a természetes nyelvi feldolgozásban két megközelítés létezik: mély és sekély.
Az első kategóriába tartozó megközelítések az ún. világismerethez (világismerethez vagy józan ész tudásbázishoz) való hozzáférést foglalják magukban . Például annak ismerete, hogy "bármilyen élettelen, anyagi dolog lehet zöld a szín értelmében, de nem lehet zöld a tapasztalatlanság értelmében", lehetővé teszi annak meghatározását, hogy egy adott kontextusban milyen értelemben használjuk a "zöld" szót. Az ilyen megközelítések a gyakorlatban nem olyan hatékonyak, mivel a világról szóló tudás ilyen osztálya, bár számítógépbarát formátumban tárolható, életünk nagyon kis [22] területeit fedi le, és nem alkalmazható teljesen mindenkire. tanulmányok. Azt kell mondanom, hogy ez a megközelítés sem mindig működik, például a „A rendező olyan zöld volt” mondatban a tudás alapján lehetetlen meghatározni, ebben az esetben a rendező azért zöld, mert zöld lett, vagy mert tapasztalatlan - ez gyakran csak a szövegkörnyezetből, hanem a teljes szöveg logikájából és jelentéséből határozható meg.
A számítógépes nyelvészetben is régi hagyománya van e módszerek programismereti alkalmazásának, és gyakran meglehetősen nehéz megállapítani, hogy ez a tudás nyelvi vagy a világról szóló tudás ( English Commonsense tudásbázis ). Az első kísérletet Margaret Masterman és munkatársai a Cambridge-i Nyelvkutató Egységnél, Angliában tették meg az 1950-es években: Roger tezaurusza-adatait és számozott címszavait használták . ) a témák indikátoraként, és a szövegben előforduló ismétlődéseket elemezték a beállított metszésponti algoritmus segítségével. Ez a kísérlet nem volt túl sikeres [23] , de erősen befolyásolta a későbbi munkákat, különösen Yarovksky munkáját az 1990-es években a tezaurusz-módszer felügyelt tanulógép segítségével történő optimalizálásával kapcsolatban.
A felszíni megközelítések nem próbálják megérteni a szöveget, csak a közeli szavak elemzésére hagyatkoznak, például: ha a „tenger” vagy a „halászat” szó szerepel a „basszus” szó mellett, akkor nagy valószínűséggel ebben az esetben biológiai értelemben vett jelentés. Ezek a szabályok automatikusan kinyerhetők egy címkézett szójelentésű szövegkorpusz segítségével. Ez a megközelítés, bár teljesítményben nem fedi az előzőt, a gyakorlatban könnyen felülmúlja azt. Azonban mindig vannak buktatók, például a "A kutyák ugatnak a fán" mondatban, amely a "fa" és a "kutyák" szavakat tartalmazza a "ugat" szó mellett.
Négy fő módszer létezik az egyértelműsítésre:
A Lesk-módszer [24] szókincs-ismeretek felhasználásán alapuló produktív módszer. Azon a hipotézisen alapul, hogy a szövegben egymás mellett található szavak egymáshoz kapcsolódnak, és ez a kapcsolat megfigyelhető a szavak és jelentésük meghatározásaiban. Két (vagy több) szó közel állhat egymáshoz, ha mindkettőnek az az értékpárja van, amely a szótárban a legnagyobb átfedést okozó szavakkal rendelkezik. Például a "fenyőtoboz" kifejezés mindkét jelentésben olyan szavakat tartalmaz, mint az "örökzöld" és a "fa". Ezenkívül az előző módszer alternatívájaként használhatja a szavak közötti globális kapcsolatot az egyes értékpárok szemantikai közelségének kiszámításával a WordNetben .
A fenti módszerek alternatívájaként használhatja a szavak jelentéseinek általános szemantikai hasonlóságát ( angol szemantikai hasonlóságot ), a WordNet 'e. alapján. A terjedő aktiváláson alapuló gráf alapú módszereket is alkalmazták némi sikerrel: némelyikük a felügyelt tanulási módszerekkel összemérhető [25] pontosságot mutatott, és bizonyos területeken néha jobb is, mint [5] [26] . Ezenkívül nemrégiben kimutatták [27] , hogy a gráfösszeköttetés mértékén (például a teljes gráf mértékén/valenciáján) alapuló legegyszerűbb módszerek is magas eredményeket mutathatnak gazdag lexikai bázis jelenlétében.
Az úgynevezett irányítási modellek („szelekciós preferenciák” vagy „szelekciós korlátozások”) alkalmazása szintén igen hasznos lehet. Például annak tudatában, hogy a "basszus" szó a hal jelentésében gyakran előfordul a "főzni" vagy "enni" szóval, feloldhatjuk a kétértelműséget egy olyan mondatban, mint például: "Bőgőt főzök". A világról ilyen tudás létrehozása azonban rendkívül munkaigényes és szinte lehetetlen.
Minden felügyelt tanulási módszer azon a feltételezésen alapul, hogy az általunk vizsgált szó kontextusa elegendő információt nyújt ahhoz, hogy kiszámítsa, milyen jelentésben alkalmazzák ebben az esetben (és ezért a szótárakból és tezauruszokból szerzett ismereteket feleslegesnek tekintjük). Minden felügyelt tanulási modellt alkalmaztak a WSD-problémára , beleértve a kapcsolódó technikákat, például a változók kiválasztását , a paraméterek optimalizálását és az együttes tanulást . A támogató vektorgépek és a példányalapú tanulás a ma elérhető leghatékonyabb módszerek egyikének bizonyultak, talán azért, mert képesek kezelni a szavak és kontextusok többparaméteres tulajdonságait. A fenti módszerek szűk keresztmetszete azonban az a követelmény, hogy hatalmas mennyiségű, manuálisan megjelölt szöveggel kell rendelkezni a képzéshez, ami, mint már említettük, munkaigényes és költséges. Ismét felmerül az ilyen felcímkézett hajótestek birtoklásának problémája.
A bootstrapping módszer [28] egy általános módszer az osztályozó iteratív tanulására és értékelésére annak hatékonyságának növelése érdekében. Az algoritmus kis mennyiségű kezdő adattal kezdődik minden szóhoz: vagy néhány kézzel beírt példa kontextusra, vagy egy pár összetéveszthetetlen szabály egy szó jelentésének meghatározására (például a "play" szó a kontextusban a „basszus” szó szinte mindig azt jelenti, hogy a szó zenei értelemben értendő). Ezeket az adatokat az osztályozó betanításához használják fel a fenti felügyelt tanulási módszerek bármelyikével. Ezután az osztályozót a rendszer a már címkézetlen szövegek halmazára alkalmazza egy nagy betanítási minta kinyeréséhez, amely csak "megbízható" kontextusokat tartalmaz. A folyamat iteratív módon megismétlődik: minden következő osztályozó a megfelelő nagyobb kontextuskészletre van betanítva - és addig ismétlődik, amíg a teljes korpusz le nem terjed, vagy amíg el nem éri az iterációk maximális számát.
Egy másik módszer nagy mennyiségű jelöletlen szöveget használ a szavak együttes előfordulásáról való információszerzésre, ami nagyban kiegészítheti adatainkat. Ezenkívül egy jól igazított kétnyelvű korpusz használható a többnyelvű kétértelműség feloldására, mivel az egyik nyelv poliszemantikus szava mindig lefordításra kerül egy másik nyelvre, attól függően, hogy milyen jelentésben használják. Ez a módszer bizonyos értelemben a részleges tanulás módszerének is tekinthető.
A fenti technikák mindegyike lehetővé teszi a felügyelt tanulási módszerek más területekhez való adaptálását.
Az ilyen típusú módszerek az egyik legnehezebb WSD-feladat. Ennek a módszernek a fő feltételezése az az állítás, hogy "hasonló jelentések hasonló kontextusban fordulnak elő", és így a szövegből klaszterezéssel, a kontextusok bizonyos mértékével kinyerhetők [29] . Ezután új kontextusokat lehet hozzárendelni az egyik legközelebbi fürthöz. A módszer teljesítménye minden bizonnyal alacsonyabb, mint más módszerek, azonban az összehasonlítás némileg problematikus, mivel a kapott klasztereket a szótárban elérhető értékekre kell vetíteni. Ha nincs szükség vetítésre, akkor becslések készíthetők a klaszterezésre (beleértve az entrópiát és a tisztaságot is). A tudósok nagy reményeket fűznek ahhoz , hogy a felügyelet nélküli tanulási módszerek segíthetnek áthidalni az ismeretszerzés hiányosságait , mivel nem igényelnek túlságosan fáradságos feladatokat a teljes korpusz szintaktikai és szemantikai jelölésével kapcsolatban.
Vannak más módszerek is, amelyek a fentiektől teljesen eltérő elveken alapulnak:
A tudásszerzés szűk keresztmetszete alegnagyobb akadálya a kétértelműség probléma megoldásának . A nem felügyelt tanulási módszerek olyan tudásra támaszkodnak, amely alig van jelen az elektronikus szótárakban és más nyelvi elektronikus tudásrendszerekben. A felügyelt tanulási módszerek ezzel szemben egy manuálisan annotált korpusz meglétére támaszkodnak, amelynek megléte technikailag csak egy kis szókészletre valósítható meg tesztelési céllal, ahogyan azt a Senseval esetében is tették.
Ezért az egyik legbiztatóbb tendencia az Internet mint korpusz használata a lexikális információk automatikus megszerzésére [36] . A WSD-t hagyományosan úgy értelmezték, mint az eredmények javítását olyan területeken, mint az információkeresés (IR). Ebben az esetben azonban a fordítottja is igaz: a keresőmotorok egyszerű és elég gyors képességekkel rendelkeznek ahhoz, hogy sikeresen bányászják az internetet WSD-ben való használatra. Ezért a tudás megszerzésének problémája bizonyos módszerek megjelenését váltotta ki a megszerzésére:
A tudás az egyértelműség feloldásának egyik kulcsa: biztosítja azokat az adatokat, amelyekre maga a feloldási folyamat támaszkodik. Ezek az adatok lehetnek szövegkorpusok és szótárak, tesurusok, szószedetek, ontológiák is: [37] [38] [39]
A módszerek tesztelése és összehasonlítása nem triviális feladat a különböző tesztkészletek, az érzékelési készletek és a felhasznált adatforrások eltérései miatt. Mielőtt speciális eseményeket hoztak létre a rendszerek összehasonlítására, manuálisan hasonlították össze őket, gyakran kis adathalmazok alapján. Valójában annak érdekében, hogy teszteljék algoritmusukat, a fejlesztőknek időt kell fordítaniuk arra, hogy manuálisan megjelöljék az összes szóhasználatot. És még ugyanazon szövegeken sem lehet ugyanazokat a módszereket összehasonlítani, ha különböző szóértelmezési rendszereket alkalmaznak.
A WSD-rendszereket összehasonlító nemzetközi konferenciákat szerveztek a módszerek „kombinálására” és összehasonlítására. A Senseval (jelenleg Semeval néven ) egy nemzetközi konferencia, amely a lexikális egyértelműsítési rendszereket hasonlítja össze, 1998 óta háromévente tartanak: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), és ezek logikailag a SemEval utódja. , amelyet teljes egészében a WSD-feladatnak szenteltek, és egyszer, 2007-ben került megrendezésre. Feladatai közé tartozik szemináriumok és workshopok szervezése, korpuszok manuális előkészítése és jelölése rendszerteszthez, valamint különféle típusú algoritmusok összehasonlítása ("minden szó" és "lexikális minta" WSD, annotált és annotálatlan palgoritmusok), valamint olyan részfeladatok, mint a szemantikai szerepcímkézés , a gloss WSD , a lexikai helyettesítés stb. A fenti tevékenységek részeként a WSD-rendszerek összehasonlítása is megtörtént nem csak az angol nyelven. Az eseményeken azonban a szláv csoport egyetlen nyelve sem volt jelen.
A szó jelentésrendszere . Az első konferenciákon szójelentésrendszerekként (szótárak, lexikai adatbázisok), vagy korábban kevéssé ismert, hozzáférhetetlen (például a HECTOR projekt), vagy egy valódi komplett rendszer kicsi, kicsi, hiányos változatai, amelyekre a versenyben szükség volt. használt. Általában mindkettő nem volt kellően részletes és differenciált (angol durvaszemcsés), azonban azért választották őket, hogy elkerüljék a legnépszerűbb és legrészletesebb (angol finomszemcsés) példák használatát (például WordNet ), mivel ez „tisztátalanítaná” a kísérletet, mivel ezek a tudásbázisok már többször „világítottak” különböző tanulmányokban és értékelésekben. Észrevettük, hogy a részletesebbnél teljesen eltérő eredmények születtek, ezért úgy döntöttünk, hogy mindkét érzékletáron teszteljük az algoritmusokat.
Ellenőrizendő szavak készlete . Ezenkívül az egyértelműsítési módszerek összehasonlítása két típusra oszlik az ellenőrizendő szavak száma szerint: egy bizonyos szókészlet (leggyakrabban több tucat) lexikális poliszémia felbontása és a szöveg összes szava lexikális poliszémia felbontása. Különbségük az adatelemzés és -feldolgozás mennyiségében rejlik: a „minden szó” („minden szó-szöveg”) feladat magában foglalja a szövegben szereplő összes szó feldolgozását a kétértelműség érdekében (a korpuszban lévő összes szót meg kell oldani ), a „lexikai minta” („korlátozott halmaz”) feladat az, hogy csak előre meghatározott és a korpuszunkban található célszavakat engedjük meg. Az első típus állítólag reálisabb becslés, de sokkal munkaigényesebb az eredmények ellenőrzése szempontjából. A második tesztelésének nehézségei miatt az első konferenciákon csak teszteket végeztek tesztkészlet, de később mindkettő bekerült a tesztelésbe.
A „korlátozott szókészlet” feladatnál a szervezőknek pontosan azokat a kulcsszavakat kellett kiválasztaniuk, amelyeken a rendszereket tesztelni akarták. A Senseval előtt lezajlott tevékenységek kritikája az volt, hogy ezeket a mintákat a készletből a kísérletezők kénye-kedve szerint választották ki. A Senseval'e-nál ezt úgy próbálták elkerülni, hogy tetszőleges szavakat választottak, a beszédrészek, gyakoriság és a kétértelműség mértéke szerint csoportokra osztva. Szintén sok vita alakult ki azzal kapcsolatban, hogy a WSD programba bekerült-e a szórész meghatározásának problémája, ezért a szervezők úgy döntöttek, hogy a szómintába beépítenek mind a jól megjelölt, mind pedig bizonyos számú határozatlan szórészeket.
hadtest . Tisztázni kell, hogy mi a megjelölt szöveg és mi a jelöletlen szöveg. Az allokálatlan korpusz lényegében közönséges szövegek tömege, amelyek tartalmazzák a „feloldandó” szavak szükséges számú említését. A Marked up ugyanaz a szöveggyűjtemény, de azzal a különbséggel, hogy az összes említett szó tartalmaz információkat (például címkeként vagy egyéb metainformációként) az ezekben a kontextusokban használt szavak jelentéséről.
Mind a jelölt szövegek (felügyelt tanulási rendszerek), mind a jelöletlen szövegek (felügyelt tanulási rendszerek) képzési anyagként szolgálhatnak a lexikális poliszémia feloldására szolgáló rendszereink számára. Ez a folyamat a következőképpen zajlik: több nyelvész-lexikográfus végigjárja a teljes szöveget, és a jelentésszótárnak megfelelően metainformációkat rendel hozzá az ezekben a szövegösszefüggésekben használt szavak jelentésére vonatkozó összes szóhoz egy adott szómintából. poliszémia. Ezután minden szónál egyfajta határozatképesség születik a lexikográfusok döntéseiből, és döntés születik arról, hogy itt milyen jelentésben használják, majd a kapott címkéket hozzáadják a szöveg végső változatához; más szóval, az általunk választott szavak minden használata kiegészül a szükséges metainformációkkal.
Ezután a testet három részre osztják. Az első, az úgynevezett szárazon futó disztribúció (angol. "előzetes futás") lehetővé teszi a csapatok számára, hogy programjaikat a bemeneti információ típusához és szerkezetéhez igazítsák; tartalmazza a minimálisan szükséges információkat.
A második rész neve képzési terjesztés, amely szótári bejegyzéseket és egy korpuszt tartalmaz a célszavak jelentésére vonatkozó metainformációkkal), amely lehetővé teszi a versengő programok képzését a szavak megfelelő jelentésének helyes kiválasztására; azt minden csapat azonnal megkapja az előfutam után. A szavakhoz szükséges kontextusok száma nagyon változó lehet (néhánytól több mint 1000-ig), és a rendelkezésre álló kontextusok számától függ. Aztán jön a képzési szakasz.
Az utolsó rész, az úgynevezett értékelési eloszlás, a célszavak jelentésére vonatkozó metainformációk nélkül, a képzési programok befejezése után elérhető, lehetővé teszi az algoritmusok pontosságának kiszámítását. Minden kontextushoz legalább három személy manuálisan megjegyzést fűzött, de ez a metainformáció nem került bele a terjesztett adatokba, mivel ez az ellenőrzés alatt álló. A mintán áthaladó összes programnak ki kellett számítania minden kontextusban a használt szó legvalószínűbb jelentését (vagy az értékek listáját a megfelelő valószínűségekkel); az adatok elküldése után a szervezőknek automatikusan megkapják az eredményeket a sajátjukkal összehasonlítva (hiszen az értékelési minta, valamint a képzési minta markáns szóhasználatot tartalmaz).
Csoportok és alapvonalak . Megjegyzendő, hogy minden algoritmus eltérően működik és más információforrást használ, ezért mindegyiket a szövegfeldolgozási módszer szerint csoportokra osztották: felügyelt tanulási módszerek és nem felügyelt tanulási módszerek. A már ismert algoritmusokkal (az úgynevezett kiindulási pontokkal - alapvonalakkal ) való összehasonlítás céljából ezek eredményeit is közzétették, például a Lesk algoritmus összes lehetséges változatát .
Továbbá, mivel a WSD feladathoz értékszótárra és korpuszra van szükség , a szervezőknek a meglévők közül kellett néhányat kiválasztaniuk a projekthez. A WordNet és a SemCor a legnépszerűbb példa a fenti szükséges komponensekre, használatuk azonban tisztátalanná tenné a kísérletet, hiszen ezek a tudásbázisok már többször „kiemelték” a különböző tanulmányokban, értékelésekben, ezért hiányos, korábban nem elérhető verziók, ill. a szervezők által készített saját készítésűeket általában mindkét dolog tesztelésére választják ki (például a Senseval-1-en mindkettőt a HECTOR projekt biztosította [41] ).
Az algoritmusok pontossága . Szinte bármilyen objektum osztályozási algoritmusának kiértékelésekor a két legáltalánosabb értékelési mérőszámot alkalmazzuk – a pontosságot és a visszahívást ( eng. Precision and Recovery ):
Ha azonban a rendszer minden szót megjegyzésekkel lát el, vagy az eredményt az összes osztályra egyszerre számítja ki, a pontosság és a visszahívás ugyanazt az értéket jelenti – ezt a számítások pontosságának, a számítások pontosságának nevezik ( eng. Accuracy ). Ezt a modellt kibővítették arra az esetre, amikor az algoritmusok értéklistát állítanak elő a megfelelő valószínűségekkel.
A Senseval műhelyek a legjobb példa arra, hogy a WSD-rendszerekből és a terület jövőbeli kutatási irányaiból megismerjük a legjobb eredményeket. A későbbi konferenciák elemzésével és összefoglalásával bizonyos következtetések vonhatók le:
Ahhoz, hogy megértsük a terület általános állapotát és a legjobb egyértelműsítő rendszerek által elért szintet, elemezni kell és alaposan tanulmányozni kell a legjobb eredményeket és azok jellemzőit:
természetes nyelvi feldolgozás | |
---|---|
Általános meghatározások | |
Szövegelemzés |
|
Hivatkozás |
|
Gépi fordítás |
|
Azonosítás és adatgyűjtés | |
Tematikus modell | |
Peer review |
|
Természetes nyelvű felület |