A disztribúciós szemantika a nyelvészetnek egy olyan területe , amely a nyelvi egységek közötti szemantikai hasonlóság mértékének kiszámításával foglalkozik a nyelvi adatok nagy tömbjeiben ( szövegkorpuszokban ) való eloszlásuk (eloszlásuk) alapján.
Minden szóhoz saját kontextusvektor van hozzárendelve . A vektorok halmaza verbális vektorteret alkot .
A természetes nyelvi szavakkal kifejezett fogalmak közötti szemantikai távolságot általában a szótérvektorok közötti koszinusz távolságként számítják ki.
„ A disztributív elemzés olyan nyelvkutatási módszer, amely a szövegben szereplő egyes egységek környezetének (eloszlásának, eloszlásának) vizsgálatán alapul, és nem használ fel ezen egységek teljes lexikai vagy grammatikai jelentésére vonatkozó információkat” [1] .
A módszer keretében a vizsgált nyelv szövegeire olyan univerzális eljárások rendezett halmazát alkalmazzák, amely lehetővé teszi a nyelv fő egységeinek (fonémák, morfémák, szavak, kifejezések) elkülönítését, osztályozását, ill. kompatibilitási kapcsolatokat hozzon létre közöttük.
A besorolás a helyettesítés elvén alapul: a nyelvi egységek akkor tartoznak egy osztályba, ha azonos kontextusban jelenhetnek meg.
A disztributív elemzést L. Bloomfield javasolta az 1920-as években. XX. században, és főleg a fonológiában és a morfológiában használták.
3. Harris és a leíró nyelvészet más képviselői az 1930-as és 1950-es években dolgozták ki munkáikban ezt a módszert. XX század.
Hasonló gondolatokat fogalmaztak meg a strukturális nyelvészet megalapítói, F. de Saussure és L. Wittgenstein.
A kontextusvektorok ötletét Charles Osgood pszicholingvista javasolta a szójelentések ábrázolásáról szóló munkája részeként [2] .
A szövegkörnyezet, amelyben a szavak előfordultak, többbites vektorok méréseiként működtek.
Ilyen kontextusként Osgood munkái antonim jelzőpárokat használtak (például gyors-lassú ), amelyeket a felmérés résztvevői egy hétfokú skálán értékeltek.
Példa egy kontextuális jellemzőtérre, amely leírja az egér és a patkány szavak jelentését Osgood művéből:
A kontextusvektor kifejezést S. Gallant vezette be a szavak jelentésének leírására és a lexikális többértelműség feloldására [3] .
Gallant munkája számos, a kutató által megadott attribútumot használt fel, mint például egy személy , egy férfi , egy autó stb.
Példa egy kontextuális jellemzőtérre, amely leírja a csillagász szó jelentését Gallant munkájából:
Az elmúlt két évtizedben a disztributív elemzés módszerét széles körben alkalmazták a szemantika tanulmányozásában.
Kifejlesztettek egy disztributív-szemantikai technikát és ennek megfelelő szoftvert, amely lehetővé teszi a vizsgált nyelvi egységek előfordulási kontextusainak automatikus összehasonlítását és a köztük lévő szemantikai távolságok kiszámítását [4] .
A disztributív szemantika a disztributív hipotézisen alapul : a hasonló kontextusban előforduló nyelvi egységek hasonló jelentéssel bírnak [5] .
Pszichológiai kísérletek megerősítették ennek a hipotézisnek az igazságát. Például az egyik munkában [6] a kísérlet résztvevőit arra kérték, hogy fejtsék ki véleményüket a nekik bemutatott szópárok szinonímiájáról. A felmérés adatait ezután összehasonlították azzal a kontextussal, amelyben a vizsgált szavak előfordultak. A kísérlet pozitív összefüggést mutatott ki a szavak szemantikai közelsége és a kontextusok hasonlósága között, amelyben előfordulnak.
A lineáris algebrából származó vektorterek a modell ábrázolására szolgálnak . A nyelvi egységek eloszlására vonatkozó információkat több számjegyű vektorok formájában mutatjuk be, amelyek verbális vektorteret alkotnak. A vektorok nyelvi egységeknek (szavaknak vagy kifejezéseknek), a dimenziók pedig a kontextusoknak felelnek meg. A vektorok koordinátái számok, amelyek azt mutatják, hogy egy adott szó vagy kifejezés hányszor fordul elő egy adott kontextusban.
Példa a tea és kávé szavak eloszlási jellemzőit leíró szóvektortérre , amelyben a szövegkörnyezet a szomszédos szó:
A kontextusablak méretét a tanulmány [7] célkitűzései határozzák meg :
A nyelvi egységek közötti szemantikai közelséget a vektorok közötti távolságként számítjuk ki. A disztributív szemantika kutatásában leggyakrabban a koszinusz mértéket használják , amelyet a következő képlettel számítanak ki:
ahol és két vektor, amelyek közötti távolság kiszámításra kerül.
Egy ilyen elemzés után lehetővé válik a vizsgált szóhoz jelentésükben legközelebb álló szavak azonosítása.
Példa a macska szóhoz legközelebb álló szavakra (a lista az orosz nyelvű webkorpusz [8] adatai alapján készült, a korpuszt a Sketch Engine rendszer dolgozta fel [9] ):
Grafikus formában a szavak egy síkon pontként ábrázolhatók, míg a jelentésükben közel álló szavaknak megfelelő pontok egymáshoz közel helyezkednek el. Példa egy szótérre, amely a szuperszámítógépek témakörét írja le , Heinrich Schutze [10] munkájából :
A disztributív szemantika számos különböző modellje létezik, amelyek a következő módokon különböznek egymástól:
A következő disztributív-szemantikai modellek a legismertebbek:
A disztributív-szemantikai modellek valós alkalmazásokban való alkalmazásakor felmerül a probléma, hogy a vektorok dimenziója túl nagy, ami egy szövegkorpuszban bemutatott hatalmas számú kontextusnak felel meg. Speciális módszerek alkalmazására van szükség, amelyek csökkenthetik a vektortér dimenzióját, ritkulását, és egyúttal a lehető legtöbb információt megőrzik az eredeti vektortérből. A szavak eredményül kapott tömörített vektoros reprezentációit az angol terminológiában szóbeágyazásoknak nevezzük .
Módszerek a vektorterek méretének csökkentésére:
Az alacsony dimenziós vektorok megszerzésének másik módja a gépi tanulás, különösen a mesterséges neurális hálózatok . Az ilyen prediktív modellek (angol prediktív modellek) betanítása során az egyes szavak célreprezentációja egy viszonylag kis méretű tömörített vektor is (angol beágyazás ), amelynél a tanító korpuszon többszöri áthaladás során a szomszédos vektorokkal való hasonlóság maximalizálódik. és a szóvektorokkal való hasonlóság minimálisra csökken, szomszédai, akik nem [12] . A hagyományos számlálási modellekkel ellentétben azonban ebben a megközelítésben nincs szakasz a vektordimenzió csökkentésére, mivel a modell kezdetben kis dimenziójú (több száz komponens nagyságrendű) vektorokkal inicializálódik.
Az ilyen prediktív modellek pontosabban reprezentálják a természetes nyelv szemantikáját, mint a gépi tanulást nem használó számítási modellek [13] .
Ennek a megközelítésnek a leghíresebb képviselői a Continuous Bag-of-Words (CBOW) és a Continuous Skipgram algoritmusok , amelyeket először a 2013-ban bevezetett word2vec segédprogramban valósítottak meg [14] . A RusVectōrēs webszolgáltatás egy példát mutat be az ilyen modellek orosz nyelvre történő alkalmazására .
A disztributív szemantikai modellek alkalmazásra találtak a természetes nyelvi szemantikai modellekkel kapcsolatos kutatásokban és gyakorlati megvalósításokban.
Az elosztási modelleket a következő problémák megoldására használják [15] :
Számos szoftvereszköz létezik a nyílt forráskódú disztribúciós szemantika kutatására: