Distributív szemantika

A disztribúciós szemantika a nyelvészetnek  egy olyan területe , amely a nyelvi egységek közötti szemantikai hasonlóság mértékének kiszámításával foglalkozik a nyelvi adatok nagy tömbjeiben ( szövegkorpuszokban ) való eloszlásuk (eloszlásuk) alapján.

Minden szóhoz saját kontextusvektor van hozzárendelve . A vektorok halmaza verbális vektorteret alkot .

A természetes nyelvi szavakkal kifejezett fogalmak közötti szemantikai távolságot általában a szótérvektorok közötti koszinusz távolságként számítják ki.

Történelem

„ A disztributív elemzés  olyan nyelvkutatási módszer, amely a szövegben szereplő egyes egységek környezetének (eloszlásának, eloszlásának) vizsgálatán alapul, és nem használ fel ezen egységek teljes lexikai vagy grammatikai jelentésére vonatkozó információkat” [1] .

A módszer keretében a vizsgált nyelv szövegeire olyan univerzális eljárások rendezett halmazát alkalmazzák, amely lehetővé teszi a nyelv fő egységeinek (fonémák, morfémák, szavak, kifejezések) elkülönítését, osztályozását, ill. kompatibilitási kapcsolatokat hozzon létre közöttük.

A besorolás a helyettesítés elvén alapul: a nyelvi egységek akkor tartoznak egy osztályba, ha azonos kontextusban jelenhetnek meg.

A disztributív elemzést L. Bloomfield javasolta az 1920-as években. XX. században, és főleg a fonológiában és a morfológiában használták.

3. Harris és a leíró nyelvészet más képviselői az 1930-as és 1950-es években dolgozták ki munkáikban ezt a módszert. XX század.

Hasonló gondolatokat fogalmaztak meg a strukturális nyelvészet megalapítói, F. de Saussure és L. Wittgenstein.

A kontextusvektorok ötletét Charles Osgood pszicholingvista javasolta a szójelentések ábrázolásáról szóló munkája részeként [2] .

A szövegkörnyezet, amelyben a szavak előfordultak, többbites vektorok méréseiként működtek.

Ilyen kontextusként Osgood munkái antonim jelzőpárokat használtak (például gyors-lassú ), amelyeket a felmérés résztvevői egy hétfokú skálán értékeltek.

Példa egy kontextuális jellemzőtérre, amely leírja az egér és a patkány szavak jelentését Osgood művéből:

A kontextusvektor kifejezést S. Gallant vezette be a szavak jelentésének leírására és a lexikális többértelműség feloldására [3] .

Gallant munkája számos, a kutató által megadott attribútumot használt fel, mint például egy személy , egy férfi , egy autó stb.

Példa egy kontextuális jellemzőtérre, amely leírja a csillagász szó jelentését Gallant munkájából:

Az elmúlt két évtizedben a disztributív elemzés módszerét széles körben alkalmazták a szemantika tanulmányozásában.

Kifejlesztettek egy disztributív-szemantikai technikát és ennek megfelelő szoftvert, amely lehetővé teszi a vizsgált nyelvi egységek előfordulási kontextusainak automatikus összehasonlítását és a köztük lévő szemantikai távolságok kiszámítását [4] .

Az elosztási hipotézis

A disztributív szemantika a disztributív hipotézisen alapul : a hasonló kontextusban előforduló nyelvi egységek hasonló jelentéssel bírnak [5] .

Pszichológiai kísérletek megerősítették ennek a hipotézisnek az igazságát. Például az egyik munkában [6] a kísérlet résztvevőit arra kérték, hogy fejtsék ki véleményüket a nekik bemutatott szópárok szinonímiájáról. A felmérés adatait ezután összehasonlították azzal a kontextussal, amelyben a vizsgált szavak előfordultak. A kísérlet pozitív összefüggést mutatott ki a szavak szemantikai közelsége és a kontextusok hasonlósága között, amelyben előfordulnak.

Matematikai modell

A lineáris algebrából származó vektorterek a modell ábrázolására szolgálnak . A nyelvi egységek eloszlására vonatkozó információkat több számjegyű vektorok formájában mutatjuk be, amelyek verbális vektorteret alkotnak. A vektorok nyelvi egységeknek (szavaknak vagy kifejezéseknek), a dimenziók pedig a kontextusoknak felelnek meg. A vektorok koordinátái számok, amelyek azt mutatják, hogy egy adott szó vagy kifejezés hányszor fordul elő egy adott kontextusban.

Példa a tea és kávé szavak eloszlási jellemzőit leíró szóvektortérre , amelyben a szövegkörnyezet a szomszédos szó:

A kontextusablak méretét a tanulmány [7] célkitűzései határozzák meg :

A nyelvi egységek közötti szemantikai közelséget a vektorok közötti távolságként számítjuk ki. A disztributív szemantika kutatásában leggyakrabban a koszinusz mértéket használják , amelyet a következő képlettel számítanak ki:

ahol és  két vektor, amelyek közötti távolság kiszámításra kerül.

Egy ilyen elemzés után lehetővé válik a vizsgált szóhoz jelentésükben legközelebb álló szavak azonosítása.

Példa a macska szóhoz legközelebb álló szavakra (a lista az orosz nyelvű webkorpusz [8] adatai alapján készült, a korpuszt a Sketch Engine rendszer dolgozta fel [9] ):

Grafikus formában a szavak egy síkon pontként ábrázolhatók, míg a jelentésükben közel álló szavaknak megfelelő pontok egymáshoz közel helyezkednek el. Példa egy szótérre, amely a szuperszámítógépek témakörét írja le , Heinrich Schutze [10] munkájából :

A disztributív szemantika modelljei

A disztributív szemantika számos különböző modellje létezik, amelyek a következő módokon különböznek egymástól:

A következő disztributív-szemantikai modellek a legismertebbek:

Vektorterek méretcsökkentése

A disztributív-szemantikai modellek valós alkalmazásokban való alkalmazásakor felmerül a probléma, hogy a vektorok dimenziója túl nagy, ami egy szövegkorpuszban bemutatott hatalmas számú kontextusnak felel meg. Speciális módszerek alkalmazására van szükség, amelyek csökkenthetik a vektortér dimenzióját, ritkulását, és egyúttal a lehető legtöbb információt megőrzik az eredeti vektortérből. A szavak eredményül kapott tömörített vektoros reprezentációit az angol terminológiában szóbeágyazásoknak nevezzük .

Módszerek a vektorterek méretének csökkentésére:

A disztributív szemantika prediktív modelljei

Az alacsony dimenziós vektorok megszerzésének másik módja a gépi tanulás, különösen a mesterséges neurális hálózatok . Az ilyen prediktív modellek (angol prediktív modellek) betanítása során az egyes szavak célreprezentációja egy viszonylag kis méretű tömörített vektor is (angol beágyazás ), amelynél a tanító korpuszon többszöri áthaladás során a szomszédos vektorokkal való hasonlóság maximalizálódik. és a szóvektorokkal való hasonlóság minimálisra csökken, szomszédai, akik nem [12] . A hagyományos számlálási modellekkel ellentétben azonban ebben a megközelítésben nincs szakasz a vektordimenzió csökkentésére, mivel a modell kezdetben kis dimenziójú (több száz komponens nagyságrendű) vektorokkal inicializálódik.

Az ilyen prediktív modellek pontosabban reprezentálják a természetes nyelv szemantikáját, mint a gépi tanulást nem használó számítási modellek [13] .

Ennek a megközelítésnek a leghíresebb képviselői a Continuous Bag-of-Words (CBOW) és a Continuous Skipgram algoritmusok , amelyeket először a 2013-ban bevezetett word2vec segédprogramban valósítottak meg [14] . A RusVectōrēs webszolgáltatás egy példát mutat be az ilyen modellek orosz nyelvre történő alkalmazására .

Alkalmazások

A disztributív szemantikai modellek alkalmazásra találtak a természetes nyelvi szemantikai modellekkel kapcsolatos kutatásokban és gyakorlati megvalósításokban.

Az elosztási modelleket a következő problémák megoldására használják [15] :

Programok

Számos szoftvereszköz létezik a nyílt forráskódú disztribúciós szemantika kutatására:

Lásd még

Jegyzetek

  1. Jartseva, 1990 .
  2. Osgood et al., 1957 .
  3. Gallant, 1991 .
  4. Mitrofanova, 2008 .
  5. Sahlgren, 2008 .
  6. Rubenstein, Goodenough, 1965 .
  7. 1 2 Sharnin et al., 2013 .
  8. Orosz Web Corpus .
  9. Sketch Engine .
  10. Schutze, 1992 .
  11. Sahlgren, 2005 .
  12. Kutuzov és Andreev, 2015 .
  13. Baroni, Marco és Dinu, Georgiana és Kruszewski, német. Ne számolj, jósolj! a kontextus-számlálás vs. kontextus-előrejelző szemantikai vektorok // A Számítógépes Nyelvészeti Egyesület 52. éves közgyűlésének jegyzőkönyve. - 2014. - 1. sz . - S. 238-247 .
  14. Mikolov, Tomas és Chen, Kai és Corrado, Greg és Dean, Jeffrey. Szóreprezentációk hatékony becslése vektortérben // arXiv preprint arXiv:1301.3781. — 2013.
  15. 1 2 Morozova et al., 2014 .
  16. Klyshinsky et al., 2013 .
  17. Sahlgren, Karlgren, 2005 .
  18. Pekar, 2004 .

Irodalom