Sztochasztikus környezetfüggetlen nyelvtan

A sztochasztikus kontextusmentes nyelvtan ( SCS , probabilistic context-free grammar , VCS is) egy olyan környezetfüggetlen nyelvtan , amelyben minden következtetési szabály egy valószínűségnek felel meg. A következtetés valószínűségét az általa használt következtetési szabályok valószínűségeinek szorzataként határozzuk meg, így egyes következtetések jobban illeszkednek a sztochasztikus nyelvtanhoz, mint mások. Az SCF nyelvtanok ugyanúgy kiterjesztik a CF nyelvtanokat, mint a rejtett Markov-modellek a szabályos nyelvtanokat. Az SCS nyelvtanokat széles körben használják a tudományban: a természetes nyelvi feldolgozástól az RNS -molekulák tanulmányozásáig . Az SCS nyelvtanok a súlyozott környezetfüggetlen nyelvtanok speciális formája .

Technikák

A Kok-Younger-Kasami algoritmus egy változata megkeresi a Viterbi-elemzést egy adott karakterlánc és SCS nyelvtan esetén. A Viterbi-elemzés a legvalószínűbb levezetés egy karakterláncból, tekintettel az SCS nyelvtanára.

A belső-külső algoritmusok, amelyek hasonlóak az oda-vissza algoritmusokhoz, felhasználhatók egy adott SCF nyelvtanból egy adott karakterláncnak megfelelő összes következtetés teljes valószínűségének kiszámítására. Ez egyenértékű annak a valószínűségével, hogy az SCF nyelvtan egy adott karakterláncot generál, és intuitív módon egy adott karakterlánc adott nyelvtannak való megfelelőségének mértéke.

A belső-külső algoritmusok arra is használhatók, hogy kiszámítsuk annak valószínűségét, hogy egy adott következtetési szabályt egy adott karakterláncra tetszőleges következtetésre használnak. Ez az EM algoritmus alkalmazására szolgál, hogy megkapja az SCS nyelvtan maximális valószínűségi valószínűségét azon betanítási szekvenciák alapján, amelyeket az SCS nyelvtannak modelleznie kell. Az algoritmus hasonló a rejtett Markov-modellek algoritmusához.

Alkalmazások

Természetes nyelvi feldolgozás

A kontextusmentes nyelvtanokat eredetileg természetes nyelvek modellezésére hozták létre. Egyes kutatók ezt az elképzelést kiterjesztették az SCS nyelvtan alkalmazásával.

Íme egy példa egy SCS nyelvtanra, amely két szabályt tartalmaz. Minden szabályt megelőz egy valószínűség, amely tükrözi alkalmazásának relatív gyakoriságát.

0,7VP→VNP 0,3 VP → V NP NP

Ebből a nyelvtanból kiszámolhatjuk a VP-ből generált NP-k várható számát: 0,7 x 1 + 0,3 x 2 = 1,3.

Egyes beszédfelismerő rendszerek SCF nyelvtanokat használnak a valószínűségi közelítés és ezáltal a felismerés minőségének javítására.

A közelmúltban a valószínűségi CFG-k szerepet játszottak az akadálymentesítési hierarchia magyarázatában, amely megpróbálja bemutatni, miért nehezebb megérteni egyes struktúrákat, mint másokat.

Kiderült, hogy ha van valószínűségi információ a valószínűbb konstrukciókról, akkor ki lehet számítani ezen konstrukciók információs entrópiáját. Ha a szintaxis észlelésének mechanizmusa az információelmélet fogalmain alapul, akkor a videokonferencia nyelvtanokhoz hasonlót használhat. [egy]

RNS

A CS-nyelvtanokat az RNS másodlagos szerkezetének modellezésére használják [2] [3] . A másodlagos szerkezet komplementer nukleotidokat tartalmaz egyetlen RNS-molekulán belül. Ez a párosítás biológiailag fontos az RNS-molekula megfelelő működéséhez. A legtöbb ilyen párosítás CF-grammatikával reprezentálható (kivéve a pszeudoknotok).

Tekintsük például a következő nyelvtant, amelyben a, c, g és u a nukleotidokat jelentik, az S pedig a kezdőkarakter:

S → aSu | cSg | gSc | USA

Ez az egyszerű CFG egy olyan RNS-molekulát képvisel, amely csak két teljesen komplementer régióból áll, amelyekben csak kanonikus komplementer párok megengedettek (pl. AU és CG).

A bonyolultabb CFG-k valószínűségeinek hozzáadásával lehetőség nyílik olyan bázisok vagy bázispárok modellezésére, amelyek többé-kevésbé megegyeznek az RNS-molekula várható alakjával. Az SCS nyelvtanokat az Rfam adatbázisban található RNS géncsaládok szekvenciáinak modellezésére és a genomszekvenciák keresésére használják e családok valószínű tagjaira. Az SCS-nyelvtanokat RNS-gének keresésére is használták összehasonlító genomika segítségével. Ebben a munkában két rokon organizmusból származó potenciális RNS gének homológjait vizsgáltuk SCS nyelvtani megközelítésekkel annak megállapítására, hogy a másodlagos szerkezet megmaradt-e. Ha igen, akkor a szekvencia valószínűleg egy RNS-gén, és a másodlagos szerkezet megmarad az RNS-gén funkcionális szükségleteihez. Azt is kimutatták, hogy az SCS-nyelvtanok a meglévő megközelítésekhez hasonlóan képesek megjósolni egy RNS-molekula másodlagos szerkezetét: ilyen SCS-nyelvtanokat használ például a Stemloc program.

Összehasonlítás a generatív nyelvtannal

Gold-tételének 1967-es közzétételével azt állították, hogy a természetes nyelvek grammatikáit olyan determinisztikus szabályok szabályozzák, amelyek nem tanulhatók meg pusztán pozitív példákból. Ez része volt az 1980-ban bevezetett ösztönző szegénységi érvnek, és implicit módon Chomsky korai, 1950-es évekbeli munkássága óta. Többek között ez vezetett ahhoz a nativista elképzeléshez, hogy a nyelvtan formái (beleértve bizonyos változatokban a teljes fogalmi lexikont is) születésüktől fogva rögzültek. Ezt a reprezentációt jelentősen korlátozza a GB és MP elmélet.

Meg kell azonban jegyezni, hogy Gold tanulhatóságra vonatkozó eredménye könnyen megkerülhető, ha feltételezzük, hogy a tanuló vagy a helyes nyelv majdnem tökéletes közelítését tanulja meg, vagy a tipikus bemeneteket tanulja meg, nem pedig az önkényesen elosztottakat. Valójában bebizonyosodott, hogy pusztán a pozitív példákat előállító beszélőtől kapott bemenet, nem pedig előre meghatározott terv szerint, 1-es valószínűségi korlát melletti azonosíthatósághoz vezet. [4] [5] .

Bármely formális szintaxissal az a probléma, hogy gyakran egynél több következtetési szabály is alkalmazható egy szerkezetre, ami ütközést eredményez. Minél nagyobb a lefedettség, annál nagyobb a konfliktus, és az összes grammatikus ( Panini óta ) jelentős erőfeszítéseket tett a rendszerint megdönthetőnek bizonyult szabályok elsőbbségi rendszerének kialakítására. Egy másik nehézség a regeneráció, amely szintén érvénytelen struktúrákat generál. A valószínűségi nyelvtan úgy kerüli meg ezeket a problémákat, hogy a különböző következtetési szabályok gyakoriságát használja a sorrendbe állításukra, ami egy "legvalószínűbb" értelmezést eredményez, amely több adat ismeretében definíció szerint cáfolható. Mivel a használati minták diakronikusan változnak, ezeket a valószínűségi szabályokat át lehet képezni, így frissítve a nyelvtant.

Valószínűségi nyelvtan a hagyományos formális szintaxisból konstruálható úgy, hogy minden nem-terminálishoz hozzárendelünk egy bizonyos eloszlásból vett valószínűséget, amely valós adatokon közelíthető. A nyelvek széles skálájának legtöbb példájában az ezeket a valószínűségeket adatok alapján módosító valószínűségi nyelvtanok jobban teljesítenek, mint a kézzel készített nyelvtanok (bár egyes szabályalapú nyelvtanok pontossága jelenleg megközelíti a VCS nyelvtanokat).

Az utóbbi időben a valószínűségi nyelvtan szubjektív megerősítést kapott. Köztudott, hogy a különböző szintaktikai struktúrákat különböző összetettséggel érzékelik (például a relatív kifejezések hozzáférhetőségi hierarchiáját). A minimalista nyelvtanok valószínűségi változatait használták az információs entrópia kiszámítására, amelyről azt találták, hogy jól korrelál a pszicholingvisztikai adatokkal a könnyebb megértést és reprodukálást illetően. [egy]

Jegyzetek

↑ 12 John Hale . Bizonytalanság a mondat többi részével kapcsolatban (neopr.) // Kognitív tudomány. - 2006. - T. 30 . - S. 643-672 . - doi : 10.1207/s15516709cog0000_64 .
↑ Durbin, Eddy, Krogh, Mitchison, Biológiai szekvenciaelemzés, Cambridge University Press, 1998. Ez a bioinformatikai tankönyv hozzáférhető bevezetőt tartalmaz az SCFG-k RNS-modellezésre való használatához, valamint az alkalmazás történetét 1998-ig.
↑ Sean R. Eddy és Richard Durbin (1994), "RNS-szekvencia analízis kovariancia modellekkel", Nucleic Acids Research , 22(11): 2079-88. [1] Archiválva : 2020. május 30. a Wayback Machine -nél
↑ Clark, A. (2001). Felügyelet nélküli nyelvelsajátítás: elmélet és gyakorlat. PhD értekezés
↑ Horning, JJ (1969). A nyelvtani következtetés tanulmányozása. Ph.D. szakdolgozat, Számítástechnika Tanszék, Stanford Egyetem

Linkek

Rfam adatbázis