Strukturális előrejelzés

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2022. január 30-án felülvizsgált verziótól ; az ellenőrzések 7 szerkesztést igényelnek .

A strukturális előrejelzés vagy a strukturális tanulás a felügyelt gépi tanulási technikák gyűjtőfogalma , amely magában foglalja a szerkezeti objektumok előrejelzését.

Csakúgy, mint a felügyelt tanulási technikák, a strukturális előrejelzési modellek a megfigyelt adatokon készülnek, ahol a valós előrejelzett értéket használják a modell paramétereinek vizsgálatára. A modell lehetséges összetettsége és az előrejelzett változók kapcsolata miatt a modelltanulást alkalmazó előrejelzési folyamat gyakran számításilag nem kivitelezhető, ezért közelítő következtetéseket alkalmaznak .

Alkalmazások

Például egy természetes nyelvű mondat szintaktikai reprezentációvá, például elemzőfává való fordításának problémája strukturális előrejelzési problémaként fogható fel, amelyben a strukturális következtetési tartomány az összes lehetséges elemző fa halmaza. A strukturális előrejelzést számos alkalmazásban használják, beleértve a bioinformatikát , a természetes nyelvi feldolgozást , a beszédfelismerést és a számítógépes látást .

Példa: Sequence Markup

A szekvenciajelölés a természetes nyelvi feldolgozásban széles körben elterjedt feladatok osztálya . A bennük lévő bemeneti adatok gyakran sorozatok (például mondatok a szövegben). Egyes verziókban szükségessé válik az ilyen sorozatok jelölése, például a beszédrészek jelölése és a megnevezett entitások felismerése . A részleges jelölésben például a sorozat minden szavának kapnia kell egy " címkét " (címkeosztályt), amely kifejezi a szó " típusát ":

Ez	DT
van	GL
a	DT
megjelölt	IP
mondat	IP

A szekvenciák címkézési problémájának fő célja egy fogalom (a sorozat eleme) helyes meghatározása több, megfelelő érték jelenlétében. Például az angol "sentence" szó főnévként és igeként is kezelhető. A helyes előrejelzés érdekében egy szóhoz osztálycímkét ("címke") kell rendelni.

A fent leírt probléma első pillantásra megoldható az egyes elemek egyszerű osztályozásával , de ez a megközelítés nem veszi figyelembe azt az empirikus tényt, hogy a címkék nem keletkeznek önállóan. Éppen ellenkezőleg, mindegyik címke erős feltételes függőséget mutat az előző szavak címkéjétől. Vagyis, hogy melyik címkén található például a "mondat" szó - ige vagy melléknév -, a mondatban lévő többi szó címkéje függ. Ez a tény felhasználható olyan modellekben, amelyek megjósolják a mondat teljes címkéinek sorozatát, mint például egy rejtett Markov-modell vagy egy feltételes véletlenmező [1] . Az egyedi címkéket, például a Viterbi algoritmust használó modelleknél ez a módszer nem megfelelő.

Technikák

A gráfvalószínűségi modellek a strukturális előrejelzési modellek nagy csoportját alkotják . Különösen a Bayes-hálózatok és a véletlenszerű mezők népszerűek . A szerkezeti előrejelzés egyéb algoritmusai és modelljei közé tartozik az induktív logikai programozás , az esetalapú gondolkodás , a strukturális támogató vektorgépek , a Markov logikai hálózatok és a kényszerített feltételes modellek . Alapvető technikák:

Feltételes véletlenszerű mező
Szerkezeti támogató vektorgép
Strukturális k-legközelebbi szomszéd módszer
Ismétlődő neurális hálózat , különösen az Elman neurális hálózat

Strukturális perceptron

Az általános szerkezeti előrejelző algoritmusok megértésének egyik legegyszerűbb módja a Collins Structural Perceptron [2] . Ez az algoritmus kombinálja a lineáris osztályozók betanítására szolgáló perceptron algoritmust egy következtetési algoritmussal (klasszikusan a Viterbi algoritmussal , ha soros adatokhoz használják), és absztrakt módon a következőképpen írható le:

Definiálunk egy Φ( x , y ) „együttes jellemző függvényt”, amely leképezi az x képzési tételt és a megjósolt y jelöltet egy n hosszúságú vektorba . Ebben az esetben x és y bármilyen szerkezetű lehet, és n értéke a feladattól függ, de minden modellnél fix. Legyen GEN egy függvény, amely prediktorjelöltet generál. Akkor:

Legyen n hosszúságú súlyvektor

w

Előre meghatározott számú iterációhoz: A valódi következtetés képzési halmaz minden egyes példányához :

x

t

Jóslat készítése

{\hat {y}}={\operátornév {arg\,max} }\,\{{y}\in {GEN}({x})\}\,({w}^{T} \,\phi ({x}, {y})

Frissítés , tól : ig a tanulási sebesség.

w

{\hat {y))

t

{w}={w}+{c}(-\phi ({x},{\hat {y)))+\phi ({x}, {t}))

c

A gyakorlatban az Argmax bekapcsolása történhet egy algoritmussal, például a Viterbi algoritmussal vagy a max-sum algoritmussal , nem pedig exponenciálisan nagy jelölthalmazra kiterjedő kereséssel . ${GEN}({x})$

A tanulás gondolata hasonló egy perceptronhoz, sok osztályban .

Jegyzetek

↑ Lafferty, McCallum, Pereira, 2001 , p. 282–289.
↑ Collins, 2002 .

Irodalom

Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola, SVN Vishwanathan. Strukturált adatok előrejelzése . – MIT Press, 2007.
Lafferty J., McCallum A., Pereira F. Feltételes véletlen mezők: Valószínűségi modellek szekvenciaadatok szegmentálásához és címkézéséhez // Proc. 18. Nemzetközi Konf. a gépi tanulásról . — 2001. Archiválva : 2013. június 7. a Wayback Machine -nál
Michael Collins. Diszkriminatív képzési módszerek rejtett Markov-modellekhez: elmélet és kísérletek perceptron-algoritmusokkal // Proc. EMNLP . - 2002. - V. 10. 2006. december 8-i archív példány a Wayback Machine -nél
Noah Smith, Linguistic Structure Prediction , 2011.

Linkek

Collins strukturált perceptron megvalósítása

Gépi tanulás és adatbányászat
Feladatok	Osztályozási probléma Tanulás tanár nélkül Tanár által segített tanulás Regresszió analízis AutoML Egyesületi szabályzat Funkció kivonás Tulajdonságok képzése Rangsorképzés Nyelvtani levezetés Online tanulás
Tanulás tanárral	k-legközelebbi szomszéd módszer Naiv Bayes osztályozó döntési fa Támogatja a vektoros gépet Lineáris regresszió Logisztikus regresszió perceptron Modellek együttesei Zsákolás fellendítése véletlenszerű erdő Releváns vektoros módszer
klaszteranalízis	k-közép módszer Fuzzy klaszterezési módszer Hierarchikus klaszterezés EM algoritmus NYÍR GYÓGYMÓD DBSCAN OPTIKA Átlageltolás
Dimenziócsökkentés	Faktoranalízis Főkomponens módszer CCA ICA LDA Nem negatív mátrix kiterjesztése t-SNE
Strukturális előrejelzés	Grafikon valószínűségi modell Bayesi hálózat Rejtett Markov-modell CRF
Anomália észlelése	k-legközelebbi szomszéd módszer Helyi kibocsátási szint
Grafikon valószínűségi modellek	Bayesi hálózat Markov hálózat Rejtett Markov-modell
Neurális hálózatok	Limitált Boltzmann gép önszerveződő térkép Aktiválási funkció Szigma alakú softmax Radiális bázisfüggvény Hátsó szaporítási módszer Mély tanulás Többrétegű perceptron Ismétlődő neurális hálózat hosszú távú rövid távú memória Ellenőrzött visszatérő blokk Konvolúciós Neurális Hálózat U-Net Autoencoder
Megerősítő tanulás	Markov folyamat Bellman egyenlet Mohó algoritmus Q-learning SARSA Időbeli különbség (TD)
Elmélet	Vapnik-Chervonenkis elmélet Elfogultság-diszperziós dilemma Számítógépes tanuláselmélet Empirikus kockázatminimalizálás Occam tanul PAC tanulás Statisztikai tanuláselmélet
Folyóiratok és konferenciák	NeurIPS ICML ML JMLR ArXiv:cs.LG