Limitált Boltzmann gép

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. május 23-án felülvizsgált verziótól ; az ellenőrzések 3 szerkesztést igényelnek .

A korlátozott Boltzmann-gép ( eng. korlátozott Boltzmann-gép ), rövidítve RBM , a generatív sztochasztikus neurális hálózat egy típusa, amely meghatározza a bemeneti adatminták valószínűségi eloszlását.

Az első korlátozott Boltzmann gépet 1986-ban Paul Smolensky készítette Harmonium néven [1] , de csak azután vált népszerűvé, hogy Hinton a 2000-es évek közepén feltalálta a gyors tanuló algoritmusokat.

A gép ezt a nevet a szokásos Boltzmann-gép módosításaként kapta , amelyben a neuronokat látható és rejtett neuronokra osztották, és csak a különböző típusú neuronok között engedélyezett a kapcsolat, így korlátozva a kapcsolatokat. Jóval később, a 2000-es években a korlátozott Boltzmann-gépek egyre nagyobb népszerűségre tettek szert, és már nem a Boltzmann-gép variációinak, hanem a mélytanulási hálózatok architektúrájának speciális összetevőinek tekintették őket . A korlátos Boltzmann-gépek több kaszkádjának egyesítése mély hithálózatot alkot , egy speciális többrétegű neurális hálózatot, amely képes öntanulni tanár nélkül a visszaterjesztési algoritmus segítségével [2] .

A korlátozott Boltzmann-gépek jellemzője, hogy tanár nélkül is betaníthatók , de bizonyos alkalmazásokban a korlátozott Boltzmann-gépeket tanárral tanítják. A gép rejtett rétege az adatok mély jellemzői, amelyek a tanulási folyamat során feltárulnak (lásd még Adatbányászat ).

A korlátos Boltzmann gépek alkalmazási köre széles skálán mozog – ezek az adatok dimenziócsökkentési problémák [ 3 ] , osztályozási problémák [4] , kollaboratív szűrés [5] , jellemzők tanulása [ 6] és témamodellezés [7] .

Egy korlátozott Boltzmann-gépben a neuronok egy bipartit gráfot alkotnak , a gráf egyik oldalán látható neuronok (bemenet), a másik oldalon rejtett neuronok találhatók, és keresztkötések jönnek létre az egyes látható és rejtett neuronok között. Egy ilyen kapcsolatrendszer lehetővé teszi a gradiens süllyedés módszerének kontrasztív divergenciával történő alkalmazását a hálózat betanítása során [8] .

Hálózati struktúra

A korlátozott Boltzmann-gép Bernoulli-eloszlású bináris elemeken alapul, amelyek a hálózat látható és rejtett rétegeit alkotják. A rétegek közötti kapcsolatokat súlymátrix ( m × n méret), valamint a látható réteg és a rejtett réteg eltolásai segítségével határozzák meg. $v_{i}$ ${\displaystyle h_{j))$ $W=(w_{i,j})$ $a_{i}$ $b_{j}$

A hálózati energia ( v , h ) fogalmát úgy vezetjük be

E(v,h)=-\sum _{i}a_{i}v_{i}-\sum _{j}b_{j}h_{j}-\sum _{i}\sum _ {j}v_{i}w_{i,j}h_{j},

vagy mátrix formában

E(v,h)=-a^{\mathrm {T} }vb^{\mathrm {T} }hv^{\mathrm {T} }Wh.

A Hopfield hálózatnak is van hasonló energetikai funkciója . Ami a szokásos Boltzmann-gépet illeti, a látható és rejtett rétegek vektoraira való eloszlás valószínűségét az energia határozza meg [9] :

P(v,h)={\frac {1}{Z}}e^{-E(v,h)},

ahol az összes lehetséges hálózatra definiált partíciós függvény (más szóval egy normalizációs állandó, amely garantálja, hogy az összes valószínűség összege eggyel egyenlő). Egy külön bemeneti vektor valószínűségének meghatározása (marginális eloszlás) hasonlóan történik az összes lehetséges rejtett réteg konfigurációinak összegén keresztül [9] : $Z$ ${\displaystyle \sum e^{-E(v,h)))$ $Z$

P(v)={\frac {1}{Z}}\sum _{h}e^{-E(v,h)}.

A hálózat kétrészes gráfként való felépítéséből adódóan a rejtett réteg egyes elemei egymástól függetlenek és a látható réteget aktiválják, és fordítva, a látható réteg egyes elemei függetlenek egymástól és aktiválják a rejtett réteget. réteg [8] . Látható és rejtett elemek esetén a v feltételes valószínűségeket a h valószínűségek szorzatai határozzák meg : $m$ $n$

P(v|h)=\prod _{i=1}^{m}P(v_{i}|h),

és fordítva, a h feltételes valószínűségeket a v valószínűségek szorzataként határozzuk meg :

P(h|v)=\prod _{j=1}^{n}P(h_{j}|v).

Egy elem specifikus aktiválási valószínűségét a következőképpen határozzuk meg

P(h_{j}=1|v)=\sigma \left(b_{j}+\sum _{i=1}^{m}w_{i,j}v_{i}\right)

és

P(v_{i}=1|h)=\sigma \left(a_{i}+\sum _{j=1}^{n}w_{i,j}h_{j}\right) ,

hol van a rétegaktiválás logisztikus függvénye . $\sigma$

A látható rétegek multinomiális eloszlásúak is lehetnek , míg a rejtett rétegek Bernoulli eloszlásúak . Multinomialitás esetén a softmax a logisztikai függvény helyett :

P(v_{i}^{k}=1|h)={\frac {\exp(a_{i}^{k}+\Sigma _{j}W_{ij}^{k}h_ {j})}{\Sigma _{k'=1}^{K}\exp(a_{i}^{k'}+\Sigma _{j}W_{ij}^{k'}h_{j })}},

ahol K a látható elemek diszkrét értékeinek száma. Ezt a reprezentációt témamodellezési problémákban [7] és ajánlórendszerekben [5] használják .

Kapcsolat más modellekkel

A korlátozott Boltzmann-gép a közönséges Boltzmann-gép és a Markov-hálózat speciális esete [10] [11] . Gráfmodelljük megfelel a faktoranalízis gráfmodelljének [12] .

Tanulási algoritmus

A tanulási cél egy rendszer valószínűségének maximalizálása egy adott mintakészlettel (egy olyan mátrixszal, amelyben minden sor a látható vektor egy mintájának felel meg ), amelyet a valószínűségek szorzataként határozunk meg. $V$ $v$

\arg \max _{W}\prod _{v\in V}P(v),

vagy ami ugyanaz, maximalizálja a szorzat logaritmusát: [10] [11]

\arg \max _{W}\mathbb {E} [\log P(v)].

A neurális hálózat betanításához a kontrasztív divergencia (CD) algoritmust használják az optimális mátrixsúlyok megtalálásához , Geoffrey Hinton javasolta eredetileg a PoE („szakértői becslések terméke”) modellek betanításához [13] [14] . Az algoritmus Gibbs-mintavételt használ a gradiens süllyedési eljárás megszervezéséhez , hasonlóan a neurális hálózatok visszaterjesztési módszeréhez . $W$

Általában a kontrasztív divergencia (CD-1) egyik lépése így néz ki:

Egy v adatmintára kiszámítja a rejtett elem valószínűségeit, és az aktiválást alkalmazza a h rejtett rétegre az adott valószínűségi eloszláshoz.
A v és h külső szorzatát (mintavételét) kiszámítjuk , amit pozitív gradiensnek nevezünk .
A h mintán keresztül a látható v' réteg mintáját rekonstruáljuk , majd a rejtett h' réteg aktiválásával ismételten mintavételezésre kerül sor . (Ezt a lépést Gibbs-mintavételnek hívják .)
Ezután a külső szorzatot számítjuk ki , de már a v' és h' vektorokat , amit negatív gradiensnek nevezünk .
A súlymátrixot a pozitív és negatív gradiens különbségére korrigálják, megszorozva a tanulási sebességet meghatározó tényezővel: . $W$ $\Delta W=\varepsilon (vh^{\mathsf {T}}-v'h'^{\mathsf {T}})$
Az a és b torzítást hasonló módon korrigálják: , . $\Delta a=\varepsilon (vv')$ $\Delta b=\varepsilon (óó')$

Gyakorlati útmutató a tanulási folyamat megvalósításához Jeffrey Hinton személyes oldalán [9] található .

Lásd még

Linkek

↑ Szmolenszkij, Paul. 6. fejezet: Információfeldolgozás dinamikus rendszerekben: A harmóniaelmélet alapjai // Párhuzamos elosztott feldolgozás: Explorations in the Microstructure of Cognition, 1. kötet: Alapok (angol) / Rumelhart, David E.; McLelland, James L. - MIT Press , 1986. - P. 194-281. — ISBN 0-262-68053-X . Archivált másolat (nem elérhető link) . Letöltve: 2017. november 10. Az eredetiből archiválva : 2013. június 13. (határozatlan)
↑ Hinton, G. Mély hithálózatok (határozatlan) // Scholarpedia . - 2009. - T. 4 , 5. sz . - S. 5947 . doi : 10.4249 /scholarpedia.5947 .
↑ Hinton, G.E.; Salakhutdinov, RR Reducing the Dimensionality of Data with Neural Networks (angol) // Science : Journal. - 2006. - 20. évf. 313. sz . 5786 . - P. 504-507 . - doi : 10.1126/tudomány.1127647 . — PMID 16873662 .
↑ Larocelle, H.; Bengio, Y. (2008). Osztályozás diszkriminatív korlátozott Boltzmann-gépekkel (PDF) . A gépi tanulásról szóló 25. nemzetközi konferencia anyaga - ICML '08. p. 536. DOI : 10.1145/1390156.1390224 . ISBN 9781605582054 . Archiválva az eredetiből (PDF) , ekkor: 2017-10-13 . Letöltve 2017-11-10 . Elavult használt paraméter |deadlink=( súgó )
↑ 1 2 Salakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Korlátozott Boltzmann gépek együttműködési szűréshez . A gépi tanulásról szóló 24. nemzetközi konferencia anyaga - ICML '07. p. 791. doi : 10.1145/ 1273496.1273596 . ISBN 9781595937933 .
↑ Coates, Ádám; Lee, Honglak; Ng, Andrew Y. (2011). Egyrétegű hálózatok elemzése felügyelet nélküli funkciótanulásban (PDF) . Nemzetközi Mesterséges Intelligencia és Statisztikai Konferencia (AISTATS). Archivált az eredetiből (PDF) ekkor: 2014-12-20 . Letöltve 2017-11-10 . Elavult használt paraméter |deadlink=( súgó )
↑ 1 2 Ruslan Salakhutdinov és Geoffrey Hinton (2010). Replikált softmax: egy irányítatlan témamodell Archiválva : 2012. május 25. a Wayback Machine -nél . Neurális információfeldolgozó rendszerek 23
↑ 1 2 Miguel A. Carreira-Perpiñán és Geoffrey Hinton (2005). A kontrasztív divergencia tanulásról. Mesterséges intelligencia és statisztika .
↑ 1 2 3 Geoffrey Hinton (2010). Gyakorlati útmutató a korlátozott Boltzmann-gépek képzéséhez , 2014. szeptember 25-én archiválva a Wayback Machine -nál . UTML TR 2010-003, Torontói Egyetem.
↑ 1 2 Sutskever, Ilja; Tieleman, Tijmen. A kontrasztos divergencia konvergencia tulajdonságairól // Proc . 13. nemzetközi konf. az AI és a statisztikákról (AISTATS): folyóirat. - 2010. Archiválva : 2015. június 10.
↑ 1 2 Asja Fischer és Christian Igel. Korlátozott Boltzmann-gépek képzése: Bevezetés . Archiválva : 2015. június 10. a Wayback Machine -nél . Mintafelismerés 47. o. 2014. 25-39.
↑ María Angélica Cueto; Jason Morton; Bernd Sturmfels. A korlátozott Boltzmann-gép geometriája (neopr.) // Algebrai módszerek a statisztikában és a valószínűségben. - Amerikai Matematikai Társaság, 2010. - V. 516 . - arXiv : 0908.4425 . (nem elérhető link)
↑ Geoffrey Hinton (1999). Products of Experts archiválva 2015. szeptember 24-én a Wayback Machine -nál . ICANN 1999 .
↑ Hinton, GE Szakértői képzési termékek a kontrasztív divergencia minimalizálásával // Neurális számítás : folyóirat. - 2002. - 20. évf. 14 , sz. 8 . - P. 1771-1800 . - doi : 10.1162/089976602760128018 . — PMID 12180402 .

Irodalom

Introduction to Restricted Boltzmann Machines Archiválva 2012. október 29-én a Wayback Machine -nél . Edwin Chen blogja, 2011. július 18.
Útmutató kezdőknek a korlátozott Boltzmann-gépekhez . Deeplearning4j dokumentáció
Az RBM-ek megértése . Deeplearning4j dokumentáció, 2015. augusztus 4.
Python implementáció archiválva 2017. március 5-én a Bernoulli RBM Wayback Machine -jén és az oktatóanyag archiválva 2017. március 5-én a Wayback Machine -nél
A SimpleRBM archiválva : 2018. június 10. a Wayback Machine -nél egy nagyon kicsi RBM-kód (24 kB), amely hasznos az Ön számára, ha megtudhatja, hogyan tanulnak az RBM-ek.

A mesterséges neurális hálózatok típusai

Feed-forward hálózat ( radiális alapú funkciók hálózata )
Egyrétegű perceptron
Többrétegű perceptron ( Rosenblatt • Rumelhart )
Hopfield hálózat
Markov lánc
Boltzmann gép
Limitált Boltzmann gép
Autoencoder ( Zajtalanító autoencoder • Ritka autoencoder • Változatos autoencoder )
A bizalom mély hálója
Konvolúciós Neurális Hálózat
Mély konvolúciós neurális hálózat
Telepítési neurális hálózat
Mély konvolúciós inverz grafikus hálózat
Generatív ellenséges hálózat
Ismétlődő neurális hálózat
Rekurzív neurális hálózatok
hosszú távú rövid távú memória
Ellenőrzött visszatérő blokk
Neurális Turing-gépek
Kétirányú hálózat ( Bidirectional recurrent neural network • Kétirányú hálózat hosszú távú memóriával • Kétirányú vezérelt visszatérő neuronok )
Deep Residual Network
Neurális visszhanghálózat
Extrém tanulási módszer
Az instabil állapotok módszere
Támogatja a vektoros gépet
Kohonen hálózat
Kohonen önszerveződő térképe
Kapszula neurális hálózat
Asszociatív memória neurális hálózatokon

Gépi tanulás és adatbányászat
Feladatok	Osztályozási probléma Tanulás tanár nélkül Tanár által segített tanulás Regresszió analízis AutoML Egyesületi szabályzat Funkció kivonás Tulajdonságok képzése Rangsorképzés Nyelvtani levezetés Online tanulás
Tanulás tanárral	k-legközelebbi szomszéd módszer Naiv Bayes osztályozó döntési fa Támogatja a vektoros gépet Lineáris regresszió Logisztikus regresszió perceptron Modellek együttesei Zsákolás fellendítése véletlenszerű erdő Releváns vektoros módszer
klaszteranalízis	k-közép módszer Fuzzy klaszterezési módszer Hierarchikus klaszterezés EM algoritmus NYÍR GYÓGYMÓD DBSCAN OPTIKA Átlageltolás
Dimenziócsökkentés	Faktoranalízis Főkomponens módszer CCA ICA LDA Nem negatív mátrix kiterjesztése t-SNE
Strukturális előrejelzés	Grafikon valószínűségi modell Bayesi hálózat Rejtett Markov-modell CRF
Anomália észlelése	k-legközelebbi szomszéd módszer Helyi kibocsátási szint
Grafikon valószínűségi modellek	Bayesi hálózat Markov hálózat Rejtett Markov-modell
Neurális hálózatok	Limitált Boltzmann gép önszerveződő térkép Aktiválási funkció Szigma alakú softmax Radiális bázisfüggvény Hátsó szaporítási módszer Mély tanulás Többrétegű perceptron Ismétlődő neurális hálózat hosszú távú rövid távú memória Ellenőrzött visszatérő blokk Konvolúciós Neurális Hálózat U-Net Autoencoder
Megerősítő tanulás	Markov folyamat Bellman egyenlet Mohó algoritmus Q-learning SARSA Időbeli különbség (TD)
Elmélet	Vapnik-Chervonenkis elmélet Elfogultság-diszperziós dilemma Számítógépes tanuláselmélet Empirikus kockázatminimalizálás Occam tanul PAC tanulás Statisztikai tanuláselmélet
Folyóiratok és konferenciák	NeurIPS ICML ML JMLR ArXiv:cs.LG