A korlátozott Boltzmann-gép ( eng. korlátozott Boltzmann-gép ), rövidítve RBM , a generatív sztochasztikus neurális hálózat egy típusa, amely meghatározza a bemeneti adatminták valószínűségi eloszlását.
Az első korlátozott Boltzmann gépet 1986-ban Paul Smolensky készítette Harmonium néven [1] , de csak azután vált népszerűvé, hogy Hinton a 2000-es évek közepén feltalálta a gyors tanuló algoritmusokat.
A gép ezt a nevet a szokásos Boltzmann-gép módosításaként kapta , amelyben a neuronokat látható és rejtett neuronokra osztották, és csak a különböző típusú neuronok között engedélyezett a kapcsolat, így korlátozva a kapcsolatokat. Jóval később, a 2000-es években a korlátozott Boltzmann-gépek egyre nagyobb népszerűségre tettek szert, és már nem a Boltzmann-gép variációinak, hanem a mélytanulási hálózatok architektúrájának speciális összetevőinek tekintették őket . A korlátos Boltzmann-gépek több kaszkádjának egyesítése mély hithálózatot alkot , egy speciális többrétegű neurális hálózatot, amely képes öntanulni tanár nélkül a visszaterjesztési algoritmus segítségével [2] .
A korlátozott Boltzmann-gépek jellemzője, hogy tanár nélkül is betaníthatók , de bizonyos alkalmazásokban a korlátozott Boltzmann-gépeket tanárral tanítják. A gép rejtett rétege az adatok mély jellemzői, amelyek a tanulási folyamat során feltárulnak (lásd még Adatbányászat ).
A korlátos Boltzmann gépek alkalmazási köre széles skálán mozog – ezek az adatok dimenziócsökkentési problémák [ 3 ] , osztályozási problémák [4] , kollaboratív szűrés [5] , jellemzők tanulása [ 6] és témamodellezés [7] .
Egy korlátozott Boltzmann-gépben a neuronok egy bipartit gráfot alkotnak , a gráf egyik oldalán látható neuronok (bemenet), a másik oldalon rejtett neuronok találhatók, és keresztkötések jönnek létre az egyes látható és rejtett neuronok között. Egy ilyen kapcsolatrendszer lehetővé teszi a gradiens süllyedés módszerének kontrasztív divergenciával történő alkalmazását a hálózat betanítása során [8] .
A korlátozott Boltzmann-gép Bernoulli-eloszlású bináris elemeken alapul, amelyek a hálózat látható és rejtett rétegeit alkotják. A rétegek közötti kapcsolatokat súlymátrix ( m × n méret), valamint a látható réteg és a rejtett réteg eltolásai segítségével határozzák meg.
A hálózati energia ( v , h ) fogalmát úgy vezetjük be
vagy mátrix formában
A Hopfield hálózatnak is van hasonló energetikai funkciója . Ami a szokásos Boltzmann-gépet illeti, a látható és rejtett rétegek vektoraira való eloszlás valószínűségét az energia határozza meg [9] :
ahol az összes lehetséges hálózatra definiált partíciós függvény (más szóval egy normalizációs állandó, amely garantálja, hogy az összes valószínűség összege eggyel egyenlő). Egy külön bemeneti vektor valószínűségének meghatározása (marginális eloszlás) hasonlóan történik az összes lehetséges rejtett réteg konfigurációinak összegén keresztül [9] :
A hálózat kétrészes gráfként való felépítéséből adódóan a rejtett réteg egyes elemei egymástól függetlenek és a látható réteget aktiválják, és fordítva, a látható réteg egyes elemei függetlenek egymástól és aktiválják a rejtett réteget. réteg [8] . Látható és rejtett elemek esetén a v feltételes valószínűségeket a h valószínűségek szorzatai határozzák meg :
és fordítva, a h feltételes valószínűségeket a v valószínűségek szorzataként határozzuk meg :
Egy elem specifikus aktiválási valószínűségét a következőképpen határozzuk meg
éshol van a rétegaktiválás logisztikus függvénye .
A látható rétegek multinomiális eloszlásúak is lehetnek , míg a rejtett rétegek Bernoulli eloszlásúak . Multinomialitás esetén a softmax a logisztikai függvény helyett :
ahol K a látható elemek diszkrét értékeinek száma. Ezt a reprezentációt témamodellezési problémákban [7] és ajánlórendszerekben [5] használják .
A korlátozott Boltzmann-gép a közönséges Boltzmann-gép és a Markov-hálózat speciális esete [10] [11] . Gráfmodelljük megfelel a faktoranalízis gráfmodelljének [12] .
A tanulási cél egy rendszer valószínűségének maximalizálása egy adott mintakészlettel (egy olyan mátrixszal, amelyben minden sor a látható vektor egy mintájának felel meg ), amelyet a valószínűségek szorzataként határozunk meg.
vagy ami ugyanaz, maximalizálja a szorzat logaritmusát: [10] [11]
A neurális hálózat betanításához a kontrasztív divergencia (CD) algoritmust használják az optimális mátrixsúlyok megtalálásához , Geoffrey Hinton javasolta eredetileg a PoE („szakértői becslések terméke”) modellek betanításához [13] [14] . Az algoritmus Gibbs-mintavételt használ a gradiens süllyedési eljárás megszervezéséhez , hasonlóan a neurális hálózatok visszaterjesztési módszeréhez .
Általában a kontrasztív divergencia (CD-1) egyik lépése így néz ki:
Gyakorlati útmutató a tanulási folyamat megvalósításához Jeffrey Hinton személyes oldalán [9] található .
A mesterséges neurális hálózatok típusai | |
---|---|
|
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|