Limitált Boltzmann gép

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. május 23-án felülvizsgált verziótól ; az ellenőrzések 3 szerkesztést igényelnek .

A korlátozott Boltzmann-gép ( eng.  korlátozott Boltzmann-gép ), rövidítve RBM , a generatív sztochasztikus neurális hálózat  egy típusa, amely meghatározza a bemeneti adatminták valószínűségi eloszlását.

Az első korlátozott Boltzmann gépet 1986-ban Paul Smolensky készítette Harmonium néven [1] , de csak azután vált népszerűvé, hogy Hinton a 2000-es évek közepén feltalálta a gyors tanuló algoritmusokat.

A gép ezt a nevet a szokásos Boltzmann-gép módosításaként kapta , amelyben a neuronokat látható és rejtett neuronokra osztották, és csak a különböző típusú neuronok között engedélyezett a kapcsolat, így korlátozva a kapcsolatokat. Jóval később, a 2000-es években a korlátozott Boltzmann-gépek egyre nagyobb népszerűségre tettek szert, és már nem a Boltzmann-gép variációinak, hanem a mélytanulási hálózatok architektúrájának speciális összetevőinek tekintették őket . A korlátos Boltzmann-gépek több kaszkádjának egyesítése mély hithálózatot alkot , egy speciális többrétegű neurális hálózatot, amely képes öntanulni tanár nélkül a visszaterjesztési algoritmus segítségével [2] .

A korlátozott Boltzmann-gépek jellemzője, hogy tanár nélkül is betaníthatók , de bizonyos alkalmazásokban a korlátozott Boltzmann-gépeket tanárral tanítják. A gép rejtett rétege az adatok mély jellemzői, amelyek a tanulási folyamat során feltárulnak (lásd még Adatbányászat ).

A korlátos Boltzmann gépek alkalmazási köre széles skálán mozog – ezek az adatok dimenziócsökkentési problémák [ 3 ] , osztályozási problémák [4] , kollaboratív szűrés [5] , jellemzők tanulása [ 6] és témamodellezés [7] . 

Egy korlátozott Boltzmann-gépben a neuronok egy bipartit gráfot alkotnak , a gráf egyik oldalán látható neuronok (bemenet), a másik oldalon rejtett neuronok találhatók, és keresztkötések jönnek létre az egyes látható és rejtett neuronok között. Egy ilyen kapcsolatrendszer lehetővé teszi a gradiens süllyedés módszerének kontrasztív divergenciával történő alkalmazását a hálózat betanítása során [8] .

Hálózati struktúra

A korlátozott Boltzmann-gép Bernoulli-eloszlású bináris elemeken alapul, amelyek a hálózat látható és rejtett rétegeit alkotják. A rétegek közötti kapcsolatokat súlymátrix ( m  ×  n méret), valamint a látható réteg és a rejtett réteg eltolásai segítségével határozzák meg.

A hálózati energia ( v , h ) fogalmát úgy vezetjük be

vagy mátrix formában

A Hopfield hálózatnak is van hasonló energetikai funkciója . Ami a szokásos Boltzmann-gépet illeti, a látható és rejtett rétegek vektoraira való eloszlás valószínűségét az energia határozza meg [9] :

ahol  az összes lehetséges hálózatra definiált partíciós függvény (más szóval  egy normalizációs állandó, amely garantálja, hogy az összes valószínűség összege eggyel egyenlő). Egy külön bemeneti vektor valószínűségének meghatározása (marginális eloszlás) hasonlóan történik az összes lehetséges rejtett réteg konfigurációinak összegén keresztül [9] :

A hálózat kétrészes gráfként való felépítéséből adódóan a rejtett réteg egyes elemei egymástól függetlenek és a látható réteget aktiválják, és fordítva, a látható réteg egyes elemei függetlenek egymástól és aktiválják a rejtett réteget. réteg [8] . Látható és rejtett elemek esetén a v feltételes valószínűségeket a h valószínűségek szorzatai határozzák meg :

és fordítva, a h feltételes valószínűségeket a v valószínűségek szorzataként határozzuk meg :

Egy elem specifikus aktiválási valószínűségét a következőképpen határozzuk meg

és

hol  van a rétegaktiválás logisztikus függvénye .

A látható rétegek multinomiális eloszlásúak is lehetnek , míg a rejtett rétegek Bernoulli eloszlásúak . Multinomialitás esetén a softmax a logisztikai függvény helyett :

ahol K  a látható elemek diszkrét értékeinek száma. Ezt a reprezentációt témamodellezési problémákban [7] és ajánlórendszerekben [5] használják .

Kapcsolat más modellekkel

A korlátozott Boltzmann-gép a közönséges Boltzmann-gép és a Markov-hálózat speciális esete [10] [11] . Gráfmodelljük megfelel a faktoranalízis gráfmodelljének [12] .

Tanulási algoritmus

A tanulási cél egy rendszer valószínűségének maximalizálása egy adott mintakészlettel (egy olyan mátrixszal, amelyben minden sor a látható vektor egy mintájának felel meg ), amelyet a valószínűségek szorzataként határozunk meg.

vagy ami ugyanaz, maximalizálja a szorzat logaritmusát: [10] [11]

A neurális hálózat betanításához a kontrasztív divergencia (CD) algoritmust használják az optimális mátrixsúlyok megtalálásához , Geoffrey Hinton javasolta eredetileg a PoE („szakértői becslések terméke”) modellek betanításához [13] [14] . Az algoritmus Gibbs-mintavételt használ a gradiens süllyedési eljárás megszervezéséhez , hasonlóan a neurális hálózatok visszaterjesztési módszeréhez .

Általában a kontrasztív divergencia (CD-1) egyik lépése így néz ki:

  1. Egy v adatmintára kiszámítja a rejtett elem valószínűségeit, és az aktiválást alkalmazza a h rejtett rétegre az adott valószínűségi eloszláshoz.
  2. A v és h külső szorzatát (mintavételét) kiszámítjuk , amit pozitív gradiensnek nevezünk .
  3. A h mintán keresztül a látható v' réteg mintáját rekonstruáljuk , majd a rejtett h' réteg aktiválásával ismételten mintavételezésre kerül sor . (Ezt a lépést Gibbs-mintavételnek hívják .)
  4. Ezután a külső szorzatot számítjuk ki , de már a v' és h' vektorokat , amit negatív gradiensnek nevezünk .
  5. A súlymátrixot a pozitív és negatív gradiens különbségére korrigálják, megszorozva a tanulási sebességet meghatározó tényezővel: .
  6. Az a és b torzítást hasonló módon korrigálják: , .

Gyakorlati útmutató a tanulási folyamat megvalósításához Jeffrey Hinton személyes oldalán [9] található .

Lásd még

Linkek

  1. Szmolenszkij, Paul. 6. fejezet: Információfeldolgozás dinamikus rendszerekben: A harmóniaelmélet alapjai // Párhuzamos elosztott feldolgozás: Explorations in the Microstructure of Cognition, 1. kötet: Alapok  (angol) / Rumelhart, David E.; McLelland, James L. - MIT Press , 1986. - P. 194-281. — ISBN 0-262-68053-X . Archivált másolat (nem elérhető link) . Letöltve: 2017. november 10. Az eredetiből archiválva : 2013. június 13. 
  2. Hinton, G. Mély hithálózatok  (határozatlan)  // Scholarpedia . - 2009. - T. 4 , 5. sz . - S. 5947 . doi : 10.4249 /scholarpedia.5947 .
  3. Hinton, G.E.; Salakhutdinov, RR Reducing the Dimensionality of Data with Neural Networks  (angol)  // Science : Journal. - 2006. - 20. évf. 313. sz . 5786 . - P. 504-507 . - doi : 10.1126/tudomány.1127647 . — PMID 16873662 .
  4. Larocelle, H.; Bengio, Y. (2008). Osztályozás diszkriminatív korlátozott Boltzmann-gépekkel (PDF) . A gépi tanulásról szóló 25. nemzetközi konferencia anyaga - ICML '08. p. 536. DOI : 10.1145/1390156.1390224 . ISBN  9781605582054 . Archiválva az eredetiből (PDF) , ekkor: 2017-10-13 . Letöltve 2017-11-10 . Elavult használt paraméter |deadlink=( súgó )
  5. 1 2 Salakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Korlátozott Boltzmann gépek együttműködési szűréshez . A gépi tanulásról szóló 24. nemzetközi konferencia anyaga - ICML '07. p. 791. doi : 10.1145/ 1273496.1273596 . ISBN 9781595937933 . 
  6. Coates, Ádám; Lee, Honglak; Ng, Andrew Y. (2011). Egyrétegű hálózatok elemzése felügyelet nélküli funkciótanulásban (PDF) . Nemzetközi Mesterséges Intelligencia és Statisztikai Konferencia (AISTATS). Archivált az eredetiből (PDF) ekkor: 2014-12-20 . Letöltve 2017-11-10 . Elavult használt paraméter |deadlink=( súgó )
  7. 1 2 Ruslan Salakhutdinov és Geoffrey Hinton (2010). Replikált softmax: egy irányítatlan témamodell Archiválva : 2012. május 25. a Wayback Machine -nél . Neurális információfeldolgozó rendszerek 23
  8. 1 2 Miguel A. Carreira-Perpiñán és Geoffrey Hinton (2005). A kontrasztív divergencia tanulásról. Mesterséges intelligencia és statisztika .
  9. 1 2 3 Geoffrey Hinton (2010). Gyakorlati útmutató a korlátozott Boltzmann-gépek képzéséhez , 2014. szeptember 25-én archiválva a Wayback Machine -nál . UTML TR 2010-003, Torontói Egyetem.
  10. 1 2 Sutskever, Ilja; Tieleman, Tijmen. A kontrasztos divergencia konvergencia tulajdonságairól   // Proc . 13. nemzetközi konf. az AI és a statisztikákról (AISTATS): folyóirat. - 2010. Archiválva : 2015. június 10.
  11. 1 2 Asja Fischer és Christian Igel. Korlátozott Boltzmann-gépek képzése: Bevezetés . Archiválva : 2015. június 10. a Wayback Machine -nél . Mintafelismerés 47. o. 2014. 25-39.
  12. María Angélica Cueto; Jason Morton; Bernd Sturmfels. A korlátozott Boltzmann-gép geometriája  (neopr.)  // Algebrai módszerek a statisztikában és a valószínűségben. - Amerikai Matematikai Társaság, 2010. - V. 516 . - arXiv : 0908.4425 .  (nem elérhető link)
  13. Geoffrey Hinton (1999). Products of Experts archiválva 2015. szeptember 24-én a Wayback Machine -nál . ICANN 1999 .
  14. Hinton, GE Szakértői képzési termékek a kontrasztív divergencia minimalizálásával  //  Neurális számítás : folyóirat. - 2002. - 20. évf. 14 , sz. 8 . - P. 1771-1800 . - doi : 10.1162/089976602760128018 . — PMID 12180402 .

Irodalom