Hosszú távú rövid távú memória

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. március 16-án felülvizsgált verziótól ; az ellenőrzések 20 szerkesztést igényelnek .

A rövid távú memóriaelemek hosszú láncolata ( eng. Long short-term memory ; LSTM ) egyfajta visszatérő neurális hálózati architektúra, amelyet 1997-ben Sepp Hochreiter és Jurgen Schmidhuber [2] javasolt . A legtöbb visszatérő neurális hálózathoz hasonlóan az LSTM hálózat is sokoldalú abban az értelemben, hogy elegendő számú hálózati elem mellett bármilyen számítást elvégezhet, amire egy hagyományos számítógép képes, és ehhez megfelelő mátrixra van szükség.súlyok, amelyek programnak tekinthetők. A hagyományos ismétlődő neurális hálózatokkal ellentétben az LSTM hálózat jól alkalmazkodik az idősorok osztályozási , feldolgozási és előrejelzési feladatainak elsajátítására olyan esetekben, amikor a fontos eseményeket határozatlan időtartamú és határok közötti időeltolódás választja el. Az időrésekkel szembeni relatív immunitás az LSTM-et előnyben részesíti az alternatív visszatérő neurális hálózatokkal, a rejtett Markov-modellekkel és a különböző alkalmazásokban használt szekvenciák más betanítási módszereivel szemben. Az LSTM hálózatok számos vívmánya közül kiemelhető a legjobb eredmények a nem szegmentált folyamatos kézírás felismerésében [3] , valamint a 2009 -es győzelem a kézírás-felismerő versenyen ( ICDAR ). Az LSTM hálózatokat beszédfelismerési feladatokban is használják , például az LSTM hálózat volt a hálózat fő összetevője, amely 2013 -ban rekord hibaküszöböt, 17,7%-ot ért el a klasszikus természetes beszédkorpusz TIMIT fonémafelismerési feladatában. [4] . 2016-tól a vezető technológiai vállalatok, köztük a Google , az Apple , a Microsoft és a Baidu az LSTM-hálózatokat új termékek alapvető összetevőjeként használják [5] [6] .

Építészet

Az LSTM hálózat egy mesterséges neurális hálózat, amely LSTM modulokat tartalmaz más hálózati modulok helyett vagy kiegészítéseként. Az LSTM modul egy ismétlődő hálózati modul, amely rövid és hosszú ideig egyaránt képes értékeket tárolni. Ennek a képességnek a kulcsa az, hogy az LSTM modul nem használ aktiválási funkciót a visszatérő összetevőiben. Így a tárolt érték nem homályosodik el időben, és a gradiens vagy a büntetés nem tűnik el, ha mesterséges neurális hálózat betanítása során a backpropagation through time módszert alkalmazzuk .

Az LSTM-eket gyakran "blokkokba" csoportosítják, amelyek különféle LSTM-eket tartalmaznak. Egy ilyen eszköz jellemző a "mély" többrétegű neurális hálózatokra, és megfelelő berendezésekkel hozzájárul a párhuzamos számítások megvalósításához. Az alábbi képletekben minden változó kisbetűs, dőlt betűvel írva egy olyan dimenzióvektort jelöl, amely megegyezik a blokkban lévő LSTM modulok számával.

Az LSTM blokkok három vagy négy „kaput” tartalmaznak, amelyek az információáramlás vezérlésére szolgálnak e blokkok memóriájának be- és kimenetein. Ezek a kapuk logisztikai függvényként vannak megvalósítva a [0; egy]. Az ezzel az értékkel való szorzás arra szolgál, hogy részben engedélyezze vagy megtagadja az információáramlást a memóriába és a memóriából. Például a „bemeneti kapu” azt szabályozza, hogy egy új érték milyen mértékben kerüljön be a memóriába, a „felejtési kapu” pedig azt, hogy egy érték milyen mértékben marad meg a memóriában. A "kimeneti kapu" szabályozza, hogy a memóriában lévő értéket milyen mértékben használják fel a blokk kimeneti aktiválási függvényének kiszámításához. (Egyes megvalósításokban a bemeneti kapu és a felejtési kapu egyetlen kapuként valósul meg. Az ötlet az, hogy a régi értéket el kell felejteni, ha van új érték, amelyet érdemes megjegyezni).

Az LSTM blokkban lévő súlyok ( és ) a kapuk működési irányának beállítására szolgálnak. Ezek a súlyok a blokkba betáplált értékekre vonatkoznak (beleértve az előző időlépés kimenetét is ) minden egyes kapunál. Így az LSTM blokk meghatározza, hogyan kezelje a memóriáját ezen értékek függvényében, és a súlyzós edzés lehetővé teszi, hogy az LSTM blokk megtanuljon egy olyan funkciót, amely minimalizálja a veszteséget. Az LSTM blokkokat általában az idő múlásával visszaszaporítással tanítják. $W$ $U$ $x_t$ $h_{t-1}$

Hagyományos LSTM

Hagyományos LSTM felejtőkapukkal [2] [7] és ( a Hadamard termék rövidítése ): $c_{0}=0$ $h_{0}=0$ $\circ$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\i_ {t}&=\sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\\o_{t}&=\sigma _{g }(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\\c_{t}&=f_{t}\circ c_{t-1}+i_{ t}\circ \sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t})\end{aligned}}

Változók:

$x_t$ a bemeneti vektor,
$h_{t}$ a kimeneti vektor,
$c_{t}$ az állapotvektor,
$W$ , és paramétermátrixok és egy vektor, $U$ $b$
$f_t$ , és kapuvektorok, ${\displaystyle i_{t))$ ${\displaystyle o_{t))$
- $f_t$ a felejtési kapu vektora, a régi információk emlékezésének súlya,
- ${\displaystyle i_{t))$ a bemeneti kapuvektor, az új információ megszerzésének súlya,
- ${\displaystyle o_{t))$ a kimeneti kapuvektor, a kimenet jelöltje.

Aktiválási funkciók :

$\sigma _{g}$ : a szigmoid alapján .
$\sigma _{c}$ : a hiperbolikus érintő alapján .
$\sigma _{h}$ : A hiperbolikus tangens alapján, de az LSTM kukucskáló papír azt feltételezi, hogy . [8] [9] $\sigma _{h}(x)=x$

LSTM szemekkel

Az Eye LSTM felejtőkapukkal [8] [9] nem használatos, a legtöbb helyen csereként használják: $h_{t-1}$ $c_{t-1}$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}c_{t-1}+b_{f})\\i_ {t}&=\sigma _{g}(W_{i}x_{t}+U_{i}c_{t-1}+b_{i})\\o_{t}&=\sigma _{g }(W_{o}x_{t}+U_{o}c_{t-1}+b_{o})\\c_{t}&=f_{t}\circ c_{t-1}+i_{ t}\circ \sigma _{c}(W_{c}x_{t}+b_{c})\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t} )\end{igazított}}

Konvolúciós LSTM

Konvolúciós LSTM [10] ( a konvolúciós operátort jelenti ): $*$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}\circ c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_ {i}\circ c_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t -1}+V_{o}\circ c_{t-1}+b_{o})\\c_{t}&=f_{t}\circ c_{t-1}+i_{t}\circ \ szigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})\\h_{t}&=o_{t}\circ \sigma _ {h}(c_{t})\end{igazított}}

Edzés

Az LSTM általános hibájának minimalizálása érdekében a tanítási szekvenciák teljes készletében, az iteratív gradiens süllyedés , például az időnkénti visszagöngyölítés felhasználható az egyes súlyok deriváltjával arányosan történő megváltoztatására a hiba nagyságától függően. A fő probléma a gradiens süllyedésével a standard visszatérő neurális hálózatok esetében az, hogy a hibagradiensek exponenciálisan csökkennek, ahogy a fontos események közötti időkésés nő, amit 1991 -ben azonosítottak [11] [12] . Az LSTM blokkoknál azonban, amikor a hibaértékek visszaterjednek a kimeneti rétegből, a hiba zárolva van a blokk memóriájában. Ezt "hibakörhintanak" nevezik, amely folyamatosan "táplál" egy hibát az egyes kapukhoz, amíg meg nem tanítják őket egy érték elvetésére. Így a rendszeres hibavisszaterjesztés hatékony az LSTM blokk betanítására, hogy nagyon hosszú ideig emlékezzen az értékekre.

Az LSTM tanítható a rejtett rétegekben lévő súlyok evolúciós algoritmusának és a pszeudoinverz mátrixoknak vagy a kimeneti réteg súlyainak támogató vektorgépének kombinációjával is. [13] A megerősített tanulás során az LSTM-eket úgy lehet képezni, hogy közvetlenül keresik a teret a stratégiák, evolúciós stratégiák vagy genetikai algoritmusok számára .

Alkalmazások

Példák az LSTM alkalmazására: robotikában [14] , idősorelemzéshez [15] , beszédfelismeréshez [4] [16] [17] , ritmikus tanuláshoz [9] , zenei kompozíciók generálásához [18] , in nyelvtantanulás ( angol mesterséges nyelvtan tanulás ) [8] [19] [20] , kézírás -felismerési feladatokban [21] [22] , emberi tevékenység felismerésére [23] , homológ fehérjék azonosításának feladatában [24] .

Jegyzetek

↑ Klaus Greff; Rupesh Kumar Srivastava; Jan Koutnik; Bas R. Steunebrink & Jürgen Schmidhuber (2015), LSTM: A Search Space Odyssey, arΧiv : 1503.04069 .
↑ 12 Sepp Hochreiter ; Jürgen Schmidhuber . Hosszú, rövid távú memória // Neurális számítás : folyóirat. - 1997. - 1. évf. 9 , sz. 8 . - P. 1735-1780 . - doi : 10.1162/neco.1997.9.8.1735 . — PMID 9377276 . Archiválva az eredetiből 2015. május 26-án. Archivált másolat (nem elérhető link) . Letöltve: 2017. február 4. Az eredetiből archiválva : 2015. május 26.. (határozatlan)
↑ A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. Újszerű konnekcionista rendszer a jobb, korlátlan kézírás-felismeréshez. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31. sz. 2009. 5.
↑ 1 2 Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey. Speech Recognition with Deep Recurrent Neural Networks // Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on : folyóirat. - 2013. - P. 6645-6649 .
↑ A QuickType segítségével az Apple többet szeretne tenni, mint kitalálni a következő szöveget. AI-t akar adni neked. (angol) . VEZETÉKES . Hozzáférés időpontja: 2016. június 16. Az eredetiből archiválva : 2017. március 24.
↑ Ismétlődő neurális hálózatok - Visszacsatolási hálózatok - Lstm Ismétlődő Hálózat - Visszacsatolás Neurális Hálózat - Ismétlődő Hálózatok - Visszacsatolási Hálózat - Ismétlődő Hálózat - - Visszacsatolási Hálózat . people.idsia.ch _ Letöltve: 2016. június 16. Az eredetiből archiválva : 2021. május 5. (határozatlan)
↑ Felix A. Gers; Jürgen Schmidhuber; Fred Cummins. A felejtés megtanulása: Folyamatos előrejelzés az LSTM-mel // Neurális számítás : folyóirat. - 2000. - Vol. 12 , sz. 10 . - P. 2451-2471 . - doi : 10.1162/089976600300015015 .
↑ 1 2 3 Gers, F.A.; Schmidhuber, J. LSTM Recurrent Networks Tanuljon egyszerű kontextusmentes és környezetérzékeny nyelveket // IEEE Transactions on Neural Networks : folyóirat. - 2001. - 20. évf. 12 , sz. 6 . - P. 1333-1340 . - doi : 10.1109/72.963769 .
↑ 1 2 3 Gers, F.; Schraudolph, N.; Schmidhuber, J. Pontos időzítés tanulása LSTM visszatérő hálózatokkal // Journal of Machine Learning Research : Journal. - 2002. - 20. évf. 3 . - 115-143 . o .
↑ Xingjian Shi; Zhurong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting // Proceedings of the 28th International Conference on Neural Information Processing Systems : folyóirat. - 2015. - P. 802-810 .
↑ S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diplomadolgozat, Institut f. Informatik, Technische Univ. München, 1991.
↑ S. Hochreiter, Y. Bengio, P. Frasconi és J. Schmidhuber. Gradiens áramlás visszatérő hálókban: a hosszú távú függőségek megtanulásának nehézsége. In SC Kremer és JF Kolen, szerkesztők, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
↑ Schmidhuber, J.; Wierstra, D.; Gagliolo, M.; Gomez, F. Ismétlődő hálózatok képzése , Evolino // Neural Computation. - 2007. - Vol. 19 , sz. 3 . - P. 757-779 . - doi : 10.1162/neco.2007.19.3.757 .
↑ H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll és J. Schmidhuber. Robot szívsebészeti rendszer, amely megtanulja csomókat kötni visszatérő neurális hálózatok segítségével. Advanced Robotics, 22/13-14, pp. 1521-1537, 2008.
↑ J. Schmidhuber és D. Wierstra és F. J. Gomez. Evolino: Hibrid neuroevolúció / Optimális lineáris keresés a szekvenciatanuláshoz. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, pp. 853-858, 2005.
↑ Graves, A.; Schmidhuber, J. Framewise fonémaosztályozás kétirányú LSTM-mel és más neurális hálózati architektúrákkal // Neural Networks : Journal. - 2005. - 20. évf. 18 , sz. 5-6 . - P. 602-610 . - doi : 10.1016/j.neunet.2005.06.042 .
↑ S. Fernandez, A. Graves, J. Schmidhuber. Ismétlődő neurális hálózatok alkalmazása diszkriminatív kulcsszófelderítésre. Intl. Konf. A mesterséges neurális hálózatokról ICANN'07, 2007.
↑ D. Eck és J. Schmidhuber. A Blues hosszú távú szerkezetének megismerése. In J. Dorronsoro, ed., Proceedings of Int. Konf. a mesterséges neurális hálózatokról ICANN'02, Madrid, 284-289. oldal, Springer, Berlin, 2002.
↑ Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. Nem szabályos nyelvek tanulása: Egyszerű ismétlődő hálózatok és az LSTM összehasonlítása // Neurális számítás : folyóirat. - 2002. - 20. évf. 14 , sz. 9 . - P. 2039-2041 . doi : 10.1162 / 089976602320263980 .
↑ Perez-Ortiz, JA; Gers, F. A.; Eck, D.; Schmidhuber, J. Kalman szűrők javítják az LSTM hálózat teljesítményét a hagyományos visszatérő hálózatok által megoldhatatlan problémák esetén // Neural Networks : Journal. - 2003. - 1. évf. 16 , sz. 2 . - P. 241-250 . - doi : 10.1016/s0893-6080(02)00219-8 .
↑ A. Graves, J. Schmidhuber. Offline kézírás-felismerés többdimenziós visszatérő neurális hálózatokkal. Advances in Neural Information Processing Systems 22, NIPS'22, pp. 545-552, Vancouver, MIT Press, 2009.
↑ A. Graves, S. Fernandez, M. Liwicki, H. Bunke, J. Schmidhuber. Kötetlen online kézírás-felismerés visszatérő neurális hálózatokkal. Advances in Neural Information Processing Systems 21, NIPS'21, pp. 577-584, 2008, MIT Press, Cambridge, MA, 2008.
↑ M. Baccouche, F. Mamalet, C. Wolf, C. Garcia, A. Baskurt. Szekvenciális mély tanulás az emberi cselekvés felismeréséhez. 2nd International Workshop on Human Behavior Understanding (HBU), AA Salah, B. Lepri szerk. Amszterdam, Hollandia. pp. 29-39. Előadásjegyzetek számítástechnikából 7065. Springer. 2011
↑ Hochreiter, S.; Heusel, M.; Obermayer, K. Gyors modell-alapú fehérjehomológia kimutatás igazítás nélkül // Bioinformatika : folyóirat. - 2007. - Vol. 23 , sz. 14 . - P. 1728-1736 . - doi : 10.1093/bioinformatika/btm247 . — PMID 17488755 .

Linkek

Ismétlődő neurális hálózatok – Több mint 30 cikk az LSTM-ről Jürgen Schmidhuber csoportjától az IDSIA -nál
PhD értekezés az LSTM hálózatokról.
Egy cikk a csalások felderítéséről , két fejezettel a visszatérő neurális hálózatok, különösen az LSTM magyarázatára.
Egy cikk egy nagy teljesítményű LSTM-bővítményről, amely tetszőleges architektúrák megtanulására képes egyetlen csomóponttípusra egyszerűsítve.
Oktatóanyag: Hogyan implementáljunk LSTM-hálózatot Pythonban a Theano segítségével

Szótárak és enciklopédiák	nagy kínai

A mesterséges neurális hálózatok típusai

Feed-forward hálózat ( radiális alapú funkciók hálózata )
Egyrétegű perceptron
Többrétegű perceptron ( Rosenblatt • Rumelhart )
Hopfield hálózat
Markov lánc
Boltzmann gép
Limitált Boltzmann gép
Autoencoder ( Zajtalanító autoencoder • Ritka autoencoder • Változatos autoencoder )
A bizalom mély hálója
Konvolúciós Neurális Hálózat
Mély konvolúciós neurális hálózat
Telepítési neurális hálózat
Mély konvolúciós inverz grafikus hálózat
Generatív ellenséges hálózat
Ismétlődő neurális hálózat
Rekurzív neurális hálózatok
hosszú távú rövid távú memória
Ellenőrzött visszatérő blokk
Neurális Turing-gépek
Kétirányú hálózat ( Bidirectional recurrent neural network • Kétirányú hálózat hosszú távú memóriával • Kétirányú vezérelt visszatérő neuronok )
Deep Residual Network
Neurális visszhanghálózat
Extrém tanulási módszer
Az instabil állapotok módszere
Támogatja a vektoros gépet
Kohonen hálózat
Kohonen önszerveződő térképe
Kapszula neurális hálózat
Asszociatív memória neurális hálózatokon

Gépi tanulás és adatbányászat
Feladatok	Osztályozási probléma Tanulás tanár nélkül Tanár által segített tanulás Regresszió analízis AutoML Egyesületi szabályzat Funkció kivonás Tulajdonságok képzése Rangsorképzés Nyelvtani levezetés Online tanulás
Tanulás tanárral	k-legközelebbi szomszéd módszer Naiv Bayes osztályozó döntési fa Támogatja a vektoros gépet Lineáris regresszió Logisztikus regresszió perceptron Modellek együttesei Zsákolás fellendítése véletlenszerű erdő Releváns vektoros módszer
klaszteranalízis	k-közép módszer Fuzzy klaszterezési módszer Hierarchikus klaszterezés EM algoritmus NYÍR GYÓGYMÓD DBSCAN OPTIKA Átlageltolás
Dimenziócsökkentés	Faktoranalízis Főkomponens módszer CCA ICA LDA Nem negatív mátrix kiterjesztése t-SNE
Strukturális előrejelzés	Grafikon valószínűségi modell Bayesi hálózat Rejtett Markov-modell CRF
Anomália észlelése	k-legközelebbi szomszéd módszer Helyi kibocsátási szint
Grafikon valószínűségi modellek	Bayesi hálózat Markov hálózat Rejtett Markov-modell
Neurális hálózatok	Limitált Boltzmann gép önszerveződő térkép Aktiválási funkció Szigma alakú softmax Radiális bázisfüggvény Hátsó szaporítási módszer Mély tanulás Többrétegű perceptron Ismétlődő neurális hálózat hosszú távú rövid távú memória Ellenőrzött visszatérő blokk Konvolúciós Neurális Hálózat U-Net Autoencoder
Megerősítő tanulás	Markov folyamat Bellman egyenlet Mohó algoritmus Q-learning SARSA Időbeli különbség (TD)
Elmélet	Vapnik-Chervonenkis elmélet Elfogultság-diszperziós dilemma Számítógépes tanuláselmélet Empirikus kockázatminimalizálás Occam tanul PAC tanulás Statisztikai tanuláselmélet
Folyóiratok és konferenciák	NeurIPS ICML ML JMLR ArXiv:cs.LG