Hosszú távú rövid távú memória
Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2021. március 16-án felülvizsgált
verziótól ; az ellenőrzések 20 szerkesztést igényelnek .
A rövid távú memóriaelemek hosszú láncolata ( eng. Long short-term memory ; LSTM ) egyfajta visszatérő neurális hálózati architektúra, amelyet 1997-ben Sepp Hochreiter és Jurgen Schmidhuber [2] javasolt . A legtöbb visszatérő neurális hálózathoz hasonlóan az LSTM hálózat is sokoldalú abban az értelemben, hogy elegendő számú hálózati elem mellett bármilyen számítást elvégezhet, amire egy hagyományos számítógép képes, és ehhez megfelelő mátrixra van szükség.súlyok, amelyek programnak tekinthetők. A hagyományos ismétlődő neurális hálózatokkal ellentétben az LSTM hálózat jól alkalmazkodik az idősorok osztályozási , feldolgozási és előrejelzési feladatainak elsajátítására olyan esetekben, amikor a fontos eseményeket határozatlan időtartamú és határok közötti időeltolódás választja el. Az időrésekkel szembeni relatív immunitás az LSTM-et előnyben részesíti az alternatív visszatérő neurális hálózatokkal, a rejtett Markov-modellekkel és a különböző alkalmazásokban használt szekvenciák más betanítási módszereivel szemben. Az LSTM hálózatok számos vívmánya közül kiemelhető a legjobb eredmények a nem szegmentált folyamatos kézírás felismerésében [3] , valamint a 2009 -es győzelem a kézírás-felismerő versenyen ( ICDAR ). Az LSTM hálózatokat beszédfelismerési feladatokban is használják , például az LSTM hálózat volt a hálózat fő összetevője, amely 2013 -ban rekord hibaküszöböt, 17,7%-ot ért el a klasszikus természetes beszédkorpusz TIMIT fonémafelismerési feladatában. [4] . 2016-tól a vezető technológiai vállalatok, köztük a Google , az Apple , a Microsoft és a Baidu az LSTM-hálózatokat új termékek alapvető összetevőjeként használják [5] [6] .
Építészet
Az LSTM hálózat egy mesterséges neurális hálózat, amely LSTM modulokat tartalmaz más hálózati modulok helyett vagy kiegészítéseként. Az LSTM modul egy ismétlődő hálózati modul, amely rövid és hosszú ideig egyaránt képes értékeket tárolni. Ennek a képességnek a kulcsa az, hogy az LSTM modul nem használ aktiválási funkciót a visszatérő összetevőiben. Így a tárolt érték nem homályosodik el időben, és a gradiens vagy a büntetés nem tűnik el, ha mesterséges neurális
hálózat betanítása során a backpropagation through time módszert alkalmazzuk .
Az LSTM-eket gyakran "blokkokba" csoportosítják, amelyek különféle LSTM-eket tartalmaznak. Egy ilyen eszköz jellemző a "mély" többrétegű neurális hálózatokra, és megfelelő berendezésekkel hozzájárul a párhuzamos számítások megvalósításához. Az alábbi képletekben minden változó kisbetűs, dőlt betűvel írva egy olyan dimenzióvektort jelöl, amely megegyezik a blokkban lévő LSTM modulok számával.
Az LSTM blokkok három vagy négy „kaput” tartalmaznak, amelyek az információáramlás vezérlésére szolgálnak e blokkok memóriájának be- és kimenetein. Ezek a kapuk logisztikai függvényként vannak megvalósítva a [0; egy]. Az ezzel az értékkel való szorzás arra szolgál, hogy részben engedélyezze vagy megtagadja az információáramlást a memóriába és a memóriából. Például a „bemeneti kapu” azt szabályozza, hogy egy új érték milyen mértékben kerüljön be a memóriába, a „felejtési kapu” pedig azt, hogy egy érték milyen mértékben marad meg a memóriában. A "kimeneti kapu" szabályozza, hogy a memóriában lévő értéket milyen mértékben használják fel a blokk kimeneti aktiválási függvényének kiszámításához. (Egyes megvalósításokban a bemeneti kapu és a felejtési kapu egyetlen kapuként valósul meg. Az ötlet az, hogy a régi értéket el kell felejteni, ha van új érték, amelyet érdemes megjegyezni).
Az LSTM blokkban lévő súlyok ( és ) a kapuk működési irányának beállítására szolgálnak. Ezek a súlyok a blokkba betáplált értékekre vonatkoznak (beleértve az előző időlépés kimenetét is ) minden egyes kapunál. Így az LSTM blokk meghatározza, hogyan kezelje a memóriáját ezen értékek függvényében, és a súlyzós edzés lehetővé teszi, hogy az LSTM blokk megtanuljon egy olyan funkciót, amely minimalizálja a veszteséget. Az LSTM blokkokat általában az idő múlásával visszaszaporítással tanítják.




Hagyományos LSTM
Hagyományos LSTM felejtőkapukkal [2] [7] és ( a Hadamard termék rövidítése ):



Változók:
a bemeneti vektor,
a kimeneti vektor,
az állapotvektor,
, és paramétermátrixok és egy vektor,

, és kapuvektorok,


a felejtési kapu vektora, a régi információk emlékezésének súlya,
a bemeneti kapuvektor, az új információ megszerzésének súlya,
a kimeneti kapuvektor, a kimenet jelöltje.
Aktiválási funkciók :
LSTM szemekkel
Az Eye LSTM felejtőkapukkal [8] [9] nem használatos, a legtöbb helyen csereként használják:


Konvolúciós LSTM
Konvolúciós LSTM [10] ( a konvolúciós operátort jelenti ):

Edzés
Az LSTM általános hibájának minimalizálása érdekében a tanítási szekvenciák teljes készletében, az iteratív gradiens süllyedés , például az időnkénti visszagöngyölítés felhasználható az egyes súlyok deriváltjával arányosan történő megváltoztatására a hiba nagyságától függően. A fő probléma a gradiens süllyedésével a standard visszatérő neurális hálózatok esetében az, hogy a hibagradiensek exponenciálisan csökkennek, ahogy a fontos események közötti időkésés nő, amit 1991 -ben azonosítottak [11] [12] . Az LSTM blokkoknál azonban, amikor a hibaértékek visszaterjednek a kimeneti rétegből, a hiba zárolva van a blokk memóriájában. Ezt "hibakörhintanak" nevezik, amely folyamatosan "táplál" egy hibát az egyes kapukhoz, amíg meg nem tanítják őket egy érték elvetésére. Így a rendszeres hibavisszaterjesztés hatékony az LSTM blokk betanítására, hogy nagyon hosszú ideig emlékezzen az értékekre.
Az LSTM tanítható a rejtett rétegekben lévő súlyok evolúciós algoritmusának és a pszeudoinverz mátrixoknak vagy a kimeneti réteg súlyainak támogató vektorgépének kombinációjával is. [13] A megerősített tanulás során az LSTM-eket úgy lehet képezni, hogy közvetlenül keresik a teret a stratégiák, evolúciós stratégiák vagy genetikai algoritmusok számára .
Alkalmazások
Példák az LSTM alkalmazására: robotikában [14] , idősorelemzéshez [15] , beszédfelismeréshez [4] [16] [17] , ritmikus tanuláshoz [9] , zenei kompozíciók generálásához [18] , in nyelvtantanulás ( angol mesterséges nyelvtan tanulás ) [8] [19] [20] , kézírás -felismerési feladatokban [21] [22] , emberi tevékenység felismerésére [23] , homológ fehérjék azonosításának feladatában [24] .
Jegyzetek
- ↑ Klaus Greff; Rupesh Kumar Srivastava; Jan Koutnik; Bas R. Steunebrink & Jürgen Schmidhuber (2015), LSTM: A Search Space Odyssey, arΧiv : 1503.04069 .
- ↑ 12 Sepp Hochreiter ; Jürgen Schmidhuber . Hosszú, rövid távú memória // Neurális számítás : folyóirat. - 1997. - 1. évf. 9 , sz. 8 . - P. 1735-1780 . - doi : 10.1162/neco.1997.9.8.1735 . — PMID 9377276 . Archiválva az eredetiből 2015. május 26-án. Archivált másolat (nem elérhető link) . Letöltve: 2017. február 4. Az eredetiből archiválva : 2015. május 26.. (határozatlan)
- ↑ A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. Újszerű konnekcionista rendszer a jobb, korlátlan kézírás-felismeréshez. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31. sz. 2009. 5.
- ↑ 1 2 Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey. Speech Recognition with Deep Recurrent Neural Networks // Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on : folyóirat. - 2013. - P. 6645-6649 .
- ↑ A QuickType segítségével az Apple többet szeretne tenni, mint kitalálni a következő szöveget. AI-t akar adni neked. (angol) . VEZETÉKES . Hozzáférés időpontja: 2016. június 16. Az eredetiből archiválva : 2017. március 24.
- ↑ Ismétlődő neurális hálózatok - Visszacsatolási hálózatok - Lstm Ismétlődő Hálózat - Visszacsatolás Neurális Hálózat - Ismétlődő Hálózatok - Visszacsatolási Hálózat - Ismétlődő Hálózat - - Visszacsatolási Hálózat . people.idsia.ch _ Letöltve: 2016. június 16. Az eredetiből archiválva : 2021. május 5. (határozatlan)
- ↑ Felix A. Gers; Jürgen Schmidhuber; Fred Cummins. A felejtés megtanulása: Folyamatos előrejelzés az LSTM-mel // Neurális számítás : folyóirat. - 2000. - Vol. 12 , sz. 10 . - P. 2451-2471 . - doi : 10.1162/089976600300015015 .
- ↑ 1 2 3 Gers, F.A.; Schmidhuber, J. LSTM Recurrent Networks Tanuljon egyszerű kontextusmentes és környezetérzékeny nyelveket // IEEE Transactions on Neural Networks : folyóirat. - 2001. - 20. évf. 12 , sz. 6 . - P. 1333-1340 . - doi : 10.1109/72.963769 .
- ↑ 1 2 3 Gers, F.; Schraudolph, N.; Schmidhuber, J. Pontos időzítés tanulása LSTM visszatérő hálózatokkal // Journal of Machine Learning Research : Journal. - 2002. - 20. évf. 3 . - 115-143 . o .
- ↑ Xingjian Shi; Zhurong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting // Proceedings of the 28th International Conference on Neural Information Processing Systems : folyóirat. - 2015. - P. 802-810 .
- ↑ S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diplomadolgozat, Institut f. Informatik, Technische Univ. München, 1991.
- ↑ S. Hochreiter, Y. Bengio, P. Frasconi és J. Schmidhuber. Gradiens áramlás visszatérő hálókban: a hosszú távú függőségek megtanulásának nehézsége. In SC Kremer és JF Kolen, szerkesztők, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
- ↑ Schmidhuber, J.; Wierstra, D.; Gagliolo, M.; Gomez, F. Ismétlődő hálózatok képzése , Evolino // Neural Computation. - 2007. - Vol. 19 , sz. 3 . - P. 757-779 . - doi : 10.1162/neco.2007.19.3.757 .
- ↑ H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll és J. Schmidhuber. Robot szívsebészeti rendszer, amely megtanulja csomókat kötni visszatérő neurális hálózatok segítségével. Advanced Robotics, 22/13-14, pp. 1521-1537, 2008.
- ↑ J. Schmidhuber és D. Wierstra és F. J. Gomez. Evolino: Hibrid neuroevolúció / Optimális lineáris keresés a szekvenciatanuláshoz. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, pp. 853-858, 2005.
- ↑ Graves, A.; Schmidhuber, J. Framewise fonémaosztályozás kétirányú LSTM-mel és más neurális hálózati architektúrákkal // Neural Networks : Journal. - 2005. - 20. évf. 18 , sz. 5-6 . - P. 602-610 . - doi : 10.1016/j.neunet.2005.06.042 .
- ↑ S. Fernandez, A. Graves, J. Schmidhuber. Ismétlődő neurális hálózatok alkalmazása diszkriminatív kulcsszófelderítésre. Intl. Konf. A mesterséges neurális hálózatokról ICANN'07, 2007.
- ↑ D. Eck és J. Schmidhuber. A Blues hosszú távú szerkezetének megismerése. In J. Dorronsoro, ed., Proceedings of Int. Konf. a mesterséges neurális hálózatokról ICANN'02, Madrid, 284-289. oldal, Springer, Berlin, 2002.
- ↑ Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. Nem szabályos nyelvek tanulása: Egyszerű ismétlődő hálózatok és az LSTM összehasonlítása // Neurális számítás : folyóirat. - 2002. - 20. évf. 14 , sz. 9 . - P. 2039-2041 . doi : 10.1162 / 089976602320263980 .
- ↑ Perez-Ortiz, JA; Gers, F. A.; Eck, D.; Schmidhuber, J. Kalman szűrők javítják az LSTM hálózat teljesítményét a hagyományos visszatérő hálózatok által megoldhatatlan problémák esetén // Neural Networks : Journal. - 2003. - 1. évf. 16 , sz. 2 . - P. 241-250 . - doi : 10.1016/s0893-6080(02)00219-8 .
- ↑ A. Graves, J. Schmidhuber. Offline kézírás-felismerés többdimenziós visszatérő neurális hálózatokkal. Advances in Neural Information Processing Systems 22, NIPS'22, pp. 545-552, Vancouver, MIT Press, 2009.
- ↑ A. Graves, S. Fernandez, M. Liwicki, H. Bunke, J. Schmidhuber. Kötetlen online kézírás-felismerés visszatérő neurális hálózatokkal. Advances in Neural Information Processing Systems 21, NIPS'21, pp. 577-584, 2008, MIT Press, Cambridge, MA, 2008.
- ↑ M. Baccouche, F. Mamalet, C. Wolf, C. Garcia, A. Baskurt. Szekvenciális mély tanulás az emberi cselekvés felismeréséhez. 2nd International Workshop on Human Behavior Understanding (HBU), AA Salah, B. Lepri szerk. Amszterdam, Hollandia. pp. 29-39. Előadásjegyzetek számítástechnikából 7065. Springer. 2011
- ↑ Hochreiter, S.; Heusel, M.; Obermayer, K. Gyors modell-alapú fehérjehomológia kimutatás igazítás nélkül // Bioinformatika : folyóirat. - 2007. - Vol. 23 , sz. 14 . - P. 1728-1736 . - doi : 10.1093/bioinformatika/btm247 . — PMID 17488755 .
Linkek
Szótárak és enciklopédiák |
|
---|
A mesterséges neurális hálózatok típusai |
---|
|