Delta szabály

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2018. szeptember 22-én felülvizsgált verziótól ; az ellenőrzések 11 szerkesztést igényelnek .

A delta szabály egy perceptron tanulási módszer , amely a hibafelületre való gradiens süllyedés elvén alapul . Ennek továbbfejlesztése a visszaszaporítási módszer megalkotásához vezetett .

Delta szabály

Valójában a delta-szabályt a jelölés matematikai alakjának nevezik. Legyen a vektor a bemeneti jelek vektora , a vektor pedig azoknak a jeleknek a vektora, amelyeket a perceptrontól a bemeneti vektor hatására kell fogadni. Itt van a perceptront alkotó neuronok száma. A perceptron bemenetein kapott bemeneti jeleket súlyozták és összegezték, ami a perceptron kimeneti értékeinek vektorát eredményezte. Ekkor meghatározható a hibavektor , amelynek mérete egybeesik a kimeneti jelek vektorának méretével. A hibavektor összetevőit a perceptron neuron kimeneti jelének várható és tényleges értéke közötti különbségként definiáljuk: ${\mathbf {X}}={x_{1},x_{2},...x_{r},...x_{m}}$ ${\mathbf {D}}={d_{1},d_{2},...d_{k},...d_{n}}$ $n$ ${\mathbf {Y}}={y_{1},y_{2},...y_{k},...y_{n}}$ ${\mathbf {\mathrm{E} }}={e_{1},e_{2},...e_{k},...e_{n}}$

{\mathbf {\mathrm{E} =DY))

Ilyen jelölésekkel az i-edik neuron j-edik súlyának beállítására szolgáló képlet a következőképpen írható fel:

w_{j}(t+1)=w_{j}(t)+e_{i}x_{j}

A jel száma egytől a bemeneti vektor méretéig változik . A neuronok száma egytől a neuronok számáig változik . Az érték az aktuális oktatási iteráció száma. Így a neuron bemeneti jelének súlya az idegsejt teljes hibájának értékével arányosan a hiba csökkenésének irányába változik. Gyakran arányossági tényezőt vezetnek be , amellyel a hiba nagyságát megszorozzák. Ezt az együtthatót a tanulás sebességének vagy sebességének [1] nevezzük . Így a súlyok beállításának végső képlete: $j$ $m$ $én$ $n$ $t$ $\eta$

w_{j}(t+1)=w_{j}(t)+\eta e_{i}x_{j}

Általános delta szabály

A perceptron által megoldott feladatok körének bővítésére Widrow és Hoff [2] szigmoidális aktivációs függvényt javasolt az idegsejtek számára. Ez lehetővé tette, hogy a perceptron folyamatos jelekkel működjön, de a tanulási algoritmus módosítására volt szükség [3] . A módosított algoritmus célja a négyzetgyökér hibafüggvény minimalizálása:

\epsilon ={\frac {1}{2}}\sum _{{i=1}}^{{n}}{(d_{i}-y_{i})^{2}}

Ezt a függvényt a súlymátrix határozza meg . Itt van a neuron száma, és a bemenet száma. A függvény által leírt felület pszeudo -paraboloid alakú [4] . A tanulás feladata ennek a felületnek a globális minimumának megtalálása. A minimum megtalálásának egyik módja a gradiens süllyedés módszere . A súlyok a felület anti-lejtés irányában vannak beállítva: $w_{ij}$ $én$ $j$

\Delta w_{{ij}}=-\eta {\frac {\partial \epsilon }{\partial w_{{ij))))

Itt van a tanulási arány együtthatója. $\eta$

A hibafüggvény összetett, és elsősorban a perceptron kimeneti jeleitől függ. Az összetett függvények megkülönböztetésének szabályai szerint:

{\frac {\partial \epsilon }{\partial w_{{ij))))={\frac {\partial \epsilon }{\partial y_{i))}{\frac {\partial y_{i)) {\részleges w_{{ij))))

(*)

Az egyes neuronok kimeneti jelét a következő képlet határozza meg: $y_{i}$

y_{i}=\operátornév {f}(S_{i}),S_{i}=\sum _{{j=1}}^{{m}}{w_{{ij}}x_{j}}

Itt van a perceptron bemeneteinek száma, a j-edik bemeneten lévő jel és az aktiválási funkció. Akkor kapjuk: $m$ $x_{j}$ $\operátornév {f}(S)$

{\frac {\partial y_{i}}{\partial w_{{ij}}}}=({\frac {\partial \operatorname {f}(S)}{\partial S)))\mid _{ {S=S_{i}}}{\frac {\partial S_{i}}{\partial w_{{ij}}}}=f^{\prime }(S_{i})x_{j}

(**)

A hibafüggvényt a kimeneti jel értékével differenciálva kapjuk:

{\frac {\partial \epsilon }{\partial y_{i}}}=-(d_{i}-y_{i})

(***)

A (**) és (***) képleteket a (*) kifejezésbe behelyettesítve egy kifejezést kapunk az i-edik neuron j-edik bemenetének súlyának beállítására bármely aktiválási függvényre [5] :

\Delta w_{{ij}}=\eta (d_{i}-y_{i})f^{\prime }(S_{i})x_{j}

Ebből a képletből látható, hogy aktivációs függvényként az általánosított delta szabály alkalmazásakor a neuronok aktivációs függvényének folyamatosan differenciálhatónak kell lennie a teljes x tengely mentén. Az egyszerű deriválttal (például logisztikus görbével vagy hiperbolikus érintővel) rendelkező aktiválási függvények előnyt jelentenek.

A delta szabály alapján Widrow és Hopf megalkotta az egyik első hardveres neurokomputert , az Adalint ( 1960 ).

Jegyzetek

↑ Nielsen, Michael A. Neurális hálózatok és mély tanulás . — 2015-01-01. Archiválva az eredetiből 2016. szeptember 6-án.
↑ Widrow B., Hoff ME - Adaptív kapcsolóáramkörök. 1969 IRE WESTCON konferencia rekord. – New York, 1960
↑ L. N. Yasnitsky – Bevezetés a mesterséges intelligenciába. - 34-36
↑ L. N. Yasnitsky – Bevezetés a mesterséges intelligenciába. - 35. o
↑ L. N. Yasnitsky – Bevezetés a mesterséges intelligenciába. - 36. o

Lásd még

Irodalom

Rosenblatt F. A neurodinamika alapelvei: Perceptronok és az agyi mechanizmusok elmélete. Washington, DC: Spartan Books (1962).
Russell, Ingrid. "A Delta-szabály". Hartfordi Egyetem. Az eredetiből archiválva: 2016. március 4. Letöltve: 2012. november 5..
Golovko, V. A. Neurális hálózatok: képzés, szervezés és alkalmazás: 4. könyv: Tankönyv egyetemeknek az "Alkalmazott matematika és fizika" irányába / V. A. Golovko; Tot. szerk. A. I. Galushkin. - M.: IPRZhR, 2001. – 256 p. - (Neuroszámítógépek és alkalmazásaik): 5-93108-05-8.
Osovsky S. Neurális hálózatok információfeldolgozáshoz (2002)
Hebb, D.O. A viselkedés szerveződése: neuropszichológiai elmélet. New York (2002) (Eredeti kiadás – 1949)
Hebb, D.O. Feltételes és feltétel nélküli reflexek és gátlás. Kiadatlan MA szakdolgozat, McGill University, Montreal, Quebec, (1932)
Lakhmi C. Jain; NM Martin Neurális hálózatok, fuzzy rendszerek és genetikai algoritmusok fúziója: Ipari alkalmazások. – CRC Press, CRC Press LLC, 1998