Kohonen neurális hálózata

A Kohonen neurális hálózatai a neurális hálózatok  egy osztálya , melynek fő eleme a Kohonen réteg . A Kohonen réteg adaptív lineáris összeadókból ("lineáris formális neuronokból ") áll. A Kohonen-réteg kimeneti jeleit általában a „ Győztes mindent visz ” szabály szerint dolgozzák fel : a legnagyobb jel eggyel, a többi nullává változik.

Az összeadók bemeneti súlyainak beállítási módszerei és a megoldandó feladatok szerint a Kohonen-hálózatoknak sokféle változata létezik [1] . A leghíresebb közülük:

Kohonen réteg

Alapverzió

A Kohonen-réteg számos párhuzamos lineáris elemből áll. Mindegyiknek ugyanannyi bemenete van , és ugyanazt a bemeneti jelvektort kapják a bemeneteiken . A th lineáris elem kimenetén megkapjuk a jelet

ahol:

A lineáris elemek rétegén való áthaladás után a jelek feldolgozásra kerülnek a „győztes mindent visz” szabály szerint: a kimeneti jelek között megkeresik a maximumot ; a számát . Végül a kimeneten a jel a számmal egyenlő egy, a többi - nullával. Ha a maximumot egyszerre többen is elérik , akkor:

"Kohonen neuronjai felfoghatók izzók halmazának, így bármelyik bemeneti vektornál az egyik világít" [5] .

Geometriai értelmezés

A következőképpen felépített Kohonen-rétegeket széles körben használják: minden ( -edik) neuron a -dimenziós tér ( jeltér) egy pontjához kapcsolódik . Egy bemeneti vektor esetében kiszámítják a pontok közötti euklideszi távolságait , és „a legközelebbi mindent megkap” – az a neuron, amelynél ez a távolság minimális, egyet ad, a többi nulla. Meg kell jegyezni, hogy a távolságok összehasonlításához elegendő a jel lineáris függvényét kiszámítani:

(itt  van a vektor euklideszi hossza: ). Az utolsó tag minden neuronra azonos, így nem szükséges a legközelebbi pont megtalálásához. A probléma a lineáris függvények legnagyobb értékeinek számának megtalálására redukálódik:

Így a pont koordinátái egybeesnek a Kohonen-réteg lineáris neuronjának súlyaival (a küszöbegyüttható értékével ).

Ha pontok adottak , akkor a -dimenziós teret a megfelelő Voronoi-Dirichlet poliéderekre osztjuk: a poliéder olyan pontokból áll, amelyek közelebb vannak a többihez ( ) [6] .

Vektorkvantáló hálózatok

Egy adott bemeneti vektorhalmaz kódvektorokkal történő vektorkvantálásának problémája a kódolás során bekövetkező torzítás minimalizálásának problémája, vagyis amikor minden egyes vektort a megfelelő kódvektorról cserélünk le. A Kohonen hálózatok alapváltozatában a legkisebb négyzetek módszerét használják , és a torzítást a képlet alapján számítják ki

ahol azokból a pontokból áll, amelyek közelebb vannak a többihez ( ). Más szóval, a kódvektor által kódolt pontokból áll .

Ha a sokaságot megadjuk és a memóriában tároljuk, akkor a megfelelő Kohonen-hálózat betanításánál a standard választás a K- közép módszer . Ez a felosztási módszer:

ahol  az elemek száma .

Ezután ismételjük. Ez a felosztási módszer véges számú lépésben konvergál, és helyi minimális torzítást ad.

Ha például a halmaz nincs előre meghatározott, vagy valamilyen oknál fogva nincs a memóriában tárolva, akkor az online módszert széles körben használják. A bemeneti jelvektorokat egyenként dolgozzák fel, mindegyikhez megtalálják a legközelebbi kódvektort (a „győztes”, amely „mindent visz”) . Ezt követően ezt a kódvektort a képlet szerint újraszámítják

hol  van a tanulási lépés. A többi kódvektor ennél a lépésnél nem változik.

A stabilitás érdekében egy csökkenő tanulási sebességű online módszert alkalmazunk: ha  a tanulási lépések száma, akkor . A függvényt úgy választjuk meg, hogy monoton at és úgy, hogy a sorozatok eltérjenek, pl .

A vektorkvantálás sokkal általánosabb művelet, mint a klaszterezés , mivel a klasztereket el kell választani egymástól, míg a különböző kódvektorokhoz tartozó halmazok nem feltétlenül különálló klaszterek. Másrészt, ha vannak elválasztható klaszterek, a vektorkvantálás meg tudja találni és másképp kódolja őket.

Kohonen önszerveződő térképei

Ötlet és tanulási algoritmus

A vektorkvantálás problémája lényegében az adatvektorok teljes halmazának kódvektorokkal történő legjobb közelítéséből áll . Az önszerveződő Kohonen térképek is közelítik az adatokat, azonban egy további struktúrával a kódvektorok halmazában ( eng. codebook ). Feltételezzük, hogy a csomópontok „szomszédsági mértékeinek” (vagy „közelségi mértékeinek”) egy bizonyos szimmetrikus táblázata eleve meghatározott: minden párhoz ( ) egy szám ( ) kerül meghatározásra, míg a közelségi táblázat átlós elemei egyenlőek egy ( ).  

A bemeneti jelvektorokat egyenként dolgozzák fel, mindegyikhez megtalálják a legközelebbi kódvektort (a „győztes”, amely „mindent visz”) . Ezt követően a képlet minden kódvektorát újraszámítja

hol  van a tanulási lépés. A nyertes kódvektor szomszédai (az a priori adott közelségi táblázat szerint) a közelség mértékével arányosan ugyanabba az irányba tolódnak el, mint ez a vektor.

Leggyakrabban a kódvektorok táblázatát négyzetrács töredékeként ábrázolják egy síkon, és a közelségi mértéket a síkon lévő euklideszi távolság alapján határozzák meg.

Kohonen önszerveződő térképei elsősorban a vizualizációt és a kezdeti ("intelligencia") adatok elemzését szolgálják [7] . Minden adatpont a rácsból a megfelelő kódvektorra van leképezve. Így kapjuk meg az adatok síkon történő ábrázolását („ adattérkép ”). Ezen a térképen sok réteg jeleníthető meg: a csomópontokba eső adatok mennyisége (azaz "adatsűrűség"), az adatok különféle jellemzői stb. Ezen rétegek megjelenítésénél hasznos a földrajzi információs rendszerek (GIS) apparátusa. A GIS-ben a földrajzi térkép szubsztrátként szolgál az információs rétegek megjelenítéséhez . Az adattérkép egy eredendően tetszőleges adatkészlet szubsztrátja. Az adattérkép a földrajzi térkép helyettesítőjeként szolgál ott, ahol földrajzi térkép egyszerűen nem létezik. Az alapvető különbség a következő: földrajzi térképen a szomszédos objektumok földrajzi koordinátái hasonlóak, adattérképen a hasonló objektumok hasonló tulajdonságokkal rendelkeznek. Adattérkép segítségével megjelenítheti az adatokat, miközben kísérő információkat visz fel a hordozóra (aláírások, megjegyzések, attribútumok, információszínezések) [7] . A térkép információs adatmodellként is szolgál . Adathiányok pótlására használható. Ezt a képességet például előrejelzési problémák megoldására használják .

Önszerveződő térképek és főelosztók

Az önszerveződő térképek ötlete nagyon vonzó, és sok általánosításra adott okot, azonban szigorúan véve nem tudjuk, mit építünk: a térkép egy algoritmus eredménye, és nincs külön különálló eleme. („objektum”) meghatározása. Létezik azonban egy hasonló elméleti elképzelés – fősokaságok [8 ] .  Ezek az elosztók általánosítják a lineáris főkomponenseket . Ezeket az adateloszlás "középén" áthaladó vonalakként vagy felületekként vezették be, az önkonzisztencia feltételt használva: a fősokaság minden pontja azoknak a vektoroknak a feltételes elvárása, amelyekre vetítésre kerül (feltételezve , hogy hol  van a szomszédsági vetület operátor a ),

Az önszerveződő térképek a fősokaságok közelítésének tekinthetők, és mint ilyenek, népszerűek [9] .

Rugalmas térképek

A. N. Gorban 1996- ban javasolt egy módszert a többdimenziós adatok közelítésére, amely az adattérbe merített térkép "rugalmas alakváltozási energiájának" minimalizálásán alapul , majd ezt követően A. Yu. Zinovjevvel, A. A. Rossievvel és A. A. A. Pitenko [7] . A módszer a főelosztó és egy rugalmas membrán és egy rugalmas lemez közötti analógián alapul. Ebben az értelemben ez a spline klasszikus gondolatának továbbfejlesztése (bár a rugalmas térképek nem többdimenziós spline-ok).

Legyen adott bemeneti vektorok halmaza . Csakúgy, mint a vektorkvantáló hálózatok és az önszerveződő térképek, a rugalmas térkép kódvektorok (csomópontok) halmazaként jelenik meg a jeltérben. Az adatkészlet osztályokra van osztva, amelyek azokból a pontokból állnak, amelyek közelebb vannak a többihez ( ). Kódolási torzítás

az adatvektorokat a megfelelő kódvektorokkal összekötő egységnyi merevségű rugók összenergiájaként értelmezhető.

A csomópontok halmazán egy további struktúra van beállítva: egyes párokat „rugalmas kötések” kötnek össze, néhány hármast pedig „merevítő bordává” egyesítenek. Jelöljük a rugalmas kötésekkel összekapcsolt párok halmazát -vel, a merevítőket alkotó hármasok halmazát pedig -vel . Például egy négyzetrácsban a legközelebbi csomópontokat (függőlegesen és vízszintesen is) rugalmas kötések kötik össze, a merevítőket pedig a legközelebbi csomópontok függőleges és vízszintes hármasai képezik. A térkép deformációs energiája két kifejezésből áll:

húzó energia hajlítási energia

hol  vannak a megfelelő rugalmassági modulusok.

A rugalmas térkép felépítésének feladata a funkcionális minimalizálása

Ha a bemeneti vektorok halmazának osztályokra osztása rögzített, akkor a minimalizálás  lineáris probléma ritka együtthatómátrix mellett. Ezért a vektorkvantáló hálózatokhoz hasonlóan a felosztási módszert alkalmazzuk: fix  - keresés  - adatok keresése -  adatok keresése  - ... Az algoritmus egy (lokális) minimumhoz konvergál .

A rugalmas térképek módszere lehetővé teszi mindazon problémák megoldását, amelyeket Kohonen önszerveződő térképei megoldanak, azonban nagyobb a rendszeressége és kiszámíthatósága. A hajlítási modulus növekedésével a rugalmas térképek megközelítik a lineáris főkomponenseket. Ahogy mindkét rugalmassági modulus csökken, Kohonen vektorkvantáló hálózatokká alakulnak. Az elasztikus térképeket jelenleg széles körben használják többváltozós adatelemzésre a bioinformatikában . [10] A megfelelő szoftver közzétételre került és szabadon elérhető a Curie Institute ( Párizs ) honlapján [11] [12] .

Az ábra az emlőrákra vonatkozó adatvizualizációs eredményeket mutatja . Ezek az adatok 286 példát tartalmaznak, amelyek 17816 gén expressziós szintjét jelzik [13] . Online elérhetőek, mint ma már klasszikus tesztpéldány adatvizualizációhoz és leképezéshez [14] .

Felügyelt vektorkvantáló hálózatok

Az osztályozási probléma megoldása folyamatban van . Az osztályok száma tetszőleges lehet. Bemutatjuk az algoritmust két osztályra, és . Kezdetben a rendszer betanításához adatokat fogadunk, amelyek osztálya ismert. Feladat: keress az osztálynak bizonyos számú kódvektort , és az osztálynak néhány (esetleg eltérő) számú kódvektort úgy, hogy a kapott Kohonen hálózat kódvektorokkal , ( összevonjuk a két családot) a következők szerint osztályozzon. döntési szabály:

ha a bemeneti jelek vektorára a legközelebbi kódvektor („a győztes”, amely „mindent visz” a Kohonen rétegben) a családhoz tartozik , akkor az osztályba tartozik ; ha a legközelebbi kódvektor a családhoz tartozik , akkor az osztályhoz tartozik .

Az egyesített család minden kódvektorához egy Voronoi-Dirichlet politóp van társítva . Ezeket a poliédereket jelöljük , ill. Egy osztály a jeltérben a döntési szabály szerint egy uniónak , egy osztály pedig egy uniónak felel meg . A poliéderek ilyen unióinak geometriája nagyon összetett lehet (lásd az ábrát egy lehetséges osztályokra való felosztásra).

Az online hálózati tanulási szabályok az alapvető vektorkvantálási hálózati tanulási szabályon alapulnak. Legyen a rendszer bemenete egy jelvektor , melynek osztálya ismert. Ha a rendszer helyesen osztályozza, akkor a megfelelő kódvektor kissé eltolódik a jelvektor felé ("jutalom")

Ha helytelenül van besorolva, akkor a megfelelő kódvektor kissé eltolódik a jellel ellentétes irányba ("büntetés")

hol  van a tanulási lépés. A stabilitás biztosítása érdekében egy csökkenő tanulási sebességű online módszert használnak. Különböző lépésekkel is lehet „bátorítani” a helyes döntést, és „büntetni” a rossz döntést.

Ez a [15] módszer legegyszerűbb (alap)változata . Sok más módosítás is létezik.

Jegyzetek

  1. Hányféle Kohonen hálózat létezik? Internetes GYIK Archívum. Online oktatás . Letöltve: 2008. augusztus 31. Az eredetiből archiválva : 2008. május 11.
  2. Hecht-Nielsen, R. (1990), Neurocomputing, Reading, MA: Addison-Wesley, ISBN 0-201-09355-3 .
  3. Kohonen, T. (1989/1997/2001), Self-Organizing Maps, Berlin-New York: Springer-Verlag. Első kiadás 1989, második harmadik kiadás 1997, bővített kiadás 2001, ISBN 0-387-51387-6 , ISBN 3-540-67921-9
  4. Kohonen, T. (1988), Learning Vector Quantization, Neural Networks, 1 (suppl 1), 303.
  5. Wasserman, F. Neurocomputer Engineering: elmélet és gyakorlat = Neural Computing. elmélet és gyakorlat. — M .: Mir, 1992. — 240 p. — ISBN 5-03-002115-9 . Archivált másolat (nem elérhető link) . Letöltve: 2008. szeptember 1. Archiválva az eredetiből: 2009. június 30. 
  6. Valós idejű interaktív Voronoi és Delaunay diagramok forráskóddal . Letöltve: 2008. szeptember 1. Az eredetiből archiválva : 2008. szeptember 1..
  7. 1 2 3 Zinovjev A. Yu. Többdimenziós adatok megjelenítése . - Krasznojarszk: Szerk. Krasznojarszki Állami Műszaki Egyetem, 2000. - 180 p.
  8. T. Hastie értekezése : Hastie T. , Fő görbék és felületek Archiválva : 2017. február 21., a Wayback Machine , Ph.D disszertáció, Stanford Linear Accelerator Center, Stanford University, Stanford, California, USA, 1984. november. Online PCA is Archiválva : 2018. november 7. a Wayback Machine -nél . Ezzel a munkával kezdődött a fősokaságok tanulmányozása.
  9. Yin H. Nemlineáris fő sokaságok tanulása önszervező térképekkel Archiválva : 2019. március 6. a Wayback Machine -nél , In: Gorban AN et al (szerk.), LNCSE 58, Springer, 2007. ISBN 978-3-540-73749- 0
  10. Gorban AN, Kegl B., Wunsch D., Zinovyev AY (szerk.), Principal Manifolds for Data Visualization and Dimension Reduction , Series: Lecture Notes in Computational Science and Engineering 58, Springer, Berlin - Heidelberg - New York, 2007, XXIV, 340 p. 82illus. ISBN 978-3-540-73749-0 (és online is archiválva 2019. március 16-án, a Wayback Machine -nél ).
  11. VIMIDA: Java kisalkalmazás a MIcroarray DAta megjelenítéséhez . Letöltve: 2008. szeptember 6. Az eredetiből archiválva : 2008. október 9..
  12. ViDaExpert: szoftver többdimenziós vektoros adatok megjelenítéséhez . Letöltve: 2008. szeptember 6. Az eredetiből archiválva : 2012. április 26..
  13. Wang Y., Klijn JG, Zhang Y., Sieuwerts AM, Look MP, Yang F., Talantov D., Timmermans M., Meijer-van Gelder ME, Yu J. et al. Génexpressziós profilok a nyirokcsomó-negatív elsődleges emlőrák távoli metasztázisának előrejelzésére. Lancet 365 (2005), 671-679.
  14. Az adatkartográfiához és a méretcsökkentéshez szükséges főbb elosztók, Leicester, Egyesült Királyság, 2006. augusztus. A műhely résztvevői számára biztosított weblap teszt microarray-adatkészletekkel. Archiválva : 2008. szeptember 24. a Wayback Machine -nél .
  15. DLVQ alapjai . Letöltve: 2018. november 7. Az eredetiből archiválva : 2018. december 19.

Lásd még