Perceptron

Perceptron , vagy perceptron [nb 1] ( eng. perceptron lat. perceptio  - percepció ; csíra . Perzeptron ) - az agy általi információérzékelés matematikai vagy számítógépes modellje ( az agy kibernetikus modellje ), amelyet Frank Rosenblatt javasolt 1958 - ban és először 1960 -ban "Mark-1" [nb 2] elektronikus gép formájában valósították meg . A Perceptron a neurális hálózatok egyik első modellje, a Mark-1 pedig a világ első neurokomputerévé vált .    

A perceptron háromféle elemből áll, nevezetesen: az érzékelőktől érkező jelek az asszociatív elemekhez, majd a reagáló elemekhez jutnak el. Így a perceptronok lehetővé teszik egy sor "asszociáció" létrehozását a bemeneti ingerek és a kívánt kimeneti válasz között. Biológiai értelemben ez megfelel például a vizuális információnak a motoros neuronok fiziológiai válaszává történő átalakulásának . A modern terminológia szerint a perceptronok a mesterséges neurális hálózatok közé sorolhatók:

  1. egy rejtett réteggel; [nb 3]
  2. küszöb átviteli funkcióval ;
  3. közvetlen jelterjedés mellett .

A neurális hálózatok 1969 -es növekvő népszerűsége mellett Marvin Minsky és Seymour Papert könyve jelent meg , amely bemutatta a perceptronok alapvető korlátait. Ez a mesterséges intelligencia kutatóinak érdeklődésének eltolódásához vezetett a szimbolikus számítástechnika területén , szemben a neurális hálózatokkal [nb 4] . Emellett a perceptronok matematikai vizsgálatának bonyolultsága, valamint az általánosan elfogadott terminológia hiánya miatt különböző pontatlanságok és tévhitek merültek fel .

Ezt követően újra megindult az érdeklődés a neurális hálózatok, és különösen Rosenblatt munkája iránt. Így például rohamosan fejlődik a biocomputing , amely elméleti számítási alapjaiban többek között neurális hálózatokon alapul, a perceptront pedig bakteriorodopszin tartalmú filmek alapján reprodukálják .

A perceptron megjelenése

Warren McCulloch és Walter Pitts 1943- ban javasolta a mesterséges neurális hálózat koncepcióját "A neurális tevékenységgel kapcsolatos ötletek logikai számítása" [1] című cikkében . Különösen javasoltak egy mesterséges neuron modellt . Donald Hebb 1949 -ben "Organization of Behavior" [2] című tanulmányában leírta a neuronok tanulásának alapelveit.

Ezeket az ötleteket néhány évvel később Frank Rosenblatt amerikai neurofiziológus dolgozta ki . Javasolt egy sémát egy olyan eszközhöz, amely szimulálja az emberi észlelés folyamatát , és "perceptronnak" nevezte. A perceptron jeleket továbbított a fotocellákból , amelyek szenzoros mezők voltak, az elektromechanikus memóriacellák blokkjaiba. Ezeket a sejteket véletlenszerűen kapcsolták egymáshoz a konnektivizmus elveinek megfelelően . 1957 - ben a Cornell Aeronautics Laboratoryban sikeresen befejezték a perceptron működésének szimulációját egy IBM 704 számítógépen , majd két évvel később, 1960. június 23-án a Cornell Egyetemen bemutatták az első neurokomputert  - Mark-1. , amely képes volt felismerni az angol ábécé egyes betűit [3] [4] .

A perceptron „megtanítására” a képek osztályozására egy speciális iteratív próba és hiba tanulási módszert fejlesztettek ki, amely az emberi tanulás folyamatára emlékeztet - a hibajavítási módszert [5] . Ezen túlmenően, egy adott betű felismerésekor a perceptron kiemelhette a betű jellegzetességeit, amelyek statisztikailag gyakrabban fordultak elő, mint az egyes esetekben jelentéktelen különbségek. Így a perceptron képes volt a különböző módon (kézírással) írt betűket egy általánosított képpé általánosítani . A perceptron képességei azonban korlátozottak voltak: a gép nem tudott megbízhatóan felismerni a részben zárt, valamint a képzése szakaszában használtaktól eltérő méretű, eltolással vagy elforgatással elhelyezkedő betűket [6] .

Az első eredményekről szóló jelentés 1958 -ban jelent meg  - akkor Rosenblatt publikálta a "Perceptron: A valószínűségi modell az információ tárolására és rendszerezésére az agyban" című cikkét [7] . Az észlelési folyamatokkal és a perceptronokkal kapcsolatos elméleteit és feltételezéseit azonban részletesebben 1962 -ben írja le a „Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” című könyvében. A könyvben nemcsak kész, egy rejtett rétegű perceptronmodelleket vesz figyelembe, hanem többrétegű , kereszt- (harmadik fejezet) és fordított (negyedik fejezet) kapcsolatú perceptronokat is. A könyv számos fontos gondolatot és tételt is bemutat, például a perceptron konvergenciatétel [8] bizonyítást nyer .

Az elemi perceptron leírása

Egy elemi perceptron háromféle elemből áll: S-elemekből, A-elemekből és egy R-elemből. Az S-elemek érzékelők vagy receptorok rétegei. Egy fizikai kiviteli alakban például a szem retinájában lévő fényérzékeny sejteknek vagy egy kamerasor fotoellenállásainak felelnek meg . Mindegyik receptor két állapot egyikében lehet - nyugalmi vagy gerjesztési állapotban , és csak az utóbbi esetben továbbít egyetlen jelet a következő rétegnek, az asszociatív elemeknek.

Az A-elemeket asszociatívnak nevezzük, mivel minden ilyen elem általában az S-elemek egész halmazának (asszociációjának) felel meg. Az A-elem aktiválódik, amint az S-elemekből érkező jelek száma a bemenetén meghalad egy bizonyos értéket [nb 5] . Így, ha a megfelelő S-elemek halmaza található az érzékelőmezőn "D" betű alakjában, az A-elem akkor aktiválódik, ha elegendő számú receptor jelezte a "fehér fényfolt" megjelenését. a közelükben, vagyis az A-elem mintegy társítva lesz a "D" betű jelenlétével/hiányával bizonyos területen.

A gerjesztett A-elemek jelei viszont az R összeadóhoz, az i-edik asszociatív elem jelei pedig együtthatóval [9] . Ezt az együtthatót az A-R kötés súlyának nevezzük .

Az A-elemekhez hasonlóan az R-elem is kiszámítja a bemeneti jelek értékeinek összegét, szorozva a súlyokkal ( lineáris forma ). Az R-elem és vele együtt az elemi perceptron "1"-et ad ki, ha a lineáris forma meghaladja a küszöbértéket , ellenkező esetben a kimenet "-1" lesz. Matematikailag az R elem által megvalósított függvény a következőképpen írható fel:

Az elemi perceptron képzése az A–R kötések súlyegyütthatóinak megváltoztatásából áll . Az S–A linkek súlya (amelyek {−1; 0; +1} értékeket vehetnek fel) és az A-elemek küszöbértékei véletlenszerűen kerülnek kiválasztásra a legelején, és ezután nem változnak. ( Az algoritmus leírását lásd alább .)

A betanítás után a perceptron készen áll a felismerés [10] vagy az általánosítás [11] módban való munkára . Ebben a módban a perceptron korábban ismeretlen objektumokkal jelenik meg, és a perceptronnak meg kell határoznia, hogy melyik osztályba tartoznak. A perceptron munkája a következő: egy objektum bemutatásakor a gerjesztett A-elemek a megfelelő együtthatók összegével megegyező jelet továbbítanak az R-elemnek . Ha ez az összeg pozitív, akkor az a döntés születik, hogy az adott objektum az első osztályba tartozik, ha pedig negatív, akkor a másodikba [12] .

A perceptronok elméletének alapfogalmai

A perceptronok elméletének komoly megismerése megköveteli az alapvető definíciók és tételek ismeretét, amelyek összessége az összes későbbi mesterséges neurális hálózat alapja . De legalább a jelelmélet szempontjából meg kell érteni , ami eredeti, vagyis a perceptron szerzője, F. Rosenblatt írta le.

Leírás jelek alapján

Először is definiáljuk a perceptron alkotóelemeit, amelyek egy küszöbátviteli funkcióval rendelkező mesterséges neuron speciális esetei .

Ha bármely elem kimeneténél 1-et kapunk, akkor azt mondjuk, hogy az elem aktív vagy gerjesztett .

Minden elemet egyszerűnek nevezünk , mivel ugrásfüggvényeket valósítanak meg . Rosenblatt azzal is érvelt, hogy más típusú függvényekre, például lineárisra [14] lehet szükség az összetettebb problémák megoldásához .

Ennek eredményeként Rosenblatt a következő meghatározásokat vezette be:

Ezenkívül rámutathat a könyvben javasolt és később a neurális hálózatok elméletének keretein belül továbbfejlesztett alábbi koncepciókra:

Predikátumokon alapuló leírás

Marvin Minsky a párhuzamos számítástechnika tulajdonságait tanulmányozta , amelynek akkoriban a perceptron speciális esete volt. A tulajdonságainak elemzéséhez újra kellett fogalmaznia a perceptronok elméletét a predikátumok nyelvén . A megközelítés lényege a következő volt: [nb 6] [19]

A "vizuális" perceptronra alkalmazva az X változó valamilyen geometriai alakzat ( inger ) képét szimbolizálta . A privát predikátum lehetővé tette, hogy mindenki „felismerje” a saját alakját. A ψ predikátum azt a helyzetet jelentette, amikor a lineáris kombináció (  — átviteli együtthatók) meghalad egy bizonyos θ küszöböt.

A tudósok 5 perceptron családot azonosítottak, amelyek véleményük szerint érdekes tulajdonságokkal rendelkeznek: [20]

  1. Korlátozott átmérőjű perceptronok  – az egyes predikátumok által felismert X figurák nem haladnak meg bizonyos rögzített átmérőt.
  2. Korlátozott sorrendű perceptronok  – minden egyes predikátum az X-ből származó korlátozott számú ponttól függ.
  3. Gamba perceptronok  - minden egyes predikátumnak lineáris küszöbfüggvénynek, azaz mini-perceptronnak kell lennie.
  4. A véletlen perceptronok  korlátozott rendű perceptronok, ahol a parciális predikátumok véletlenszerűen kiválasztott Boole-függvények. A könyv megjegyzi, hogy Rosenblatt csoportja ezt a modellt tanulmányozta a legalaposabban.
  5. Korlátozott perceptronok  - a részleges predikátumok halmaza végtelen, és az együtthatók lehetséges értékeinek halmaza véges.

Bár egy ilyen matematikai apparátus lehetővé tette, hogy az elemzést csak az elemi Rosenblatt-perceptronra alkalmazzuk, számos alapvető korlátot tárt fel a párhuzamos számítások számára, amelyektől a modern mesterséges neurális hálózatok egyik típusa sem mentes.

Történelmi besorolás

A perceptron fogalmának érdekes, de irigylésre méltó története van. Az elmúlt évek fejletlen neurális hálózatok terminológiája, a perceptron-kutatás feladatainak kemény kritikája és félreértése, valamint az esetenként hamis sajtóvisszhangok következtében ennek a fogalomnak az eredeti jelentése eltorzult. A Rosenblatt és a modern áttekintések és cikkek fejlődését összehasonlítva a perceptronok 4 meglehetősen elszigetelt osztályát különböztethetjük meg:

Perceptron egy rejtett réteggel Ez a klasszikus perceptron, amelynek Rosenblatt könyvének nagy részét szenteli, és ebben a cikkben is megvizsgáljuk: egy rétegben S-, A- és R-elemek vannak benne. Egyrétegű perceptron Ez egy olyan modell, amelyben a bemeneti elemek súlyrendszer segítségével közvetlenül kapcsolódnak a kimeneti elemekhez. Ez a legegyszerűbb előrecsatolt hálózat  - egy lineáris osztályozó és a klasszikus perceptron speciális esete, amelyben minden S-elem egyedileg felel meg egy A-elemnek, az S-A linkek súlya +1, és az összes A-elem küszöbértéke θ = 1. Az egyrétegű perceptronok valójában formális neuronok , azaz McCulloch-Pitts küszöbelemek. Számos korlátozásuk van, különösen nem tudják azonosítani azt a helyzetet, amikor különböző jeleket alkalmaznak a bemeneteikre („XOR feladat”, lásd alább ). Többrétegű perceptron (Rosenblatt szerint) Ez egy perceptron további A-elemrétegekkel. Rosenblatt könyve harmadik részében elemezte. Többrétegű perceptron (Rumelhart szerint) Ez egy perceptron, amelyben további A-elemek rétegei vannak, ráadásul egy ilyen hálózat képzése a hibavisszaterjedés módszere szerint történik , és a perceptron összes rétege (beleértve az S-A-t is) betanításra kerül. Ez a Rosenblatt-féle többrétegű perceptron egy speciális esete.

Jelenleg a szakirodalomban a "perceptron" kifejezést leggyakrabban egyrétegű perceptronként ( angolul  Single-layer perceptron ) értik, ráadásul általános tévhit, hogy ez volt a Rosenblatt által javasolt legegyszerűbb modell. Az egyrétegű perceptronnal szemben egy "többrétegű perceptront" ( eng.  Multilayer perceptron ) tesznek fel, ami leggyakrabban Rumelhart többrétegű perceptronját jelenti, nem Rosenblatt-ét. Az ilyen dichotómiában a klasszikus perceptront többrétegűnek nevezik.

Tanulási algoritmusok

Minden neurális hálózat fontos tulajdonsága a tanulási képesség . A tanulási folyamat a súlyok és küszöbértékek beállítására szolgáló eljárás annak érdekében, hogy csökkentse a kívánt (cél) és a kapott kimeneti vektorok közötti különbséget. Rosenblatt könyvében különféle perceptron tanulási algoritmusokat próbált osztályozni, megerősítő rendszereknek nevezve őket.

A jutalmazási rendszer  minden olyan szabályrendszer, amely alapján egy perceptron interakciós mátrixa (vagy memóriaállapota) idővel megváltoztatható [21] .

Rosenblatt ezeket a megerősítő rendszereket leírva és lehetséges típusaikat megadva D. Hebb általa 1949 -ben a tanulásról szóló elképzelései alapján [2] , amely a következő kétrészes szabályba fogalmazható meg:

Felügyelt tanulás

A perceptron képzésének klasszikus módszere a hibajavítási módszer [8] . Ez egy olyan típusú felügyelt tanulás , amelyben a kapcsolat súlya nem változik mindaddig, amíg a perceptron aktuális reakciója helyes marad. Helytelen reakció esetén a súly eggyel változik, és az előjel (+/-) ellentétes a hiba előjelével.

Tegyük fel, hogy meg akarjuk tanítani a perceptront két objektumosztály elkülönítésére úgy, hogy az első osztályba tartozó objektumok bemutatásakor a perceptron kimenete pozitív (+1), míg a második osztályba tartozó objektumok esetén negatív legyen ( −1). Ehhez a következő algoritmust hajtjuk végre: [5]

  1. Véletlenszerűen választunk ki küszöbértékeket az A-elemekhez, és S-A kapcsolatokat hozunk létre (ezek nem változnak tovább).
  2. A kezdeti együtthatók nullával egyenlőek.
  3. Tanítási mintát mutatunk be : objektumok (például körök vagy négyzetek), amelyek jelzik, hogy melyik osztályhoz tartoznak.
    • Megmutatjuk a perceptront egy első osztályú objektumnak. Ebben az esetben néhány A-elem gerjesztett lesz. Az ezeknek a gerjesztett elemeknek megfelelő együtthatók 1-gyel nőnek .
    • Bemutatunk egy második osztályú objektumot, és a megjelenítés során gerjesztett A-elemek együtthatói 1-gyel csökkennek .
  4. A 3. lépés mindkét részét a teljes edzéskészletre vonatkozóan végrehajtjuk. Az edzés eredményeként kialakulnak a kapcsolódási súlyok értékei .

A F. Rosenblatt által leírt és bizonyított perceptronkonvergencia tétel [8] (Block, Joseph, Kesten és más, vele együtt dolgozó kutatók részvételével) azt mutatja, hogy egy ilyen algoritmus szerint képzett elemi perceptron, függetlenül a kezdeti kezdettől. A súlytényezők állapota és sorrendje az ösztönzők megjelenése mindig a megoldáshoz vezet véges időn belül.

Tanulás tanár nélkül

A klasszikus perceptron tanulási módszer mellett Rosenblatt bevezette a felügyelet nélküli tanulás fogalmát is , és a következő tanulási módszert javasolta:

Az alfa erősítési rendszer  olyan erősítési rendszer, amelyben az elemhez vezető összes aktív kapcsolat súlya azonos r-vel változik, és az inaktív kapcsolatok súlya ez idő alatt nem változik [23] .

Aztán a többrétegű perceptron koncepciójának kifejlesztésével az alfa rendszer módosult, és delta szabályként vált ismertté . A módosítást azért végeztük el, hogy a tanulási függvény differenciálhatóvá váljon (pl. szigmoid ), ami viszont szükséges a gradiens süllyedés módszerének alkalmazásához , aminek köszönhetően egynél több réteg is tanítható.

Visszaterjesztési módszer

A többrétegű hálózatok betanításához számos tudós, köztük D. Rumelhart , egy felügyelt gradiens tanulási algoritmust javasolt, amely a perceptron kimenetei alapján kiszámított hibajelet vezet a bemeneteire , rétegről rétegre. Manapság ez a legnépszerűbb módszer a többrétegű perceptronok képzésére. Előnye, hogy a neurális hálózat minden rétegét képes betanítani , és könnyen lokálisan kiszámolható. Ez a módszer azonban nagyon időigényes, ráadásul alkalmazásához szükséges, hogy a neuronok transzfer funkciója differenciálható legyen. Ugyanakkor a perceptronokban el kellett hagyni a bináris jelet, és folyamatos értékeket kellett használni a bemeneten [24] .

Hagyományos téveszmék

A mesterséges neurális hálózatok újságírók és marketingszakemberek általi népszerűsítése eredményeként számos pontatlanság történt, amelyeket az e témában készült eredeti művek elégtelen tanulmányozása mellett a fiatal (akkori) tudósok félreértelmeztek. Ennek eredményeként a mai napig nem találkozhatunk a perceptron funkcionalitásának kellően mély értelmezésével a későbbi években kifejlesztett többi neurális hálózathoz képest.[ mikor? ]

Terminológiai pontatlanságok

A leggyakoribb terminológiai hiba az, hogy a perceptront rejtett rétegek nélküli neurális hálózatként határozzák meg (egyrétegű perceptron, lásd fent ). Ez a hiba a neurális hálózatok területén a fejlesztés korai szakaszában nem kellően kidolgozott terminológiából adódik. F. Wasserman kísérletet tett a neurális hálózatok különféle típusainak egy bizonyos osztályozására:

Amint a kiadványokból kiderül, nincs általánosan elfogadott módszer a hálózat rétegeinek megszámlálására. A többrétegű hálózatok váltakozó idegsejtekből és súlyokból állnak. A bemeneti réteg nem végez összegzést. Ezek a neuronok csak az első súlykészlet ágaiként szolgálnak, és nem befolyásolják a hálózat számítási képességeit. Emiatt a rétegek számlálásánál az első réteget nem veszik figyelembe, és a hálózatot kétrétegűnek tekintik, mivel csak két réteg végez számításokat. Továbbá a réteg súlyai ​​az őket követő neuronokhoz kapcsolódnak. Ezért a réteg súlyok halmazából áll, amelyeket a súlyozott jeleket összegző neuronok követnek [25] .

E reprezentáció eredményeként a perceptron az „egyrétegű neurális hálózat” definíciója alá került. Ez részben igaz, mert nincsenek benne rejtett tanuló neuronok (amelyek súlya alkalmazkodik a feladathoz). Emiatt a rendszer S-elemektől A-elemekig tartó rögzített kapcsolatainak teljes halmaza logikusan helyettesíthető (szigorú szabály szerint módosított) új bemeneti jelek halmazával, amelyek azonnal jönnek az A-elemekhez (ezzel kiküszöbölve az első réteget kapcsolatok összességében). De itt nem veszik figyelembe, hogy egy ilyen módosítás a probléma nemlineáris ábrázolását lineárissá változtatja.

Ezért, ha egyszerűen figyelmen kívül hagyjuk a rögzített kapcsolatokkal rendelkező, nem tanítható rétegeket (egy elemi perceptronban ezek S-A kapcsolatok), téves következtetéseket vonhatunk le a neurális hálózat képességeiről. Tehát Minsky nagyon helyesen járt el, újrafogalmazva az A-elemet predikátumként (vagyis függvényként); éppen ellenkezőleg, Wasserman már elvesztette ezt az ötletet, és van egy A-eleme - csak egy bemenet (majdnem egyenértékű az S-elemmel). Ilyen terminológiai zűrzavar mellett figyelmen kívül hagyjuk azt a tényt, hogy a perceptron az S-elemek receptív mezőjét leképezi az A-elemek asszociatív mezőjére, aminek következtében bármely lineárisan elválaszthatatlan probléma lineárisan elválaszthatóvá alakul.

Funkcionális tévedések

A legtöbb funkcionális tévhit egy lineárisan elválaszthatatlan probléma perceptronnal való megoldásának feltételezett lehetetlenségére vezethető vissza. De sok variáció létezik ebben a témában, nézzük a főbbeket.

XOR probléma

Tévhit: A perceptron nem képes megoldani az " XOR problémát ".

Nagyon gyakori tévhit. A jobb oldali kép egy perceptron megoldást mutat erre a problémára. Ez a tévhit egyrészt abból adódik, hogy Minsky perceptron-definícióját helytelenül értelmezik (lásd fent ), vagyis a predikátumok azonnal egyenlőnek számítanak a bemenetekkel, bár Minsky predikátuma egy olyan függvény, amely a bemeneti értékek egész halmazát azonosítja [nb 7 ] . Másodszor, amiatt, hogy a klasszikus Rosenblatt perceptront összetévesztik egy egyrétegű perceptronnal (a fentebb leírt terminológiai pontatlanság miatt).

Különös figyelmet kell fordítani arra a tényre, hogy az "egyrétegű perceptron" a modern terminológiában és az "egyrétegű perceptron" Wasserman terminológiájában különböző objektumok. Az illusztráción ábrázolt tárgy pedig Wasserman terminológiájával egy kétrétegű perceptron.

Tanulhatóság lineárisan elválaszthatatlan problémákhoz

Tévhit: véletlenszerű súlyok megválasztásával lineárisan elválaszthatatlan (általában bármilyen) feladatok esetében is elérhető a tanulás, de csak szerencsés esetben , és új változókban (A-neuronok kimenetei) a feladat lineárisan elválaszthatónak bizonyul. De lehet, hogy nem lesz szerencséd.

A perceptron konvergencia tétel [8] azt bizonyítja, hogy nincs és nem is lehet „nem szerencsés”; ha az A-elemek egyenlőek az ingerek számával és a nem speciális G-mátrixszal  , a megoldás valószínűsége 100%. Vagyis ha a receptormezőt egy véletlenszerű (nem lineáris) operátorral egy dimenzióval nagyobb asszociatív mezőre képezzük le , a nemlineáris probléma lineárisan elválaszthatóvá válik. A következő betanítható réteg pedig már egy másik beviteli térben lineáris megoldást talál. Például egy perceptron betanítása az "XOR probléma" megoldására (lásd az ábrát) a következő lépésekben történik:
Súlyok Iterációk
egy 2 3 négy 5
w1 0 egy egy egy egy 2 2 2 2
w2 0 0 egy egy egy egy egy 2 2
w3 −1 0 egy 0 −1 0 −1 0 −1
Bemeneti jelek (x, y) tizenegy 0, 1 tíz tizenegy tizenegy 0, 1 tizenegy tíz tizenegy
Tanulhatóság néhány példából

Tévhit: ha egy feladatban elég nagy a bemenetek dimenziója, és kevés a képzési példa, akkor egy ilyen „gyengén kitöltött” térben nem biztos, hogy kevés a sikerek száma. Ez csak a perceptron alkalmasságának egy konkrét esetét jelzi, és nem egyetemességét.

Ez az érv könnyen tesztelhető egy "sakktábla" vagy "szivacs vízzel" nevű tesztfeladaton [26] [nb 8] :
Adott egy 2· N egyesből vagy nullából álló lánc, amelyet párhuzamosan táplálunk a perceptron bemeneteivel. Ha ez a lánc tükörszimmetrikus a középpontra, akkor a kimenet +1, ellenkező esetben 0. A képzési példák mind (ez fontos) láncok.
Ennek a feladatnak lehetnek változatai, például:
Vegyünk egy fekete-fehér képet, melynek mérete 256×256 elem ( pixel ). A perceptron bemeneti adatai a pont koordinátái lesznek (8 bit + 8 bit, összesen 16 S-elem szükséges), a kimeneten a pont színét kérjük. Megtanítjuk a perceptront minden pontra (a teljes képre). Ennek eredményeként 65 536 különböző inger-válasz párunk van. Tanulj hibák nélkül.
Ha ez az érv igaz, akkor a perceptron soha nem lesz képes egyetlen hiba nélkül tanulni. Ellenkező esetben a perceptron soha nem hibázik. A gyakorlatban kiderül, hogy ez a feladat nagyon egyszerű egy perceptron számára: a megoldásához a perceptronnak 1500 A-elemre van szüksége (a minden feladathoz szükséges teljes 65 536 helyett). Ebben az esetben az iterációk száma körülbelül 1000. 1000 A-elem esetén a perceptron nem konvergál 10 000 iterációban. Ha viszont az A-elemek számát 40 000-re emeljük, akkor 30-80 iterációban konvergencia várható. Ez az érv azért merül fel, mert ezt a problémát összekeverik a Minsky-problémával „a „paritásról” [27] . Súlystabilizálás és konvergencia

Tévhit: Rosenblatt perceptronjának annyi A-eleme van, ahány bemenet. A konvergencia pedig Rosenblatt szerint a súlyok stabilizálása.

A Rosenblattban ezt olvassuk:

Ha az ingerek száma a W térben egyenlő n > N (azaz több, mint az elemi perceptron A-elemeinek száma), akkor van olyan C(W) besorolás , amelyre nincs megoldás [28 ] .

Ebből az következik, hogy:
  1. Rosenblatt esetében az A-elemek száma egyenlő az ingerek számával (képzési példák), és nem a bemenetek számával;
  2. konvergencia Rosenblatt szerint ez nem a súlyok stabilizálása, hanem az összes szükséges besorolás megléte, vagyis valójában a hibák hiánya.
A rejtett elemek számának exponenciális növekedése

Tévhit: ha a rejtett réteg elemeinek (A-elemek) súlyegyütthatói rögzítettek, akkor szükséges, hogy a rejtett réteg elemeinek száma (vagy azok összetettsége) exponenciálisan növekedjen a probléma dimenziójának növekedésével (receptorok száma). Így elveszik fő előnyük - az önkényes bonyolultságú problémák egyszerű elemek segítségével történő megoldásának képessége.

Rosenblatt kimutatta, hogy az A-elemek száma csak a felismerendő ingerek számától függ (lásd az előző bekezdést vagy a perceptronkonvergencia tételt ). Így a receptorok számának növekedésével, ha az A-elemek száma rögzített, a perceptron tetszőleges bonyolultságú problémák megoldására való képessége közvetlenül nem függ. Ez a tévhit Minsky következő mondatából ered:

A paritási predikátum vizsgálatakor azt láttuk, hogy az együtthatók |R|-el növekedhetnek (pontok száma a képen) exponenciálisan [29] .

Ezen kívül Minsky más predikátumokat is feltárt, mint például az „egyenlőség”. De mindezek a predikátumok meglehetősen specifikus feladatot jelentenek az általánosításra, nem pedig a felismerésre vagy előrejelzésre. Így például ahhoz, hogy a perceptron teljesítse a „paritás” predikátumot, meg kell mondania, hogy egy fekete-fehér képen a fekete pontok száma páros-e vagy sem; és az "egyenlőség" predikátum teljesítéséhez mondja meg, hogy a kép jobb oldala egyenlő-e a bal oldalával. Nyilvánvaló, hogy az ilyen problémák túlmutatnak a felismerés és az előrejelzés problémáin, és általánosítási vagy egyszerűen bizonyos jellemzők kiszámításának problémái. Ezt Minsky meggyőzően kimutatta, és ez nemcsak a perceptronok korlátja, hanem minden olyan párhuzamos algoritmusnak is, amely nem képes gyorsabban kiszámítani az ilyen predikátumokat, mint a szekvenciális algoritmusok. Ezért az ilyen feladatok korlátozzák az összes neurális hálózat és perceptron képességeit, de ennek semmi köze az első réteg rögzített kapcsolataihoz; hiszen egyrészt a második réteg kapcsolódási együtthatóinak értékéről volt szó, másrészt csak a hatékonyságban van a kérdés, nem pedig elvileg. Vagyis a perceptron is betanítható erre a feladatra, de az ehhez szükséges memóriakapacitás és tanulási sebesség nagyobb lesz, mint egy egyszerű szekvenciális algoritmus használatakor. Az edzhető súlyok bevezetése az első rétegben csak ront a helyzeten, mert több edzési időt igényel, mivel az S és A közötti kapcsolati változók inkább akadályozzák, mintsem hozzájárulnak a tanulási folyamathoz [30] . Ezen túlmenően, amikor egy perceptront készítünk fel egy speciális típusú ingerek felismerésére, a hatékonyság fenntartása érdekében, a sztochasztikus tanulás speciális feltételeire lesz szükség [31] , amit Rosenblatt változó S-A kötésekkel rendelkező perceptronnal végzett kísérleteiben mutatott ki .

A modell jellemzői és korlátai

Modellképességek

Maga Rosenblatt a perceptront elsősorban a következő fontos lépésnek tekintette a neurális hálózatok tanulmányozása és használata felé, nem pedig egy „ gondolkodni képes gép ” kész változatának [nb 9] . Már könyvének előszavában is, a kritikákra reagálva megjegyezte, hogy „a perceptron-kutatási program elsősorban nem a „mesterséges intelligenciával” rendelkező eszközök feltalálásával, hanem a fizikai struktúrák és a neurodinamikai elvek tanulmányozásával kapcsolatos [32]. .

Rosenblatt számos pszichológiai tesztet javasolt a neurális hálózatok képességeinek meghatározására: kísérleteket a megkülönböztetéssel , az általánosítással , a szekvencia felismeréssel , az absztrakt fogalmak kialakításával, az „ öntudat ” kialakulásával és tulajdonságaival , a kreatív képzelőerővel és másokkal [33] . E kísérletek némelyike ​​távol áll a perceptronok jelenlegi képességeitől, ezért fejlesztésük filozófiailag inkább a konnektivizmus irányába esik . Ennek ellenére a perceptronok esetében két fontos tényt állapítottak meg, amelyek gyakorlati problémákban is alkalmazhatók: az osztályozás lehetősége (objektumok) és a közelítés lehetősége (osztályok és függvények határai) [34] .

A perceptronok fontos tulajdonsága a tanulási képességük, ráadásul egy meglehetősen egyszerű és hatékony algoritmus szerint (lásd fent ).

Modellkorlátok

Maga Rosenblatt két alapvető korlátot azonosított a háromrétegű (egy S-rétegből, egy A-rétegből és R-rétegből álló) perceptronok esetében: nem képesek jellemzőiket új ingerekre vagy új helyzetekre általánosítani, és nem képesek komplex elemzésre. helyzetek a külső környezetben.környezet egyszerűbbekre bontva [17] .

1969 -ben Marvin Minsky és Seymour Papert kiadta a Perceptronok című könyvet, ahol matematikailag kimutatták, hogy a Rosenblatthoz hasonló perceptronok alapvetően képtelenek ellátni a perceptronoktól elvárt számos funkciót. Ráadásul abban az időben a párhuzamos számítás elmélete gyengén fejlődött, és a perceptron teljes mértékben megfelelt az ilyen számítások elveinek. Általában véve Minsky megmutatta a szekvenciális számítás előnyét a párhuzamossal szemben az invariáns reprezentációval kapcsolatos problémák bizonyos osztályaiban. Kritikája három témára osztható:

  1. A perceptronoknak korlátai vannak a képek invariáns ábrázolásával kapcsolatos feladatokban , azaz függetlenek az érzékszervi mezőn elfoglalt helyzetüktől és más figurákhoz képest. Ilyen problémák merülnek fel például, ha olyan gépet kell építeni nyomtatott betűk vagy számok olvasására , hogy a gép az oldalon elfoglalt helyüktől függetlenül felismerje őket (vagyis hogy a gép döntését ne befolyásolja a fordítás , az elforgatás , karakterek nyújtása-tömörítése ) [6] ; vagy ha meg kell határoznunk, hogy egy ábra hány részből áll [35] ; vagy két alak van-e egymás mellett vagy sem [36] . Minsky bebizonyította, hogy az ilyen típusú problémákat nem lehet teljesen megoldani párhuzamos számítástechnikával, beleértve a perceptront is.
  2. A perceptronok nem rendelkeznek funkcionális előnnyel az analitikai módszerekkel szemben (például statisztikai ) az előrejelzéssel kapcsolatos feladatokban [37] . Bizonyos esetekben azonban egyszerűbb és hatékonyabb adatelemzési módszert képviselnek .
  3. Kimutatták, hogy néhány probléma elvileg megoldható perceptronnal, de irreálisan sok időt [38] vagy irreálisan nagy memóriát [39] igényelhet .

Minsky és Papert könyve jelentősen befolyásolta a mesterséges intelligencia tudományának fejlődését, mivel az amerikai kormányzati szervezetek tudományos érdeklődését és támogatásait egy másik kutatási irány felé – az AI szimbolikus megközelítésébe – helyezte át .

Perceptronok alkalmazásai

Itt csak a perceptron gyakorlati alkalmazásának alapjait mutatjuk be két különböző feladaton. Az előrejelzési probléma (és ezzel egyenértékű mintafelismerési probléma ) nagy pontosságot, míg az ügynökvezérlési probléma magas  tanulási sebességet igényel. Ezért ezeket a feladatokat figyelembe véve teljes mértékben megismerhetjük a perceptron képességeit, de ez még korántsem meríti ki a felhasználási lehetőségeket.

Gyakorlati feladatokban a perceptronnak kettőnél több lehetőség közül kell választania, ami azt jelenti, hogy egynél több R-elemmel kell rendelkeznie a kimeneten. Amint azt Rosenblatt kimutatta, az ilyen rendszerek jellemzői nem térnek el jelentősen egy elemi perceptron jellemzőitől [40] .

Előrejelzés és mintafelismerés

Ezekben a feladatokban a perceptronnak meg kell határoznia, hogy egy objektum paraméterei alapján (például megjelenés, forma, sziluett alapján) egy osztályhoz tartozik-e. Ezenkívül a felismerés pontossága nagymértékben függ a perceptron kimeneti reakcióinak ábrázolásától. Itt háromféle kódolás lehetséges: konfigurációs , pozicionális és hibrid. A pozíciókódolás, amikor minden osztálynak saját R-eleme van, pontosabb eredményeket ad, mint a többi típus. Ezt a típust használják például E. Kussul és munkatársai „Rosenblatt Perceptrons for Recognizing Handwritten Digits” című munkája. Nem alkalmazható azonban olyan esetekben, amikor az osztályok száma jelentős, például több száz. Ilyen esetekben a hibrid konfigurációs-pozíciós kódolás használható, ahogyan azt S. Yakovlev "Munka neurális hálózatokon alapuló mozgó objektumok felismerő rendszere" című munkájában is megtették.

Ügynökkezelés

A mesterséges intelligenciában gyakran figyelembe veszik a tanuló ( környezethez alkalmazkodó ) ágenseket. Ugyanakkor a bizonytalanság körülményei között nem csak az aktuális információk elemzése válik fontossá, hanem a szituáció általános kontextusának elemzése is, amelybe az ágens került, ezért itt visszacsatolásos perceptronokat használunk [41] . Emellett egyes feladatoknál fontossá válik a perceptron tanulási sebességének növelése, például refraktoriness modellezés segítségével [42] .

A „ mesterséges intelligencia telének ” nevezett időszak után az 1980 -as években újjáéledt a kibernetikus modellek iránti érdeklődés , mivel a szimbolikus mesterséges intelligencia hívei nem tudtak közel kerülni a „megértés” és a „jelentés” kérdésköréhez, ami a gépi fordítást és a technikai mintafelismerést okozta. végzetes hiányosságok. Maga Minsky nyilvánosan sajnálatát fejezte ki amiatt, hogy beszéde megsértette a perceptron fogalmát, bár a könyv csak egyetlen eszköz és annak néhány változatának hiányosságait mutatta be. Általánosságban azonban a mesterséges intelligencia a szimbolikus megközelítés szinonimájává vált, amely az emberi agy összetett tevékenységeit szimuláló, egyre összetettebb számítógépes programok létrehozásában fejeződik ki.

Lásd még

Jegyzetek

  1. A „perceptron” opció az eredeti, amelyet Rosenblatt könyvének (1965) fordításában használnak, a segédkönyvben is: Explanatory Dictionary of Artificial Intelligence / Compilers A. N. Averkin, M. G. Gaaze-Rapoport , D. A. Pospelov . - M . : Rádió és kommunikáció, 1992. - 256 p. A „perceptron” változat gyakoribb, Minsky és Papert (1971) könyvének fordítása során merült fel; lásd még: Encyclopedia of cybernetics. 2. kötet Mikh-Yach . - Kijev: Ch. szerk. HASZNÁLAT, 1974. - S. 156-158. Archivált másolat (nem elérhető link) . Letöltve: 2009. február 1. Az eredetiből archiválva : 2009. március 31.. 
  2. A "Mark-1" egy olyan rendszer volt, amely utánozza az emberi szemet és annak az aggyal való interakcióját.
  3. "Háromrétegű" a Rosenblatt által elfogadott besorolás szerint, és "kétrétegű" a modern jelölés szerint - azzal a sajátossággal, hogy az első réteg nem képezhető.
  4. A szimbolikus megközelítés magában foglalja például a szakértői rendszerek létrehozását , tudásbázisok szervezését , szövegelemzést .
  5. Formálisan az A-elemek, akárcsak az R-elemek, küszöbértékkel rendelkező összeadók , azaz egyetlen neuron .
  6. Ebben a részben a bemutatás némileg leegyszerűsödött az predikátum alapú elemzés bonyolultsága miatt.
  7. Egy predikátum csak speciális esetben ekvivalens egy bemenettel – csak akkor, ha egy argumentumtól függ.
  8. M. M. Bongard ezt a feladatot tartja a legnehezebbnek hipersík megrajzolásához a receptorok terében.
  9. A mesterséges intelligencia tudományának fejlődésének első szakaszaiban a feladatát elvont értelemben vették – olyan rendszerek létrehozását, amelyek hasonlítanak az emberi elmére (lásd: általános mesterséges intelligencia ). Az AI modern feladatmegszövegezései általában pontosabbak.

Források

  1. Warren S. McCulloch és Walter Pitts . Az idegi tevékenység  immanens eszméinek logikai számítása  // Bulletin of Mathematical Biology . - New York : Springer New York , 1943. - V. 5 , No. 4 . - S. 115-133 .
  2. 12 Donald Olding Hebb . A viselkedés szervezete: neuropszichológiai elmélet . - Wiley , 1949. - 335 p. Kortárs kiadás: Donald Olding Hebb . A viselkedés szervezete: neuropszichológiai elmélet . - Lawrence Erlbaum Associates , 2002. - 335 p. - ISBN 0805843000 , ISBN 978-0-8058-4300-2 .
  3. Perceptronok: Associative Learning Network . Letöltve: 2008. május 2. Az eredetiből archiválva : 2011. augusztus 19..
  4. A perceptron megjelenése  (elérhetetlen link)
  5. 1 2 Mintafelismerő rendszerek (elérhetetlen link) . Letöltve: 2019. október 4. Az eredetiből archiválva : 2017. december 18.. 
  6. 1 2 Minsky M., Papert S., p. ötven.
  7. A Perceptron: Valószínűségi modell az információtároláshoz és -szervezéshez az agyban (lefelé irányuló kapcsolat) . Letöltve: 2008. május 2. Az eredetiből archiválva : 2008. február 18.. 
  8. 1 2 3 4 Rosenblatt F., p. 102.
  9. Fomin, S. V., Berkinblit, M. B. Matematikai problémák a biológiában Archiválva : 2009. december 21., a Wayback Machine
  10. Rosenblatt, F., p. 158-162.
  11. Rosenblatt, F., p. 162-163.
  12. Bryukhomitsky Yu. A. Neurális hálózati modellek információbiztonsági rendszerek számára, 2005.
  13. 1 2 3 Rosenblatt F., p. 81.
  14. 1 2 3 Rosenblatt, F., p. 200.
  15. 1 2 3 4 Rosenblatt F., p. 82.
  16. Rosenblatt F., p. 83.
  17. 1 2 Rosenblatt F., p. 93.
  18. Rosenblatt, F., p. 230.
  19. Minsky, Papert, p. 11-18.
  20. Minsky, Papert, p. tizennyolc.
  21. Rosenblatt, F., p. 85-88.
  22. Khaikin S., 2006, p. 96.
  23. Rosenblatt, F., p. 86.
  24. Khaikin S., 2006, p. 225-243, 304-316.
  25. Wasserman, F. Neurocomputer Engineering: Theory and Practice, 1992.
  26. Bongard, M. M., p. 29.
  27. Minsky M., Papert S., p. 59.
  28. Rosenblatt, F., p. 101.
  29. Minsky, Papert, p. 155, 189 (nem szó szerint, a kifejezőkészség kedvéért leegyszerűsítve).
  30. Rosenblatt, 239. o
  31. Rosenblatt, 242. o
  32. Rosenblatt, F., p. tizennyolc.
  33. Rosenblatt, F., p. 70-77.
  34. lásd Ezhov A. A., Shumsky S. A. "Neurocomputing ...", 2006. 3. előadás: Felügyelt tanulás: Mintafelismerés 2011. november 1-i archív példány a Wayback Machine -nél
  35. Minsky M., Papert S., p. 76-98.
  36. Minsky M., Papert S., p. 113-116.
  37. Minsky M., Papert S., p. 192-214.
  38. Minsky, Papert, p. 163-187
  39. Minsky, Papert, p. 153-162
  40. Rosenblatt, F., p. 219-224.
  41. Yakovlev S. S. A Jordan-ismétlődési elv használata a Rosenblatt perceptronban, Journal "AUTOMATICS AND COMPUTING TECHNIQUE", Riga, 2009 Archivált 2017. július 1-én a Wayback Machine -nél . Virtuális Laboratórium Wiki.
  42. Yakovlev S.S. , Investigation of Refractorness elv in Recurrent Neural Networks, Scientific report of Riga Technical University, Issue 5, Vol.36, RTU, Riga, 2008, P. 41-48. A refraktoriness elvének feltárása ismétlődő neurális hálózatokban (fordítás) Archiválva : 2016. március 7. a Wayback Machine -nál .

Irodalom

Linkek