Perceptron , vagy perceptron [nb 1] ( eng. perceptron lat. perceptio - percepció ; csíra . Perzeptron ) - az agy általi információérzékelés matematikai vagy számítógépes modellje ( az agy kibernetikus modellje ), amelyet Frank Rosenblatt javasolt 1958 - ban és először 1960 -ban "Mark-1" [nb 2] elektronikus gép formájában valósították meg . A Perceptron a neurális hálózatok egyik első modellje, a Mark-1 pedig a világ első neurokomputerévé vált .
A perceptron háromféle elemből áll, nevezetesen: az érzékelőktől érkező jelek az asszociatív elemekhez, majd a reagáló elemekhez jutnak el. Így a perceptronok lehetővé teszik egy sor "asszociáció" létrehozását a bemeneti ingerek és a kívánt kimeneti válasz között. Biológiai értelemben ez megfelel például a vizuális információnak a motoros neuronok fiziológiai válaszává történő átalakulásának . A modern terminológia szerint a perceptronok a mesterséges neurális hálózatok közé sorolhatók:
A neurális hálózatok 1969 -es növekvő népszerűsége mellett Marvin Minsky és Seymour Papert könyve jelent meg , amely bemutatta a perceptronok alapvető korlátait. Ez a mesterséges intelligencia kutatóinak érdeklődésének eltolódásához vezetett a szimbolikus számítástechnika területén , szemben a neurális hálózatokkal [nb 4] . Emellett a perceptronok matematikai vizsgálatának bonyolultsága, valamint az általánosan elfogadott terminológia hiánya miatt különböző pontatlanságok és tévhitek merültek fel .
Ezt követően újra megindult az érdeklődés a neurális hálózatok, és különösen Rosenblatt munkája iránt. Így például rohamosan fejlődik a biocomputing , amely elméleti számítási alapjaiban többek között neurális hálózatokon alapul, a perceptront pedig bakteriorodopszin tartalmú filmek alapján reprodukálják .
Warren McCulloch és Walter Pitts 1943- ban javasolta a mesterséges neurális hálózat koncepcióját "A neurális tevékenységgel kapcsolatos ötletek logikai számítása" [1] című cikkében . Különösen javasoltak egy mesterséges neuron modellt . Donald Hebb 1949 -ben "Organization of Behavior" [2] című tanulmányában leírta a neuronok tanulásának alapelveit.
Ezeket az ötleteket néhány évvel később Frank Rosenblatt amerikai neurofiziológus dolgozta ki . Javasolt egy sémát egy olyan eszközhöz, amely szimulálja az emberi észlelés folyamatát , és "perceptronnak" nevezte. A perceptron jeleket továbbított a fotocellákból , amelyek szenzoros mezők voltak, az elektromechanikus memóriacellák blokkjaiba. Ezeket a sejteket véletlenszerűen kapcsolták egymáshoz a konnektivizmus elveinek megfelelően . 1957 - ben a Cornell Aeronautics Laboratoryban sikeresen befejezték a perceptron működésének szimulációját egy IBM 704 számítógépen , majd két évvel később, 1960. június 23-án a Cornell Egyetemen bemutatták az első neurokomputert - Mark-1. , amely képes volt felismerni az angol ábécé egyes betűit [3] [4] .
A perceptron „megtanítására” a képek osztályozására egy speciális iteratív próba és hiba tanulási módszert fejlesztettek ki, amely az emberi tanulás folyamatára emlékeztet - a hibajavítási módszert [5] . Ezen túlmenően, egy adott betű felismerésekor a perceptron kiemelhette a betű jellegzetességeit, amelyek statisztikailag gyakrabban fordultak elő, mint az egyes esetekben jelentéktelen különbségek. Így a perceptron képes volt a különböző módon (kézírással) írt betűket egy általánosított képpé általánosítani . A perceptron képességei azonban korlátozottak voltak: a gép nem tudott megbízhatóan felismerni a részben zárt, valamint a képzése szakaszában használtaktól eltérő méretű, eltolással vagy elforgatással elhelyezkedő betűket [6] .
Az első eredményekről szóló jelentés 1958 -ban jelent meg - akkor Rosenblatt publikálta a "Perceptron: A valószínűségi modell az információ tárolására és rendszerezésére az agyban" című cikkét [7] . Az észlelési folyamatokkal és a perceptronokkal kapcsolatos elméleteit és feltételezéseit azonban részletesebben 1962 -ben írja le a „Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” című könyvében. A könyvben nemcsak kész, egy rejtett rétegű perceptronmodelleket vesz figyelembe, hanem többrétegű , kereszt- (harmadik fejezet) és fordított (negyedik fejezet) kapcsolatú perceptronokat is. A könyv számos fontos gondolatot és tételt is bemutat, például a perceptron konvergenciatétel [8] bizonyítást nyer .
Egy elemi perceptron háromféle elemből áll: S-elemekből, A-elemekből és egy R-elemből. Az S-elemek érzékelők vagy receptorok rétegei. Egy fizikai kiviteli alakban például a szem retinájában lévő fényérzékeny sejteknek vagy egy kamerasor fotoellenállásainak felelnek meg . Mindegyik receptor két állapot egyikében lehet - nyugalmi vagy gerjesztési állapotban , és csak az utóbbi esetben továbbít egyetlen jelet a következő rétegnek, az asszociatív elemeknek.
Az A-elemeket asszociatívnak nevezzük, mivel minden ilyen elem általában az S-elemek egész halmazának (asszociációjának) felel meg. Az A-elem aktiválódik, amint az S-elemekből érkező jelek száma a bemenetén meghalad egy bizonyos értéket [nb 5] . Így, ha a megfelelő S-elemek halmaza található az érzékelőmezőn "D" betű alakjában, az A-elem akkor aktiválódik, ha elegendő számú receptor jelezte a "fehér fényfolt" megjelenését. a közelükben, vagyis az A-elem mintegy társítva lesz a "D" betű jelenlétével/hiányával bizonyos területen.
A gerjesztett A-elemek jelei viszont az R összeadóhoz, az i-edik asszociatív elem jelei pedig együtthatóval [9] . Ezt az együtthatót az A-R kötés súlyának nevezzük .
Az A-elemekhez hasonlóan az R-elem is kiszámítja a bemeneti jelek értékeinek összegét, szorozva a súlyokkal ( lineáris forma ). Az R-elem és vele együtt az elemi perceptron "1"-et ad ki, ha a lineáris forma meghaladja a küszöbértéket , ellenkező esetben a kimenet "-1" lesz. Matematikailag az R elem által megvalósított függvény a következőképpen írható fel:
Az elemi perceptron képzése az A–R kötések súlyegyütthatóinak megváltoztatásából áll . Az S–A linkek súlya (amelyek {−1; 0; +1} értékeket vehetnek fel) és az A-elemek küszöbértékei véletlenszerűen kerülnek kiválasztásra a legelején, és ezután nem változnak. ( Az algoritmus leírását lásd alább .)
A betanítás után a perceptron készen áll a felismerés [10] vagy az általánosítás [11] módban való munkára . Ebben a módban a perceptron korábban ismeretlen objektumokkal jelenik meg, és a perceptronnak meg kell határoznia, hogy melyik osztályba tartoznak. A perceptron munkája a következő: egy objektum bemutatásakor a gerjesztett A-elemek a megfelelő együtthatók összegével megegyező jelet továbbítanak az R-elemnek . Ha ez az összeg pozitív, akkor az a döntés születik, hogy az adott objektum az első osztályba tartozik, ha pedig negatív, akkor a másodikba [12] .
A perceptronok elméletének komoly megismerése megköveteli az alapvető definíciók és tételek ismeretét, amelyek összessége az összes későbbi mesterséges neurális hálózat alapja . De legalább a jelelmélet szempontjából meg kell érteni , ami eredeti, vagyis a perceptron szerzője, F. Rosenblatt írta le.
Először is definiáljuk a perceptron alkotóelemeit, amelyek egy küszöbátviteli funkcióval rendelkező mesterséges neuron speciális esetei .
Ha bármely elem kimeneténél 1-et kapunk, akkor azt mondjuk, hogy az elem aktív vagy gerjesztett .
Minden elemet egyszerűnek nevezünk , mivel ugrásfüggvényeket valósítanak meg . Rosenblatt azzal is érvelt, hogy más típusú függvényekre, például lineárisra [14] lehet szükség az összetettebb problémák megoldásához .
Ennek eredményeként Rosenblatt a következő meghatározásokat vezette be:
Ezenkívül rámutathat a könyvben javasolt és később a neurális hálózatok elméletének keretein belül továbbfejlesztett alábbi koncepciókra:
Marvin Minsky a párhuzamos számítástechnika tulajdonságait tanulmányozta , amelynek akkoriban a perceptron speciális esete volt. A tulajdonságainak elemzéséhez újra kellett fogalmaznia a perceptronok elméletét a predikátumok nyelvén . A megközelítés lényege a következő volt: [nb 6] [19]
A "vizuális" perceptronra alkalmazva az X változó valamilyen geometriai alakzat ( inger ) képét szimbolizálta . A privát predikátum lehetővé tette, hogy mindenki „felismerje” a saját alakját. A ψ predikátum azt a helyzetet jelentette, amikor a lineáris kombináció ( — átviteli együtthatók) meghalad egy bizonyos θ küszöböt.
A tudósok 5 perceptron családot azonosítottak, amelyek véleményük szerint érdekes tulajdonságokkal rendelkeznek: [20]
Bár egy ilyen matematikai apparátus lehetővé tette, hogy az elemzést csak az elemi Rosenblatt-perceptronra alkalmazzuk, számos alapvető korlátot tárt fel a párhuzamos számítások számára, amelyektől a modern mesterséges neurális hálózatok egyik típusa sem mentes.
A perceptron fogalmának érdekes, de irigylésre méltó története van. Az elmúlt évek fejletlen neurális hálózatok terminológiája, a perceptron-kutatás feladatainak kemény kritikája és félreértése, valamint az esetenként hamis sajtóvisszhangok következtében ennek a fogalomnak az eredeti jelentése eltorzult. A Rosenblatt és a modern áttekintések és cikkek fejlődését összehasonlítva a perceptronok 4 meglehetősen elszigetelt osztályát különböztethetjük meg:
Perceptron egy rejtett réteggel Ez a klasszikus perceptron, amelynek Rosenblatt könyvének nagy részét szenteli, és ebben a cikkben is megvizsgáljuk: egy rétegben S-, A- és R-elemek vannak benne. Egyrétegű perceptron Ez egy olyan modell, amelyben a bemeneti elemek súlyrendszer segítségével közvetlenül kapcsolódnak a kimeneti elemekhez. Ez a legegyszerűbb előrecsatolt hálózat - egy lineáris osztályozó és a klasszikus perceptron speciális esete, amelyben minden S-elem egyedileg felel meg egy A-elemnek, az S-A linkek súlya +1, és az összes A-elem küszöbértéke θ = 1. Az egyrétegű perceptronok valójában formális neuronok , azaz McCulloch-Pitts küszöbelemek. Számos korlátozásuk van, különösen nem tudják azonosítani azt a helyzetet, amikor különböző jeleket alkalmaznak a bemeneteikre („XOR feladat”, lásd alább ). Többrétegű perceptron (Rosenblatt szerint) Ez egy perceptron további A-elemrétegekkel. Rosenblatt könyve harmadik részében elemezte. Többrétegű perceptron (Rumelhart szerint) Ez egy perceptron, amelyben további A-elemek rétegei vannak, ráadásul egy ilyen hálózat képzése a hibavisszaterjedés módszere szerint történik , és a perceptron összes rétege (beleértve az S-A-t is) betanításra kerül. Ez a Rosenblatt-féle többrétegű perceptron egy speciális esete.Jelenleg a szakirodalomban a "perceptron" kifejezést leggyakrabban egyrétegű perceptronként ( angolul Single-layer perceptron ) értik, ráadásul általános tévhit, hogy ez volt a Rosenblatt által javasolt legegyszerűbb modell. Az egyrétegű perceptronnal szemben egy "többrétegű perceptront" ( eng. Multilayer perceptron ) tesznek fel, ami leggyakrabban Rumelhart többrétegű perceptronját jelenti, nem Rosenblatt-ét. Az ilyen dichotómiában a klasszikus perceptront többrétegűnek nevezik.
Minden neurális hálózat fontos tulajdonsága a tanulási képesség . A tanulási folyamat a súlyok és küszöbértékek beállítására szolgáló eljárás annak érdekében, hogy csökkentse a kívánt (cél) és a kapott kimeneti vektorok közötti különbséget. Rosenblatt könyvében különféle perceptron tanulási algoritmusokat próbált osztályozni, megerősítő rendszereknek nevezve őket.
A jutalmazási rendszer minden olyan szabályrendszer, amely alapján egy perceptron interakciós mátrixa (vagy memóriaállapota) idővel megváltoztatható [21] .Rosenblatt ezeket a megerősítő rendszereket leírva és lehetséges típusaikat megadva D. Hebb általa 1949 -ben a tanulásról szóló elképzelései alapján [2] , amely a következő kétrészes szabályba fogalmazható meg:
A perceptron képzésének klasszikus módszere a hibajavítási módszer [8] . Ez egy olyan típusú felügyelt tanulás , amelyben a kapcsolat súlya nem változik mindaddig, amíg a perceptron aktuális reakciója helyes marad. Helytelen reakció esetén a súly eggyel változik, és az előjel (+/-) ellentétes a hiba előjelével.
Tegyük fel, hogy meg akarjuk tanítani a perceptront két objektumosztály elkülönítésére úgy, hogy az első osztályba tartozó objektumok bemutatásakor a perceptron kimenete pozitív (+1), míg a második osztályba tartozó objektumok esetén negatív legyen ( −1). Ehhez a következő algoritmust hajtjuk végre: [5]
A F. Rosenblatt által leírt és bizonyított perceptronkonvergencia tétel [8] (Block, Joseph, Kesten és más, vele együtt dolgozó kutatók részvételével) azt mutatja, hogy egy ilyen algoritmus szerint képzett elemi perceptron, függetlenül a kezdeti kezdettől. A súlytényezők állapota és sorrendje az ösztönzők megjelenése mindig a megoldáshoz vezet véges időn belül.
A klasszikus perceptron tanulási módszer mellett Rosenblatt bevezette a felügyelet nélküli tanulás fogalmát is , és a következő tanulási módszert javasolta:
Az alfa erősítési rendszer olyan erősítési rendszer, amelyben az elemhez vezető összes aktív kapcsolat súlya azonos r-vel változik, és az inaktív kapcsolatok súlya ez idő alatt nem változik [23] .Aztán a többrétegű perceptron koncepciójának kifejlesztésével az alfa rendszer módosult, és delta szabályként vált ismertté . A módosítást azért végeztük el, hogy a tanulási függvény differenciálhatóvá váljon (pl. szigmoid ), ami viszont szükséges a gradiens süllyedés módszerének alkalmazásához , aminek köszönhetően egynél több réteg is tanítható.
A többrétegű hálózatok betanításához számos tudós, köztük D. Rumelhart , egy felügyelt gradiens tanulási algoritmust javasolt, amely a perceptron kimenetei alapján kiszámított hibajelet vezet a bemeneteire , rétegről rétegre. Manapság ez a legnépszerűbb módszer a többrétegű perceptronok képzésére. Előnye, hogy a neurális hálózat minden rétegét képes betanítani , és könnyen lokálisan kiszámolható. Ez a módszer azonban nagyon időigényes, ráadásul alkalmazásához szükséges, hogy a neuronok transzfer funkciója differenciálható legyen. Ugyanakkor a perceptronokban el kellett hagyni a bináris jelet, és folyamatos értékeket kellett használni a bemeneten [24] .
A mesterséges neurális hálózatok újságírók és marketingszakemberek általi népszerűsítése eredményeként számos pontatlanság történt, amelyeket az e témában készült eredeti művek elégtelen tanulmányozása mellett a fiatal (akkori) tudósok félreértelmeztek. Ennek eredményeként a mai napig nem találkozhatunk a perceptron funkcionalitásának kellően mély értelmezésével a későbbi években kifejlesztett többi neurális hálózathoz képest.[ mikor? ]
A leggyakoribb terminológiai hiba az, hogy a perceptront rejtett rétegek nélküli neurális hálózatként határozzák meg (egyrétegű perceptron, lásd fent ). Ez a hiba a neurális hálózatok területén a fejlesztés korai szakaszában nem kellően kidolgozott terminológiából adódik. F. Wasserman kísérletet tett a neurális hálózatok különféle típusainak egy bizonyos osztályozására:
Amint a kiadványokból kiderül, nincs általánosan elfogadott módszer a hálózat rétegeinek megszámlálására. A többrétegű hálózatok váltakozó idegsejtekből és súlyokból állnak. A bemeneti réteg nem végez összegzést. Ezek a neuronok csak az első súlykészlet ágaiként szolgálnak, és nem befolyásolják a hálózat számítási képességeit. Emiatt a rétegek számlálásánál az első réteget nem veszik figyelembe, és a hálózatot kétrétegűnek tekintik, mivel csak két réteg végez számításokat. Továbbá a réteg súlyai az őket követő neuronokhoz kapcsolódnak. Ezért a réteg súlyok halmazából áll, amelyeket a súlyozott jeleket összegző neuronok követnek [25] .
E reprezentáció eredményeként a perceptron az „egyrétegű neurális hálózat” definíciója alá került. Ez részben igaz, mert nincsenek benne rejtett tanuló neuronok (amelyek súlya alkalmazkodik a feladathoz). Emiatt a rendszer S-elemektől A-elemekig tartó rögzített kapcsolatainak teljes halmaza logikusan helyettesíthető (szigorú szabály szerint módosított) új bemeneti jelek halmazával, amelyek azonnal jönnek az A-elemekhez (ezzel kiküszöbölve az első réteget kapcsolatok összességében). De itt nem veszik figyelembe, hogy egy ilyen módosítás a probléma nemlineáris ábrázolását lineárissá változtatja.
Ezért, ha egyszerűen figyelmen kívül hagyjuk a rögzített kapcsolatokkal rendelkező, nem tanítható rétegeket (egy elemi perceptronban ezek S-A kapcsolatok), téves következtetéseket vonhatunk le a neurális hálózat képességeiről. Tehát Minsky nagyon helyesen járt el, újrafogalmazva az A-elemet predikátumként (vagyis függvényként); éppen ellenkezőleg, Wasserman már elvesztette ezt az ötletet, és van egy A-eleme - csak egy bemenet (majdnem egyenértékű az S-elemmel). Ilyen terminológiai zűrzavar mellett figyelmen kívül hagyjuk azt a tényt, hogy a perceptron az S-elemek receptív mezőjét leképezi az A-elemek asszociatív mezőjére, aminek következtében bármely lineárisan elválaszthatatlan probléma lineárisan elválaszthatóvá alakul.
A legtöbb funkcionális tévhit egy lineárisan elválaszthatatlan probléma perceptronnal való megoldásának feltételezett lehetetlenségére vezethető vissza. De sok variáció létezik ebben a témában, nézzük a főbbeket.
XOR problémaTévhit: A perceptron nem képes megoldani az " XOR problémát ".
Nagyon gyakori tévhit. A jobb oldali kép egy perceptron megoldást mutat erre a problémára. Ez a tévhit egyrészt abból adódik, hogy Minsky perceptron-definícióját helytelenül értelmezik (lásd fent ), vagyis a predikátumok azonnal egyenlőnek számítanak a bemenetekkel, bár Minsky predikátuma egy olyan függvény, amely a bemeneti értékek egész halmazát azonosítja [nb 7 ] . Másodszor, amiatt, hogy a klasszikus Rosenblatt perceptront összetévesztik egy egyrétegű perceptronnal (a fentebb leírt terminológiai pontatlanság miatt).Különös figyelmet kell fordítani arra a tényre, hogy az "egyrétegű perceptron" a modern terminológiában és az "egyrétegű perceptron" Wasserman terminológiájában különböző objektumok. Az illusztráción ábrázolt tárgy pedig Wasserman terminológiájával egy kétrétegű perceptron.
Tanulhatóság lineárisan elválaszthatatlan problémákhozTévhit: véletlenszerű súlyok megválasztásával lineárisan elválaszthatatlan (általában bármilyen) feladatok esetében is elérhető a tanulás, de csak szerencsés esetben , és új változókban (A-neuronok kimenetei) a feladat lineárisan elválaszthatónak bizonyul. De lehet, hogy nem lesz szerencséd.
A perceptron konvergencia tétel [8] azt bizonyítja, hogy nincs és nem is lehet „nem szerencsés”; ha az A-elemek egyenlőek az ingerek számával és a nem speciális G-mátrixszal , a megoldás valószínűsége 100%. Vagyis ha a receptormezőt egy véletlenszerű (nem lineáris) operátorral egy dimenzióval nagyobb asszociatív mezőre képezzük le , a nemlineáris probléma lineárisan elválaszthatóvá válik. A következő betanítható réteg pedig már egy másik beviteli térben lineáris megoldást talál. Például egy perceptron betanítása az "XOR probléma" megoldására (lásd az ábrát) a következő lépésekben történik:Súlyok | Iterációk | ||||||||
---|---|---|---|---|---|---|---|---|---|
egy | 2 | 3 | négy | 5 | |||||
w1 | 0 | egy | egy | egy | egy | 2 | 2 | 2 | 2 |
w2 | 0 | 0 | egy | egy | egy | egy | egy | 2 | 2 |
w3 | −1 | 0 | egy | 0 | −1 | 0 | −1 | 0 | −1 |
Bemeneti jelek (x, y) | tizenegy | 0, 1 | tíz | tizenegy | tizenegy | 0, 1 | tizenegy | tíz | tizenegy |
Tévhit: ha egy feladatban elég nagy a bemenetek dimenziója, és kevés a képzési példa, akkor egy ilyen „gyengén kitöltött” térben nem biztos, hogy kevés a sikerek száma. Ez csak a perceptron alkalmasságának egy konkrét esetét jelzi, és nem egyetemességét.
Ez az érv könnyen tesztelhető egy "sakktábla" vagy "szivacs vízzel" nevű tesztfeladaton [26] [nb 8] :Adott egy 2· N egyesből vagy nullából álló lánc, amelyet párhuzamosan táplálunk a perceptron bemeneteivel. Ha ez a lánc tükörszimmetrikus a középpontra, akkor a kimenet +1, ellenkező esetben 0. A képzési példák mind (ez fontos) láncok. |
Vegyünk egy fekete-fehér képet, melynek mérete 256×256 elem ( pixel ). A perceptron bemeneti adatai a pont koordinátái lesznek (8 bit + 8 bit, összesen 16 S-elem szükséges), a kimeneten a pont színét kérjük. Megtanítjuk a perceptront minden pontra (a teljes képre). Ennek eredményeként 65 536 különböző inger-válasz párunk van. Tanulj hibák nélkül. |
Tévhit: Rosenblatt perceptronjának annyi A-eleme van, ahány bemenet. A konvergencia pedig Rosenblatt szerint a súlyok stabilizálása.
A Rosenblattban ezt olvassuk:
Ha az ingerek száma a W térben egyenlő n > N (azaz több, mint az elemi perceptron A-elemeinek száma), akkor van olyan C(W) besorolás , amelyre nincs megoldás [28 ] .
Ebből az következik, hogy:Tévhit: ha a rejtett réteg elemeinek (A-elemek) súlyegyütthatói rögzítettek, akkor szükséges, hogy a rejtett réteg elemeinek száma (vagy azok összetettsége) exponenciálisan növekedjen a probléma dimenziójának növekedésével (receptorok száma). Így elveszik fő előnyük - az önkényes bonyolultságú problémák egyszerű elemek segítségével történő megoldásának képessége.
Rosenblatt kimutatta, hogy az A-elemek száma csak a felismerendő ingerek számától függ (lásd az előző bekezdést vagy a perceptronkonvergencia tételt ). Így a receptorok számának növekedésével, ha az A-elemek száma rögzített, a perceptron tetszőleges bonyolultságú problémák megoldására való képessége közvetlenül nem függ. Ez a tévhit Minsky következő mondatából ered:
A paritási predikátum vizsgálatakor azt láttuk, hogy az együtthatók |R|-el növekedhetnek (pontok száma a képen) exponenciálisan [29] .
Ezen kívül Minsky más predikátumokat is feltárt, mint például az „egyenlőség”. De mindezek a predikátumok meglehetősen specifikus feladatot jelentenek az általánosításra, nem pedig a felismerésre vagy előrejelzésre. Így például ahhoz, hogy a perceptron teljesítse a „paritás” predikátumot, meg kell mondania, hogy egy fekete-fehér képen a fekete pontok száma páros-e vagy sem; és az "egyenlőség" predikátum teljesítéséhez mondja meg, hogy a kép jobb oldala egyenlő-e a bal oldalával. Nyilvánvaló, hogy az ilyen problémák túlmutatnak a felismerés és az előrejelzés problémáin, és általánosítási vagy egyszerűen bizonyos jellemzők kiszámításának problémái. Ezt Minsky meggyőzően kimutatta, és ez nemcsak a perceptronok korlátja, hanem minden olyan párhuzamos algoritmusnak is, amely nem képes gyorsabban kiszámítani az ilyen predikátumokat, mint a szekvenciális algoritmusok. Ezért az ilyen feladatok korlátozzák az összes neurális hálózat és perceptron képességeit, de ennek semmi köze az első réteg rögzített kapcsolataihoz; hiszen egyrészt a második réteg kapcsolódási együtthatóinak értékéről volt szó, másrészt csak a hatékonyságban van a kérdés, nem pedig elvileg. Vagyis a perceptron is betanítható erre a feladatra, de az ehhez szükséges memóriakapacitás és tanulási sebesség nagyobb lesz, mint egy egyszerű szekvenciális algoritmus használatakor. Az edzhető súlyok bevezetése az első rétegben csak ront a helyzeten, mert több edzési időt igényel, mivel az S és A közötti kapcsolati változók inkább akadályozzák, mintsem hozzájárulnak a tanulási folyamathoz [30] . Ezen túlmenően, amikor egy perceptront készítünk fel egy speciális típusú ingerek felismerésére, a hatékonyság fenntartása érdekében, a sztochasztikus tanulás speciális feltételeire lesz szükség [31] , amit Rosenblatt változó S-A kötésekkel rendelkező perceptronnal végzett kísérleteiben mutatott ki .Maga Rosenblatt a perceptront elsősorban a következő fontos lépésnek tekintette a neurális hálózatok tanulmányozása és használata felé, nem pedig egy „ gondolkodni képes gép ” kész változatának [nb 9] . Már könyvének előszavában is, a kritikákra reagálva megjegyezte, hogy „a perceptron-kutatási program elsősorban nem a „mesterséges intelligenciával” rendelkező eszközök feltalálásával, hanem a fizikai struktúrák és a neurodinamikai elvek tanulmányozásával kapcsolatos [32]. .
Rosenblatt számos pszichológiai tesztet javasolt a neurális hálózatok képességeinek meghatározására: kísérleteket a megkülönböztetéssel , az általánosítással , a szekvencia felismeréssel , az absztrakt fogalmak kialakításával, az „ öntudat ” kialakulásával és tulajdonságaival , a kreatív képzelőerővel és másokkal [33] . E kísérletek némelyike távol áll a perceptronok jelenlegi képességeitől, ezért fejlesztésük filozófiailag inkább a konnektivizmus irányába esik . Ennek ellenére a perceptronok esetében két fontos tényt állapítottak meg, amelyek gyakorlati problémákban is alkalmazhatók: az osztályozás lehetősége (objektumok) és a közelítés lehetősége (osztályok és függvények határai) [34] .
A perceptronok fontos tulajdonsága a tanulási képességük, ráadásul egy meglehetősen egyszerű és hatékony algoritmus szerint (lásd fent ).
Maga Rosenblatt két alapvető korlátot azonosított a háromrétegű (egy S-rétegből, egy A-rétegből és R-rétegből álló) perceptronok esetében: nem képesek jellemzőiket új ingerekre vagy új helyzetekre általánosítani, és nem képesek komplex elemzésre. helyzetek a külső környezetben.környezet egyszerűbbekre bontva [17] .
1969 -ben Marvin Minsky és Seymour Papert kiadta a Perceptronok című könyvet, ahol matematikailag kimutatták, hogy a Rosenblatthoz hasonló perceptronok alapvetően képtelenek ellátni a perceptronoktól elvárt számos funkciót. Ráadásul abban az időben a párhuzamos számítás elmélete gyengén fejlődött, és a perceptron teljes mértékben megfelelt az ilyen számítások elveinek. Általában véve Minsky megmutatta a szekvenciális számítás előnyét a párhuzamossal szemben az invariáns reprezentációval kapcsolatos problémák bizonyos osztályaiban. Kritikája három témára osztható:
Minsky és Papert könyve jelentősen befolyásolta a mesterséges intelligencia tudományának fejlődését, mivel az amerikai kormányzati szervezetek tudományos érdeklődését és támogatásait egy másik kutatási irány felé – az AI szimbolikus megközelítésébe – helyezte át .
Itt csak a perceptron gyakorlati alkalmazásának alapjait mutatjuk be két különböző feladaton. Az előrejelzési probléma (és ezzel egyenértékű mintafelismerési probléma ) nagy pontosságot, míg az ügynökvezérlési probléma magas tanulási sebességet igényel. Ezért ezeket a feladatokat figyelembe véve teljes mértékben megismerhetjük a perceptron képességeit, de ez még korántsem meríti ki a felhasználási lehetőségeket.
Gyakorlati feladatokban a perceptronnak kettőnél több lehetőség közül kell választania, ami azt jelenti, hogy egynél több R-elemmel kell rendelkeznie a kimeneten. Amint azt Rosenblatt kimutatta, az ilyen rendszerek jellemzői nem térnek el jelentősen egy elemi perceptron jellemzőitől [40] .
Előrejelzés és mintafelismerésEzekben a feladatokban a perceptronnak meg kell határoznia, hogy egy objektum paraméterei alapján (például megjelenés, forma, sziluett alapján) egy osztályhoz tartozik-e. Ezenkívül a felismerés pontossága nagymértékben függ a perceptron kimeneti reakcióinak ábrázolásától. Itt háromféle kódolás lehetséges: konfigurációs , pozicionális és hibrid. A pozíciókódolás, amikor minden osztálynak saját R-eleme van, pontosabb eredményeket ad, mint a többi típus. Ezt a típust használják például E. Kussul és munkatársai „Rosenblatt Perceptrons for Recognizing Handwritten Digits” című munkája. Nem alkalmazható azonban olyan esetekben, amikor az osztályok száma jelentős, például több száz. Ilyen esetekben a hibrid konfigurációs-pozíciós kódolás használható, ahogyan azt S. Yakovlev "Munka neurális hálózatokon alapuló mozgó objektumok felismerő rendszere" című munkájában is megtették.
ÜgynökkezelésA mesterséges intelligenciában gyakran figyelembe veszik a tanuló ( környezethez alkalmazkodó ) ágenseket. Ugyanakkor a bizonytalanság körülményei között nem csak az aktuális információk elemzése válik fontossá, hanem a szituáció általános kontextusának elemzése is, amelybe az ágens került, ezért itt visszacsatolásos perceptronokat használunk [41] . Emellett egyes feladatoknál fontossá válik a perceptron tanulási sebességének növelése, például refraktoriness modellezés segítségével [42] .
A „ mesterséges intelligencia telének ” nevezett időszak után az 1980 -as években újjáéledt a kibernetikus modellek iránti érdeklődés , mivel a szimbolikus mesterséges intelligencia hívei nem tudtak közel kerülni a „megértés” és a „jelentés” kérdésköréhez, ami a gépi fordítást és a technikai mintafelismerést okozta. végzetes hiányosságok. Maga Minsky nyilvánosan sajnálatát fejezte ki amiatt, hogy beszéde megsértette a perceptron fogalmát, bár a könyv csak egyetlen eszköz és annak néhány változatának hiányosságait mutatta be. Általánosságban azonban a mesterséges intelligencia a szimbolikus megközelítés szinonimájává vált, amely az emberi agy összetett tevékenységeit szimuláló, egyre összetettebb számítógépes programok létrehozásában fejeződik ki.
A mesterséges neurális hálózatok típusai | |
---|---|
|
Gépi tanulás és adatbányászat | |
---|---|
Feladatok | |
Tanulás tanárral | |
klaszteranalízis | |
Dimenziócsökkentés | |
Strukturális előrejelzés | |
Anomália észlelése | |
Grafikon valószínűségi modellek | |
Neurális hálózatok | |
Megerősítő tanulás |
|
Elmélet | |
Folyóiratok és konferenciák |
|