Megerősítő tanulás

A megerősítő tanulás a gépi  tanulás egyik módszere , amelynek során a tesztelt rendszer ( ügynök ) valamilyen környezettel kölcsönhatásba lépve tanul . A kibernetika szempontjából a kibernetikai kísérletek egyik fajtája . A környezet (és nem egy speciális megerősítést vezérlő rendszer, mint ahogyan a felügyelt tanulásban történik ) a meghozott döntésekre adott válasza megerősítő jelzés , így az ilyen tanulás a felügyelt tanulás speciális esete ., de a tanár a környezet vagy annak modellje. Azt is szem előtt kell tartani, hogy bizonyos megerősítési szabályok implicit tanárokon alapulnak, például mesterséges neurális környezet esetén a formális neuronok egyidejű aktivitásán, ami miatt ezek a felügyelet nélküli tanulásnak tulajdoníthatók .

Környezet és ügynök

Az ágens hatással van a környezetre, a környezet pedig az ágensre. Egy ilyen rendszernek állítólag van visszacsatolása . Egy ilyen rendszert egésznek kell tekinteni, ezért a környezet és az ágens közötti választóvonal meglehetősen önkényes. Természetesen anatómiai vagy fizikai szempontból jól körülhatárolható határvonal van a környezet és az ágens (organizmus) között, de ha ezt a rendszert funkcionális szempontból vizsgáljuk, akkor a felosztás elmosódottá válik. Például a szobrász kezében lévő véső vagy a márványdarabot formáló összetett biofizikai mechanizmus részének, vagy annak az anyagnak a részének tekinthető, amelyet az idegrendszer manipulálni próbál.

Először 1961-ben javasolták és tanulmányozták ezt a fajta visszacsatolásos tanulást Mihail Lvovich Cetlin , egy híres szovjet matematikus [1] munkájában .

M. L. Tsetlin ezután egy bizonyos tervezésű véges automatát helyezett a külső környezetbe, amely az automata cselekvésétől függő valószínűséggel büntette vagy bátorította az automatát. A környezet reakciójával összhangban az automata önállóan megváltoztatta belső állapotát, ami a büntetések számának fokozatos csökkenéséhez, vagyis a tanuláshoz vezetett.

Ennek az automatának a viselkedésének elemzésére először az A. A. Markov által kifejlesztett Markov-láncok berendezését használták, amely lehetővé tette pontos és meggyőző eredmények elérését.

Ezt az anyagot az egyik legrangosabb és legbefolyásosabb szovjet tudományos kiadványban tették közzé - "A Szovjetunió Tudományos Akadémiájának jelentései". ML Tsetlin ezt a problémát egy automata véletlenszerű környezetben való viselkedésének vizsgálatának nevezte.

M. L. Tsetlin cikke publikációk hullámát váltotta ki, amelyekben a véges automaták tervezésének mindenféle fejlesztését javasolták, amelyeket számos alkalmazásban intenzíven használtak.

M. L. Tsetlin megalkotott egy új kifejezést - az automata célszerű viselkedését véletlenszerű környezetben. Tanítványa, V. L. Stefanyuk 1963-ban foglalkozott a kollektív viselkedés problémájával, új fogalmat definiált – „az automaták kollektív viselkedése”, és részletesen tanulmányozta egy automatapár viselkedését, amelyet M. L. Tsetlin mutatott be első publikációjában, amely az emberek célszerű viselkedéséről szólt. automaták.

V. L. Stefanyuk egy működési tanulási modellt készített félvezető elemeken és vákuum rádiócsöveken, amelyben két ilyen automata kollektív viselkedését valósították meg. Ezt a modellt 1962-ben védték meg diplomás munkaként a Moszkvai Állami Egyetem Fizikai Karán.

Ezzel egy időben (1963) M. L. Tsetlin megfogalmazta az automata játékok problémáját, amely számos fontos biológia és szociológia problémát modellezett. Valamivel később M. L. Tsetlin és S. L. Ginzburg leírták az úgynevezett ε-automata felépítését, amelyet gyakran használnak a megerősítő tanulásról szóló modern publikációkban.

Az automaták céltudatos viselkedéséről szóló számos szovjet publikáció, amelyeket nemzeti és nemzetközi konferenciákon beszámolók formájában mutattak be, sok évvel később vezette a megerősítő tanulás szerzőit arra az ötletre, hogy ezt a fajta tanulást külön osztályba különítsék el.

Ami az automaták kollektív viselkedését illeti, valami hasonló eredményre jutottak külföldi szerzők a többágens rendszerek koncepciójában , amelyet mesterséges intelligencia és programozás szempontjából vizsgáltak. A matematikai elemzési és bizonyítási módszereket azonban a többágens rendszerekben gyakorlatilag nem alkalmazták, ellentétben M. L. Tsetlin és V. L. Stefanyuk egy automata célszerű viselkedéséről, valamint több automata kollektív viselkedéséről és játékairól szóló munkáival.

Merevítőrendszer és típusai

Rosenblatt különféle tanulási algoritmusokat próbált osztályozni, megerősítő rendszereknek nevezve őket. [2] A következő meghatározást adja:

Megerősítő rendszer minden olyan szabályrendszer, amely alapján a perceptron interakciós mátrixa (vagy memóriaállapota) idővel megváltoztatható.

A klasszikus perceptron tanulási módszer – a felügyelt tanulásnak tulajdonítható hibajavító módszer – mellett Rosenblatt bevezette a nem felügyelt tanulás fogalmát is , több tanulási módszert is javasolva:

Megvalósítások

Lásd még

Jegyzetek

  1. Gelfand I. M., Pyatetsky-Shapiro I. I., Tsetlin M. L. A játékok egyes osztályairól és az automaták játékairól // Dokl. AN SSSR, 1963, 152. kötet, 4. szám, 845-848.
  2. Rosenblatt, F., p. 85-88.

Irodalom

Linkek