Q-learning

A Q -learning a mesterséges intelligenciában alkalmazott módszer , ágens alapú megközelítéssel . Megerősítő tanulási kísérletekre utal . A környezettől kapott jutalom alapján az ágens egy Q hasznossági függvényt alkot , amely utólag lehetőséget ad arra, hogy ne véletlenszerűen válasszon viselkedési stratégiát, hanem figyelembe vegye a környezettel való korábbi interakció tapasztalatait. A Q-learning egyik előnye, hogy a környezet modellezése nélkül képes összehasonlítani az elérhető tevékenységek várható hasznosságát . Olyan helyzetekre vonatkozik, amelyek Markov-döntési folyamatként ábrázolhatók .

Q-learning algoritmus

  1. Inicializálás :
    1. minden s és a do Q[s, a] = RND // inicializálja a Q segédfunkciót az a műveletből az s helyzetben véletlenszerűen bármely bemenetre
  2. Figyeld meg :
    1. s' = s // Emlékezzen az előző állapotokra
    2. a' = a // Emlékezzen az előző műveletekre
    3. s = FROM_SENSOR // Az aktuális állapotok lekérése az érzékelőtől
    4. r = FROM_SENSOR // Jutalom az előző műveletért
  3. Frissítés (Segédprogram frissítése):
    1. Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) - Q[s',a'])
  4. Döntés :
    1. a = ARGMAX(Q, s)
    2. TO_ACTIVATOR = a
  5. Ismételje meg : LÉPJ A 2-RE

Jelölés

A MAX(Q,s) függvény

  1. max = minÉrték
  2. A ACTIONS(ek) mindegyike esetében meg kell tenni
    1. ha Q[s, a] > max, akkor max = Q[s, a]
  3. visszatérés max

ARGMAX(Q,s)

  1. amax = ACTION(ok) első
  2. az ACTION(ek) mindegyikéhez meg kell tenni
    1. ha Q[s, a] > Q[s, amax], akkor amax = a
  3. visszatérés amax

Irodalom

Lásd még

Linkek