A Neurocontrol ( eng. Neurocontrol ) az intelligens vezérlés egy speciális esete , amely mesterséges neurális hálózatokat használ a dinamikus objektumok vezérlésével kapcsolatos problémák megoldására. A neurokontroll olyan tudományágak metszéspontjában áll, mint a mesterséges intelligencia , a neurofiziológia , az automatikus vezérlés elmélete , a robotika . A neurális hálózatok számos egyedi tulajdonsággal rendelkeznek, amelyek hatékony eszközzé teszik őket a vezérlőrendszerek létrehozásához: a példákból való tanulás és az adatok általánosításának képessége, a vezérlőobjektum és a környezet tulajdonságainak változásaihoz való alkalmazkodás, szintézisre való alkalmasság. A nemlineáris vezérlők nagy ellenállása az elemeinek károsodásával szemben az eredetileg a neurális hálózati architektúrába beépített párhuzamosság erőssége miatt. A "neurofeedback" kifejezést először a backpropagation módszer egyik szerzője, Paul J. Verbos használta 1976-ban [1] [2] . Számos példa van a neurális hálózatok gyakorlati alkalmazására repülőgép [3] [4] , helikopter [5] , robotautó [6] , motortengely fordulatszám [7] , hibrid autó motorjának vezérlési problémáinak megoldására. [8] , elektromos kemence [9] , turbógenerátor [10] , hegesztőgép [11] , pneumatikus henger [12] , fegyverzetvezérlő rendszer könnyű páncélozott járművekhez [13] , fordított ingamodell [14] .
A neurális hálózatok felhasználási módja szerint a neurokontroll módszereket direkt és indirektre osztják . A direkt módszerekben a neurális hálózatot arra tanítják, hogy közvetlenül generáljon vezérlési műveleteket az objektumon, a közvetett módszereknél a neurális hálózatot segédfunkciók elvégzésére: vezérlőobjektum azonosítás , zajelnyomás , a PID-vezérlő együtthatóinak működési beállítása . A neurokontrollert alkotó neurális hálózatok számától függően a neurovezérlő rendszereket egymodulos és többmodulosra osztják . A hagyományos szabályozókkal együtt használt neurocontrol rendszereket hibridnek nevezzük .
Az irányítás területén a mesterséges neurális rendszereket (ANS) használják az objektumok azonosítására szolgáló feladatokban, az előrejelzési és diagnosztizálási algoritmusokban, valamint az optimális automatikus vezérlőrendszerek (ACS) szintézisében . Az ANN alapú ACP megvalósításához jelenleg intenzíven fejlesztik a neurochipek és neurokontrollerek (NC) gyártását.
Bizonyos értelemben az ANN az agy utánzója, amely képes tanulni és eligazodni a bizonytalanság körülményei között. A mesterséges neurális hálózat két szempontból hasonlít az agyhoz. A hálózat tudást szerez a tanulási folyamat során, és a tudás tárolására nem magukat az objektumokat használja, hanem azok kapcsolatait - az interneuronális kapcsolatok együtthatóinak értékeit, amelyeket szinaptikus súlyoknak vagy szinaptikus együtthatóknak neveznek [15] .
A neurokontroll feladatokban egy fekete doboz modellt használnak a vezérlőobjektum ábrázolására, amelyben az aktuális bemeneti és kimeneti értékek figyelhetők meg. Az objektum állapotát külső megfigyelés számára elérhetetlennek tekintjük, bár az állapotvektor dimenzióját általában rögzítettnek tekintjük. A vezérlőobjektum viselkedésének dinamikája diszkrét formában ábrázolható:
ahol: a sorrendvezérlő objektum állapota a cikluson ; a ciklus -dimenziós vezérlővektorának értéke , a cikluson lévő vezérlőobjektum -dimenziós kimenetének értéke .
A vezérlőobjektum aktuális állapotának becsléséhez a NARX modell használható, amely az objektum múltbeli pozícióiból és késleltetett vezérlőjelekből áll :
Az állapotbecslő vektor késleltetett jelek használata nélkül is ábrázolható:
Lehetőség van arra is, hogy egy objektum állapotát a fázispályájának pillanatképeként ábrázoljuk:
Az imitatív neurokontroll [16] [17] [18] (mimikon alapuló neurokontroll-tanulás, kontroller modellezés, felügyelt tanulás meglévő kontroller segítségével) olyan neurokontroll rendszereket takar, amelyekben a neurokontroller egy hagyományos visszacsatolásos vezérlő dinamikájának példáira oktatja például a hagyományos PID szabályozási séma alapján . A betanítás után a neurális hálózat pontosan reprodukálja az eredeti vezérlő funkcióit. Az emberi operátor viselkedésének rögzítése példaként használható a vezérlő dinamikájára. Egy hagyományos visszacsatoló vezérlő (vagy egy emberi kezelő) vezérli a vezérlőobjektumot normál üzemmódban. A vezérlő bemenetén és kimenetén lévő értékeket rögzítik, és a protokoll alapján a neurális hálózathoz egy betanító mintát képeznek, amely bemeneti értékpárokat és a neurális hálózat várható reakcióit tartalmazza :
Például a backpropagation betanítása után a neurális hálózat az eredeti vezérlő helyére csatlakozik. Az így létrejött neurokontroller helyettesítheti a személyt az eszköz kezelésében, és költséghatékonyabb is lehet, mint az eredeti vezérlő.
Az általánosított inverz neurokontroll (direkt inverz neurokontroll, adaptív inverz vezérlés) sémájában [19] [20] a vezérlőobjektum inverz dinamikájának neurális modelljét, az úgynevezett inverz neuroemulátort használják vezérlőként . Az inverz neuroemulátor egy offline neurális hálózat , amely egy vezérlőobjektum fordított dinamikáját szimulálja egy dinamikus objektum viselkedésének rögzített pályái alapján. Az ilyen pályák eléréséhez valamilyen véletlenszerű folyamatot táplálunk a vezérlő objektumhoz vezérlőjelként. Az objektum vezérlőjeleinek és válaszainak értékeit rögzítik, és ennek alapján képzési mintát képeznek :
A képzés során a neurális hálózatnak fel kell fognia és emlékeznie kell a vezérlőjel értékeinek a vezérlő objektum reakciójának későbbi értékétől való függőségére , amely korábban állapotban volt . Egy objektum vezérlésekor egy inverz neuroemulátor van csatlakoztatva vezérlőként, miközben a bemeneten megkapja az alapjel értékeit (egy bizonyos érték vagy paraméter, amelynek elérésekor megváltozik a rendszer állapota) és az átmenő vezérlő objektum állapota. visszajelzési csatorna :
Feltételezzük, hogy a betanítás során kialakított vezérlőobjektum inverz modellje megfelelő, ezért a neurális hálózat által kibocsátott vezérlőjel biztosítja az objektum átmenetét a beállítás által meghatározott pozícióba.
A specializált inverz neurokontroll [19] [20] a neurokontroller online betanításának módszerét használja az objektum pozíciójának az alapjeltől való eltérésének aktuális hibájával . A neurokontroller kapcsolódási diagramja megegyezik az általánosított inverz neurokontroll módszerével . A vektor a hálózat bemenetére kerül :
A neurális hálózat létrehoz egy vezérlővektort , amely a vezérlőobjektumot a pozícióba mozgatja . Ezután a neurokontroller aktuális hibáját számítjuk ki
A súlyváltozás gradiensét kiszámítjuk
Ezután a neurokontroller súlyait a legmeredekebb süllyedés módszerével vagy más gradiens módszerrel korrigálják .
A derivált a vezérlőobjektum Jacobi -jele , amelynek értékét a vezérlőobjektum adott matematikai modelljének megfelelően analitikusan állítjuk be. A gyakorlatban azonban az elfogadható ellenőrzési minőség eléréséhez gyakran elegendő csak a jakobiánus előjelét kiszámítani. Az együtthatók értékeinek korrekciós iterációi addig folytatódnak, amíg az elfogadható ellenőrzési minőséget el nem érik.
Az időben történő visszaterjesztés, a modellreferencia adaptív vezérlés, a belső modellvezérlési módszer [8] [21] [22] [23] azon az elgondoláson alapul, hogy két neurális hálózat tandemét használják , amelyek közül az egyik vezérlőként működik , a második pedig a vezérlőobjektum modell , amelyet közvetlen neuroemulátornak neveznek . A direkt neuroemulátor a neurokontroller hibagradiensének kiszámítására szolgál a betanítása során, és nem használják tovább. Elmondható, hogy a neurokontroller és a neuroemulátor egyetlen neurális hálózatot képvisel, és a neurokontroller betanítása során a direkt neuroemulátor súlyai „lefagynak”. Először a közvetlen neuroemulátort képezik ki. Ehhez egy véletlenszerű vezérlőjelet adunk a vezérlőobjektum bemenetére , megváltoztatva a vezérlőobjektum helyzetét , és képzési mintát képezünk :
A közvetlen neuroemulátor képzése offline módban történik. A közvetlen neuroemulátort oktatottnak tekintjük, ha a neuroemulátor és a valódi objektum bemenetein azonos értékek mellett a kimeneteik értékei közötti különbség jelentéktelenné válik. A közvetlen neuroemulátor betanítása után a neurokontroller betanításra kerül. A képzés online történik, ugyanazon séma szerint, mint a speciális inverz neurofeedback esetében . Először (a cikluson ) a vezérlő objektum kívánt pozíciója érkezik a következő ciklushoz a neurokontroller bemenetén . A neurokontroller vezérlőjelet generál , amelyet a vezérlőobjektum és a neuroemulátor bemeneteire táplál. Ennek eredményeként a vezérelt tárgy a pozícióba kerül , és a neuroemulátor generálja a reakciót . Ezt követően a rendszer kiszámítja a szabályozási hibát, és a visszaterjesztési szabály szerint az ellenkező irányba továbbítja. A neuroemulátor kapcsolatok súlyegyütthatóit ebben az esetben nem korrigálják. A direkt neuroemulátoron áthaladó fordított hiba mechanizmusa egy lokális inverz modellt valósít meg a vezérlőobjektum állapotterének aktuális pontján. A neuroemulátoron való áthaladás után a hiba tovább terjed a neurokontrolleren, de most az áthaladását a neurokontroller súlyegyütthatóinak korrekciója kíséri. Ebben az esetben a közvetlen neuroemulátor a neurokontroller neurális hálózatának további rétegeinek funkcióit látja el, amelyekben a kapcsolati súlyok nem korrigálódnak.
A neurokontroll módszere referenciamodellel (modellreferencia adaptív vezérlés, neurális adaptív vezérlés) [23] [24] [25] a neurokontroll egyik változata a fordított hiba módszerével, direkt neuroemulátoron keresztül egy további referenciamodellel (referencia) modell) az áramkörbe ágyazott dinamikus rendszert, hogy szimulálják, kinek a viselkedését a neurokontroller edzi. Ez az átmeneti folyamat minőségének javítása érdekében történik: abban az esetben, ha az objektum átmenete a célpozícióba egy ciklusban lehetetlen, a mozgás pályája és az átmeneti folyamat ideje rosszul kiszámítható értékké válik. és az átmeneti folyamat instabilitásához vezethet. Ennek a bizonytalanságnak a csökkentése érdekében egy referenciamodellt vezetünk be, amely általában egy stabil, első vagy másodrendű lineáris dinamikus rendszer. A betanítás során a referenciamodell egy alapjelet kap a bemeneten , és referenciapályát generál , amelyet összehasonlít a vezérlőobjektum helyzetével , hogy vezérlési hibát kapjon , amelynek minimalizálása érdekében a neurokontroller betanításra kerül.
A külső zavarok neurális hálózati szűrésének módszere (lineáris és nemlineáris adaptív szűrésen alapuló adaptív inverz vezérlés, belső modellvezérlés) [26] a vezérlőkörben lévő vezérlő minőségének javítását szolgálja . Kezdetben ezt a sémát B. Widrow javasolta az általánosított inverz neurokontroll módszerével kiképzett neurokontrollerekkel együtt való használatra [27] . Egy későbbi munkájában [28] direkt neuroemulátoron keresztül történő hibavisszaterjedés módszerével kiképzett neurokontrollereket használt . Elvileg a neurális hálózati hibaszűrés bármilyen típusú vezérlő teljesítményének javítására használható, nem feltétlenül a neurális hálózaté . Ez a séma két előképzett neurális hálózatot használ: egy inverz neuroemulátort, amely ugyanúgy van kiképezve, mint az általánosított inverz neurokontroll módszernél , és egy direkt neuroemulátort, amely ugyanúgy van kiképezve, mint a visszaszaporító módszerben, direkt neuroemulátoron keresztül . Hagyja, hogy a vezérlőjel érkezzen a vezérlő objektumhoz , amely a vezérlő jelének és a külső zavarszűrő rendszer korrekciós jelének összegzésének eredménye , amelyet az előző lépésben számítottunk ki. A jelet a vezérlőobjektum közvetlen neuroemulátorába küldik, és a direkt neuroemulátor reakcióját összehasonlítják a rendszer valós állapotával . Az ezen értékek közötti különbséget a rendszer külső zavar okozta nemkívánatos eltéréseként értelmezzük. A nemkívánatos hatás elnyomására a jelet az inverz neuroemulátorhoz küldik, amely kiszámítja a korrekciós jelet , hogy a következő ciklusban korrigálja a neurokontroller vezérlőjelét .
A módszer használatához a vezérlőobjektumnak reverzibilis dinamikával kell rendelkeznie, valamint a vezérlőobjektum megfelelő matematikai vagy szimulációs modelljével kell rendelkeznie a direkt és inverz neuroemulátorok betanításához.
Prediktív modell neurokontroll (NN prediktív vezérlés, modell prediktív vezérlés, neurális generalizált prediktív vezérlés) [29] [30] minimalizálja az integrált hibaköltség funkcionális , előre jelzett ciklusokat :
Itt van a rendszer kimeneti hibája, amely a vezérlőjel változásának hozzájárulása a működési összköltséghez . A rendszer jövőbeli viselkedésének előrejelzésére és a hibák kiszámítására direkt neuroemulátort használnak, amelyet ugyanúgy képeznek ki, mint a direkt neuroemulátoron keresztüli hibavisszaterjesztés módszerét . A vizsgált módszer sajátossága, hogy nem rendelkezik betanítható neurokontrollerrel. Helyét egy valós idejű optimalizáló modul veszi át, amelyben például a szimplex módszer [31] vagy a kvázi-newtoni algoritmus [32] használható .
Az optimalizáló modul megkapja a ciklus előtti ciklusok célpályáját, és ha az nincs, akkor megduplázza az aktuális alapjel értékét, és ezt használja célpályaként. Továbbá az optimális szabályozási művelet kiválasztásához számításokat végeznek a neurokontroll rendszer belső hurkában (az iterációit jelöljük ). Egy vezérlési ciklus során az optimalizáló modul különböző műveletek sorozatát továbbítja a neuroemulátor bemenetére , ahol az előrejelzési mélység, különböző opciókat kap a rendszer viselkedésére vonatkozóan, kiszámítja a költségfüggvényt, és meghatározza a legjobb szabályozási stratégiát . Ennek eredményeként egy vezérlőjel kerül az objektumra . A következő ciklusban a stratégia újraszámításra kerül.
Az adaptív kritikusokon alapuló neurofeedback módszerek , más néven közelítő dinamikus programozás ( ADP ) nagyon népszerűek voltak az elmúlt években [ 33] [34] [35] [36] . Az adaptív kritikai rendszerek a vezérlőjelet az alapján választják ki, hogy minimalizálják a jövőbeli hibabecslések funkcionális értékét végtelen horizonton:
Itt a felejtési tényező, , a vezérlőobjektum pályájának az alapjeltől való eltérése, a rendszer minden egyes ciklusánál számítva. A rendszer két neurális modult tartalmaz: egy neurokontrollert és egy kritikus modult ( kritikus ). A kritika modul elvégzi a költségfüggvény értékeinek közelítését , a neurokontroller a költségfüggvény minimalizálására van kiképezve .
Objektumvezérlési módban a neurokontroller bemenete olyan vektort kap , amely a kimenetén egy vezérlőjel megjelenését idézi elő, aminek hatására a vezérlőobjektum a pozícióba kerül . Ezután kiszámítja az aktuális vezérlési hiba értékét . A kritikai modul, amely vektort kap bemenetként , kiértékeli a költségfüggvényt . A következő ciklusban a folyamat megismétlődik: új értékek és kiszámításra kerülnek . A neurokontroll rendszer képzése online történik, és két szakaszból áll: a kritikai modul képzése és a neurokontroller képzése. Először az időeltolódási hibát számítjuk ki . Ezután a legmeredekebb süllyedés módszerének megfelelően a kritikai modul linkjeinek súlya korrigálásra kerül :
A gradiens értékét a backpropagation módszerrel számítják ki . A neurokontroller kapcsolatainak súlyának korrekciója ugyanúgy történik:
A derivált értéket az érték kritikus modulon keresztül történő visszaterjesztésével, a gradiens értékét pedig a hiba vezérlőmodulon keresztül történő visszaterjesztésével találjuk meg. A súlykorrekció addig folytatódik, amíg a rendszer el nem éri a kívánt ellenőrzési minőségi szintet. Így minden lépésnél a neurokontroller betanításával javul az irányítási törvény (iteráció stratégiákon, irányelviteráció), a rendszer helyzetértékelési képessége pedig a kritikus képzésével (érték szerinti iteráció, értékiteráció) is nő. Az adaptív kritikai rendszer felépítésének konkrét sémája eltérhet a fent leírtaktól , amelyet heurisztikus dinamikus programozásnak ( HDP ) neveznek . A kettős heurisztikus programozási ( DHP ) módszernél a kritikus modul a globális költségfüggvény deriváltját számítja ki , a globális kettős heurisztikus programozási ( GHDP ) módszernél pedig magát a költségfüggvényt és annak deriváltját is a kritikus számítja ki . Ismertek a módszer olyan módosításai, amelyekben a kritikai modul kizárólag egy vezérlőjel alapján hoz döntéseket. Angol rövidítéseikben az AD (akciófüggő) előtag szerepel : ADHDP , ADDHP , ADGDHP . Az adaptív kritika egyes változataiban a kritikai modul két részből áll: magából a kritikai modulból és a közvetlen neuroemulátorból. Ez utóbbi előrejelzéseket ad a vezérlőobjektum viselkedéséről, amelyek alapján a kritikus becslést ad a költségfüggvényre . Az ilyen változatokat modell alapúnak nevezzük .
Hibrid neuro-PID vezérlés (NNPID auto-tuning, neuromorf PID önhangolás) [37] [38] lehetővé teszi a PID vezérlő online önhangolását neurális hálózatok segítségével . A PID szabályozó online hangolása az aktuális szabályozási hibának megfelelően történik . Egy ciklus során a neurális hálózat megkapja az alapjelet , és előállítja a PID-szabályozó vezérlési együtthatóit (arányos), (integrális), (differenciális), amelyeket a PID-vezérlőhöz táplálnak az aktuális visszacsatolási hiba értékével együtt . Működés közben a PID-szabályozó a rekurzív képlet szerint számítja ki az aktuális vezérlőjelet :
diszkrét PID-szabályozókhoz használják, és a vezérlőobjektumhoz táplálják.
A neurális hálózatot valós időben, visszacsatolási hiba tanítja, a legmeredekebb süllyedés módszerével .
Itt látható a PID-vezérlőhöz táplált neurális hálózat kimeneti vektora.
A színátmenetek kiszámítása a visszaszaporítási módszerrel történik . A vezérlőobjektum Jacobi -jele , hogy előjele analitikusan megtalálható-e, a vezérlőobjektum matematikai modellje alapján.
A hibrid párhuzamos neurokontroll módszerei (párhuzamos neurokontroll, stabil közvetlen adaptív vezérlés, additív előrecsatolt vezérlés) [26] [29] lehetővé teszik a neurokontrollerek és a hagyományos vezérlők párhuzamos használatát dinamikus objektumok vezérlésére. Ebben az esetben a neurokontroller és a hagyományos vezérlő, amely például a PID vezérlő , ugyanazokat az alapjeleket kapja. Hagyományos vezérlő és neurokontroller együttes csatlakoztatására a következő lehetőségek állnak rendelkezésre:
Ebben az esetben a számítások szerint egy hagyományos vezérlő egy objektumot vezérel az állapottér ezen tartományán kívül. Ha mindkét vezérlő párhuzamosan működik, a vezérlőjel vagy a neurokontrollertől érkezik, ha a rendszer aktuális állapota a régión belül van , vagy egyébként egy hagyományos vezérlőtől. A hibrid párhuzamos neurokontroll kompromisszumos megoldást jelent a neurokontroll iparági bevezetésére és a hagyományos vezérlőkről a neurális hálózatokra való átállásra.