A Hamilton-Jacobi-Bellman egyenlet egy parciális differenciálegyenlet , amely központi szerepet játszik az optimális szabályozás elméletében . Az egyenlet megoldása az értékfüggvény , amely adott költségfüggvénnyel az optimális értéket adja meg egy szabályozott dinamikus rendszerhez .
Ha a Hamilton-Jacobi-Bellman egyenleteket a tér valamely részében megoldjuk, szükségszerű feltétel szerepét töltik be; a teljes térben megoldva az optimális megoldás elégséges feltételévé is válnak. A technika sztochasztikus rendszerekre is alkalmazható.
A klasszikus variációs problémák (például a brachistochrone probléma ) megoldhatók ezzel a módszerrel.
Az egyenlet a dinamikus programozási elmélet fejlesztésének eredménye , amelyet Richard Bellman és munkatársai vezettek be. [egy]
A megfelelő diszkrét időegyenletet egyszerűen Bellman-egyenletnek nevezzük . Ha a folytonos idővel kapcsolatos problémát vizsgáljuk, a kapott egyenletek a Hamilton-Jacobi egyenlettel kapcsolatos elméleti fizika területén végzett korábbi munka folytatásának tekinthetők .
Tekintsük a következő optimális szabályozási problémát az időintervallumban :
ahol C és D azok a költségfüggvények, amelyek a funkcionális integrált és terminális részeit határozzák meg. x ( t ) egy vektor, amely meghatározza a rendszer állapotát minden időpillanatban. Kezdőértéke x (0) ismert. Az u ( t ) vezérlővektort úgy kell megválasztani, hogy V értéke minimális legyen .
A rendszer fejlődését az u ( t ) vezérlés hatására a következőképpen írjuk le:
Egy ilyen egyszerű dinamikus rendszer esetében a Hamilton-Jacobi-Bellman egyenletek a következő alakot öltik:
( a skaláris szorzatot értjük), és a T végső időpontban érvényes értékkel adják meg :
Ebben az egyenletben az ismeretlen a Bellman V ( x , t ) „értékfüggvény” , amely annak a maximális árnak felel meg, amelyet a rendszer ( x , t ) állapotból optimális módon T időpontig történő meghajtásával kaphatunk . Ennek megfelelően a minket érdeklő optimális költség a V = V ( x (0), 0) érték.
Mutassuk meg az intuitív érvelést, amely ehhez az egyenlethez vezet. Legyen értékfüggvény, majd tekintsük átmenetet t időről t + dt időre a Bellman-elv szerint :
Bővítsük ki az utolsó kifejezést Taylor szerint:
Marad a V ( x , t ) balra mozgatása, dt -vel való elosztás és a határértékre való átlépés.