adaptív dinamikus programozás

Kapcsolódó fogalmak: 
Bellman-egyenlet
Rövid szöveges bemutatás: 
Az ágenseknek tudnia kell vagy meg kell tanulnia, hogy a környezet egyes állapotai között milyen átmenetek, kapcsolatok vannak, annak érdekében, hogy sikeresen, eredményesen működhessen. Az adaptív dinamikus programozás (ADP) (adaptive dynamic programming, ADP) alapú ágens működésének lényege, hogy mindezt működése közben tanulja meg, és a dinamikus programozás módszerével megoldja az ehhez tartozó Markov döntési folyamatot. Ha a passzív tanuló ágens vizsgáljuk, neki az állapotátmenet-modelljét és a jutalmakat kell behelyettesítenie a Bellman egyenletbe.