additív jutalom

Rövid szöveges bemutatás: 
Ha MI feladatot szeretnénk megoldani, akkor definiálnunk kell a környezetet. A feladat környezetének a definiálásához, meg kell adnunk az ágens hasznosságfüggvényét. Ha döntési probléma szekvenciális, a hasznosságfüggvény az állapotok sorozatától – a környezeti történettől (environment history) – fog függni, nem pedig egyetlen állapottól. Az ágens minden s állapotban egy R(s) jutalmat (reward), additív jutalmat kap, ami lehet pozitív vagy negatív, de mindenképpen korlátos. Egy tökéletesen megfigyelhető környezetben megadott egymás után következő, szekvenciális döntési problémát Markov-állapotátmenet-modelljével és additív jutalmakkal Markov döntési folyamatnak neveznek (MDF) (Markov decision process). Egy MDF-et a következő három összetevő határoz meg: Kezdőállapot: S0, Állapotátmenet-modell: T(s, a, s′), Jutalomfüggvény: R(s).