Többkarú rabló probléma

Fogalmak: 
n karú rabló
Kapcsolódó könyvfejezetek: 
21.2. Passzív megerősítéses tanulás
Kapcsolódó könyvfejezetek: 
21.3. Aktív megerősítéses tanulás
Rövid szöveges bemutatás: 
A többkarú rabló probléma (multi-armed bandit problem, MAB) egy erőforrás allokációs probléma. Alapfeladata megfeleltethető egy szerencsejátékos problémájának: a játékos k félkarú rabló előtt áll, és szeretné maximalizálni a várható nyereményét. A játékos minden lépésben választ egy játék automatát, melynek meghúzza a karját. A valós helyzettől a többkarú rabló alapprobléma annyiban tér el, hogy nincs költsége a gépek működtetésének. A cél minden esetben az erőforrások optimális kihasználása.