18.1. Tanulási formák

A második fejezetben láttuk, hogy a tanuló ágens felfogható úgy, mint aminek van egy cselekvő komponense (performance element), amellyel eldönti, hogy milyen cselekvést válasszon, és egy tanuló komponense (learning element), amellyel módosítja ezt a cselekvő elemet annak érdekében, hogy a későbbiekben jobb döntéseket hozzon (lásd 2.15. ábra). A gépi tanulással foglalkozó kutatók a tanuló komponensek széles választékával álltak elő. Ezek megértését segíti, ha megnézzük, hogy a leendő működési területük hogyan befolyásolja tervezésüket. A tanuló komponens tervezését három dolog befolyásolja alapvetően. Ezek:

  • A cselekvő elem mely komponenseit akarjuk tanítani.

  • Milyen visszacsatolás áll rendelkezésre ezen komponensek tanítására.

  • Hogyan reprezentáljuk a komponenseket.

Ezeket a szempontokat rendre elemezni fogjuk. Láttuk, hogy számos lehetőség van a cselekvő elemek építésére, a 2. fejezetben számos ágenskialakítást megismertünk (lásd 2.9., 2.11., 2.13. és 2.14. ábra). Ezeknek az ágenseknek a komponensei a következőket tartalmazzák:

  1. Az aktuális állapot feltételeinek közvetlen leképezése cselekvésekre.

  2. Olyan lehetőség, amely egy megfigyelési szekvenciából a világ releváns tulajdonságaira képes következtetni.

  3. A világ alakulására vonatkozó, valamint az ágens lehetséges cselekvéseinek következményeit leíró információ.

  4. A világ lehetséges állapotainak számunkra kívánatos voltát megadó hasznosság- információ.

  5. Cselekvés-hasznosság információ, amely az egyes cselekvések kívánatosságát jelzi számunkra.

  6. Célok: ezek olyan állapotosztályokat adnak meg, amelyek elérése az ágens hasznosságát maximálja.

Megfelelő visszacsatolás alkalmazása esetén ezen komponensek mindegyike tanulható. Vegyünk például egy ágenst, amely taxivezetést tanul. Minden egyes alkalommal, amikor a felügyelő elkiáltja magát: „Fék!”, az ágens megtanulhat egy feltétel-cselekvés fékezési szabályt (1. komponens). Amennyiben számos olyan képet mutatunk az ágensnek, amelyről közöljük, hogy busz van rajta, akkor megtanulhatja felismerni azokat (2). Ha egy cselekvést próbálgat, és megfigyeli az eredményt – például nedves úton erősen fékez –, megtanulhatja cselekvéseinek hatását (3). Ha nem kap borravalót utasától, akit jól összerázott az út, akkor értékes elemekkel gazdagíthatja az általános hasznosság- függvényét (4).

Az ágens előtt álló tanulási folyamat meghatározásában rendszerint a visszacsatolás jellege a legfontosabb faktor. A gépi tanulás területén általában három esetet különböztetnek meg: ellenőrzött (supervised), nem ellenőrzött (unsupervised) és megerősítéses (reinforcement) tanulást.

Az ellenőrzött tanulás (supervised learning) egy leképezésnek a bemeneti és kimeneti minták alapján történő megtanulását jelenti. Az (1), (2) és (3) esetek mindegyike az ellenőrzött tanulás példája. Az (1) esetben az ágens a fékezés feltétel-cselekvés szabályát tanulja – ez az állapottérről egy Boole-típusú kimenetre való leképezés (fékezzen vagy ne fékezzen). A (2) esetben az ágens képekről egy Boole-típusú kimenetre való leképezést tanul meg (tartalmaz-e a kép buszt, vagy sem). A (3) esetben a tanult fékezési elmélet egy, az állapotok és a fékezési cselekvések teréről a – mondjuk méterben mért – megállási útra történő leképezés. Vegyük észre, hogy az (1) és (2) esetekben a tanító szolgáltatta a mintákhoz tartozó helyes választ; a harmadikban a kimeneti értékeket közvetlenül az ágens észlelései szolgáltatták. Teljesen megfigyelhető környezet esetén mindig fennáll a lehetőség, hogy az ágens megfigyeli a cselekvésének következményeit, így használhat ellenőrzött tanulási módszereket annak érdekében, hogy megjósolja azokat. Részlegesen megfigyelhető környezetben nehezebb a probléma, mert a közvetlen hatások láthatatlanok maradhatnak.

Nem ellenőrzött tanulási (unsupervised learning) probléma esetén bemeneti minták tanulása történik, de a kimeneti kívánt minták nem biztosítottak. Például egy taxivezető ágens apránként kialakíthatja a „jó közlekedési napok” és a „rossz közlekedési napok” koncepcióját, anélkül hogy bármikor címkézett példákat kapott volna bármelyikről. Egy tisztán nem ellenőrzött tanulást végző ágens nem képes megtanulni, hogy mit cselekedjék, mivel nincs olyan információja, amely egy cselekvést helyesnek vagy egy állapotot kívánatosnak minősítene. A nem ellenőrzött tanulást elsősorban a valószínűségi következtető rendszerek kapcsán fogjuk tárgyalni (lásd 20. fejezet).

A megerősítéses tanulás (reinforcement learning) problémája, amelyet a 21. fejezetben tárgyalunk, a legáltalánosabb a három közül. Ahelyett hogy egy tanító útmutatását követhetné, egy megerősítéses tanulást végző ágensnek megerősítési információ alapján kell tanulnia.[181] Például a borravaló hiánya az út végén (vagy egy hatalmas számla, ha beleszáll az előtte haladó kocsiba) némi információt nyújt az ágensnek arról, hogy viselkedése nem volt megfelelő. A megerősítéses tanulás tipikusan magában foglalja azt a részproblémát, hogy az ágensnek meg kell tanulnia azt is, hogyan működik a világ.

A megtanult információ reprezentációja szintén nagyon fontos szerepet játszik abban, hogy meghatározhassuk azt, hogyan is kell működnie a tanulási algoritmusnak. Egy ágens bármelyik komponense reprezentálható az ebben a könyvben található sémák bármelyikével. Számos példát láttunk: súlyozott polinomokat, amelyeket a játékot játszó ágensek használtak hasznosságfüggvényként; ítéletkalkulus-beli és elsőrendű logikai állításokat, amelyeket logikai ágensek használtak; valamint valószínűségi leírásokat, mint például a Bayes-hálókat, amelyeket döntéselméleti ágensek használtak következtető komponensként. Ezek mindegyikére alkottak hatékony tanulási eljárásokat. Ebben a fejezetben a propozíciós logikát alkalmazó módszereket tárgyaljuk. A 19. fejezet az elsőrendű logikát alkalmazó módszereket mutatja be, míg a 20. fejezet a Bayes-hálókat és a neurális hálókat tárgyalja (amelyek speciális esetként tartalmazzák a lineáris polinomokat).

A tanuló rendszerek tervezésének utolsó fontos tényezője az a priori információ rendelkezésre állásának kérdése. Az MI, a számítástudomány és a pszichológia területén a tanulással foglalkozó kutatás nagy része azzal az esettel foglalkozott, amikor kezdetben az ágensnek semmi információja nincs arról, amit megpróbál megtanulni. Bár ez egy fontos speciális eset, de egyáltalán nem ez az általános. A legtöbb emberi tanulás egy jó adag kiinduló háttértudásra épül. Néhány pszichológus és nyelvész szerint még az újszülötteknek is van ismeretük a világról. Bármi is legyen az igazság ezt illetően, az kétségtelen, hogy a kiinduló tudás rengeteget segíthet a tanulásban. Buborék-kamra fényképek alapján egy fizikus egy új – meghatározott tömegű és töltésű – részecske létezésére mutató elméletre következtethet. Ugyanakkor egy kritikus ugyanazon képhalmaz vizsgálata alapján csupán arra következtethet, hogy a „művész” bizonyára valamilyen absztrakt vagy expresszionista irányzat követője. A 19. fejezet számos módszert mutat be arra, hogy a tanulást hogyan segíti a meglévő tudás; azt is megmutatjuk ebben a fejezetben, hogy a tudást hogyan lehet úgy összeállítani, hogy felgyorsítsuk a döntéshozatalt. A 20. fejezet azt mutatja be, hogy a kiinduló tudás hogyan segít a valószínűségi elméletek tanulásában.



[181] A 17. fejezetben használt jutalom (reward) kifejezés a megerősítés (reinforcement) szinonimája.