Robotnavigáció CMAC használatával

Fogalmak: 
CMAC
Fogalmak: 
BPTT
Fogalmak: 
kernel CMAC
Rövid szöveges bemutatás: 
Robotok vezérlése sok módszerrel történhet. Jelen demó a feladatot egy speciális neurális hálózattal, a CMAC-val oldja meg. A demonstráció célja, hogy a CMAC tulajdonságait bemutassa egy komplexebb, a valós életben is előforduló probléma megoldása során. A CMAC alapverziója, a dimenzió átka miatt, itt közvetlenül nem alkalmazható, így speciális architektúrák, mint a kernel és fuzzy CMAC alkalmazása kerül bemutatásra.
A tartalom szövege (HTML): 


<br /> <body></body>

Robot kocsi navigáció CMAC használatával

Ez a demó azt mutatja be, hogy a CMAC hálóval meg lehet oldani komplexebb, összetettebb feladatokat is. A vizsgált esetben egy kétkerekű robotot, mint például a BME Méréstechnika és Információs Rendszerek Tanszékén kifejlesztett MITMÓT robotot [1] kell a CMAC hálónak tetszőleges kezdőpontból egy megadott pontba irányítania. Ez a feladat a neurális hálózatok területén, egy korai mintapélda alapján[2], mára elég standard benchmark feladattá vált.

A feladat tárgyalása 3 részre bontható. Először a feladat részletesebb kifejtése, majd az elméleti háttér leírása, végül a megvalósítás leírása és a kapott eredmények értékelése. Esetlegesen több eltérő megvalósítás összehasonlítása.

Kétkerekű robot vezérlése tetszőleges kezdőpontból

A feladat leírása

Ebben az esetben a feladat az, hogy egy kétkerekű robotot kell vezérelnie a CMACnak. Mégpedig úgy, hogy tetszőleges kezdőpontból elindítva a kocsit a célba tudja juttatni a háló. A cél jelen esetben a pozíciót és az orientációt is jelenti, vagyis nem elég, hogy a robot kocsi jó helyen van, jó irányba is kell fordulnia. Off-line tanulásról van szó, ugyanis amikor a kocsi útvonalait teszteljük, azaz a visszahívási (recall) fázisban, már nem tanítjuk a hálót. A tanítás külön történik, majd a megtanult vezérlést használjuk.

A kocsi ismeri a saját pozícióját és a vízszintes tengellyel bezárt szögét, valamint a cél pozícióját és a vízszintes tengellyel bezárt szögét. A neurális háló feladata, hogy minden időpillanatban megadja a fordulni kívánt szög nagyságát. A feladat során feltesszük, hogy a robot sík és szárazföldi terepen tartózkodik, vagyis az extrém környezeti tényezőket kizárjuk.

A CMAC egy 4 bemenetű egy kimenetű, MISO típusú, háló lesz, ugyanis a kocsi szöge, nem adható közvetlenül a hálónak, mivel az egy szakadásos függvény, és így a neurális háló nem képes megtanulni. Ezért a szöget annak szinuszával és koszinuszával reprezentáljuk, hogy folytonos értékeket kapjunk. Ennek az lesz a következménye, hogy a bemeneti tér egy részét nem fogjuk használni, mivel adott szöghöz rögzített szinusz és koszinusz tartozik, és a használható értékek halmaza véges, egészen pontosan az egységsugarú körön található értékek. Mivel a CMAC lokális approximációs képességgel rendelkezik, ezért ennek az egységsugarú körnek egy szűk tartománya fog tanulni. Ez látható az alábbi ábrán, ahol a háló által megtanult leképezést rajzoltuk ki.


1. ábra A kocsi által az x-tengellyel bezárt szöghöz tartozó kimenetek rögzített pozíciót feltételezve

A kocsi egy útvonala úgy néz ki, hogy a kezdőpontból elindul, a hálótól kap egy szög értéket, amennyivel el kell fordulnia, majd ez alapján meghatározzuk az új pozícióját és ismét a neurális háló által megadott szögnek megfelelően fordul a kocsi tovább. Ezt szemlélteti az alábbi ábra. xk, yk, θk, jelenti a k-adik időpillanatban a kocsi (x,y) pozícióját és az x-tengellyel bezárt szögét θk. A háló kimenete, ami a fordulandó szöget adja, a γk. az időbeli késleltetést jelenti.


2. ábra A rendszer felépítése

Egy útvonalon addig megy a kocsi, amíg a cél felé tart, vagyis amíg a hiba az aktuális állapot és a cél állapot között csökken. Állapot alatt a pozíció és az x-tengellyel bezárt szög együttesét kell érteni.

Több útvonal együttes tanulása során jóval hosszabb utak alakultak ki, mint amik szükségesek lettek volna, ezért beiktatásra került egy további háló, amely az útvonal kezdetekor megadja, hogy mekkora lehet maximálisan az útvonal hossza.

Az általános gyakorlattól eltérően [2], itt a cél nem feltétlenül a bemeneti tér szélén helyezkedik el, hanem annak tetszőleges helyén, így előfordulhat, hogy a kocsinak meg kell kerülnie a célt és onnan befordulnia a végső pozícióba. Ezt a neurális háló önmagában nem lenne képes megtenni, ezért szükség volt arra, hogy a bemeneti teret két részre osszam, az egyik rész, ahol fordulnia kell, a másik, ahol nem szükséges a fordulás. Ezt mutatja a 3. ábra.


3. ábra A bemeneti tér felosztása, ahol a nyíl jelöli a cél állapotot (pozíció + szög) és azt a területet, ahol fordulni kell, és ahol nem

Azokból a kezdőpontokból, amikor a kocsi a To turn region-ből, vagyis abból a térrészből indul, ahol fordulnia kell, akkor a cél a szaggatott vonal elérése a célszöggel ellentétes irányban, hogy onnan egy félkör megtételével a kocsi a célba érjen. Ezt a feladatot már a másik térrész látja el, amikor a megfordulás nem szükséges.

Ugyanezt a felosztást használja az a neurális háló is, amelyik az út megtételéhez szükséges lépésszámot felülről becsli.


4. ábra a) teljes visszacsatolású hálózat b) annak kiterített ekvivalense [Alt06]

Az útvonal befejezését követően a hiba visszaterjesztésére van szükség. Mivel a háló ismétlődő, vagyis több ciklusban ugyanaz játszódik le, így dinamikus CMAC-ról beszélhetünk. Ennek megfelelően speciális tanító algoritmusra van szükség. Ez a BPTT (Backpropagation through time) [3], [4]. A módszer lényege a háló időbeli kiterítése, ahogy az a 4. ábrán látszik. Az időbeli kiterítést követően a háló gyakorlatilag, mint egy statikus háló tanítható. A kiterített háló rétegeinek száma megegyezik az eredeti háló által generált kimenetek számával, ami jelen esetben az útvonal során tett fordulások száma.

Egy kényszert azonban figyelembe kell venni. A kiterített hálóban a súlyok száma megnövekedett, és ezekre mind külön súlymódosító összefüggéseket kapunk, de a tényleges hálóban ezek mind ugyanazt a fizikailag létező súlyt módosítják, azaz a súlyok egyszerre és azonos mértékben módosíthatóak csak.

A bemeneti tér mérete a feladat során megalkotott minden CMAC esetén 300×300×300×300 volt. Nyilvánvaló, hogy ez klasszikus CMAC-val nem oldható meg, így a diplomamunkában szereplő egyéb módszereket használtam.

Elméleti háttér

Ebben a részben bemutatom a lépésszámot felülről becslő hálózatot, a modellt, amelyet a robot használ a pozíció és szög frissítésére, illetve a tanítás módját is.

A lépésszámokkal csak abban az esetben volt probléma, amikor egyszerre több kezdőpontból kellett az utat megtanulni. Ez a CMAC lokális approximációs tulajdonságára vezethető vissza. Ezért egyesével több kezdőpontból indítottam az autót és megtanítottam az adott kezdőpontból induló utat. Ekkor a kezdőpontot és a használt lépések számát feljegyeztem, majd amikor elég sok minta összegyűlt felhasználtam őket és megtanítottam két hálót.

Az egyik háló azon a térrészen tudta a lépésszámokat, ahol fordulni kellett, a másik pedig azon a térrészen, ahol nem kellett fordulni. Erre azért volt szükség, mert az előbbi térrész esetén, csak a szaggatott vonalig kellet a kocsinak eljutni (3. ábra).Mind a két esetben fuzzy CMAC-t tanítottam, C = 70 mellett. 3000 minta alapján tanult mind a két térrészhez tartozó háló. A tanítópontokat az [5]-ben leírt módszer szerint válogattam ki, amire azért volt szükség, hogy a háló a lehető legkisebb komplexitású legyen. Így a No turn region részhez tartozó 3000 mintából a háló 2818-at használt fel. A rögzített érték mellett látható a háló által megtanult leképezés.


5. ábra A lépésszámokra adott felső becslések értéke a No turn region esetén, rögzített szög érték mellett. A kocsi modelljét [6] alapján készítettem el.
(1)

Itt R az eltolás vektor, ami a jelenlegi és a következő időpillanathoz tartozó pontokat köti össze, γi a neurális háló kimenete, az elfordulandó szög, v a kocsi sebesség, t a két szimulációs pillanat közt eltelt idő, x, y és θ pedig az állapotot leíró változók. Előbbi kettő a pozíciót, utóbbi pedig a vízszintes tengellyel bezárt szöget adja meg. Alsó indexben a diszkrét időindex szerepel.

Ezután az (1)-ben szereplő modell egyenleteit, a BPTT tanulást és a 2. ábrán látható rendszert felhasználva a tanító összefüggéseket kell meghatározni. Először meg kell adni, hogy az adott lépéshez tartozó réteg súlyvektorának módosítását, hogyan kell meghatározni. Ezt adja meg (2).

(2)

Itt , jelenti a hibának az aktuális állapot szerinti deriváltját, , jelenti a háló kimenetének a következő állapot szerinti deriváltját.

Ha már tudjuk, hogy adott rétegben, hogyan kell a súlyokat módosítani, akkor a hibát vissza kell terjeszteni egy réteggel. Ezt mutatja a (3) összefüggés.

(3)

Itt Si mátrix adja meg a következő állapotok aktuális állapotok szerinti deriváltját. Ezt a (4) egyenlet mutatja. Ezenkívül a háló deriváltja az állapotok szerint. Ez nem egészen ugyanaz, mint a háló deriváltja a bemenetek szerint, mivel a szögtől a háló kimenete nem közvetlenül függ.

(4)

Ezt követően kell, hogy a tényleges súlymódosításokat végrehajtsuk (5) szerint, ahol felhasználjuk (2)-t. A képletben sn a lépések számát adja meg (step number).

(5)

Annak érdekében, hogy a tanulás gyorsan konvergáljon, megfelelően kell megválasztani a tanulási tényezőt. Optimális tanulási tényezőről jelen esetben nehéz beszélni, mivel a hiba visszaterjesztéskor kapott értékek nem adják meg a ténylegesen meglévő hibát. Ezért egy alkalmasan megválasztott tanulási tényezőre van szükség. Ennek értéke nem lehet fix, mivel a tanulás elején, amikor a kocsi még messze van a céltól nagyobb érték szükséges, hogy gyorsan jusson el a cél felé. Amikor már közel van a célhoz, egyre kisebb tanulási tényezőt kell választani, hogy a megtanult útvonal ne "ugráljon" a cél körül. Ugyanis, ha túl nagy, akkor a kocsi egyszer a cél egyik oldalára ér, utána a súlymódosítás miatt a másik oldalra fog érkezni, és ez a fajta tanulás, jóval lassabb, mintha kisebb tanulási tényezőt választanánk. A tanulási tényező értékét az útvonal utolsó állapotának hibája alapján számítottam ki. Egy 3×1 elemű oszlopvektor, melynek első értéke az x-tengely menti távolság a céltól, második értéke az y-tengely menti távolsága a céltól, harmadik értéke pedig a szög hibája.

Ennek megfelelően én az alábbi táblázat szerint választottam a tanulási tényezők értékét. Azért csak kernel és fuzzy CMAC-ra vannak az értékek megadva, mivel ez a két változat volt, amelyekkel sikeresen megoldottam a feladatot.

Általában ha a kocsi már olyan közel volt a célhoz, hogy a legutolsó sorban szereplő tanulási tényező értéke szerint kellett volna a súlyokat módosítani, akkor úgy tekintettem, hogy a kocsi az útvonalat megtanulta és abbahagytam a tanítást.

1. táblázat Kétkerekű robot tanításához használt tanulási tényezők

A hiba értéke kernel CMAC fuzzy CMAC
Alapértelmezés: 10-2 10-2
(30 30 Π/4) 10-2 10-3
(12 12 Π/18) 10-3 10-4
(3 3 Π/45) 10-4 10-5
(0.6 0.6 Π/180) 10-6 10-7



Az eredmények értékelése

A háló mérete miatt, a klasszikus megoldások használata nem járható út, hiszen teljes lefedés esetén a szükséges súlyok száma 1.3363*1010, a bemeneti tér [0,300]4 és C = 40 feltételek mellett. Ezért 4 lehetséges CMAC-val próbáltam a feladatot megoldani. Az első a kernel CMAC volt. Ezzel sikerült először jó megoldást kapnom. A kernel CMAC esetén használtam a C = 40-es értéket, és 6-od rendű B-Spline-t kernelfüggvénynek.

A kernel CMAC használatakor alapesetben minden bemenetet tanítópontnak tekintünk a tanítási fázis alatt. Ez a módszer itt nem lenne jól alkalmazható, mivel a rengeteg, sokszor közeli, állapot miatt a tanítópontok nagy száma jelentősen lassítaná a tanítást. Ezért most kernel CMAC esetén is ugyanazt az on-line tanítópont szelekciós módszert használtam, mint fuzzy CMAC esetén.

A tanítás során 550 kezdőpontból indítottam a robotkocsit. A kezdőpontokat véletlenszerűen választottam úgy, hogy polár koordinátákat sorsoltam és ezeket alakítottam át descartes koordinátákká.

A tanítás 60 epochon keresztül tartott. Ennek során a háló tanítópontnak választott 46780 bemeneti pontot. A megtanult útvonalak közül néhány látható az alábbi ábrán.


6. ábra A kernel CMAC által irányított kocsi néhány útvonala. A cél a (100,100) pontban volt a cél szög pedig Π.

Látható, hogy az egymáshoz közel kerülő utak teljesen együtt mozognak. Az is látszik, hogy abban az esetben, amikor a kocsinak meg kell fordulnia, vagyis amikor a robot kezdőpozíciójának x koordinátája kisebb, mint 100, akkor az x = 100 egyenest, mindig vízszintesen metszi. Ez annak a következménye, hogy a tanítás során az egyenest a célszöggel ellentétes irányban kell a robotnak elérnie, ami a 0 radiánt jelenti ebben az esetben.

A másik háló típus a fuzzy CMAC volt, amelyik mellett sikerült a feladatot megoldani. Ez nem meglepő, hiszen, ahogy az korábban szerepelt, a két változat működése szinte teljesen megegyezik. Fuzzy CMAC esetén C = 70 beállítás mellett tanítottam a hálót 50 epochig. A bázisfüggvény itt is 6-od rendű B-Spline volt. Ugyanazzal a módszerrel, mint a kernel CMAC esetén 550 véletlenszerűen választott kezdőpontot használtam. A tanítás során 35672 bázisfüggvényt használt a háló. Azaz valójában a fuzzy rendszer ennyi szabályt alkotott meg. Néhány a robot által használt útvonal látható a 7. ábrán. A cél állapot ugyanaz volt, mint a kernel CMAC esetén.


7. ábra A fuzzy CMAC által irányított robot útvonalai

A simább útvonalak két valószínű okra vezethetőek vissza. Egyrészt a nagyobb C jótékony hatása látszódhat, másrészt a fuzzy CMAC által használt súlyozott átlag miatt kialakuló simább függvény eredménye lehet.

A kernel és a fuzzy CMAC-n kívül megpróbáltam még a hash-kódolás illetve a SOP-CMAC használatát, de ezekkel a feladat megoldása nem sikerült. A hash-kódolás esetén a háló még egyetlen út megtanulására sem volt képes. SOP-CMAC esetén 2 probléma adódott, az egyik hogy nagyon lassú volt a működés a modulok által használt nagyszámú CMAC miatt. A másik az, hogy a tanulási tényező gyakorlatilag beállíthatatlan volt, mivel vagy túl kicsi volt és a háló egyáltalán nem tanult, az útvonal gyakorlatilag nem változott, vagy rögtön elszállt a háló, és "bepörgött", ami azt jelenti, hogy a kimeneten akkora érték jelent meg, amitől a kocsi egy időpillanat alatt több teljes fordulatot tett. De a Sum-of-Product CMAC esetén sikerült megtanulni legalább néha egy kezdőpontból a helyes útvonalat.

A fenti vizsgálatok során csak a háló típusa változott. Érdemes lehet azt is megnézni, ha a háló típusa nem, csak a háló által használt valamely paraméter értékét változtatjuk meg. Itt elsősorban a C értékére lehet gondolni, hiszen ez a háló egyik legfontosabb a tanulás előtt megválasztandó paramétere. Ennek változása befolyásolja a megtanult útvonalat, hiszen kisebb értéke esetén jóval kevésbé befolyásolják egymást meglévő útvonalak, illetve kisebb hatása van egy adott tanítópontban megtanult értéknek a környezetében lévő többi mintapontra. Ezt mutatja be az alábbi 8. ábra. Itt a kiindulási pont és a cél is azonos volt.


8. ábra Azonos útvonal eltérő C érték esetén

Az látszik az ábrán, hogy a nagyobb C erősebb megkötést jelent a háló számára, és ezért jobban kényszeríti a cél felé, vagyis rövidebb utat kényszerít rá a robot kocsira.

Irodalomjegyzék

[1] http://bri.mit.bme.hu/?l=mitmot

[2] D. H. Nguyen and B. Widrow. Neural networks for self-learning control systems. IEEE Control Systems Magazine, pages 18-23, April 1990.

[3] D. E. Rumelhart, G. E. Hinton, and R.J. Williams, "Learning internal representations by error propagation," in Parallel Distributed Processing: Exploration in the Microstrutcture of Cognition (D. E. Rumelhart and J. L. McClelland, eds.), Vol. 1, Chapter 8, Cambridge, MA, MIT Press (1986).

[4] Altrichter, M., Horváth, G., Pataki, B., Strausz, Gy., Takács, G., Valyon, J. "Neurális hálózatok", Panem Könyvkiadó Kft., 2006.

[5] Nie J. and Linkens D.A., FCMAC: A fuzzified cerebellar model articulation controller with self-organizing capacity, Automatica, vol. 30, no.4, 1994, pp. 655-664.

[6] Engedy István Tamás, "Robotkocsi navigáció neuronháló alapú tanuló rendszerrel.", Diplomamunka, BME VIK MIT, 2009