6. fejezet - Kernel módszerek

Ebben a fejezetben olyan tanuló rendszerekkel foglalkozunk, amelyek a válaszokat ún. kernel-függvények (vagy magfüggvények) súlyozott összegeként állítják elő. A megközelítés bizonyos rokonságot mutat a bázisfüggvényes hálózatokkal, hiszen ott is függvények súlyozott összegeként kapjuk a megoldást, azonban a származtatás a kétféle megközelítésnél jelentősen eltér. A bázisfüggvényes hálóknál a bázisfüggvények által megvalósított nemlineáris leképezés a mintapontokat a bemeneti térből egy ún. jellemzőtérbe képezi le, és a megoldást a jellemzőtérbeli reprezentáció felhasználásával nyerjük. A jellemzőtérre való leképezés célja, hogy egy eredetileg csak nemlineáris eszközzel megoldható problémát lineáris eszközzel megoldhatóvá transzformáljunk: egy nemlineárisan szeparálható problémát lineárisan szeparálhatóvá tegyünk, vagy egy nemlineáris regressziós feladatot lineáris regressziós feladattá transzformáljunk.

A bázisfüggvényes hálózatok és ezen belül is elsősorban az RBF hálók konstrukciójánál az egyik leginkább megoldatlan kérdés a jellemzőtér dimenziójának, vagyis a bázisfüggvények számának a meghatározása. Annyit tudunk csak biztosan, hogy ha a jellemzőtér dimenziója „kellően nagy”, akkor pl. a lineáris szeparálás lehetősége garantált. Azonban az általában nem definiált, hogy mit tekinthetünk „kellően nagy”-nak. Ha a jellemzőtér dimenzióját „túl nagy”-ra választjuk, akkor egyrészt feleslegesen növeljük a tanuló rendszer komplexitását, másrészt a szabad paraméterek száma túl nagy lesz, aminek túltanulás és a teljesítőképesség romlása is lehet a következménye. Olyan megoldásra volna szükségünk, ahol a jellemzőtér dimenziója „automatikusan kiadódik” nemcsak azt biztosítva, hogy lineáris megoldást kapunk, hanem azt is, hogy a megoldás hibája, a 2. fejezetben definiált valódi kockázat, a lehető legkisebb lesz − függetlenül attól, hogy hány dimenziós a jellemzőtér. Az ún. kernel gépek ezt a célt próbálják elérni.

A kernel gépeknél is alkalmazzuk a jellemzőtérbe való transzformációt, a feladatot azonban nem a jellemzőtérbeli reprezentáció felhasználásával oldjuk meg, hanem erről áttérünk egy ún. kernel reprezentációra és a kernel térben kapjuk a megoldást. A jellemzőtérbeli és a kernel térbeli reprezentáció közötti kapcsolat egy újabb transzformációként is értelmezhető. Míg a jellemzőtérben valójában bázisfüggvényes megoldással dolgozunk, addig a kernel térbeli reprezentáció a jellemzőtérbeli reprezentációból belső szorzattal nyerhető.

A kernel térbeli reprezentáció azzal az előnnyel jár, hogy itt a szabad paraméterek száma független a jellemzőtérbeli reprezentáció szabad paramétereinek számától. Ezt az előnyt ki is tudjuk használni, ha a belső szorzatot egy megfelelően megválasztott kernel függvénnyel helyettesítjük, vagyis ahelyett, hogy adott bázisfüggvényeket definiálnánk és ezek skalár szorzatát felhasználva állítanánk elő a kernel reprezentációt, közvetlenül a kernel függvényt választjuk meg. A kernel függvény megválasztása implicit módon meghatározza a jellemzőtérbeli leképezés bázisfüggvényeit és így a jellemzőtérbeli reprezentációt is, anélkül, hogy a bázisfüggvényeket közvetlenül kellene definiálni és felhasználni.

A fejezet célja, hogy bemutassa a kernel módszerek alapgondolatát és a legfontosabb kernel gépek konstrukciójának a lépéseit. A bemutatásnál a legegyszerűbb, lineáris feladatból kiindulva jutunk el a nemlineáris problémák kernel géppel történő megoldásáig. A fejezet azt is bemutatja, hogy kernel reprezentációs megoldásra több, különböző megközelítés vezethet. Ezek közül talán a legfontosabb az elsősorban Vladimir Vapnik nevéhez köthető szupport vektor gép (support vector machine, SVM). A szupport vektor gépek azon túl, hogy a kernel térben szolgáltatják a megoldást, további fontos tulajdonságokkal is rendelkeznek. Az SVM-nél − az eddig bemutatott hálóktól eltérően − a megoldás komplexitása és teljesítőképessége kézben tartható. A fejezet ugyanakkor azt is bemutatja, hogy kernel gépek származtathatók a klasszikus négyzetes hiba-minimalizáló eljárással is, tehát bizonyos értelemben az eddig tárgyalt neuronhálóknak is létezhetnek kernel változatai. Ehhez kapcsolódóan a fejezet tárgyalja az LS-SVM hálózatokat és az ún. ridge regressziós (ridge regression) megoldást is.

A kernel gépek elméleti háttere szorosan kapcsolódik a belső szorzat terek (inner product spaces, dot product spaces) és a Hilbert terek (Hilbert spaces), témakörökhöz. A fejezet ezzel a kapcsolattal csak utalás szinten foglalkozik, a témakör iránt mélyebben érdeklődők a bőséges irodalomban, pl. [Sch02], [Vap98], [Sző72] tájékozódhatnak.

A fejezet felépítése a következő. Először bemutatjuk az irodalomban gyakran kernel trükknek nevezett módszert, ami lehetőséget ad a kernel függvények közvetlen felírására, alkalmazására. Ezt követően bemutatjuk a legismertebb és legelterjedtebb kernel módszert alkalmazó eljárást, a szupport vektor gépeket (Support Vector Machines – SVM), valamint ennek néhány változatát. A szupport vektor gépek jelentős számításigényű eljárások. A számítási igények csökkentésére ezért az SVM megközelítésétől néhány ponton eltérő kernel megoldások is születtek. Ezek között a legfontosabbak az LS-SVM és az ezzel matematikailag azonos, de más indítékból származó ridge regresszió. A fejezetben ezeknek a megoldásoknak a származtatását is összefoglaljuk, és arra is kitérünk, hogy mi az ára az egyszerűbb számításoknak. Az LS-SVM a szupport vektor gépek egyik fontos tulajdonságát, nevezetesen, hogy ritka (sparse) megoldást elveszíti. Elsősorban e hiányosság kiküszöbölését célozza az LS2-SVM, valamint a ridge regresszió egy redukált változata, melyeket szintén összefoglalunk. A fejezet végén egy konkrét hálózat kapcsán megmutatjuk, hogy a bázisfüggvényes hálózatok kernel gép formában is megfogalmazhatók, biztosítva így a kernel megközelítés előnyeit.