2.4. Tanulás és statisztikai becslések

Amikor neuronhálók tanulásáról beszélünk a tanulás egyik legalapvetőbb, elemi formájáról van szó. Mérési adatokból, megfigyelésekből kell egy megfigyelt rendszerről, jelenségről, folyamatról általános ismereteket nyerni. Láttuk, hogy a tanuló eljárás értelmezhető úgy is, mint egy, a mintapontokkal jellemzett rendszer egyfajta modelljének a létrehozása. A rendszerről egy olyan modellt szeretnénk megalkotni, melynek bemenet-kimenet kapcsolata minél inkább megegyezik a rendszer bemenetei és kimenetei közötti kapcsolattal. Ha a modellezési feladat valójában csak arra irányul, hogy a rendszer által megvalósított leképezést minél pontosabban adjuk meg, akkor ún. fekete doboz modellezési feladatról beszélünk. A fekete doboz modellezésnél nem törekszünk arra, hogy a modell felépítése kövesse a rendszer felépítését, csupán azt célozzuk, hogy kívülről nézve, tehát adott bemenetekre kapott válaszokat tekintve a modell minél inkább úgy viselkedjen, mint a modellezendő rendszer.

A fekete doboz modellezésnél ennek megfelelően nem használunk a rendszer belső felépítését tükröző ismereteket, kizárólag összetartozó bemeneti és kimeneti adatokból, mintapontokból történik a modell létrehozása.

Egy modell konstrukciójánál először meg kell határozni a modell felépítését, struktúráját, majd meg kell adni a modellben megjelenő szabad paraméterek értékeit. A struktúra rögzítése egy modellosztály rögzítését jelenti, mely modellosztályba tartozó konkrét modellek a szabad paraméterek meghatározása útján nyerhetők.

Neuronhálóknál a modell struktúráját a háló típusa és mérete határozza meg. Ezek rögzítése után a háló tanítása a szabad paraméterek meghatározását jelenti.

Mint azt az 1. fejezetben láttuk, egyes neuronháló architektúrák univerzális approximátorok, vagyis alkalmasak meglehetősen általános bemenet-kimenet leképezést megadó függvények tetszőleges pontosságú közelítésére. A megfelelő pontosságú approximáció a háló méretének a megválasztásával és a szabad paramétereknek a meghatározásával biztosítható. A háló struktúrájának – típusának és méretének – a meghatározása általában nem része a tanulási folyamatnak, a tanulás a szabad paraméterek meghatározására szolgál. Valójában tehát a tanulás során egy paraméterbecslési feladattal állunk szemben (2.9 ábra).

A paraméterbecslés során mindig valamilyen cél elérése vagy kritérium teljesítése érdekében kívánjuk az „optimális” paraméterértékeket meghatározni. A tanulási eljáráshoz ezért elsődlegesen egy célfüggvényt vagy kritériumfüggvényt kell megfogalmaznunk. A kritériumfüggvény a modell minőségének a mérésére szolgál, tehát az előzőekben megfogalmazott kockázat épp ilyen kritériumfüggvény szerepet tölthet be, és a kockázat minimalizálása lehet az eljárás célja. A tanulás tehát egy paraméterbecslési eljárásként is felfogható, amikor adott modell struktúra mellett az ismeretlen paramétereket a mintapontok alapján egy kritériumfüggvény szélsőértékének (általában minimumának) elérése érdekében határozzuk meg.

A kritériumfüggvény, továbbá a rendelkezésünkre álló egyéb információ alapján különböző paraméterbecslési eljárásokról beszélhetünk. Amennyiben a kívánt és a tényleges válaszok közötti eltérés négyzetét tekintjük hibafüggvénynek (veszteségfüggvénynek) és az ebből származtatott tapasztalati kockázat minimumát biztosító paramétereket szeretnénk megkapni, legkisebb átlagos négyzetes hibájú (LS) becslésről beszélünk.

LS becslésnél a megoldás a

C(w)=1li=1l(dif(w,xi))2MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4qaiaabIcacaWH3bGaaeykaiabg2da9maalaaabaGaaeymaaqaaiaadYgaaaWaaabCaeaadaqadaqaaiaadsgadaWgaaWcbaGaamyAaaqabaGccqGHsislcaWGMbGaaeikaiaahEhacaGGSaGaaCiEamaaBaaaleaacaWGPbaabeaakiaabMcaaiaawIcacaGLPaaadaahaaWcbeqaaiaaikdaaaaabaGaamyAaiabg2da9iaaigdaaeaacaWGSbaaniabggHiLdaaaa@4D28@ (2.36)

kritériumfüggvény minimumát biztosító paramétervektor (a keresett paramétervektor becslése: w^MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabC4Dayaajaaaaa@3704@ ). A megoldás tehát

w^LS=arg minw C(w)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabC4DayaajaWaaSbaaSqaaiaabYeacaqGtbaabeaakiabg2da9iaabggacaqGYbGaae4zaiaabccadaWfqaqaaiaab2gacaqGPbGaaeOBaaWcbaGaaC4DaaqabaGccaqGGaGaam4qaiaabIcacaWH3bGaaeykaaaa@451D@ . (2.37)

Látható, hogy w^LSMathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabC4DayaajaWaaSbaaSqaaiaabYeacaqGtbaabeaaaaa@38D5@ a (2.16) összefüggéssel definiált tapasztalati kockázat minimumát biztosító paramétervektor, ha négyzetes veszteségfüggvényt alkalmazunk. Az LS becslő a megfigyeléseken kívül semmilyen további információt nem használ fel a becslés meghatározásához.

Az adataink, a megfigyelések azonban általában zajosak. Zajos kimenet mellett a bemenet-kimenet leképezést egy di=g(xi)+niMathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamizamaaBaaaleaacaWGPbaabeaakiabg2da9iaadEgadaqadaqaaiaahIhadaWgaaWcbaGaamyAaaqabaaakiaawIcacaGLPaaacqGHRaWkcaWGUbWaaSbaaSqaaiaadMgaaeqaaaaa@4090@ kapcsolat írja le (ld. 2.9 ábra). Ha az nMathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOBaaaa@36E7@ megfigyelési zaj statisztikai jellemzése is ismert, a paraméterbecslésnél már valószínűségi megközelítés is alkalmazható. A zaj hatását a p(d|x)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCaiaabIcacaWGKbWaaqqaaeaacaWH4bGaaeykaaGaay5bSdaaaa@3BBE@ feltételes sűrűségfüggvénnyel írhatjuk le. Az adatok alapján a g(x) leképezést kívánjuk becsülni, ahol a becslést a modell yi=f(xi|w)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEamaaBaaaleaacaWGPbaabeaakiabg2da9iaadAgadaqadaqaaiaahIhadaWgaaWcbaGaamyAaaqabaGcdaabbaqaaiaahEhaaiaawEa7aaGaayjkaiaawMcaaaaa@4049@ leképezése jelenti. Adott x mellett a modell y válasza tehát az f függvénytől (és annak w paramétervektorától) függ. A becslés jóságának mérésére ezért felhasználható a

p({x1,,xl},{d1,,dl}|f(xi|w)=i=1lp(xi,di|f(xi|w))=i=1lp(di|xi,f(xi|w)p(xi)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGceaqabeaacaWGWbWaaeWaaeaadaGadaqaaiaahIhadaWgaaWcbaGaaGymaaqabaGccaGGSaGaeSOjGSKaaiilaiaahIhadaWgaaWcbaGaamiBaaqabaaakiaawUhacaGL9baacaGGSaWaaiWaaeaacaaMi8UaaGjcVlaadsgadaWgaaWcbaGaaGymaaqabaGccaGGSaGaeSOjGSKaaiilaiaadsgadaWgaaWcbaGaamiBaaqabaaakiaawUhacaGL9baacaaMi8UaaGjcVlaayIW7caaMi8+aaqqaaeaacaWGMbGaaeikaiaahIhadaWgaaWcbaGaamyAaaqabaGcdaabbaqaaiaahEhaaiaawEa7aaGaay5bSdaacaGLOaGaayzkaaaabaGaeyypa0ZaaybCaeqaleaacaWGPbGaeyypa0JaaGymaaqaaiaadYgaa0qaaiabg+GivdaakiaadchadaqadaqaaiaahIhadaWgaaWcbaGaamyAaaqabaGccaGGSaGaamizamaaBaaaleaacaWGPbaabeaakmaaeeaabaGaamOzaiaabIcacaWH4bWaaSbaaSqaaiaadMgaaeqaaOWaaqqaaeaacaWH3baacaGLhWoacaqGPaaacaGLhWoaaiaawIcacaGLPaaaaeaacqGH9aqpdaGfWbqabSqaaiaadMgacqGH9aqpcaaIXaaabaGaamiBaaqdbaGaey4dIunaaOGaamiCamaabmaabaGaamizamaaBaaaleaacaWGPbaabeaakmaaeeaabaGaaCiEamaaBaaaleaacaWGPbaabeaaaOGaay5bSdGaaiilaiaadAgacaqGOaGaaCiEamaaBaaaleaacaWGPbaabeaakmaaeeaabaGaaC4DaaGaay5bSdaacaGLOaGaayzkaaGaamiCaiaabIcacaWH4bWaaSbaaSqaaiaabMgaaeqaaOGaaeykaaaaaa@8D4E@ (2.38)

2.9. ábra - A tanulás, mint paraméterbecslési eljárás
A tanulás, mint paraméterbecslési eljárás

feltételes sűrűségfüggvény, amely megadja, hogy az (x1,d1),(x2,d2),...,(xl,dl)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaeWaaeaacaWH4bWaaSbaaSqaaiaaigdaaeqaaOGaaiilaiaadsgadaWgaaWcbaGaaGymaaqabaaakiaawIcacaGLPaaacaGGSaWaaeWaaeaacaWH4bWaaSbaaSqaaiaaikdaaeqaaOGaaiilaiaadsgadaWgaaWcbaGaaGOmaaqabaaakiaawIcacaGLPaaacaGGSaGaaiOlaiaac6cacaGGUaGaaiilamaabmaabaGaaCiEamaaBaaaleaacaWGSbaabeaakiaacYcacaWGKbWaaSbaaSqaaiaadYgaaeqaaaGccaGLOaGaayzkaaaaaa@4C97@ tanító mintapontok milyen valószínűséggel lennének kaphatók, feltéve, hogy a közöttük lévő kapcsolatot egy adott f(x|w)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOzamaabmaabaGaaCiEamaaeeaabaGaaC4DaaGaay5bSdaacaGLOaGaayzkaaaaaa@3BFD@ függvény írja le. Mivel a megfelelő f függvény (illetve a w paramétervektor) meghatározása a cél, és p(xi)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCaiaabIcacaWH4bWaaSbaaSqaaiaadMgaaeqaaOGaaeykaaaa@3A65@ nem függ f-től, továbbá, ha a bemeneteket egyenletes eloszlással generáljuk, p(xi)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCaiaabIcacaWH4bWaaSbaaSqaaiaadMgaaeqaaOGaaeykaaaa@3A65@ a (2.38) kifejezés jobb oldalából el is hagyható. Gyakorlati szempontok miatt a szorzat helyett annak negatív logaritmusával érdemes dolgozni. Az így kapott

L(w)=i=1lln p(di|xi,f(xi|w)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqef00BU9gD5bxzGm0BYnxA2fgaiuaacaWFmbGaaeikaiaahEhacaqGPaGaeyypa0JaeyOeI0YaaabCaeaacaqGSbGaaeOBaiaabccacaWGWbWaaeWaaeaacaWGKbWaaSbaaSqaaiaadMgaaeqaaOWaaqqaaeaacaWH4bWaaSbaaSqaaiaadMgaaeqaaaGccaGLhWoacaGGSaGaamOzaiaabIcacaWH4bWaaSbaaSqaaiaadMgaaeqaaOWaaqqaaeaacaWH3baacaGLhWoaaiaawIcacaGLPaaaaSqaaiaadMgacqGH9aqpcaqGXaaabaGaamiBaaqdcqGHris5aaaa@5921@ (2.39)

log-likelihood függvény képezi a maximum likelihood (ML) becslés kritériumfüggvényét [Lju99].

A maximum likelihood (ML) becslés olyan paraméterértékeket keres, melyek mellett a rendelkezésre álló megfigyeléseink a legnagyobb valószínűségűek.

w^ML=arg maxw L(w)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabC4DayaajaWaaSbaaSqaaiaab2eacaqGmbaabeaakiabg2da9iaabggacaqGYbGaae4zaiaabccadaWfqaqaaiaab2gacaqGHbGaaeiEaaWcbaGaaC4DaaqabaGccaqGGaqef00BU9gD5bxzGm0BYnxA2fgaiuaacaWFmbGaaeikaiaahEhacaqGPaaaaa@4B93@ (2.40)

A valószínűség mértékét a paramétervektor függvényében a (log-)likelihood függvény adja meg. A likelihood függvény tehát a megfigyeléseink hihetőségének a mértékeként is értelmezhető. Az ML becslés alapgondolatát illusztrálja a 2.10 ábra.

Az ábra azt mutatja, hogy hogyan befolyásolja a paraméterevektor megválasztása a megfigyelések eloszlását. Azt a paramétervektort fogadjuk el ML becslésnek, mely mellett az aktuális megfigyelésünk (megfigyeléseink), (az ábrán d) a legnagyobb valószínűségű(ek).

A paramétereink tekinthetők valószínűségi változóknak is. Amennyiben ezen valószínűségi változók eloszlása (sűrűségfüggvénye) ismert, származtatható a Bayes becslés, amely abból indul ki, hogy az ismeretlen paraméterről van a priori ismeretünk, adott a paraméter ún. a priori eloszlása. Az a priori sűrűségfüggvény azt adja meg, hogy a keresett paraméter a megfigyelésekből származó ismeretek hiányában a paramétertérben milyen értékeket milyen valószínűséggel vehet fel.

A becslési eljárás célja, hogy a paraméterről az ismereteinket pontosítsuk a megfigyelések felhasználásával. Minthogy valószínűségi változóról van szó, a

2.10. ábra - A maximum likelihood becslés
A maximum likelihood becslés

pontosítás a paraméter eloszlásának pontosítását jelenti. A pontosított eloszlás a megfigyelések felhasználása után nyert eloszlás, amit a posteriori eloszlásnak hívnak. Az a priori és az a posteriori eloszlásokat a Bayes szabály kapcsolja össze:

p(w|megfigyelések)=p(megfigyelések|w)p(w)p(megfigyelések)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCaiaabIcacaWH3bWaaqqaaeaacaqGTbGaaeyzaiaabEgacaqGMbGaaeyAaiaabEgacaqG5bGaaeyzaiaabYgacaqGPdGaae4CaiaabwgacaqGRbaacaGLhWoacaqGPaGaeyypa0ZaaSaaaeaacaWGWbGaaeikaiaab2gacaqGLbGaae4zaiaabAgacaqGPbGaae4zaiaabMhacaqGLbGaaeiBaiaabMoacaqGZbGaaeyzaiaabUgadaabbaqaaiaahEhaaiaawEa7aiaabMcacaWGWbGaaeikaiaahEhacaqGPaaabaGaamiCaiaabIcacaqGTbGaaeyzaiaabEgacaqGMbGaaeyAaiaabEgacaqG5bGaaeyzaiaabYgacaqGPdGaae4CaiaabwgacaqGRbGaaeykaaaaaaa@6C06@ (2.41)

ahol

p(w)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCaiaabIcacaWH3bGaaeykaaaa@3940@ a paraméter a priori (a megfigyelések előtti) sűrűségfüggvénye,

p(megfigyelések)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCaiaabIcacaqGTbGaaeyzaiaabEgacaqGMbGaaeyAaiaabEgacaqG5bGaaeyzaiaabYgacaqGPdGaae4CaiaabwgacaqGRbGaaeykaaaa@44CC@ a kapott megfigyelések (tanító adatok) sűrűségfüggvénye,

p(w|megfigyelések)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCaiaabIcacaWH3bWaaqqaaeaacaqGTbGaaeyzaiaabEgacaqGMbGaaeyAaiaabEgacaqG5bGaaeyzaiaabYgacaqGPdGaae4CaiaabwgacaqGRbaacaGLhWoacaqGPaaaaa@4760@ az a posteriori (a megfigyelések által szolgáltatott ismereteket is figyelembevevő) sűrűségfüggvénye, és

p(megfigyelések|w)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCaiaabIcacaqGTbGaaeyzaiaabEgacaqGMbGaaeyAaiaabEgacaqG5bGaaeyzaiaabYgacaqGPdGaae4CaiaabwgacaqGRbWaaqqaaeaacaWH3baacaGLhWoacaqGPaaaaa@4760@ egy olyan feltételes sűrűségfüggvény, amely azt jellemzi, hogy az adott megfigyelések milyen eloszlásúak, feltéve, hogy azt a w paraméterű modell generálta.

A Bayes becslés az a posteriori sűrűségfüggvény meghatározására vezet. Amennyiben az ismeretlen paraméterről hordoznak információt a megfigyelések (a tanító mintapontok), akkor az a posteriori sűrűségfüggvény a konkrét paraméterérték szűkebb környezetére terjed ki (2.11 ábra).

Az a posteriori sűrűségfüggvény felhasználásával felírható a Bayes kockázat:

R(w)= z,wL(z,w)p(w,zdzdwMathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOuaiaabIcacaWH3bGaaeykaiabg2da9iaabccadaWdXbqaaiaadYeacaqGOaGaaCOEaiaabYcacaWH3bGaaeykaaWcbaGaaCOEaiaacYcacaWH3baabaaaniabgUIiYdGccaWGWbGaaeikaiaahEhacaGGSaGaaCOEaiaabMcacaqGGaGaamizaiaahQhacaaMi8UaaGjcVlaadsgacaWH3baaaa@5164@ (2.42)

ahol p(w,z) a paramétervektor és a megfigyelések együttes sűrűségfüggvénye. A keresett paramétervektor Bayes becslése a Bayes kockázat minimalizálása útján határozható meg:

w^BAYES=arg minw R(w)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabC4DayaajaWaaSbaaSqaaiaabkeacaqGbbGaaeywaiaabweacaqGtbaabeaakiabg2da9iaabggacaqGYbGaae4zaiaabccadaWfqaqaaiaab2gacaqGPbGaaeOBaaWcbaGaaC4DaaqabaGccaqGGaGaamOuaiaabIcacaWH3bGaaeykaaaa@478A@ (2.43)

Az a posteriori sűrűségfüggvény a megfigyelések figyelembevételével a keresett paramétervektor teljes statisztikai leírását adja. A teljes statisztikai ismeretre azonban nincs mindig szükség (ráadásul az a posteriori sűrűségfüggvény meghatározása általában meglehetősen nehéz is), ezért célszerű, ha a lehetséges értékek közül egyet kiválasztunk, és azt tekintjük a Bayes becslésnek. Leggyakrabban ez az a posteriori sűrűségfüggvény maximumához tartozó paraméterérték, amit ezért maximum a posteriori vagy MAP becslésnek is szokás nevezni. A MAP becslés tehát szintén megfogalmazható szélsőérték-keresési problémaként:

w^MAP=arg maxw p(w|megfigyelések)MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabC4DayaajaWaaSbaaSqaaiaab2eacaqGbbGaaeiuaaqabaGccqGH9aqpcaqGHbGaaeOCaiaabEgacaqGGaWaaCbeaeaacaqGTbGaaeyyaiaabIhaaSqaaiaahEhaaeqaaOGaaeiiaiaadchacaqGOaGaaC4DamaaeeaabaGaaeyBaiaabwgacaqGNbGaaeOzaiaabMgacaqGNbGaaeyEaiaabwgacaqGSbGaaey6aiaabohacaqGLbGaae4AaaGaay5bSdGaaeykaaaa@542E@ . (2.44)

A Bayes becslés az előző becslési eljárásoknál több információt használ fel. A paraméter sűrűségfüggvényét a legtöbb esetben nem ismerjük, így ilyenkor vagy feltételezéssel élünk (pl. Gauss sűrűségfüggvényt tételezünk fel) vagy a Bayes becslést nem alkalmazhatjuk.

2.11. ábra - Az a priori és az a posteriori sűrűségfüggvények alakulása
Az a priori és az a posteriori sűrűségfüggvények alakulása

A neuronhálók nagy többségénél a tanulás LS becslést jelent, hiszen egy négyzetes hibafüggvény minimumát biztosító paraméterértékek meghatározása a cél. Amennyiben a hálóhoz, illetve az általa megvalósított leképezéshez valószínűségi modell is rendelhető, maximum likelihood vagy Bayes becslésként értelmezhető a tanulási folyamat. A valószínűségi megközelítések azzal az előnnyel járnak, hogy az eredmény optimalitásáról határozottabb állítások fogalmazhatók meg, illetve eredményként nem csupán a paraméterek értékét kapjuk meg, hanem ezen értékekhez egy konfidenciaintervallum is rendelhető, így valójában az eredményeknek valamilyen minősítése is megtörténik.