14.3. Feltételes eloszlások hatékony reprezentációja

Még ha a szülők maximális száma, k meglehetősen kicsi is, egy csomópont feltételes valószínűségi táblájának kitöltése akár O(2k) számú értéket és az összes lehetséges feltételes esetet figyelembe véve is nagy szakértelmet igényelhet. Valójában azonban az a legrosszabb eset, amikor a kapcsolat a szülők és a gyermek között teljesen önkényes. Általában az ilyen kapcsolatok egy kanonikus eloszlással (canonical distribution) írhatók le, amelyek valamilyen szabványos mintát követnek. Ilyen esetekben a teljes tábla megadható a mintázat és esetleg néhány paraméter meghatározásával – sokkal könnyebben, mint exponenciális számú paraméter megadásával.

A legegyszerűbb példát a determinisztikus csomópontok (deterministic nodes) szolgáltatják. Egy determinisztikus csomópont értékét a szüleinek az értéke teljesen meghatározza, mindenfajta bizonytalanságtól mentesen. A reláció lehet egy logikai kapcsolat – például ha a szülőcsomópontok azt jelentik, hogy Kanadai, Egyesült Államokbeli és Mexikói, a gyermekcsomópont pedig azt, hogy Észak-Amerikai, akkor a közöttük lévő kapcsolat egyszerűen a szülők diszjunkciója. A reláció lehet numerikus is – például ha a szülőcsomópontok egy gépkocsi különböző árai különböző forgalmazóknál, a gyermekcsomópont pedig az az ár, amit egy legolcsóbbat kereső vevő végezetül fizetne, akkor a gyermekcsomópont értéke a szülők értékeinek a minimuma. Másik példa, ha a szülőcsomópontok az egy tóba bejövő vízmennyiségek (folyók, vízlevezetők, csapadék) és az onnan eltávozó vízmennyiségek (folyók, párolgás, elszivárgás), a gyermek pedig a tó szintjének a megváltozása, akkor a gyermek értéke a kifolyó és befolyó szülők értékeinek a különbsége.

Bizonytalan relációkat gyakran jellemezhetünk úgynevezett „zajos” logikai relációkkal. A mintapélda erre az úgynevezett zajos-VAGY (noisy-OR) reláció, ami a logikai VAGY reláció általánosítása. Ítéletlogikában kijelenthetjük, hogy a Láz akkor és csak akkor igaz, ha a Megfázás vagy az Influenza vagy a Malária igaz. A zajos-VAGY modell megenged bizonytalanságot, hogy egyes szülők okozhatják-e a gyermekek igaz értékét – az okozati kapcsolat a szülő és gyermek között gátolt lehet, és így lehet, hogy a páciens meg van fázva, de nincs láza. A modell két feltevésre épül. Elsőként feltételezi, hogy az összes lehetséges ok fel van sorolva. (Ez nem annyira szigorú megkötés, mint amilyennek tűnik, mivel mindig létrehozhatunk egy úgynevezett szivárgáscsomópontot (leak node), ami „vegyes okokat” fed le.) Másodikként felteszi, hogy bármely szülő gátlása független a többi szülő gátlásától: például akármi is gátolja, hogy a Malária lázat okozzon, ez független attól, hogy mi gátolja az Influenzá-t, hogy lázat okozzon. Ezekkel a feltevésekkel a Láz akkor és csak akkor hamis, ha az összes igaz értékű szülő gátolt, aminek a valószínűsége a gátlás-valószínűségek szorzata. Tételezzük fel, hogy ezek az önálló gátlási valószínűségek a következők:

Plázmegfázás, ¬influenza, ¬malária) = 0,6

Pláz∣¬megfázás, influenza, ¬malária) = 0,2l

Pláz∣¬megfázás, ¬influenza, malária) = 0,1

Ekkor – ennyi információból és a zajos-VAGY feltevésből – a teljes FVT-t fel lehet építeni. A következő táblázat azt mutatja, hogy hogyan:

Általánosságban, a zajos logikai relációk, amelyekben egy változó k számú szülőtől függ, O(k) paraméterrel írhatók le, a teljes feltételes valószínűség-eloszlás táblázathoz tartozó O(2k) helyett. Ez sokkal könnyebbé teszi a becslést és a tanulást. Például a CPSC-háló (Pradhan és társai, 1994) zajos-VAGY- és zajos-MAX-eloszlásokat használ a betegségek és tünetek közötti kapcsolatok modellezésére. 448 csomópont és 906 él esetén ez csak 8254 értéket igényel a 133 931 430 helyett, ami egy teljes FVT-ket használó háló esetén lenne szükséges.

14.3.1. Bayes-hálók folytonos változókkal

Számos valós problémában fordulnak elő folytonos mennyiségek, mint a magasság, tömeg, hőmérséklet és pénz; valójában a statisztika nagy része olyan valószínűségi változókkal foglalkozik, amelyek értéktartománya folytonos. Definíció szerint, a folytonos változóknak végtelen számú értéke lehet, így lehetetlen feltételes valószínűségeket megadni minden egyes értékre. Egy lehetséges módszer a folytonos változók kezelésére, ha elkerüljük őket diszkretizálással (discretization) – azaz felosztjuk a lehetséges értékeket intervallumok adott halmaza szerint. Például, a hőmérsékletet feloszthatjuk (<0°C), (0°C–100°C) és (>100°C) intervallumokra. A diszkretizálás néha adekvát megoldás, de gyakran eredményezi a pontosság jelentős romlását, valamint nagyon nagy FVT-ket. Egy másik megoldás, ha a valószínűség sűrűségfüggvények alapvető családjaiból választunk (lásd A) függelék), amelyek véges számú paraméterrel megadhatók. Például, a Gauss- (vagy normál) eloszláshoz N(μ, σ2)(x) a μ átlag és σ 2 szórásnégyzet tartozik mint paraméterek.

Egy diszkrét és folytonos változókat is tartalmazó hálót hibrid Bayes-hálónak (hybrid Bayesian network) nevezünk. Egy hibrid háló megadásához két újfajta eloszlást kell megadnunk: feltételes eloszlást folytonos változóhoz diszkrét és/vagy folytonos szülők esetén; továbbá feltételes eloszlást diszkrét változókhoz folytonos szülők esetén. Fontoljuk meg a 14.5. ábra egyszerű példáját, amelyben a vásárló valamilyen gyümölcsöt vásárol az ára függvényében, ami viszont a termés mennyiségétől függ és attól, hogy éppen van-e állami támogatás. Az Ár változó folytonos, a szülei pedig folytonosak és diszkrétek; a Vásárol változó diszkrét, és van egy folytonos szülője.

Az Ár változóhoz meg kell adnunk a P(ÁrTermés, Támogatás) eloszlást. A diszkrét szülőt explicit felsorolással kezeljük – azaz megadjuk mind a P(ÁrTermés, támogatás), mind a P(ÁrTermés, ¬támogatás) valószínűségeket. A Termés kezeléséhez megadjuk, hogy a c ár feletti eloszlása hogyan függ a t Termés folytonos értékétől. Máshogy fogalmazva, az ár eloszlásának a paramétereit a termés t értékének függvényében adjuk meg.

14.5. ábra - Egy egyszerű háló diszkrét (Támogatás és Vásárol) és folytonos (Termés és Ár) változókkal
Egy egyszerű háló diszkrét (Támogatás és Vásárol) és folytonos (Termés és Ár) változókkal

A leggyakoribb választás a lineáris Gauss-eloszlás (linear Gaussian), amelyben a gyermek Gauss-eloszlású, ahol a μ várható érték lineárisan változik a szülő értékével, és ahol a δ szórás rögzített. Két eloszlásra van szükségünk, a támogatás és a ¬támogatás esetére különböző paraméterekkel:

Ebben a példában ekkor, az Ár feltételes eloszlását a lineáris normális eloszlás kiválasztásával és az ai, bi, σi, ah, bh és σhparaméterekkel adhatjuk meg. A 14.6. (a) és (b) ábra mutatják ezt a két kapcsolatot. Figyeljük meg, hogy mindegyik esetben a meredekség negatív, mivel az ár csökken a kínálat növekedésével. (Természetesen a linearitás feltevése azt is jelenti, hogy az ár egy bizonyos pontnál negatív lesz; a lineáris modell csak akkor ésszerű, ha a termés mennyiségét egy szűk tartományra korlátozzuk.) A 14.6. (c) ábra a P(c|t) eloszlást mutatja, átlagolva a Támogatás két lehetséges értéke felett feltételezve, hogy mindegyik a priori valószínűsége 0,5. Ez mutatja, hogy még igen egyszerű modellekkel is, elég érdekes eloszlások reprezentálhatók.

14.6. ábra - Az (a) és (b) grafikonok az Ár valószínűség-eloszlását mutatják a Termés függvényében és a Támogatás igaz és hamis értéke mellett. A (c) diagram a P(ÁrTermés) eloszlást mutatja, ami a két aleset összegzéseként adódik.
Az (a) és (b) grafikonok az Ár valószínűség-eloszlását mutatják a Termés függvényében és a Támogatás igaz és hamis értéke mellett. A (c) diagram a P(Ár∣Termés) eloszlást mutatja, ami a két aleset összegzéseként adódik.

A lineáris normális feltételes eloszlásnak vannak bizonyos speciális tulajdonságai. Egy csak folytonos, lineáris normális feltételes eloszlású változókat tartalmazó háló együttes eloszlása egy többváltozós normális eloszlás az összes változó felett (lásd 14.5. feladat).[147] [A többváltozós normális eloszlás egy felület több mint egy dimenzióban, aminek van egy csúcsa az átlagnál (n dimenzióban), értéke pedig ettől távolodva minden irányban csökken.] Ha diszkrét változókat adunk a hálóhoz (feltéve, hogy egyetlen diszkrét változó sem gyermeke egy folytonos változónak), a háló egy feltételes Gauss- (conditional Gaussian) vagy FG-eloszlást definiál: bármilyen értéket is rendelünk a diszkrét változókhoz, a folytonos változók feletti eloszlás egy többváltozós Gauss-eloszlás lesz.

Most a folytonos szülővel rendelkező diszkrét változók eloszlásával kezdünk foglalkozni. Fontoljuk meg például a Vásárol csomópontot a 14.5. ábrán. Ésszerűnek tűnik azt feltételezni, hogy a vásárló vásárol, ha az ár alacsony, nem vásárol, ha magas, a vásárlás valószínűsége pedig folytonosan változik egy közbenső régióban. Máshogy fogalmazva, a feltételes eloszlás hasonló egy „elmosódott” („soft”) küszöbfüggvényhez. Az elmosódott küszöbök létrehozására egy módszer a standard normális eloszlás integráljának a használata:

Ekkor a Vásárlás valószínűsége az Ár ismeretében ez lehet

P(vásárolÁr = c) = Φ((– c = μ)/σ)

ami azt jelenti, hogy az ár küszöbe μ körül van, és a küszöbrégió szélessége arányos δ-val, illetve, hogy a vásárlás valószínűsége csökken, ahogy az ár növekszik.

14.7. ábra - (a) A Vásárlás valószínűségének probit eloszlása az Ár ismeretében, μ = 6,0 és σ = 1,0 mellett. (b) Logit eloszlás hasonló paraméterekkel.
(a) A Vásárlás valószínűségének probit eloszlása az Ár ismeretében, μ = 6,0 és σ = 1,0 mellett. (b) Logit eloszlás hasonló paraméterekkel.

Ezt a probit eloszlást (probit distribution) a 14.7. (a) ábra illusztrálja. Alakja azzal az érveléssel igazolható, hogy az alapul szolgáló döntési folyamatnál létezik egy pontos küszöb, de ennek pontos helyét egy véletlen normális eloszlású zaj befolyásolja. A probit modell egy alternatívája a logit eloszlás (logit distribution), amely a szigmoid függvényt (sigmoid function) használja egy elmosódott küszöb előállításához:

Ezt a 14.7. (b) ábra mutatja. A két eloszlás hasonlóan néz ki, de valójában a logit sokkal lassabban tart a határértékekhez. A probit gyakran jobban illeszkedik a valódi helyzetekhez, de a logit esetenként matematikailag könnyebben kezelhető, például széles körben használatos a neurális hálókban (lásd 20. fejezet). Mind a probit, mind a logit általánosítható több folytonos szülőre a szülők értékeinek lineáris kombinációját véve. Többértékű diszkrét gyermekre történő kiterjesztéseket a 14.6. feladatban taglalunk.



[147] Következésképpen lineáris normális hálókban a következtetés időigénye legrosszabb esetben is csak O(n3), függetlenül a háló topológiájától. A 14.4. alfejezetben látni fogjuk, hogy diszkrét változós hálóban a következtetés NP-nehéz.