13.6. A Bayes-tétel és használata

Az 13.2.3. szakasz - A priori valószínűség részben definiáltuk a szorzatszabályt (product rule), és rámutattunk, hogy ez a konjunkció kommutativitása miatt két alakban írható:

P(ab) = P(a | b)P(b)

P(ab) = P(b | a)P(a)

A jobb oldalak egyenlőségéből P(a)-val való osztás után következik, hogy

Ezt az egyenletet Bayes-szabályként (Bayes’ rule) ismerjük (nevezik Bayes-törvénynek vagy Bayes-tételnek is).[141] Ez az egyszerű egyenlet az alapja az összes korszerű valószínűségi következtetést alkalmazó MI-rendszernek. A többértékű változókat tartalmazó általánosabb eset a P jelölésekkel a következő átírással adható meg:

amelyet ismételten úgy kell értelmezni, hogy egy egyenlethalmazt képvisel, amely egyenletek mindegyike a változók meghatározott értékeire vonatkozik. Lesznek olyan esetek, amikor egy még általánosabb felírást használhatunk, valamilyen e háttértény feltételével:

13.6.1. Bayes tételének alkalmazása: egyszerű eset

A Bayes-tétel első pillantásra nem tűnik túl használhatónak. Egyetlen feltételes valószínűség kiszámításához három kifejezés – egy feltételes és két feltétel nélküli valószínűség – megadása szükséges.

A gyakorlatban a Bayes-tétel jól használható, mivel gyakran rendelkezünk a fenti három kifejezésre vonatkozó jó valószínűségi becsléssel, miközben a negyediket kell kiszámítanunk. Olyan feladatoknál, mint az orvosi diagnosztika, gyakran ismerjük az ok-okozati kapcsolatok feltételes valószínűségeit, miközben egy diagnózist szeretnénk felállítani. Az orvos tudja azt, hogy az agyhártyagyulladás az esetek mondjuk 50%-ában nyakmerevedést okoz a betegeknél. Az orvos ezenfelül ismer néhány feltétel nélküli tényt is: annak előzetes valószínűsége, hogy egy beteg agyhártyagyulladást kap, 1/50 000, míg annak előzetes valószínűsége, hogy egy betegnek merev a nyaka 1/20. Jelölje s azt az állítást, hogy a betegnek megmerevedett a nyaka, valamint m azt az állítást, hogy a betegnek agyhártyagyulladása van. Ekkor

Vagyis a nyakmerevedésről panaszkodó 5000 beteg közül várhatóan csak egynek lesz agyhártyagyulladása. Vegyük észre, hogy annak ellenére, hogy az agyhártyagyulladásnak igen gyakori tünete (0,5 valószínűséggel) a nyakmerevedés, annak valószínűsége, hogy egy nyakmerevedéses betegnek ténylegesen agyhártyagyulladása van, mégis csekély. Ez abból következik, hogy a nyakmerevedés a priori valószínűsége sokkal nagyobb, mint az agyhártyagyulladásé.

A 13.4. alfejezetben bemutattunk egy eljárást, amely segítségével elkerülhető a tény valószínűségének (példánkban P(s)) megbecsülése, úgy, hogy a lekérdezett változó minden egyes értékéhez (itt m és ¬m) egy utólagos valószínűséget számítunk ki, majd az eredményeket normalizáljuk. Hasonló eljárás alkalmazható, ha a Bayes-tételt használjuk. Ismert, hogy

P(M|s) = α⟨P(s|m)P(m), P(s|¬m)Pm)⟩

Következésképpen ahhoz, hogy ezt a megközelítést használni tudjuk, P(s) helyett P(s∣¬m)-et kell tudnunk becsülni. Nincs ingyenebéd – van, hogy ez könnyebb és van, hogy nehezebb. A normalizált Bayes-tétel általános alakja

P(Y|X) = αP(X\Y)P(Y) (13.11)

ahol a a normalizáló konstanst jelöli, amely segítségével a P(Y|X) elemeinek összegét 1-gyé tudjuk tenni.

Fontos

A Bayes-tétellel kapcsolatban magától értetődő kérdés, hogy miért ismerhetjük a feltételes valószínűséget az egyik irányból, a másik irányból pedig nem. Az agyhártyagyulladás tartományban a doktor tudhatja, hogy a nyakmerevedésből csak minden 5000-dik esetben következik agyhártyagyulladás, vagyis a doktor a tünetektől a kiváltó ok felé, azaz diagnosztikai (diagnostic) irányban rendelkezik mennyiségi információval. Egy ilyen orvosnak nincs szüksége a Bayes-tétel alkalmazására. Sajnálatos módon azonban a diagnosztikai tudás gyakran sokkal törékenyebbnek bizonyul az ok-okozati összefüggéseknél. Ha például hirtelen agyhártyagyulladás-járvány tör ki, akkor az agyhártyagyulladás előzetes valószínűsége, P(m) megnő. Az az orvos, aki a járványt megelőző statisztikai adatok alapján számította ki P(m|s)-t, nem fogja tudni, hogyan változtassa meg az agyhártyagyulladásra vonatkozó értéket, míg az a doktor, aki a másik három érték segítségével számítja P(m|s)-t, látni fogja, hogy ennek értéke P(m)-mel arányosan meg fog nőni. Még fontosabb azonban, hogy a P(s|m) okozati információ értékét a járvány nem befolyásolja, hiszen ez kizárólag az agyhártyagyulladás lefolyásától függ. Ez a fajta közvetlen ok-okozati és modellalapú tudás alkalmazása teszi a valószínűségi rendszereket döntően robusztussá, amely a valódi világban való felhasználhatósághoz szükséges.

13.6.2. A Bayes-tétel alkalmazása: több együttes tény figyelembevétele

Láttuk, hogy a Bayes-tétel hasznos lehet az egyetlen tény – például nyakmerevedés – feltételezése melletti valószínűségi kérdések megválaszolásánál. Nevezetesen, megmutattuk, hogy a valószínűségi információ gyakran P(okozatok) formában áll rendelkezésre. Mi történik azonban akkor, ha kettő vagy több tény van a birtokunkban? Például milyen következtetésre juthat a fogorvos, ha az az undok acélszondája lyukra akad a beteg fájó fogában? Ha ismerjük a teljes együttes eloszlást (lásd 13.3. ábra), a válasz kiolvasható:

P(Lyukfogfájásbeakadás) = α⟨0,018, 0,016⟩ ≈ ⟨0,871, 0,129⟩

Azt is tudjuk ugyanakkor, hogy ez a megközelítés nagyszámú változó esetén nem használható.

Megpróbálkozhatunk a Bayes-tétel alkalmazásával is, átfogalmazva a kérdést:

P(Lyukfogfájásbeakadás) = αP(fogfájásbeakadásLyuk)P(Lyuk) (13.12)

Ahhoz, hogy ez az átfogalmazás működjön, a Lyuk minden értékére ismernünk kell a fogfájásbeakadás együttes bekövetkezésének feltételes valószínűségét. Noha ez két tényváltozó esetén használható lehet, nagyszámú változó esetén már nem alkalmazható. Ha n figyelembe veendő tényváltozónk van (röntgen, diéta, szájhigiénia stb.), akkor a megfigyelt értékek lehetséges kombinációinak száma 2n, amely esetek mindegyikénél ismernünk kell a feltételes valószínűséget. Ennyi erővel akár vissza is térhetünk a teljes együttes valószínűség-eloszlás használatához. Ez vezetett arra, hogy a kutatók a valószínűség-számítás helyett közelítő módszereket kezdtek el használni több tény együttes figyelembevételénél, mert bár az így kapott válaszok pontatlanok, de kevesebb számolást igényelnek.

A fenti út követése helyett inkább további állításokat kell keresnünk a tárgytartományról, amelyek lehetővé teszik a kifejezések egyszerűsítését. A 13.5. alfejezetben bevezetett függetlenség (independence) fogalma kínálja a megoldás kulcsát, azonban finomítást igényel. Kellemes lenne, ha a Fogfájás és a Beakadás függetlenek lennének, de nem azok: ha a szonda megakad a fogban, akkor az valószínűleg lyukas, ami várhatóan fájdalmat okoz. Mindemellett, ezek a változók függetlenek, amennyiben a lyuk megléte vagy hiánya adott tény. Mindkettő a lyuk közvetlen következménye, azonban egyiknek sincs közvetlen hatása a másikra: a fogfájás a fogidegek állapotától függ, míg a szonda pontosságát a fogorvos szakértelme határozza meg, amelyben nincs szerepe a fogfájásnak.[142] Ezt a tulajdonságot matematikailag a következőképpen írhatjuk le

P(fogfájásbeakadásLyuk) = P(fogfájásLyuk)P(beakadásLyuk) (13.13)

Ez az egyenlet a Lyuk ténye esetén a fogfájás és beakadás között fennálló feltételes függetlenséget (conditional independence) fejezi ki. (13.13)-at (13.12)-be behelyettesítve megkapjuk a lyuk valószínűségét:

P(Lyukfogfájás beakadás) = αP(fogfájásLyuk)P(beakadás) ∣Lyuk)P(Lyuk)

Ezzel ugyanarra az információigényre jutottunk, mint a minden egyes tényt külön használó következtetésnél: a keresés változójának P(Lyuk) a priori valószínűségét, valamint minden egyes okozat saját okának fennállása esetén igaz feltételes valószínűségét kell ismernünk.

Két változó, X és Y egy adott Z harmadik melletti feltételes függetlenségének általános definíciójáta következő egyenlet adja:

P(X, YZ) = P(XZ)P(YZ)

A fogorvostartományban, például, logikusnak tűnik a Fogfájás és Beakadás között feltételes függetlenséget feltételezni a Lyuk ténye esetén:

P(Fogfájás, BeakadásLyuk) = P(FogfájásLyuk)P(BeakadásLyuk) (13.14)

Vegyük észre, hogy ez a kijelentés valamelyest erősebb, mint amit a (13.13) egyenlet fejez ki. Ez utóbbi csak a Fogfájás és Beakadás bizonyos értékeihez rendel függetlenséget. Éppúgy, mint a (13.8) egyenletben az abszolút függetlenségnél, a következő ekvivalens kifejezések is használhatók:

P(XY, Z) = P(XZ) és P(YX, Z) = P(YZ)

A 13.5. alfejezetben megmutattuk, hogy a teljes függetlenség bizonyíthatósága esetén a teljes együttes valószínűségi eloszlás szétbontható sokkal kisebb részekre. Ugyanez lesz igaz feltételes függetlenség esetén is. Példának okáért, a (13.14) szerinti kijelentés fennállása esetén, a felbontás a következőt jelentheti:

P(Fogfájás, Beakadás, Lyuk)

= P(Fogfájás, BeakadásLyuk)P(Lyuk) (szorzatszabály)

= P(FogfájásLyuk)P(BeakadásLyuk)P(Lyuk) (13.14)-et használva

Fontos

Ezzel a módszerrel az eredeti nagy táblázat felbontható három kisebbre. Az eredeti táblázat hét független számot tartalmaz (23–1, mivel a számok összegének 1-et kell adnia). A kisebb táblázatokban öt független szám található (mindegyik feltételes valószínűségi eloszlásra 2 × (21–1), valamint 21–1 a Lyuk előzetes valószínűségi eloszlására). Ez nem tűnik túl nagy győzelemnek, azonban, ha a Lyuk ténye mellett n tünet bizonyul függetlennek, akkor a reprezentáció O(n) nagyságrendben növekszik O(2n) helyett. Következésképpen a feltételes függetlenségi kijelentések lehetővé teszik nagy valószínűségi rendszerek kezelhetőségét, sőt, a feltételes függetlenségi kijelentések gyakrabban rendelkezésre is állnak, mint az abszolút függetlenségre vonatkozók. A Lyuk fogalmilag szétválasztja (separate) a Fogfájás-t és a Beakadás-t, mivel mindkettőnek közvetlen következménye. Nagy valószínűségi tartományok feltételes függetlenségen keresztül lazán kapcsolódó részhalmazokra történő szétbontása a modern MI történetének legnagyobb eredményei közé tartozik.

A fogorvosi eset jó példa az olyan, rendszeresen bekövetkező mintára, ahol egyetlen ok közvetlenül befolyásol számos olyan okozatot, amelyek az ok fennállása esetén feltételesen függetlenek. A teljes valószínűségi eloszlás az alábbiak szerint írható fel:

Az ilyen valószínűségi eloszlásokat naiv Bayes-modellnek hívjuk – „naiv”, mert gyakran használják (egyszerűsítésként) olyan esetekben is, ahol az „okozati” változók valójában nem függetlenek az „ok” fennállása esetén. (A naiv Bayes-modellt néha Bayes-osztályozónak (Bayes classifier) is hívják némileg meggondolatlanul, ami arra sarkallta az igazi Bayes-következtetést alkalmazókat, hogy a naiv Bayes-modellt együgyű Bayes- (idiot Bayes) modellnek hívják.) A naiv Bayes-modellek a gyakorlatban akkor is meglepően jól működnek, ha a valószínűségi feltételezés nem igaz. A 20. fejezetben olyan módszereket írunk le, amelyekkel a naiv Bayes-eloszlások megtanulhatók a megfigyelésekből.



[141] Az angol irodalomban Bayes’ rule az elnevezése. Strunk és White The Elements of Style c. könyvének 1. oldalán található 1. szabály értelmében a Bayes’ helyett inkább a Bayes’s lenne a helyes jelölés, azonban az előbbit elterjedtebben használják. (Szerencsére ilyen probléma a magyarban nincs. A szerk.)

[142] Feltételezve, hogy a beteg és a fogorvos két különböző személy.