13.8. Összefoglalás

Ez a fejezet arra mutat rá, hogy a valószínűség megfelelő módja a bizonytalanságra vonatkozó következtetéseknek.

  • Bizonytalanság következik mind a lustaságból, mind pedig a tudatlanságból. Összetett, dinamikus vagy hozzáférhetetlen világok esetén mindez elkerülhetetlen.

  • A bizonytalanság azt jelenti, hogy a továbbiakban sok olyan egyszerűsítés, amely deduktív következtetés során megengedhető, hamis eredményre vezet.

  • A bizonytalanság az ágens képtelenségét fejezi ki arra, hogy egyértelmű döntést hozzon egy állítás igazságát illetően. A valószínűségek az ágens meggyőződésének fokát fejezik ki.

  • Az alapvető valószínűségi állítások magukban foglalják az egyszerű és az összetett állításokra vonatkozó a priori és feltételes valószínűségeket (prior and conditional probabilities).

  • A teljes együttes valószínűség-eloszlás (full joint probability distribution) valószínűséget rendel a véletlen változó minden teljes körű érték-hozzárendeléséhez. A teljes együttes valószínűség-eloszlás általában sokkal nagyobb méretű annál, semhogy létrehozzuk vagy használjuk.

  • A valószínűségi axiómák kényszereket jelentenek az állításokhoz ésszerűen hozzárendelt valószínűségek értékére vonatkozóan. Az axiómákat megsértő ágens bizonyos körülmények között ésszerűtlenül fog viselkedni.

  • Ha rendelkezésre áll a teljes valószínűségi eloszlás, akkor a lekérdezések megválaszolását egyszerűen a lekérdezések állításához tartozó elemi események bejegyzéseinek összeadásával elvégezhetjük.

  • A véletlen változók részhalmazai között fennálló abszolút függetlenség (absolute independence) maga után vonja a teljes együttes valószínűségi eloszlás kisebb együttes valószínűségi eloszlásokból álló szorzattényezőkre bontásának lehetőségét. Ez nagymértékben csökkentheti a bonyolultságot, azonban a gyakorlatban ritkán fordul elő.

  • A Bayes-tétel (Bayes’ rule) lehetővé teszi, hogy ismert feltételes valószínűségekből számítsunk ki ismeretleneket, általában az okozat irányába következtetve. Nagy mennyiségű tény rendelkezésre állása esetén a Bayes-tétel alkalmazása ugyanolyan számításigény-robbanáshoz vezet, mint a teljes együttes valószínűségi eloszlás.

  • A tartományon belüli közvetlen oksági kapcsolatok okozta feltételes függetlenség (conditional independence) lehetővé teszi, hogy a teljes valószínűségi eloszlást kisebb, feltételes valószínűségi eloszlások szorzataként írhassuk fel. A naiv Bayes- (naive Bayes) modell adott okváltozó mellett feltételezi az okozati változók feltételes függetlenségét, a modell mérete pedig az okozati változók számával lineárisan nő.

  • A wumpus világ ágense ki tudja számítani a világ meg nem figyelt eseményeinek valószínűségét is, és azokat használva jobb következtetésekre tud jutni, mint egy egyszerű logikai ágens.

13.8.1. Irodalmi és történeti megjegyzések

Bár a szerencsejátékok már i. e. 300 körül is ismertek voltak, az esélyek és a valószínűségek matematikai analízise jóval későbbre tehető. Mahaviracarya Indiában nagyjából az i. e. 9. században kezdte meg a téma vizsgálatát. Európában az első kísérletek csak az olasz reneszánsz idejére, kb. 1500-ra tehetők. Az első jelentős következetes elemzés Girolamo Cardano nevéhez fűződik (1565), amely azonban 1663-ig nem került nyilvánosságra. Ekkorra Blaise Pascalnak a valószínűségek szisztematikus kiszámítására vonatkozó felfedezése (Pierre Fermat-val levelezve 1654-ben) megalapozta a valószínűség-számítást, mint a matematika széles körben és eredményesen vizsgált ágát. Az első valószínűségekkel kapcsolatos tankönyv a De Ratiociniis in Ludo Aleae volt (Huygens, 1657). Pascal bevezette a feltételes valószínűség fogalmát is, amelyről szintén szó van Huygens könyvében. Thomas Bayes anglikán lelkész (1702–1761) nevéhez fűződik a később róla elnevezett szabály, amely feltételes valószínűségek számítására alkalmas. Eredménye csak halála után jelent meg nyomtatásban (Bayes, 1763). Kolmogorov volt az első (Kolmogorov, 1950; első megjelenés németül 1933), aki a valószínűség-számítást szigorúan axiomatikus keretek között tárgyalta. Rényi (Rényi, 1970) olyan axiómarendszert vezetett be, amely nem a feltétel nélküli, hanem a feltételes valószínűség fogalmára épül.

Pascal többféleképpen használta a valószínűség fogalmát, így igényelte mind az objektivista értelmezést – amely szerint a valószínűség a világhoz tartozó, szimmetrián vagy relatív gyakoriságon alapuló sajátság –, mind pedig a valószínűség meggyőződési mértéken alapuló szubjektív megközelítését: előbbit a szerencsejátékokra vonatkozó valószínűség elemzéseiben, míg az utóbbit a híres pascali fogadás érvelésében Isten létezése vagy nemléte kapcsán. Mindemellett, Pascal nem látta világosan a két megközelítés közötti különbséget. Ezt jól érthetően először James Bernoulli (1654–1705) fogalmazta meg.

Leibniz nevéhez fűződik a valószínűség klasszikus fogalmának – mint a számba vett azonos esélyű esetek arányának – leírása. Ugyanezt a fogalmat használta Bernoulli is, bár igazából Laplace (1749–1827) vezette be a gyakorlatba. A fogalom azonban a frekvencionista, illetve a szubjektív értelmezési mód között nem tud különbséget tenni. Az esetek tekinthetők azonos esélyűeknek akár a természetes fizikai szimmetriák miatt, akár pedig egyszerűen azért, mert nincs olyan információnk, amely arra mutatna, hogy az egyik bekövetkezésének nagyobb az esélye, mint a másikénak. Ez utóbbit, amikor egyéni megfontolások alapján igazoljuk az egyenlő valószínűségek hozzárendelését, a pártatlanság elvének (principle of indifference) hívjuk (Keynes, 1921).

A valószínűség objektivista és szubjektivista értelmezése közötti vita a 20. században kiélesedett. A relatív gyakoriság szószólói Kolmogorov (Kolmogorov, 1963), R. A. Fisher (Fisher, 1922) és Richard von Mises (von Mises, 1928) voltak. Karl Popper (Popper, 1959; első megjelenés németül 1934) hajlam (propensity) értelmezése a mögöttes fizikai szimmetriát látja a relatív gyakoriságban. Frank Ramsey, Bruno de Finetti, R. T. Cox, Leonard Savage és Richard Jeffrey úgy értelmezték a valószínűséget, mint meghatározott egyének meggyőződésének mértékét (Ramsey, 1931; de Finetti, 1937; Cox, 1946; Savage, 1954; Jeffrey, 1983). A hiedelem mértékére vonatkozó elemzésük szorosan kötődött a hasznossághoz és a viselkedéshez, különösen ahhoz a szándékhoz, hogy fogadásokat kössünk. Rudolf Carnap, Leibnizet és Laplace-t követve, a szubjektív valószínűség egy másfajta értelmezését javasolta: nem mint az adott egyén meggyőződését, hanem mint azt a hiedelemfokot, amelyet egy eszményi személynek kell hinnie egy adott a állításról e tény fennállása esetén. Carnap megpróbált Leibniz-nél és Laplace-nál tovább menni, és ezt a megerősítési (confirmation) mérték fogalmat, mint a és e között fennálló logikai kapcsolatot, matematikailag is pontosan leírni. A kapcsolat tanulmányozása révén akarta a megszokott deduktív logika (Carnap, 1948; 1950) mintájára, a matematika egy induktív logikának (inductive logic) nevezett diszciplináját megalapítani. Carnap képtelen volt az induktív logikát lényegesen kiterjeszteni az ítéletkalkuluson túlra, és Putnam mutatta meg, hogy alapvető nehézségek hiúsítják meg az aritmetikát is kifejezni képes nyelvek irányába történő szabatos kiterjesztést (Putnam, 1963).

A vonatkoztatási osztály kérdése szorosan kötődik az induktív logika megtalálására tett törekvésekhez. Az elégséges méretű legjobban specifikus vonatkoztatási osztály kiválasztására való törekvést Reichenbach javasolta (Reichenbach, 1949). Erőfeszítések történtek kifinomultabb irányelvek kialakítására, amelyekkel el lehet kerülni a Reichenbach-szabályból következő, Henry Kyburg által észlelt ellentmondásokat (Kyburg, 1977; 1983), azonban ezek a törekvések leginkább ad hoc jellegűek maradtak. Egy újabb, Bacchus, Grove, Halpern és Koller nevéhez fűződő munka (Bacchus és társai, 1992) Carnap módszereit kiterjeszti az elsőrendű elméletekre, kiküszöbölve ezáltal sok, a vonatkoztatási osztályokkal kapcsolatos nehézséget.

A bayesi valószínűségi következtető rendszereket a hatvanas évek óta használják az MI-ben, különösen az orvosi diagnosztikában. Nemcsak azért, hogy meglevő tényekből következtetéseket vonjanak le, hanem azért is, hogy az információérték-elmélet (lásd 16.6. alfejezet) segítségével további kérdéseket és vizsgálatokat válasszanak, amikor a meglevő tények nem meggyőzők (Gorry, 1968; Gorry és társai, 1973). Az egyik rendszer felül is múlta az emberi szakértőket a heveny hasi megbetegedések diagnózisában (de Dombal és társai, 1974). Mindemellett azonban ezekkel a korai bayesi rendszerekkel igen sok gond is volt. Lévén, semmilyen elméleti modellel nem rendelkeztek azokról a körülményekről, amelyeket diagnosztizáltak, sebezhetők voltak mindazon esetekben, amikor olyan helyzetekre jellemző adatok tűntek fel, amelyeket csak kisszámú mintahalmaz képviselt (de Dombal és társai, 1981). Még ennél is alapvetőbb, hogy mivel nem volt tömör leíró módszerük (mint amilyet a 14. fejezetben ismertetünk) a feltételes függetlenség megjelenítésére és használatára, erősen függtek a hatalmas mennyiségű valószínűségi adat gyűjtésétől, tárolásától és feldolgozásától. E nehézségek miatt 1970-től a nyolcvanas évek közepéig a bizonytalanságkezelés valószínűségi módszerei kegyvesztettek lettek az MI-ben. A nyolcvanas évek vége óta bekövetkezett fejlődést a következő fejezet írja le.

Az együttes eloszlások naiv bayesi megközelítését az alakfelismeréssel foglalkozó irodalom alaposan tanulmányozta az 1950-es évektől kezdve (Duda és Hart, 1973). A megközelítést Maron munkájának megjelenése (Maron, 1961) óta gyakran használták – sokszor akaratlanul – az adatbányászat területén is. A módszer valószínűségi megalapozását, amelyet részletesen a 13.18. feladat ír le, Robertson és Sparck Jones tisztázta (Robertson és Jones, 1976). A naiv Bayes-következtetésnek a még olyan tartományokban is jelentkező meglepő sikerére, ahol a függetlenségi feltételezés egyértelműen sérül, Domingos és Pazzani ad magyarázatot (Domingos és Pazzani, 1977).

A valószínűség-számítás témakörében nagyon sok kiváló tankönyv létezik, beleértve a Chung és Ross által írtakat (Chung, 1979; Ross, 1988). Morris DeGroot két könyve közül az egyik (DeGroot, 1989) a bayesi álláspont felől közelítve ad közös bevezetést a valószínűség-számításba és a statisztikába, a másik pedig mélyebb ismereteket tartalmaz (DeGroot, 1970). Richard Hamming tankönyve matematikailag megalapozott bevezetést nyújt a valószínűség-számítás elméletébe a fizikai szimmetrián alapuló hajlammegközelítés felől (Hamming, 1991). Hacking és Hald a valószínűség fogalmának korai történetét tárják elénk (Hacking, 1975; Hald, 1990), Bernstein pedig szórakoztató népszerűsítő áttekintést ad a kockázatelemzés történetéről (Bernstein, 1996).

13.8.2. Feladatok

13.1.

Mutassa meg az alapelvek segítségével, hogy

P(ab a) = 1

13.2.

A valószínűség-számítás axiómáit használva bizonyítsa be, hogy diszkrét véletlen változók tetszőleges valószínűségi eloszlása összegének 1-et kell adnia.

13.3.

Ésszerű lehet-e egy ágens számára a következő három meggyőződésben hinni: P(A) = 0,4, P(B) = 0,3 és P(AB) = 0,5? Ha igen, milyen valószínűségsávot tart ésszerűnek AB-re vonatkozóan? Készítsen a 13.2. ábrához hasonló táblázatot, és mutassa meg, hogyan támasztja ez alá az Ön érvelését. Ezután készítsen egy másik változatot, amelynél P(AB) = 0,7. Magyarázza el, miért racionális egy ekkora valószínűség hozzárendelése, mindamellett hogy a táblázat mutat egy olyan esetet, ami veszteség, és három olyat, ami ki van egyenlítve. (Segítség: milyen valószínűségi hozzárendelés mellett kötelezte el magát az 1. ágens a négy esetben, de különösen a veszteség esetén?)

13.4.

Ez a kérdés az 13.2.1. szakasz - Állítások részben tárgyaltaknak megfelelően, az elemi események tulajdonságaival foglalkozik.

  1. Bizonyítsa be, hogy az összes lehetséges elemi esemény egyesítése logikailag megegyezik az igaz állítással. (Segítség: bizonyítékként alkalmazzon indukciót a véletlen változók számára vonatkozóan.)

  2. Bizonyítsa be, hogy bármely állítás logikailag ekvivalens azon elemi események diszjunkciójával, amelyek maguk után vonják annak igazságát.

13.5.

Képzeljük el a szokványos 52 lapos kártyacsomagból osztott ötlapos póker játszmák tartományát, annak feltevésével, hogy az osztó becsületes.

  1. Hány elemi eseményt tartalmaz az együttes valószínűség-eloszlás (azaz hányféle 5 lapos leosztás létezik egy kézben)?

  2. Mekkora a valószínűsége az egyes elemi eseményeknek?

  3. Mekkora a valószínűsége a felül ászos színsornak (royal flush, egyszínű ász, király, dáma, bubi és tízes)? És négy egyforma lapnak?

13.6.

Számítsa ki az alábbiakat, ha adott a 13.3. ábra szerinti teljes együttes valószínűségi eloszlás.

  1. P(fogfájás)

  2. P(Lyuk)

  3. P(Fogfájáslyuk)

  4. P(Lyukfogfájás beakadás)

13.7.

Mutassa meg, hogy a függetlenség (13.8) egyenlet szerinti három felírási módja ekvivalens egymással.

13.8.

Az évenként esedékes orvosi ellenőrzése után a doktor rossz és jó híreket mond. A rossz hír az, hogy komoly betegséget mutattak ki önnél, és a teszt 99%-ban megbízható (azaz, annak a valószínűsége, hogy a teszt kimutatja a meglevő betegséget, 0,99, és ugyanígy, annak a valószínűsége, hogy a teszt negatív lesz, amennyiben nem áll fenn a betegség, szintén 0,99). A jó hír az, hogy ez a betegség nagyon ritka, amelyet az Ön korában minden 10 000 emberből csak egy kap meg. Miért jó hír az, hogy a betegség ritka? Mekkora az esélye annak, hogy Ön tényleg beteg?

13.9.

Sokszor célszerűbb adott állítások hatását bizonyos rögzítettnek feltételezett általános háttértények feltételezésével végiggondolni, mint az információ teljes hiányában. Az alábbi kérdések a szorzatszabály és a Bayes-tétel általános alakjainak bizonyítását célozzák, valamely e háttértény feltételezése mellett.

  1. Bizonyítsa be az általános szorzatszabály valamely feltétel fennállása esetén felírható alakját:

P(X, Ye) = P(XY, e)P(Ye)

  1. Bizonyítsa be a Bayes-tétel (13.10) egyenlet szerinti, valamilyen feltétel fennállása esetére felírt változatát.

13.10.

Mutassa meg, hogy a

P(A,BC) = P(AC) P(BC)

állítás mindkét alábbi állítással egyenértékű

P(AB,C) = P(AC) és P(BA,C) = P(BC)

13.11.

Tegyük fel, hogy kapott egy n darab egyforma pénzérmét tartalmazó zsákot. Azt is tudjuk, a pénzek közül n–1 szabályos, azaz egyik oldalán fej, a másikon írás található, ugyanakkor van egy darab hamis, amelynek mindkét oldala fej.

  1. Tegyük fel, hogy benyúl a zsákba, majd véletlenszerűen kiemel egy pénzdarabot. Ezt feldobva fejet kap eredményül. Mekkora a (feltételes) valószínűsége annak, hogy a kivett pénzdarab a hamis?

  2. Tegyük fel, hogy k-szor folytatva a pénz feldobását, ezután is minden alkalommal fejet kap. Most mennyi lesz a feltételes valószínűsége annak, hogy a kivett pénzdarab a hamis?

  3. Tegyük fel, hogy a k-szori feldobással akarta eldönteni, hogy a hamis vagy egy jó pénzérmét emelt ki a zsákból. A döntési eljárás HAMIS-at ad, ha mind a k feldobás alkalmával a fej van fölül, egyébként pedig JÓ-t. Mekkora annak a (feltétel nélküli) valószínűsége, hogy az eljárás tévedni fog?

13.12.

Ebben a feladatban befejezheti az agyhártyagyulladásra vonatkozó példa normalizálását. Először is vegyen fel egy megfelelő értéket P(S∣¬M)-re, és ennek segítségével számítsa ki P(MS) és PMS) normalizálatlan értékeit (azaz ne vegye figyelembe P(S)-t a Bayes-tétel kifejezésében), majd normalizálja az értékeket úgy, hogy összegük 1 legyen.

13.13.

Ez a feladat azt vizsgálja, hogy a feltételes függetlenség fennállása hogyan befolyásolja a valószínűségi becslésekhez szükséges információ mennyiségét.

  1. Tegyük fel, hogy P(he1,e2)-t szeretnénk kiszámítani úgy, hogy nincs feltételes függetlenségre vonatkozó információnk. Az alábbiak közül melyik az az adathalmaz, amelyikre a számításokhoz szükségünk van?

  1. P(E1, E2), P(H), P(E1H), P(E2H)

  2. P(E1, E2), P(H), P(E1,E2H)

  3. P(H), P(E1H), P(E2H)

  1. Tegyük fel, hogy tudjuk, hogy P(E1H, E2) = P(E1H), H, E1, E2 minden értékére. Hogyan változik az előbbi kérdésre adott válasz?

13.14.

X, Y és Z legyenek logikai véletlen változók. A P(X, Y, Z) együttes eloszlás nyolc lehetséges esetét jelöljük a, …, h-val. Fejezze ki az „X és Y adott Z mellett feltételesen függetlenek” állítást az a, …, h-t összekapcsoló egyenletek segítségével. Hány lesz ezek közül redundanciamentes?

13.15.

(A (Pearl, 1988)-ból átvéve.) Képzeljük el, hogy Ön egy éjszakai taxis cserbenhagyásos baleset tanúja Athénban. Athénban minden taxi kék vagy zöld. Ön azt vallja eskü alatt, hogy a taxi kék volt. Egy széles körű vizsgálat azt mutatja, hogy ilyen gyenge fényben a kék és zöld szín közötti tévesztés valószínűsége 75%. Kiszámítható-e, hogy milyen színű taxi volt a legvalószínűbb? (Segítség: gondosan különböztessük meg azt az állítást, hogy a taxi kék, és azt, hogy a taxi kéknek tűnik.)

Mi van akkor, ha minden 10 athéni taxiból 9 zöld?

13.16.

(A (Pearl, 1988)-ból átvéve.) Három fegyenc, A, B és C celláikba vannak zárva. Közismert, hogy egyiküket másnap ki fogják végezni, míg a másik kettő kegyelmet kap. Azt, hogy kit végeznek ki, csak a börtönigazgató tudja. A fegyenc egy kéréssel fordul a börtönőrhöz: „Legyen szíves, kérdezze meg az igazgatótól, hogy kit fognak holnap kivégezni, és a barátaim közül az egyiknek, B-nek vagy C-nek árulja el, hogy reggel kegyelmet fog kapni.” Az őr beleegyezik, majd később azzal jön vissza, hogy B-nek szólt a kegyelemről.

Mekkorák A esélyei a kivégzésre a történtek után? (Ne csak erőteljes kézlegyintéssel, hanem matematikailag megalapozottan válaszoljon.)

13.17.

Írja meg azt az általános, naiv Bayes-eloszlást használó algoritmust, amely alkalmas P(Oke) alakú keresések megválaszolására. Fel kell tételeznie azt is, hogy az e bizonyíték az érintett változók tetszőleges részhalmazához rendel értékeket.

13.18.

A szövegosztályozás olyan feladat, amely egy adott dokumentumot – a benne levő szöveg alapján – előre rögzített kategóriák valamelyikébe sorol be. Erre gyakran használnak naiv Bayes-modellt. Ezekben a modellekben a lekérdezés változója a dokumentumkategória és az „okozati” változók a nyelv egyes szavainak megléte vagy hiánya. Feltételezzük azt is, hogy a szavak egymástól függetlenül, a dokumentumkategóriára jellemző sűrűséggel jelennek meg a szövegekben.

  1. Magyarázza el pontosan, hogyan lehet egy ilyen modellt létrehozni, ha „tanító mintaként” adott egy, már osztályozott dokumentumhalmaz.

  2. Magyarázza el pontosan, hogyan történik egy új dokumentum besorolása.

  3. Elfogadható-e a függetlenség feltételezése? Részletezze.

13.19.

A wumpus világ vizsgálatánál abból a tényből indultunk ki, hogy a négyzetek a többi négyzet tartalmától függetlenül 0,2 valószínűséggel tartalmaznak csapdát. Ehelyett most tegyük fel, hogy az [1, 1]-en kívüli N négyzetben pontosan N/5 csapda van egyenletes eloszlásban véletlenszerűen elhelyezve. Függetlenek-e továbbra is a Ci,j és a Ck,l változók? Hogyan fog most kinézni a P(C1,1, …, C4,4) együttes eloszlás? Számolja újra az [1, 3] és a [2, 2] négyzetekben található csapda valószínűségét.