adj hozzá egyet simítás

Kapcsolódó fogalmak: 
unigram nyelvi modell
Kapcsolódó fogalmak: 
bigram modell
Kapcsolódó fogalmak: 
trigram nyelvi modell
Kapcsolódó fogalmak: 
simítás
Rövid szöveges bemutatás: 
A valószínűségi nyelvi modell (probabilistic language model) valószínűségi eloszlást definiál egy karakterfüzér-halmaz felett. Tehát meghatározza azokat valószínűségeket, hogy egy szó milyen eséllyes következik egy másik szó után a szavak egymás utáni előfordulási gyakoriságából. Létezik unigram, bigram, trigram modell is. Ennek a könyvnek a szókincse körülbelül 15 ezer különböző szót tartalmaz, tehát a bigram modell 15 000^2 = 225 millió szópárt tartalmaz (a pontos kiszámítási mód, a megfelelő modell lapján található). A szópárok nagy része azonban szinte 0% valószínűséggel fordul elő, de nem akarjuk, hogy a rendszer pontosan 0%-kal kezelje. Ezért szükségünk van valamilyen simításra (smoothing) a nulla gyakoriságok felett. A legegyszerűbb megoldás az adj-hozzá-egyet simítás (add-one smoothing): minden lehetséges bigram gyakoriságához hozzáadunk egyet. Azaz amennyiben N szó és B lehetséges bigram található, akkor minden c gyakoriságú bigramhoz egy (c + 1)/(N + B) értékű valószínűséget rendelünk. Ez a módszer megszünteti a nulla valószínűséget, de az a követelmény, hogy minden gyakoriságot pontosan eggyel kell növelni, kétséges, és rossz becslésekhez vezethet.