22.9. Összefoglalás

A természetes nyelv megértése az MI egyik legfontosabb részterülete. Ötleteket merít a filozófiából és a nyelvészetből, valamint a logikai programozás, valószínűségi tudásreprezentáció és a következtetés területének technikáiból is. Más MI-területektől eltérő módon a természetes nyelv megértése a tényleges emberi viselkedés empirikus vizsgálatát igényli – amely komplexnek és érdekesnek bizonyul.

  • Az ágensek jelzéseket küldenek egymásnak bizonyos célok elérése érdekében: informálni, figyelmeztetni, segítséget szerezni, tudást megosztani vagy megígérni valamit. A jelzések ily módon való küldését szólásaktusnak (speech act) nevezzük. Végső soron minden szólásaktus kísérlet arra, hogy egy másik ágens elhiggyen vagy megtegyen valamit.

  • A nyelv megállapodáson alapuló jelzésekből (signs) áll, melyek jelentést közvetítenek. Sok állat használ ilyen értelemben jelzéseket. Az ember tűnik az egyetlen állatnak, aki nyelvtant (grammar) használ strukturált üzenetek végtelen számú variációinak előállítására.

  • A kommunikáció három lépést igényel a beszélőtől, a szándékot egy elképzelés átadására, a szavak mentális előállítását és a szavak fizikai szintézisét. Ezek után a hallgatónak négy lépést kell végrehajtania: észlelés, analízis, többértelműség feloldása és a jelentés beépítése. Minden nyelvhasználat beágyazott (situated) abban az értelemben, hogy a megnyilatkozások jelentése függhet attól a szituációból, amiben előállnak.

  • A formális nyelvészet és a kifejezésstruktúra (phrase structure) nyelvtanok (különösen a környezetfüggetlen nyelvtan (context-free grammar)) hasznos eszközök a természetes nyelv egyes aspektusainak kezelésére.

  • Környezetfüggetlen nyelv mondatai O(n3) időben elemezhetők a diagramelemző (chart parser) segítségével.

  • Kézenfekvő egy nyelvtan kiterjesztése (augment) annak érdekében, hogy olyan problémákat kezeljünk, mint az alany–ige egyeztetése vagy a névmási esetek. A definit klóz nyelvtan (definite clause grammar, DCG) egy olyan formalizmus, amely lehetővé teszi a kiterjesztéseket. A DCG segítségével az elemzés és szemantikai értelmezés (sőt még a generálás is) logikai következtetés segítségével elvégezhető.

  • A szemantikus értelmezés (semantic interpretation) szintén kezelhető egy kiterjesztett nyelvtannal. Egy kvázilogikai forma jó közvetítő lehet a szintaktikai fák és a szemantika között.

  • A többértelműség (ambiguity) nagyon fontos probléma a természetes nyelv megértésében; a mondatok többségének több lehetséges értelmezése van, de általában csak egy megfelelő. A többértelműség feloldása a világról, az adott szituációról és a használt nyelvről szóló tudáson alapszik.

  • A legtöbb nyelv több mondat kontextusában létezik, nem csak egyben. A szövegértés (discourse) a kapcsolódó szövegek vizsgálata. Láttuk, hogyan oldjunk fel mondatok közötti névmási utalásokat, és a mondatok hogyan kapcsolódnak koherens szegmensekké.

  • A nyelvtan indukciós (grammar induction) tanulása példákból tud nyelvtant tanulni, bár vannak határai annak, hogy a nyelvtan milyen jól általánosít.

22.9.1. Irodalmi és történeti megjegyzések

A jelek és szimbólumok mint nyelvi elemek tanulmányozását John Locke (1690) jeltudománynak (semiotics) nevezte, bár a 20. századig nem művelték (Peirce, 1902; De Saussure, 1993). A legutóbbi áttekintő munkák között van Eco (Eco, 1979) és Cobley (Cobley, 1997) műve.

A nyelv mint cselekvés ötlete a 20. századi nyelvészeti beállítottságú filozófiából ered (Wittgenstein, 1953; Grice, 1957; Austin, 1962), leginkább a Speech Acts c. könyvből (Searle, 1969). A szólásaktus ötletének előfutára Protagorasz négyféle mondatkategóriája volt: ima, kérdés, válasz és ítélet (kb. i. e. 430-ból). A szólásaktusok tervalapú modelljét először Cohen és Perrault (Cohen és Perrault, 1979) javasolta. A nyelv cselekvéshez kapcsolását tervfelismerés segítségével történetek megértéséhez Wilensky tanulmányozta (Wilensky, 1983). Cohen, Morgan és Pollack (Cohen, Morgan és Pollack, 1990) gyűjt össze újabb munkákat e területen.

A szemantikus hálókhoz hasonlóan a környezetfüggetlen nyelvtanok (amelyek kifejezésstruktúra nyelvtanokként is ismertek) a sásztra szanszkrit nyelvet tanulmányozó ősi indiai nyelvészek (különösen Pánini, kb. i. e. 350) által használt technika felelevenítései (Ingerman, 1967). A modern időkben Noam Chomsky fedezte fel újra őket az angol szintaxis elemzésére (Chomsky, 1956), és tőle függetlenül John Backus az Algol-58 szintaxis analízisére használta. Naur kiterjesztette Backus jelölésrendszerét (Naur, 1963), ma pedig őhozzá rendelik az „N” betűt a BNF-ben, ami eredetileg a Backus Normál Forma volt (Backus Normal Form) (Backus, 1996). Knuth egyfajta kiterjesztett nyelvtant definiált, amelyet attribútumnyelvtannak (attribute grammar) nevezünk, és programozási nyelvek esetén hasznos (Knuth, 1968). A definit klóz nyelvtanokat Colmerauer vezette be (Colmerauer, 1975), majd Pereira és Warren fejlesztette tovább és népszerűsítette (Pereira és Warren, 1980). A Prolog programozási nyelvet Alain Colmerauer találta ki, elsősorban a francia nyelv elemzésének problémájára. Colmerauer voltaképpen kidolgozott egy metamorfózis-nyelvtannak (metamorphosis grammar) nevezett formalizmust, amely továbbment a definit klózoknál, de a DCG hamarosan követte.

Számos kísérlet volt természetes nyelvek formális nyelvtanának leírására, mind a „tiszta”, mind a számítógépes nyelvészetben. A gépek számára készült nyelvtanok között van a New York University Linguistic String projektje (Sager, 1981) és a University of Pennsylvania XTAG projektje (Doran és társai, 1994). A modern DCG-rendszerek jó példája a Core Language Engine (Alshawi, 1992). Több átfogó, de nem formális nyelvtan létezik az angol nyelvről (Jespersen, 1965; Quirk és társai, 1985; McCawley, 1998; Huddleston és Pullum, 2002). A nyelvészetről szóló jó jegyzetek között van a (Sag és Wasow, 1999) bevezetése a szintaxisba, valamint a (Chierchia és McConnell-Ginet, 1990; Heim és Kratzer, 1998) szemantikáról szóló jegyzetek. McCawley nyelvészek számára szóló anyaga a logikára koncentrál (McCawley, 1993).

A nyolcvanas évek közepétől létező trend szerint egyre több információt tesznek a szókincsbe és kevesebbet a nyelvtanba. A lexikai-funkcionális nyelvtan (lexical-functional grammar), avagy LFG (Bresnan, 1982) volt az első jelentős nyelvtani formalizmus, amihez nagy szókincset gyűjtöttek. Ha a szélsőségig fokozzuk a lexikalizálást, akkor a kategorikus nyelvtant (categorial grammar) kapjuk, amelyben lehet, hogy csak két nyelvtani szabály van, vagy a függőségi nyelvtant (dependency grammar) (Melc´uk és Polguere, 1988), amelyben nincsenek kifejezések/frázisok, csak szavak. Sleator és Temperley leír egy függőségi nyelvtant használó népszerű elemzőt (Sleator és Temperley, 1993). A TAG, avagy Tree-Adjoining Grammar (Joshi, 1985) nem szigorúan lexikális, de nő a népszerűsége lexikalizált alakban is (Schabes és társai, 1988). A Wordnet (Fellbaum, 2000) egy körülbelül 100 000 szót és kifejezést tartalmazó szabadon elérhető szótár, melyet a beszéd részei szerint kategorizáltak, és olyan szemantikai relációkkal egészítettek ki, mint például a szinonima, antonima és része.

Az első gépesített elemző algoritmusokat Yngve mutatta be (Yngve, 1955). Hatékony algoritmusokat a hatvanas évek végén fejlesztettek ki, néhány kisebb újítással azóta (Kasami, 1965; Younger, 1967; Graham és társai, 1980). A diagramelemzőnk Early rendszeréhez áll a legközelebb (Early, 1970). Egy jó összefoglaló Aho és Ullman elemzésről és fordításról szóló tanulmányában található (Aho és Ullman, 1972). Maxwell és Kaplan mutatja meg, hogy a kiterjesztett diagramelemző algoritmus hogyan tehető hatékonnyá az átlagos esetekben (Maxwell és Kaplan, 1993). Church és Patil foglalkozik a szintaktikai többértelműség feloldásával (Church és Patil, 1982).

A természetes nyelvek formális szemantikai értelmezése a filozófiából és a formális logikából ered, és különösen szorosan kapcsolódik Alfred Tarskinak a formális nyelvek szemantikájáról szóló munkájához (Tarski, 1935). Bar-Hillel volt az első, aki a pragmatikai elemzés problémáját áttekintette, és azt javasolta, hogy formális logikával kezeljék. Például bevezette C. S. Pierce referenciális index (indexical) fogalmát a nyelvészetben (Bar-Hillel, 1954). Richard Montague esszéje, az „English as a formal language” a nyelv logikai analízisének egyfajta manifesztuma (Montague, 1970), azonban Dowty és társainak könyve (Dowty és társai, 1991), valamint Lewis cikke (Lewis, 1972) sokkal olvasmányosabb. Thomason szerkesztette Montague munkáinak teljes kollekcióját (Thomason, 1974). A mesterséges intelligenciában McAllester és Givan munkája folytatja a montague-i hagyományt sok új technikai részlet megvilágításával (McAllester és Givan, 1992).

Egy közbülső, avagy kvázilogikai forma ötlete a kvantorok érvényességi köréhez hasonló problémák kezelésére Woodsig nyúlik vissza (Woods, 1978), és sok jelenlegi rendszerben is megtalálható (Alshawi, 1992; Hwang és Schubert, 1993).

Az első valódi feladatot megoldó NLP-rendszer valószínűleg a BASEBALL kérdésválaszoló rendszer volt (Green és társai, 1961), amely baseball-statisztikák adatbázisával kapcsolatos kérdéseket kezelt. Nem sokkal utána következett Woods LUNAR rendszere, amely az Apolló program által visszahozott kövekkel kapcsolatos kérdéseket válaszolt meg (Woods, 1973). Robert Schank és hallgatói több programot is készítettek (Schank és Abelson, 1977; Wilensky, 1978; Schank és Riesbeck, 1981; Dyer, 1983), amelyek mindegyikének a nyelv megértése volt a feladata. A hangsúly azonban kevésbé volt magán a nyelven, sokkal inkább a reprezentáción és következtetésen. A problémák között volt a sztereotip szituációk reprezentálása (Cullingford, 1981), az emberi memóriaszervezés leírása (Rieger, 1976; Kolodner, 1983), valamint tervek és célok megértése (Wilensky, 1983).

A természetes nyelv generálását az ötvenes években, a gépi fordítás legelső napjaitól kezdve figyelembe vették, de a hetvenes évekig nem merült fel egynyelvű problémaként. Simmons és Slocum (Simmons és Slocum, 1972), valamint Goldman (Goldman, 1975) munkája reprezentatív. A PENMAN (Bateman és társai, 1989) volt az első teljes generáló rendszer, amely a Szisztematikus Nyelvtanra (Systematic Grammar) (Kasper, 1988) épült. A kilencvenes években két fontos szabadon elérhető generáló rendszer vált elérhetővé, a KPML (Bateman, 1997) és a FUF (Elhadad, 1993). A generálásról szóló fontos könyvek között szerepel (McKeown, 1985; Hovy, 1988; Patten, 1988; Reiter és Dale, 2000).

A többértelműség feloldásával foglalkozó egyik legkorábbi munka Wilks elmélete a preferenciaszemantikáról (preference semantics) (Wilks, 1975), amelyik azokat az értelmezéseket próbálta megtalálni, amik minimalizálják a szemantikai anomáliák számát. Hirst egy olyan hasonló célú rendszert ír le, amelyik közelebb van a fejezetben ismertetett kompozíciós szemantikához (Hirst, 1987). Hobbs és társai a szintaktikai és szemantikai reprezentáció minőségét mérő kvantitatív keretrendszert írnak le (Hobbs és társai, 1993). Azóta a Bayes-hálók használata vált elterjedtebbé (Charniak és Goldman, 1992; Wu, 1993). A nyelvészetben az optimalitás elmélete (Kager, 1999) a puha kényszerek nyelvtanba építésén alapszik, amely természetes súlyt ad az értelmezéseknek ahelyett, hogy a nyelvtan az összes lehetőséget egyforma súllyal generálná. Norvig tárgyalja azokat a problémákat, amelyek egy maximálisan valószínű értelmezés helyett több párhuzamos értelmezés figyelembevételéből adódnak (Norvig, 1988). Az irodalmi kritika nem egyértelmű a tekintetben, hogy a többértelműség megoldandó probléma vagy üdvözlendő dolog (Empson, 1953; Hobbs, 1990).

Nunberg a metonímia (metonymy) formális modelljét vázolja (Nunberg, 1979). Lakoff és Johnson az angol nyelv gyakori metaforáit katalogizálja és magával ragadó módon elemzi (Lakoff és Johnson, 1980). Ortony metaforáról szóló cikkgyűjteményt mutat be (Ortony, 1979); Martin a metafora értelmezésének számítógépes megközelítését adja meg (Martin, 1990).

Az utalásfeloldás általunk bemutatott kezelése a (Hobbs 1978)-at követi. A (Lappin és Leass, 1994) által bemutatott összetettebb megoldás egy kvantitatív pontozási módszeren alapszik. Újabb munkák (Kehler, 1997; Ge és társai, 1998) gépi tanulást használnak a kvantitatív paraméterek hangolására. Az utalásfeloldásról szóló két kitűnő áttekintés Hirst és Mitkov könyvei (Hirst, 1981; Mitkov, 2002).

1758-ban David Hume Enquiry Concerning the Human Understanding c. műve amellett érvelt, hogy a nyelvi szövegeket „három, az elgondolások közötti kapcsolatokat leíró elv köti/fogja össze, nevezetesen a Hasonlóság, az idő- vagy térbeli Összefüggés és az Ok vagy Okozat”. Így kezdődött a koherenciarelációk meghatározásának hosszú története. Hobbs (Hobbs, 1990) adja meg nekünk a fejezetben használt halmazt; Mann és Thompson (Mann és Thompson, 1983) egy jobban kifejtett halmazt nyújt, amely magában foglalja a következőket: megoldás-összetartozás, bizonyíték, igazolás, motiváció, következtetés, sorozat, engedélyezés, kidolgozás, újrafogalmazás, feltétel, körülmény, ok, engedmény, háttér, valamint tézis-antitézis. Ez a modell fejlődött a retorikai struktúra elméletté (rhetorical structure theory, RST), amely valószínűleg napjaink legkiemelkedőbb elmélete (Mann és Thompson, 1988). Ez a fejezet átvesz egyes példákat (Jurafsky és Martin, 2000) Andrew Kehler által írt fejezetéből.

Grosz és Sidner bemutat egy fókuszeltoláson alapuló szövegkoherencia-elméletet (Grosz és Sidner, 1986), és a (Grosz és társai, 1995) egy középpontba állításon alapuló hasonló elméletet kínál. Joshi, Webber és Sag fontos korai munkákat gyűjt össze a szövegértésről (Joshi, Webber és Sag, 1981). Webber bemutatja olyan szintaxis- és szövegkényszerek egymással kapcsolatban álló modelljét, amely kényszerek a szöveg egy adott pontján állítható dolgokra vonatkoznak (Webber, 1983), továbbá bemutatja az igeidők és a szöveg kölcsönhatási módjának modelljét (Webber, 1988).

Az első fontos eredmény a nyelvtan indukciós (grammar induction) tanulásának területén egy negatív eredmény volt: Gold (Gold, 1967) megmutatta, hogy nem lehetséges megbízhatóan egy helyes környezetfüggetlen nyelvtan megtanulása annak szövegei alapján. Az ötlet lényege szerint ha adott egy s1, s2, … sn füzérhalmaz, akkor a helyes nyelvtan lehet a mindent magába foglaló (Sword*), vagy a bemenet másolata, az (Ss1 | s2 || sn), vagy bármi a kettő között. Jeles nyelvészek, mint például Chomsky (Chomsky, 1957; 1980) és Pinker (Pinker, 1989; 2000) felhasználták Gold eredményeit annak megmutatására, hogy lennie kell egy öröklött univerzális nyelvtannak (universal grammar), amellyel minden gyermek születésénél fogva rendelkezik. Az úgynevezett Ingerszegénység (Poverty of the Stimulus) érvelés szerint a gyerekeknek nincs más nyelvi példájuk, mint pozitív: szüleik és társaik nyelvük legtöbbször pontos példáit állítják elő, és igen ritkán javítanak ki hibákat. Ezért, mivel Gold bebizonyította, hogy pozitív példákból nem lehet CFG-t tanulni, a gyerekeknek már „tudniuk” kell a nyelvtant, és pusztán ezen öröklött nyelvtan paramétereit állítják, illetve a szókészletet tanulják. Bár ez az érvelés még befolyással bír a Chomskyt követő nyelvészek körében, egyes nyelvészek (Pullum, 1996; Elman és társai, 1997) és a legtöbb számítástudománnyal foglalkozó elvetette. Igen hamar, már 1969-ben Horning megmutatta, hogy meg lehet tanulni PAC értelemben egy valószínűségi környezetfüggetlen nyelvtant. Azóta számos meggyőző, kizárólag pozitív példákból tanuló empirikus demonstráció jelent meg, mint például Mooney, illetve Muggleton és De Raedt ILP-munkái (Mooney, 1999; Muggleton és De Raedt, 1994), valamint Schütze és de Marcken emlékezetes PhD-értekezései (Schütze, 1995; de Marcken, 1996). Más nyelvtani formalizmusok, mint például a reguláris nyelvek (Oncina és Garcia, 1992; Denis, 2001), reguláris fa nyelvek (Carrasco és társai, 1998), valamint a véges automaták (Parekh és Honavar, 2001) tanulása is lehetséges.

A SEQUITUR-rendszert Nevill-Manning és Witten készítette (Nevill-Manning és Witten, 1997). Érdekes, hogy ők, valamint de Marcken is megjegyezte, hogy nyelvtant kikövetkeztető megoldásaik tömörítésre is jól használhatók. Ez összhangban van a minimális leíró hosszúság kódolásának elvével: egy jó nyelvtan olyan, amely minimalizál két méretet: a nyelvtan és a szövegek elemzési fájának nagyságát.

A nyelv tanulására szolgáló induktív logikai programozási munkák között van a CHILL rendszer (Zelle és Mooney, 1996), valamint Mooney és Califf programja (Mooney és Califf, 1995), amely jobban tanult igék múlt idejű alakjára vonatkozó szabályokat, mint a korábbi neurális hálók és a döntési fa rendszerek. Cussens és Džeroski több cikkgyűjteményt is szerkesztett, amelyek a nyelvtanulásról szóltak a logikában (Cussens és Dzeroski, 2000).

Az Association for Computational Linguistics (ACL) rendszeresen rendez konferenciákat, és kiadja a Computational Linguistics folyóiratot. Ezenkívül van egy nemzetközi konferencia a témában, az International Conference on Computational Linguistics (COLING). A Readings in Natural Language Processing (Grosz és társai, 1986) a terület sok fontos korai cikkét tartalmazó antológia. A (Dale és társai, 2000) az NLP-rendszerek építésére szolgáló gyakorlati eszközökre helyezi a hangsúlyt. Jurafsky és Martin jegyzete alapos bevezetőt nyújt a területhez (Jurafsky és Martin, 2000). Az (Allen, 1995) egy kicsit régebbi munka. Pereira és Sheiber, valamint Covington Prolog-implementációkon alapuló tömör áttekintést ad (Pereira és Sheiber, 1987; Covington, 1994). Az Encyclopedia of AI-ben sok hasznos cikk található a területről; kiemelendő a „Computational Linguistics” és a „Natural Language Understanding”.

22.9.2. Feladatok

22.1.

Olvassa el az alábbi szöveget egyszer, és próbáljon meg amennyit csak lehet megjegyezni belőle. Később lesz egy teszt.

Az eljárás valójában igen egyszerű. Először különböző csoportokba rendezi a dolgokat. Természetesen egy halom elegendő lehet attól függően, hogy mennyi teendő van. Ha valahova máshova kell mennie a felszerelés hiánya miatt, akkor az a következő lépés, különben már nagyjából előkészült. Fontos, hogy ne vigye túlzásba a dolgot. Ez azt jelenti, hogy jobb egyszerre kevesebbel foglalkozni, mint többel. Rövid távon ez nem tűnhet fontosnak, de könnyen jelentkezhetnek komplikációk. A hiba is költséges. Első ránézésre a teljes eljárás bonyolultnak tűnik. Azonban hamarosan az élet megszokott dolgává válik. Nehéz a feladat szükségességének bármilyen elmúlását is előre látni, de sosem lehet tudni. Miután az eljárás befejeződött, ismét különböző csoportokba kell rendezni az anyagokat. Ezek után a megfelelő helyükre pakolhatók a dolgok. Végső soron újra használni fogják őket, és a teljes ciklust meg kell majd ismételni. Mindazonáltal, ez az élet velejárója.

22.2.

Írjon egy nyelvtant a DCG-jelölésrendszerrel, amely ugyanolyan, mint az ℰ1, azzal a kivétellel, hogy kikényszeríti a mondat alanya és igéje közötti egyeztetést, így nem állítja elő az „I smells the wumpus”-t!

22.3.

Terjessze ki az ℰ1 nyelvtant úgy, hogy kezelje a névelő-főnév egyeztetéseket! Azaz biztosítsa, hogy az „agents” NP, de az „agent” és az „an agents” nem az!

22.4.

Foglalja össze a legfontosabb különbségeket a Java (vagy bármely más számítógépes nyelv, amelyet ismer) és a magyar között, megjegyezve a „megértés” problémáját mindkettőre! Gondoljon olyan dolgokra, mint a nyelvtan, a szintaxis, a szemantika, a pragmatikus elemzés, az összetételek, a környezetfüggőség, a lexikális többértelműség, a szintaktikai többértelműség, az utalások megtalálása (a névmásokat is ideértve), a háttértudás és leginkább arra, hogy mit is jelent „megérteni”.

22.5.

Melyek indokolják a következők közül a kvázilogikai forma bevezetését?

  1. Könnyebben leírható egyszerű összetételes nyelvtani szabályok.

  2. A szemantikai leíró nyelv kifejezőképességének kiterjesztése.

  3. A kvantorok érvényességi köre többértelműségének (többek között) tömör formában történő ábrázolása.

  4. A szemantikai egyértelműsítés egyszerűbbé tétele.

22.6.

Határozza meg, hogy az ebben a fejezetben található nyelvtan alapján milyen szemantikai értelmezés adható a következő mondatokhoz:

  1. It is a wumpus.

  2. The wumpus is dead.

  3. The wumpus is in 2,2.

Jó ötlet lenne az „It is a wumpus” szemantikai értelmezésének egyszerűen a ∃x x Wumpuses? Fontoljon meg alternatív mondatokat, mint például az „It was a wumpus”.

22.7.

Anélkül hogy megnézné a 22.1. feladatot, válaszolja meg a következő kérdéseket:

  1. Mi a négy említett lépés?

  2. Melyik lépés maradt ki?

  3. Mi az „az anyag”, amit a szöveg említ?

  4. Milyen hiba lenne drága?

  5. Jobb túl keveset, vagy túl sokat tenni? Miért?

22.8.

Ez a gyakorlat nagyon egyszerű nyelvek nyelvtanaival foglalkozik.

  1. Írjon egy környezetfüggetlen nyelvtant az anbn nyelv számára!

  2. Írjon egy környezetfüggetlen nyelvtant a tükörmondatok (palindroma) számára: az összes olyan füzérre, amelyek második fele épp az első fél tükörképe!

  3. Írjon egy környezetfüggő nyelvtant a duplázó nyelv számára: az összes olyan füzérre, amelyek második fele megegyezik az első felével.

22.9.

Vizsgálja meg a „Someone walked slowly to the supermarket (Valaki lassan a szupermarkethez sétált)” mondatot és az alábbi szókincset:

Pronoun someone

Vwalked

Adv slowly

Prep to

Det the

Noun supermarket

A következő átíró szabályhalmazok melyike állítja elő a fenti mondatot az előbbi szókincset használva? Adja meg a megfelelő elemzési fá(ka)t!

(A):

(B):

(C):

SNP VP

SNP VP

SNP VP

NPPronoun

NPPronoun

NPPronoun

NPDet Noun

NPNoun

NPDet NP

VPVP PP

NPDet NP

VPV Adv

VPVP Adv Adv

VPV Vmod

AdvAdv Adv

VP V

Vmod Adv Vmod

Adv PP

PPPrep NP

VmodAdv

PPPrep NP

NPNoun

AdvPP

NPNoun

 

PPPrep NP

 

Írjon három szintaktikailag helyes és három helytelen angol mondatot, amelyet a három előbbi nyelvtan állít elő! Lényegében különbözzenek egymástól, legalább hat szó hosszúak legyenek, és egy teljesen új szókincsre kell épülniük (amit lehetőleg Ön határozzon meg). Javasoljon mindhárom nyelvtanra olyan újítást, amely elkerüli a nem helyes mondatok előállítását!

22.10.

Valósítsa meg a diagramelemző algoritmus egy olyan változatát, amely a teljes bemenetet lefedő összes él tömörített fáját adja vissza!

22.11.

Valósítsa meg a diagramelemző algoritmus egy olyan változatát, amely a leghosszabb bal oldali él tömörített fáját adja vissza, és amennyiben ez az él nem fedi le a teljes fát, folytatja az elemzést annak az élnek a végén! Mutassa meg, hogy miért lesz szükség a PREDICT eljárás meghívására a folytatás előtt! A végeredmény tömörített fák egy olyan listája, ahol a teljes lista lefedi a bemenetet.

22.12.

(Barton és társai, 1987) alapján. Ez a gyakorlat az általunk Buffalon-nek nevezett nyelvvel foglalkozik, ami nagyon hasonlatos az angolhoz (legalábbis az ℰ0-hoz), azzal a kivétellel, hogy a szókincsben csak egy szó található: a buffalo. Íme, két mondat a nyelvből:

Buffalo buffalo buffalo Buffalo buffalo.

Buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo.

Arra az esetre, ha nem hinné el, hogy ezek mondatok, álljon itt két angol mondat ugyanezzel a szintaktikai struktúrával:

Dallas cattle bewilder Denver cattle.

Chefs London critics admire cook French food.

Írjon egy nyelvtant a Buffalon számára! A lexikális kategóriák a város, a többes számú főnév és a (tranzitív) ige, és egy szabálynak kell lennie a mondat, egynek az igei kifejezés és háromnak a következő főnévi kifejezések számára: többes számú főnév, főnévi kifejezés, amelyet a város mint módosító előz meg, és főnévi kifejezés, amelyet redukált relatív klóz követ. A redukált relatív klóz egy olyan klóz, amelyből hiányzik a relatív névmás. Emellett a klóz egy alanyi főnévi kifejezést követő tárgy nélküli igéből áll. Egy példa a redukált relatív klózra a „London critics admire” a fenti példában. Foglalja táblázatba a Buffalon lehetséges elemzéseinek számát n = 1…10-re! Külön pontért: Carl de Marcken kiszámolta, hogy 121 030 872 213 055 59 681 184 485 olyan Buffalon mondat van, amely 200 hosszú (az általa használt nyelvtanra). Hogyan csinálta?

22.13.

Rajzolja fel a 22.7.2. szakasz - Egy koherens szöveg struktúrája részben található „John egy elegáns étterembe megy” történet szövegelemzési fáját! Használja a Segment-re vonatkozó két szabályt, megadva a helyes CoherenceRelation-t mindent egyes csomópontra! (Nem kell az egyes mondatok elemzéseit megmutatnia.) Most tegye meg ugyanezt egy Ön által választott tetszőleges 5–10 mondat hosszúságú szövegre!

22.14.

Elfelejtettük megemlíteni, hogy a 22.1. feladat szövegének címe: „Ruhamosás”. Olvassa újra a szöveget, és válaszolja meg a 22.7. feladat kérdéseit újra! Ezúttal jobban ment? Bransford és Johnson (1973) ezt a szöveget használta egy jobban ellenőrzött kísérletben, és azt tapasztalta, hogy a cím sokat segített. Mit mond ez Önnek a szövegértésről?