Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo .IN009 - Strojový překlad Pravidlový strojový překlad Vít Baisa jaro 2012 10. dubna 2013 Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika •ooooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Rozdělení systémů Úvod O Úvod Q Tokenizace Q Morfologická rovina Q Lexikální rovina Q Syntaktická rovina Q Sémantika a logika Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika o«oooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Rozdělení systémů Úvod Rule-based Machine Translation - RBMT • lingvistické znalosti formou pravidel • pravidla pro analýzu • pravidla pro převod struktur mezi jazyky • pravidla pro syntézu Knowledge-based Machine Translation - KBMT • systémy využívající znalosti o jazyce • obecnější pojem Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oo»ooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Rozdělení systémů Knowledge-based MT • je důležité správně analyzovat kompletní význam zdrojového textu • ne ovšem totální význam (všechny konotace, explicitní a implicitní informace) • dříve spíše význam systému využívajícího interlinguu • zde jako ekvivalent pravidlového systému Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika ooo»oooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Rozdělení systémů Rozdělení systémů KBMT • přímý překlad • direct translation • nejstarší, 1 krok - transfer • Georgetown experiment, METEO • zájem o něj rychle opadl • systémy používající interlinguu • interlingua-based • dva kroky - analýza, syntéza • Rosetta, KBMT-89 • transferové systémy • tři kroky (+ transfer) • PC Translator Do 90. let pouze tyto dva typy systémů. Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooo»ooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Rozdělení systémů Systém přímého překladu • hledají se korespondence mezi zdrojovými a cílovými jazykovými jednotkami (slovy) • první pokusy s překladem EN-RU • všechny složky jsou striktně omezeny na konkrétní jazykový pár • typicky se skládá z velkého překladového slovníku a a monolitického programu řešícího analýzu a syntézu • nutně dvojjazyčné a jednosměrné • pro překlad mezi N jazyky potřebujeme N x (N - 1) přímých dvojjazyčných systémů / modulů Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika ooooo»oo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Rozdělení systémů Přístup pomocí interlinguy • předpokládá, že je možné SL konvertovat do sémanticko-syntaktické reprezentace, která je (částečně) nezávislá na jazyku • interlingua musí být jednoznačná (unambiguous) • z této podoby (interlingua) je generován TL • analýza SL je jazykově závislá, ale nezávislá na TL • analogicky syntéza TL • SL a TL nepřijdou do styku • pro překlad mezi N jazyky potřebujeme 2 x N modulů Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooo»o ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Rozdělení systémů Transferové systémy strojového překladu • provede se analýza po jistou úroveň • transferová pravidla převedou zdrojové jednotky na cílové • ne nutně na stejné úrovni • převod na (nejčastěji) syntaktické úrovni dovoluje zavádět kontextová omezení u přímých překladů nedostupná • na cílové straně se pak generuje cílový řetězec • systém linearizace • při hlubší analýze dochází ke stírání rozdílů mezi interlingua-based a transfer-based systémy • značná část obou systémů se může překrývat Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika 0000000» ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Rozdělení systémů Úvod Tokenizace oooooooo »oo Morfologická rovina ooooooooooooooooo Lexikální rovina Syntaktická rovina Sémantika a logika ooooooooooooooooooooooooooooooooo ooooooooooooo Od řetězce ke slovu Tokenizace o Úvod e Tokenizace e Morfologická rovina o Lexikální rovina e Syntaktická rovina o Sémantika a logika Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo omo Od řetězce ke slovu Tokenizace Co to je? • rozdělení vstupního řetězce do tokenů • token = řetězec znaků • výstup tokenizace = seznam tokenů • slouží jako vstup pro další zpracování • označení hranic vět Problémy • don't: do_n't, do_n_'t, don_'t, ? • červeno-černý: červeno_-_černý, červeno-černý, červeno-_černý « Zeleninu jako rajče, mrkev atd. ^fPetr nemá rád. • Složil zkoušku a získal titul Mgr. ^[Petr mu dost záviděl. Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo oo« ooooooooooooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Tokenizace - jak se to dělá? V drtivé většině případů heuristika, (unitok.py) Dělení na tokeny « pro jazyky používající hlásková písma: dělení podle mezer a a podle dalších interpunkčních znamének • ?!.,-()/:; Dělení na věty • MT v naprosté většině případů pro věty • u plaintextu: podle seznamu interpunkčních znamének • problém: Měl jsem 5 (sic!) poznámek. • výjimky: zkratky (aj., atd., etc), tituly (RNDr., prof.) • někdy (HTML) lze využít strukturní značky Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO «0000000000000000 ooooooooooooooooooooooooooooooooo ooooooooooooo Úvod Morfologická rovina O Úvod Q Tokenizace Q Morfologická rovina Q Lexikální rovina Q Syntaktická rovina O Sémantika a logika Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo o»ooooooooooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Úvod Morfologická rovina « druhé patro v překladovém trojúhelníku • je nutné eliminovat obrovský počet slovních variant • převod slovní formy na základní tvar give, gives, gave, given, giving give dělá, dělám, dělal, dělaje, dělejme,... ->• dělat • analýza gramatických kategorií slovních tvarů dělali ->• dělat + minulost + průběh + plurál + 3. osoba did ^ do + minulost + dokonavost + osoba ? + číslo ? Robertovým Robert + pád ? + adjektivum + číslo ? Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO 00*00000000000000 ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologická analýza Morfologická analýza • pro každé slovo získáme základní tvar, gramatické kategorie, případně segmentaci • Co je to základní slovní tvar? Lemma. • jména: singulár, nominativ, positiv, maskulinum • bycha ->- bych?, nejpomalejšími ->- pomalý neschopný ->• schopný? • slovesa: infinitiv • neraď^ radit?, bojím se ->• bát (se) • Proč infinitiv? nejčastější tvar slovesa • lemma souvisí s rozsahem/obsahem použitého slovníku Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO 000*0000000000000 ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologická analýza Morfologické značky, tagset • silně závislé na jazyce (různé morfologické kategorie) « brněnský atributový systém: dvojice kategorie-hodnota maminkou kigFnScľ Udělány k5eAaPmNgFnP • pražský poziční systém: 16 pevných pozic kontury ->• NNFPl-----a---- zdajíc VB-P—3P-aa— a Treebank tagset (angličtina): omezená množina značek f aster ->• rbr doing ->• vbg • a další (němčina) gigantische adja . ad ja . Pos. Acc. Sg. Fem erreicht ->• WPP. vpp . Fuli. Psp Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO 0000*000000000000 ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologická disambiguace Problém s víceznačností • v mnoha případech: více morfologických značek • víceznačnost mezi slovními druhy (více lemmat) jednou ->• k4gFnSc7, k6eAdl, k9 Ženu klgFnSc4, k5eAaImIplnS • víceznačnost v rámci slovního druhu • typicky (čeština): nominativ = akuzativ víno klgNnScl, klgNnSc4, ... odhalením 10 značek Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO 00000*00000000000 ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologická disambiguace Morfologická disambiguace a nutno vybrat jednu značku a jedno lemma • ke slovu přichází morfologická disambiguace a nástroj tagger a překladová víceznačnost je něco jiného pubblico Öffentlichkeit, Publikum, Zuschauer • drtivá většina metod využívá kontext • okolní slova a jejich značky Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo oooooo»oooooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologická disambiguace Statistická disambiguace • nejpravděpodobněji posloupnost značek Ženu je domů. k5|kl, k3|k5, k6|kl Mladé muže gF|gM, nS|nP a těžká situace: dítě škádlí lvíče a strojové učení na ručně značkovaných datech • různé metody: Brill, TreeTagger • pro češtinu: Desamb (hybridní) • je nutné mít k dispozici trénovací data (korpus) Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO 0000000*000000000 ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologická disambiguace Pravidlová disambiguace • pokud není k dispozici anotovaný korpus - nutné • pravidla vyžadují dobrou znalost jazyka • většinou se používá jako filtr před použitím statistického taggeru • pravidla mohou zachytit širší kontext • typicky: shoda v pádu, čísle a rodu ve jmenných frázích malému (c3,gIMN) Chlapci(nPcl57, nSc36, gM) • sofistikovanější: valenční struktura věty valence: vidět koho/co vidím stůl c4 • systémy DIS, VaDIS Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo oooooooo»oooooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologická segmentace Morfologická segmentace • proč místo lemmatu (např. infinitiv) nepoužít kořen slova? • existují i systémy, které provádí segmentaci automaticky na základě seznamu slov pro daný jazyk • problém: mít, měj, mám, měl, mívá,... - různé podoby téhož morfému • problém: /', ové, a, y- stejná gramatická funkce, různé morfémy • bychom bych? • gramatické kategorie mají konkrétní formu (gramémy) nad-měr-ný, ne-patr(n)-ně, vid-ím, ne-chci, čtyř-i-cet, po-po-sun-out, u-děl-al-i • nutné pokud nemáme morfologický analyzátor k dispozici Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologie - závěrem slovo analýzy disambiguace Pravidelné k2eAgMnPc4d1, k2eAglnPc1d1, k2eAglnPc4d1, k2eAglnPc5d1, k2eAgFnSc2d1, k2eAgFnSc3d1, k2eAgFnSc6d1, k2eAgFnPc1d1, k2eAgFnPc4d1, k2eAgFnPc5d1, k2eAgNnSc1d1, k2eAgNnSc4d1, k2eAgNnSc5d1, ... (+5) k2eAgNnSc1d1 krmení k2eAgMnPc1d1, k2eAgMnPc5d1, klgNnSd, k1gNnSc4, k1gNnSc5, k1gNnSc6, k1gNnSc3, k1gNnSc2, k1gNnPc2, klgNnPd, k1gNnPc4, k1gNnPc5 klgNnSd je k5eAalmlp3nS, k3p3gMnPc4, k3p3glnPc4, k3p3gNnSc4, k3p3gNnPc4, k3p3gFnPc4, kO k5eAalmlp3nS pro k7c4 k7c4 správny k2eAgMnSc1d1, k2eAgMnSc5d1, k2eAglnSc1d1, k2eAglnSc4d1, k2eAglnSc5d1, ... (+18) k2eAglnSc4d1 růst k5eAalmF, klglnSd, k1glnSc4 k1glnSc4 důležité k2eAgMnPc4d1, k2eAglnPc1d1, k2eAglnPc4d1, k2eAglnPc5d1, k2eAgFnSc2d1, k2eAgFnSc3d1, k2eAgFnSc6d1, k2eAgFnPdd1, k2eAgFnPc4d1, k2eAgFnPc5d1, k2eAgNnSc1d1, k2eAgNnSc4d1, k2eAgNnSc5d1, ... (+5) k2eAgNnSc1d1 Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo oooooooooo»oooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologie - závérem Universal POS tags Počet značek se v různých jazycích značně liší snaha o zjednodušení. TAG význam VERB verbs (all tenses and modes) NOUN nouns (common and proper) PRON pronouns ADJ adjectives ADV adverbs ADP adpositions (prepositions and postpositions) CONJ conjunctions DET determiners NUM cardinal numbers PRT particles or other function words X other: foreign words, typos, abbreviations punctuation Vytvořeno mapování pro cca 25 jazyků s tree banky. Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooo#ooooo ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologie - závěrem Odhadování POS na základě gramémů EN CZ význam -s -á 3. os., j. č., přít. -ed -al, -1, -en. minulý čas -ing -(ov)ání průběhový čas -en -en(.) příčestí minulé -s -y, -i, -ové, -a množné číslo -'s ov(o, a, y) přivlastňování -er -ší komparativ -est nej-, -ší superlativ Problém: myší, west, fotbal, Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo oooooooooooo»oooo ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologie - závěrem Tomáš Hanák - Sám v lese II Když jsi sám v lese, ano, sám-li v lese's, však skutečně, v lese sám's-li. Zkrátka v lese sám-li's. Však kde vlastně vzal ty tu's? Z meze-li v les's vlez? Či z nebes v les se snesľs? Pověz, ach, tvář tvá perlí přívalem se slz. Ted ruďs, zas bleďs, co pivoňka's Snad tedy autem's tu, či kolmo's? Mlčíš a slza tvá dál sama malá padá v mechu číš. Ano, ted teprve snad poprvé sám svěťs. Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOÄOOO ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologie - závěrem Brillův tagger • učení z trénovacích dat • transformation-based, error-driven • úspěšnost přes 90% O inicializuj značkování (nejčastější značka) 0 porovnej s trénovacími daty 0 vytvoř sadu pravidel pro změnu značek O ohodnoť pravidla O aplikuj pravidlo a opakuj od 2. dokud je co zlepšovat Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo oooooooooooooo»oo ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologie - závěrem Problémy s POS • kvalita MA ovlivňuje všechny další roviny zpracování • kvalita se liší pro různé jazyky (angličtina vs. maďarština) • chončaam (tj) - můj malý dům (domek) (tádžičtina) • kahramoni (tj) - jsi hrdina • legeslegmagasabb (hu) - úplně nejvyšší • raněný-SUBS/ADJ • the big red fire truck - SUBS / ADJ? a The Duchess was entertaining last night. • Pokojem se neslo tiché pšššš Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO 000000000000000*0 ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologie - závěrem Co s neznámými slovy? • jde nám o pokrytí: analýza co nejvíce slov • nová, přejatá slova • řeší guesser • sedm dunhillek • bez facebooku strádám • třitisícedvěstědevadesátpět znaků Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo oooooooooooooooo* ooooooooooooooooooooooooooooooooo ooooooooooooo Morfologie - závěrem Morfologie - shrnutí • první rovina, která zanáší do analýzy významné chyby • snaha omezit počet slovních tvarů • nahrazení slovního tvaru za dvojici lemma + značka • pro angličtinu s 36 značkami snadné • POS tagging dosahuje pro různé jazyky různé kvality « typicky kolem 95% Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO »00000000000000000000000000000000 ooooooooooooo Úvod Slova a slovníky ve strojovém překladu O Úvod Q Tokenizace Q Morfologická rovina Q Lexikální rovina Q Syntaktická rovina Q Sémantika a logika Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo o»ooooooooooooooooooooooooooooooo ooooooooooooo Úvod Slovníky ve strojovém překladu I • propojení mezi jazyky typicky na úrovni slov (slovníky) • u transferových systémů i na úrovni syntaktických struktur • pro KBMT systémy jsou slovníky nezbytné • typicky 10k a více položek « GNU-FDL slovník Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oo»oooooooooooooooooooooooooooooo ooooooooooooo Úvod Slovníky ve strojovém překladu II • kolik položek ve slovníku potřebujeme / chceme? ->•pojmenované entity, slang listem - jazyková položka, kterou nelze odvodit na základě principu kompozicionality (slaměný vdovec) • v jakém tvaru mají být slova ve slovníku? ->•lemmatizace • jak odlišit jednotlivé významy pro potřeby strojového překladu? ->• budování slovníků pro strojový překlad • kolik různých významů má smysl rozlišovat? ->•granularita Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooo#ooooooooooooooooooooooooooooo ooooooooooooo Víceznačnost Problém s víceznačností • slovům odpovídají významy • co je ale význam? pro počítač potřebujeme formální popis • počítač je diskrétní, význam je zřejmě spojitý • muž - dospělý člověk mužského pohlaví • co 17letý člověk mužského pohlaví? Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooo»oooooooooooooooooooooooooooo ooooooooooooo Víceznačnost Spojitost významu špalek ? židle Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO OOOOOÄOOOOOOOOOOOOOOOOOOOOOOOOOOO ooooooooooooo Víceznačnost Typy víceznačnosti Víceznačnost se projevuje na více úrovních: • morfologie (-s, viz výše) • slova (oko) • slovní spojení (bílá vrána) • věty (I saw a man with a telescope.) • homonymie: náhodný jev • úplná homonymie: líčit, kolej • částečná h.: los, stát • polysémie je přirozená: oko, táhnout,... Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooo»oooooooooooooooooooooooooo ooooooooooooo Víceznačnost Granularita Kolik významů má slovo kočka? • malá kočkovitá šelma chovaná v domácnostech • malá nebo středně velká šelma s hustým kožichem • samice kočkovité šelmy • kožešina na límci, kolem krku nebo ramen • kocovina • věc připomínající vlastnost kočky a druh důtek Pro strojový překlad může stačit granularita překladového slovníku: slovo x má tolik významů jako má překladových ekvivalentů ve slovníku. Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO 0000000*0000000000000000000000000 ooooooooooooo Víceznačnost Granularita - oko oko a zrakový orgán • klička, smyčka, kroužek z různého materiálu • věc připomínající tvarem oko (morské oko) • jednotka v kartách, loterii • druh karetní hry Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooo»oooooooooooooooooooooooo ooooooooooooo Víceznačnost Granularita - dát, SSJČ dát (bez se) • odevzdat do vlastictví, darovat, prodat • vyžádat, způsobit (dá to mnoho práce) • umístění něčeho • dopřát, dovolit, připustit (nedej pane) • projevit nedostatek odporu (dát se ošidit) • přikázat (dát něco udělat) VerbaLex uvádí 32 (!) významů (nezvratné varianty). Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO 000000000*00000000000000000000000 ooooooooooooo Víceznačnost Granularita - malý malý, malá • neveliký rozměry, počtem, časovým rozsahem • nedospělý • slabý, nevydatný (malý rozhled) • nevýznamný (malý pán) • téměř (malý zázrak) • děvčátko (malá) • přihrávka vlastnímu brankáři (malá domů) Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO 0000000000*0000000000000000000000 ooooooooooooo Reprezentace významu Reprezentace významu • nejčastější způsob: banka významů • graf: významy jsou uzly, sémantické relace jsou hrany • prostor: významy jsou body, podobné významy jsou prostorově blízko Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO 00000000000*000000000000000000000 ooooooooooooo Reprezentace významu Sémantická síť - WordNet • literál dát:8, synset louže:1, kaluž:1, tratoliště:1 • sémantické relace: hypero-, hypo-, holo-, meronymum • 150k slov, 117k synsetů: n, adj, v a adv • WN používán jako referenční banka významů y \ \ \ Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO 000000000000*00000000000000000000 ooooooooooooo Reprezentace významu VerbaLex • WordNet neobsahuje syntaktické vazby, morfosyntaktické omezení • synsety (6 256) atakovat:1, útočit:2, dorážet:3, napadnout:6 • valenční rámce (mačkat:1) a sloty (19 247) AG^on:1 + VERB + OBJS&cm + (PART™6) • sémantické role I: ABS, ISUB, AG, KNOW, PAT, VERB, ... (29) II: abstractions, person:1, artifacts, body part:1, ... (103) • další omezení: předložkové pády, životnost, slovní druhy, obligatornost • synsety napojeny na WordNet Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooo»ooooooooooooooooooo ooooooooooooo Word Sense Disambiguation Word Sense Disambiguation a nalezení významu slova v daném kontextu • pro člověka triviální, pro PC těžké • jde o klasifikační úlohu • potřebujeme konečný inventář významů • při použití WN: pro dané slovo určit konkrétní synset • kvalita se těžko vyhodnocuje (SensEval, SemEval) • přesnost kolem 90% Pro strojový překlad zásadní: Ludvig dodávka Beethoven, kiss me honey,... Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO 00000000000000*000000000000000000 ooooooooooooo Word Sense Disambiguation WSD - metody Problém: jak přeložit box in the pen (Bar-Hillel). • hloubkové (deep) • využívají znalosti o světě (common sense) • nejsou vhodné pro obecný jazyk (spíše omezené domény) • znalosti typu: ptáci umí létat, jablka rostou na stromě, ... • metody založené na reprezentaci znalostí, na slovníku • Leskův algoritmus: shoda slov z okolí se slovy ze slovníku patřícími ke konkrétnímu významu • algoritmy s využitím valenčních slovníků (BP) « povrchové (shallow) • využívají slova z kontextu • levnější, rychlejší implementace • různé metody strojového učení (klasifikační problémy) • učení s učitelem (supervised), bez učitele (unsupervised) • možné použít varianty Brillova algoritmu Jak určit vhodnout granularitu? Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO 0000000000000000*0000000000000000 ooooooooooooo Word Sense Disambiguation Lexika - shrnutí • význam hlavně na úrovni slov (překladové slovníky) a WSD zcela klíčový pro pravidlové systémy • počet slov se mezi jazyky řádově liší a na přesnost WSD má nejvíce vliv požadovaná granularita • lexikální víceznačnost je bottleneck (RB)MT Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooo»oooooooooooooooo ooooooooooooo Úvod Syntaktická analýza O Úvod Q Tokenizace Q Morfologická rovina Q Lexikální rovina Q Syntaktická rovina O Sémantika a logika Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooo»ooooooooooooooo ooooooooooooo Úvod Syntaktická analýza I • další patro v MT trojúhelníku • snaha o konečný popis nekonečného množství frází, vět • konečným způsobem = gramatikou • vstup (většinou): morfologicky označkovaná data • výstup: syntaktický strom, les, graf Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooo»oooooooooooooo ooooooooooooo Úvod Syntaktická analýza II • úkol SA: pro danou gramatiku a vstupní větu vrať všechny možné derivační stromy • potenciálně milióny různých analýz (viz Synt) • pro analýzu je potřeba: • výběr formalismu • napsání gramatiky • implementace algoritmu analýzy • v současnosti většina parserů využívá statistiky Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooo»ooooooooooooo ooooooooooooo Úvod Syntaktická analýza III Gramatické formalismy • bezkontextová gramatika: na levé straně mohou být pouze jednoduché neterminály • regulární gramatika: bezkontextová + pravidla pouze typu N -> epsilon | A | bB a tree-adjoining: podobné bezkontextovým, přepisují se stromy nikoli znaky (řetězce) Typy analýz • top-down analýza (shora): hledá se taková nejlevější derivace, která generuje analyzovaný řetězec • bottom-up analýza (zdola): hledají se pravidla, která přepíší vstupní řetězec na výslednou posloupnost pravidel Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooo»oooooooooooo ooooooooooooo Úvod K čemu je syntaktická analýza? • sémantická interpretace zdrojového kódu (informatika) • mezistupeň k sémantické reprezentaci věty • transferové systémy: konečný počet transferových pravidel pro nekonečný počet možných frází a WSD: zachycení vztahů na větší vzdálenosti (širší kontext) • jaká slova k sobě patří a jaká ne Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooo»ooooooooooo ooooooooooooo Syntaktická víceznačnost Syntaktická víceznačnost I • / saw a man with a telescope. Uzřel jsem muže (s) dalekohledem. • I'm glad I'm a man, and so is Lola. Jsem rád, že jsem muž a Lola také. • Someone ate every tomata. Někdo snědl všechna rajčata. Každé rajče bylo někým sněženo. • Lvíče škádlí dítě. A child teases a lion cub. A lion cub teases a child. Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooo#oooooooooo ooooooooooooo Syntaktická víceznačnost Syntaktická víceznačnost II • Letadlo spadlo do pole za lesem. • Ženu holí stroj. Ženu holý stroj. • Zabít ne propustit. Ibis, redibis nunquam per bella peribis. • Rodiče by mu mohli závidět. • Neboť každý, kdo prosí, dostává a kdo hledá, nalézá a tomu, kdo tluče, bude otevřeno. (Lk: 11,10) Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooooo»ooooooooo ooooooooooooo Syntaktická víceznačnost Částečná synt. víceznačnost - garden path • The man returned to his house ... was happy. a The man whistling tunes ... pianos. • Time flies like an arrow; fruit flies like a banana. • Ženu krávy... nezajímají. Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooo#oooooooo ooooooooooooo Vyhodnocení kvality syntaktické analýzy Vyhodnocení kvality syntaktické analýzy • jaká analýza je nejlepší? • vyhodnocení kvality je obtížné a interpretace je sporná • nejlepší analyzátory dosahují přesnosti cca 85% Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooooooo»ooooooo ooooooooooooo Frázová struktura jazyka Frázová struktura • jeden z nejstarších formalismů • gramatika obsahuje přepisovací pravidla • nejčastěji bezkontextová gramatika • zachycuje, jak se skládají fráze: konstituenty s -> NP VP VP -> ADV V | V ADV NP -> DET N DET -> the | a | an N -> cat | dog Analýza: the dog runs fast (shora a zdola) Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO 00000000000000000000000000*000000 ooooooooooooo Frázová struktura jazyka Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooo»ooooo ooooooooooooo Závislostní struktura Závislostní struktura • zachycuje závislosti mezi slovy • strom neobsahuje neterminály • hlava a závislá slova • vhodné pro jazyky s volným slovosledem (čeština) Úvod Tokenizace oooooooo ooo Závislostní struktura Závislostní strom Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOOOOOOOOOOO 0000000000000000000000000000*0000 ooooooooooooo N n V conventions The vary a. The conventions can vary, h. The conventions can vary, can & vary conventions e. The conventions can vary, the can conventions vary c. The f- [f1 he] conventions] can [vary]. Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO 00000000000000000000000000000*000 ooooooooooooo Závislostní struktura Constituency vs. Dependency • každé paradigma vhodné pro něco jiného • složky: pevný slovosled, koordinace • nevýhoda: neschopnost zachytit neprojektivitu souvislým složkovým stromem neprojektivní závislost = závislost mezi dvěma slovy oddělenými ve větě třetím slovem, které nezávisí na žádném z nich / saw a man with a dog yesterday which was a yorkshire temer. • závislosti: volný slovosled, morfosyntaktická shoda • nevýhoda: neschopnost zachytit doplněk (dvojí závislost) Babička seděla u stolu shrbená, (doplněk) Babička seděla u stolu shrbeně. (PUZ) • lze převádět mezi sebou nebo kombinovat: hybridní stromy Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooo«o ooooooooooooo Závislostní struktura Hybridní strom II Karel do Francie a Londýna Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooooooooooo* ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO oooooooooooooooooooooooooooooooo» ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. • slovo obsahující 3x „r" Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooooooooooo» ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. • slovo obsahující 3x „r" reproduktor Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooooooooooo* ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. • slovo obsahující 3x „r" reproduktor • slovo obsahující 3 po sobě jdoucí diakritická znaménka Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooooooooooo» ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. • slovo obsahující 3x „r" reproduktor • slovo obsahující 3 po sobě jdoucí diakritická znaménka jednodušší Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooooooooooo* ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. • slovo obsahující 3x „r" reproduktor • slovo obsahující 3 po sobě jdoucí diakritická znaménka jednodušší • věta obsahující 4x po sobě jdoucí „se" Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooooooooooo* ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. • slovo obsahující 3x „r" reproduktor • slovo obsahující 3 po sobě jdoucí diakritická znaménka jednodušší • věta obsahující 4x po sobě jdoucí „se" nesnese se se sestrou Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooooooooooo* ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. • slovo obsahující 3x „r" reproduktor • slovo obsahující 3 po sobě jdoucí diakritická znaménka jednodušší • věta obsahující 4x po sobě jdoucí „se" nesnese se se sestrou • slovo, 5 písmen, význam i retrográdně Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooooooooooo* ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. • slovo obsahující 3x „r" reproduktor • slovo obsahující 3 po sobě jdoucí diakritická znaménka jednodušší • věta obsahující 4x po sobě jdoucí „se" nesnese se se sestrou • slovo, 5 písmen, význam i retrográdně tokej, jelen Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooooooooooo* ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. • slovo obsahující 3x „r" reproduktor • slovo obsahující 3 po sobě jdoucí diakritická znaménka jednodušší • věta obsahující 4x po sobě jdoucí „se" nesnese se se sestrou • slovo, 5 písmen, význam i retrográdně tokej, jelen • slovo, které má význam i v češtině i v angličtině Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooooooooooo* ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. • slovo obsahující 3x „r" reproduktor • slovo obsahující 3 po sobě jdoucí diakritická znaménka jednodušší • věta obsahující 4x po sobě jdoucí „se" nesnese se se sestrou • slovo, 5 písmen, význam i retrográdně tokej, jelen • slovo, které má význam i v češtině i v angličtině mat, user Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooooooooooo* ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. • slovo obsahující 3x „r" reproduktor • slovo obsahující 3 po sobě jdoucí diakritická znaménka jednodušší • věta obsahující 4x po sobě jdoucí „se" nesnese se se sestrou • slovo, 5 písmen, význam i retrográdně tokej, jelen • slovo, které má význam i v češtině i v angličtině mat, user • slovo, které obsahuje dvě zvířata (nepřekrývají se) Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo oooooooooooooooooooooooooooooooo* ooooooooooooo Intermezzo I Hledání slov a vět splňujících podmínku Slovní tvary jako ve scrabble. • slovo obsahující 3x „r" reproduktor • slovo obsahující 3 po sobě jdoucí diakritická znaménka jednodušší • věta obsahující 4x po sobě jdoucí „se" nesnese se se sestrou • slovo, 5 písmen, význam i retrográdně tokej, jelen • slovo, které má význam i v češtině i v angličtině mat, user • slovo, které obsahuje dvě zvířata (nepřekrývají se) rusalka, sobeckost Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO «000000000000 Úvod Sémantická a logická reprezentace jazyka O Úvod Q Tokenizace Q Morfologická rovina Q Lexikální rovina Q Syntaktická rovina Q Sémantika a logika Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo o»ooooooooooo Úvod Úvod • reprezentace totálního významu nemožná: znalosti světa, smyslové vnímání, mezilidské vztahy, neverbální komunikace,... • některé transferové systémy nevyžadují sémantickou analýzu • hranice mezi syntaxí a sémantikou často zastřená (deep analysis) • další úroveň jazyka: pragmatika (řečové akty) • logika: jak velký je průnik s jazykem? Je logika pro MT nezbytná? • argumenty proti IL: význam je subjektivní, významy jsou často jazykově, kulturně, historicky závislé Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo oo»oooooooooo Sémantické role Sémantické role • syntaxe umožňuje odhalit sémantické vztahy • konstituenty vět odpovídají sémantickým rolím • vztah predikátu a ostatních větných členů • také semantic case, thematic role, theta role • agent, causer, instrument, manner, patient, result, time, source a různé množiny rolí, viz např. VerbaLex (29 rolí) Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO 00*0000000000 Sémantické role Sémantické role • syntaxe umožňuje odhalit sémantické vztahy • konstituenty vět odpovídají sémantickým rolím • vztah predikátu a ostatních větných členů • také semantic case, thematic role, theta role • agent, causer, instrument, manner, patient, result, time, source a různé množiny rolí, viz např. VerbaLex (29 rolí) Dítě škádlí lvíče. Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo oo»oooooooooo Sémantické role Sémantické role • syntaxe umožňuje odhalit sémantické vztahy • konstituenty vět odpovídají sémantickým rolím • vztah predikátu a ostatních větných členů • také semantic case, thematic role, theta role • agent, causer, instrument, manner, patient, result, time, source a různé množiny rolí, viz např. VerbaLex (29 rolí) Dítě škádlí lvíče. AG/SUBJ PŘEDA/ PAT/OBJ Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO 00*0000000000 Sémantické role Sémantické role • syntaxe umožňuje odhalit sémantické vztahy • konstituenty vět odpovídají sémantickým rolím • vztah predikátu a ostatních větných členů • také semantic case, thematic role, theta role • agent, causer, instrument, manner, patient, result, time, source a různé množiny rolí, viz např. VerbaLex (29 rolí) Dítě škádlí lvíče. AG/SUBJ PŘEDA/ PAT/OBJ A child (SUBJ) teases (PRED/V) a lion cub (PAT/OBJ). A lion cub (SUBJ) teases (V) a child (OBJ). Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO 000*000000000 Sémantické role FrameNet • elektronický „slovník" sémantických rámců • rámec popisuje věc, stav či děj a jeho účastníky • situace: děj vaření zahrnuje kuchaře, jídlo, nádobu na vaření, zdroj tepla atd. • rámec Apply_heat, role Cook, Food, Heating_instrumeiit, ... • 800 rámců, 10k lex. jednotek, 120k anotovaných vět • zdroj pro automatické přiřazování sémantických rolí Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO ooooooooooooooooooooooooooooooooo oooo»oooooooo Sémantické role Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO 00000*0000000 Prague Dependency TreeBank Prague Dependency TreeBank 2.0 a aplikace teorií Pražského lingvistického kroužku • funkční generativní popis jazyka a rovina: fonologická a fonetická, morfonologická, morfematická, povrchová syntax a • tektogramatická rovina - rovina významu jazyka • nižší rovina je formou vyšší a vyšší rovina funkcí nižší • 2M morfologicky, 1,5M syntakticky a 800k sémanticky označkovaných slov z novinových článků v ČNK • koreference a aktuální členění větné Petr dal Petře kytici. Pak ji vzal a dal do vázy « uzly pro nevyjádřená slova • vazby mezi uzly na různých úrovních Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo oooooo»oooooo Prague Dependency TreeBank ř O Byl ► Q by t do , AuxP o lesa Ml. C AuxK T T T T 0 0 # 0 Byl by še do být jit do C y ¥ ¥ if t ooo o c Byl by šel dolcsa Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo ooooooo#ooooo Transferový systém TectoMT TectoMT - systém • vysoká modularita • maximální rozložení úkolů do série bloků - scénáře a bloky jsou Perl moduly, komunikují přes API • struktura systému odpovídá struktuře PDT • vnitřní reprezentace jazyka: stromy v tmt formátu odvozeném od PML pro PDT • bloky umožňují masivní zpracování dat, paralelizace « bloky mohou implementovat pravidlové, stochastické či hybridní metody • zpracování: O konverze do formátu tmt O aplikace scénáře O konverze do výstupního formátu Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo oooooooo»oooo Transferový systém TectoMT TectoMT - jednoduchý blok Převod anglických negativních částic na příznaky sloves. sub process_document { my ($self,$document) = @_; foreach my $bundle ($document->get_bundles()) { my $a_root = $bundle->get_tree('SEnglishA'); foreach my $a_node ($a_root->get_descendants) { my ($eff_parent) = $a_node->get_eff_parents; if ($a_node->get_attr('m/lemma')="/"(not|n\'t)$/ and $eff_parent->get_attr('m/tag')=~/~V/ ) { $a_node->set_attr ( ' is_aux_to_parenť ,1) ; > > > > Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika oooooooo ooo ooooooooooooooooo ooooooooooooooooooooooooooooooooo oooooooooo»oo Interlingua systém KBMT Knowledge-based MT systém - analýza • morfologická: získání základních slovních tvarů • syntaktická: na úrovni vět, využívá nějaký formalismus a odpovídající parser • sémantická: zachycení významu lexikálních jednotek, vztahů mezi slovy, většinou na úrovni vět; většinou omezená na doménu (ontológie) • pragmatická, analýza diskurzu: nad úrovní vět; anafory, záměr, řečové akty Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO 00000000000*0 Interlingua systém KBMT KBMT II - syntéza • vyčlenění obsahu: co je výstup, co má čtenář domyslet Koupil jsem si nový mobil. Nový mobil má velký display. Nový mobil má velká tlačítka. • pořadí propozic Nový mobil má velký display. Koupil jsme si nový mobil. » lexikální výběr (odpovídá WSD) • syntaktický výběr Uvařil jsem guláš. Guláš byl mnou uvařen. a uspořádání konstituent Uvařil jsem guláš. Guláš jsem uvařil. • koreference: např. vložení anafor Koupil jsem nový mobil. Má velký display. • generování povrchových struktur (řetězce znaků) Úvod Tokenizace Morfologická rovina Lexikální rovina Syntaktická rovina Sémantika a logika OOOOOOOO OOO OOOOOOOOOOOOOOOOO OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO 000000000000» Závěr Pravidlové systémy - závěr • pravidlové systémy na ústupu • statistické systémy dosahují lepších výsledků • mnoho lingvistických jevů je těžké rozlišit i pro člověka (mezianotátorská shoda) • mnoho metod z pravidlových systémů vylepšují výkon statistickému MT a vývoj RBMT je spíš pomalejší • v mnohých oblastech se vedou dlouholeté spory