Pražský závislostní korpus aneb Co tady před padesáti lety nebylo Barbora Hladká, Praha 1. Úvod Nabídku přispět do speciálního čísla Pokroků, které vychází u příležitosti 50. narozenin MFF UK, jsme rádi přijali hned ze dvou důvodů. První nám otvírá možnost plynule navázat na příspěvek z předloňských Pokroků (Panevová a kol., 2000); druhý dává příležitost představit něco, čím se MFF může pochlubit až nyní, co tady rozhodně před padesáti lety nebylo. Pokud si máme počítače spojit s něčím pro ně neodlučitelným, tak by to měla být především jejich rychlost ve vypořádávání s náročnými operacemi, které jim předkládá člověk jakožto „zařízení" přirozeně chytřejší, ale bohužel výrazně pomalejší. Většinová představa chápe čísla jako hlavní elementy zmíněných operací; pro naše potřeby opusťme svět náročných matematických výpočtů a přejděme od čísel k textům (i když jedním dechem dodáváme, že od textů se budeme muset „pokorně" k číslům zase vrátit), s nimiž se každodenně setkáváme v knihách, novinách, časopisech, na reklamních letácích aj., ale již v elektronizované podobě. S čísly se počítá — co se dělá s texty (kromě toho, že se čtou...)? Na různé aktivity spojené s texty se můžeme podívat ze dvou základních pohledů — pohled jazykovedný (teoretický) a pohled aplikační (praktický). Při pohledu j azyko vědném se písemné projevy (nezapomeňme ale i na projevy mluvené) jazyka zkoumají a analyzují s cílem jazyku porozumět. I v případě jazykových aplikací, ve kterých právě počítače představují „moc vykonavatelskou", nám jde o správné uchopení jazyka. Už jenom prosté vyhledávání v textech (jako příklad jedné z mnoha jazykových aplikací) nabízených prostředím Internetu o objemu několika miliónů slov kontrastuje s nereálnou představou projití takového množství jedním člověkem (dvěma, třemi, ...). Nastupují tedy různé vyhledávací programy a výkonné počítače. Pokud nás zajímají výskyty jednotlivých slovních tvarů, znalost jazyka může být mizivá. Pokud ale pracujeme s jazykem tzv. flexívním, jakým čeština bezesporu je, potřebujeme mít znalosti z tvarosloví (morfologie) jazyka. Pro ilustraci nás mohou zajímat věty, ve kterých se mluví o mateřském jazyce. Bohaté tvarosloví češtiny nám „podsouvá" kromě vět s výskytem spojení mateřský jazyk přirozeně i věty s výskyty spojení mateřského jazyka, mateřskému jazyku, mateřském jazyku/jazyce, mateřským jazykem, mateřské jazyky, mateřských Mgr. BARBORA VidovÁ-HladkÁ, Ph.D. (1971), Centrum komputační lingvistiky MFF UK, Malostranské nám. 25, 118 00 Praha 1, e-mail: hladka@ckl.mff.cuni.cz 298 Pokroky matematiky, fyziky a astronomie, ročník Jh7 (2002), č. 4 jazyků, mateřským jazykům, mateřských jazycích, mateřskými jazyky. Samozřejmě, že můžeme ručně zadávat vyhledávacímu programu jednu formu spojení za druhou, ale proč by generování (např. skloňování podstatných jmen, časování sloves, ...) všech přípustných tvarů nemohl za nás provést sám vyhledávací program, tedy, zjednodušeně řečeno, počítač? Složitější situace nastává, chceme-li např. získat přehled všech škol s rozšířenou výukou španělštiny. Převedeno do vyhledávací terminologie, zajímají nás aspoň ty věty, ve kterých jako podmět figuruje spojení škola, přísudek vyučuje /nabízí'/pořádá/... a předmět španělštinu/ho diny španělštiny. Vyhledávání tohoto typu se neobejde bez zapracování znalostí syntaxe daného jazyka. A opět, podobně jako v předchozím příkladě, požadujeme tuto znalost od vyhledávacího programu. Náročnější aplikace typu strojový překlad, tj. překlad z jednoho jazyka do druhého s pomocí počítače — tedy počítač jako asistent překladatele, by měla pro oba dva jazyky s sebou nést komplexní znalosti nejen tvarosloví a syntaktické stavby vět, ale i znalosti z oblasti významu (tj. sémantiky). Ze své podstaty počítač sám nic neudělá; pokud po něm něco chceme, musíme jeho kroky jednoznačně „nastavit" jeden po druhém. Pro ilustraci: požadujeme po vyhledávacím programu, aby zvládl tvarosloví češtiny, tedy nejen generování (ve smyslu příkladu s mateřským jazykem uvedeným výše), ale i analýzu (pro každou slovní formu zjistit možná morfologická čtení, tj. určit možné slovní druhy a možné hodnoty patřičných morfologických kategorií, jako je rod, číslo, pád, osoba, čas, ...). Je přirozené, že jedna slovní forma může mít více morfologických čtení bez ohledu na větný kontext; větný kontext poté zpravidla jednoznačně určí to jediné správné morfologické čtení. Na příkladu věty Zajímá se o mateřský jazyk vidíme dané zjednoznačnění velice názorně — jazyk je podstatné jméno, rodu mužského neživotného, čísla jednotného v pádě prvním nebo čtvrtém; čtvrtý pád je tím správným v kontextu věty. (Obtížnější, ale na štěstí i vzácnější jsou věty, ve kterých se víceznačnost řeší až kontextem širším, např. Školy úřady upozornily, že situace je vážná.) Již zjednoznačněná morfologická čtení jsou důležitá pro syntaktický větný rozbor, tj. pro určení větných členů. Víme např., že podmět v české větě nemůže být v šestém pádě. V zásadě existují dva základní přístupy použité v automatických jazykových aplikacích — přístup založený na znalostech a přístup založený na strojovém učení (tzv. samoučící se metoda). První přístup vyžaduje důkladné znalosti např. z morfologie a syntaxe jazyka, které sám autor systému „zakóduje" do pravidel. Ve druhém přístupu autor na základě svých znalostí připraví tzv. trénovací data (označkovaný korpus) a matematickým (nejčastěji statistickým) aparátem se vygeneruje model dat. Zastavme se u strojového učení trochu déle. Když učení, tak musíme předem vědět, čemu se chceme naučit a z čeho budeme znalosti čerpat. V naší konkrétní situaci chceme počítač naučit např. přiřazovat jednoznačná morfologická čtení v daných větných kontextech a budeme ho tomu učit z ručně morfologicky označkovaného korpusu. Korpus textů na tomto místě představovat nebudeme; poznamenejme jen, že obohatíme-li korpus o jakékoli další přídavné informace (např. o jednoznačná morfologická čtení), dostáváme označkovaný korpus. Pokroky matematiky, fyziky a astronomie, ročník Jh7 (2002), č. 4 299 Zkusme si napsat zkušební test. Otázky na to, co jsme přímo nastudovali ze studijních materiálů, by nás zaskočit neměly (i když připouštíme, že i v takových případech může dojít k omylu v odpovědi). Na druhou stranu se můžeme setkat s otázkou, na kterou explicitní odpověď v učebnici rozhodně nenajdeme. Nabízejí se dvě krajní možnosti, jak se s neznalostí poprat — zapojit intuici a pokusit se správnou odpověď odvodit ze známých znalostí (načerpaných z jiných zdrojů), nebo jen tak něco „plácnout". Metody strojového učení se potýkají se stejným problémem. Relativně často viděné situace v trénovacích datech — v našem případě v označkovaném korpusu — se dají naučit velmi dobře. Přirozeně se ale může stát, že se v nových textech, které jsou automaticky značkovány na základě naučených znalostí, objeví situace v učících datech neviděná nebo pouze „zahlédnutá" — v takových situacích procedury hádají (neočekávejme od automatických procedur zapojení intuice, žádnou totiž nemají). Doufáme, že po tomto polidštěném pohledu na chybovost automatických procedur jsme vyvolali jistou dávku tolerance k chybovosti morfologických čtení např. u slov Českého národního korpusu (SYN20001), 2000), který je přímo přístupný přes hlavní www stránku Ústavu českého národního korpusu, FF UK. Procedura použitá na přiřazení morfologických čtení českých slov (Hajič, 2002) pracuje s 92-93% přesností. Podrobnější informace o aplikaci a výsledcích metod strojového učení na automatické zpracování češtiny jsou k dispozici v (Panevová a kol, 2000). 2. Pražský závislostní korpus, verze 1.0 (CD ROM) V kontextu anotovaných korpusů nyní nastává vhodná chvíle uvést Pražský závislostní korpus (konkrétně jeho první publikovanou (CD-ROM) verzi, PZK 1.0), který představuje druhý největší, ručně označkovaný korpus na světě (hned za anglickým Penn Treebank (1992), kterým jsme se nechali inspirovat). Dříve než představíme to nejcennější, co CD nabízí, tedy PZK, zastavíme se u popisu samotného CD. 2.1. Co „magický" kotouč přináší Do všech jeho „komnat" je možné nahlédnout přes hlavní uvítací stránku (viz obr. 1). Z pohledu interiéru CD pokrývá složku datovou (korpusovou) a složku nástrojů. Dominantou datové složky je rozhodně již zmíněná první verze Pražského závislostního korpusu. Jí sekundují paralelní česko-anglický korpus textů z výběru Reader's Digest (450 článků, 53 tis. paralelních vět) a texty (ve své původní podobě o objemu 39 mil. slov) z deníku Lidové noviny (ročníky 1991-95). Jako společný vnitřní formát nabízených korpusů jsme zvolili značkovací kódování SGML. 1) SYN2000 je reprezentativní vyvážený korpus současné psané češtiny, obsahující 100 mil. slov. 300 Pokroky matematiky, fyziky a astronomie, ročník Jh7 (2002), č. 4 1 : ť-1 Nelscajie: Tlie Prague Dependency Treebank 1 ,U | ■ D X File Edít View Go Communicator Help ^|" BOO kmark? ^ G O TO; j http : //uf a][. ms. mf f cuni cs/pdt/ / JJT What's Related jj} * v.ť,v-.-.ť,-.ť. I h -.v.ť.i The Prague Dependency Treebank 1.0 The PDT 1.0 CD-ROM has been released via trie Linguistic: Data Consortium. The contents of Hie CD-ROM is available or this page but the data. The data are viewable using the on-line internet tree viewer (see Tools' references on this page). -i Licence Agreement ♦Please Read First - REGISTRATION Required (unless you have received this CD through LDC by filling in the online licence agreement form). ■ Corpora ♦ PDT 1.0 ♦ Raw Texts ♦ Czech-English Corpora M Tools ♦ Morphology and Tagging ♦ Tree Editors ♦ On-line Internet Tree Viewer m Utilities Support Directory Structure, Data sizes, Sitemap Acknowledgements -á- ioo% 1| ml -&, m* «* hi- 11J50: #"11 Jake prozřetelná prověřil čas dvé rozhodnutí. m b si v cas NNIS1- prozretelná Atv prozřetelný AANP4—1A- -A—- O dvé Air dva'2 CIHP4- rozhodnutí rozhod n utí_* (* 3o u t} NNNP4-—A—- Jako Aj «V jako Obr. 2. Věta Jako prozřetelná prověřil čas dvě rozhodnutí, anotovaná na syntakticko--analytické rovině. Nejdůležitějším kritériem, které musí být v případě vzniku takovéto banky textů (datového materiálu) respektováno, je kritérium konzistence. Ta může být zajištěna (alespoň do určité míry) buď existencí manuálu s (pokud možno) jednoznačnými pokyny pro anotatory, nebo velice omezeným počtem anotátorů. Při anotování PZK jsme uplatnili obě dvě strategie. Anotování na morfologické a syntakticko-analyticke rovině zajišťovaly paralelně dva různé týmy anotátorů následujícím způsobem. Textový soubor určený k morfologické anotaci byl označkován dvěma anotatory (bez manuálu). Diskrepance, které se přirozeně vyskytly, byly vyřešeny jediným anotátorem. Další kontroly morfologického značkování vzhledem k morfologické analýze prováděli pouze dva anotátoři. Naopak „stromečkování" (anotování na syntakticko-analyticke rovině) se řídilo manuálem, který vznikal a postupně se dolaďoval během anotačního procesu. V závěrečné fázi byla provedena vzájemná kontrola morfologického a syntakticko-analytického značkování stejnými dvěma anotatory jako v případě morfologického značkování a jediným „stromečkovým" anotátorem. Pokroky matematiky, fyziky a astronomie, ročník Jh7 (2002), č. 4 303 3. Na cestě od verze 1.0 k verzi 2.0 Pokud chceme počítač brát jako opravdu produktivního pomocníka překladatele, musíme do systému automatického překladu (nebo jiných náročných aplikací, zejména pro komunikaci s automatickým systémem) zapracovat to, co vlastně dané věty říkají, tedy význam. K tomu směřuje přechod od analytické stavby k významové, tzv. tekto-gramatické stavbě věty. V terminologii verzí PZK to znamená vydat se od verze první směrem k verzi druhé; prakticky je tato cesta možná díky vzniku Centra komputační lingvistiky4). [T->- Tftee EDitor fElnl | Fila View Nade Session Bookmarks User-defined Help Tectogrammatic cřHKr^fi^í^A