Využití corpus driven metod při corpus based výzkumu Přegenerovávání a podgenerovávání: Skylla a Charybda automatické morfologické analýzy Klára O sol sobě Ustav českého jazyka FF MU Abstract Overgeneration is a property of formal rules which does not cover the exact language data it was designed for. It is equivalent to low precision and occurs when a formal rule (corpus query) is too widely defined. Undergeneration is equivalent to low recall and occurs when a formal rule (corpus query) is too narrowly specified. Both are caused by the ambiguity of natural language. In this article we shall demonstrate how to use corpus driven method in optimization of retrieval technique for corpus based analysis. On a specific example of retrieval of candidates for a word formation model {kutil) we shall show how to use observation of corpus data for progressive specification of corpus query. Klíčová slova: korpus, corpus based, corpus driven, přegenerovávání, podgenerovávání, lemma, tag, slovotvorba. Keywords: Corpus, corpus based, corpus driven, overgeneration, undegeneration, lemma, tag, wordformation. Úvod Jedním z podstatných rysů aplikací automatické analýzy přirozeného jazyka je tzv. přegerovávání. Formální definici odpovídají jednotky, které tvoří homogenní skupinu (tu, kterou se prostřednictvím formálního zadání snažíme definovat), ale i jednotky, které jsou vůči této skupině heterogenní. Tento jev spadá na vrub obecné vlastnosti přirozeného jazyka, jíž je nejednoznačnost (homonymie) na všech úrovních. Rubem téže mince je tzv. podgenerovávání, tedy případ, kdy formální zadání je vymezeno příliš úzce, takže nejsou zachyceny jednotky, které se jeho prostřednictvím snažíme definovat. 1 Na konkrétním příkladu ukážeme postup optimalizace vyhledávání dat pro korpusově založený (corpus based) výzkum slovotvorby, který vychází z korpusově řízené (corpus driven) metody zpřesňování formálního zadání na základě pozorování přegenerovaných dat. Korpusově řízená metoda optimalizace postupů vyhledávání dat v jazykových korpusech1 Při vyhledávání jazykových dat používáme při práci s jazykovými korpusy počítačové programy (korpusové manažery), které umožňují klást dotazy, jimiž se snažíme co možná nejpřesněji definovat vlastnosti (formální) jednotek jazyka, které chceme v korpusu vyhledat. V tomto příspěvku se snažíme ukázat, jak lze postupným upřesněním formálního zadání dojít k lepším datům, která jsou podkladem pro lingvistický výzkum. Chceme-li minimalizovat přegenerovávání, pak je třeba formální definici pokud možno zúžit. Naopak chceme-li minimalizovat podgenerovávání, musíme mít na zřeteli, že příliš úzké zadání může mít za následek ztrátu dat. Ukažme si, jak funguje pře- a pod-generování na praktickém a celkem jednoduchém příkladu deverbativ tvořených příponou -tel. Formální jednoduchá definice zní, že kandidáty lze najít, vyhledáme-li všechna maskulina životná zakončená řetězcem. Hel. Při použití takové definice budou případy přegenerovávání slova jako datel nebo proprium Obrtel. Přegenerování se nevyhneme ani tehdy, zúžíme-li definici na případy, kdy před tel předchází [aij. Zůstane přegenerovaný datel, a navíc podgenerovaný přítel a neumětel. Nyní si ukážeme složitější případ. Budeme používat formální zápis v jazyce cql (corpus query language).2 Postup optimalizace vyhledávání substantiv typu kutil Našim cílem je vyhledat v korpusu kandidáty na jména osob odvozená od l-ových příčestí (konvertovaná). Máme-li označkovaný korpus, pak se můžeme při zadání dotazu opřít a) o morfologickou značku a b) o lemma. Chceme tedy vyhledat maskulina životná, jejichž základní tvar (lemma) končí na /. 1 Praktické ukázky jsou vybrány ze synchronního korpusu psané češtiny (SYN2010) - http://ucnk.ff.cuni.cz/. Při práci s korpusem v ukázkách (obrázky) používáme verzi korpusového manažeru přístupného z webového rozhraní NoSketch Engine na adrese http://korpus.cz/corpora/. 2 Bližší informace k jazyku CQL i k použitému morfologickému značkování lze nalézt zde: http://ucnk.ff.cuni.cz/bonito/regular.php a http://ucnk.ff.cuni.cz/bonito/znackY.php. 2 Dotaz v CQL bude vypadat následovně: [lemma=".*I" & tag="NNM.*"] a po jeho zadaní do dotazovacího řádku korpusového manažeru získáme konkordanci všech výskytů substantiv, maskulin životných, jejichž základní tvar končí na / (obrázek 1). Obrázek 1 Příběhy Sherlocka Holmese by asi udivily i jeho učitele /Učitel/NNMP4-- —A..... Neptal ses Příběhy Sherlocka Holmese se mohl 5 tím tvým přítelem /pFfteL/NHMS7 ____A— - seznámit ľ"" Určitě Příběhy Sherlocka Holmese Je schopen podat svému nejlepšímu příteli /přítel/NNMS3- ...A—- nejnovější rostlinný alkaloid , ne Příběhy Sherlocka Holmese pnšoupl nohou . Můj přítel /Dřítel/NNMS1 — -A..... hledá byt , a poněvadž Příběhy Sherlocka Holmese vzbudit zájem i toho nejpovrchnějšího pozorovatele /Dozorovatel/NNMS4_____A— __ . Byl šest stop vysoký Příběhy Sherlocka Holmese krásného počasí, neměl jsem přátel /přítel/NNMP2- __A_— n kteří by svými návštěvami Příběhy Sherlocka Holmese spolubydlící nemá tak jako já přátel /Prítel/NNMP2- ...A-.— . Potom jsem však zjistil Příběhy Sherlocka Holmese aby si z nich schopný pozorovatel /pozorovatel/NNMS1-----A— neudělal přesný obraz . ■ Příběhy Sherlocka Holmese mlčení , co si jeho přítel /pntel/NNMSI — -A..... myslí , to sice vypadá Příběhy Sherlocka Holmese . " Lecoq byl ubohoučký Packal /packal/NNMS1- A ," řekl zlostně . Příběhy Sherlocka Holmese pokoje , a podával mému príteli /přítel/NNMS3- .__A—- dopis . To byla příležitost Příběhy Sherlocka Holmese Mohu se vás zeptat , příteli /přítel/NNMS3~ —A..... , " řekl jsem líbezně Příběhy Sherlocka Holmese Yardu , ' poznamenal můj /pntel/NNMSI- _A .... , ' on a Lestrade Příběhy Sherlocka Holmese on a Lestrade jsou jednookými k™li /král/NNMP7-— A mezi slepými . Oba jsou Příběhy Sherlocka Holmese . " " Můj drahý příteli /prftel/NNMS3-- ...A-... ? co z toho mám Příběhy Sherlocka Holmese tohohle ! ' odpověděl můj přítel /přítel/NNMSI- A a ukázal na pěšinu . Příběhy Sherlocka Holmese na pěšinu . Stádo buvolů /buvol/NNMP2-- —A..... by to tu nemohlo víc Příběhy Sherlocka Holmese detektiv . Tvářil se jako majitel /majitel/NNMS1- A panoptika , který se vychloubá Příběhy Sherlocka Holmese vám , ' odpověděl můj přítel /přitel/NNMSI- ._A—- . " Počínáte si tak Příběhy Sherlocka Holmese zahradní pěšině šli jako dva přátelé /ořítel/NNMPl- —A..... - pravděpodobně byli do sebe Je patrné, že vidíme téměř samé přegenerované doklady (výjimkou je substantivum packal na 10. řádku konkordančního seznamu na obrázku 1). Zobrazíme-li si frekvenční distribuci lemmat (obrázek 2), pak zjistíme, že pro získání nějakých relevantních výsledků by bylo třeba projít seznam 3023 lemmat ručně. (Až na 102. řádku frekvenčního seznamu lemmat objevíme příjmení Navrátil, které splňuje podmínky zadání a zároveň jde o případ, který jsme se snažili prostřednictvím zadání vyhledat.3) Takový postup je a) velmi pracný a b) jako každá ruční analýza lze předpokládat, že dojde k chybám zaviněným „lidským faktorem" (nepozornost). Z tohoto důvodu se pokusíme postup vyhledávání optimalizovat. Z frekvenční distribuce lemmat plyne, že zadání vede k masivnímu přegenerování. Dotaz nelze zpřesnit tím, že bychom zadali omezení pouze na substantiva skloňovaná podle vzoru pán, neboť vzor není součást morfologické značky. Vidíme totiž, že přegenerovávání spadá na vrub zejména této chybě (slova jako ředitel, přítel, obyvatel se skloňují podle vzoru muž), ale nejen jí (slova jako Karel, Pavel, Michael, generál nejsou hledanými doklady, ačkoliv se skloňují podle vzoru pán). 3 Na 84. řádku se objevuje příjmení Doležal, které je sice odvozeno od slovesa, ale nelze je synchronně bez problémů formálně interpretovat jako konvertované 1-ové příčestí. 3 Obrázek 2 Celkem: 3023 (61 str.) lemma Frekvence 1. £/n ředitel 24 415 2. £/n pntel 23 96B 3. £/n obyvatel 19 459 4. £/n manžel 17 27B 5. £/n Pavel 16 942 6. £/n majitel 15 626 7. £/n Karel 15 597 a. £/n král 14 744 9. £/n učitel 10 943 10. £/n podnikatel 9 2B3 11. £/n uživatel B 373 12. £/n spisovatel 7 544 13. £/n nepňtel 7 377 14. £/n Michal 7 146 15. £/n představitel 6 912 16. £/n velitel 6 557 17. £/n zaměstnavatel 5 Bifl 18. £/n pachatel 5 612 1?. £/n generál 5 449 20. £/n zastupitel 5 0B6 Při procházení konkordancí si můžeme (na stránce 23 konkordančního seznamu) všimnout i zdánlivě správných dokladů (obrázek 3). Při bližším pozorování příslušného kontextu ovšem zjistíme, že jde o chyby v disambiguaci (viz interpretace tvarů koupil a odstrčil na 3. a 5. řádku konkordančního seznamu na obrázku 3). Obrázek 3 Příběhy Sherlocka Holmese Nedal byste mi na svého přítele /pntel/NNM54_____A..... doporučeni' ? " " Udělám Příběhy Sherlocka Holmese úřednici zvědavi" na záležitosti svých zaměstnavatelů /zamě5tnavatel/NNMP2_____A____ . Můžeme si tedy v % Příběhy Sherlocka Holmese o tom .'■ koupil /Koupil/NNMS1-----A----- jsem nedávno menši' usedlost , % Příběhy Sherlocka Holmese proto do svého tajemství'několik přátel /pfítel/NNMP2.....A_____ a ti mi poradili , % Příběhy Sherlocka Holmese , pusť mě !r Odstrčil /Odstrcil/NNMSI.....A..... ji , vrhl se k % Příběhy Sherlocka Holmese ještě zdaleka nejsem před svými pronásledovateli /propásledovatel/NNWP7.....A— _. v bezpečí' . Tu jsem % první' | předchozí' strana 23 ze 23 174 Přejít další' | poslední' Shrňme tedy, že s ohledem na skutečnost, že není možné jednoduše pomocí morfologické značky vyhledávat podle vzoru, dochází při zvoleném zadání dotazu k masivnímu přegenerovávání. Dále je vidět, že přegenerovává i disambiguace. Je tedy žádoucí hledat jiný (lepší) postup. Optimalizace může vycházet z pozorování přegenerovaných dat (corpus driven) a následné formulace pravidel transformovatelných do 4 optimalizovaných formálních definic pro hledání kandidátů reprezentujících příslušný slovotvorný typ. Pozorujeme, že většina přegenerovaných případů jsou deverbativa tvořená sufixem -tel. Položíme si tedy otázku, zda mohou 1-ová příčestí v češtině končit např. na řetězec tel (ale i např. rel, vel, ael, neboť přegenerovaná jsou i lemmata vlastních jmen jak Karel, Pavel, Michael). Odpověď lze následovně zahrnout do dotazu v cql jako formální podmínku pro vyhledávání. Popis postupu pro získání odpovědi na základě pozorování korpusových dat Na otázku, mohou-li 1-ová příčestí v češtině končit např. na řetězce tel, rel, vel, ael, lze odpovědět takto: a) mohou a v korpusu jsou doložena, b) mohou, ale v korpusu nejsou doložena, c) nemohou a tudíž v korpusu nejsou doložena. Hledáme ospravedlnění kladné odpovědi na otázku a). Slovní formulace dotazu pro získání dat z korpusů bude, že hledáme 1-ová příčestí taková, že před řetězcem /, popřípadě la, lo, li, fy (/+rodová koncovka) předchází řetězec tel, rel, vel, ael. V cql bude dotaz vypadat takto: [word="((.*[atrv]el)|(.*[atrv]el[aoiy]))" & tag="V[pq].*"] a zadáme-li jej ve formě dotazu korpusovému manažeru, bude výsledek vyhledávání nulový (prázdný seznam konkordančních řádků). Je-li výsledkem prázdný seznam, mělo by platit buď b), nebo c). Prohledáváním ještě větších korpusů by bylo možné pokračovat a snažit se dokázat, že platí za b). Jde o neefektivní postup s malou pravděpodobností úspěchu, neboť ze zkušenosti práce s korpusy je známo, že výjimky u frekventovaných tvarů bývají rovněž frekventované a 1-ové příčestí je frekventovaný tvar. Můžeme ovšem hledat nějaké zobecnitelné formální vlastnosti 1-ových příčestí a pokusit se tak dokázat, že platí c). Viděli jsme, že relevantní výsledek j sme docílili, když jsme se zabývali otázkou, co předchází před tvarovou koncovkou -/ v českých 1-ových příčestích. Odpovědi mohou být např. tyto: A) libovolná samohláska/souhláska (grafém), B) pouze některé samohlásky/souhlásky (grafémy). Jednoduchou empirickou evidenci získáme z korpusů, a to tak, že se podíváme, jaká je situace u 1-ových příčestí (obrázek 4). Vidíme, že před tvarovou koncovkou -/ může předcházet např. dlouhé á, krátké [aeěiyu], že se vůbec nevyskytují dlouhé samohlásky (s výjimkou a), z krátkých se nevyskytuje o (kromě slovenského bol). Pokud bychom chtěli zjistit, které souhlásky se vyskytují v českých 1-ových 5 pří čestí ch před tvarovou koncovkou -/, pak by dotaz v cql vypadal následovně: [tag="Vp.*" & word !="((.* [aáeěiyu]!) | (. * [aáeěiyu]! [aoiy ]))" ].4 Obrázek 4 Celkem: 16294 (326 str.) lemma Frekvence 1. £/n byt 2. £/n mít 290 303 ^^^m 3. £/n moci 155 321 4. £/n nci 154 s 41 5. £/n stát B7 m m 6. £/n chtft 74 375 ■ 7. £/n ZHCÍt 71 930 ■ B. £/n muset 62 O1i ■ 9. £/n dostat 53 171 ■ 10. £/n dát 51 542 ■ 11. £/n přijít 50 572 ■ 12. £/n jít 46 564 ■ 13. £/n vidět 46 101 ■ 14. £/n vědět 42 506 ■ 15. £/n uvést 32 603 I Nyní si „pozveme na pomoc" systematický popis morfologie českých sloves. Kmenový vokál (KmV) pro tvary od kmene minulého konkrétně 1-ových příčestí, mohou být pouze krátké [aieěj a {n)u, nikdy o. Dlouhé á mají pouze nepravidelná slovesa jako bál (se), stál a z pravidelných jen zdál se a (u)dál se. Kromě toho ovšem taky případy, kdy á je kořenový vokál (KoV), tedy sloveso patří ke vzoru krýt III. tř. - hrál, sál, vál, smál se atd. Všechny ostatní KoV ve III. tř. u vzoru krýt jsou krátké (zkrácené oproti infinitivu), vyskytuje se pouze [eěiuy] {klel, děl, žil, zul, myl) a obdobná omezení nacházíme i u nepravidelných (atematických) sloves byl, měl, chtěl atd. Souhlásku mají slovesa I. třídy vzorů nést, péct a mohou ji mít (nemají-li kmenotvorné -nu-) slovesa II. třídy vzoru tisknout {tiskl, nadchl se, zestárl) a některá vzoru začít {zapi, vypi, i moravské rožl). S ohledem na masivní přegenerovávání substantiv na tel nás zajímá především KoV a KmV feěj. Km V feěj mohou mít slovesa I. třídy podle kmene přítomného vzoru umřít {umřel, vytřel, pomlel), IV. třídy podle kmene přítomného vzorů trpět, sázet (vrtěl, hleděl, probděl). KoV [eě] mohou mít slovesa III. třídy podle kmene přítomného vzoru kryl {děl, pěl, klel, zasel). 4 Projdeme-li seznam tvarů, pak zjistíme, že omezení se bude týkat grafémů [djlnňqřťw]. Ve sledovaném korpuse nenajdeme ani doklady \gx], nicméně 1-ová příčestí sloves grgnout a exnout lze najít např. na internetu. 6 Bližší analýza možného okolí e/ě v roli KmV a KoV Vyhledáme v korpusu všechna 1-ová příčestí končící na el. V cql bude dotaz vypadat takto: [word="((.*el)|(.*el[aoiy]))" & tag="V[pq].*"]. Část seznamu lemmat podle frekvence vidíme na obrázku 5. Obrázek 5 Celkem: 5958 (120 str.) lemma word Frekvence 1. g/n muset musel 2. g/n přijít přišel 3. g/n jít šel 4. g/n muset museli 5. g/n muset musela 6. g/n n aj ít nasel 7. g/n myslet myslel 7 036 ^^^^^^^H 8. g/n zemřít zemřel 6 589 ^^^^^^H 9. g/n odejít odešel 6 256 ^^^^^^H 10. g/n otevřít otevřel 6 217 ^^^^^^H 11. g/n slyšet slyšel 6 093 ^^^^^^H 12. g/n vyjít vyšel 5 257 ^^^^^m 13. g/n držet držel 5 084 ^^^^^m 14. g/n pomyslet pomyslel 4 500 ^^^^H 15. g/n přijet přijel 4 400 ^^^^H 16. g/n zmizet zmizel 4 030 ^^^H 17. g/n otevřít otevřela 3 851 ^^^H 18. g/n muset muselo 3 824 ^^^H 19. g/n myslet myslela 3 742 ^^^H 20. g/n jet jel 3 737 ^^^H Na základě pozorování lemmat můžeme formulovat pravidla distribuce e/ě v roli KmV a KoV. Před KmV -e- stojí v češtině pouze [cčjlřsšzžj, před KoV -e- stojí v češtině pouze [IszJ. Stojí-li před hláskou e grafémy [pbvtdnmf, pak se vždy graficky realizuje jako ě. Na základě empirie můžeme tedy tvrdit, že aby mohlo být substantivum konvertovaným 1-ovým pří češtím, pak musí splňovat tyto podmínky: před / může ze samohlásek předcházet pouze faáeěiuyj; před / nemůže předcházet fbpvmdtnkghrje; před / nemůže předcházet faáeěéiíoóuůyý] [aáeěiuy]. Formulace dotazu s využitím formálních vlastností pozorovaných dat 5 V seznamu neuvádíme grafém/ protože na základě analýzy dat z korpusu SYN se nám nepodařilo najít žádný doklad 1-ového příčestí slovesa s 1-ovým příčestím na. *fěl a v korpusu czTenTenl2 jsme nalezli pouze překlepy. (Dotaz v cql by vypadal takto: [word="((.*fěl)|(.*fěl[aoiy]))"].) 7 Do dotazu v jazyce cql zahrneme podmínky pro vyhledávání substantiv maskulin životných, která mají mít výše uvedené formální vlastnosti (lemma končí na / a zároveň před / předchází pouze některé přesněji definované kombinace grafémů). S ohledem na fakt, že v korpusech se poměrně často vyskytují chyby v desambiguaci homonymních tvarů 1-ové příčestí/ tvar konvertovaného jména, omezíme vyhledávání jen na nehomonymní tvary. Přehled homonymních tvarů uvedeme v tabulce 1 (tučně a kurzívou). Jsme si vědomi také toho, že pomineme deriváty od sloves, u kterých se tvarová koncovka -/ připíná bezprostředně ke kořenové souhláskové finále (slovesa I. třídy slovesné podle vzorů nést, péci a některá slovesa II. třídy slovesné podle vzorů tisknout a začít). Od těchto sloves se totiž jména osob sice okrajově tvořit mohou, tvoří se ovšem konverzí sub standardního tvaru 1-ového příčestí bez tvarové koncovky -/, jak dosvědčují např. apelativa vyklouz, zběh a snad i kompozita břichopas, mrakotřas nebo propria Proklouz, Skoněspad, Vozembouch atd. (více Osolsobě 2011: 61n). V cql bude dotaz vypadat takto: [word=".*[aáeěiuy]l((ové)|(ů)|(ům)|(ech)|(e)|(ovi))" & word!=".*[bpfvmdtnkghr]el((ové)|(ů)|(ům)|(ech)|(e)|(ovi))" & word!=,'.í:[aáeěéiíoóuůyý][aáeěiuy]l((ové)|(ů)|(ům)|(ech)|(e)|(ovi)),' & tag="NNM.*"] Tabulka 1 N. A. kutil kutilové G. kutila kutilů D. kutilu kutilovi kutilům V. kutile kutilové L. kutilu kutilovi kutilech I. kutilem kutily Na obrázku 6 vidíme, že se již na první stránce konkordancí objevuje alespoň jeden relevantní doklad v podobě tvaru hýřilové. Obrázek 6 Príbehy Sherlocka Hol m ese že vojáci pořád prohrávají a eivilové /civil/NNMP1.....A..... vyhrávají . Rozumíte , nechci Príbehy Sherlocka Holmese vzneseného domu Ormsteinú , dědičných kralů /král/NNMP2.....A..... české země . "" Príbehy Sherlocka Ho Im ese velkovévcdu z CasseL-FaLsteinu a dědičného krále/král/NNMS4—-A..... české země . "" 1 Príbehy Sherlocka Hol m ese Saxe-Meningenu , druhou dceru skandinávského krale/kräl/NNMS2-----A..... . Snad je vám známo Príbehy Sherlocka Holmese , ' řekla paní Irena manželovi /manžWNNMS3.....A..... a odjela . Nic víc 1 Příběhy Sherlocka Holmese . " Jde c rozved manželů /manžel/NNMPZ.....A..... Dundasových a zcela náhodou jsem Příběhy Sherlocka Holmese to malý dáreček od českého krále/král/NNMS2-—A..... jako pozornost za pomoc , 1 Příběhy Sherlocka Holmese a tov případe českého krale/král/NNMS2-----A..... a fotografie Ireny Adlerove , Příběhy Sherlocka Holmese a křik nějaké opožděné skupinky hýnlů /hýnl/MNMP2.....A..... . Po obloze pomalu plynul 1 Příběhy Sherlocka Holmese , že je hluboce oddána manželovi /manžel/NNWS3.....A..... i synkovi , Ustavičně bloudí Dr. No u chodníku , patřiLa brigádnimu generálovi /«n*rál/NNlU<;jí.....ů..... karibské oblasti , kingstonskému generálnimu 8 Při zobrazení frekvenční distribuce lemmat zjistíme, že stále je dost případů, které jsme nehledali (přegenerovávání), nicméně máme už i správné výsledky jako čumil a kutil (obrázek 7). Obrázek 7 25. p_/n čumil 98 1 26. p_/n konzul 95 1 27. p_/n federal 93 1 2&. p_/n Michal 83 1 29. p_/n kanibal 76 1 30. p/n Dale 75 1 31. p_/n debil 72 1 32. p/n kutil 68 1 Ruční analýzou dat (631 lemmat) získáme jak apelativa, tak především propria (mezi nimi je hledaný slovotvorný model bohatě zastoupen). Nacházíme lemmata jako kutil, čumil, Nezval, Hrabal, Pospíšil, čmuchal, ožrala, břídil, (Doležal), Musil, Prášil, patolízal, šťoural a další (řazeno podle frekvence). Nicméně propria jako parasystém ponecháme stranou a zaměříme se pouze na apelativa, a to tak že odstraníme lemmata, která začínají velkým písmenem.6 Seznam lemmat se dále redukuje na 173 (obrázek 8). Ručním tříděním získáme ze 173 lemmat 40 lemmat, která jsou hledanými substantivy konvertovanými z 1-ových pří čestí. V korpusu SYN2010 lze uvedeným postupem najít tato lemmata: kutil, čumil, čmuchal, ožrala, břídil, patolízal, šťoural, žvanil, slídil, střádal, packal, hejkal, reptal, tlachal, rýpal, rejpal, hýřil, chlubil, všeuměl, kýval, kecal, mazal, škrabal, všudybyl, skuhral, loudil, fňukal, brblal, šukal, škudlil, šeptal, čmáral, zlobil, koktal, mlsal, klábosil, hrabal, hloubal, cmrndal, cintal (seřazeno podle frekvence). Můžeme tedy konstatovat, že ačkoliv více než % {11 %) dokladů jsou případy, které spadají pod pojem přegenerovávání (174-40=134), tak pokud bychom byli zůstali u prvního pokusu, pak by byla míra přegenerovávání vyšší než 98 % (40 lemmat bychom museli ručně vybrat ze seznamu 3023 lemmat). Míru přegenerování j sme tudíž snížili o 21 %. 6 Propria lze odstranit pomocí volby negativního filtru vybrat a odstranit lemmata začínající na velké písmeno, tedy [lemma="[AÁBCČDĎFGHIÍJKLMNŇOÓPQP^SŠTŤUÚVWXYÝZŽ].*"]. 9 Obrázek 8 Celkem: 173 (4 str.) Lemma Frekvence 1. £/n král 2. £/n manžel 3. £/n profesionál bss 4. £/n generál ■ :■■ 5. £/n anděl 551 6. £/n radikál 517 7. £/n liberál 517 S. £/'n vandal 481 9. £/n rival 426 H 10. £/n kardinál 297 ■ 11. £/n novomanžel 13t ■ 12. £/n maršál 116 ■ 13. £/n mobile 115 | 14. £/n admirál 107 I 15. £/n horal 106 I 16. £/n pedofil 101 I 17. £/n čumil % I 1fl. £/n konzul % 1 19. £/n federál 93 I 20. £/n kanibal 7fl 1 21. £/n debil 72 1 22. £/n kutil 60 1 Problém podgenerování Otázkou zůstane, jak velké množství lemmat tímto postupem zachyceno nebylo. Pomineme případy, kdy pádová substantívni koncovka je homonymní s rodovou koncovkou 1-ového pří čestí (tvarová homonymie kutil, kutila, kutily), které většinou vykazují velké množství chyb v disambiguaci, takže jsme je ze své analýzy záměrně vyloučili, a zaměříme se na případy nezaznamenané ve slovníku morfologického analyzátoru, tedy „odpadkový koš" (tag=„X.*"). Zopakujeme dotaz, ale místo maskulin životných budeme hledat slova s označením slovního druhu „X". V cql bude dotaz vypadat takto: [word=".*[aáeěiuy]l((ové)|(ů)|(ům)|(ech)|(e)|(ovi))" & word!=".*[bpfvmdtnkghr]el((ové)|(ů)|(ům)|(ech)|(e)|(ovi))" & word!='\*[aáeěéiíoóuůyý][aáeěiuy]l((ové)|(ů)|(ům)|(ech)|(e)|(ovi))'' & tag="X.*"] Po odstranění proprií7 získáme ručním tříděním dalších 10 lemmat z celkového počtu 731 výskytů (plazil, velebil, remcal, plížil, patlal, muchlal, kousal, drnkal, cachtal, brouzdal). 7 Viz předcházející poznámka. 10 Nejde jen o hapaxy (obrázek 9), ačkoliv je třeba připomenout, že doklady pocházejí z jediného dokumentu. Obrázek 9 Výskytu: 18 i.p.m.: 0,15 (vztaženo k celému korpusu) | ARF: 1 H vězdotresen i . Okamžitě ho obklopili tíí pližilové /plíjŕjlovéYXdt , půl tuctu pližovníků a % Hvézdotŕesení se neboj . Ti hluční pližilové /p|ijŕj|ové/X@> už jsou pryč . " % H vězdotresen i všechen ten rámus . Ti pližilové /p|í;ŕj|ovéYX(i> dokážou rozvibrovat celý blok . % Hvézdotŕesení patrně důvodem , proč byli pližilové /p|ížj|ové/XO nejoblíbenějšími mazlíčky cílů . Skoro % H vězdotresen i Tekutý písek . " Ostatní pližilové /p||Jj|ové/X@ budou rádi , že zase % Hvézdotŕesení . Pokud vejce nesežrali toulaví' pližilové /p|ížj|ové/XO , mělo mládě slušnou šanci % H vězdotresen i okusoval trávník , Valík a pližilové /p||Jj|ové/XO nebyli nikde v dohledu . % Hvézdotŕesení 'Tihle geneticky čisti' laboratorní pližilové /p|ížj|ové/XO vypadají všichni stejně , " % H vězdotresen i kůži pokrytou puchýři . Domácí pližilové /p||Jj|ové/XO na tom byli stejně jako % Hvézdotŕesení jí podobné podnikali lovy divocí pližilové /p|ížj|ové/XO . Někdo o ni pečoval % H vězdotresen i očima stačil všimnout , že pližilové /p|íjrj|ovéYX@> se vyděšeně rozprchli už dávno % Hvézdotŕesení v horách , kde se pližilové /p|ížilové/X@------- chovat nesmějí . Bojím se % H vězdotresen i Cílové z okolních klanů i pližilové /p|i;rj|ové/X(§> zažili už tucty podobných přistání % Hvézdotŕesení " Tady jsou imperátorovi pližilové /p|íJj|ové/X@ chránění před divokými mršty . Hvézdotŕesení ani jeden nechybí . Imperátorovi pližilové /p|ijrj|ové/X@> tu mají víc krmeni . % Hvézdotŕesení Imperátorovi náleží' vše . Všichni pližilové /plíjrjlovéYXdt , každičký korální ořech , % Hvézdotŕesení , kde jsou chlupatí' jako pližilové /p|ijrj|ové/X@> . " " To j e % Hvézdotŕesení jako by to byli nějací pližilové /plížJlové/X^------- v zoologické zahradě ! % Optimalizaci míry podgenorávání spatřujeme v automatizovaném vytvoření seznamu kandidátů na hledané jednotky z tvarů nezachycených slovníkem automatického morfologického analyzátoru (tvarů, které splňují podmínky otestované na datech rozpoznaných automatickou morfologickou analýzou a zároveň mají značku tag=„X.*"). Ručním tříděním automaticky pořízených dat se podařilo získat celkem dalších 10 lemmat, která nebyla zachycena výše uvedeným postupem a spadala tak pod pojem podgenerování. Celkový seznam 40 lemmat se takto rozšířil o dalších 10 lemmat (zlepšení o 25 %). Efektivnost uvedeného vyhledávání lze porovnat také s postupy popsanými jinde (srov. Stí cha 2011 : 225-226). Závěr Ukázali jsme, jak lze při zadání dotazu korpusovému manažeru na základě pozorování přegenerováných dat postupně optimalizovat dotaz tak, aby se počet dokladů, jež je dále třeba podrobit ruční analýze, pokud možno minimalizoval. V uvedeném příkladu se nám podařilo snížit míru přegenerovávání o 21 %. Vyzkoušený postup jsme zopakovali na datech, která nejsou rozpoznána automatickou morfologickou analýzou a spadají tudíž pod pojem 11 podgenerovávání. Ruční analýzou takto získaných dat se nám podařilo rozšířit počet lemmat o 25 %. Redukce počtu lemmat pro ruční analýzu přispěla k větší efektivitě a spolehlivosti vyhledání maximálního počtu jednotek; minimalizace problému přegenerovávání i podgenerovávání vede obecně k redukci rozsahu ruční práce, která je vždy nákladná (na čas popř. i finanční prostředky, z nichž je třeba hradit školené anotátory) a představuje také zvýšené nebezpečí chyb z nepozornosti, které jsou následně poměrně obtížně detekovatelné. Uvedený postup je případem metody korpusové lingvistiky, kdy užíváme korpus nejen jako zdroj pro lingvistické observace (corpus based), ale též jako zdroj odhalování pravidel fungování přirozeného jazyka (corpus driven), která mohou být úspěšně využita i k j iným účelům, než jsou ty, jimž slouží v daném případě. Konkrétně si lze představit např. využití uvedených pravidel při tvorbě guesserů (hadačů), tedy programů, které se na základě různých technik snaží „uhádnout" vlastnosti jednotek přirozeného jazyka (např. interpretace lemmatu a morfologického tágu). Bibliografie DOKULIL, M. a kol. (1986): Mluvnice češtiny 1. Praha: Academia. KOMÁREK, M. a kol. (1987): Mluvnice češtiny 2. Praha: Academia. McENERY, T. - HARDIE, A. (2012): Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press. OSOLSOBE, K. (2011): Morfologie českého slovesa a tvoření deverbativ jako problém strojové analýzy češtiny. Brno: Masarykova univerzita. OSOLSOBE, K. (2011): Korpus jako zdroj dat pro studium slovotvorby. In V. Petkevič, - A. Rosen (eds.), 3. Gramatika a značkování korpusů. Praha: Nakladatelství Lidové noviny /Ustav Českého národního korpusu, s. 10-23. STICHA, F. (ed) (2011): Kapitoly z české gramatiky. Praha: Academia. Elektronické zdroje Korpus SYN2010: Český národní korpus - SYN2010. Ustav Českého národního korpusu FF UK, Praha 2010. Cit. 6. 11. 2013, dostupný z WWW: . Korpus SYN: Český národní korpus - SYN. Ustav Českého národního korpusu FF UK, Praha 2010. Cit. 6. 11. 2013, dostupný z WWW: . Korpus czTenTenl2. Cit. 6. 11. 2013, dostupný z WWW: . 12