1 Nová korpusová mluvnice češtiny Klára Osolsobě osolsobe@phil.muni.cz Abstrakt V roce 2010 spatřila světlo bohemistického světa nová mluvnice češtiny, která „je prvním gramatickým popisem naší mateřštiny, který není založen jenom na povědomí autorů o jazyce kolem nás, ale na studiu rozsáhlých souborů reálných promluv a textů.“ Jde o publikaci Václava Cvrčka a kol., která nese název Mluvnice současné češtiny. Tato kniha se řadí ke stručnějším (má 353 s.) přehledům české gramatiky, které byly vydány v posledních dvaceti letech. Vedle příruček jako jsou např. Čeština, řeč a jazyk a Příruční mluvnice češtiny nabízí uživatelům do jisté míry srovnatelné ( nikoliv totožné) informace o češtině. Cílem textu je krátké představení ideového základu korpusově založeného popisu jazyka, který Mluvnice současné češtiny slibuje nabídnout. Zaměříme se na stěžejní kapitoly věnované morfologii a tvoření slov. Upozorníme na pozitiva i negativa velkého počtu statistik zaměřeným na problémy spjaté s variantností flexe. Ve druhé části se zaměříme na vybraná sporná místa, a to především na případy, kdy korpusy nebyly dostatečně využity. Našim cílem je demonstrovat, jak lze použít korpusy i korpusové nástroje k tomu, abychom odpověděli na otázky, které při četbě MSČ vyvstanou a jejichž zodpovězení zůstali autoři MSČ čtenářům dlužni. V korpusech lze řadu takových odpovědí najít a není to někdy tak úplně složité. Úvod Korpus jako zdroj observací fungování jazyka je možné zkoumat a) objektivně měřitelnými metodami a b) opakovaně, tudíž s možnou kontrolou/zpětným ověřením různých tvrzení. Podíváme se, jak výzkum založený na korpusech ČNK, a sice SYN2005, ORAL2006, PMP, BMK (srv. více http://ucnk.ff.cuni.cz) prezentovaný MSČ přispívá k obrazu mateřštiny. Zaměříme se na kapitoly věnované Morfologii (autor Václav Cvrček) a Tvoření slov (autor Michal Šulc). Statistiky v MSČ pozitiva a problémy Již v Předmluvě se autoři hlásí k tomu, že „ ... se nesnaží popisovat jazyk, jak by měl vypadat, ale jak skutečně vypadá“. Prostor interpretativní složky popisu je tak omezen na výčty řazené podle frekvence a na zprostředkování statistik. V kap. 7. Morfologie se uvádí velké množství statistik založených na příslušných korpusech. (statistiky jednotlivých slovních druhů, flektivních typů, variantních koncovek). Obdobné (nikoliv totožné) statistiky pro češtinu sice k dispozici jsou, vycházely ovšem z nesrovnatelně menších dat (korpusy, s nimiž pracovala M. Těšitelová aj.) a od doby jejich vzniku/publikace nás dělí více než čtvrt století vývoje češtiny. Pozitivně lze hodnotit fakt, že statistiky neuvádějí pouhá absolutní čísla, ale šestistupňovou škálu, jejíž pomocí lze docílit objektivního srovnání dat získaných z různých korpusů. Správně se opakovaně poukazuje na závislost výsledků statistik týkajících se flektivních vlastností pojatých obecně (tedy jednotlivých flektivních typů) na povaze jednotlivých lexémů. V propagačně zaměřených částech MSČ se tvrdí, že tato mluvnice jako první vychází ze studia rozsáhlých souborů reálných promluv a textů, avšak v případě mluvených komunikátů se vyznačuje naprostou nereprezentativností, což pak vede k jistým zkresleným tvrzením týkajícím se zejména jazykové situace na Moravě a ve Slezsku. 2 Zobecnění pozorování masových dat jako cíl korpusového výzkumu jazyka Statistické údaje ovšem mohou a měly by pomoci k formulaci zobecnitelných závěrů. Vezmeme-li v úvahu, že korpusy (alespoň ty psané) představují dosud nevídanou základnu pro takováto zobecnění, podívejme se, jak byly autory MSČ k tomuto účelu využity. Jako příklad poslouží srovnání téměř doslovně se opakujících vágních tvrzení týkajících se distribuce -e/-ě v koncovkách české substantivní flexe. Na s. 174 se uvádí, že „Ke vzoru duše patří feminina s koncovkou -e někdy psanou -ě ...“, takřka stejná formulace se objeví na s. 188 a 189 (vzor moře a kuře). V kapitolách věnovaných vzoru soudce (s. 160n.) a píseň (s. 178n.) je z textu patrné, že i u těchto vzorů se vyskytuje dvojí možná grafická realizace e/ě. Naše otázka podnícená mimo jiné výše uvedenými vágními formulacemi zní: Je psaní -e/-ě ve flektivních koncovkách popsatelné obecně platnými pravidly? Tuto otázku chci v rámci přednášky věnované zahraničním studentům češtiny položit ze dvou důvodů: 1) studenti bohemistiky (rodilí mluvčí) na ni odpověď hledali s jistými obtížemi (to může, i když ne nutně, svědčit o tom, že jde o složitý problém) a 2) odpověď na tuto otázku komplikuje (protože jde opravdu o odpověď komplikovanou) řešení některých oblastí počítačového zpracování přirozeného jazyka (konkrétně češtiny), což je oblast, která nás dlouhodobě odborně zajímá. Korpusový lingvista by měl hledat odpověď na otázky v korpusech. Podívejme se, jak lze postupovat. V prvním kroku můžeme vyhledat všechna substantiva taková, že končí na -e ne na -ě. Dále můžeme vytvořit a prohlížet frekvenční seznam nalezených tvarů. Uvádíme pouze jeho část. word: ## roce 84640 době 49588 práce 44324 případě 39985 Praze 32046 země 30660 straně 25232 peníze 25080 situace 23352 světě 22571 informace 20872 místě 20286 konce 19190 dne 18580 policie 18445 komise 15731 základě 15563 ruce 15369 Evropě 14459 unie 14077 organizace 13761 republice 13752 soutěže 12733 funkce 12476 akce 12456 městě 12243 dítě 11534 ředitele 11029 muže 10972 3 životě 10831 televize 10727 měsíce 10519 nemocnice 10276 Brně 10205 Výsledkem tohoto pozorování může být hypotéza, že distribuce -e/-ě je vázána na předchozí grafém, přičemž můžeme vidět, že v naprosté většině případů jde o konsonant. Další postup může být takový, že se podíváme na možné kombinace jednotlivých souhláskových grafémů následovaných -e/-ě. Výsledky shrneme do následující tabulky celkem (-e/-ě) lemmat lemmat s tvary –e lemmat s tvary -ě .*b[eě] 311 81 234 .*c[eě] 8068 8068 0 .*č[eě] 1195 1195 0 .*d[eě] 707 231 497 .*ď[eě] 0 0 0 .*f[eě] 56 34 22 .*g[eě] 34 34 0 .*h[eě]+ch[eě] 88 88 0 .*j[eě] 382 382 0 .*k[eě] 35 35 0 .*l[eě] 1634 1634 0 .*m[eě] 274 140 140 .*n[eě] 2809 729 2108 .*ň[eě] 0 0 0 .*p[eě] 140 74 66 .*r[eě] 400 400 0 .*ř[eě] 1230 1230 0 .*s[eě] 1177 1177 0 .*š[eě] 486 486 0 .*t[eě] 1514 483 1056 .*ť[eě] 0 0 0 .*v[eě] 906 127 792 .*z[eě] 761 761 0 .*ž[eě] 214 214 0 Podíváme-li se na výsledky v předchozí tabulce, můžeme tvrdit, že : 1. Existují grafémy, za kterými se v češtině nepíše v koncovkách (zakončeních) substantiv ani -e, ani -ě. Jsou jimi ď, ť, ň. 2. Existují grafémy, za kterými se v češtině píše v koncovkách (zakončeních) substantiv vždy pouze -e. Jsou jimi c, č, g, h, j, k, l, r, ř, s, š, z, ž. 3. Existují grafémy, za kterými se v češtině píše v koncovkách (zakončeních) substantiv buď -e nebo -ě. Jsou jimi b, d, f, m, n, p, t, v. 4. Existují grafémy, za kterými se v češtině píše v koncovkách (zakončeních) substantiv buď -e nebo -ě, a to u téhož lemmatu. Plyne to z toho, že počet všech lemmat není vždy totožný se součtem lemmat, u nichž je buď jedna, nebo druhá varianta. Dle sledovaného korpusu jsou jimi b, d, m, n, t, v. 4 V dalším kroku si tedy budeme všímat pouze lemmat, jejichž tvary končí na -e, nebo -ě, před nimiž předchází [bdfmnptv]. Zopakujeme výše uvedený postup a vyhledáme v korpusu všechna substantiva, která končí na [bdfmnptv][eě]. Podívejme se alespoň na ta nejfrekventovanější. word: lemma: ## době doba 49588 případě případ 39985 země země 30660 straně strana 25232 světě svět 22571 místě místo 20286 dne den 18580 základě základ 15563 Evropě Evropa 14459 městě město 12243 dítě dítě 11534 životě život 10831 Brně Brno 10205 řadě řada 9743 polovině polovina 9233 cestě cesta 8894 podstatě podstata 8862 podobě podoba 8740 sítě síť 8504 vládě vláda 8382 pane pan 8194 daně daň 7824 domě dům 7520 týdne týden 7497 skupině skupina 5635 létě léto 5423 minutě minuta 5386 hodnotě hodnota 5273 zbraně zbraň 4953 Ostravě Ostrava 4739 formě forma 4680 většině většina 4637 koně kůň 4618 Moravě Morava 4569 Bosně Bosna 4565 hlavě hlava 4534 Prostějově Prostějov 4441 změně změna 4424 firmě firma 4334 půdě půda 4283 církve církev 4261 vodě voda 4255 rodině rodina 4230 úrovně úroveň 4123 Země země 4027 Moskvě Moskva 3906 přípravě příprava 3855 výrobě výroba 3843 dítěte dítě 3760 ceně cena 3705 krve krev 3679 návštěvě návštěva 3665 scéně scéna 3633 letiště letiště 3490 5 závodě závod 3463 Pane Pan 3463 bytě byt 3437 třídě třída 3426 dohodě dohoda 3404 přírodě příroda 3389 Na základě pozorování dat můžeme říci, že ačkoliv se v uvedeném seznamu vyskytují substantiva většiny vzorů (doba/žena, případ/hrad, země/růže, místo/město, dítě/kuře, daň/píseň, pan/pán, kůň/muž, letiště/moře ...), v MSČ se příslušné vágní formulace stran distribuce grafému –e/-ě týkaly pouze vzorů duše, moře, kuře, soudce a píseň. Zdá se tudíž, že bychom případné obtíže měli hledat právě u těchto vzorů. Jak lze dále postupovat. Můžeme zjistit, která slova z výše uvedeného seznamu patří k uvedeným vzorům. V následující tabulce uvedeme příklady založené na korpusovém šetření. soudce duše píseň moře kuře b[eě] Vosolsobě 0 0 nebe hrabě d[eě] - hýždě lodě ?rande hádě f[eě] - 0 0 kafe 0 m[eě] - země země sémě 0 n[eě] Bechyně kuchyně daně poledne štěně p[eě] - koupě 0 kanape doupě t[eě] - kleště sítě letiště/?karate dítě v[eě] - 0 církve 0 0 Na jeho základě můžeme formulovat následující tvrzení: 1) Substantiva skloňovaná podle vzorů soudce, růže, kuře mají (na základě korpusových dokladů) po grafémech [bd(f)mnpt(v)] koncovku -e vždy realizovanou jako grafické - ě. 2) Substantiva skloňovaná podle vzoru píseň mají (na základě korpusových dokladů) po grafémech [dnt] koncovku -e vždy realizovanou jako grafické -ě. 3) Substantiva skloňovaná podle vzoru moře mají (na základě korpusových dokladů) po grafému [t] koncovku -e vždy realizovanou jako grafické -ě, přičemž jde vždy o sufix -iště. V dalším kroku se tedy budeme zabývat jednak substantivy skloňovanými podle vzoru píseň, která končí na [bfmpv], jednak substantivy skloňovanými podle vzoru moře, která končí na [bfmpvdnt]. Z korpusu získáme jejich seznamy. lemma: ## církev 4565 krev 3707 láhev 1268 větev 1237 lahev 504 rakev 464 pánev 463 mrkev 277 ploutev 192 koroptev 154 broskev 150 konev 93 tykev 85 podešev 43 brukev 42 krokev 39 6 korouhev 33 ředkev 28 plástev 23 Cerekev 20 podoustev 8 vikev 8 štoudev 7 Chrudim 6 Ponikev 6 euroláhev 3 houžev 3 hnědozem 2 dratev 2 Vlašim 2 Býkev 2 Hořátev 1 šedozem 1 pseudocírkev 1 lemma: ## nebe 3675 poledne 2195 odpoledne 1811 Labe 1073 kafe 690 dopoledne 612 rande 397 kanape 104 sémě 48 plémě 32 símě 22 Na základě výše uvedených dat můžeme říci, že: 1. Ke vzoru píseň patří skupina substantiv zakončených na -ev, u nichž se koncovka -ě dy realizuje jako grafické e. 2. Ke vzoru píseň patří několik málo substantiv zakončených na -m u nichž se koncovka -e vždy realizuje jako grafické ě. 3. Substantiva zakončená na [bfmpvdnt] patřící ke vzoru moře mají s výjimkou derivátů na -iště a skupiny substantiv sémě, plémě, símě koncovku -e realizovanou jako grafické -e. 4. Jde o poměrně malý počet substantiv. Nicméně se většinou jedná o substantiva poměrně frekventovaná. 5. Můžeme je tudíž definovat výčtem, přičemž s ohledem na rozsah korpusu můžeme předpokládat relativní úplnost výčtu frekventovaných jednotek. 6. Vzhledem k tomu, že distribuce variant je alespoň u vzorů píseň a moře vázána nikoliv na distribuci danou grafickým okolím, ale na jednotlivé skupiny lexému, je třeba připustit, že v češtině existují u některých vzorů dvě varianty koncovek -e/-ě a že tyto varianty nejsou grafickými variantami v témže smyslu, jako jsou jimi varianty -e/-ě u jiných vzorů. Závěr Cílem textu je prakticky ukázat, že ačkoliv nová korpusová mluvnice češtiny nezahrnula řadu informací, které lze z korpusů vyčíst, není jejím vydáním možnost využívat korpusy i nadále jako zdroje observací jazyka nikterak potlačena. 7 Na základě pozorování dat získaných z korpusů je možné odpovídat na otázky, které před zvídavými čtenáři MSČ mohou vyvstat. Dopátrat se žádoucích odpovědí není vždy snadné, je ovšem třeba si uvědomit, že nejsou-li útrapy cesty cílem, mohou být jeho součástí. A tak jako se cestou zejména díky překonávání společných překážek dozvídáme hodně o tom, s kým cestujeme, tak se i cestou korpusového výzkumu lze dozvědět hodně o jazyce, kterým se „probíjíme“. Chtěla bych všem studentům češtiny, které korpusové cestování po češtině s češtinou neodradilo, popřát šťastnou cestu a hodně trpělivosti při překonávání překážek. A hlavně to, aby si nakonec řekli, že čeština za to stojí! Literatura Cvrček, V. a kol: Mluvnice současné češtiny 1 – Jak se píše a jak se mluví. Praha: Karolinum, 2010. Čermák, F.; Schmidtová, V.: Český národní korpus – základní charakteristika a širší souvislosti. Národní knihovna, 15, 2004, č. 3, s. 152-168. Osolsobě, K.: Recenze: František Čermák – Renata Blatná: Jak využívat Český národní korpus. Studijní příručka. Sas 68, 2007, s. 147-151. Osolsobě, K.: Syntetické futurum v češtině – gramatiky, slovníky, korpusy, In: Přednášky a besedy z XL. běhu LŠSS, Brno 2007, s. 131-144. Osolsobě, K.: Značkování gramatických kategorií v korpusech ČNK a jejich zachycení v gramatice a ve slovníku (syntetické futurum, stupňování adjektiv, neurčité číslovky a příslovce míry). In Štícha, F.: Grammar & Corpora / Gramatika a korpus 2007. Academia: Praha, 2008, s. 407-416. Kosek, P., Křístek, M., Osolsobě, K., Vojtová, J., Ziková, M.: První korpusová mluvnice češtiny: Václav Cvrček a kolektiv autorů: Mluvnice současné češtiny 1 – Jak se píše a jak se mluví. Praha: Karolinum, 2010. 354 s., Naše řeč 2/94, 2011, s. 149-160. Slovník spisovného jazyka českého (SSJČ), Praha 1958-1971, reprint 1989. Slovník spisovné češtiny pro školu a veřejnost (SSČ), Praha 19781 , 19942 . Odkazy na „online“ zdroje Český národní korpus - SYN2000/SYN2005/SYN2006PUB/SYN. Ústav Českého národního korpusu FF UK, Praha 2000. K vyhledání on-line . (http://ucnk.ff.cuni.cz/bonito/) Rychlý, P.: Bonito – grafické uživatelské rozhraní systému Manatee, Verze 1.49. 1998-2003. K vyhledání on-line http://ucnk.ff.cuni.cz/bonito/