Česká morfologie a korpusy Klára Osolsobě Obsah Předznamenání Úvod Korpusové manažery Jazykové korpusy z hlediska lemmatizace a morfologického značkování Tokenizace Automatická morfologická analýza Lemmatizace a pozice 1 morfologické značky Pozice 2 – Detailní určení slovního druhu Pozice 3 – Jmenný rod Pozice 4 – Číslo Pozice 5 – Pád Pozice 6 – Přivlastňovací rod Pozice 7 – Přivlastňovací číslo Pozice 8 – Osoba Pozice 9 – Čas Pozice 12 – Aktivum/pasivum Pozice 10 – Stupeň Pozice 11 – Negace Pozice 13 – Nepoužito Pozice 14 – Nepoužito Pozice 15 – Varianta, stylový příznak apod. Pozice 16 – Vid Česká morfologie a korpusy Substantiva Jak vyhledat v korpusu substantiva podle vzoru? Jak lze v korpusech hledat doklady pro výzkum hláskových alternací v rámci substantivní flexe? Další samohláskové alternace v české substantivní flexi Varianty a dublety – korpusy jako zdroje dat pro formulaci pravidel distribuce variantních spisovných koncovek v české substantivní flexi Adjektiva Která adjektiva se v češtině stupňují? Vlastnosti adjektiv na -cí Číslovky Slovnědruhové přesahy Slovesa Slovesná třída a slovesný vzor – jak lze v korpusu hledat slovesné tvary bez použití tagu? Syntetické futurum v češtině Jakou osobu signalizují tvary by? Složené tvary slovesné a možnosti jejich vyhledávání v korpusu – pravidla slovosledu v češtině Adverbia a další neohebné slovní druhy Příslovečné spřežky Značkování neohebných slovních druhů Ještě několik slov ke značkování neohebných slovních druhů s ohledem na slovnědruhové transpozice Korpus a některé pravidelné derivace Deverbativa od slovesného kmene a jejich vyhledávání v korpusech Ještě jednou k adjektivům na -cí Hláskové alternace ve slovotvorbě MWE – gramatika a slovník Opisné stupňování Slovesné frazémy jako typ MWE Závěr Bibliografie Přílohy Algoritmus určování slovesných tříd a vzorů v češtině Algoritmus tvoření přechodníků v češtině Předznamenání Formulovat pravidla jazyka je mnohem složitější pro mateřský jazyk než pro jazyk, kterému se učíme v době, kdy jsme schopni vnímat jeho gramatiku na pozadí gramatiky jazyka (jazyků), které nějakým způsobem ovládáme. Přesto právě od rodilých mluvčích většinou požadujeme informace o tom, co jak má být a hlavně proč. Fyzik a popularizátor fyziky Jiří Grygar napsal, že zatímco vědci odpovídají na otázky jak?, filozofové a teologové by měli dávat odpovědi na otázky proč? Tento text nabízí čtenářům, především studentům českého jazyka, řadu návodů, jak lze vyhledávat v jazykových korpusech relevantní data, jejichž prostřednictvím mohou pozorovat svou mateřštinu, a také řadu postupů, jak lze vyvozovat závěry o tom, jak se jazyk užívá. Kniha má název Česká morfologie a korpusy a omezuje se hlavně na otázky spojené s formálním tvaroslovím a některými dalšími otázkami morfologie i tvoření slov. Z pedagogického hlediska necháváme mnohde na čtenářích samotných, aby hledali odpovědi na otázky proč. V řadě případů lze najít vysvětlení v systému jazyka. Doufáme, že podnítíme zvědavost, která povede k pátrání po příčinách. Těšilo by nás, kdyby čtenáři byli schopni aktivovat informace z různých jazykovědných disciplín a naučili se je propojovat. Proto dáváme přednost kladení otázek před dáváním odpovědí. Snažíme se také rozvinout u čtenářů jistý typ myšlení. Jak už jsme naznačili, automatismy, které doprovázejí užívání mateřského jazyka, brání mnohdy jistému odstupu, který je třeba, abychom uměli vymezit některé jevy. Cesta dedukce může být pro jisté typy čtenářů schůdnější než jiné metody učení. Všem budeme vděčni za jakékoliv připomínky k tomuto textu. Úvod Předložený text vznikl na základě dlouhodobých zkušeností s výukou seminářů zaměřených na korpusovou lingvistiku na straně jedné a zkušeností s přípravou formálních popisů pro potřeby strojového zpracování přirozeného jazyka – češtiny na straně druhé. Výklady i cvičení mají pomoci studentům lingvistických oborů, bohemistům, korpusovým lingvistům i dalším zájemcům o češtinu naučit se dívat na svoji mateřštinu jinak, než jsou tomu zvyklí. Měli by se naučit: 1. Slovně formulovaná tvrzení o jazyce převést do podoby formálních pravidel, která lze zapsat např. jako posloupnost dotazů pro korpusový manažer. 2. Efektivně pozorovat korpusová data tak, aby na základě těchto pozorování byli schopni slovně zformulovat zákonitosti fungování jazyka vyplývající z učiněných pozorování jazyka v textech, z nichž jsou složeny korpusy. 3. Syntetizovat oba výše uvedené postupy tak, aby byli schopni co nejefektivněji používat korpusové nástroje ke shromáždění relevantního materiálu pro vlastní lingvistický výzkum. Tomuto účelu poslouží jednotlivé kapitoly, v nichž se budeme zabývat jednoduššími i složitějšími otázkami z české morfologie a slovotvorby. Při práci s korpusy se pro přístup k elektronicky uloženým jazykovým datům používají programy, tzv. korpusové manažery, které umožňují data vyhledávat, zobrazovat, třídit, tvořit frekvenční seznamy a vyhledaná data ukládat. Stručně představíme práci s korpusovými manažery a odkážeme k manuálům, které mohou čtenáři pomoci ke zvládnutí těch stávajících variant korpusových vyhledávačů, s nimiž lze přistupovat ke korpusům Českého národního korpusu. Následuje oddíl věnovaný podrobnějšímu výkladu problematiky strojového zpracování přirozeného jazyka na rovině lemmatizace a morfologického značkování. Pokusíme se ukázat, jak jsou řešeny některé problémy související s mnohoznačností jednotek přirozeného jazyka a potřebou desambiguace. Ve 4. kapitole podáváme komentovaný přehled značek použitých pro značkování korpusů řady SYN (synchronní korpusy psané češtiny budované v ÚČNK[1]). K podrobnějšímu proniknutí do tematiky, které přesahuje rámec potřebný k výkladu v této knize, odkazujeme k další literatuře. Jádro knihy tvoří kapitola se stejným názvem jako celek knihy Česká morfologie a korpusy, která zahrnuje oddíly týkající se jednotlivých slovních druhů, oddíl s přesahem do slovotvorby a oddíl věnovaný tzv. MWE (Multiword Expressions – víceslovným výrazům). Budeme se v ní zabývat těmito otázkami: 1. Jak získat materiál pro výzkum hláskových alternací, které doprovázejí tvoření tvarů substantiv (skloňování) v češtině. 2. Jak získat materiálovou základnu pro výzkum variantních a dubletních koncovek substantiv. 3. Jak získat podklady pro výzkum stupňování adjektiv. 4. Jak získat přehled o skutečném stavu některých okrajových jevů, např. syntetického futura. 5. Jak najít v korpusech materiál pro výzkum adverbializace. 6. Jak se v lingvistickém výzkumu obejít bez morfologického značkování a lemmatizace. 7. Jak získat z korpusů podklady pro výzkum slovotvorby. 8. Jak se v korpusově založeném výzkumu vypořádat s takzvanými MWE. Jednotlivá témata budou probírána následujícím způsobem: A. Motivační úvod B. Nastínění problému C. Otázky D. Formulace dotazu pro získání dat z korpusů E. Třídění a pozorování dat získaných z korpusů F. Formulace závěrů G. Formulace dalších otázek vyplynuvších ze zkoumání daného jevu H. Zadání cvičení, v nichž lze uplatnit analogické postupy. V rámci textu se pokusíme doplnit některá fakta z oblasti korpusové lingvistiky, která jsou zřejmá obci korpusových lingvistů, ale nejsou explicitně formulována v běžně dostupných manuálech pro uživatele jazykových korpusů. Zároveň nebudeme podrobně probírat to, co je dobře a přehledně popsáno v dostupné literatuře a dalších zdrojích, na které odkážeme a které budeme citovat. Jako úvod do korpusové lingvistiky doporučujeme z kratších česky psaných příruček Český národní korpus – úvod a příručka uživatele (Kocek – Kopřivová – Kučera 2000), nebo anglicky psanou učebnici Corpus Linguistics (McEnery – Wilson 1996). K hlubšímu studiu pak překladový sborník Studie z korpusové lingvistiky (Čermák – Klímová – Petkevič 2000) a monografie a sborníky řady Studie z korpusové lingvistiky vydávané Nakladatelstvím Lidové noviny a Ústavem českého národního korpusu (viz též ucnk.ff.cuni.cz/publikace). Aktuální informace lze čerpat z příručky na dostupné z webových stránek ČNK (http://wiki.korpus.cz/doku.php). Na konci knihy jsou připojeny přílohy. Jedná se o praktické pomůcky, které mají pomoci osvěžit znalosti z české gramatiky. Text je doplněn bibliografií. V poznámkách odkazujeme na položky bibliografie, jejichž studium je žádoucí pro hlubší proniknutí do dané problematiky. Korpusové manažery Korpusový manažer je soubor programů, které umožňují efektivně využívat jazykové korpusy. Pro práci s korpusy budovanými v rámci Ústavu Českého národního korpusu je možno pracovat buď s verzí webového rozhraní NoSketch Engine na adrese http://korpus.cz/corpora/ nebo s aplikací KonText na adese http://korpus.cz/kontext. Z hlediska uživatele je dobré vědět, že technické ovládání programů lze i bez speciálního školení zvládnout díky uživatelsky přítulné příručce, elektronicky dostupnému Manuálu práce s ČNK (http://wiki.korpus.cz/doku.php/manual), kde lze nalézt podrobný popis funkcí aplikace KonText i jednotlivých starších verzí korpusových manažerů. Příklady uvedené níže v textu budou popsány tak, aby je čtenář mohl zopakovat s použitím obou verzí, ilustrační materiál (screenshoty) odpovídají aplikaci KonText uveřejněné na začátku roku 2014. Na jednotlivých místech nebudeme podrobně popisovat práci s korpusovým manažerem. Uživatelské příručky přístupné on-line při práci s manažerem jsou natolik podrobné a dobře pedagogicky zpracované, že je nemíníme „opisovat“. Celkově vzato pracujeme s poměrně úzkým repertoárem zadání dotazů. Kromě zmíněného manuálu lze dále doporučit i soubor cvičení s klíčem Blatná, R. – Čermák, F.: Jak využívat český národní korpus. Praha : NLN, 2005. Jazykové korpusy z hlediska lemmatizace a morfologického značkování Jazykový korpus je elektronicky zpracovaný a přístupný soubor jazykových textů. Od sbírky textů se liší tím, že je promyšleně a záměrně sestaven ze vzorků jazyka tak, aby byl reprezentativní, tedy aby co možná nejpřesněji ilustroval ty rysy jazyka, k jejichž zkoumání má sloužit. Z tohoto aspektu rozlišujeme typy korpusů psaných versus mluvených, korpusů dle časového období, žánru, autora, atd. Texty, které tvoří jazykový korpus, musí být uživatel korpusu schopen identifikovat. K tomu účelu slouží standardizované vnětextové anotace, které se u různých korpusů liší. Řada korpusů navíc obsahuje také interpretace jednotlivých částí textů, z nichž je korpus složen (vnitrotextové anotace). Pro potřeby tohoto textu upozorňujeme na anotace vět (vyznačení začátku a konce věty) a především na anotace slovních jednotek typu word (jednoduchých slovních tvarů). Na lingvistické rovině popisu grafické realizace jazyka odpovídají jednotkám typu word nejmenší jednotky textu – slovní tvary definované jako řetězce znaků mezi mezerami, ale i interpunkční znaky, číslice apod. Těmto jednotkám je pak buď automaticky, nebo ručně přiřazena interpretace na úrovni lemmatu a tagu. Běžně se pak hovoří o gramatickém/morfologickém značkování a lemmatizaci. Tokenizace Prvním krokem automatické analýzy je vyčlenění jednotek, z nichž je text z hlediska programu automatické analýzy složen. V případě automatického zpracování korpusů se v prvním kroku jedná o tokenizaci – tj. rozčlenění textu na jednotky (pozice), které budou předmětem další analýzy. Pro potřeby automatické morfologické analýzy se pracuje s lingvisticky zjednodušujícím, nicméně automaticky dobře zpracovatelným pojetím slovního tvaru v textu, který je definován jako řetězec znaků dané abecedy oddělený z obou stran oddělovači (mezery, některé znaky). Takto technicky omezená definice slovního tvaru má při další interpretaci (značkování) slovních tvarů automatickou morfologickou analýzou své důsledky na všech úrovních (srov. níže). Automatická morfologická analýza[2] Ve druhém kroku je každé z takto definovaných jednotek (token) přiřazena interpretace.[3] Při aplikaci na jazykový materiál korpusů se ukázalo, že celá řada interpretací, které byly přiřazeny jednotkám na úrovni strojových slovníků, se plně nekryje s bohatstvím přirozeného jazyka, jak je prezentuje korpus. Ukázalo se, že s ohledem na zkušenosti z konkrétní praxe, je třeba některé interpretace zpětně verifikovat. K automatickému značkování a lemmatizaci se používá programů (automatických morfologických analyzátorů). Ty většinou testují každou jednotku (token) proti „slovníku“ ve formátu word + lemma + tag, kde word je jednoduchý slovní tvar, lemma je základní tvar odpovídající jednoduchému slovnímu tvaru a tag je morfologická značka, a přiřazují jí interpretace nalezené ve slovníku. Příklady: Mějme tvary jako který, je, má, spíš. U tvaru který jsou ve slovníku ponechána stranou funkční rozlišení (zájmeno vztažné, tázací atd.), nicméně existují tři možné interpretace na rovině spisovného úzu a řada dalších možných interpretací substandardních (viz ). Standardní interpretace: word: lemma: tag: který který P4MS1----------- který který P4IS1----------- který který P4IS4----------- Substandardní interpretace: word: lemma: tag: který který P4MP1---------6- který který P4MP4---------6- který který P4IP1---------6- který který P4IP4---------6- který který P4NS1---------6- který který P4NS4---------6- který který P4NP1---------6- který který P4NP4---------6- který který P4FS2---------6- který který P4FS3---------6- který který P4FS6---------6- který který P4FP1---------6- který který P4FP4---------6- Podobně tvary je, má, spíš mají více interpretací, přičemž formální homonymie se týká jak interpretace na úrovni slovního druhu, tak jednotlivých slovnědruhově závislých gramatických významů. Standardní interpretace: word: lemma: tag: je být VB-S---3P-AA---I je on PPXP4--3-------- je on PPNS4--3-------- word: lemma: tag: má mít VB-S---3P-AA---I má můj PSFS1-S1------1- má můj PSFS5-S1------1- má můj PSNP1-S1------1- má můj PSNP4-S1------1- má můj PSNP5-S1------1- word: lemma: tag: spíš spíš TT-------------- spíš spíše Dg-------2A----- spíš spát VB-S---2P-AA---I Takto prováděná automatická morfologická analýza je obecně nejednoznačná. Většině jednotek je přiřazena více než jedna interpretace. Druhým krokem je desambiguace[4] (disambiguace, zjednoznačnění). Desambiguaci je opět možno provádět buď ručně, nebo pomocí automatických nástrojů. Pokud je automatizována, rozlišujeme různé metody, které se pro zjednoznačnění používají. Rozšířené a užívané jsou metody matematické statistiky. Na opačném pólu stojí metody, které se opírají o pravidla fungování přirozeného jazyka. Výsledky desambiguace jsou sice velmi uspokojivé a mohou dobře sloužit uživatelům korpusů, nejsou ovšem nikdy zcela bezchybné. Chybnou desambiguaci vidíme na následujících příkladech z korpusů ČNK, a sice SYN2000 a SYN2010. Vidíme, jak je tvar v kontextu láska v řadě zobrazených vyhledaných dokladech mylně interpretován jako tvar slovesa mít. Od chybné desambiguace na úrovni lemmatu se pak odvíjí též chybná desambiguace na úrovni morfologické značky. Tvar je označen za 3. osobu singuláru indikativu prézentu aktiva (VB-S---3P-AA---, resp. VB-S---3P-AA---I).[5] V tomto textu se budeme snažit upozornit čtenáře na některé typy chyb a hlavně ukážeme na jednotlivých příkladech, jak je možné kombinacemi vyhledávacích strategií vyloučit zkreslení obrazu jazyka v důsledku chyb v anotacích. Popis morfologických značek používaných v synchronních anotovaných korpusech ČNK (SYN2000, SYN2005, SYN2010, SYN2006PUB, SYN2009PUB) uvedený na webových stránkách ČNK (viz výše) zachycuje pouze přehled možných vyplnění příslušných pozic se stručnou (řádkovou) charakteristikou vysvětlující, co se pod jednotlivými slovními charakteristikami značek vlastně skrývá. Teoretik korpusové lingvistiky G. Leech sestavil „sedmero“ anotačních schémat (Leech 1993), ve kterém mimo jiné uvádí, že značkování nesmí být poslední instancí výzkumu, ale má být praktickou pomůckou, která napomáhá uživatelům v rychlejší orientaci v obrovských datech. Na tomto místě bychom rádi uvedli některá fakta, která mohou uživatelům jazykových korpusů pomoci orientovat se ve výsledcích vyhledávací praxe pomocí tagů. Každá značka je řetězcem 16 pozic (v korpusu SYN2000 je pozic pouze 15). Každá z pozic odpovídá více méně nějaké kategorii známé z gramatiky (slovní druh, jmenný rod, osoba, stupeň). Pozice jsou vyplněny (nebo nevyplněny) ve vzájemných souvislostech. Vyplnění pozice z lingvistického hlediska odpovídá konkrétním gramatickým významům příslušných kategorií. Výsledky anotační praxe jsou ovšem závislé na tom, jak jsou jednotky ve slovníku automatického morfologického analyzátoru označkovány. Tato praxe je někdy jedním z možných řešení složitějšího problému. Naším cílem bude poukázat na to, jak některá ze zvolených řešení mohou být svým způsobem omezená vzhledem k bohatství jazyka, jak jej zachycují korpusy. Budeme postupovat systematicky a probereme jednotlivé pozice tak, aby bylo patrné, jaké informace obsahují, jaké skutečnosti zachycují a které naopak ponechávají stranou. Budeme si všímat ryze technických řešení, záměrných zjednodušení i patrných opomenutí. Lemmatizace a pozice 1 morfologické značky Podrobnější komentář vyžaduje 1. pozice. Ta nese název „slovní druh“ a lze podle ní vyhledávat i tehdy, zvolíme-li jako Typ dotazu pro vyhledávání v korpusech atribut pos (part of speech), nebo tag, přičemž vyplníme právě pouze 1. pozici. Na 1. pozici může jako charakteristika slovního druhu figurovat a) značka pro jeden z 10 běžně školsky uváděných slovních druhů, b) X – neznámý slovní druh a c) Z – interpunkce. Běžný uživatel korpusu by si měl být vědom toho, že slovnědruhová kategorizace je provedena na základě automatické lemmatizace, značkování a desambiguace. Charakteristika slovního druhu je taková a pouze taková, jaká je u přiřazeného lemmatu ve slovníku. Za příklad poslouží tvary slov jiný a druhý. V souladu s českými výkladovými slovníky se jiný chápe jako adjektivum, přestože např. v Mluvnici češtiny 2 (Dokulil a kol. 1987) je řazeno k zájmenům (alterátorům), druhý buď jako adjektivum, nebo jako číslovka řadová (viz níže). Podobných jevů je celá řada. Problematické jsou zejména případy slovnědruhových přechodů mezi neohebnými slovními druhy (např. adverbii a částicemi, viz výše tvar spíš, též níže prepozicionalizace). Desambiguační manuály pro ruční práci jsou složité a pro mnohé badatele sporné. Praktickým důsledkem pro běžného uživatele by měla být ostražitost. V řadě případů jde o jednotlivá slova. Pokud je uživatel chce zkoumat z aspektu slovnědruhové charakteristiky, může postupovat bez použití morfologických anotací, popřípadě se zřetelem k tomu, že anotace mohou obsahovat chyby, popřípadě řešení, s nimiž nesouhlasí. Chyby v lemmatizaci v naprosté většině případů korespondují s chybami ve značce. V zásadě platí, že je-li něco v nepořádku s lemmatem, je něco v nepořádku i s morfologickou značkou. Z tohoto pravidla se vyděluje jedna velká skupina a dále několik menších skupinek anomálií. Pro velkou skupinu slovních tvarů neexistuje ve slovníku morfologického analyzátoru žádná interpretace. Těmto tvarům je automaticky jako lemma přiřazen jejich tvar a jako značka X (neznámý, nerozpoznaný slovní druh). Příklad: Zadáme-li např. v korpusu SYN2010 dotaz na vyhledání slov, která mají na první pozici ve značce X, dostaneme seznam více než milionu slovních tvarů (cca. 1 % všech tvarů), které nebyly identifikovány ve slovníku automatického morfologického analyzátoru. Z frekvenčního seznamu je patrné že jde a) o slova cizího jazyka (zejména anglická), b) propria a c) ostatní. Velké procento slov má frekvenci 1. Z hlediska korpusové lingvistiky je třeba mít na zřeteli, že s každým novým korpusem je pravděpodobné, že takový seznam nebude prázdný. Oprávněnost tohoto předpokladu je založena na znalostech o výskytu tzv. hapax legomena (slov s frekvencí 1), který zůstává konstantní s nárůstem rozsahu textů. Vidíme, že problémem není na rozdíl od případů výše uvedených chyb v desambiguaci mnohoznačnost analyzovaného tvaru z hlediska mnohočetných slovníkových interpretací, ale naopak nedostatečnost slovníku. Tuto skupinu slov lze dobře použít například pro výzkum okrajových jevů morfologie i slovotvorby (viz níže). Jednu z malých skupin tvoří slova označkovaná tzv. guessery. Guesser neboli hadač je program, který na základě různých postupů přiřazuje interpretace slovům, která nebyla zachycena v prvním kroku automatické morfologické analýzy, protože nejsou ve slovníku automatického analyzátoru. Některé důsledky testování hadačů lze vidět ve značkování a lemmatizaci korpusu SYN2005. Řada slov má přiřazeno lemma a morfologickou značku, přičemž prokazatelně nemůže jít o problém desambiguace (tj. neexistuje kontext, v němž by slovní tvar mohl mít uvedené lemma a značku). Chyby hadačů (zejména těch, které používají statistické metody) lze poměrně těžko odhalit. Příklad: Naprostou náhodou při vyhledávání dokladů na slovotvorný typ substantiv na -č jsme si všimli vysokého procenta hledaných slov označkovaných v korpusu SYN2005 jako adverbia (D). Uvádíme jejich seznam: lemma: tag: ## Šikmookáč Db-------------- 6 překlápěč Db------------8- 4 šikmookáč Db------------8- 3 maskáč Db------------8- 2 svážeč Db-------------- 2 cibuláč Db------------8- 2 spoluspáč Db-------------- 2 skupináč Db------------8- 2 spoluspáč Db------------8- 1 Překlápěč Db-------------- 1 Ceckáč Db-------------- 1 procházeč Db------------8- 1 šikmookáč Db-------------- 1 Rychlovyvíječ Db-------------- 1 skupináč Db-------------- 1 hrobník-kopáč Db-------------- 1 sedmispáč Db-------------- 1 doprovazeč Db------------8- 1 autor-vypravěč Db-------------- 1 básník-vyprávěčDb-------------- 1 bodlináč Db-------------- 1 mrkváč Db-------------- 1 inženýr-svářeč Db-------------- 1 gambáč Db------------8- 1 řemenáč Db-------------- 1 závináč Db-------------- 1 kucháč Db------------8- 1 ceckáč Db-------------- 1 on-hráč Db------------8- 1 superdříč Db------------8- 1 zaražeč Db-------------- 1 tutáč Db-------------- 1 bobkáč Db-------------- 1 čajpíč Db-------------- 1 neženáč Db-------------- 1 pruháč Db------------8- 1 šírokokloboukáčDb------------8- 1 odbíječ Db------------8- 1 pobízeč Db-------------- 1 propouštěč Db------------8- 1 agent-hráč Db-------------- 1 doprovazeč Db-------------- 1 pojížděč Db------------8- 1 rozjížděč Db------------8- 1 vegáč Db-------------- 1 Povšimněme si také nesrovnalostí v lemmatizaci a značkování slov, kterých se tato evidentně chybná anotace týká. Další malou skupinku tvoří chyby, jejichž vznik je nepochopitelný pro toho, kdo neví nic o historii vývoje nástrojů automatického zpracování přirozeného jazyka. Na následujícím obrázku vidíme doklady poměrně řídké „chyby“, kdy substantivům rodu ženského vzniklým přechylováním od substantiv rodu mužského je připojena značka odpovídající kategorii rodu slovního tvaru a lemma odpovídající fundujícímu maskulinu. Domníváme se, že tento stav je důsledkem aplikace pravidel pro automatické generování pravidelných derivací při výstavbě slovníku automatického morfologického analyzátoru. V praxi se jednalo o vybrané typy paradigmatických derivací jako podstatná jména slovesná tvořená od základů shodných s pasivním příčestím, adjektiva tvořená od těchto základů, adjektiva tvořená od přechodníků, tvary II. a III. stupně adjektiv a adverbií, slovesné (a nepravidelně i další) tvary negativní tvořené pravidelně prefixem ne-, posesivní adjektiva tvořená od maskulin a feminin (názvů osob) sufixy -ův a -in. Ve výše uvedených případech lze ovšem sledovat jednotnou praxi lemmatizace a morfologického značkování. Tak např. u sloves mají tvary s prefixem ne- jako lemma sloveso bez prefixu ne-, tvary II. a III. stupně adjektiv a adverbií mají (až na výjimky) lemma tvar pozitivu. Lemmatem deverbativních adjektiv a substantiv je příslušné adjektivum (substantivum). Lemmatem posesivních adjektiv je posesivní adjektivum. Z tohoto hlediska je ponechání lemmatu – fundujícího slova – odchylkou od běžné praxe. Poslední velmi těžce zjistitelnou skupinou anomálií jsou případy nesrovnalostí, které se dostaly do anotovaných korpusů ručními zásahy do automaticky zpracovaných dat na různých úrovních. Na úrovni tagu si některé pozice odpovídají. Platí, že jestliže na pozici A je B, pak na pozici X musí být Y nebo Z. Chyby způsobené ručními opravami mohou být ovšem i v souladu s pravidly platnými pro formu značky, pak je lze odhalit velmi těžko. Tato poslední skupina je pro většinu uživatelů nezajímavá, uvádíme ji pro úplnost přehledu možných příčin chyb v lemmatizaci a anotaci. Pozice 2 – Detailní určení slovního druhu Na 2. pozici je uveden poněkud nepřehledný popis tzv. „Detailního určení slovního druhu“. Oč jde? Pod touto nálepkou se skrývá a) subklasifikace tvarů slovesných (slovesných subparadigmat), b) subklasifikace adjektiv dle typu skloňování a slovotvorných charakteristik (koresponduje s pozicí 10 Stupeň a pozicí 6 Přivlastňovací rod), c) subklasifikace druhů zájmen (koresponduje s pozicí 6 a 7), d) subklasifikace druhů číslovek, e) subklasifikace adverbií dle +/– derivace komparativu a superlativu (koresponduje s pozicí 10 Stupeň), f) různé. Pro lepší přehled uvedeme tabulky pro a) – e[6]). a) Detailní určení slovního druhu – klasifikace slovesných tvarů POS Detailní určení slovního druhu (SUBPOS) V [Bcefimpqst] J , značka (tag) slovní druh (1. pozice) slovesný tvar (2. pozice) Vf.* sloveso infinitiv VB.* sloveso prézent/futurum (indik.) Vt.* sloveso prézent/futurum arch. tvar (indik.) Vi.* sloveso imperativ Vp.* sloveso l-ové příčestí (vč. tvarů s -s) Vq.* sloveso l-ové příčestí (vč. tvarů na -ť) Vs.* sloveso pasivní příčestí (vč. tvarů s -s) Ve.* sloveso přechodník přítomný Vm.* sloveso přechodník minulý Vc.* sloveso kondicionál sl. být (bych, ...) J,.* spojka spojky podřadicí vč. aby, ... kdyby, ... b) Detailní určení slovního druhu – klasifikace adjektiv POS Detailní určení slovního druhu (SUBPOS) A [ACGMOU] značka (tag) slovní druh (1. pozice) AA.* adjektivum adjektivum obyčejné AC.* adjektivum adjektivum jmenný tvar AG.* adjektivum adjektivum odvozené od přech. přít. AM.* adjektivum adjektivum odvozené od přech. min. AU.* adjektivum adjektivum přivlastňovací (na „-ův“ i „-in“) AO.* adjektivum samostatně stojící zájmena „svůj“, „nesvůj“, „tentam“ c) Detailní určení slovního druhu – klasifikace druhů zájmen POS Detailní určení slovního druhu (SUBPOS) P [01456789DEHJKLPQSWYZ] POS&SUBPOS tvary –příklady popis P0 naň spřežka předložka+osobní zájmeno on P1 jehož vztažné zájmeno jehož P4 jaký, který tázací zájmeno čí, čípak, jaký, jakýpak, jakýž, jakýže, který, kterýpak, kterýž, ... P5 něj osobní zájmeno on tvary po předložce (n-) P6 sebe zvratné zájmeno tvary sebe, sobě, sebou P7 se, si zvratné zájmeno tvary se, si, ses, sis P8 svůj přivlastňovací zvratné zájmeno svůj P9 něhož vztažné zájmeno jehož tvary po předložce (n-) PD tento ukazovací zájmena ten, tento, takový, tenhle, onen, týž, tentýž, takovýto, takovýhle, tenhleten, toť, tamten, taký, tamhleten, tadyten, tuhleten PE což vztažné zájmeno což PH mě krátké (příklonné) tvary osobních zájmen mi, mě, ti, tě, ji, je, ... PJ jenž vztažné zájmeno jenž PK kdo vztažné/tázací zájmeno kdo, kdopak, kdožpak, kdož, kdos PL všechen zájmena vymezovací (limitativa) všechno, všecek, sám, samý, veškerý PP ty osobní zájmena já (my), ty (vy), on, tvar tys PQ co vztažné/tázací zájmeno co, copak, cožpak, cos, což PS můj přivlastňovací osobní zájmena můj, tvůj, jeho, náš, váš PW nic záporná zájmena nic, žádný, nikdo, pranic, nijaký, pražádný, nižádný PY oč spřežka vztažné/tázací zájmeno předložka+č (oč, nač, zač, več, ...) PZ nějaký, něco neurčitá zájmena některý, něco, nějaký, někdo, jakýsi, jakýkoli, jakýkoliv, cosi, cokoliv, málokdo, kdosi, kdokoli, kterýkoli, leccos, kdokoliv, ničí, kterýkoliv, všelijaký, kdekdo, málokterý, leckdo, leckterý, něčí, ledacos, kdejaký, kterýsi*, jakýs*, kdeco, máloco, čísi, takýs*, bůhvíjaký, ledajaký, bůhvíco, lecjaký, všelicos, kdovíjaký, lecco, kdekterý, kdože, kdovíco, ledasco, ký, ledaco, ledaskdo, nevímjaký, bůhvíkdo, kdovíkdo, všelico, čertvíkdo, čertvíco, číkoliv, nevímkdo, číkoli, nevímčí, ledakdo, kdovíčí, zřídkakdo, ledakterý, čertvíjaký, všelikerý d) Detailní určení slovního druhu – klasifikace druhů číslovek POS Detailní určení slovního druhu (SUBPOS) C 3=?adhjklnouvwyz} POS&SUBPOS tvary –příklady popis C= 1 arabské číslice C} XIV římské číslice Ca mnoho tvary „číslovky“ mnoh-o,-a, ... Cd čtverý druhové číslovky dvojí, obojí, trojí a další tvořené sufixem -erý Ch jedny druhová číslovka jedny Cj čtvero úhrnné číslovky dvé, obé, tré a další tvořené sufixem -ero Ck čtvery souborové číslovky dvoje, oboje, troje a další tvořené sufixem -ery Cl tři základní číslovky jeden, dva, oba, tři, čtyři Cn pět základní číslovky pět a výše Co tolikrát číslovka zájmenná ukazovací násobná tolikrát Cr druhý číslovky řadové Cu kolikrát číslovka zájmenná tázací násobná kolikrát Cv sedmkrát číslovky určité násobné .*-krát Cw nejeden nejeden Cy desetina číslovky dílové vyjadřující určitý počet .*-ina Cz kolikátý číslovka zájmenná tázací/vztažná řadová kolikátý C? kolik číslovka kolik e) Detailní určení slovního druhu – klasifikace adverbií POS Detailní určení slovního druhu (SUBPOS) D bg POS&SUBPOS tvary – příklady popis Db nahoru všechna příslovce, která nelze stupňovat Dg rychle příslovce, která lze stupňovat Pozice 3 – Jmenný rod - neurčuje se F femininum (ženský rod) H femininum nebo neutrum (tedy nikoli maskulinum)* I maskulinum inanimatum (rod mužský neživotný) M maskulinum animatum (rod mužský životný) N neutrum (střední rod) Q femininum singuláru nebo neutrum plurálu (pouze u příčestí a jmenných adjektiv)* T maskulinum inanimatum nebo femininum (jen plurál u příčestí a jmenných adjektiv)* X libovolný rod (F/M/I/N) Y maskulinum (animatum nebo inanimatum)* Z ,nikoli femininum‘ (tj. M/I/N; především u příslovcí)* * Tato značka je k dispozici pouze v korpusech: SYN2000, SYN2005, SYN2006PUB, ORWELL. Kromě značek jednoznačně určujících rod tak, jak jsme na to zvyklí z běžné školské praxe, tedy [MIFN], jsou v některých starších korpusech hodnoty nejednoznačné.[7] V následující tabulce uvedeme přehled vztahu nejednoznačných hodnot kategorie rodu k obsazení první pozice (ke slovnímu druhu) a následně vysvětlíme, pokud možno, proč je tomu tak (viz níže). POS Jmenný rod [PCV] H [AV] T [AV] Q [NAPCV] X [APCV] Y [PC] Z Pozice 4 – Číslo - neurčuje se D duál (pouze 7. pád feminin) P plurál (množné číslo) S singulár (jednotné číslo) W pouze v kombinaci s jmenným rodem ‘Q’ (singulár pro feminina, plurál pro neutra)* X libovolné číslo (P/S/D) * Tato značka je k dispozici pouze v korpusech: SYN2000, SYN2005, SYN2006PUB, ORWELL. Následující část textu může čtenář, kterého (alespoň prozatím) nezajímají podrobnosti týkající se proměn morfologické anotace, ponechat stranou. Do textu byly zařazeny proto, že odborníkům podílejícím se na automatickém značkování a desambiguaci korpusů ČNK jsou tato fakta rámcově známa, široké veřejnosti ovšem nikoli. Výklad se snaží nezabředat do přílišných detailů, chce jen upozornit na to, co v běžně dostupných manuálech není explicitně uvedeno. Lepší přehled mohou samozřejmě podat odborné články autorů, kteří se na anotační praxi v průběhu let podíleli. Vzhledem k tomu, že popisy případů, kdy je ve značce ponechána nejednoznačnost, jsou poněkud lakonické, rádi bychom upozornili na důvody, které k zavedení těchto nejednoznačných hodnot vedly. Především si opět musíme připomenout, že automatická morfologická analýza je vysoce nejednoznačná. Některé typy víceznačností jsou systémové (platí např. pro všechna slovesa/slovesné tvary). Tak např. všechny přechodníky v češtině mají pouze tři tvary a všechna participia l-ová a pasivní pouze pět tvarů pro vyjádření osmi (čtyři rody x dvě čísla) významů reprezentovaných jednoznačnou morfologickou značkou. To, co platí pro příčestí, platí i pro některá adjektiva, tedy pro jejich jmenné tvary, pokud budeme brát v úvahu pouze tvary nominativu a rezignujeme na akuzativy. Velká část číslovek je ve vztahu ke kategorii rodu a čísla defektní a desambiguovat je představuje problém i pro manuální analýzu, jak jsme v praxi ověřili při ruční desambiguaci Korpusu soukromé korespondence (srov. více Hladká a kol. 2005 a Osolsobě 2006). Zájmena a do jisté míry i číslovky představují soubor velmi frekventovaných jednotek (lemmat) s vysoce ambiguitní zájmennou, číslovkovou, či adjektivní flexí. Za překlep v popisu morfologických značek pokládáme vysvětlující text k hodnotě Z na třetí pozici rod, a sice „především u příslovcí“, značka se totiž ve všech přístupných korpusech řady SYN vyskytuje pouze u zájmen a číslovek zájmenné flexe (vzory ten a náš) a tvrdé složené adjektivní flexe (vzor mladý), zřejmě tedy zde má stát „především u zájmen“. Vztahy mezi prvními čtyřmi pozicemi podrobněji ukazují následující tabulky. V první tabulce je dle pozic (sloupce) uvedeno obsazení prvních čtyř pozic ambiguitní hodnotou kategorie rodu. Druhá tabulka mapuje frekvenční zastoupení lemmat v jednotlivých korpusech. Následuje interpretace frekvenční distribuce lemmat. Rod X – tabulka 1 POS Jmenný rod Číslo N N X [SPX] A A X [PX] A U X X P [DJLPSWZ14589] X [PX] C [dhl] X [SPX] V [em]* X X Vp.X.* – výsledky guesserů chili/chit/ ... Rod X – tabulka 2 SYN2000 SYN2005 SYN2006PUB NNX.* 3 44625 153 AAX.* 179 45338 937 AUX.* 3105 2 4 P.X.* 57 634 60 C.X.* 14 1949 20 V[em]X.* 875 1166 697 Počty lemmat substantiv (NN.*), obyčejných adjektiv (AA.*), zájmen a číslovek v korpusu SYN2005 vysoce převyšující počty lemmat v ostatních korpusech. Je to způsobeno testováním hadačů, které bylo součástí značkování korpusu SYN2005. Naopak k dramatickému rozdílu ve značkování posesivních adjektiv (AU.*) přispěla zřejmě systémová úprava morfologického analyzátoru. S ohledem na rozdíl zastoupení žánrů v korpusu SYN2000 a SYN2005 nepřekvapí, že v obou vyvážených korpusech je vyšší počet lemmat tvarů přechodníků než v korpusu žánrově kompaktním, ani to, že nejvyšší počet lemmat těchto tvarů má právě korpus s nejvyšším zastoupením beletrie (SYN2005). Rod Y – tabulka 1 POS Jmenný rod Číslo A C Y S A O Y S P [DJLPSWZ48] Y [SP] C [dhlwz] Y [SP] V [emqps] Y [SP] Rod Y – tabulka 2 SYN2000 SYN2005 SYN2006PUB ACY.* 64 89 86 AOY.* 2 3 3 P.Y.* 57 220 63 C.Y.* 6 16 13 V.Y.* 14006 17936 14309 Rozdíly v počtech lemmat odpovídají rozdílnému lexiku. Není tak patrný podíl guesserů. Rod T – tabulka 1 POS Jmenný rod Číslo A C T P V [pqs] T P Rod T – tabulka 2 SYN2000 SYN2005 SYN2006PUB ACTP.* 75 79 84 V.TP.* 9680 11058 10473 Rozdíly v počtech lemmat odpovídají rozdílnému lexiku. Hadače žádnou významnou roli nehrají. Rod Q – tabulka 1 POS Jmenný rod Číslo A C Q W V [pqs] Q W Rod Q – tabulka 2 SYN2000 SYN2005 SYN2006PUB ACQW.* 87 704 92 V.QW.* 11856 14475 12236 Femininum singuláru nebo neutrum plurálu (pouze u příčestí a jmenných adjektiv). Hadače jsou opět důvodem pro patrný nepoměr počtu tvarů označkovaných jako adjektiva v korpusu SYN2005. Prohlédneme-li si označkované tvary, zjistíme, že jde o řadu překlepů, kdy řetězec znaků (token pro automatickou analýzu) končí na ý. Toto zakončení z lingvistického hlediska nutně implikuje buď slovo s adjektivním skloňováním tvrdé složené flexe, nebo částice (prý), či citoslovce (hý, čehý). Pokud má jít o zakončení tvaru skloňovaného adjektivně, není tento tvar jednoznačný z hlediska rodu. Rozhodně ale nejednoznačnost v rodu neodpovídá nejednoznačnosti značky Q. Důvodem bude pravděpodobně to, že hadače nebyly založeny na žádné, nebo jen velmi málo propracované lingvistické bázi (kategorii slovního druhu dle zakončení jedním znakem lze v češtině jednoznačně určit pouze v minimu případů), a že naopak byly budovány na základě metod matematické statistiky (více Hlaváčová 2001). Rod H – tabulka 1 POS Jmenný rod Číslo P [S8] H [SP] C l H P V [em] H S Rod H – tabulka 2 SYN2000 SYN2005 SYN2006PUB P.H.* 3 (můj, tvůj, svůj) 3 (můj, tvůj, svůj) 2 (můj, tvůj) C.H.* 2 (dvě, oba) 3 (dvě, oba, voba) 3 (dvě, oba, voba) V.H.* 1051 1266 566 S ohledem na rozdíl zastoupení žánrů v korpusu SYN2000 a SYN2005 nepřekvapí, že v obou vyvážených korpusech je vyšší počet lemmat tvarů přechodníků než v korpusu žánrově kompaktním. Rod Z – tabulka 1 POS Jmenný rod Číslo P [DJLHPSWZ14589] Z S C [lwz] Z S Rod Z – tabulka 2 SYN2000 SYN2005 SYN2006PUB P.ZS.* 57 68 60 C.ZS.* 4 33 7 Vyšší počet číslovkových lemmat v korpusu SYN2005 je opět (dle dat) možno přičíst na vrub testování guesserů. Korpus SYN (není referenční a je na něm průběžně testována desambiguace řízená pravidly) a korpusy SYN2009PUB i SYN2010 ambiguitní hodnoty pro rod a číslo nemají. Byly odstraněny systematicky (více Jelínek 2008, Jelínek – Petkevič 2011, Skoumalová 2011). Pozice 5 – Pád - neurčuje se 1 nominativ (1. pád) 2 genitiv (2. pád) 3 dativ (3. pád) 4 akuzativ (4. pád) 5 vokativ (5. pád) 6 lokativ (6. pád) 7 instrumentál (7. pád) X libovolný pád (1/2/3/4/5/6/7)* * Tato značka je k dispozici pouze v korpusech: SYN2000, SYN2005, SYN2006PUB, ORWELL. Pád X – tabulka 1 POS Jmenný rod Číslo N N [MIFNX] [SPX] A [AU] [IFX] [PX] P [S14] [FX] [SX] C [an] - [-S] R R - - Pád X – tabulka 2 SYN2000 SYN2005 SYN2006PUB NNMSX.* 2 3033 7 NNMPX.* 10 8166 24 NNMXX.* 140 6940 363 NNISX.* 14 3802 32 NNIPX.* 36 6563 62 NNIXX.* 999 22333 1512 NNFSX.* 12 4778 71 NNFPX.* 58 8475 85 NNFXX.* 1332 47544 2332 NNNSX.* 6 2042 225 NNNPX.* 9 1418 28 NNNXX.* 1221 21268 2350 NNXXX.* 3 42532 148 AAIXX.* 1 1 1 AAFXX.* 3 3 3 AAXPX.* 1 2 2 AAXXX.* 178 45336 935 AUXXX.* 3105 8 4 PSXXX.* 1 (jeho) 339 4 PSFSX.* 1 (jeho/její) 1 1 P1XXX.* 1(jenž) 1 1 P1FSX.* 1 (jejíž/jenž) 1 1 P4XXX.* 1 (co) 1 1 Ca--X.* 1 (moc) 2 (mnoho, moc) 2 (moc, mnoho) Cn-SX.* 1 (polovic) 46 1 RR--X.* 8 4177 15 Značku X – libovolný pád mají substantiva a adjektiva nesklonná, zkratky a některá další. U zájmen ji mají nesklonná zájmena vztažná jenž a co a nesklonná slova moc a polovic hodnocená jako číslovky. Hodnota X na pozici 5 se vyskytuje u předložek z cizojazyčných textů. Vyšší počet lemmat v korpusu SYN2005 je opět (dle dat) možno přičíst na vrub testování guesserů. Pozice 6 – Přivlastňovací rod Rody mužský neživotný a střední se nikdy nevyskytují samostatně. 'M' se může vyskytnout jen u přivlastňovacích adjektiv (ne u příslovcí).[8] - neurčuje se F femininum (ženský rod) M maskulinum animatum (rod mužský životný) X libovolný rod (F/M/I/N) Z 'nikoli femininum' (tj. M/I/N; u přivlastňovacích adjektiv)* * Tato značka je k dispozici pouze v korpusech: SYN2000, SYN2005, SYN2006PUB, ORWELL. Přivlastňovací rod – tabulka 1 POS Jmenný rod Číslo Pád Přivl. r. A U [MIFNX] [SPX] [1234567X] [MF] P [1S] [MIFNZX] [SPXD] [123467X] [FXZ] U adjektiv posesivních je přivlastňovací rod maskulinum u derivátů na -ův a u lemmatu Pučálkovic, přivlastňovací rod femininum mají deriváty na -in. U zájmen se jedná o přivlastňovací zájmena jeho, její, jejich. Pozice 7 – Přivlastňovací číslo - neurčuje se P plurál (množné číslo) S singulár (jednotné číslo) Uvádí se pouze u posesivních (na druhé pozici ve značce je uvedeno S) a vztažných posesivních (na druhé pozici ve značce je uvedeno 1) zájmen, P[S1].* (můj, tvůj, náš, váš, její, jejich, jenž, jeho a překvapivě též u některých tvarů my[9], které jsou prokazatelně dle kontextu tvary českého osobního zájmena 1. osoby plurálu). Pozice 8 – Osoba - neurčuje se 1 1. osoba 2 2. osoba 3 3. osoba X libovolná osoba (1/2/3)* * Tato značka je k dispozici pouze v korpusech: SYN2000, SYN2005, SYN2006PUB, ORWELL. Osoba X – tabulka 1 POS osoba V [pqs] X Značku libovolná osoba mají všechna participia l-ová a pasivní. Pozice 9 – Čas - neurčuje se F futurum (budoucí čas) H minulost nebo přítomnost (P/R)* P prézens (přítomný čas) R minulý čas X libovolný čas (F/R/P)* * Tato značka je k dispozici pouze v korpusech: SYN2000, SYN2005, SYN2006PUB, ORWELL. Čas X – tabulka 1 POS čas V s X Značku libovolný čas mají všechna participia pasivní. Pozice 12 – Aktivum/pasivum - neurčuje se A aktivum nebo 'nikoli pasivum' P pasivum Na tomto místě se pokusíme rekapitulovat stručně pro potřeby běžných uživatelů korpusů to, co jsme už publikovali o vztazích hodnot morfologických značek sloves v šíře zaměřené studii srovnávající tagsety používané pro značkování českých a slovenských korpusů (Osolsobě 2007^1). Pro větší přehlednost opět uvedeme tabulky, v nichž tentokrát poukážeme na vztah mezi pozicí 2 (Detailní určení slovního druhu, tedy konkrétně těmi hodnotami, které se týkají značkování dílčích slovesných subparadigmat), pozice 9 (Čas) a pozice 12 (Způsob). POS Slovesný tvar Čas Aktivum/pasivum V [Bt] F A V [Bt] P A V [pq] R A V s H P V s X P V anotaci korpusů řady SYN mají značku VB......F.*, tedy budoucí čas (F), vyznačeny tvary budoucího času slovesa být používané též pro tvoření analytických tvarů futura (budu, budeš, bude, ...) a tvary některých nedokonavých sloves, které mohou tvary pomocí tvarů s prefixem po- + indikativ prézentu aktiva tvořit tzv. syntetické futurum. Ostatní tvary zařazené značkou jako „slovesný tvar přítomného nebo budoucího času“ (VB.*) mají u atributu čas vyplněnu hodnotu prézens (přítomný čas). Problematické se nám zdá, že ve všech korpusech je nejednoznačně vyřešeno značkování celé řady tvarů syntetického futura. Značku tag=“VB......F.*” a lemma bez prefixu po- mají totiž pouze tvary cca 20 sloves, jako např. jít/půjde, jet/pojede, nést/ponese, běžet/poběží, letět/poletí, téct/poteče, vézt/poveze, hrnout/pohrne (se), lézt/poleze, plout/popluje, cestovat/pocestuje, stěhovat/postěhuje, řítit/pořítí (se), trvat/potrvá a plazit/poplazí (se). Značku tag=“Vi......-.*” a lemma bez po- mají tvary sloves jít/pojď, slyšet/poslyš, jet/pojeď, lézt/polez, běžet/poběž, letět/poleť, nést/pones, stěhovat/postěhuj. Ze sond do materiálu všech sledovaných korpusů je ovšem patrné, že by sem měla patřit ještě řada dalších slovesných tvarů. Problémy v lemmatizaci i značkování jsou patrně způsobeny nedostatky ve slovníku automatického morfologického analyzátoru. Jedná se totiž, jak je zřejmé, o otevřenou skupinu sloves, která takto futurum tvoří. Doplnění slovníku by ovšem patrně velmi znesnadnilo desambiguaci, protože v řadě případů se vyskytuje homonymie slovesných tvarů tvořených prefixem po- se slovesnými tvary tvořícími futurum prefixem po- (např. tak večer do díry ... x ... které pikantní marmeládou ...). V korpusech SYN2009PUB a SYN2010 mají F na pozici 9 navíc ještě slovesa v pasivním příčestí, a to jak dokonavá, tak nedokonavá (více Petkevič 2010). Minulý čas (R) mají vyplněny výhradně tvary minulého příčestí (včetně tvarů s volným morfémem -s signalizujícím hodnotu 2. osoby sg.), tedy ty, které mají na úrovni slovesného tvaru vyplněno Vp.* nebo Vq.*. Zdá se nám, že jde o redundantní informaci. V SYN2000/SYN2005/SYN2006PUB mají kategorii času vyznačena n-/t-ová participia. Příslušná značka se realizuje následovně: na 9. pozici (ČAS) je hodnota X (libovolný čas) u participií n-/t-ových. Odlišná hodnota H (minulost nebo přítomnost) je uvedena u následujících slovních tvarů: Vitas/vít/VsFS---2H-AP---/5, litas/lít/VsFS---2H-AP---/4, Vitos/vít/VsNS---2H-AP---/3, Plutos/plout/VsNS---2H-AP---/2, minutos/minout/VsNS---2H-AP---/1, nadřazenos/nadřadit/VsNS---2H-AP---/1, bitas/bít/VsFS---2H-AP---/1, rytas/rýt/VsFS---2H-AP---/1, velenos/velet/VsNS---2H-AP---/1, přenos/přít/VsNS---2H-AP---/1, Kutas/kovat/VsFS---2H-AP---/1, Rytos/rýt/VsNS---2H-AP---/1, Jatas/jmout/VsFS---2H-AP---/1. Jde zřejmě o pokus zachytit na úrovni automatické morfologické analýzy hypotetické tvary typu bitas-li byla = byla jsi bita, minutos rozumem? = minuto jsi rozumem? jatas byla = byla jsi jata, ... Z nahlédnutí do konkordančního seznamu je patrné, že se o takové případy nejedná. Jde o chybné značkování a automatická morfologická analýza „přegenerovává“. (Generuje tvary z hlediska systému „správné“, ale z hlediska úzu periferní, takže se může stát, že tvary jsou homonymní s náhodně se vyskytnuvšími jinými periferními či nesprávnými tvary. Typickým příkladem může být obecně např. značkování tvaru der, které je v daném kontextu součástí cizojazyčného – německého – textu jako tvaru imperativu slovesa drát: der/drát/Vi-S---2-A----, nebo zde uvedené přiřazení neadekvátní interpretace vlastním jménům Vitas a Kutas, nebo překlepům.)[10] V korpusech SYN2009PUB a SYN2010 mají pasivní příčestí (Vs.*) vyplněnu na pozici 9 hodnotu P nebo R, přičemž toto značkování je výsledkem pravidlové desambiguace (více Petkevič 2010). Jakožto případy potencionálních výskytů pasivních příčestí s volným morfémem -s jsou opět označkovány pouze překlepy. Pozice 10 – Stupeň - neurčuje se 1 1. stupeň 2 2. stupeň 3 3. stupeň Pozice 10 – Stupeň koresponduje s pozicí 1 a 2. Hodnotu [123] mohou mít vyplněnu pouze „obyčejná adjektiva“ (AA.*) a „příslovce (s určením stupně a negace; „velký“, „zajímavý“, ...)“ (Dg.*). Drobnou nekonzistenci lze spatřit v tom, že tvary rád, ráda, rádo, rády, rádi mají lemma rád stejně jako tvary raděj(i), nejraděj(i), ale značku v případě pozitivu AC.......-.* a v případě komparativu a superlativu Dg......[23].*. Pokusíme-li se aplikovat substituční test (nahradit tvary označené jako adjektiva tvary označenými jako adverbia) zdá se nám, že značkování poněkud mechanicky aplikuje technickou zásadu, podle níž se jmenné tvary adjektiv v češtině nestupňují. Jisté pochybnosti může vzbudit též lemmatizace některých adjektiv na -oucí (více níže a též Osolsobě 2009^4). Pozice 11 – Negace - neurčuje se A afirmativ (bez negativní předpony "ne-") N negace (tvar s negativní předponou "ne-") Pozice 11 – Negace působí rozpaky u značkování některých negativ tantum v SYN2000 a SYN2005. Technické řešení spočívající v praxi, kdy lemmatem tvaru s ne- je tvar bez ne-, nepůsobí větší problémy v případě lemmatizace slovesných tvarů (tato praxe odpovídá praxi tištěných slovníků, jde o tvary víceméně paradigmatické). Má ale svá úskalí na úrovni lemmatizace některých negativ tantum (nezbytnost/zbytnost, nezbytný/zbytný, nezbytně/zbytně, ...). Tyto chyby byly v anotacích korpusů posléze odstraněny (srov. anotace v korpusu SYN2000, SYN2005 a v korpusech SYN2006PUB a dalších). Atribut negace s hodnotou afirmace je v SYN2000/SYN2005 uveden ve značce tvaru tys. Tvary ses, sis, žes, kohos, ... mají u negace vyznačenu hodnotu „neurčuje se“. Jde opět o nejednotné řešení analogických případů. Pozice 13 – Nepoužito - neurčuje se Pozice 14 – Nepoužito - neurčuje se Pozice 15 – Varianta, stylový příznak apod. - neurčuje se („základní“ tvar pro kategorie v pozicích 1–14) 1 varianta, víceméně rovnocenná („méně častá“) 2 řídká, archaická nebo knižní varianta 3 velmi archaický tvar, též hovorový 4 velmi archaický nebo knižní tvar, pouze spisovný (ve své době) 5 hovorový tvar, ale v zásadě tolerovaný ve veřejných projevech 6 hovorový tvar (koncovka standardní obecné češtiny) 7 hovorový tvar (koncovka standardní obecné češtiny), varianta k '6' 8 zkratky 9 speciální použití (tvary zájmen po předložkách apod.) Pozice 15 je vyplněna na základě slovníku automatického morfologického analyzátoru. Nelze se absolutně spolehnout na to, že při vyhledávání pomocí této pozice tagu zachytíme všechny případy, které se skutečně budeme snažit vyhledat, protože ve slovníku nejsou zahrnuty všechny substandardní jevy, ale jenom některé. Z následující konkordance je patrné, že nerozpoznané tvary (ty, které nejsou ve slovníku a mají na první pozici značku X) mají na pozici 15 uvedeno „neurčuje se („základní“ tvar pro kategorie v pozicích 1–14)“. Pozice 16 – Vid Tato pozice byla k původní sadě doplněna Miroslavem Spoustou na základě slovníku morfologické analýzy. Tato pozice není k dispozici v korpusech SYN2000 a ORWELL. P perfektivum (dokonavé sloveso) I imperfektivum (nedokonavé sloveso) B obouvidé sloveso Vid je na úrovni morfologického značkování chápán (v souladu s běžnou praxí českých výkladových slovníků) jako klasifikační kategorie. Česká morfologie a korpusy V úvodu jsme uvedli otázky, kterými se v této centrální kapitole našeho textu chceme zabývat. Zopakujme si je: 1. Jak získat materiál pro výzkum hláskových alternací, které doprovázejí tvoření tvarů substantiv (skloňování) v češtině. 2. Jak získat materiálovou základnu pro výzkum variantních a dubletních koncovek substantiv. 3. Jak získat podklady pro výzkum stupňování adjektiv. 4. Jak získat podklady pro výzkum hláskoslovných alternací při tvoření slovesných tvarů. 5. Jak získat přehled o skutečném stavu některých okrajových jevů, např. syntetického futura. 6. Jak najít v korpusech materiál pro výzkum adverbializace. 7. Jak se v lingvistickém výzkumu obejít bez morfologického značkování a lemmatizace. 8. Jak získat z korpusů podklady pro výzkum slovotvorby. 9. Jak se v korpusově založeném výzkumu vypořádat s takzvanými MWE[11]. 10. Jak využívat korpus jako on-line slovník. Následující text rozčleníme nejdříve podle jednotlivých slovních druhů, dále bude následovat kapitola věnovaná problematice slovnědruhových přesahů a přechodů a kapitola zaměřená na problematiku tvoření slov a víceslovných výrazů. Níže zobrazené výsledky konkordančních seznamů a frekvenční distribuce jsou, není-li explicitně uvedeno jinak, z korpusu SYN2010. Substantiva V následujících podkapitolách se zaměříme na otázky spojené s formální morfologií substantiv. Budeme se zabývat substantivními vzory z hlediska možnosti jejich vyhledávání v korpusech. Všimneme si formálních vlastností slov řazených pod jednotlivé vzory. Druhým okruhem budou hláskoslovné alternace v rámci systému české substantivní flexe. Ukážeme si, jak lze na základě pozorování dat získaných z jazykových korpusů hledat odpovědi na otázky týkající se pravidel distribuce sledovaných alternací. Třetí oblastí, na niž se chceme zaměřit, bude výskyt a pravidla distribuce spisovných variantních a dubletních koncovek v české deklinaci podstatných jmen. Na konkrétním příkladu ukážeme, jak lze z korpusů získat data a jak lze na základě jejich pozorování formulovat empiricky založená pravidla fungování jazykového systému. Jak vyhledat v korpusu substantiva podle vzoru? Motivační úvod Vzor (flektivní typ) není gramatická kategorie v terminologickém smyslu. Jde o kategorii formální. Položíme-li si otázku, proč se české děti ve čtvrté třídě učí, ke kterému vzoru patří to které podstatné (i přídavné) jméno, konstatujeme, že důvodem je vytvoření opory pro morfologický pravopis. Mohli bychom říci, že proto, aby věděly, jaké [iy] mají napsat po obojetných souhláskách [bpfvmszl]. K čemu ještě mohou být tyto informace užitečné? Deklinační systém současné češtiny je velmi složitý. Běžný mluvčí, pro nějž je čeština mateřštinou, si neklade otázky, na které by odborník (bohemista) měl umět odpovídat. Měl by mít přehled o tom, jaká platí pravidla, kde se vyskytují výjimky a můžeme-li říci, kolik jich je. Systém jazyka (např. tvarosloví) je explicitně popsán v mluvnici a slovníku (langue). Implicitně je přítomen v promluvách a textech (parole). Jazykové korpusy umožňují přímo zkoumat reprezentativní vzorek jazyka (parole) a na základě pozorování dat vytvářet a ověřovat hypotézy o systému pravidel a výjimek (popis systému langue). Pokud tedy chceme odpovídat na otázky jako: co je pravidelné a co je nepravidelné, nebo kolik je té a té nepravidelnosti, lze zvolit dvojí přístup. Buď hledáme odpovědi v příslušné literatuře, nebo pozorujeme korpusová data (empirie) a vyvozujeme (dedukce). Nastínění problému Dle klasických mluvnic pro rodilé mluvčí má čeština 14 vzorů pro jmennou substantivní flexi. Počítáme-li se čtyřmi rody, pak maskulina životná se mohou skloňovat podle 4 vzorů (pán, muž, předseda, soudce), neživotná podle 2 (hrad, stroj), feminina podle 4 (žena, růže, píseň, kost) a neutra taktéž podle 4 (město, moře, kuře, stavení). Kromě rodu je hlavním kritériem pro zařazení substantiva k příslušnému vzoru zakončení, a to a) bez koncovky (s koncovkou -0) x s koncovkou a b) kvalitativní charakteristika finální souhlásky kmene, ať už za ní následuje koncovka, nebo ne. Tabulková paradigmata uvádějí navíc a) podvzory (např. pán – hoch, hrad – les, ...), b) paragrafy hovořící o výjimkách (jednotlivá slova, např. host, kůň, ... nebo skupiny slov např. den, týden, kámen, kořen, kmen, hřeben, ...) a c) případy kolísání mezi vzory (kolísání mezi tvrdými a měkkými vzory např. paňáca, skica, ..., kolísání mezi vzorem píseň a kost). Kromě toho mají zvláštní flexi některá propria a existují též slova nesklonná. Substantiva se také mohou skloňovat podle adjektivních vzorů a naopak jako substantiva se skloňují slova, která se řadí do tzv. nástavbových slovních druhů (číslovky např. tisíc, milion, miliarda). Otázky Pokusme se nyní nejdříve slovně formálně popsat operaci, kterou je třeba provést, chceme-li přiřadit slovo – substantivum ke vzoru. Nejdříve si položíme otázku, zda je zakončení slova (formální vlastnost) relevantní pro zařazení ke slovnímu druhu. Mějme řetězce písmen, např. kos, sál, pila, žeň, chudě, ... Všimněme si, že ani o jednom z uvedených tvarů nemůžeme s určitostí tvrdit, že jde o podstatné jméno! Jak to? A jaké jsou důsledky pro disambiguaci? Ptáme-li se tedy, jak poznáme substantivum, musíme říci, že je na základě pouhé formy mnohdy poznat nemůžeme. Většinou se ovšem tvrdívá, že vzor poznáme podle zakončení substantiva. Proč jsou pak ale sráz i mráz maskulina neživotná, a hráz je femininum? Proč je kroj maskulinum neživotné, a kůň životné, a proč zbroj i tůň jsou feminina? Jak to, že choť je buď maskulinum životné, nebo femininum a jeřáb je buď maskulinum životné, nebo neživotné? Přidejme opěrný tvar genitivu (ten bývá uveden ve slovnících bezprostředně za heslovým slovem). Vidíme, že zůstávají případy (kroj x zbroj, kůň x tůň), kdy musíme znát rod, respektive zařazení ke vzoru. To, že jde o substantivum, musíme tedy buď vědět, nebo předpokládat. Totéž platí i o rodu. Ti, kteří se učí češtině jako druhému jazyku, jsou tedy na tom podobně jako my, když se třeba učíme německy (u substantiv se musíme naučit i rod). Je to ale nutné ve všech případech? Co nám může pomoci? Podíváme-li se na všechny výše uvedené příklady, pak můžeme konstatovat, že mají jednu společnou vlastnost týkající se formy. Touto vlastností je shoda koncové části řetězce. Toto pozorování platí především v případě slovnědruhově víceznačných tvarů. Uděláme-li ze zbroje výzbroj a z kroje stejnokroj, problém zůstane stejný. Při „prodloužení slova“ vpředu (prefixace, kompozice) se rod nemění. A co budeme-li srovnávat mechorost a soběstačnost? Sufixy sice mohou být formálně shodné s koncovými řetězci slov neutvořených, nicméně platí, že slova tvořená stejným sufixem se (až na výjimky – maskulina životná a neživotná např. činitel / činitel) skloňují podle téhož vzoru. Vraťme se nyní k původnímu zadání a zrekapitulujme, o co se vlastně opíráme, když určujeme vzor podstatného jména. Můžeme např. říci, že podle vzoru pán nebo muž by se měla skloňovat maskulina životná, která končí v nominativu singuláru na souhlásku, kdežto podle vzoru předseda ta, která končí na -a a podle soudce ta, která končí na -[eě]. To, zda se substantivum skloňuje podle vzoru pán nebo podle vzoru muž, poznáme podle tvaru genitivu singuláru zakončeného na -a nebo -e/-ě, což v naprosté většině případů koresponduje s kmenovou finálou (tvrdou nebo měkkou souhláskou). Podobný postup lze popsat i pro další rody a příslušné vzory. Formulace dotazu pro získání dat z korpusů Shrňme tedy ještě jednou to, k čemu jsme došli. Budeme-li chtít v korpusu vyhledat slova skloňovaná podle určitého vzoru, budeme muset použít informace o lemmatu a morfologické značce a kombinovat je s formálními vlastnostmi – zakončením lemmatu. Podle morfologické značky snadno vyhledáme substantiva stejného rodu. V menu Korpus zvolíme Typ dotazu tag a do dotazovacího řádku napíšeme dotaz ve formě odpovídající morfologické značky. Tedy NNM.* hledáme-li maskulina životná, NNI.*, hledáme-li maskulina neživotná, NNF.*, hledáme-li feminina, NNN.* hledáme-li neutra. Hledáme-li substantiva skloňovaná podle vzoru předseda, hledáme všechna maskulina životná, jejichž lemmata končí na -a. Zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”NNM.*” & lemma=“.*a“]. Seznam substantiv skloňovaných podle vzoru předseda získáme pomocí menu Frekv. distribuce zvolíme-li Atribut lemma. Obdobně jednoduše vyhledáme substantiva skloňovaná podle vzorů soudce, žena, růže, město a stavení. Při vyhledávání substantiv skloňovaných podle vzorů soudce a růže nesmíme zapomenout na dvě možné grafické realizace koncovky -e ([eě]). Složitější bude postup pro rozlišení maskulin neživotných skloňovaných podle vzoru hrad nebo stroj, maskulin životných skloňovaných podle vzoru pán nebo muž, feminin skloňovaných podle vzoru píseň nebo kost a neuter skloňovaných podle vzoru moře nebo kuře. U maskulin, kde jde o odlišení tzv. tvrdých a měkkých vzorů, může pomoci kmenová finála – souhláska, na niž končí lemma. Problematické mohou být pouze tzv. souhlásky obojetné, ale nikoli vždy a všechny. U feminin najdeme rovněž některá zakončení (finály) typické pouze pro jeden ze vzorů. U neuter lze kombinovat zakončení kmene a koncovku. Slovotvorná utvářenost slova skýtá možnost vyhledávat (filtrovat) podle formy derivačního sufixu. Třídění a pozorování dat získaných z korpusů Pokusme se nyní na základě pozorování dat formulovat pravidla pro rozlišení substantiv jednoho rodu skloňovaných podle různých vzorů, které se v nominativu singuláru neliší koncovkou. Jako příklad poslouží substantiva rodu mužského životná, která nemají v nominativu singuláru koncovku a která se mohou skloňovat buď podle vzoru pán, nebo podle vzoru muž. Vyhledejme nejdříve maskulina životná, která v nominativu singuláru končí na souhlásku. Zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”NNM.*” & lemma=“.*[bcčdďfghjklmnňprřsštťv]“]. V dalším kroku lze pomocí Filtru vybrat substantiva zakončená na .*[dghknrt], která by se měla skloňovat podle vzoru pán[12], a substantiva zakončená na .*[cčďjňřšž] která by se měla skloňovat podle vzoru muž[13]. Užitečnější bude zaměřit se na substantiva zakončená na tzv. obojetnou souhlásku a podívat se, můžeme-li na základě pozorování dat formulovat nějaké pravidlo, podle kterého se tato substantiva řadí k jednomu ze dvou vzorů (pán/muž). Zvolíme Filtr (pozitivní), rozsah hledání <0,0>, Typ dotazu lemma a do dotazovacího řádku napíšeme dotaz ve formě .*[bflmpsvz]. Poté se podíváme na frekvenční distribuci lemmat. Mezi frekventovanými substantivy převažují ta, která končí na .*l, přičemž jsou mezi nimi jak substantiva skloňovaná podle vzoru muž (ředitel, přítel, obyvatel), tak podle vzoru pán (Pavel, Karel, Michal), ale i substantivum manžel, které mezi oběma vzory kolísá. Jiné zakončení mají substantiva šéf, pes, chlap skloňovaná podle vzoru pán, a Klaus skloňované podle vzoru muž. Takto můžeme pokračovat v prohledávání seznamu substantiv s nižšími až nejnižšími frekvencemi. V dalším kroku můžeme formulovat předpoklad, že některé z tzv. obojetných souhlásek se v případě vzoru pán chovají jako „tvrdé“ [pf] a jiné jako „obojetné“ [ls]. Jak takový předpoklad ověříme? Postupně pomocí Filtr pozitivní získáme relevantní data (např. všechna substantiva rodu mužského životného, která končí na .*b atd.), budeme je sledovat a zjišťovat, zda můžeme (na základě empirie – pozorování korpusových dat) vyslovit nějaké závěry. Frekvenční seznam lemmat získáme opět pomocí menu Frekv. Distribuce, zvolíme-li Atribut lemma (viz výše). Poté, co si seznam lemmat na .*b prohlédneme, vrátíme se zpět (3 kroky) a celou operaci postupně zopakujeme pro lemmata na .*p, .*f, .*v, .*m. Při procházení seznamů lemmat si budeme všímat, ke kterému vzoru životných maskulin (pán/muž) vyhledaná substantiva patří, abychom na základě pozorování dat mohli formulovat pravidla o tom, jak se substantiva s tzv. obojetnou finální souhláskou řadí k těmto vzorům. Formulace závěrů Hledáme-li v korpusu nějaký jev, pak pouze na základě toho, že jej nenalezneme, nemůžeme tvrdit, že v jazyce není možný. Nulový výskyt spolehlivě signalizuje malou frekvenci nějakého jevu, popřípadě to, že hledaný jev nebyl zachycen na úrovni automatické morfologické analýzy (to platí především tehdy, používáme-li při vyhledávání morfologické anotace). Může ale též upozornit na existenci pravidla, které tento jev vylučuje. Pozorováním korpusově doložených dat zjistíme, že podle vzoru pán nebo muž se mohou skloňovat substantiva zakončená na -[lsz]. Substantiva maskulina životná zakončená na -[bfmpv] se mohou skloňovat pouze podle vzoru pán. Formulace dalších otázek vyplynuvších ze zkoumání daného jevu Platí obecně, že souhlásky [bfmpv] se jakožto finály vyskytují pouze u substantiv tzv. tvrdých vzorů? Zadání cvičení, v nichž lze uplatnit analogické postupy 1. Navrhněte postup pro rozlišení substantiv skloňovaných podle vzoru hrad a stroj. 2. Navrhněte postup pro rozlišení substantiv skloňovaných podle vzoru píseň a kost. 3. Navrhněte postup pro rozlišení substantiv skloňovaných podle vzoru moře a kuře. 4. Porovnejte distribuci kmenových finál [bfmpv] substantiv skloňovaných podle vzoru hrad a stroj. 5. Porovnejte distribuci kmenových finál [bfmpv] substantiv skloňovaných podle vzoru žena a růže. 6. Porovnejte distribuci kmenových finál [bfmpv] substantiv skloňovaných podle vzoru město a moře. 7. Existuje nějaký postup, jak oddělit substantiva na -[lsz] skloňovaná podle vzoru pán od substantiv skloňovaných podle vzoru muž? 8. Jakými pravidly se řídí distribuce grafické varianty e/ě po tzv. obojetných souhláskách a) u tvrdých vzorů, b) u měkkých vzorů a c) u vzoru píseň. Jak lze v korpusech hledat doklady pro výzkum hláskových alternací v rámci substantivní flexe? Motivační úvod Hláskové alternace jsou definovány jako pravidelné střídání hlásek (dvojic hlásek), na němž je založena alomorfie. Alternace provázejí jak tvoření tvarů slov (skloňování a časování), tak odvozování slov. Každý rodilý mluvčí ví, že chce-li po něm malé dítě „leva“, nežádá asi o bulharskou měnu, ale o plyšového mazlíčka, a pozná, že je chyba, raduje-li se dítě, že napadlo hodně „sníhu“. Přesto mu bude asi činit jisté potíže, položí-li mu dítě, které opraví, otázku proč? Na tomto místě se spokojíme s tím, že se na základě analýzy dostupných korpusových dat pokusíme odpovědět na otázky kde a jak. V této kapitole se podíváme na to, kdy se v genitivu plurálu feminin skloňovaných podle vzoru žena vkládá mezi dvě poslední souhlásky e. Tedy trochu s humorem řečeno, proč je hodně barev a málo želv? Půjde tedy o alternace 0/e u feminin skloňovaných podle vzoru žena. Nastínění problému V Mluvnici současné češtiny (Cvrček a kol. 2010, s. 172) čteme: „U řady jmen s kmenem zakončeným skupinou dvou nebo více souhlásek, např. hra, kresba, látka, astra, ondatra, se v genitivu plurálu do skupiny vkládá e: her, kreseb, ...“ Tabulka, která následuje a která si „neklade nároky na úplnost“, obsahuje bohužel chyby (více Kosek – Křístek – Osolsobě – Ziková – Vojtová 2011). S ohledem na proklamativně korpusový charakter MSČ se pokusíme o vlastní analýzu korpusových dat. Otázky Jak získáme relevantní data pro výzkum alternací 0/e u feminin skloňovaných podle vzoru žena? Je třeba vyhledat všechna lemmata substantiv skloňovaných podle vzoru žena taková, že u lemmatu před koncovkou -a předcházejí alespoň dvě souhlásky. U těchto lemmat pak dále sledujeme tvary genitivu plurálu a snažíme se vypátrat, kdy se mezi dvě souhlásky vkládá e a kdy nikoli. Formulace dotazu pro získání dat z korpusů Zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=“NNF.*“ & lemma=“.*[bcčdďfghjklmnňprřsštťvzž][bcčdďfghjklmnňprřsštťvzž]a“]. Zvolíme Filtr pozitivní, rozsah hledání <0,0>, Typ dotazu slovní tvar a do dotazovacího řádku napíšeme dotaz ve formě NNFP2.* (hledáme všechny tvary genitivu plurálu). Následně můžeme a) ve Filtr konkordancí zvolit Typ dotazu slovní tvar a do dotazovacího řádku napsat dotaz ve formě .*[bcčdďfghjklmnňprřsštťvzž]e[bcčdďfghjklmnňprřsštťvzž] a vrátíme-li se o krok zpět, pak b) do dotazovacího řádku napsat dotaz ve formě .*[bcčdďfghjklmnňprřsštťvzž][bcčdďfghjklmnňprřsštťvzž]. Získáme tak postupně feminina skloňovaná podle vzoru žena, která a) mají v genitivu plurálu alternaci 0/e a b) nemají v genitivu plurálu alternaci 0/e. a) V menu Frekv. distribuce zvolíme na první úrovni Atribut lemma a na druhé úrovni Atribut word (slovní tvar). b) Frekvenční seznam lemmat a tvarů získáme stejně jako u předešlé úlohy. Třídění a pozorování dat získaných z korpusů Vrátíme se zpět a vytvoříme frekvenční seznamy lemmat a tvarů a pozorujeme je. (V menu Frekv. distribuce zvolíme na první úrovni Atribut lemma a na druhé úrovni Atribut word (slovní tvar).) V dalších krocích by bylo s ohledem na početná data dobré postupovat po menších celcích, např. podle finální souhlásky. (Můžeme se vrátit zpět a vybrat pomocí pozitivního filtru pouze lemmata na .*ba, .*da, .*ka, .*ma atd.).[14] Seznamy lemmat a slovních tvarů (genitivu plurálu) získáme výše popsaným způsobem. Pozorujeme data a všímáme si lemmat i tvarů slov, u nichž dochází/nedochází k alternacím 0/e v genitivu plurálu a hledáme pravidlo (pravidla), kterými se řídí distribuce této alternace. Formulace závěrů V následujícím tabulkovém přehledu shrneme pozorování korpusových dat. finála-koncovka s alternací bez alternace Cb-a služba/služeb bomba/bomb Cd-a -----[15] miliarda/miliard Ck-a podmínka/podmínek banka/bank Cl-a cihla/cihel ----- Cm-a firma/firem termy/term[16] Cn-a elektrárna/elektráren skvrna/skvrn Cp-a výspa/výsep lampa/lamp Cr-a hra/her ------ Cs-a kapsa/kapes římsa/říms Ct-a karta/karet cesta/cest Cv-a barva/barev želva/želv Cz-a ------ burza/burz Cf-a ------[17] nymfa/nymf Cg-a ------ sfinga/sfing Ch-a Cch-a ------ ------ volha/volh[18] střemcha/střemch Cš-a ------ gejša/gejš Z pozorování dat plyne, že alternace 0/e v genitivu plurálu feminin skloňovaných podle vzoru žena jsou obligatorní pouze v případě substantiv na C[rl]a (srov. Caha – Scheer 2007). Obligatorní je také před sufixy -b(a) služ-b(a), -k(a) bran-k(a), -n(a) kněž-n(a), -v(a) žat-v(a), nikoli -d(a) srov. sran-d(a). Naopak mezi substantivy na -za, -fa, -ga, -ha, -cha, -ša případ alternace není doložen. Slova na C[cč]a nejsou dle kontextu feminina (Franca, Korča, ...), jde o chybnou lemmatizaci a tagování. Výše uvedená tabulka uvádí na základě sledování korpusových dat na pravou míru závěry předložené v Mluvnici současné češtiny (viz výše). Formulace dalších otázek vyplynuvších ze zkoumání daného jevu Je možné tvrdit, že distribuce 0/e je vázána na potřebu usnadnit výslovnost souhláskové skupiny? Je možné tvrdit, že alternace 0/e je vázána na morfémovou skladbu slova (tautomorfní/heteromorfní)? Je možné tvrdit, že alternace v tautomorfní pozici je vázána na jednotlivé lexémy? Zadání cvičení, v nichž lze uplatnit analogické postupy Pozoruj doklady jako rezerv, sekt, želv, žvejk. Najdi v korpusu doklady takové, že ve formálně stejném řetězci dochází k alternaci e/0. S podobnými alternacemi se setkáváme také u neuter skloňovaných podle vzoru město (městeček, pater, divadel, ...). Popište, jak budete postupovat, budete-li chtít z korpusu vybrat data pro další interpretaci alternace 0/e. Tato alternace se vyskytuje též u některých maskulin. Vyhledejte v korpusu příklady a popište je. Podívejte se v korpusu na doklady genitivu plurálu substantiva tma a analyzujte je. Alternace e/0 mají též substantiva skloňovaná podle vzorů píseň a kost. Vyhledejte v korpusu příklady a popište je. Další samohláskové alternace v české substantivní flexi Motivační úvod K samohláskovým alternacím dochází u některých substantiv skloňovaných podle vzoru žena, a to a) obligatorně v genitivu plurálu a b) fakultativně v některých dalších pádech (tráva – trav, síla – sil, míra – měr, houba – hub, …). Podíváme-li se do SSJČ a SSČ, pak zjistíme, že SSČ pokládá na rozdíl od SSJČ varianty (s/bez alternace) ve všech pádech (kromě obligatorní v genitivu) za rovnocenné. Hodnocení v mluvnicích (např. PMČ) i SSJČ je diferencovanější. Nastínění problému Relevantní data pro analýzu tohoto jevu lze z korpusů získat poměrně jednoduše. Je třeba najít všechna feminina, která se a) skloňují podle vzoru žena, b) mají v genitivu plurálu krátkou samohlásku ve kmeni a c) mají lemma s dlouhou samohláskou (diftongem) ve kmeni. Otázky Korpusy mohou poskytnout data pro diferencovanější analýzu tohoto jevu české morfologie. Můžeme najít v korpusech všechna substantiva, která mají tento typ alternace v genitivu plurálu i dalších pádech? Jedná se opravdu ve všech případech o rovnocenné varianty, jak naznačuje SSČ? Jak lze postupovat, abychom zjistili, jaká pravidla platí pro jejich užití? Formulace dotazu pro získání dat z korpusů V jedné z předchozích kapitol jsme ukázali postup, jehož pomocí můžeme hledat v korpusech substantiva skloňovaná padle určitého vzoru. Stručně tedy zopakujme, že naším cílem bude vyhledat substantiva skloňovaná podle vzoru žena taková, jejichž kmenová samohláska se v genitivu plurálu obligatorně a v některých dalších pádech fakultativně krátí (alternuje). Hledáme tedy feminina, která se skloňují podle vzoru žena a mají dlouhou kmenovou samohlásku (popř. diftong ou ve kmeni), takže je možné, aby tato samohláska alternovala. Zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=“NNF.*“ & lemma=“((.*[áéíýóů].)|(.*ou.))a“]. Bereme v úvahu, že takto zachytíme pouze ty případy, kdy mezi koncovkou -a a dlouhou kmenovou samohláskou stojí jeden grafém (síla), nikoli grafémy dva (moucha). Dotaz je ovšem možno přeformulovat tak, aby slova jako moucha zachycena byla, tedy [tag=“NNF.*“ & lemma=“((.*[áéíýóů](.|ch))|(.*ou(.|ch)))a“]. Z Frekvenční distribuce lemmat (viz výše) získáme seznam kandidátů lemmat hledaných substantiv. Zvolíme filtr (pozitivní) a Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”NNFP2.*“ & word!=”.*(([áéíýóů](.|ch))|(.*ou(.|ch)))“]. V menu Frekvenční distribuce (lemma a word) získáme seznam lemmat hledaných substantiv. Pozorujme lemmata a odpovídající slovní tvary. Třídění a pozorování dat získaných z korpusů Při srovnávání obou seznamů si povšimneme, že ne všechna lemmata substantiv skloňovaných podle vzoru žena, která mají ve kmeni dlouhou samohlásku nebo diftong, mají v češtině alternaci (půda, armáda, atmosféra, kariéra, krása, sezóna, hrůza, …). Můžeme tedy tvrdit, že alternace není obligatorní. Dále můžeme sestavit seznam lemmat, která v genitivu plurálu alternaci mají. Tento seznam můžeme porovnávat např. se slovníky, mluvnicemi, údaji z Internetové jazykové příručky (dále IJP). Lze se zamýšlet nad tím, zda se v případě dvojic jako sezóna/sezon, disciplína/disciplin, turbína/turbin, premiéra/premier, ... , ale třeba i bába/bab jedná o hledaný jev. Vidíme také některé nedostatky v zadáních dotazů (bylo by lépe namísto implicitního atributu word/slovní tvar volit lc). Projdeme-li frekvenční seznam a vyloučíme-li omyly, získáme seznam substantiv s alternací v genitivu plurálu. Nyní je třeba, abychom ověřili, zda a za jakých podmínek může/musí docházet k alternacím i v jiných pádech. Nejdříve si položíme otázku, o které pády jde. Můžeme vycházet a) z jazykové kompetence rodilých mluvčích, b) z jazykových příruček (mluvnice, slovníky) a c) z korpusových dat. Pokud budeme vycházet z prvních dvou, pak budeme cíleně v korpusech vyhledávat u lemmat substantiv ze seznamu (těch, která mají v genitivu plurálu příslušnou alternaci) tvary podle tagu, tedy pádové formy, v nichž může také docházet k alternacím. Můžeme ale také postupovat čistě deduktivně a pády, v nichž k alternacím dochází, získat na základě pozorování korpusových dat. Posledně zmíněný postup může vypadat následovně. Vyhledáme postupně lemmata síla (smlouva, houba, dráha, ...). Poté se podíváme na Frekvenční distribuci (lemma, lc, tag) a získáme seznam lemmat, tvarů a značek, z něhož je patrné, ve kterých pádech a s jakými frekvencemi dochází/nedochází k příslušné alternaci. Výsledky pak můžeme zapsat do tabulky například takto: síla gen. pl. (-0) instr. sg. (-ou) dat. pl. (-ám) lok. pl. (-ách) instr. pl. (-ami) sil- 6304 3684 293 896 1181 síl- 0 76 1 2 2 smluv- 1796 0 0 0 0 smlouv- 0 919 85 330 180 drah- 11 45 106 196 112 dráh- 0 243 3 22 48 Formulace závěrů Na základě analýzy korpusových dat lze např. tvrdit, že alternace v jiných pádech než v genitivu plurálu nemají feminina s kmenovým diftongem -ou- (smlouva, houba, bouda, ... ). V korpusu jsou doloženy tvary hrudách, hrudu, hrudy, které nebyly rozpoznány automatickou morfologickou analýzou. Tyto nálezy lze ovšem spíše interpretovat jako doklady teritoriálně podmíněného neprovedení přehlásky u-ou (viz příklady nominativu plurálu hrudy). Totéž platí i pro varianty mucha, muchy. Na základě frekvenční analýzy můžeme tvrdit, že v korpusech nelze najít oporu pro to, že by varianty s alternacemi á-a, í-i, í-ě v instrumentálu singuláru a dativu, lokálu a instrumentálu plurálu byly ve všech případech rovnocenné s variantami bez alternací, jak naznačuje interpretace SSČ. Liší se na první pohled frekvencí, přičemž rozdíly jsou vázány na jednotlivé lexémy a na kolokace. Ve korpusech lze najít dokonce i okrajovou alternaci ů-o, a to u substantiva fůra/for. Nenajdeme ji ovšem výše popsaným postupem, protože doklad je chybně interpretován automatickou morfologickou analýzou, což musíme u okrajových jevů vždy předpokládat a doklady se objeví až v celém korpusu SYN (pro nalezení okrajových jevů je vhodný maximální rozsah korpusu). (Možný výskyt genitivu plurálu substantiva fůra lze hledat tak, že nejdříve vyhledáme slovní tvar for, a poté prostřednictvím filtru vybereme případy, kdy se bezprostředně před předpokládaným substantivem vyskytuje např. číslovka.) Ručně pak vytřídíme hledané doklady. Formulace dalších otázek vyplynuvších ze zkoumání daného jevu Samohláskové alternace se vyskytují také u dalších vzorů (pán : vůl, muž : kůň, hrad : mráz, stroj : déšť, ...). U kterých se nevyskytují? Popište pravidla, jimiž se řídí distribuce alternací v jednotlivých flektivních tvarech u substantiv vzorů pán, hrad, muž, stroj, píseň, kost, …. Zadání cvičení, v nichž lze uplatnit analogické postupy K podobným alternacím dochází také v genitivu plurálu několika substantiv skloňovaných podle vzoru růže. Která substantiva to jsou? Pokuste se je najít v korpusu. Mají obdobné alternace také v ostatních pádech, tak jako substantiva skloňovaná podle vzoru žena? Varianty a dublety – korpusy jako zdroje dat pro formulaci pravidel distribuce variantních spisovných koncovek v české substantivní flexi Motivační úvod Korpus slouží jako zdroj dat pro výzkum variantních a dubletních deklinačních koncovek (srov. více Tušková 2006, 2012). Na tomto místě se pokusíme naznačit, jak budeme postupovat, abychom shromáždili relevantní data, a jak na základě jejich pozorování můžeme dedukcí budovat pravidla distribuce variant a dublet. Vycházíme ze zkušenosti dlouholeté výuky povinných kurzů věnovaných morfologii českého jazyka a z pozorování, z nichž plyne, že pro rodilé mluvčí je velmi obtížné zobecnit jazykovou kompetenci do podoby nějakých pravidel. Mluvnice, které slouží studentům jako výchozí studijní materiály, podávají již hotové výsledky. Chceme proto studentům nabídnout jinou možnost studia: místo aby se učili poučky, uplatní vlastní pozorování a dedukci. Pokusíme se uplatnit deduktivní metodu používanou v rámci tzv. DDL (Data Driven Learning) většinou při výuce angličtiny jako druhého jazyka, jejíž použití pro výuku češtiny jako cizího jazyka se úspěšně rozvíjí (více Osolsobě – Vališová 2012, Vališová 2011). Nastínění problému U všech substantivních vzorů kromě vzorů neuter kuře a stavení existují v českých gramatikách tzv. podvzory. Co se skrývá pod termínem podvzor? Jde o snahu zachytit v rámci tabulkových paradigmat fakt, že část (většinou má jít o nějakou větší skupinu) slov skloňovaných podle základního vzoru má u některých tvarů a) koncovku/koncovky navíc, b) jinou koncovku/koncovky. Jako podvzor lze pak chápat také např. skupinu slov, která má větší počet variant. Jde většinou o skupiny slov, u nichž buď lze vymezit jejich počet (uvést jejich úplný výčet), nebo je lze definovat na základě jejich slovotvorné utvářenosti. Krajní možností je chápat takto i jednotlivé slovo (podvzor pro tvoření tvarů jednoho jediného slova). V takových případech mluvnice spíše uvádějí výjimky. Algoritmické popisy české flexe pracují většinou s více podvzory (více Osolsobě 1996, Osolsobě – Pala – Rychlý 1998). Otázky Odpověď na otázku, zda se to a to řekne tak a tak, tedy spontánní užití tvarů s variantními a dubletními koncovkami, je pro nás běžné. Neumíme však mnohdy odpovědět na otázky kde a jak[19]. Za těchto okolností se velmi často setkáváme s tím, že studenti používají v odpovědích na otázky týkající se vztahů variantních a dubletních koncovek definice kruhem. Např. na otázku, jaká jsou pravidla pro distribuci variantní koncovky -u/-e u vzoru pán, odpovídají, že koncovku -e mají substantiva skloňovaná podle vzoru pán a koncovku -u substantiva skloňovaná podle vzoru hoch. Odpověď na otázku, podle jakého kriteria se řadí substantiva k jednotlivému podvzoru, bývá ovšem někdy kamenem úrazu. Formulace dotazu pro získání dat z korpusů V jedné z předchozích kapitol jsme ukázali postup, jehož pomocí můžeme hledat v korpusech substantiva skloňovaná podle určitého vzoru. Stručně tedy zopakujme, že naším cílem bude vyhledat substantiva skloňovaná podle vzoru pán ve vokativu singuláru a formulovat pravidla, jimiž se řídí distribuce variantních/dubletních koncovek. Víme, že maskulina skloňovaná podle vzoru pán lze vyhledat pomocí morfologické značky a kmenové finály. Dále víme, že kmenové finály [lsz] mají jak substantiva (maskulina životná) skloňovaná podle vzoru pán, tak substantiva skloňovaná podle vzoru muž. Hledáme-li tedy substantiva skloňovaná podle vzoru pán ve vokativu singuláru, hledáme všechna maskulina životná, jejichž lemmata končí na [dtnhgkrbpfvm] (a mohou končit na [lsz]) a která mají značku NNMS5.*. Zvolíme tedy Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”NNMS5.*” & lemma=“.*[dtnhgkrbpfvm]“]. V dalším kroku se podíváme na frekvenční distribuci lemma a tvarů (viz výše). Pozorujeme, která lemmata mají koncovku -e a která koncovku -u a hledáme pravidla distribuce. Třídění a pozorování dat získaných z korpusů Můžeme postupně pomocí filtru (pozitivní) vytvořit seznam maskulin s koncovkou a) -u a b) -e. a) b) V dalším kroku se budeme zabývat substantivy s lemmaty na [lsz], která mají značku NNMS5.*. Zvolíme tedy Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”NNMS5.*” & lemma=“.*[lsz]“]. Podíváme se na frekvenční distribuci lemmat a slovních tvarů a budeme přitom postupovat stejně jako při řešení předchozích případů. Pozorujeme, že substantiva skloňovaná podle vzoru pán mají koncovku -e (hajzle, Bille, generále, Wille, Saule, Karle, …), zatímco substantiva skloňovaná podle vzoru muž mají koncovku -i (příteli, veliteli, řediteli, Holmesi, Michaeli, …). Pokusíme se tedy získat přehled o distribuci variant u substantiv na [lsz] tak, že pomocí filtru (negativní) odstraníme ze seznamu slovní tvary zakončené na .*i (odstraníme tvary vokativu singuláru substantiv skloňovaných podle vzoru muž na -[lsz][20]). Formulace závěrů Na základě pozorování dat můžeme formulovat pravidla. Koncovka -u se s výjimkou substantiva syn vyskytuje pouze u substantiv s kmenovou finálou, kterou je velára .*([gkh]|(ch)). Tento závěr ověříme tak, že u konkordance zahrnující maskulina životná, která mají ve vokativu singuláru koncovku -u, odstraníme pomocí negativního filtru slovní tvary s kmenovou finálou, jíž je velára (tedy ty, které končí na .*[ghk]u). Na základě pozorování dat můžeme dále tvrdit, že koncovku -e mají substantiva, která nekončí na veláru. Výjimkou jsou substantiva jako Bože, člověče,…, jejichž lemmata sice na veláru končí, ta ale před koncovkou -e alternuje. Druhou skupinu výjimek představují některá vlastní jména cizího původu, která končí grafémem h většinou ve skupině [tp]h (např. Josephe). Tento závěr ověříme tak, že z konkordance zahrnující maskulina životná, která mají ve vokativu singuláru koncovku -e, vybereme pomocí pozitivního filtru lemmata s kmenovou finálou, jíž je velára (tedy lemmata končící na .*[ghk]). Dále zobrazíme frekvenční distribuci lemmat a tvarů. Všimneme si, že v seznamu se objevují slova cizího původu (většinou propria z angličtiny) zakončená na -th, které odpovídá frikativní dentále[21], nebo -ph, které vyslovujeme jako [f], takže grafické h nereprezentuje veláru. Kromě toho si všimneme kompozit s druhým členem –člověk, substandardního tvaru čéče a tvarů nešťastníče, které zní v uších milovníkům opery Prodaná nevěsta, a poutníče připomínající bitvu u Thermopyl. Formulace dalších otázek vyplynuvších ze zkoumání daného jevu Podmiňuje hláskové okolí distribuci variant vždy? Pokud ano, pak jak? Pokud nikoli, čím se distribuce řídí v jednotlivých případech? V následujícím přehledu uvedeme tabulky substantivní flexe a vyznačíme barevně případy variant/dublet, čímž naznačíme, kterých dalších případů si lze při zkoumání daného jevu všímat. pán-0 muž-0 předsed-a soudc-e pán-a muž-e předsed-y soudc-e pán-u/-ovi muž-i/-ovi předsed-ovi soudc-i/-ovi pán-a muž-e předsed-u soudc-e pane-e vrah-u muž-i otč-e předsed-o soudc-e pán-u/-ovi muž-i/-ovi předsed-ovi soudc-i/-ovi pán-em muž-em předsed-ou soudc-em pán-i/-ové občan-é muž-i/-ové obyvatel-é předsed-i/-ové husit-é soudc-i/-ovi pán-ů lid-í muž-ů kon-í obyvatel-0 předsed-ů soudc-ů pán-ům lid-em muž-ům kon-ím předsed-ům soudc-ům pán-y lid-i muž-e předsed-y soudc-e pán-i/-ové občan-é muž-i/-ové obyvatel-é předsed-i/-ové husit-é soudc-i/-ovi pán-ech vraz-ích muž-ích předsed-ech soudc-ích pán-y lid-mi muž-i koň-mi předsed-y soudc-i Kolik je v češtině substantiv, která se skloňují podle typu obyvatel? Kolik českých substantiv má variantní koncovky jako substantivum kůň a kolik jako substantivum lidé? hrad-0 stroj-0 hrad-u les-a dn-e stroj-e hrad-u dn-i stroj-i hrad-0 stroj-0 hrad-e stolečk-u dn-i stroj-i kopč-e hrad-u les-e dn-i stroj-i hrad-y stroj-i hrad-y dn-i/-y/-ové stroj-e hrad-ů dn-í Loun-0 stroj-ů peněz-0 hrad-ům stroj-ům hrad-y stroj-e hrad-y dn-i/-ové stroj-e hrad-ech les-ích domečk-ách stroj-ích hrad-y stroj-i Která česká neživotná maskulina mají v genitivu plurálu tvar bez koncovky? Kolik českých substantiv má stejné variantní koncovky jako substantivum den? žen-a růž-e píseň-0 kost-0 žen-y Mán-i růž-e písn-ě kost-i žen-ě růž-i písn-i kost-i žen-u růž-i píseň-0 kost-0 žen-o růž-e písn-i kost-i žen-ě růž-i písn-i kost-i žen-ou růž-í písn-í kost-í žen-y Mán-i růž-e písn-ě kost-i žen-0 růž-í písn-í mil-0 kost-í žen-ám růž-ím písn-ím kost-em žen-y růž-e písn-ě kost-i žen-y růž-e písn-ě kost-i žen-ách růž-ích písn-ích kost-ech žen-ami růž-emi písn-ěmi kost-mi Kolik substantiv skloňovaných podle vzoru růže má v genitivu plurálu variantní koncovku -0? Některá substantiva mohou mít tvary jak podle vzoru růže, tak podle vzoru píseň a jak podle vzoru píseň, tak podle vzoru kost. Navrhněte postup, jak z korpusu získáte relevantní data, porovnejte své vyhledávky s tím, co se o dané problematice píše např. v Příruční mluvnici češtiny, nebo v Internetové jazykové příručce. měst-o moř-e kuř-e staven-í měst-a moř-e kuř-et-e staven-í měst-u břemen-i moř-i kuř-et-i staven-í měst-o moř-e kuř-e staven-í měst-o moř-e kuř-e staven-í měst-ě (po) rán-u břemen-i moř-i kuř-et-i staven-í měst-em moř-em kuř-et-em staven-ím měst-a moř-e kuř-at-a staven-í měst-0 moř-í vajec-0 kuř-at-0 staven-í měst-ům moř-ím kuř-at-ům staven-ím měst-a moř-e kuř-at-a staven-í měst-a moř-e kuř-at-a staven-í měst-ech jablc-ích městečk-ách moř-ích kuř-at-ech staven-ích měst-y moř-i kuř-at-y staven-ími Jak se skloňují substantiva na -um, -eum, -ium, -eon? Kolik substantiv skloňovaných podle vzoru moře má v genitivu plurálu koncovku jako vejce? Kolik substantiv skloňovaných podle vzoru město má variantní koncovky jako substantivum břemeno (břímě)? Zadání cvičení, v nichž lze uplatnit analogické postupy Která maskulina s kmenovou finálou r mají ve vokativu singuláru alternaci r>ř a která nikoli? Lze formulovat obecně platné pravidlo, nebo je třeba uvést výčet? Pokuste se formulovat pravidla, podle nichž se v české substantivní flexi distribuuje grafická varianta e/ě v koncovkách. Jde o jednoduchá pravidla? Je distribuce závislá na předcházející finále, nebo ne? V jakém pádě je substantivum anděl ve spojení a v jakém ve spojení <Ó Lucie, můj krásný anděli> ...? V jakém pádě je substantivum pán ve spojeních , , ? V jakém pádě je substantivum den ve spojení a v jakém ? Najděte v korpusu SYN tvar Vojtěše a podívejte se, jak je interpretován na úrovni lemmatu a morfologické značky. Adjektiva V následujících podkapitolách se zaměříme na otázky spojené se stupňováním adjektiv. Popisy tvoření syntetických tvarů komparativu a superlativu adjektiv bývají v lingvistických příručkách řazeny jednak k pojednáním o formální morfologii adjektiv (např. Česká mluvnice Bohuslava Havránka a Aloise Jedličky nebo Mluvnice současné češtiny Václava Cvrčka, toto pojetí sledují i výkladové slovníky a taktéž systémy značkování korpusů), jednak k oddílům zaměřeným na tvoření slov (např. Mluvnice češtiny 1, PMČ, ČŘJ). V jednotlivých oddílech budeme sledovat výskyt tvarů komparativu a superlativu v českých korpusech. Zaměříme se i na to, jak mohou data získaná z korpusů upřesnit tvrzení o stupňovatelnosti některých typů adjektiv tradovaná v české jazykovědné literatuře. Která adjektiva se v češtině stupňují? Motivační úvod Meze tvoření syntetických tvarů komparativu sufixy -í, -ší, -e/ější a superlativu prefixem nej- jsou v mluvnicích naznačeny obecnými formulacemi. Východiskem je sémantická klasifikace adjektiv a jejich dělení na kvalifikační (+hodnotící) a relační (Dokulil – Komárek 1986), popř. na adjektiva s příznakem +/– graduálnost (Karlík – Nekula – Pleskalová 2002 : s. 447). Nastínění problému Ve značkovaných korpusech ČNK mají na 10. pozici stupeň uvedenu hodnotu [123] pouze adjektiva, která mají na druhé pozici – detailní určení slovního druhu – hodnotu A (obyčejné adjektivum). Všechna ostatní adjektiva mají na 10. pozici vyplněnu hodnotu nestupňuje se (-). Mezi nestupňovatelná adjektiva se tedy implicitně řadí jmenné tvary adjektiv (AC.*), adjektivizované přechodníky přítomné (AG.*), minulé (AM.*) a subjektově posesivní adjektiva tvořená od životných maskulin a feminin sufixy -ův, -in (AU.*). Korpusy byly a jsou budovány s cílem zkoumat jazyk empiricky tak, jak skutečně funguje. Proto se autoři nejrůznějších popisů a modelů jazyka snaží ověřit platnost popisu/modelu na korpusových datech. Podívejme se tedy, jak mohou korpusy potvrdit/vyvrátit výše formulovaná pravidla a intuice včetně těch, z nichž vyšli autoři automatických morfologických analyzátorů. Na prvním místě je třeba konstatovat, že i stamilionové korpusy dokládají výskyt tvarů II. a III. stupně jen sporadicky. Zobecnění závěrů opřených o data z nich získaná je obtížné. Otázky Jaký je percentuální poměr tvarů, které mají na 10. pozici (stupeň) uvedenu hodnotu 1, 2 a 3? Existují v korpusech tvary na .*ší, .*[eě]jší, které nemají na 10. pozici hodnotu 2 nebo 3? Co je na nich zajímavé? Formulace dotazu pro získání dat z korpusů Nejdříve se podívejme na percentuální zastoupení tvarů označkovaných jako stupňovatelné dle hodnoty stupeň (pozice 10). Jak budeme postupovat? Chceme-li získat přehled o tvarech/lemmatech adjektiv a o tom, kolik adjektivních tvarů/lemmat pozitivu, komparativu, superlativu se v korpusu vyskytuje, budeme postupovat takto. Zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=“A........[123].*“]. Poté pomocí pozitivního filtru postupně vybereme tvary označkované jako tvary pozitivu, komparativu a superlativu a podíváme se na frekvenční distribuci lemmat a zapíšeme si počet výskytů slovních tvarů (word) a lemmat. Dále se podíváme na lemmata měkkých adjektiv, která končí na.*ší (formálně se podobají tvarům komparativu a superlativu). Zvolíme Typ dotazu lemma a do dotazovacího řádku napíšeme dotaz ve formě .*ší. Poté pomocí filtru (pozitivní) vybereme adjektiva a podíváme se na frekvenční distribuci lemmat. Třídění a pozorování dat získaných z korpusů Rozložení výskytu tvarů pozitivu, komparativu a superlativu v korpusu SYN2010 zachycuje následující tabulka. A........[123].* A........1.* A........2.* A........3.* word 10428947 (100 %) 9933690 (95,25 %) 280941 (2,69 %) 214316 (2,06 %) lemma 49914 49883 3149 2338 Lemmata, která končí na -ší (viz výše), jsou např. deadverbiální adjektiva (zdejší, tehdejší, někdejší, …), o nichž se někdy hovoří jako o „formálních komparativech“, dále adjektiva druhově posesivní (myší, bleší, …) a adjektiva z přechodníků minulých (přeživší, odstoupivší, …), ale také komparativ zazší a komparativy tantum jako sebechytřejší, sebelepší,…. Zajímavé je sledovat značkování jednotlivých tvarů (tvary dřívější mají ve značce uvedeno, že se jedná o tvary 2. stupně). V dalším kroku můžeme zjistit, která další adjektiva jsou označkována jako komparativy/superlativy. Pomocí filtru (pozitivní) vybereme tvary označkované A........[23].* a podíváme se na frekvenční přehled lemmat/ slovních tvarů. Je patrné, že jde o „technická řešení“, která lze přičíst na vrub automatické morfologické analýze. Formulace závěrů V českých korpusech je výskyt užití tvarů komparativu a superlativu velmi vzácný (necelých 5 % všech tvarů adjektiv, která jsou označkovaná jako „stupňovatelná“). Navíc je patrné, že při použití automatické morfologické analýzy se nebere zřetel na některé výjimky a anomálie. Jednou (okrajovou) je značkování a lemmatizace tvarů (nej)zazší.* a (nej)dřívější.* (viz výše) a tvarů komparativů tantum derivovaným prefixoidem sebe-.[22] Vrátíme se zpět k seznamu lemmat adjektiv na .*ší. a) Za pomoci filtru (pozitivní) vybereme tvary s lemmatem sebe.* a podíváme se na jejich seznam. b) Poté se vrátíme a tvary s lemmatem sebe.* pomocí filtru (negativní) odstraníme a podíváme se na jejich seznam. a) b) Obdobou adjektiv s prefixoidem sebe- jsou adjektiva derivovaná od komparativu prefixem po- (pomenší, postarší, povětší, ...), do této skupiny bychom mohli zařadit i tvary znejmilejší. Obdobou tvarů (nej)zazší jsou tvary (nej)hořejší (technické řešení není jednotné). Značkování a lemmatizace tvarů nastavší.* je v rozporu se značkováním adjektivizovaných přechodníků minulých. Ty mají pravidelně značku AM.......-.*. Uvedený doklad je výjimečný a zdá se, že se jedná o inkonzistenci slovníku automatického morfologického analyzátoru. Formulace dalších otázek vyplynuvších ze zkoumání daného jevu Na korpusech je možné dále zkoumat například poměr syntetických tvarů komparativu a superlativu a forem opisných ((nej)více + pozitiv), a to zejména v případě stupňování směrem „dolů“ ((nej)méně + pozitiv). Co se týče „strategie vyhledávání“ potřebných dokladů, je třeba odfiltrovat případy, kdy vedle sebe stojí tvary (nej)více/(nej)méně + pozitiv, ale dohromady netvoří opisný tvar komparativu/superlativu (viz níže). Je zcela v pořádku předpoklad, že „obyčejná adjektiva“ (AA.*) se mohou stupňovat, zatímco jmenné tvary adjektiv (AC.*), adjektivizované přechodníky (AG.*, AM.*) a adjektiva subjektově posesivní (AU.*) se stupňovat za žádných okolností nemohou? Zadání cvičení, v nichž lze uplatnit analogické postupy Porovnejte frekvenční distribuci tvarů pozitivu, komparativu a superlativu adverbií. Vytvořte frekvenční seznam adverbií, která mají značku Db.* (nestupňovatelná), a podívejte se, která adverbia jsou do této skupiny zařazena a zda mezi nimi nelze nalézt taková, která podle vašeho názoru stupňovat lze. Podívejte se, zda vámi předpokládané tvary naleznete v korpusu. Porovnejte kontexty, v nichž se vyskytují tvary rád, ráda, rádo, ... označkované jako AC.* a tvary (nej)raději, (nej)radši, ... označkované jak Dg.* a zamyslete se nad možnými důvody pro zvolenou interpretaci, popřípadě se pokuste formulovat argumenty proti zvolenému postupu. Vlastnosti adjektiv na -cí Motivační úvod Václav Jan Rosa (1672) uvádí formální omezení stupňování adjektiv a tvrdí, že adjektiva se sufixy -cý, -zý, -sý a -ší nelze (synteticky) stupňovat. Šmilauer připouští možnost stupňování adjektiv na -cí přidáním -n- : vroucí – vroucnější (srov. Šmilauer 1971 : 127). Encyklopedický slovník češtiny (Karlík – Nekula – Pleskalová 2002 : 447) uvádí, že adjektiva na -cí a subjektově posesivní adjektiva na -ův/-in stupňovat nelze, míní se, že nelze tvořit příslušné tvary příslušnými prostředky (sufixy -í, -ší, -(e/ě)jší a prefixem nej-). Otázkám stupňování dezaktualizovaných adjektiv a tvarům typu nejvzrušující se věnuje Alexandr Stich (Stich 1969 : 64). K lemmatizaci a značkování adjektiv na -cí srovnej Osolsobě 2009^4. Podívejme se, jak lze hledat podklady pro objasnění zmíněného problému v dostupných korpusech češtiny. Nastínění problému Jak bylo naznačeno v předcházející kapitole, rozdělení adjektiv na stupňovatelná a nestupňovatelná nemá zcela ostré hranice. O jejich stanovení se pokusili autoři slovníku a tagsetu analyzátoru použitého pro značkování korpusů ČNK (více Hajič 1994, 2004). Vedla je k tomu především nutnost explicitního popisu. Tagset analyzátoru ajka používaný pro značkování korpusů vzniklých na FF MU (část Korpusu soukromé korespondence, více Hladká a kol. 2005) a FI MU (více Osolsobě – Pala – Sedláček 2006) explicitní údaj o možnosti/nemožnosti tvoření tvarů komparativu a superlativu neobsahuje. Přesto je ve slovníku automatického analyzátoru u každého adjektiva informace (vzor) o tvoření/netvoření příslušných tvarů (Osolsobě 2008^1). V českých gramatikách se věnuje pozornost pouze stupňování syntetickému se zvláštním zřetelem k některým nepravidelnostem, jako je např. supletivní tvoření tvarů komparativu a superlativu (dobrý – (nej)lepší), anomáliím s dopadem na častější pravopisné chyby (sladký –(nej)sladší), dubletám (trpký – (nej)trpč(ejš)í). V těchto případech bývá informace o tvoření komparativu a superlativu součástí gramatické informace u motivujícího adjektiva v českých výkladových slovnících. K tomu, abychom mohli pomocí rozsáhlého jazykového materiálu empiricky zkoumat vlastnosti adjektiv zakončených na -cí, která, jak se zdá na základě uvedených citátů, představují skupinu adjektiv s problematickým vztahem k +/– stupňovatelnosti (přesněji tvoření tvarů komparativu a superlativu synteticky), potřebujeme nejdříve shromáždit potřebná data. K tomuto účelu si položíme několik otázek a budeme se snažit hledat na ně odpovědi. Otázky Která adjektiva mohou v češtině končit na -cí? Jsou mezi nimi nějaké výraznější skupiny, jejichž identifikace by nám mohla pomoci při řešení problému stupňovatelnosti? Pokud ano, je zachyceno dělení na takové skupiny na úrovni morfologického značkování? Formulace dotazu pro získání dat z korpusů Pro získání odpovědi na první z otázek použijeme jednoduchý postup. Chceme vyhledat všechna adjektiva, která končí na cí. Zvolíme tedy Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”A.*” & lemma=“.*cí“]. Podíváme se na frekvenční distribuci lemmat. Třídění a pozorování dat získaných z korpusů Z pozorování seznamu adjektiv můžeme vyvodit odpověď na druhou z otázek. Na třetí otázku odpovíme tak, že v menu Frekv. distribuce přidáme druhou úroveň (lemma) a třetí úroveň (tag). Budeme sledovat, zda a jak odpovídá značkování (především údaj na 2. pozici tagu) vysledovaným skupinám. Formulace závěrů Na základě pozorování dat můžeme říci, že adjektiva derivovaná od kmene shodného s kmenem pro tvoření slovesného tvaru přechodníku přítomného (tzv. procesuální adjektiva) jsou označena jako AG.* (cestující, následující, ...). Všechna ostatní mají značku AA.* (domácí, ...). Na základě pozorování dat zjistíme, že kromě adjektiv od „přechodníku přítomného“ jsou zastoupena adjektiva odvozená od sloves vyjadřující účel (účelová), např. psací, obývací, ... Vně těchto skupin stojí nejfrekventovanější adjektivum domácí. Nyní si položíme otázku, zda na -cí mohou v češtině končit pouze dvě velké a na první pohled patrné skupiny deverbativ a adjektivum domácí, nebo zda lze najít ještě nějaká další adjektiva (skupiny adjektiv). Jak budeme postupovat? Pokusíme se eliminovat a) procesuální adjektiva („od přechodníků přítomných“) a b) adjektiva účelová. Procesuální adjektiva lze extrahovat buď pomocí filtru (pozitivní) a morfologické značky, nebo na základě lingvistických znalostí derivačního typu. Porovnejme výsledky obou postupů. Nastavíme filtr (negativní), Typ dotazu tag a do dotazovacího řádku zadáme příkaz AG.* a podíváme se na frekvenční distribuci lemmat. Druhá možnost eliminace procesuálních adjektiv vychází ze znalosti tvoření přechodníků a derivovaných adjektiv v češtině (viz Příloha). Procesuální adjektiva se v češtině tvoří pravidelně od tvaru přechodníku přítomného pro feminina a neutra singuláru. Z řečeného plyne, že před cí může předcházet pouze í nebo ou. Nastavíme filtr (negativní), Typ dotazu lemma a do dotazovacího řádku zadáme příkaz .*[í|(ou)]cí a podíváme se na frekvenční distribuci lemmat. Porovnáme-li oba seznamy, pak nás zaujme a) skupina adjektiv jako budoucí, stávající, žádoucí, smrtící, okouzlující, ... a b) skupina adjektiv jako zvířecí, kuřecí. První skupinu tvoří adjektiva tvořená od sloves, která jsou po formální stránce shodná s adjektivy od přechodníku přítomného, takže je třeba pátrat po tom, proč nemají příslušnou značku, tedy proč mají značku AA.*, nikoli AG.*. Druhou skupinu tvoří adjektiva odvozená od substantiv. Označují buď přivlastnění druhu, nebo široký vztah. Jsou to adjektiva odvozená od substantiv skloňovaných podle vzoru kuře (zvířecí, kuřecí, telecí, morčecí) (více Osolsobě 2009^3). Při vyhledávání kandidátů adjektiv, která patří do této skupiny, budeme postupovat následovně. Nastavíme filtr (pozitivní), zvolíme Typ dotazu lemma, zadáme příkaz .*[eě]cí a podíváme se na frekvenční distribuci lemmat. Ručně můžeme oddělit desubstantiva (zvířecí, kuřecí, knížecí, telecí, markraběcí, hraběcí, batolecí, ...) a deverbativa účelová (napájecí, obráběcí, prováděcí, spouštěcí, třecí, ...). Podívejme se nyní na skupinu adjektiv, která jsou po formální stránce shodná s deverbativními procesuálními adjektivy. Vrátíme se dva kroky zpět. Nastavíme filtr (pozitivní) Typ dotazu tag a do dotazovacího řádku zadáme příkaz AA.* a podíváme se na frekvenční distribuci lemmat (postup viz výše). Při procházení seznamu (185 lemmat je kratší seznam, který můžeme projít celý) si všimněme, že kromě deverbativ se zde vyskytují např. řadová číslovka tisící, dále kompozita růžovo-/červeno-lící a adjektiva jako letoucí, divoucí, která nejsou deverbativy. Celkově vzato ale deverbativa převažují. Vidíme, že důvodem, proč nejsou označkována jako deriváty přechodníků, může být např. to, že řada z nich jsou kompozita, k nimž žádné složené sloveso, a tedy ani přechodník neexistuje (kolemjdoucí, všemohoucí, dlouhotrvající, všeobjímající, ...)[23]. Dále vidíme adjektiva jako žádoucí nebo živoucí, která sice jsou příbuzná se slovesy žádat, žít, nicméně nejsou synchronně pravidelně tvořená od přechodníků přítomných těchto sloves, neboť pak by musela znít žádající, žijící[24]. Rýsují se tedy tři další skupiny: a) procesuální adjektiva, která nemají značku AG.* včetně kompozit, b) adjektiva deverbální, která nejsou synchronně pravidelně tvořená od přechodníků přítomných (viz Dokulil 1986 : 322, 330), c) desubstantivní adjektiva od podstatných jmen, jejichž kmen náhodně končí na skupinu hlásek íc (tisíc, líce), d) adjektiva od substantiv tvořená příponou -oucí (divoucí, letoucí, tmoucí ... ). Nyní se vrátíme ke druhé skupině, a to k adjektivům, která nejsou zakončena formálně shodně s adjektivizovanými přechodníky přítomnými. Jde o adjektiva na -cí, která dle našich pozorování představují skupinu potenciálních adjektiv účelových, tedy ke konkordanci, jejímž výsledkem je 1803 lemmat adjektiv (viz výše). Podívejme se na to, zda lze využít gramatických formálních vlastností adjektiv účelových k tomu, abychom tuto skupinu nějak blíže poznali, aniž by bylo nutné ručně projít seznam o 1803 řádcích. Adjektiva účelová se v češtině tvoří od kmene minulého, konkrétně od tvaru l-ového příčestí. Před cí mohou předcházet pouze některé vokály. Konkrétně a) vokály, které mohou být českými kmenovými vokály (KmV) pro tvoření tvarů l-ového příčestí, a b) vokály, které mohou být kořenovými vokály tvarů l-ových příčestí sloves patřících do III. třídy slovesné ke vzoru krýt (viz Příloha). Bohužel jak adjektiva derivovaná od vzoru kuře, tak adjektiva, jejichž základovým slovem je sloveso I. třídy vzoru umřít (např. třecí) a IV. třídy vzorů trpět a sázet (např. napájecí, obráběcí, ...) a adjektivum čtecí, mají před cí [eě] (viz výše). Konsonanty před cí předcházet nemohou, protože tvoří-li se účelové adjektivum od slovesa, které má v l-ovém příčestí uzavřený kmen (I. třída slovesná vzory nést, péci a II. třída slovesná vzor tisknout), pak se mezi uzavřený kořen a derivační sufix vkládá vokalický konekt, jako je tomu např. u adjektiv jako čtecí, hnětací, pečicí, tiskací (více Osolsobě 2010, 2011^1). Platí tedy pravidlo, že má-li jít o účelové adjektivum, pak podmínkou nutnou, nikoli postačující, je, že před cí předchází [aeěiy]. V češtině sice existují l-ová příčestí, u nichž před l předchází á, toto á se ovšem při derivaci adjektiv účelových buď krátí (hrál – hrací), nebo alternuje (stát – stojací). V češtině ovšem existují l-ová příčestí, u nichž před l předchází u. Od sloves II. třídy se účelová adjektiva na -nucí, jak se zdá, netvoří (srov. tiskací). Neexistuje žádný doklad účelového adjektiva od slovesa III. třídy vzoru krýt s KoV u v l-ovém příčestí (*kucí kůži, počasí, oči, ale též doklad z korpusu SYN2006PUB Basilio je než Rossiniho …). Můžeme si položit otázku, zda k naznačenému jevu nemůže docházet i v případě námi sledované skupiny adjektiv na -cí. Šmilauer a Stich upozorňují na adjektiva na -cnější. Zadání cvičení, v nichž lze uplatnit analogické postupy Vyhledejte v korpusu SYN adjektiva s tvary .*cnějš.*. Sledujte je, podívejte se, jak jsou lemmatizována a značkována, a pokuste se vyvodit závěry o platnosti toho, co uvádí Šmilauer a co se píše na citovaném místě v ESČ. Číslovky Číslovky jsou jako slovní druh vymezeny primárně na základě sémantiky (slova označující určitý/neurčitý počet nebo určité/neurčité množství). Význam množství (vztahu k množství) se vyjadřuje gramaticky prostřednictvím gramatické kategorie čísla. Číslovky (základní) jej vyjadřují lexikálně. Množství ale mohou vyjadřovat i slova, která se na základě jiných vlastností řadí k odlišným slovním druhům. Naopak některé číslovky se používají v jiných významech, než je označení počtu. Tento jev spadá pod pojem tzv. slovnědruhových přesahů a přechodů (případů, kdy jedno slovo může patřit k více slovním druhům). Zaměříme se na to, jak jsou některé takové případy zachyceny na úrovni morfologického značkování. Zatímco v případě slovnědruhových přesahů je značkování otázkou zvoleného popisu na úrovni slovníku automatického morfologického analyzátoru, v případě slovnědruhového přechodu zaznamenaného na úrovni slovníku vícerou interpretací (lemmatu a pos) by ideálně měla existovat desambiguační pravidla, podle nichž lze interpretovat jedno slovo/tvar na úrovni slovního druhu (a tedy i lemmatu). Bude nás především zajímat, zda je možné (na základě pozorování korpusových dat) alespoň v některých případech taková pravidla formulovat. Slovnědruhové přesahy Motivační úvod[25] Číslovky jsou ohebný slovní druh (skloňují se), patří k autosémantikům (vyjadřují počet/množství lexikálně). Zastávají funkce adjektiv i substantiv (srov. Veselý 2011). Druhy číslovek v českých mluvnicích se do jisté míry kryjí s klasifikací v tagsetech používaných pro automatickou morfologickou analýzu (viz výše). Subklasifikace slovního druhu numeralií v tradičních mluvnicích používá kritérium určitosti vyjádření množství. Dalším kritériem je sémantika číslovek. Formálně jde u číslovek vyjadřujících množství, které lze převést na číselnou hodnotu, o slovotvorbu (Osolsobě 1995). Číslovky označované jako dílové skupinové, velikostní a násobné jsou formálními i syntaktickými substantivy nebo adjektivy. Formálními adjektivy jsou i číslovky řadové a druhové. Nastínění problému Číslovky jeden a druhý plní často funkci zájmennou. Tento aspekt není zahrnut v praxi dosavadního značkování. Nicméně na některá rozlišení funkcí slovních tvarů obou lemmat automatická morfologická analýza a na ní založené značkování i desambiguace berou zřetel. Podívejme se na to, jak lze v korpusových datech vyhledávat některé relevantní významy užití sledovaných tvarů. Otázky Slovník spisovné češtiny (SSČ) heslové slovo druhý interpretuje jako řadovou číslovku, v některých kontextech v platnosti přídavného jména, a heslové slovo jeden jako číslovku (viz níže). Ponecháme stranou diskusi o tom, zda by nebylo vhodnější hovořit v případě adjektivní interpretace též o zájmenné funkci adjektiva druhý s významem jiný (více MČ 1 a vymezení identifikátorů a alterátorů v rámci zájmen). Podívejme se, zda a jak těmto slovnědruhovým interpretacím odpovídá praxe značkování v korpusu SYN2010. Formulace dotazu pro získání dat z korpusů Zvolíme tedy Typ dotazu lemma a do dotazovacího řádku napíšeme dotaz jeden. Následně se podíváme na frekvenční distribuci slovních druhů (pos). Procházíme-li slovnědruhové interpretace lemmat na jednotlivých konkordančních řádcích, vidíme, že druhá pozice ve značce je vyplněna většinou jako l (základní číslovky jeden, dva, oba, tři, čtyři), méně jako h (druhová číslovka jedny). Nastavíme filtr (pozitivní), zvolíme Typ dotazu cql a do dotazovacího řádku zadáme příkaz [tag=“Cl.P.*“]. Výsledkem je prázdný seznam. Vrátíme-li se o krok zpět a do dotazovacího řádku zadáme příkaz ve formě [tag=“Ch.S.*“], obdržíme opět prázdný konkordanční seznam. Z tohoto vyplývá, že tvary plurálu jsou na úrovni použitého morfologického značkování chápány vždy jako číslovky druhové, zatímco tvary singuláru vždy jako tvary číslovky základní. Nyní se podíváme na lemma druhý. Zvolíme Typ dotazu lemma a do dotazovacího řádku napíšeme dotaz druhý. Následně se podíváme na frekvenční distribuci slovních druhů (pos). Třídění a pozorování dat získaných z korpusů Pokud bychom tedy chtěli např. zkoumat funkce, kdy tvary lemmatu jeden fungují jako zájmena, pak bychom museli pracovat bez použití morfologických značek. Nicméně bychom mohli využít znalostí gramatiky k třídění bohatého jazykového materiálu, který nabízejí korpusy. Jednou z funkcí druhových číslovek v češtině je zastupovat číslovky základní, je-li počítaným předmětem plurale tantum, ale i tehdy, je-li jím např. substantivum označující párové orgány. Otázka tedy zní: jak vyhledat v korpusu konkordance, kdy počítaný předmět vztahující se ke tvarům lemmatu jeden je plurale tantum? Můžeme postupovat následovně. V pravém kontextu na pozici za tvary lemmatu jeden označkovanými jako Ch.* vyhledáme substantiva (počítaný předmět) a zjistíme, zda se jedná o pluralia tantum. Zvolíme Typ dotazu cql a do dotazovacího řádku zadáme příkaz [lemma=“jeden“ & tag=“Ch.*“]. Zvolíme filtr (pozitivní), rozsah hledání <1,1> a do dotazovacího řádku zadáme dotaz NN.*. Podíváme se na frekvenční distribuci lemmat na první pozici vpravo od KWIC. Sledujeme-li seznam, vidíme, že řada substantiv jsou pluralia tantum (dveře, noviny, šaty, boty, kamna, Vánoce, kalhoty, hodinky, ...), vidíme i názvy párových orgánů (ruce, oči, ...). Zajímavé může být z tohoto hlediska substantivum rodiče. Ve frekvenčním seznamu klikneme na p u lemmatu rodič a získáme příslušné konkordanční řádky. Na uvedených dokladech můžeme dobře sledovat užití ve významu číslovky a zájmena (... Říká se, že rodiče uživí deset dětí, ale deset dětí neuživí rodiče ..., ... Děti rodičů můžou být přece úplně rozdílné ...). Jak je to ale s dalšími významy? Jedná se ve všech případech o význam druhu, tak jako např. v dokladu ... a proti paprskům vysíláme jiné ...? Podívejme se nyní na kolokace s lemmatem druhý. Vrátíme se zpět, ponecháme filtr (pozitivní) i rozsah hledání <1,3> a do dotazovacího řádku zadáme příkaz druhý. Procházíme-li jednotlivé konkordance, zajisté nás napadá i možná interpretace zájmenná/adjektivní s významem ten/nějaký. Rozlišování jednotlivých významů na úrovni praxe automatické morfologické analýzy by ovšem přineslo pouze další problémovou, a tudíž i chybami zatíženou desambiguaci, jak je patrné i z případu interpretací lemmatu druhý. Formulace závěrů V případě lemmatizace a tagování tvarů lemmatu jeden jde o jev, který na lingvistické rovině spadá do oblasti obtížně řešitelných slovnědruhových přesahů. Při anotacích korpusů se některé problémy slovnědruhových přesahů neřeší. Pokud existují přechody a pokud jsou zaznamenány ve slovníku automatického morfologického analyzátoru, jako je tomu v případě lemmatu druhý, jsou výsledky desambiguce sporné. Uživatel může ovšem pozorovat relevantní data, aniž by k jejich třídění používal výsledky desambiguace. Tak může na základě pozorování hledat odpovědi na nejrůznější otázky, mj. i takové, které by vedly k odhalení pravidel pro úspěšnou desambiguaci. Spolehlivost slovnědruhové desambiguace lemmatu druhý by samozřejmě bylo třeba ověřit na větším vzorku. Zůstává ale zřejmé, že se na desambiguaci nelze spoléhat absolutně. V obou případech je patrné, že ruční třídění je východiskem pro ty uživatele korpusu, kteří se nechtějí spokojit s tím, jak je slovnědruhová interpretace (převzatá v zásadě z tištěných slovníků) vtělena do značek automatické morfologické analýzy a jak se odráží v desambiguaci. Formulace dalších otázek vyplynuvších ze zkoumání daného jevu Obdobným způsobem lze sledovat použité značkování dalších lemmat, která mohou mít různou slovnědruhovou platnost. Nabízí se např. tvary mnoho/mnoha, které jsou interpretovány jako tvary číslovek, ve srovnání se synonymními výrazy jako např. hodně, moc, které jsou na úrovni slovního druhu interpretovány jako adverbia[26]. Zadání cvičení, v nichž lze uplatnit analogické postupy Vyhledejte v korpusu tvary označkované jako druhové číslovky (Cd.*). Popište postup práce s korpusovým manažerem, kterým byste získali potřebná data pro sledování případů, kdy číslovka druhová plní funkci číslovky základní (označuje prostý počet). Slovesa V následujících podkapitolách se zaměříme na otázky spojené s formální morfologií sloves, konkrétně s těmi vlastnostmi sloves, na nichž je založeno třídění do slovesných tříd a vzorů. Ukážeme, jak lze tyto vlastnosti využít pro vyhledávání některých slovesných tvarů bez použití morfologického značkování, přičemž se nejdříve na základě empirie (pozorování korpusových dat) pokusíme formulovat pravidla hláskové podoby některých slovesných tvarů a pak výsledky pozorování srovnáme s pravidly, která můžeme vyvodit ze znalostí fungování gramatického systému. K tomuto tématu se vrátíme i v některých dalších kapitolách věnovaných tvoření deverbativ. Druhou oblastí, na niž chceme zaměřit pozornost, je výzkum mezí a možností tvoření syntetického futura v češtině. Ukážeme některé nedostatky morfologického značkování tvarů budoucího času tvořeného prefixem po- od nedokonavých sloves a naznačíme, jak lze v korpusech hledat kandidáty na tvary syntetického futura. Dále budeme sledovat jeden (dle našeho názoru poněkud opomíjený) případ vyjadřování 2. osoby u některých slovesných tvarů. Ukážeme, jak vyhledat relevantní data pro pozorování tohoto jevu v korpusech. Nakonec se zaměříme na analytické slovesné tvary. Ukážeme, jak lze na základě pozorování korpusových dat odhalovat pravidla slovosledných variant složených slovesných tvarů. Slovesná třída a slovesný vzor – jak lze v korpusu hledat slovesné tvary bez použití tagu? Motivační úvod V každé mluvnici češtiny najdeme pasáže věnované formální morfologii českého slovesa, které operují s termíny jako kmen, přičemž rozlišují kmen přítomný minulý/infinitivní, a dále kmenotvorná přípona (téma, tematický vokál). Na pojetích podstaty těchto termínů je pak založeno třídění českých sloves do slovesných tříd a jejich řazení ke vzorům. V oddílech věnovaných tvoření slov se pak většinou nějakým způsobem odkazuje ke třídění zavedenému na úrovni tvaroslovné, a to především na úrovni rozlišení derivací od kmene a od kořene, popř. od slovesného tvaru. Určování slovesných tříd a vzorů pokládá většina studentů za duchamorný dril. Přesto může dobrý přehled v této oblasti účinně napomoci pochopení, jak vyhledat v korpusech doklady řady jevů v oblasti morfologie a tvoření slov. Segmentaci slovesných tvarů, při níž bereme v úvahu přítomnost kmenotvorné přípony, lze totiž dobře využít, chceme-li formálně definovat různé tvary sloves i některých deverbativ (srov. výše). Pro přehlednost v příloze uvádíme algoritmus určování slovesných tříd podle kmene přítomného a vzorů podle kmene minulého v češtině. Vycházíme zde z Komárkova modelu (Komárek a kol. 1987 : 427–495). Nastínění problému Pokud chceme vyhledávat v korpusech nejen jednotlivé slovní tvary, uvítáme, máme-li k dispozici morfologicky označkovaný korpus. Ten ale vždy k dispozici nemáme. Máme-li jej, pak v každém korpusu existují tvary, které jsou označkovány „nesprávně“, což souvisí s chybami na úrovni automatické morfologické analýzy (tvaru není přidělena žádná interpretace), nebo nedostatky v desambiguaci (z přidělených interpretací nebyla vybrána správná interpretace). Mohou tedy nastat situace, kdy se při práci s jazykovými korpusy chceme, či jsme nuceni bez použití lemmatizace a tagování obejít. Otázky Naším cílem bude vyhledat kandidáty na l-ové příčestí. Záměrně ponecháme stranou substandardní tvary sloves s uzavřeným kmenem minulým (vzory nést, péct, tisknout) realizované bez koncového -l (nes, ved, upek, spad, ...). Při řešení takového i podobných úkolů můžeme stavět na předpokladech, které vycházejí právě ze znalostí pravidel utváření slovesného tvaru. Můžeme ale zvolit postup, kdy pravidelnosti odhalíme na základě pozorování korpusových dat a až nakonec propojíme empiricky zjištěná pravidla s pravidly vycházejícími z gramatických popisů. Formulace dotazu pro získání dat z korpusů Nejdříve se pokusme formálně definovat tvary l-ových příčestí v češtině. Co o nich lze po formální stránce s jistotou tvrdit? Nejjednodušší odpověď zní, že tvar musí končit na řetězec (l|l[aoiy]). Zvolíme Typ dotazu slovní tvar a do dotazovacího řádku napíšeme dotaz ve formě .*(l|l[aoiy]). Podíváme se na frekvenční distribuci slovních tvarů z hlediska slovních druhů (a na druhé úrovni zadáme atribut pos). Třídění a pozorování dat získaných z korpusů Již mezi velmi frekventovanými formálně definovanými tvary nacházíme nežádoucí doklady: li, chvíli, jestli, dál, kvůli, zcela, … Procházet ručně 106 711 tvarů není řešení, které by nás lákalo. Vede k cíli nějaká efektivnější cesta? V úvodu jsme hovořili o tom, že budeme brát v úvahu segmentaci slovesného tvaru v češtině, a to především vydělení kmenotvorné přípony. Kmenotvornou příponu lze pojímat jako segment stojící před osobní nebo infinitivní koncovkou, popřípadě před komplexem tvarotvorná přípona participia + rodová koncovka. Při řešení našeho problému pracujeme s tvary l-ových příčestí, tedy tvary zakončenými komplexem tvarotvorná přípona -l- a rodová koncovka -0, -a, -o, -i, -y. Pokud zapomeneme úplně všechno, co jsme kdy slyšeli o kmenotvorné příponě, můžeme minimálně předpokládat, že půjde o „něco“, co bude předcházet před tímto komplexem. Otázka, kterou si můžeme položit, pak bude znít takto: Může před -l, má-li být tvarovou koncovkou l-ového příčestí, předcházet cokoliv (třeba i mezera, srov. li), nebo existují nějaká omezující (vymezující) pravidla? Dále můžeme experimentovat, hledat postupně pomocí filtru a dívat se na tvary stejně zakončené jako ty, které prokazatelně slovesnými tvary nejsou (viz výše). Nastavíme filtr (pozitivní), zvolíme Typ dotazu slovní tvar a do dotazovacího řádku napíšeme postupně dotazy ve formě .*í(l|l[aoiy]), .*t(l|l[aoiy]), .*á(l|l[aoiy]), .*ů(l|l[aoiy]), .*e(l|l[aoiy]). Sledujeme frekvenční distribuce slovních tvarů a slovních druhů. Formulace závěrů Na základě empirie lze konstatovat, že existují některé kombinace, jako např. .*[íů](l|l[aoiy]), pro něž v korpusu nebyl nalezen jediný doklad l-ového příčestí. V dalším postupu lze postupně testovat další možnosti. Můžeme pokračovat po dílčích krocích. Testovat třeba vokály, přičemž můžeme začít od dlouhých (kromě á, protože ve dvou případech [íů] jsme zjistili pozitivní výsledky) a pokračovat krátkými. Může nás napadnout, že nebude asi možné kombinovat s l libovolné konsonanty (přinejmenším ř, l, ale třeba také ď, ť, ň, či další). Na tomto místě nebudeme jednotlivé kroky s ohledem na rozsah našeho textu dokumentovat, a ukážeme výsledky výše naznačených postupů. Empiricky lze dokázat, že mezi tvary končícími řetězcem .*[éíoóůý](l|l[aoiy]) se nevyskytl ani jeden spisovný tvar českého l-ového příčestí. Jak? Vrátíme se zpět ke konkordanci tvarů na .*(l|l[aoiy]), zvolíme filtr (pozitivní), Typ dotazu slovní tvar a do dotazovacího řádku napíšeme dotaz ve formě .*[éíoóůý](l|l[aoiy]) a podíváme se na frekvenční distribuci slovních tvarů a slovních druhů (postup viz výše). Slovesné tvary jsou pouze imperativy sloves (např. dovol, osol, zvol, povol, přisol, ohol, ...). Vyskytly se též tvar l-ového příčestí slovesa být ve slovenštině (nebol) mylně interpretovaný jako imperativ slovesa nebolet, nebo tvar l-ového příčestí ruského slovesa ubiť přepsaný jako ubíli interpetovaný automatickou morfologickou analýzou jako imperativ slovesa ubílit. Dále lze empiricky dokázat, že mezi tvary končícími řetězcem .*[bdfghkmnprtv]e(l|l[aoiy]) se nevyskytl ani jeden spisovný tvar českého l-ového příčestí. Vrátíme se o krok zpět, zvolíme filtr (pozitivní), zvolíme Typ dotazu slovní tvar a do dotazovacího řádku napíšeme dotaz ve formě .*[bdfghkmnprtv]e(l|l[aoiy]) a podíváme se na frekvenční distribuci slovních tvarů a slovních druhů (postup viz výše). Pokud se tvary označkované jako slovesa vyskytly, pak šlo o tvary označkované jako tvary imperativu (umel, nemel, ustel, vytmel, ...), přičemž v některých případech se vyskytly chyby v morfologickém značkování (Tvary tetel, šmel nejsou v daných kontextech imperativy sloves tetelit se, šmelit). Kliknutím na p na příslušném řádku získáme konkordanční seznam s výskyty tvarů označkovaných jako slovesa a opět se podíváme se na frekvenční distribuci slovních tvarů a slovních druhů (postup viz výše). Empiricky lze konečně taktéž dokázat, že mezi tvary končícími řetězcem .*[aáeéěiíoóuúůyý][aáeěiu](l|l[aoiy]) se nevyskytl ani jeden spisovný tvar českého l-ového příčestí. Vrátíme se zpět ke konkordanci tvarů na .*(l|l[aoiy]), zvolíme filtr (pozitivní), Typ dotazu slovní tvar a do dotazovacího řádku napíšeme dotaz ve formě .*[aáeéěiíoóuúůyý][aáeěiu](l|l[aoiy]) a podíváme se na frekvenční distribuci slovních tvarů a slovních druhů (postup viz výše). Pokud se tvary označkované jako slovesa vyskytly, pak šlo o nesprávně desambiguované tvary imperativu, jak je patrné, klikneme-li na p u pos V. Vidíme jasně, že jde o doklady chyb v morfologickém značkování. Empiricky lze dokázat, že mezi tvary končícími řetězcem .*[ďgjlnňřťžqw](l|l[aoiy]) se nevyskytl ani jeden spisovný tvar českého l-ového příčestí. Vrátíme se zpět ke konkordanci tvarů na .*(l|l[aoiy]), zvolíme filtr (pozitivní), Typ dotazu slovní tvar a do dotazovacího řádku napíšeme dotaz ve formě .*[ďgjlnňřťžqw](l|l[aoiy]) a podíváme se na frekvenční distribuci slovních tvarů a slovních druhů (postup viz výše). Pokud se tvar označkovaný jako sloveso vyskytl, pak šlo o chybu v lemmatizaci i značkování, která patrně spadají na vrub automatického značkování a lemmatizace (přegenerovávání).[27] V korpusu byly ovšem při podrobném procházení konkordančních řádků nalezeny též doklady nerozpoznané automatickou morfologickou analýzou. Jedná se o některé pro češtinu méně obvyklé kombinace. Výše uvedená pravidla založená na empirii (korpusová data) lze podložit důkazem opřeným o pravidla fungování systému české slovesné flexe (konjugace a derivace tvarů příčestí). Mějme tři tvrzení: 1. Tvar končí na řetězec l|l[aoiy], před nímž mohou předcházet pouze některé vokály a konsonanty. 2. Před řetězcem el nemohou předcházet některé konsonanty. 3. Před vokály stojícími před řetězcem l nemohou předcházet žádné vokály. Diskuse: První tvrzení vychází ze znalostí pravidel struktury slovesného tvaru. Mezi vokály, které mohou předcházet před l, patří pouze ty, které a) mohou figurovat jako kmenotvorná přípona (dále KmV) a b) mohou být vokálem v kořeni (KoV) sloves podle vzoru krýt a některých nepravidelných sloves (být, mít, chtít, ...). Pod a) patří vokály -a- (děl-a-l), -e-/-ě- (drž-e-l, trp-ě-l), -i- (kouř-i-l), -u- (tisk-nu-l), pod b) patří -á- (hrá-0-l), -e-/-ě- (kle-0-l, pě-0-l), -i- (pi-0-l), -u- (zu-0-l), -y- (kry-0-l). Mezi konsonanty mohou patřit všechny kromě [ďjlnňřťqw], naopak mezi ně mohou patřit konsonanty [gž], o čemž svědčí doklady z dalších korpusů (typicky moravské rožl) nebo z internetu (nagrgl)[28]. Druhé tvrzení vychází z toho, že česká l-ová příčestí zakončená na -el musí být tvořena od sloves některých tříd a vzorů, a to a) I. třída vzor umřít, b) III. třída vzor krýt, c) IV. třída vzory trpět, sázet, d) nepravidelná. Pod a) patří pouze slovesa, u nichž před el předchází [řl], pod b) patří pouze slovesa, u nichž před el předchází [lsz], pod c) patří pouze slovesa, u nichž před el předchází [cčjlřsšzž], pod d) patří slovesa jel, šel, u nichž před el předchází [jš]. Mezi konsonanty, po kterých nemůže následovat el, patří [dtnbpfvm] (protože ve spisovné češtině neexistují slovesa, pro něž by platilo, že kořenová finála je [dtnbpfvm], a zároveň KmV je e, neboť po kořenových finálách realizovaných graficky jako [dtnbpfvm] následuje v psané podobě nutně grafické ě, takže ve zvukové podobě jazyka se tyto finály vlastně nerealizují), dále [kgh|(ch)] (protože ve spisovné češtině neexistují slovesa, pro něž by platilo, že kořenová finála je velára a zároveň KmV je e) a r (protože ve spisovné češtině neexistují slovesa, pro něž by platilo, že kořenová finála je r a a zároveň KmV je e). Tímto způsobem lze vyloučit deverbativní substantiva činitelská na -tel, dále např. vlastní jména (Karel, Pavel, Michel, ...), nebo substantiva/tvary jako vyvrhel, chrchel, pekel, plevel, boubel, koupel, cumel, ... Třetí tvrzení vychází z toho, že předchází-li před l vokál, pak jde buď o kmenový vokál KmV, nebo o kořenový vokál KoV (viz výše). KmV nemůže být v l-ovém příčestí diftong (srov. pravidelnou alternaci ou>u u l-ových příčestí sloves patřících do II. třídy, která mají v l-ovém příčestí příslušný KmV). V češtině existují slovesa, jejichž KoV je diftong a zároveň se tvar l-ového příčestí tvoří od otevřeného kořene. Jde o slovesa III. třídy vzoru krýt (obout, dout, kout, plout, zout, ...), u nichž KoV diftong pravidelně alternuje v l-ovém příčestí s u. Tímto způsobem lze vyloučit např. propria typu Soul a cizí slova zakončená např. na -aul, -ael aj. Obdobné postupy lze navrhnout pro usnadnění analýzy neoznačkovaných korpusů, popř. tehdy, chceme-li postupovat bez použití morfologických značek. Zároveň je ale patrné, že analogické lingvistické úvahy nám mohou posloužit při vyhledávání kandidátů na určitý derivační typ, přičemž nasnadě se jeví aplikovat je a prověřit vhodnost navržené metody pro deverbativa (viz níže). Formulace dalších otázek vyplynuvších ze zkoumání daného jevu Lze předpokládat, že existují slovesné tvary, u nichž bude možné uplatnit analogické postupy. U kterých slovesných tvarů by mohlo být uplatnění analogických postupů snazší a u kterých obtížnější? Zadání cvičení, v nichž lze uplatnit analogické postupy Vyhledejte podobným způsobem kandidáty na tvary infinitivu. Uplatněte podobný postup při vyhledávání názvů osob (vč. proprií) tvořených konverzí z minulých příčestí (typ kutil, čumil, Málodělal, Bral, Musil, Drbal, …) (srv. též Osolsobě 2011^1 : 61n^ ). Všimněte si chyb ve značkování. Syntetické futurum v češtině Motivační úvod Termínem syntetické futurum se v českých gramatikách označují tvary několika desítek českých nedokonavých sloves tvořených od tvarů indikativu prézentu aktiva prefixem po- (pů-) většinou paralelně ke tvarům opisného futura (kromě jet, jít). Tato slovesa jednotlivé mluvnice a monografické práce 1) významově vymezují a 2) uvádějí jejich výčty. Ve slovnících jsou zachyceny nejednotně. SSJČ uvádí celkem 48 sloves (SSČ pouze 21), která mohou tvořit tvary syntetického futura. V gramatikách najdeme stručné výčty a v odborné literatuře (srv. Čermák 1990 : 160, Kopečný 1962) výčty rozsáhlejší. Nastínění problému Pokud připustíme, že se jedná o otevřenou skupinu sloves, pak je nanejvýš pravděpodobné, že korpusy jakožto velká data mohou přispět k doplnění obrazu o tomto způsobu tvoření budoucího času: a) může v nich být doloženo užití těchto tvarů od sloves, u nichž slovníky tvoření neuvádějí, b) lze zkoumat na základě rozsáhlejší materiálové základny, o jaká slovesa jde (běžně se uvádí, že jde o slovesa pohybu, nebo taková, která pohyb implikují, a navíc, že jde o pohyb určený směrem), c) s ohledem na to, že jde (kromě sloves jít, jet) o vyjádření budoucího času formou syntetickou paralelně s formou analytickou, můžeme v korpusech zkoumat distribuci (frekvence, významové odstíny) obou paralelních možností. Otázky Nejdříve je třeba zjistit, zda jsou v korpusu označkovány tvary syntetického futura tak, aby je bylo možné vyhledávat pomocí morfologické značky. Z popisu morfologických značek zjistíme, že ke gramatickým významům kategorie času se vztahuje 2. a 9. pozice morfologické značky, konkrétně k futuru na 2. pozici značka B (sloveso, tvar přítomného, nebo budoucího času) a na 9. pozici značka F (futurum (budoucí čas)). Dále je třeba zjistit, kolik a jakých lemmat/slovních tvarů syntetického futura lze vyhledat pomocí morfologické značky. Další otázky mohou vyplynout z tohoto šetření. Formulace dotazu Zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=“VB......F.*“]. Kromě tvarů budu, budeš, … si všimneme tvarů slovesa jít. Podíváme se na frekvenční distribuci lemmat. Projdeme-li tento seznam, jistě nás napadne, že není úplný. Není pravděpodobné, že by se v korpusu některá lemmata nevyskytovala. Zřejmě se jedná o otevřenou třídu sloves, takže ve slovníku automatického morfologického analyzátoru nejsou zaznamenána všechna slovesa, která mohou v češtině takto tvořit futurum. Naopak ve slovníku automatického morfologického analyzátoru jsou zaznamenána slovesa, která jsou tvořena prefixem po- a mají s námi sledovaným typem sloves homonymní některé tvary od kmene přítomného. Vyjdeme z předpokladu, že u řady tvarů s prefixem po- se automaticky uvádí lemma s tímto prefixem, přičemž se nerozlišují případy, kdy jde o tvarotvorný prefix syntetického futura a kdy jde o slovotvorný prefix. Z toho důvodu chybí ovšem také rozlišení na úrovni morfologické značky (na 9 pozici není vyznačeno, že jde o tvar futura, je zde uvedeno P). Podívejme se, jak můžeme testovat, kolik a jakých tvarů syntetického futura se v korpusu vyskytuje bez odpovídajícího tagu. Nejdříve se pokusíme vzpomenout si na nějaké sloveso, které používáme ve tvaru syntetického futura a které zároveň chybí v uvedeném seznamu. Vezměme např. sloveso „valit (se) někam“ ve významu „pospíchat, rychle spět někam“, které může mít tvary syntetického futura (asi připustíme, že je možné říci obojí, tedy že „se při záplavách vody povalí/ budou valit na Prahu“), ty jsou ovšem homonymní s tvary od prézentního kmene slovesa „povalit koho/co“. Jak budeme postupovat? Budeme hledat tvary slovesa povalím, povalíš, …. Můžeme vyjít z předpokladu, že některé tyto tvary budou a) chybně lemmatizovány (lemma povalit), a b) budou tudíž i mylně označkovány (VB......P.* nikoli VB......F.*). Jak budeme postupovat? Zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [lemma="povalit" & tag="VB......P.*"]. Výsledkem je konkordance, jejíž část vidíme na následujícím obrázku. Chyby vidíme na prvním, čtvrtém, pátém i osmém řádku, neboť se jedná o tvary lemmatu valit v syntetickém futuru. Nyní stručně ukážeme postup hledání kandidátů syntetického futura. Namátkovými sondami jsme zjistili, že v lemmatizovaných korpusech jsou tvary, které jsou/mohou být tvary syntetického futura lemmatizovány tak, že lemma je skutečné nebo utvořitelné sloveso se slovotvorným prefixem po-. Této lemmatizaci odpovídá značkování, tedy hodnota P na pozici 9. Podívejme se např. na tvary lemmatu pofrčet. Vidíme, že ve všech případech je chybná lematizace, a tedy i značkování. Jak budeme hledat kandidáty obdobných sloves s chybnou lemmatizaci? Nejdříve je třeba vytvořit seznam lemmat začínajících na po- slovesných tvarů označkovaných jako prézentní tvar (VB......P.*), popř. X.* (neznámý tvar). V menu Korpus zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [lemma=“po.*“ & tag=“(VB.*)|(X.*)“] (chceme získat přehled o prézentních tvarech sloves, jejichž lemmata mají na začátku řetězec po). Podíváme se na frekvenční distribuci lemmat. Všimněme si lemmatu povést (kliknutím na p získáme seznam konkordančních řádků a mnoha chyb v lemmatizaci slovesa vést). Ručně procházíme poměrně dlouhý seznam slovesných lemmat. Musíme zapojit jazykovou představivost a ptát se, u kterých z nich by mohlo jít o hledaný případ nesprávné lemmatizace. Nalezené příklady si zapisujeme. Všimneme si mj. (viz níže) lemmat pokvést a pomazat (kliknutím na p získáme seznam konkordančních řádků a můžeme sledovat chyby v lemmatizaci a značkování). Zatímco u pokvést můžeme předpokládat, že jde pouze o mechanicky utvořený infinitiv, sloveso pomazat tvořené prefixem po- má prézentní tvary homonymní se syntetickými tvary slovesa mazat s významem rychle se někam pohybovat (první a předposlední řádek výše). Třídění a pozorování dat získaných z korpusů Podívejme se na konkordance (viz výše). Vidíme, že v případě slovesných tvarů s lemmatem pokvést je lemmatizace (tudíž i značkování) chybná ve všech případech. V případě lemmatu pomazat jsou chyby vyznačeny (viz výše). Projdeme-li všechny konkordanční řádky, zjistíme, že z celkového počtu 58 výskytů se v 11 případech jedná o tvary syntetického futura slovesa mazat. Další otázky Pokuste se v různých korpusech najít co nejvíce dalších dokladů vyjádření futura gramatickým prefixem po-. Najděte ke slovesu mazat případy vyjádření futura opisnou (analytickou) formou (bude + infinitiv) a porovnejte frekvenci (11 : ??). Formulace dotazu pro získání dat z korpusů Seznamy sloves, jejichž lemma začíná na po a která jsou označkována značko VB.*, je třeba projít ručně. Nyní naznačme, jak lze postupovat, hledáme-li tvary analytického futura slovesa mazat, abychom mezi nimi mohli hledat případy užití ve významech, které mohou vyjádřit futurum také synteticky. Postup není úplně jednoduchý. Nejdříve vyhledáme všechny tvary slovesa mazat v infinitivu. Zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [lemma=“mazat“ & tag=“Vf.*“]. V dalším kroku zvolíme filtr (pozitivní), nastavíme rozsah hledání <–5,5> (lze nastavit i větší), Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [lemma=“být“ & tag=“VB......F.*“] within (vyhledáváme v rámci jedné věty). Formulace závěrů U slovesa mazat ve významu pohybu se vyskytují výhradně tvary syntetického futura. U dvou výskytů analytického futura slovesa mazat se domníváme, že by také bylo možné použít futura syntetického. Jde o význam hrát karty (až budu večer karty : až večer karty) a zabývat se něčím nepříjemným (on se s nějakými stejnými tanečníky : on se s nějakými stejnými tanečníky ). Upozorňujeme dále na to, že pokud je v přísudku modální sloveso, pak se tvar pomocného slovesa být váže k tomuto slovesu, nikoli ke slovesu významovému. Není tudíž možné počítat případy jako ... budu se muset spakovat a .... Závěry pozorování můžeme zanést do tabulky. syntetické futurum analytické futurum mazat 11 2 Formulace dalších otázek vyplynuvších ze zkoumání daného jevu Podívejte se na další gramatické vlastnosti sloves, která mají tvary syntetického futura homonymní s tvary sloves tvořených prefixem po-, a pokuste se zamyslet nad tím, zda by se jich nedalo nějak použít při třídění dokladů. V případech lemmat jako pokvést, pofrčet, potrvat, ... (předpokládáme o nich, že nejsou v úzu) zkontrolujte, zda se v korpusech opravdu nevyskytují tvary infinitivu a l-ových příčestí. Pokud se nějaké takové tvary vyskytnou, popište jejich užití a významy. Zadání cvičení, v nichž lze uplatnit analogické postupy[29] Vyberte ze seznamu kandidátů další slovesa a naznačený postup pro ověření poměru tvarů syntetické : analytické futurum zopakujte. Doklady syntetického futura můžeme hledat i v neoznačkovaných korpusech (mluvené korpusy, korpus soukromé korespondence), hledání bude ovšem trošku složitější. Jak budeme postupovat? Chceme najít slovní tvary, které začínají řetězcem po a končí řetězcem [uieíášm]. V nabídce korpusů zvolme např. korpus ORAL2008. Zvolíme Typ dotazu slovní tvar a do dotazovacího řádku napíšeme po.*[uieíášm] Podívejme se na frekvenční seznam tvarů. Doklady nechybějí. Možná jste už někdy slyšeli vulgární formulaci v tom smyslu, že ... se někdo s něčím po... , tedy že někdo bude něco dělat příliš pomalu. Další významovou nuanci vulgarismu v syntetickém futuru najdeme v mluveném korpusu ORAL2008. Pátrejte po dalších kandidátech v dalších mluvených korpusech a v Korpusu soukromé korespondence. Je pravda, že slovesa schopná tvořit synteticky futurum mají vždy pouze význam pohybu určeného směrem, nebo lze doložit i další významové nuance? Jak to, že v korpusech můžeme najít a ? Jakou osobu signalizují tvary by? Motivační úvod Motto: Aby ses nezbláznila! Tabulkové popisy pomocného tvaru pro tvoření kondicionálu v češtině v naprosté většině českých mluvnic včetně popisu v „korpusové“ Mluvnici současné češtiny vypadají zhruba takto: 1. osoba bych bychom 2. osoba bys byste 3. osoba by by Porovnáme-li morfologické značkování tvarů by v korpusech řady SYN, narazíme na to, že v korpusu SYN2000 mají všechny tvary by na 8. pozici osoba hodnotu 3 (3. osoba). V korpusech SYN2005 a SYN2006PUB mají tvary by na 8. pozici osoba hodnotu – (neurčuje se). V korpusech SYN2009PUB a SYN2010 mají tvary by na 8. pozici osoba hodnotu buď 3 (3. osoba), anebo – (neurčuje se). Mohou tvary by implikovat, že jde o jinou než třetí osobu? Nastínění problému Z výše uvedeného je patrné, že tabulkové popisy tvarů by v mluvnicích a značkování korpusu SYN2000 nebere v úvahu případy, kdy se tvar by vyskytuje nejen jako pomocný tvar při tvoření složených slovesných tvarů třetí osoby, ale kdy je za určitých podmínek jedním z tvarů, jimiž se tvoří složený tvar osoby druhé. Otázky Které tvary mají v korpusech na 8. pozici osoba hodnotu 2 (2. osoba)? Zvolíme Typ dotazu cql, do dotazovacího řádku napíšeme dotaz ve formě [tag=”.......2.*.“] Podíváme se na frekvenční distribuci slovních druhů. V dalším kroku zvolíme filtr (negativní) a do dotazovacího řádku napíšeme dotaz ve formě V.*. Podíváme se na frekvenční distribuci lemmat a slovních druhů. Pozorujeme, že kromě slovesných tvarů se ve značkování korpusu objevuje na 8. pozici osoba hodnota 2 (2. osoba) u tvarů osobních a přivlastňovacích zájmen 2. osoby a u tvarů lemmat aby, se, kdyby, že, co, kdos. Pozorujte v korpusu SYN2010 tvary lemmat, která mají na 8. pozici osoba hodnotu – (neurčuje se). Pokuste se mezi nimi najít příklady, kdy se nejedná o 3. osobu. Kde všude se může vyskytovat volný morfém -s signalizující 2. osobu v případě, že jde o tvar slovesa v kondicionálu, a jak lze doklady najít v korpusech? Formulace dotazu pro získání dat z korpusů Zvolíme Typ dotazu cql, do dotazovacího řádku napíšeme dotaz ve formě [lemma=“být“ & tag=“Vc.....-.*“]. Zvolíme filtr (pozitivní), rozsah hledání <1,1>,Typ dotazu slovní tvar a do dotazovacího řádku napíšeme dotaz ve formě s[ei]s. Třídění a pozorování dat získaných z korpusů Nejdříve ověříme, zda tvar s[ei]s může stát na jiné pozici než <1,1> vzhledem k tvaru by. Zjistíme, že toto je jediná slovosledná varianta doložená ve zkoumaném korpusu. Na otázku, zda jsou v korpusu doloženy případy, kdy zvratné sloveso v kondicionálu má tvar složen z tvarů bys + se/si + l-ové příčestí významového slovesa, lze najít odpověď takto. V menu Konkordance zvolíme Typ dotazu fráze, do dotazovacího řádku napíšeme dotaz ve formě bys s[ei]. Podívejme se na jednotlivé řádky a označme případy, kdy nejde o předložku se (chyby v desambiguaci). Pomocí filtrů se můžeme pokusit odstranit případy, kdy jde s velkou mírou jistoty o se správně označkované jako předložka. Zvolíme filtr (negativní), rozsah hledání <2,2> , Typ dotazu cql a do dotazovacího řádku napíšeme [tag=“….7.*“]. Pozorujeme jednotlivé konkordanční řádky. V menu Konkordance zvolíme Typ dotazu fráze, do dotazovacího řádku napíšeme dotaz ve formě bys s[ei]s. Pokládali byste takováto užití za chybná? Překvapuje vás, že jich není více/méně? Jak byste hodnotili uvedená užití kondicionálu zvratných sloves doložená v korpusu SYN2010? Formulace závěrů Z pozorování dat korpusu SYN2010 je patrné, že použitá desambiguace nebere v úvahu při desambiguaci významu osoby obvyklejší případy tvarů kondicionálu 2. osoby singuláru zvratných sloves. Druhá osoba u zvratných sloves je většinou (nikoli vždy) signalizována volným morfémem -s na tvaru zvratného se/si. Ten stojí (téměř) vždy v pozici <1,1> od tvaru by, což odpovídá pravidlům postavení klitik v češtině. Kromě toho lze v korpusech pozorovat také nečetné doklady kondicionálu zvratných sloves tvořených tvarem bys se zvratným se/si, ale i ses/sis. Formulace dalších otázek vyplynuvších ze zkoumání daného jevu[30] Jak se chová volný morfém -s při tvoření tvarů 2. osoby minulého času indikativu aktiva? Existují v korpusech doklady, kdy se volný morfém -s vyskytuje v pasivu? Existují v korpusu doklady, kdy volný morfém -s zastupuje tvar slovesa jsi i v případě, že tvar jsi je sponové sloveso? Zadání cvičení, v nichž lze uplatnit analogické postupy Zjistěte, v jakých typech textů se vyskytují řídké případy typu bys se / bys si / bys ses / bys sis. Použijte Menu Možn. zobrazení zvolte Reference (např. opus genre, postupujte dle manuálu ke korpusovému manažeru). Podívejte se, zda se v korpusech vyskytují doklady, kdy mezi tvarem by a tvary s[ei]s stojí nějaký další slovní tvar (… ty by/bys <.*> s[ei]s mi svěřila/mě vybrala … ). Složené tvary slovesné a možnosti jejich vyhledávání v korpusu – pravidla slovosledu v češtině Motivační úvod V korpusech lze vyhledávat výskyty slovních tvarů (word), je možné zvolit vyhledávání podle dalších atributů (lemma, tag, lc, pos atd.). Kromě jednoduchých slovních tvarů můžeme vyhledávat i tvary složené, víceslovné výrazy (fráze). Na tomto místě pojednáme o postupech, které lze použít pro vyhledávání složených slovesných tvarů. Česká slovesná flexe je poměrně chudá na jednoduché slovesné tvary. Kromě indikativu prézentu (futura) aktiva, imperativu a infinitivu aktiva a několika sloves tvořících synteticky futurum prefixem po- se všechny tvary času, způsobu i rodu vyjadřují analyticky. Chceme-li získat z korpusů podklady pro zkoumání vyjadřování kondicionálu, opisného futura, pasiva, minulého času (1. a 2. osoby), musíme vzít v úvahu: a) z jakých složek (tvary pomocných a významových sloves) se jednotlivé formy času, způsobu a rodu skládají a b) slovosledná pravidla, jimiž se řídí možná pořadí jednotlivých komponent. Nastínění problému[31] singulár příčestí l-ové pomocné sloveso volný morfém -s plurál příčestí l-ové pomocné sloveso 1. osoba přišel jsem – 1. osoba přišli jsme 2. osoba přišel (jsi/jste) (-s) 2. osoba přišli jste 3. osoba přišel – – 3. osoba přišli – Povinnou složkou tvaru minulého času indikativu aktiva 1. osoby je v češtině tvar l-ového příčestí slovesa významového a určitý tvar pomocného slovesa být (1. osoba sg. nebo pl.).[32] Povinnou složkou tvaru minulého času indikativu aktiva 2. osoby je v češtině tvar l-ového příčestí slovesa významového a určitý tvar pomocného slovesa být (2. osoba sg. nebo pl.), kterou lze v případě 2. os. sg. vynechat a nahradit pomocné sloveso být volným morfémem -s, který se pojí s tvarem l-ového příčestí významového slovesa nebo s některým jiným slovem ve větě. Povinnou složkou tvaru minulého času indikativu aktiva 3. osoby je v češtině tvar l-ového příčestí slovesa významového a absence určitého tvaru pomocného slovesa být.[33] Budeme-li chtít vyhledat tvary minulého času v indikativu aktiva, pak musíme vzít v úvahu specifika značkování v jednotlivých korpusech. V korpusech SYN2000, SYN2005, SYN2006PUB a v korpusu ORWELL mají všechna l-ová příčestí na 8. pozici – osoba hodnotu X (libovolná osoba (1/2/3)). V korpusech SYN2009PUB a SYN2010 jsou uvedeny hodnoty 1, 2 nebo 3. Většinou jsou správně desambiguovány s ohledem na výskyt tvaru pomocného slovesa být. Existují ale i chybně desambiguované případy. Na následujících obrázcích vidíme doklady chybné desambiguace kategorie osoby (8. pozice) ve značce l-ových příčestí, která jsou součástí složeného slovesného tvaru s volným morfémem -s spojeným se zájmeny co/to a příslovcem kam. Otázky Ať už tedy budeme v případě vyhledávání složených slovesných tvarů pracovat s kterýmkoliv korpusem, budeme muset položit dotazy na jednotlivé tvary osoby, (čísla), způsobu a rodu, vždy s ohledem na možná slovosledná schémata. Formulace dotazu pro získání dat z korpusů V případě vyhledávání tvarů minulého času indikativu aktiva se nám jeví jako nejvhodnější vyjít z tvarů pomocného slovesa být. Budeme pracovat s korpusem SYN2010. V menu Korpus zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [lemma=”být“ & tag=“VB.....[12]P.*“]. V dalším kroku je třeba zjistit, zda jsou tvary jsem, jsi, jsme, jste součástí analytického tvaru minulého času indikativu aktiva, tj. najít v jejich okolí tvar l-ového příčestí a ověřit, že s tvarem pomocného slovesa tvoří hledaný analytický tvar. Zvolíme filtr (pozitivní), rozsah hledání, v němž chceme vyhledávat tvary l-ových příčestí, Typ dotazu cql a do dotazovacího řádku zapíšeme dotaz ve formě [tag=“V[pq].....[12].*“].[34] Jak rozsáhlý má být zvolený interval? Bude rozdíl mezi intervalem vpravo a vlevo? Nespouštějme ze zřetele fakt, že tvar pomocného slovesa být se chová ve sledovaných případech jako příklonka. Třídění a pozorování dat získaných z korpusů Nejdříve nastavíme rozsah hledání <–1, –1>. Počet dokladů příslušné slovosledné varianty v korpusu SYN2010 je 269 918. Pokud se v konkordanci vyskytují chyby, pak by k jejich odhalení mohla pomoci následující zkouška. Ponecháme filtr pozitivní, nastavíme rozsah hledání <1,1>, zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”V[pq].....[12].*“]. Na obrázku níže vidíme na třetím řádku odspodu chybu (substantivum Řek je mylně interpretováno jako l-ové příčestí slovesa říci). Na dalších dvou označených řádcích jsou chyby v interpunkci důvodem přegenerovávání. Chyby v interpunkci vidíme i na dalších řádcích, na nich ovšem k přegenerovávání nedochází. Vrátíme se k původní konkordanci (dva kroky zpět) a nastavíme rozsah hledání <–2,–2>, zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”V[pq].....[12].*“]. Pokusíme se odstranit případy, kdy vyhledané řádky neobsahují hledané slovosledné formace. Budeme postupovat následovně: zvolíme filtr (negativní), nastavíme rozsah hledání <–1,–1>, zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”[JZ].*“]. Snažíme se odstranit případy, kdy tvar pomocného slovesa a l-ové příčestí netvoří dohromady hledaný složený slovesný tvar. (Správně bychom měli nejprve uvedené případy vybrat pomocí pozitivního filtru, projít všechny řádky a ověřit, zda jde ve všech případech opravdu o případy přegenerovávání, a teprve poté je pomocí negativního filtru odstranit.) Procházíme-li konkordanci, vidíme, že konkordanční seznam může obsahovat chyby. Je patrné, že kromě příklonek jako už, my, vy, které stojí před příklonným tvarem pomocného slovesa být, se objevují též řádky s evidentními chybami v morfologickém značkování (… že je vedl opravdu …), a také chyby v interpunkci zdrojových textů, takže ani pravidlovou disambiguaci není možné opřít o spolehlivá data. Pokusíme se hromadně odstranit ty případy, kdy vyhledaný tvar l-ového příčestí nepatří k tvaru pomocného slovesa být. Budeme postupovat tak, že zvolíme filtr (pozitivní), rozsah hledání <–1,–1>, Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=“V.*“]. Z následujícího obrázku je patrné, že se jedná o chyby v originálních textech (především v interpunkci), které nejsou při konverzi textů do formátu korpusu opravovány. Všechny případy vyloučíme tak, že se vrátíme o krok zpět, zvolíme filtr (negativní), rozsah hledání <–1,–1>, Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=“V.*“]. Ze seznamu zbylých dokladů je patrné, že mezi tvarem l-ového příčestí a tvarem pomocného slovesa být mohou stát lemmata osobních zájmen 1. a 2. osoby a slova už, prý. Podívejme se a) zda ve všech případech, kdy mezi tvarem l-ového příčestí a tvarem slovesa být stojí lemma já|ty|my|vy|už|prý, jsou hledané složené tvary minulého času a b) jak vypadají ostatní případy. a) Budeme postupovat tak, že zvolíme filtr (pozitivní), rozsah hledání <–1,–1>, Typ dotazu lemma a do dotazovacího řádku napíšeme dotaz ve formě já|ty|my|vy|už|prý. Výsledkem jsou správné doklady analytického minulého času. b) Vrátíme se zpět a budeme postupovat tak, že zvolíme filtr (negativní), rozsah hledání <–1,–1>, Typ dotazu lemma a do dotazovacího řádku napíšeme dotaz ve formě já|ty|my|vy|už|prý. Výsledkem jsou doklady chybných konkordancí. Chyby jsou mimo jiné způsobeny i chybami v desambiguaci. Např. tvar že, před nímž chybí čárka, je interpretován nikoli jako spojka (J.*), ale jako (TT.* – částice). Vrátíme se zpět (ke konkordanci tvarů lemmatu být označkovaných jako [lemma=”být” & tag=“VB.....[12].*“]), zvolíme filtr (pozitivní), rozsah hledání <–3,–3>, Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=“V[pq].....[12].*“]. Zvolíme filtr (pozitivní), rozsah hledání <–2,–1>, Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”[JZ].*“]. V zobrazeném konkordančním seznamu je patrné, že vyhledané řádky neobsahují hledané slovosledné varianty. Jedná se o případy jdoucí za hranice větných celků. Vrátíme se o krok zpět, zvolíme filtr (negativvní), rozsah hledání <–2,–1>, Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”[JZ].*“]. Pozorujeme, že jde opět především o doklady chyb v interpunkci. Pokusíme se tedy automaticky odstranit tvary, kdy v zadaném intervalu stojí další sloveso. Zvolíme filtr (negativvní), rozsah hledání <–2,–1>, Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”V.*“]. Projdeme ručně seznam zbylých dokladů. Ručním tříděním zjistíme, že všechny nalezené doklady jsou případy přegenerovávání. Důvodem jsou především chyby v interpunkci v originálních textech. Z výše uvedeného je patrné, že od <–3,–3> pozice vlevo od tvaru pomocného slovesa být již nenacházíme tvary l-ových příčestí, které by s tvarem pomocného slovesa být tvořily analytický slovesný tvar minulého času. Lze dobře vidět, že v naprosté většině případů jde o konkordance s chybami v interpunkci (... zmizela kancelář kde pracoval ...), dále překlepy a narazili jsme i na jedno z úskalí tokenizace (... Zavolala D. Řekla ...), kdy jeden token fyzicky zastupuje dva (tečku za iniciálovou zkratkou i tečku jakožto interpunkční znak) a je ovšem interpretován pouze jako první z možností (úplná desambiguace je při automatické morfologické analýze požadována, není ale vždy bezchybná[35]). Chyby se ovšem vyskytují i v případech, kdy l-ové příčestí stojí na pozici <–2,–2> od tvaru pomocného slovesa být, ať už jsou příčinou chyby v lemmatizaci a značkování (... často zamířil právě ...) nebo v interpunkci (... jedna věta co mi ujela napsala jí ujetou větu ...), překlepy, u nichž nelze dokázat, zda jde o vynechanou interpunkci, nebo o nezáměrné opakování téhož slova (překlep: ... Bála bála se, že ....). Potenciální chyby lze vybrat tak, že hledáme tvary, které nemohou být příklonkami (např. l-ová příčestí), vztažná zájmena (kdo, co) a příslovce (kde, jak, proč, kolikrát), před nimiž chybí čárka, slova jako právě, nyní, opravdu, zrovna, pořád, …, za nimiž následuje tvar sem mylně lemmatizovaný jako tvar slovesa být. Podívejme se nyní na pravý kontext pomocného slovesa být. Postup bude analogický. Vrátíme se zpět (ke konkordanci tvarů 1. a 2. osoby slovesa být). Zvolíme filtr (pozitivní), rozsah hledání <1,1>, Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”V[pq].....[12].*“]. Možné chyby jsou opět případy, kdy i v intervalu <–1,–1> stojí l-ové příčestí (viz výše). Na obrázku níže vidíme, že je možno najít případy přegenerovávání. Vrátíme se zpět (ke konkordanci tvarů 1. a 2. osoby slovesa být). Zvolíme filtr (pozitivní), rozsah hledání <2,2> , Typ dotazu tag a do dotazovacího řádku napíšeme dotaz ve formě V[pq].....[12].*. Zvolíme filtr (pozitivní), nastavíme rozsah hledání <1,1>, zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”[JZ].*“]. Snažíme se odstranit případy, kdy zvolený interval překračuje hranice větných celků. Pokud chceme mít přesné výsledky, musíme provést vždy ruční kontrolu řádků, které jsou kandidáty na chybné případy (proto je nejdříve vyhledáme pomocí pozitivního filtru). Teprve poté můžeme pomocí negativního filtru příslušné řádky odstranit. Dále se snažíme odstranit případy, kdy tvar pomocného slovesa a l-ové příčestí netvoří dohromady hledaný složený slovesný tvar. Pokoušíme se najít možné doklady přegenerovávání analogické těm, které jsme pozorovali v případě levého kontextu. Vrátíme se zpět, zvolíme filtr (pozitivní), nastavíme rozsah hledání <1,1>, zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”V[pq]-----[12].*“]. Na obrázku vidíme, že kromě případů plusquamperfekta se objevují i hledané případy přegenerovávání. Pokusíme se je automaticky vybrat: zvolíme filtr (pozitivní), nastavíme rozsah hledání <1,1>, zvolíme Typ dotazu lemma a do dotazovacího řádku napíšeme dotaz ve formě být|bývat. Kromě posledního řádku, na němž je chybně desambiguován tvar žvanil (… vždycky jsem byl <žvanil/žvanit/V.*> …), jde ve všech případech o plusquamperfektum. Vrátíme se zpět ke konkordanci tvarů 1. a 2. osoby slovesa být. Zvolíme filtr (pozitivní), rozsah hledání <3,3>, Typ dotazu tag a do dotazovacího řádku napíšeme dotaz ve formě V[pq].....[12].*. Zvolíme filtr (pozitivní), nastavíme rozsah hledání <1,2>, zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=“[JZ].*“]. Snažíme se odstranit případy, kdy zvolený interval překračuje hranice větných celků. Pokud chceme mít přesné výsledky, musíme provést vždy ruční kontrolu řádků, které jsou kandidáty na chybné případy (proto je nejdříve vyhledáme pomocí pozitivního filtru). Teprve poté můžeme pomocí negativního filtru příslušné řádky odstranit. Na následujícím obrázku je část konkordancí získaných výše uvedeným postupem. Na první pohled je patrné, že zahrnuje jak hledané doklady přegenerovávání, tak případy opačné. Pokud bychom mechanicky odstranili řádky uvedeným způsobem, tak bychom mohli, jak se říká „vylít s vaničkou i dítě“. Podívejme se na následující obrázek (např. lemma však je spojka J.*, nesignalizuje ovšem hranici větného celku). Dále se snažíme odstranit případy, kdy tvar pomocného slovesa a l-ové příčestí netvoří dohromady hledaný složený slovesný tvar. Pokoušíme se najít možné doklady přegenerovávání analogické těm, které jsme pozorovali v případě levého kontextu. Vrátíme se zpět, zvolíme filtr (pozitivní), nastavíme rozsah hledání <1,2>, zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme dotaz ve formě [tag=”V[pq]-----[12].*“]. Tímto způsobem můžeme pokračovat dále. Procházení velkého počtu řádků je časově náročné a nutné je ovšem především tehdy, pokud chceme mít k dispozici nezkreslená statisticky relevantní data. Proto si práci opět rozdělíme. Zvolíme filtr (pozitivní), nastavíme rozsah hledání <1,2>, zvolíme Typ dotazu lemma a do dotazovacího řádku napíšeme dotaz ve formě být|bývat. Dále zvolíme filtr (negativní), nastavíme rozsah hledání <1,2>, zvolíme Typ dotazu tag a do dotazovacího řádku napíšeme dotaz ve formě [tag=“[ZJ].*“]. Na následujícím obrázku vidíme, že kromě případů plusquamperfekta (např. 2., 3., 8., 9., 11., 12., 13. řádek) se objevují i hledané případy přegenerovávání. Formulace závěrů Ukázali jsme návod postupů pro vyhledávání analytických tvarů (1. a 2. osoby) minulého času indikativu aktiva. V další fázi lze např. zkoumat frekvenci slovosledných schémat. Na první pohled je patrné, že nejfrekventovanější jsou případy, kdy oba tvary stojí těsně vedle sebe, přičemž varianta „přišel jsem“ je asi o třetinu frekventovanější, než varianta „jsem přišel“. Omezen je výskyt variant „přišel <.*> jsem“. Dále vlevo od pomocného tvaru slovesa už l-ové příčestí tvořící s pomocným slovesem složený tvar nenajdeme. Pokud jde o výskyt l-ového příčestí na dalších pozicích vpravo od pomocného slovesa (varianty „jsem <.*> přišel“, „jsem <.*> <.*> přišel“), tak lze konstatovat, že frekvence postupně klesá. Formulace dalších otázek vyplynuvších ze zkoumání daného jevu Pozorujte chyby (většinou v interpunkci), které brání efektivnímu vyhledávání případů, kdy tvar l-ového příčestí významového slovesa stojí na pozici <–2,–2> vlevo od pomocného slovesa být. Repertoár jednotek, které mohou stát na prvním místě vlevo od tvaru pomocného slovesa být, stojí-li tvar l-ového příčestí významového slovesa rovněž vlevo, je omezený. Projděte znovu konkordance v ostatních korpusech řady SYN a pokuste se najít další slova, která by tento repertoár mohla obohatit. V jaké vzdálenosti vpravo jste našli poslední případ l-ového příčestí, které tvoří s pomocným slovesem být analytický tvar minulého času? Podívejte se, jak vypadá situace na pozici <12,12> vpravo od tvaru pomocného slovesa být. Je patrné, že podíl doložených dokladů klesá, nicméně i v takto rozšířeném kontextu stále lze nalézt další doklady. Pokud bychom skutečně chtěli shromáždit úplný materiál, pak je třeba vzít v úvahu i případy minulého času 2. osoby s volným morfémem -s. Volný morfém -s tvoří se slovem, k němuž se „přiklání“, grafickou jednotu. Předpokládáme, že se může pojit s řadou slov. Kromě tvarů příčestí, některých spojek, vztažných a tázacích zájmen a zájmenných příslovcí by to mohla být i některá další slova, s výjimkou těch, která končí na sykavky, dále slovesných tvarů prézentních, imperativních, infinitivních a možná i dalších. Značkování grafických slov s připojeným volným morfémem -s, která jsou tokenizována jako jedno lemma, není v korpusech řady SYN vždy důsledné (srov. více Osolsobě 2007^1). Volný morfém -s se často pojí s tvarem l-ového příčestí slovesa významového (přišels). V morfologické značce takovýchto l-ových příčestí je na 8. pozici (osoba) uvedeno, že se jedná o 2. osobu (i v korpusech SYN2000, SYN2005, SYN2006PUB). (Pokud se volný morfém -s pojí s tvarem zvratného se/si, pak je z řady důvodů snazší začít vyhledávání právě od tohoto tvaru, a to proto, abychom odlišili případy, kdy l-ové příčestí je součástí tvarů minulého času indikativu a kdy je součástí tvarů kondicionálu.) Volný morfém -s se dále pojí s tvary některých dalších slov. Pokusme se vyhledat ty případy, kdy se volný morfém -s nepojí s tvarem slovesa (l-ovým příčestím, např. přišels, nebo poneciálně n-/t-ovým příčestím, např. bitas, viz výše), a zároveň lemmatem ve slovníku automatického morfologického analyzátoru byl zvolen tvar bez volného morfému -s a zároveň ve značce je na 8. pozici zaznamenáno, že na tvaru je formálně signalizován tvar 2. osoby přísudkového slovesa. Pro tyto tvary platí a) tvar končí na -s, b) lemma nekončí na -s (podmínka nutná, nikoli postačující, viz tvary jako nás, vás, pros, bos, ...), c) jsou označkovány jako tvary 2. osoby (na 8. pozici je 2, opět podmínka nutná nikoli postačující, viz tvary jako vás, pros, dones, …). Přehled o značkování v korpusu SYN2010 získáme takto. Zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme [lc=“.*s“ & lemma!=“.*s“ & lemma!=“vy“ & tag=“.......2.*“ & tag!=”V.*”]. Podívejme se na frekvenční distribuci lemmat, tvarů a slovních druhů. Připomeňme ovšem, že na lemmatizaci a značkování se nelze spolehnout absolutně. Problematické případy nelze efektivně hledat tak, že budeme hledat kandidáty na slova s připojeným volným morfémem -s mezi lemmaty označkovanými jako X.* končícími na s, protože mezi nimi převažují cizojazyčná slova[36], kterých je velké množství. Vhodnější postup je tedy „namátková kontrola“ jednotlivých slov. Spolehlivá je anotace slovesných tvarů l-ového příčestí (viz obrázek). Zvolíme Typ dotazu cql a do dotazovacího řádku napíšeme [tag=“V[pq].....2.*“ & word=“.*s“]. Nespolehlivá je naopak anotace tvarů potenciálních příčestí pasivních (viz výše). Následující konkordance ukazují, že v případě homonymie tvaru neurčitého adverbia a tvaru vztažného adverbia s volným morfémem -s je výsledek desambiguace neuspokojivý. Zvolíme Typ dotazu slovní tvar a do dotazovacího řádku napíšeme kdes. Podíváme-li se na frekvenční distribuci lemmat, vidíme, že lemma je ve všech případech kdes (tedy tvar neurčitého zájmenného příslovce kdesi), přičemž podíváme-li se na seznam konkordancí na následujícím obrázku, je z něj patrné, že ve všech případech jde o adverbium (tázací/vztažné) kde s volným morfémem -s a nikoli o adverbium neurčité (kdes, Typ dotazu tag a do dotazovacího řádku napíšeme [ZJ].*. Tímto způsobem odstraníme jasné případy chybné desambiguace vztažného cos a můžeme sledovat 75 zbylých řádků. V řadě případů (26) jde o chybnou desambiguaci vztažného/tázacího zájmena co s volným morfémem -s. Bez správné interpretace se ocitají ovšem i případy neurčitého zájmena cos (ruční analýzou lze zjistit, že v 30 případech z 75 jde o neurčité zájmeno cos vašich schůzek sis měl lépe vybírat. Tato věta není z korpusů, ale demonstrujeme na ní řídký případ, kdy slovnědruhová homonymie na úrovni jednotlivého tvaru způsobí dvojí možnou interpretaci na úrovni celé věty. Z korpusu je následující doklad: První muž se ho pokusil obelstít na trajektu Star, což bylo dohodnuté schůzky. V tomto případě vyloučíme asi možnost, že jde o předložku. K vyloučení interpretace je třeba analyzovat celé souvětí vč. koreference. Nastínění problému Homonymie může nastat tam, kde je na základě kontextu možné obojí čtení. Kontext je dvojí, jazykový a mimojazykový. Z hlediska jazykového kontextu je pro interpretaci tvaru jako předložky třeba splnit podmínku, že za tímto tvarem následuje tvar jména / tvary jmen (jmenná skupina) v tom pádě, se kterým se předložka pojí. To je podmínka nutná, nikoli postačující. Otázky Podívejme se na to, jak jsou v korpusech značkovány nepůvodní předložky (seznam najděte např. v mluvnicích). Pokusme se najít případy, kdy tvarová homonymie na úrovni slovního druhu je důvodem chybné desambiguace. Formulace dotazu pro získání dat z korpusů Zvolíme Typ dotazu slovní tvar a do dotazovacího řádku zapíšeme kolem. Zvolíme filtr (pozitivní), rozsah hledání <–1,–1>, Typ dotazu cql a do dotazovacího řádku zapíšeme [tag=“[APC].N.7.*“]. Chceme tak získat řádky, na nichž se může vyskytnout substantivum kolo rozvité shodným přívlastkem (adjektivem, zájmenem nebo číslovkou v 7. pádě středního rodu). Poté ponecháme filtr (pozitivní), zadáme rozsah hledání <1,1>, Typ dotazu cql a do dotazovacího řádku zapíšeme [tag=“....2.*“]. Chceme získat pouze ty případy, kdy za tvarem kolem následuje jméno ve 2. pádě (předložka kolem se pojí se 2. pádem). Týž postup zopakujeme pro vyhledání tvaru místo, přičemž omezíme výběr konkordančních řádků na ty případy, kdy bezprostředně vpravo (<1,1>) za tímto tvarem stojí tvar označkovaný jako 2. pád (....2.*) a bezprostředně vlevo (<–1,–1>) před tímto tvarem stojí tvar označkovaný jako adjektivum, zájmeno nebo číslovka středního rodu a jednotného čísla v 1. nebo 4. pádě ([APC].NS[14].*). Třídění a pozorování dat získaných z korpusů Nyní si pozorně prohlédneme konkordance a zjistíme, že v desambiguaci se vyskytují chyby. Chybnou desambiguaci pozorujeme i v případě konkordancí tvaru místo. Formulace závěrů Je patrné, že slovnědruhové přechody, které mají za následek vícero interpretací na úrovni lemmatizace, slovního druhu i dalších slovnědruhově závislých kategorií, značně ovlivňují obtíže a chyby na úrovni desambiguace. S výsledky automatické analýzy je tudíž třeba pracovat opatrně s vědomím toho, že je třeba údaje vždy zkontrolovat. Formulace dalších otázek vyplynuvších ze zkoumání daného jevu Ve výběru konkordancí, na nichž jsme zkoumali úspěšnost desambiguace, jsme vycházeli z toho, že ve zvolených případech by mohlo dojít k problémům při aplikaci desambiguačních pravidel založených na lingvistických předpokladech. Nezkoumali jsme úspěšnost všech konkordančních řádků. Vybrali jsme pouze ty, pro které platilo, že tvar lze na základě lingvistické analýzy bezprostředního kontextu interpretovat obojím způsobem. Pravidlová desambiguace byla použita pro odstranění některých chyb desambiguace stochastické. Zajímavé by bylo porovnat chybovost v jednotlivých korpusech řady SYN a v nereferenčním korpusu SYN (více Jelínek 2008, Skoumalová 2011). Zadání cvičení, v nichž lze uplatnit analogické postupy Sledujte, jak je provedena desambiguace u tvarů během, bokem, úderem, stranou, ... Postupujte podobným způsobem, jak bylo naznačeno. Korpus a některé pravidelné derivace Některé slovotvorné kategorie jsou v rámci automatické morfologické analýzy zahrnuty do morfologického značkování slovních tvarů (Hajič 2004, Osolsobě 1996). Prostudujeme-li Popis morfologických značek v manuálu k programu Bonito na www stránkách Ústavu ČNK (viz elektronické zdroje), zjistíme, že na pozici 2 morfologické značky se řada hodnot vztahuje ke slovotvorným třídám a typům. Subklasifikace adjektiv zahrnuje značku AU.* (adjektivum přivlastňovací na -ův i -in), značku AG.* (přídavné jméno odvozené od slovesného tvaru přítomného přechodníku), AM.* (přídavné jméno odvozené od slovesného tvaru minulého přechodníku). Subklasifikace zájmen a číslovek koresponduje s jednotlivými druhy zájmen a číslovek, přičemž u číslovek lze říci, že jednotlivé druhy číslovek se dosti pravidelně derivují od číslovek základních (Osolsobě 1995), takže i tyto charakteristiky můžeme použít pro sledování slovotvorných vztahů uvnitř této kategorie. Do oblasti slovotvorby se ve většině lingvistických prací řadí stupňování (viz výše). Popis slovotvorby jako celku není na úrovni morfologického značkování zahrnut. Přesto lze z jazykových korpusů poměrně snadno získávat data pro výzkum v oblasti tvoření slov. V následujících kapitolách ukážeme, jak lze aplikovat znalosti o gramatických vlastnostech slovesných tvarů při vyhledávání některých typů deverbativ. Dále se zaměříme na desubstantivní adjektiva v konstrukcích tzv. hebrejského superlativu, formálně připomínající procesuální adjektiva. Ukážeme, jak mohou korpusy přispět k charakteristice tohoto okrajového derivačního typu. Na závěr se zaměříme na jeden typ hláskových alternací (vokalické alternace v českých prefixech). Ukážeme, jak lze z jazykových korpusů získat relevantní data pro pozorování příslušného jevu. Deverbativa od slovesného kmene a jejich vyhledávání v korpusech Motivační úvod Výzkum slovotvorby se orientuje jak na výzkum fungování slov utvořených, tak na vznik nových pojmenování různými slovotvornými postupy. V korpusech vidíme slova v přirozených kontextech jejich užití, korpusy zahrnují velké množství textů novějších, než jsou ty, ze kterých vyšly dostupné tištěné výkladové slovníky. Je tudíž užitečné vědět, jak lze korpusy použít pro vyhledávání a třídění dokladů pro výzkum slovotvorby. Slova utvořená nějakým slovotvorným prostředkem (prefix, sufix) lze v korpusech poměrně snadno vyhledávat. Už v kapitole věnované adjektivům jsme ukázali, jak lze využít morfologické vlastnosti slovesa při hledání kandidátů na účelová adjektiva. V této kapitole budeme používat analogické postupy. Nastínění problému O některých deverbativech se v mluvnicích tvrdí, že se tvoří paradigmaticky (lze je utvořit od každého slovesa bez omezení). Platí to o dějových jménech tvořených od tvaru shodného s potenciálním tvarem pasivního příčestí. Zatímco adjektiva z přechodníků mají ve značkování použitém pro anotace korpusů řady SYN zvláštní značky, substantiva na -ní/-tí jsou označena jako všechna ostatní substantiva. Tato praxe neodpovídá běžné praxi českých výkladových slovníků. Ty totiž pravidelně tvořená dějová jména nezaznamenávají jako samostatná heslová slova. Deverbální substantiva na -ní/-tí si ovšem uchovávají řadu gramatických vlastností fundujícího slovesa (vid, fakultativně zvratnost signalizovanou morfémem se/si, do určité míry valenční doplnění). Z tohoto hlediska představují slovotvorný typ, jehož zkoumání může být z mnoha aspektů zajímavé. Otázky Slovotvorným základem pro odvozování jmen (substantiv a adjektiv) od sloves může být buď kořen (základ) slovesa (např. mluv-i-t>mluv-čí), nebo jeden ze slovesných kmenů (kořen rozšířený o kmenotvornou příponu např. uč-i-t>uč-i-tel), nebo slovesný tvar (např. kut-i-t>kuti-i-l/Vp.*>kut-i-l/N.*). V mluvnicích se v oddílech věnovaných slovotvorbě hovoří o derivaci od kořene a od kmene. Které typy deverbativ jsou derivovány od slovesného tvaru, které od kmene a které od kořene? Většinou se v mluvnicích uvádí, že odvozovací kmen je kmen minulý. Pod tímto termínem se ale rozumí jistá abstrakce, protože tvary od kmene minulého (někdy též infinitivního) mohou být až tři[37] (infinitiv – brát, l-ové příčestí + od něj tvořený přechodník minulý bral/nabrav, pasivní příčestí + od něj tvořené verbální adjektivum a substantivum brán, braný, braní). Je patrné, že kmenotvorná přípona (v našem případě a/á) alternuje, má více variant. Je vždy potřeba zvážit, která z variant je spoluformantem při odvozování od slovesného kmene. Formulace dotazu pro získání dat z korpusů Pokusme se vyhledat v korpusu všechna substantiva slovesná na -ní/-tí. Uvedli jsme, že tato substantiva se tvoří od tvaru shodného s potenciálním tvarem příčestí trpného. Mohli bychom tedy vyjít ze znalosti morfematické stavby pasivního příčestí u jednotlivých slovesných tříd a formulovat dotaz pro korpusový manažer tak, abychom zachytili pouze ta substantiva, která by mohla být dějovými jmény. Můžeme ale také zvolit postup kombinovaný. Budeme si všímat korpusových dat a porovnávat výsledky jejich pozorování se znalostmi morfologie slovesného tvaru. Dějové jméno se musí skloňovat podle vzoru stavení a musí končit na řetězec [nt]í. Zvolíme Typ dotazu cql a do dotazovacího řádku zapíšeme [lemma=“.*[nt]í“ & tag=“NNN.*“] (hledáme všechna substantivní neutra, jejichž lemma končí na řetězec -ní/tí). Podívejme se na frekvenční distribuci lemmat. To, že lemma substantiva neutra končí na -ní/tí, je podmínka nutná, nikoli postačující pro to, aby slovo bylo dějovým jménem, jak o tom svědčí slova jako století, štěstí, náměstí, zápěstí, ústí, ... Podíváme-li se na tato slova blíže, vidíme, že některá mají společnou vlastnost, kterou nemá ani jedno ze slov ze zobrazené části seznamu, která za dějová jména pokládat lze. O jakou vlastnost se jedná? U substantiv štěstí a náměstí stojí před -tí souhláska. Všechny ostatní doklady (rozhodnutí, užití, napětí, …) mají před -tí samohlásku. Také všechna zobrazená neutra na -ní, která lze pokládat za dějová jména, mají před -ní samohlásku. Můžeme si položit další otázky. Může před [nt]í, má-li jít o dějové jméno, stát souhláska? Může před [nt]í, má-li jít o dějové jméno, stát libovolná samohláska? Odpovědi budeme hledat nejdříve v korpusu. Podívejme se na frekvenční distribuci lemmat. Třídění a pozorování dat získaných z korpusů Zvolíme filtr (pozitivní), Typ dotazu lemma a do dotazovacího řádku zapíšeme .*[bcčdďfghjklmnňpqrřsštťvwxzž][nt]í. Podívejme se na frekvenční distribuci lemmat. Projdeme-li seznam 56 lemmat, zjistíme, že dějová jména se nevyskytují. To znamená, že ve zvoleném korpusu není doloženo žádné dějové jméno sledovaných vlastností. Vrátíme se o krok zpět, zvolíme filtr (negativní) a do dotazovacího řádku zapíšeme .*[bcčdďfghjklmnňpqrřsštťvwxzž][nt]í. Dále budeme pozorovat, které samohlásky se vyskytují před [nt]í u substantiv, která jsou prokazatelně dějovými jmény. Mezi substantivy na první zobrazené stránce frekvenčního seznamu nacházíme taková, že před [nt]í předchází [áeěiu]. Všimneme si, že kromě á jde ve všech ostatních případech o krátký vokál. Nejprve se můžeme zaměřit na ty vokály, které chybějí, tj. [aéíoóůyý]. Vrátíme se k původní konkordanci, zvolíme filtr (pozitivní), Typ dotazu lemma a do dotazovacího řádku zapíšeme .*[aéíoóůyý][nt]í. Podívejme se na frekvenční distribuci lemmat. Pozorujeme, že předcházejí-li další krátké vokály [aiy], pak jde až na jedinou výjimku (úpatí) o dějové jméno (nebo kompozitum, jehož druhým členem je dějové jméno). Naopak předchází-li dlouhý vokál, pak nejde v obou případech o dějové jméno (sítí, kvítí). Nemáme k dispozici doklady o jednom krátkém a dalších (kromě i) čtyřech dlouhých vokálech [oéóůý]. Vrátíme se zpět. Zvolíme filtr (pozitivní), Typ dotazu lemma a do dotazovacího řádku zapíšeme .*[oéíóůý][nt]í. Podívejme se na frekvenční distribuci lemmat. Pozorujeme, že mezi 10 nalezenými lemmaty není ani jedno dějové jméno. Některé hledané kombinace nejsou doloženy vůbec. Jde v případě lemmatu obmýtí o překlep? Ve slovníku slovo obmýtí existuje. Vrátíme se o krok zpět, zvolíme filtr (negativní) a do dotazovacího řádku zapíšeme .*[oéíóůý][nt]í. Formulace závěrů Na základě pozorování dat získaných z korpusů můžeme tvrdit, že ve sledovaném korpusu jsou doložena pouze dějová jména taková, že před [nt]í předchází [aeěiuyá]. Jsou doložena neutra skloňovaná podle vzoru stavení, která nejsou dějovými jmény, u nichž před [nt]í předchází buď souhláska, nebo [oíý]. Nejsou doložena žádná slova taková, u nichž před [nt]í předchází [éóů]. Ve sledovaném korpusu jsou doložena lemmata neuter na [ea][nt]í, která nejsou dějovými jmény (století, úpatí, …). Závěrem lze říci, že podmínkou nutnou, nikoli postačující k tomu, aby mohlo jít o dějové jméno, je zakončení lemmatu neutra na [aeěiuyá][nt]í. Empirická pozorování korpusových dat můžeme doplnit na základě znalosti gramatiky. Kmenotvorná přípona, která je spoluformantem pro tvoření dějových jmen v češtině, může být pouze [aá], a to u sloves I. třídy vzorů brát, mazat (srov. braní, mazání), III. třídy vzoru kupovat (kupování) a V. třídy vzoru dělat (tkaní, dělání), dále [e], a to u sloves I. třídy vzoru umřít (srov. tření), [eě] II. třídy vzoru začít (srov. početí, stětí), [eě], a to u sloves IV. třídy vzorů trpět, sázet (srov. trpění, sázení) a [nm]u, a to u sloves II. třídy vzorů tisknout, minout a začít (srov. stisknutí, pominutí, vzedmutí). Po KmV 0 následuje [e] u sloves I. třídy vzorů nést, péci (srov. nesení, pečení), [eě] u sloves II. třídy vzoru tisknout (srov. tištění, nadšení) a [e] u sloves IV. třídy vzoru prosit (srv. vyprošení)[38]. Zakončení [nt]í stojí bezprostředně za kořenovým vokálem a) u sloves III. třídy vzoru krýt, která v češtině, pokud nejde o KoV [aá] (např. hraní, sání), mají u těchto derivátů vždy KoV krátký – všechny krátké vokály kromě o lze doložit, neboť seznam sloves je úplný, protože jde o uzavřenou třídu, (srov. spění, vypletí, bití, obutí, umytí) a b) u atematických/nepravidelných sloves (jedení, chtění, bytí, ...). Výsledky empirie jsou takto opřeny o pravidla gramatiky. Formulace dalších otázek vyplynuvších ze zkoumání daného jevu Najděte v korpusu lemma obmýtí. Lze jednoduše (jedním dotazem) vybrat dějová jména, která jsou zaručeně odvozena od sloves určité třídy? Lze totéž udělat pro určitý vzor? Ručně vyberte frekventovaná slova, která splňují formální podmínky zakončení dějových jmen, ale dějovými jmény nejsou (století, úpatí, …). Je všechna z nich třeba vyhledávat ručně? Lze najít nějaký postup, který by pomohl při ručním vyhledávání? Zadání cvičení, v nichž lze uplatnit analogické postupy Pokuste se aplikovat podobné postupy pro vyhledání kandidátů na deverbativa (maskulina životná) na -tel, -č (jména činitelská). Ještě jednou k adjektivům na -cí Motivační úvod V jedné z předchozích kapitol jsme ponechali stranou skupinu adjektiv derivovaných od podstatných jmen sufixem -oucí. Jan Gebauer (srov. Gebauer 1920 : 76) píše, že „v příponě -oucí bývá zároveň význam vzmocňovací; v tom významu se přenáší i ke kmenům jmenným, např. div divoucí, pravda pravdoucí, bílý – běloucí ...“ František Trávníček (srov. Trávníček 1951 : 354) upozorňuje na fakt, že adjektiva typu divoucí vyjadřují nejvyšší míru vlastnosti. Vladimír Šmilauer (Šmilauer 1971 : 124) zmiňuje „silně citová adjektiva na -oucí v etymologické figuře pravda pravdoucí“. V Mluvnici češtiny 1 (Dokulil a kol. 1987 : 378) se uvádí, že „zcela okrajově patří k jakostním desubstantivním adjektivům příležitostná expresivní adjektiva s příponou -ouc(í) – typ tmoucí. Převádějí obsah určovaného substantiva ve vlastnost a zároveň tuto vlastnost zesilují.“ V českých slovnících jsou zaznamenána tato adjektiva: PSJČ SSJČ SSČ ČSFI bídoucí (bída) + + – – divoucí (div) + + + + hanboucí (hanba) + + – – hrůzoucí (hrůza) + + + + krásoucí (krása) + + + + křivdoucí (křivda) + + – + letoucí (léta/leta) + + + + nicoucí (nic) +* + – – pravdoucí (pravda) + + – + smrťoucí (smrt) + + + + smůloucí/smoloucí (smůla) + + – – strachoucí (strach) + + – – světoucí (svět) + + – – tmoucí (tma) + + + + večeroucí (večer) + + – – věkoucí (věky) + + – – zlatoucí (zlato) +** –** – – * Spojení nic nicoucí uvádí jen SSJČ. PSJČ uvádí pouze význam nicotný. ** Spojení zlato zlatoucí uvádí jen PSJČ v rámci výkladu adj. zlatoucí synonymního ke zlatavý/zlatistý (označuje expr. příjemně do zlatova zbarvený). V SSJČ struktura zlato zlatoucí zmíněna není. SSJČ i PSJČ uvádějí dále např. adjektivum krvoucí ve významu zakrvácený. V této kapitole bychom se k adjektivům tohoto typu rádi vrátili. Nastínění problému Figury založené na opakování příbuzných slov označuje stylistika (poetika) termíny polyptoton (opakování téhož slova v různých flektivních tvarech, např. věky věků) a figura etymologica (spojení sloveso + objekt nebo substantivum + atribut slov téhož základu, např. dobrý boj jsem bojoval, věky věkoucí). Struktury N+N (gen. pl.)[39], tedy např. píseň písní, kniha knih, král králů, které vyjadřují nejvyšší stupeň vlastnosti, se označují termínem hebrejský superlativ. O hebrejském superlativu lze dle našeho názoru hovořit i v případě konstrukcí obdobného významu typu N+(Aná, za>zá, do>dů, po>pů, pro>prů, vy>vý, u>ú) provázejí tvoření jmen (substantiv, adjektiv) od sloves (srov. např. na-br-a-t>ná-bor, za-vř-í-t>zá-vor-a, do-mysl-e-t>dů-mysl-0, po-hn-a-t>pů-hon, pro-lom-i-t>prů-lom-0, vy-hrá-t>vý-hr-a, u-skoč-i-t>ú-skok-0). Tyto alternace vykazují různou míru pravidelnosti u různých derivačních typů. Nikdy k nim nedochází u paradigmatického tvoření dějových jmen na -ní/-tí a při adjektivizaci participií (Karlík 2007, Scheer 2001, Ziková 2010). Naopak jsou dosti pravidelné u konverzní derivace názvů dějů, přičemž výjimkou jsou prefixy do-, po-, pro-, u nichž se setkáváme jak s derivacemi s alternací, tak bez ní, přičemž existují případy, kdy je přítomností/nepřítomností alternace odlišen význam (srov. průjezd/projezd, důraz/doraz, ...). Začíná-li sloveso v češtině na řetězec ((ná)|(zá)|(dů)|(pů)|(prů)|(pří)|(vý)|(ú)).*, pak je buď odvozeno od substantiva, adjektiva, zájmena, adverbia s příslušnou variantou zdlouženého prefixu, nebo nejde o prefix, ale pouze o náhodnou formální shodu. (K náhodným shodám počítáme případy, kdy nelze ani na základě etymologie vydělit prefix, např. zábst.) Existuje ovšem několik málo výjimek (na některé upozorňuje Scheer 2001), které obecnou platnost uvedeného pravidla narušují. Otázky Kolik takových sloves je? Mohou korpusy přispět k vytvoření úplných seznamů takových sloves? Formulace dotazu pro získání dat z korpusů Při vyhledávání sloves, která mohou mít délku v prefixu, budeme postupovat následovně. Zvolíme Typ dotazu cql a do dotazovacího řádku zapíšeme [lemma=“((ná)|(zá)|(dů)|(pů)|(prů)|(pří)|(vý)|(ú)).*.“ & tag=“V.*“] (hledáme všechny tvary obsahující na začátku řetězec, který může být dlouhým prefixem, označkované jako V.*, tedy slovesné tvary). Podívejme se na frekvenční distribuci lemmat. Třídění a pozorování dat získaných z korpusů Projdeme seznam kandidátů na slovesa, která je možné interpretovat jako slovesa s délkou v prefixu. Vidíme, že kromě hledaných sloves se vyskytují a) případy, kdy jde o náhodnou shodu počátečního řetězce a hledaného prefixu (výt, přít), b) slovesa derivovaná od jiných slovních druhů (substantiv, adjektiv, adverbií, ...), jejichž fundující slova mají v prefixu délku (účinkovat, zásobovat, ...), a c) hledané doklady (záležet, záviset, ...). Vytvoříme tabulku a budeme zapisovat počty sloves s příklady. Při vyplňování tabulky si ruční práci zjednodušíme tak, že vytřídíme postupně skupiny s potencionálními sufixy. Zvolíme filtr (pozitivní) Typ dotazu cql a do dotazovacího řádku zapíšeme [lemma=“ná.*“ & tag=“V.*“]. Podíváme se na frekvenční distribuci lemmat, projdeme seznam a zapíšeme výsledky do tabulky. Vrátíme se o krok zpět a zopakujeme postup pro tvary s lemmatem začínajícím na další řetězce. (Přihlédneme k interpretacím v etymologickém slovníku.) lemma nalezeno derivace od S,A,P,D náhodné shody délka v prefixu překlepy ná.* 7 5 (násobit) 0 2 (následovat) 0 zá.* 19 9 (závodit) 4(zábst) 2 (zápolit)* 3 (záležet) 1 (zábránit) dů.* 1 1 (důvěřovat) 0 0 0 pů.* 5 2 (působit) 1 (půlit) 2 (půjč[i|(ova)]t) 0 prů.* 2 2 (průměrovat) 0 0 0 pří.* 9 1 (příštipkařit) 4 (příst) 3 (přísahat) 1 (příspívat) vý.* 7 3 (výletovat) 4 (výt) 0 0 ú.* 17 11 4 (ústit) 2 (útoč[i|íva]t) 0 CELKEM 67 34 19 12 2 * Ke slovesům zápolit a zápasit srov. motivaci předložkou za (viz Rejzek 2001). Formulace závěrů Z celkového počtu 67 lemmat sloves, která mohou být kandidáty na slovesa s délkou v prefixu, jde pouze ve 12 případech o kombinaci prefix s délkou + sloveso. V ostatních případech je délka již ve fundujícím slově (34 případů), nebo jde o náhodnou shodu počátečního řetězce (19 případů). Ve 2 případech je doklad překlep. Z pozorování korpusových dat je patrné, že hledaná slovesa jsou většinou frekventovaná. Pozorujeme, že se někdy vyskytují ve více variantách (slovesa odvozená od sloves jako např. přísah[a|áva]t). To může svědčit o tom, že od některých sloves doložených v korpusu budou existovat varianty, které ve sledovaném korpusu doloženy nejsou (např. méně obvyklá iterativa). Tento předpoklad můžeme ověřit následovně. Předpokládejme, že od slovesa závidět lze utvořit iterativum závidívat. To není doloženo v korpusu SYN2010. Lze je ovšem najít např. v korpusu SYN2006PUB. U některých sloves, která jsme zařadili mezi ta, jež mají délku v prefixu a nejedná se o derivát od jmen, lze připustit dvojí možnou motivaci, tedy motivaci slovesem i dějovým jménem (utkat (se)/útok>útoč[i|íva]t). V případě slovesa půjč[i|ova]t lze segmentaci, a tedy i délku v prefixu určit až na základě etymologie a analogie s příbuznými slovanskými jazyky (srov. slovesky požičať)[46]. Formulace dalších otázek vyplynuvších ze zkoumání daného jevu V jedné z předchozích kapitol jsme se zabývali alternací 0/e v substantivní flexi. S alternací e/0 se můžeme setkat i při tvoření tvarů sloves (např. ... obě baby byly ..., … získal nad protivníkem převahu a mu hlavu ...), ale také při odvozování sloves prefixy (např. tzv. vokalizace prefixů na švu s kořenem např. tnout i tít / setnout i stít ale stínat, dřít/sedřít ale sdírat, jít/nadejít ale nadcházet). Vyhledejte v korpusu (korpusech) doklady pro sledování naznačených alternací a pokuste se vysledovat pravidla, jimiž se řídí distribuce alternace e/0 u jednotlivých tvarů.[47] Zadání cvičení, v nichž lze uplatnit analogické postupy Projděte ostatní korpusy a zjistěte výskyt dalších dokladů (např. iterativ). MWE – gramatika a slovník Tzv. Multiword Expressions (víceslovné výrazy) patří k oblasti, která při počítačovém zpracování přirozeného jazyka přináší řadu problémů. MWE je zastřešující pojem pro různé případy od analytických tvarů (sloves, ale třeba i komparativů a superlativů), přes frazeologická spojení až po víceslovné názvy osob, míst, institucí, děl atd., tedy jednotek, které běžně chápeme v jejich celku. Tyto jednotky jsou při automatickém zpracování textů na úrovni tzv. tokenizace (viz výše) rozděleny na části. Nicméně je pro různé potřeby výzkumu chceme vidět jako celek. Něco z této problematiky bylo naznačeno již výše v souvislosti s analytickými tvary sloves. V tomto oddíle poukážeme na problémy, které mohou nastat v případech, kdy jednotky, z nichž je složen MWE, následují bezprostředně za sebou v textu. Všimneme si případů homonymních slovosledných formací, tedy případů, kdy slova, která po formální stránce odpovídají zadání pro vyhledání MWE, žádanou jednotku netvoří. Jako příklad použijeme posloupnosti (nej)více/(nej)méně + adjektivum ve tvaru pozitivu, které nemusí nutně být příklady opisného stupňování v češtině. V další podkapitole upozorníme na některé problémy spojené s vyhledáváním slovesných frazémů v korpusech. Opisné stupňování Motivační úvod Problematice opisného stupňování se v českých gramatikách nevěnuje příliš mnoho pozornosti. Některé problémy jsou nastíněny v monografickém zpracování (Marvan 2008). Občas se objeví upozornění na to, že formulace jako ... první možnost je ... jsou pleonasmy, protože adjektivum optimální je z latinského optimus, tedy nejlepší. Jak a kdy se nahrazuje tvar syntetický tvarem opisným, je jistě zajímavé. Ještě zajímavější je, že zatímco pro vyjádření vyšší/nejvyšší míry směrem „nahoru“ existují tvary syntetické, pro srovnání „dolů“ máme pouze analytické (opisné) tvary. Korpusy představují zdroje dat pro zkoumání toho, jak se používá těch i oněch tvarů. Nastínění problému Jak jsme si ukázali v jedné z předchozích kapitol, jsou syntetické tvary komparativu a superlativu minimálně doloženy i ve stamilionových korpusech. Jedno z hledisek, které můžeme sledovat, je tedy hledisko frekvence (např. způsobilejší a více způsobilý). Otázky Která adjektiva z těch, jež jsou v korpusech doložena v komparativu/superlativu, jsou doložena též v opisných tvarech? Vyberme nejfrekventovanější lemmata adjektiv doložených ve tvarech syntetického stupňování a porovnejme je s frekvencí a užitím tvarů analytických. Formulace dotazu pro získání dat z korpusů Zvolíme Typ dotazu cql a do dotazovacího řádku zapíšeme [tag=“AA.......[23].*“] (vyhledáme všechny tvary adjektiv ve 2. a 3. stupni). Podívejme se na frekvenční distribuci lemmat. (Vidíme lemmata adjektiv, která se v češtině stupňují, seřazená dle frekvence.) Nyní zvolíme Typ dotazu cql a do dotazovacího řádku zapíšeme [word=“((více)|(méně))“] [tag=“AA.......1.*“]. Hledáme doklady opisného stupňování. Nyní si postup rozdělíme do kroků. Zvolíme Typ dotazu cql a do dotazovacího řádku zapíšeme [word=“((více)|(méně))“][lemma=“velký“] (hledáme všechny případy, kdy v korpusu za sebou následuje tvar více nebo méně a lemma velký – možné opisné stupňování). (Do dotazu by bylo možné zařadit též podmínku, že chceme vyhledat pouze tvary positivu: [word=“((více)|(méně))“][lemma=“velký“ & tag=“ AA.......1.*“]. Pokud ji nezařadíme, mohou se v konkordancích objevit také doklady pleonasmů.) Následující doklad pleonasmu nalezneme v korpusu SYN2006PUB. Vrátíme se o krok zpět a postup zopakujeme pro další adjektiva. Dotaz může být formulován i složitěji. Zvolíme Typ dotazu cql a do dotazovacího řádku zapíšeme [word=“((více)|(méně))“][lemma=“((špatný)|(nízký)|(mladý)|(blízký)|(důležitý)|(různý)|(silný)|(širo ký))“]. Třídění a pozorování dat získaných z korpusů Všimli jsme si, že mezi nalezenými doklady jsou případy, kdy tvary více/méně nefungují ve významu měrových příslovcí, ale ve významu číslovek. Vyjadřuje se jimi míra neurčitého počtu, čemuž odpovídá i forma jmenné skupiny (počítaný předmět bývá v češtině zpravidla v genitivu – tzv. numerativ). Nejde tedy o hledané doklady. Nesprávné vyhledávky bychom mohli odstranit tak, že bychom z druhé pozice vpravo od KWIC (klíčového slova – tedy v našem případě adjektiva) odstranili ty řádky, na nichž je tvar v genitivu plurálu. Zvolíme filtr (negativní), rozsah hledání <2,2>, Typ dotazu cql a do dotazovacího řádku zapíšeme [tag=“...P2.*“]. Vidíme některé doklady opisného stupňování s méně. Podívejme se na řádky s „více“. Zvolíme filtr (negativní), vybraný token první, rozsah hledání <0,0>, Typ dotazu word a do dotazovacího řádku zapíšeme méně. Procházíme konkordance a hledáme případy opisného stupňování. Všimněme si i problematické disambiguce (zachzcení rozdílů slovnědruhových přesahů adverbium Dg a číslovka C. Ručně jsme vytřídili řádky, které nebyly hledanými doklady analytického stupňování. Všimli jsme si i případů, u nichž je možná dvojí interpretace, a případů, kde je význam interpretovatelný až na základě širšího kontextu. Formulace závěrů Získali jsme seznam následujících dokladů opisného stupňování z korpusu SYN2010. určitou dobu ztratit " a trochu se toulat po < méně> frekventovaných koutech světa písečné a kamenité pustině hledal stopy po < méně> zřetelných rozsáhlých tvarech - bud čnějíce uprostřed sutin a balvanů zbylých po < méně> odolných sousedech , tu v řadách či východ . Ve Střední Asii s jejich stále < více> uzavřenými hranicemi se nové tratě tato asi dvacetimetrová ruina ve srovnání s < více> známým vrakem americké lodi Liberty z . . Vztahy obou mužů se tak staly ještě < více> nepřátelskými , a to do té míry , že Slavíka , Oldřicha Králíka , Žofie Hekelové po < méně> známé a dnes už zapomenuté autory . sociálním vývojem společnosti . Ve spojení s < více> autoritativním nebo naopak hodnotové orientace společnosti , určované stále < více> materialistickými projevy života , některé exekuční úkony prováděny společně vůči < více> povinným , exekuční správní orgán terapeutické přístupy či jejich modifikace , stále < více> prosazovaným ekvivalentem lege navzájem svou činnost hodnotí , a to stále < více> formalizovaným způsobem ( pracovištěm moderního člověka , ale je stále < více> iniciačním a řídícím střediskem Kordony se třemi , čtyřmi , nebo dokonce i < více> svislými rameny vyžadují pracný studijních zón postupuje směrem nahoru k tišším a < více> individuálním formám studia až do příštích pěti letech skutečně mohli stát < více> konkurenceschopnými a efektivními se pro malé a střední podniky stává stále < více> přijatelnějším model SaaS - " v sortimentu ( i nadále bude poptávka po < méně> kvalitním zboží za nízkou cenu , nasycený trh Český spotřebitel stává stále < více> náročným a sofistikovaným , což změn se tak český spotřebitel stává stále < více> náročným a sofistikovaným , což všech , aby byli stále jedinečnějšími , < více> odlišnými a individualizovanými které se dají příležitostně zvětšit , ve < více> stísněných kuchyních je možné poměrně ojedinělé . Velmi zajímavým , a stále < více> podporovaným druhem učení s týče věku i stupně omezení . Při práci s < více> postiženými a dezorientovanými reformovali a dali prostor méně ublíženým a < více> racionálním politikům ze svého několik cest . Dnešní tip na výlet vede po < méně> známé , ale zajímavé trase . rozeberou , zda francouzské události jsou < více> spontánním výbu - chem vzteku , proraženou lebkou . Několik brankářů totiž i po < méně> hrůzostrašných střetech se Jaroslav Klimek . Těžký terén vyhovoval < více> domácím Prusinovicím , které nad Metují se lze vydat na projížďku po < méně> frekventovaných silnicích . Hned nahořklou , mírně slanou , s příchutí po < méně> pražených pistáciích . mandle Ar pomocí přístrojů navíc není v nemocnicích po < méně> závažných operacích běžnou praxí rozloučil . Stánkaři putují po městě po < méně> výhodných místech kolín Kolín / velmi láteří , protože při stěhování po < méně> lukrativních místech ztrácí zisky Vyhledávky svědčí o tom, že opisem se v češtině 2. a 3. stupeň vyjadřuje dosti zřídka (ostatně i výskyt syntetických tvarů je nízký, viz výše). Pokud bychom chtěli zkoumat tento jev, potřebovali bychom více rozsáhlejších[48] korpusů. Zajímavé je, že počet opisů s více a méně je vcelku vyrovnaný, přestože se česky srovnání směrem dolů vyjadřuje výhradně analyticky (opisem). Formulace dalších otázek vyplynuvších ze zkoumání daného jevu Pomocí adverbií míry více/méně lze vyjádřit míru i u dalších slovních druhů, např. míru intenzity děje. V korpusech můžeme podobným postupem hledat doklady jako ... ženy se potí než muži ... nebo ... přátel se bojí než neznámých …. Zadání cvičení, v nichž lze uplatnit analogické postupy Opisnou formou více/méně + tvar pozitivu lze stupňovat také adverbia. Zopakujte analogický postup pro vyhledávání dokladů typu více/méně úspěšně v korpusu SYN2010. Slovesné frazémy jako typ MWE Motivační úvod Frazémy a idiomy tvoří v rámci lexika jednotky, které je třeba zkoumat komplexně. Z hlediska NLP tak patří pod zastřešující pojem MWE.[49] Podívejme se, jak je možné postupovat v případě vyhledávání frazémů a idiomů, jejichž části nestojí vždy lineárně za sebou. Nastínění problému Jak upozorňuje přední badatel na poli frazeologie a idiomatiky (autor SČFI) a korpusový lingvista (bývalý ředitel ÚČNK) František Čermák, řada slovních tvarů je sporná z hlediska lemmatizace, neboť se vyskytují pouze v ustálených spojeních. Příkladem může být tvar „holičkách“ lemmatizovaný v korpusech řady SYN jako tvar 6. pádu plurálu substantiva holička. Projdeme-li konkordanční řádky, zjistíme, že o substantivum označující kadeřnici v žádném z dokladů nejde. Jen v několika málo případech není v levém bezprostředním kontextu substantiva v 6. pádě plurálu předložka na a nejedná se o frazeologické spojení, ale např. o proprium s obdobnou motivovací. Otázky Z toho, co se uvádí v SČFI, je patrné, že zatímco spojení na holičkách je pevně dáno, slovesná část frazému je „volnější“, existuje více sloves (být, zůstat, nechat, octnout se, ...), která tvoří frazém. Dokládá užití spojení na holičkách v korpusech pouze slovesa uvedená ve slovníku, nebo lze najít i nějaké inovace? Formulace dotazu pro získání dat z korpusů Zvolíme Typ dotazu fráze a do dotazovacího řádku zapíšeme na holičkách. Třídění a pozorování dat získaných z korpusů Zvolíme filtr (negativní), rozsah hledání <–5,5>, Typ dotazu lemma a do dotazovacího řádku zapíšeme (být)|(nechat)|(zůstat)|(octnout). Pozorujeme konkordanční seznam a vidíme, že se objevují iterativa nechávat, zůstávat, ale i varianta ponechat/ponechávat. Formulace závěrů Zkoumání korpusových dat ukázalo, že slovesné tvary, které jsou součástí slovesných frazémů, mají více variant užití, než je zachyceno ve slovníku. Na tento aspekt je třeba brát zřetel zejména v případě, že jmenná část slovesného frazému bude slovo / slovní tvar, který se bude vyskytovat v různých frazémech či kolokacích. Formulace dalších otázek vyplynuvších ze zkoumání daného jevu V SČFI se tvar rukou objevuje v celé řadě frazeologických spojení s různými významy (např. být v dobrých rukou, sehnat něco pod rukou, ...). Aplikujte postup naznačený výše k odlišení jednotlivých frazémů. Zadání cvičení, v nichž lze uplatnit analogické postupy Vyhledejte v korpusu tvar panáka a sledujte, se kterými slovesy tvoří kolokaci s významem „dopřát sobě/někomu určitou dávku tvrdého alkoholu“. Podívejte se do SČFI a sledujte, jak je příslušný frazém zachycen. Porovnejte výsledky svého šetření s korpusem. Závěr Cílem textu Česká morfologie a korpusy je podnítit studenty lingvistických oborů, bohemisty, korpusové lingvisty i všechny, které zajímá čeština a její gramatika na straně jedné a metody korpusové lingvistiky na straně druhé, aby sami zkoušeli hledat postupy, jimiž lze z jazykových korpusů čerpat data pro řešení lingvistických problémů. Snažíme se názorně ukázat, jak se na poli korpusového výzkumu kombinují přístupy corpus based (hledání dokladů pro lingvistický výzkum v korpusech) a corpus driven (optimalizace dotazů založená na pozorování korpusových dat). Kniha nabízí řadu přesně dokumentovaných postupů řešení úloh z oblasti formálního tvarosloví a tvoření slov. Vedle toho ovšem také klade další otázky, které vyvstanou, když začneme skutečně do hloubky pracovat s korpusovými daty. Charles J. Fillmore (1992 : 35) napsal: „I don’t think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore ... [but] every corpus I have had the chance to examine, however small, has taught me facts I couldn’t imagine finding out any other way.“[50] V tomto smyslu by kniha měla být výzvou pro další bádání. Každý z oddílů kapitoly, která nese v názvu titul celé knihy, obsahuje stručné formulace dalších možných otázek, jež mohou vyvstat po vyřešení modelového úkolu. Připojuje také otázky, na něž lze hledat odpovědi na základě analogických postupů. Obojí má vést čtenáře k další samostatné práci s jazykovými korpusy. Součástí knihy je bibliografie. Na řadě míst v textu se odkazuje k publikacím, které mohou doplnit to, co je stručně naznačeno. Mnohde odkazujeme k článkům, které obsahují řešení související s výkladem i dalšími směry bádání naznačenými v „dalších otázkách“. Za jednu z předností korpusové lingvistiky se pokládá fakt, že výsledky získané na základě pozorování korpusových dat umožňují všem (dalším badatelům, ale i autorovi samému) zpětnou verifikaci. Korpusová data jsou přístupná pro ověření tvrzení, která z nich vycházejí. Proto pokládáme za dobré upozornit na to, co již bylo na základě korpusů o českém jazyce napsáno, protože tím nikterak nemíníme „podvazovat“ budoucí bádání, ani kritizovat minulá opomenutí. Mýliti se je lidské. A existují i omyly, které mohou býti tím, co se v Exultet[51] nazývá šťastnou vinou (felix culpa), nebo tím, co básnicky vyjádřil František Halas verši: ...Co zvedám/ zaviní čísi pád/ co upouštím/ bude mu vzlétnutím ...[52] Odkazujeme-li na články a další publikace z oboru korpusové lingvistiky, které řeší některé z nastíněných problémů, vyzýváme tím čtenáře mimo jiné i k tomu, aby se pokusili buď pokračovat, nebo změnit směr. Rozhodně nemají „hodit flintu do žita“ nebo „přešlapovat na místě“, protože „to už někdo udělal“. V mnoha případech se totiž můžeme něčemu naučit i tehdy, když projdeme cestou, kterou už někdo šel, protože si na ní můžeme všimnout věcí, kterých si on nevšiml. Přeji všem, kteří se pustí na pouť s korpusy po češtině, aby jim tato kniha byla dobrým průvodcem. Šťastnou cestu. Bibliografie Aitzenmüller, R.: Ein baltisch-slavisches Elativsuffix und seine Entsprechungen in den übrigen indogermanischen Sprachen; der griechische Superlativ auf -atos / -tatos. Slavistična revija 3, 1950, 289–296. Blatná, R. – Petkevič, V. (eds.): Jazyky a jazykověda. Sborník k 65. narozeninám prof. Františka Čermáka. Praha : FF UK Ústav ČNK, 2004. Blatná, R. – Čermák, F.: Manuál lexikografie. Jinočany : H&H, 1995. Boissin, H.: Quelques procédés de renforcement nominal en serbo-croate. In: Revue des études slaves, Tome 34, 1957, s. 32–36. Caha, P. – Scheer, T.: Syntax and Phonology of Czech Templatic Morphology. (Dostupné z: ). Handout pro FASL 16 2. 5. – 4. 5. 2007. Cvrček, V. a kol.: Mluvnice současné češtiny. Praha : Nakladatelství Karolinum, 2010. Cvrček, V. – Kovaříková, D.: Možnosti a meze korpusové lingvistiky. Naše řeč 3, 94, 2011, s. 113–133. Čermák, F.: Syntagmatika a paradigmatika českého slova. Praha : Karlova Univerzita, 1990. Čechová, M. a kol.: Čeština, řeč a jazyk. Praha : ISV Nakladatelství, 2000. Čermák, F. – Klímová, J. – Petkevič, V. (eds.): Studie z korpusové lingvistiky. Praha : Karolinum. 2000. Čermák, F. – Blatná, R.: Korpusová lingvistika. Stav a modelové přístupy. Praha : Nakladatelství Lidové noviny, 2006. Čermák, F a kol.: Slovník české frazeologie a idiomatiky 1–4 (SČFI). Praha : LEDA, 2009. Čermák, F. – Křen, M.: Frekvenční slovník češtiny. Praha : Nakladatelství Lidové noviny, 2004. Dokulil, M.: Tvoření slov v češtině. 1, Teorie odvozování slov. Praha : Academia, 1967. Dokulil, M.: Tvoření slov v češtině. 2, Odvozování podstatných jmen /zpracoval kolektiv pracovníků Ústavu pro jazyk český ČSAV za redakce Fr. Daneše, M. Dokulila, J. Kuchaře. Praha : Academia, 1967. Dokulil, M. – Komárek, M. a kol.: Mluvnice češtiny 1, 2. Praha : Academia, 1987. Filipec, J. a kol.: Slovník spisovné češtiny pro školu a veřejnost (SSČ). Praha : Academia, 2005. Fillmore, Ch.: “Corpus linguistics” or “Computer-aided armchair linguistics”. In: Svartvik, J. (ed.), Directions in Corpus Linguistics, 35–60, Berlin : Mouton de Gruyter, 1992. Gebauer, J.: Gebauerova mluvnice česká pro školy střední a ústavy učitelské. 1. Hláskosloví; Nauka o slově. Praha : Česká grafická Unie, 1920. Hajič J.: Unification Morphology Grammar. Praha : MFF UK, 1994. (Disertační práce.) Hajič J.: Desambiguation of Rich Inflection (Computational Morphology of Czech). Praha : Karolinum Charles University Press, 2004. Hajičová, E. – Panevová, J. – Sgall, P.: Smysl formalismu v teoretické lingvistice a úloha českého výzkumu v ní. Slovo a slovesnost 52, s. 175–182. Havránek, B. a kol.: Slovník spisovného jazyka českého (SSJČ). Praha : Academia, 1989. Hladká, Z. – Osolsobě, K.: Příprava elektronických korpusů češtiny. In: Přednášky a besedy z XXXIV. běhu LŠSS. Brno : FF MU, 2001, s. 63–70. Hladká, Z.: Zkušenosti s tvorbou korpusů češtiny v ÚČJ FF MU v Brně. SPFFBU A 53, Brno : FF MU, 2005, s. 115–124. Hladká, Z. a kol.: Čeština v současné soukromé korespondenci. Dopisy, e-maily, SMS. [CD-ROM]. Brno : Masarykova univerzita, 2005. Hlaváčková, D.: Korpus mluvené češtiny z brněnského prostředí a jeho morfologické značkování. Slovo a slovesnost 62, 2001, s. 62–70. Hlaváčková, D. – Osolsobě, K.: Morfologické značkování mluvených korpusů, zkušenosti a otevřené otázky. In: Kopřivová, M. – Waclawičová, M. (eds.), Čeština v mluveném korpusu, Praha : Nakladatelství Lidové noviny, 2008, s. 105–114. Hlaváčková, D. – Pala, K.: Computer Processing Derivational Relations in Czech. In: Garabík, R. (ed.), Computer Treatment of Slavic and East European Languages, Bratislava : Slovak National Corpus, L. Štúr Institute of Linguistics, Slovak Academy of Sciences, 2007, s. 198–208. Hlaváčková, D. – Osolsobě, K. – Pala, K. – Šmerk, P.: Relations between Formal and Derivational Morphology in Czech. In: Dočekal, M. – Ziková, M. (eds.), Czech in Formal Grammar, Mnichov : Lincom, 2009^1, s. 79–87. Hlaváčková, D. – Osolsobě, K. – Pala, K. – Šmerk, P.: Exploring Derivational Relations in Czech with the Deriv Tool. In: Levická, J. – Garabík, R. (eds.), NLP, Corpus Linguistics, Corpus Based Grammar Research, Bratislava/Smolenica : Tribun, 2009^2, s. 152–161. Hlaváčová, J.: Morphological Guesser of Czech Words. In: Matoušek, V. (ed.), Text, Speech and Dialogue, Berlin : Springer-Verlag, 2001, s. 70–75. Hlaváčová, J.: Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. Praha : UK, 2009. (Disertační práce.) Hnátková, M.: Značkování frazémů a idiomů v českém Národním korpusu s pomocí Slovníku české frazeologie a idiomatiky. Slovo a slovesnost 63, 2002, s. 117–126. Hnátková, M., Kopřivová, M.: Horák, A. – Pala, K. – Rambousek, A. – Rangelova, A.: Nové nástroje pro českou lexikografii – DEB2. In: Štícha, F. – Šimandl, J. (eds.), Sborník konference Grammar & Corpora 2005, Praha : Ústav pro jazyk český Akademie věd ČR, 2006, s. 190–196. Hujer, O. – Smetánka, E. – Weingart, M. – Havránek, B. – Šmilauer, V. – Získal, A. (red.): Příruční slovník jazyka českého (PSJČ). Praha : Státní nakladatelství, 1935–1957. Jelínek, T.: Nové značkování v Českém národním korpusu. Naše řeč 91, 2008, s. 13–20. Jelínek, T. – Petkevič, V.: Systém jazykového značkování korpusů současné psané češtiny. In: Petkevič, V. – Rosen, A. (eds.), Korpusová lingvistika Praha 2011 – 3. Gramatika a značkování korpusů, Praha : Nakladatelství Lidové noviny, 2011, s. 154–170. Karlík, P. – Nekula, M. – Rusínová, Z.: Příruční mluvnice češtiny. Praha : Nakladatelství Lidové noviny, 1995. Karlík, P. – Nekula, M. – Pleskalová, J.: Encyklopedický slovník češtiny. Praha : Nakladatelství Lidové noviny, 2002. Karlík, P. (ed.): Korpus jako zdroj dat o češtině. Brno : Masarykova univerzita, 2004. Karlík, P.: Několik drobných poznámek k dějovým jménům. Linguistica Brunensia A 55, Brno : FF MU, 2007, s. 235–246. Karlík, P. – Pleskalová, J. (eds.): Život s morfémy. Brno : Masarykova univerzita, 2004. Klímová, J. – Štícha, F.: K možnostem a mezím sufixální derivace substantiv. In: Štícha, F. (ed.): Možnosti a meze české gramatiky, Praha : Academia, 2006, s. 127–138. Kocek, J. – Kopřivová, M. – Kučera, K.: Český národní korpus – úvod a příručka uživatele. Praha : Ústav Českého národního korpusu FF UK, 2000. Konečná, D.: Ukázka použití statistického zkoumání při přípravě strojové syntézy českého jednoduchého slovesného tvaru. Slovo a slovesnost 22, 1961, s. 268–273. Komárek, M.: Příspěvky k české morfologii. Olomouc : Periplum, 2006. Kopečný, F.: Slovesný vid v češtině. Praha : Nakladatelství československé akademie věd, 1962. Kosek, P. – Křístek, M. – Osolsobě, K. – Vojtová, J. – Ziková, M.: První korpusová mluvnice češtiny. (Recenze práce: Václav Cvrček a kolektiv autorů: Mluvnice současné češtiny 1 – Jak se píše a jak se mluví.). Naše řeč 94, 2011, s. 142–152. Králík, J. – Těšitelová, M.: Retrográdní slovník současné češtiny. Praha : Academia, 1986. Leech, G.: Corpus annotation schemes. Literary and Linguistic Computing 8 (4), 1993, s. 275–281. Marvan, J.: České stupňování. Praha : Karolinum, 2008. Mistrík, J.: Retrográdny slovník slovenčiny. Bratislava : Univerzita Komenského, 1976. McEnery, A. – Wilson, A.: Corpus Linguistics. Edinburgh : Edinburgh University Press, 1996. Němec, I.: Hláskoslovné předpoklady produktivity slovotvorných formantů. Slovo a slovesnost 32, 197 1, s. 217–224. Osolsobě, K. – Pala, K.: Czech Stem Dictionary for IBM PC XT/AT. In: Conference on Computer Lexicography, Balatonfüred : Research Institute for Linguistics Hungarian Academy of Sciences, 1991, s. 163–172. Osolsobě, K.: Česká formální morfologie na počítači, aneb jak se počítač učil časovat česká pravidelná a nepravidelná slovesa. In: Přednášky a besedy z XXVII. běhu LŠSS, Brno : FF MU, 1994, s. 16–31. Osolsobě, K.: Automatické rozpoznávání a generování českých určitých číslovek a od nich odvozených číselných pojmenování na počítači. SPFFMU A 43, Brno : FF MU, 1995, s. 31–48. Osolsobě, K.: Algoritmický popis české morfologie a strojový slovník češtiny. Brno : FF MU, 1996. (Disertační práce.) Osolsobě, K.: Formale Beschreibung der Tschechischen Morphologie und ihre Anwendung auf dem Gebiet der linguistischen Datenverarbeitung. SPFFBU A 44, Brno : FF MU, 1996, s. 59–70. Osolsobě, K.: Formale Beschreibung der Tschechischen Morphologie. In: Junghanns, U. –Zybatow, G. (Hrsg.), Formale slavistik, Frankfurt am Main : Ververt Verlag, 1997, s. 443–451. Osolsobě, K. – Pala, K. – Rychlý, P.: Frekvence vzorů českých substantiv (na materiálu ČNK). SPFFBU A 46, Brno : FF MU, 1998, s. 77–94. Osolsobě, K. – Pala, K. – Rychlý, P.: Frekvence vzorů českých sloves (na materiálu Českého národního korpusu), Slovo a slovesnost 59, 1998, s. 265–277. Osolsobě, K.: Morfologické značkování složených slovesných tvarů v korpusu. SPFFBU A 47, Brno : FF MU, 1999, s. 33–50. Osolsobě, K.: Mluvnice versus korpus, několik poznámek k problémům dubletních a variantních koncovek českých substantiv. In: Hladká, Z. – Karlík, P. (eds.), Čeština, univerzália a specifika 4, Praha : Nakladatelství Lidové noviny, 2002, s. 333–336. Osolsobě, K. – Pala, K. – Sedláček, R. – Veber, M.: A Procedure for Word Derivational Processes Concerning Lexicon Extension in Highly Inflected Languages. In: Rodriguez, M. G. – Araujo, C. P. (eds.), Proceedings of the Third International Conference on Language Resources and Evaluation, LREC, Las Palmas de Gran Canaria : ELRA, 2002, s. 1254–1259. Osolsobě K.: Hypokoristika v korpusu soukromé korespondence KSK. SPFFBU A 53, Brno : FF MU, 2005, s. 125–136. Osolsobě, K.: Korpus soukromé korespondence z hlediska morfologického značkování. SPFFBU A 54, Brno : FF MU, 2006, s. 187–201. Osolsobě, K. – Pala, K. – Sedláček, R.: Brněnský atributivní tagset. Brno : NLP FIMU, 2006. (Dostupný z: .) Osolsobě, K.: Popis gramatických významů (hodnot) jednoduchých slovesných tvarů v anotacích českých (slovenských) korpusů. SPFFBU A 55, Brno : FF MU, 2007^1, s. 201–218. Osolsobě, K.: Matematická lingvistika. In: Pleskalová, J. – Krčmová, M. – Večerka, R. – Karlík, P. (eds.), Dějiny české jazykovědné bohemistiky, Praha : Academia, 2007^2, s. 447–467. Osolsobě, K.: Syntetické futurum v češtině – gramatiky, slovníky, korpusy. In: Přednášky a besedy z XL. běhu LŠSS, Brno : FF MU, 2007^3, s. 131–144. Osolsobě, K.: Značkování gramatických kategorií v korpusech ČNK a jejich zachycení v gramatice a ve slovníku (syntetické futurum, stupňování adjektiv, neurčité číslovky a příslovce míry). In: Štícha , F. (ed.), Grammar & Corpora / Gramatika a korpus 2007, Praha : Academia, 2008^1, s. 407–416. Osolsobě, K.: Propria (příjmení na -č) – problém automatické morfologické analýzy. In: Čornejová, M. – Kosek, P. (eds.), Jazyk a jeho proměny. Prof. Janě Pleskalové k životnímu jubileu, Brno : Host, 2008^2, s. 205–216. Osolsobě, K.: Čeho je moc, toho je příliš aneb jaké má čeština komparativy a superlativy? In: Přednášky a besedy z XLI. běhu LŠSS, Brno : FF MU, 2008^3, s. 145–158. Osolsobě, K.: Formální popis deverbativ na -č. Linguistica Brunensia 56, Brno : FF MU, 2008^4, s. 121–135. Osolsobě, K.: K jednomu typu vyjadřování stupně v češtině. Bohemica Olomuciensia 3 – Linguistica Juvenilia, Olomouc : Univerzita Palackého v Olomouci, 2009^1, s. 123–138. Osolsobě, K.: Deriv – nástroj pro automatické vyhledávání slovotvorných vztahů. Slovotvorný stroj pro češtinu – sen nebo skutečnost? In: Přednášky a besedy z XLII. běhu LŠSS, Brno : FF MU, 2009^2, s. 132–137. Osolsobě, K.: Deriváty na -čí: gramatika, slovník a korpus. Linguistica Brunensia 57, Brno : FF MU, 2009^3, s. 115–127. Osolsobě, K.: Kajícný a nevěřícný – adjektiva na -cí/-cný: slovníky, gramatiky, korpusy. In: Hlaváč ková, D. – Horák, A. – Osolsobě, K. – Rychlý, P. (eds.), After Half a Century of Slavonic Natural L anguage Processing, Brno : Masarykova univerzita, 2009^4, s. 173–183. Osolsobě, K.: Několik poznámek na okraj derivací od sloves s uzavřeným kmenem minulým. In Bičan, A. – Klaška, J. – Macurová, P. – Zmrzlíková, J. (eds.), Karlík a továrna na lingvistiku. Prof. Petru Karlíkovi k životnímu jubileu, Brno : Host, 2010, s. 316–330. Osolsobě, K.: Morfologie českého slovesa a tvoření deverbativ jako problém strojové analýzy češtiny. Brno : Masarykova univerzita, 2011^1. Osolsobě, K.: Korpus jako zdroj dat pro studium slovotvorby. In: Petkevič, V. – Rosen, A. (eds.), Korpusová lingvistika Praha 2011 – 3. Gramatika a značkování korpusů, Praha : Nakladatelství Lidové noviny, 2011^2, s. 10–23. Osolsobě, K., Vališová, P.: Using data-driven methods in teaching Czech as a foreign language. In: Thomas, J. – Boulton, A. (eds.), Input, Process and Product. Development in Teaching and Language Corpora, Brno : MUP, 2012, s. 183–174. Pala, K.: Počítačové zpracování češtiny. Brno : FF MU, 1992. (Habilitační práce.) Pala, K. – Všiansky, J.: Slovník českých synonym. Praha : Nakladatelství Lidové noviny, 1996. Pala, K. – Sedláček, R. – Veber, M.: Vztah mezi tvarotvornými a slovotvornými vzory v češtině. In: Hladká, Z. – Karlík, P. (eds.), Čeština univerzália a specifika 5, Praha : Nakladatelství Lidové noviny, 2004, s. 151–162. Pala, K. – Sedláček, R. – Veber, M.: Relations between Inflectional and Derivation Patterns. In: Vitas, D. – Erjavec, T. – Tadić, M. (eds.), Proceedings of the Workshop on Morphological Processing of Slavic Languages, Budapest : EACL, 2003, s. 1–8. Pala, K. – Sedláček, R.: Enriching WordNet with Derivational Subnets. In: Sedláček, R. (ed.), Proceedings of the 6th International Conference on Computational Linguistics and Intelligent Text Processing CICLING 2005, Berlin Heidelberg New York : Springer Verlag, 2005, s. 305–311. Pala, K.: Derivational Relations in Slavonic Languages. In: Tadić, M. – Dimitrova-Vulchanova, M. – Koeva, S. (eds.), FASSBJ6-2008 (Proceedings of the Sixth International Conference on Formal Approaches to South Slavic and Balkan Languages 25–28 September 2008, Dubrovnik, Croatia), Zagreb : Croatian Language Technologies Society – Faculty of Humanities and Social Sciences, 2008, s. 21–28. Pala, K. – Hlaváčková, D.: Reprezentace významu sloves (valence a sémantické role). In: Sborník konference Kognice 2010, Praha : Kognice, 2010. Pala, K. – Rychlý, P.: Do We Need Very Large Web Corpora? In: Čermák, F. (ed.), Korpusová lingvistika Praha 2011 – 2. Výzkum a výstavba korpusů, Praha : Nakladatelství Lidové noviny, 2011, s. 30–40. Panevová, J. – Ševčíková, M.: Jak se počítají substantiva v češtině: poznámky ke kategorii čísla. Slovo a slovesnost 3, 72 (2011), s. 163–176. Petkevič, V.: Reliable Morphological Desambiguation of Czech: Rule-Based Approach is Necessary. In: Šimková, M. (ed.), Insight into the Slovak and Czech Corpus Linguistics, Bratislava : Veda, 2006, s. 26–44. Petkevič, V.: Využití vidu ke zkvalitnění automatického značkování češtiny. In: Bičan, A. – Klaška, J. – Macurová, P. – Zmrzlíková, J. (eds.), Karlík a továrna na lingvistiku. Prof. Petru Karlíkovi k životnímu jubileu, Brno: Host, 2010, s. 368–387. Pleskalová, J. – Krčmová, M. – Večerka, R. – Karlík, P.: Kapitoly z dějin české jazykovědné bohemis tiky. Praha : Academia, 2007. Pořízka, P. – Schäfer, M.: Morph-Con. A Software for Conversion of Czech Morphological Tagsets. In: Levická, J. – Garabík, R. (eds.), NLP, Corpus Linguistics, Corpus Based Grammar Research, Bratislava/Smolenica : Tribun, 2009, s. 292–301. Rejzek, J.: Český etymologický slovník. Voznice : LEDA, 2001. Romportl, S.: Struktura gramatické složky slovesných tvarů určitých v češtině. Praha : Academia, 1970. Rosa, V. J.: Čechořečnost seu Grammatica linguae Bohemicae. Praha, 1672. Rosen, A.: Morphological Tags in Parallel Corpora. In: Čermák, F. – Corness, P. – Klégr, A. (eds.), InterCorp : Exploring Multilingual Corpus, Praha : Nakladatelství Lidové noviny, 2009, s. 205–234. Sag, I. A. – Baldwin, T. – Bond, F. – Copestake, A. A. – Flickinger, D.: Multiword Expressions: A Pain in the Neck for NLP. In: Gelbukh, A. F. (ed), Proceedings of the Third International Conference on Computational Linguistics and Intelligent Text Processing, London : Springer-Verlag, London, UK, 2002, s. 1–15. (Dostupný z: .) Scheer, T.: The Rhytmic Law in Czech: Vowel-final Prefixes. In: Zybatow, G. – Junghanns, U. – Mehlhorn, G. – Szucsich, L. (eds.), Current Issues in Formal Slavic Linguistics, Frankfurt am Main : Lang, 2001, s. 37–48. Scheer, T.: O samohláskové délce při derivaci v češtině. In: Hladká, Z. – Karlík, P. (eds.), Čeština – univerzália a specifika 5, Praha : Nakladatelství Lidové noviny, 2004, s. 224–239. Schejbalová, Z.: Reduplikace jako slovotvorný prostředek v češtině a ve francouzštině. In: Přednášky a besedy z XLIV. běhu LŠSS, Brno : FF MU, 2011, s. 192–212. Sedláček, R.: Morphematic analyser for Czech. Brno : FI MU, 2004. (Disertační práce.) Sgall, P.: Generativní popis jazyka a česká deklinace. Praha : Academia, 1967. Skoumalová, H.: Porovnání úspěšnosti tagování korpusu. In: Petkevič, V. – Rosen, A. (eds.), Korpusová lingvistika Praha 2011 – 3. Gramatika a značkování korpusů, Praha : Nakladatelství Lidové noviny, 2011, s. 199–207. Slavíčková, E.: Retrográdní morfematický slovník češtiny. Praha : Academia, 1975. Sokolová, M. – Moško, G. – Šimon, F. – Benko, V.: Morfematický slovník slovenčiny. Prešov : Náuka Prešov, 1999. Spoustová, D. – Hajič, J. – Votrubec, J. – Krbec, P. – Květoň, P.: The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. Praha : ACL, 2007, s. 67–74. Stich, A.: Stupňování přídavného jména „vzrušující“. Naše řeč 52, 1969, s. 62–64. Šlosar, D.: Slovotvorný vývoj českého slovesa. Brno : Univerzita J. E. Purkyně, 1981. Lamprecht, A. – Šlosar, D. – Bauer, J.: Historická mluvnice češtiny. Praha : SPN, 1986. Šlosar, D. – Rusínová, Z.: Průřez vývojem slovotvorné soustavy adjektiv v češtině. SPFFMU A 15, Brno : FF MU, 1967, s. 37–64. Šlosar, D.: Česká kompozita diachronně. Brno : Masarykova univerzita, 1999. Šmilauer, V.: Nauka o českém jazyku. Praha : Státní pedagogické nakladatelství, 1972. Šmilauer, V.: Novočeské tvoření slov. Praha : Státní pedagogické nakladatelství, 1971. Šmerk, P.: K počítačové morfologické analýze češtiny. Brno : FI MU, 2010. (Disertační práce.) Šimandl, J.: Číslovky: obecný rámec, číslovky základní a řadové. In: Štícha, F. (ed.), Kapitoly z české gramatiky. Praha : Academia 2011, s. 689–727. Štícha, F. (ed.): Možnosti a meze české gramatiky. Praha : Academia, 2006. Štícha, F. (ed.): Kapitoly z české gramatiky. Praha : Academia, 2011. Tichonov, A. N.: Slovoobrazovatel’nyj slovar’ russkogo jazyka. Moskva : Russkij jazyk, 1985. Trávníček, F.: Mluvnice spisovné češtiny I. Praha : Slovanské nakladatelství, 1951. Tušková, J. M.: Variantní a dubletní tvary v současné deklinaci apelativních feminin. Brno : Masarykova univerzita, 2006. Tušková, J. M.: Deklinační systém femininních oikonym v češtině. Synchronní pohled na základě Českého národního korpusu. Praha : Nakladatelství Lidové noviny, 2011. Vališová, P.: Výukové materiály založené na korpusu. In: Čermák, F. (ed.), Korpusová lingvistika Praha 2011 – 2. Výzkum a výstavba korpusů, Praha : Nakladatelství Lidové noviny/Ústav Českého národního korpusu, 2011, s. 313–323. Večerka, R.: Staroslověnština. Praha : SPN, 1984. Večerka, R. a kol.: K pramenům slov. Uvedení do etymologie. Praha : Nakladatelství Lidové noviny, 2006. Veselý, V.: Obojí, oboje, obě, všechno. Naše řeč 3, 94 (2011), s. 181–193. Wagner, R.: Das Auffinden von reflexiven Verbalsubstantiven im tschechischen Nationalkorpus: Grenzen der morphologischen Annotation. In: Štícha, F. – Šimandl, J. (eds.), Gramatika a korpus 2005, Praha : Ústav pro jazyk český, 2005, s. 295–304. Worth, D. S. – Kozak, A. S. – Johnson, D. B.: Russian Derivational Dictionary. New York – London – Amsterdam : American Elsevier Publishing Company, 1970. Ziková, M.: Morphological and Phonological Domains: Prefix Lengthening in Czech. Handout pro FDSL 2010. (Dostupný z: .) Elektronické zdroje: Korpus SYN2010: Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK, Praha 2010. Cit. 16.01. 2014, dostupný z WWW: . Korpus SYN2009PUB: Český národní korpus – SYN2009PUB. Ústav Českého národního korpusu FF UK, Praha 2010. 16.01. 2014, dostupný z WWW: . Korpus SYN2006PUB: Český národní korpus – SYN2006PUB. Ústav Českého národního korpusu FF UK, Praha 2006. Cit. 16.01. 2014, dostupný z WWW: . Korpus SYN2005: Český národní korpus – SYN2005. Ústav Českého národního korpusu FF UK, Praha 2005. Cit. 16.01. 2014, dostupný z WWW: . Korpus SYN2000: Český národní korpus – SYN2000. Ústav Českého národního korpusu FF UK, Praha 2000. Cit. 16.01. 2014, dostupný z WWW: . Korpus SYN: Český národní korpus – SYN. Ústav Českého národního korpusu FF UK, Praha. Cit. 16.01. 2014, dostupný z WWW: . Rychlý, P.: Bonito – grafické uživatelské rozhraní systému Manatee. Verze 1.49. 1998–2003. (Dostupná z: A.) Korpusový manažer BONITO [online]. 2011. Cit. 20. 03. 2011, dostupný z: . Korpusvý vyhledavač NoSke [online]. 2013. Cit. 16.01. 2014, dostupný z: . Korpusvý vyhledavač KonText [online]. 2014. Cit. 16.01. 2014, dostupný z: . Šmerk, P.: Dberiv – weové rozhraní. 2009. (Dostupné z: ) Automatický analyzátor ajka [online]. 2011. Cit. 16.01. 2014, dostupný z: . Internetový vyhledávač Google [online]. 2011. Cit. 20. 03. 2011, dostupný z: . Internetová jazyková příručka [online]. 2011. Cit. 16.01. 2014, dostupná z: . DEB Dict – Obecný prohlížeč slovníků [online]. 2011. Cit. 16.01. 2014, dostupný z: . SLEX99 – Elektronický lexikón slovenského jazyka. Forma, s.r.o. Bratislava 1998–2007. Cit. 20. 03. 2011, dostupný z: < http://www.slex.sk>. hebrew4christians [online] . 2012. Cit. 5. 06. 2012, dostupné z: . Algoritmus určování slovesných tříd a vzorů v češtině[53] © Klára Osolsobě Algoritmus funguje v případě, že mluvčí je schopen správně tvořit všechny požadované tvary. Řada rodilých mluvčích totiž při postupu občas chybuje. Pokud např. pochybíme při tvoření infinitivu, např. máme-li zařadit do třídy/ke vzoru slovesný tvar jiný než infinitiv, a utvoříme infinitiv od příbuzného slovesa, lišícího se většinou videm/způsobem slovesného děje, je toto pochybení důvodem nesprávné odpovědi (neselže algoritmus, ale naše jazyková schopnost).[54] Dále je třeba si dát pozor na případy kolísání mezi třídami/vzory (viz níže).[55] 1. Utvoř infinitiv.[56] Jdi na 2. 2. Infinitiv končí na -([aá]t)|([aá]ti)? Ano: Jdi na 3. Ne: Jdi na 6. 3. Utvoř 3. osobu indikativu prézentu aktiva. Jdi na 4. 4. 3. osoba indikativu prézentu aktiva končí na á? Ano: Jdi na 5. Ne: Jdi na 17. 5. Jde o sloveso 5. tř. vzor dělá. KONEC 6. Infinitiv končí na -([eěií]t)|([eěií]ti)? Ano Jdi na 7. Ne: Jdi na 17. 7. 3. osoba indikativu prézentu aktiva končí na í. Ano Jdi na 8. Ne: Jdi na 17. 8. Před infinitivní koncovkou -(t)|(ti) předchází i-? Ano: Jdi na 9. Ne: Jdi na 10. 9. Jde o sloveso 4. tř. vzoru prosit. KONEC 10. Před infinitivní koncovkou -(t)|(ti)) předchází [eě]-? Ano: Jdi na 11. Ne: Jdi na 15. 11. Utvoř imperativ (2. os. sg.). Jdi na 12. 12. Tvar končí na -[eě]j? Ano: Jdi na 13. Ne: Jdi na 14. 13. Jde o sloveso 4. tř. vzoru sázet. KONEC 14. Jde o sloveso 4. tř. vzoru trpět. KONEC 15. Utvoř tvar l-ového příčestí. Jdi na 16. 16. Před -l předchází i-? Ano: Jdi na 9. Ne: Jdi na 11. 17. Infinitiv končí na -(([áeěíý]|(ova)|(ou))t)|(([áeěíý]|(ova)|(ou))ti)? Ano: Jdi na 18. Ne: Jdi na 31. 18. 3. osoba indikativu prézentu aktiva končí na -je. Ano: Jdi na 19. Ne: Jdi na 23. 19. Před infinitivní koncovkou -(t)|(ti) předchází ova-. Ano: Jdi na 20. Ne: Jdi na 21. 20. Jde o sloveso 3. tř. vzoru kupovat. KONEC 21. Tvar není pouze je (sebelepší) bylo běžné už ve staroslověnštině. V řadě jazyků se setkáváme s etymologickou figurou tzv. hebrejského superlativu (král králů, kniha knih, píseň písní), v níž se genitivem vyjadřuje superlativ. [23] V praxi se strojové slovníky pro automatickou morfologickou analýzu budovaly tak, že pro některé paradigmatické (pravidelné) derivace existovala pravidla (morfologické vzory), jejichž pomocí se tyto pravidelné deriváty tvořily a značkovaly automaticky přímo od množiny základů (např. od sloves nedokonavých se automaticky tvořily nejen tvary přechodníku přítomného, ale i tvary příslušného procesuálního adjektiva). Naopak kompozita s druhým členem procesuálním adjektivem byla do slovníku doplněna samostatně. Je také možné uvažovat o tom, jaká je slovnědruhová platnost těchto formálních adjektiv, tedy kdy dle kontextu fungují skutečně jako adjektiva a kdy jde o substantivizaci. [24] K těmto adjektivům srov. podrobněji Osolsobě 2009^4. [25] K probíranému problému srov. též Panevová, Ševčíková 2011. [26] Technicky je jasné, že tvary mnoho/mnoha se chovají jako základní číslovky od 5 výše (soustava dvou tvarů, syntaktické vlastnosti na úrovni gramatické shody podmětu a přísudku). Jak se z tohoto hlediska chovají výrazy hodně, moc aj., pokud jimi ve stejných kontextech nahradíme tvary mnoho/mnoha? [27] Sloveso zalnout uvádí jak PSJČ, tak SSJČ jako zastaralé ve významu přilnout, sloveso přemnout uvádějí oba slovníky ve významu „jemně promnout“. Možnost interpretovat tvar zally jako tvar slovesa zalnout, spadá na vrub přegenerovávání automatické morfologické analýzy, respektive pravidlu uplatněnému při sestavování slovníku pro automatickou morfologickou analýzu. Toto pravidlo připouští, že všechna slovesa vzoru tisknout mohou tvořit tvary l-ového příčestí (n-ového příčestí) jak s kmenotvornou příponou nu-, tak bez ní (tedy tiskl/tištěn i tisknul/tisknut), což je sporné zejména pro sloveso lnout (ale např. také pro mnout) i jejich prefigované deriváty. Pro ostatní slovesa (např. hnout, schnout, usnout. …) neexistují v mluvnických popisech pravidla, která by bylo možné jednoduše zobecnit a především formálně popsat. To byl zřejmě důvod pro zařazení zjednodušujícího pravidla do popisu pro automatickou morfologickou analýzu. V korpusu SYN jsou tudíž tvary Zally (mužské jm., nom. je Zalla, nebo ženské jm. nesklonné) a Zalli (ženské jm. patrně nesklonné, nejde-li ovšem o překlep) interpretovány jako l-ová příčestí slovesa zalnout. Vlastní jména se ve slovnících automatických morfologických analyzátorů uvádějí více méně ad hoc. Předpokládáme, že tvar neprošel desambiguací. (Srv. též lemmatizaci a značkování překlepu přemlo. Ke tvarům rožl, … srv. též Osolsobě 2011^1 : 43n.^ [29] Více Osolsobě 2007^3, 2008^1. [30] Srv. Osolsobě 2007^1 a též níže. [31] V tabulce nejsou zahrnuty varianty reflexiv tantum. [32] Rovněž neprobíráme případy, kdy je v 1. osobě vynechaný tvar pomocného slovesa nahrazen příslušným osobním zájmenem (... mu klíč ..., ... a tu <čekali> v naprosté tmě ...). [33] Nebereme v úvahu ani archaismy typu (... on mi ..., ... Pirát Ockham naši flotilu ...). [34] V případě, že bychom používali starší korpusy (SYN2000, SYN2005, SYN2006PUB, ORWELL), bude mít poslední dotaz podobu V[pq].*, nebo V[pq].....X.* (srov. výše oddíl Pozice 8). [35] Požadavek desambiguace (zjednoznačnění) naráží na grafický úzus, který zaznamenává dva významy tečky jediným znakem (jedinou tečkou). Obdobně vidíme, jak v případě požadavku jednoznačné lemmatizace adjektiv/adverbií 2. a 3. stupně narážíme na problém, kdy několik adjektiv/adverbií tvoří tvary 2. a 3. stupně stejně(homonymie), takže při desambiguaci nelze zjistit, ke kterému lemmatu ( první stupeň) se vztahují (např. více – mnoho/moc/hodně/tuze, horší – zlý/špatný). [36] Např. plurálové formy anglických slov. [37] Více Osolsobě 2011^1. [38] Toto rozdělení vychází z Komárkových prací a podrobně je popsáno ve druhém svazku Mluvnice češtiny (Komárek a kol. 1987 : 427–495). Odpověď na otázku, proč je e/ě u sloves některých tříd a vzorů interpretováno jako kmenotvorná přípona a u jiných jako část tvarotvorné přípony pasivního participia, je možné synchronně zdůvodnit na základě a) analogie v rámci tvarů od kmene minulého a b) shod a neshod na úrovni hláskových alternací finálního konsonantu kořene (před kmenotvornou příponou, jíž je 0 nebo e/ě). Proč je e/ě u sloves I. třídy vzorů nést, péci, II. třídy vzoru tisknout a IV. třídy vzoru prosit součástí tvarotvorné přípony a u sloves I. třídy vzoru umřít a IV. třídy vzorů trpět, sázet je chápáno jako kmenotvorná přípona? V případě sloves I. třídy vzorů nést, péci a II. třídy vzoru tisknout jde o systém tvarů od kmene minulého. Všechny tvary od kmene minulého mají u sloves I. třídy vzorů nést a péci kmenotvornou příponu 0. Tvary od kmene minulého mohou mít u sloves vzoru tisknout kmenotvornou příponu buď nu/nou, nebo 0. V případě sloves IV. třídy je důvod jiný. Kmenotvorná přípona 0 u sloves IV. třídy vzoru prosit nezpůsobuje alternaci finál [bmpv] na švu kořen/kmenotvorná přípona (rozzloben, vykrmen, potupen, zastaven, pohřben, …), ale fakultativně způsobuje alternace jiných finál (např. s>š prošen, z>ž zaražen, ť>c zaplacen, ď>z zrazen, …). Kmenotvorná přípona e/ě u sloves 4. třídy vzorů trpět a sázet způsobuje alternaci finál [bmpv] na švu kořen/kmenotvorná přípona (vyráběn, srozuměn, protrpěn, zastavěn, …), ale nezpůsobuje jiné alternace, a to zejména u sloves vzoru sázet (např. zasazen, obletěn, předváděn, …). Pokud by se v obou případech počítalo s kmenotvornou příponou e/ě, museli bychom předpokládat dvě různá e v kmenotvorné příponě sloves téže třídy. [39] Srov. hebrew4christians [online] . 2012. Cit. 5. 06. 2012, dostupné z: . [40] V lingvistické literatuře se můžeme setkat s dalšími hodnoceními (srov. např. Schejbalová 2011, Boissin 1957, Aitzenmüller 1950). [41] Automatická morfologická analýza (jednou z jejích aplikací je i morfologické značkování jazykových korpusů, ale také např. běžně užívané korektory překlepů) bývá založena na strojovém slovníku, v němž jsou jednotky definovány jako trojice tvar / základní tvar / morfologická/é interpretace. [42] Pro aplikace automatických analyzátorů zmíněného typu to znamená, že slovník analyzátoru a slovník korpusu nejsou zpravidla totožné. V praxi je důsledkem jistý počet „nerozpoznaných jednotek“, které snižují pokrytí automatické morfologické analýzy. Běžný uživatel korektoru se s touto praxí denně setkává v případě, kdy mu automatický korektor označí „podezřelé“ vlastní jméno či méně běžné slovo (neologismy, archaismy, okazionalismy i termíny), ale i slovo/text v cizím jazyce atd. [43] Všimněme si, že mají většinou frekvenci 1 (hapax legomena). [44] Srov. Pala – Rychlý 2011. [45] Moderní definice korpusu uvádějí čtyři základní rysy, které musí korpus v moderním slova smyslu splňovat: 1) strojově čitelná podoba, 2) reprezentativnost zaručená zastoupením vzorků nejrůznějších textů (vyváženost), 3) vymezený a omezený rozsah (díky tomu lze opřít o data frekvenční analýzy) a 4) standardní anotace (McEnery – Wilson 1996). Pouze při splnění těchto čtyř požadavků je možné podrobovat data získaná z korpusů kvantitativním analýzám a srovnáním. Přesto je teoreticky dokázáno, že jevy zastoupené okrajově, řídce (hapax legomena) se v textech vyskytují se stabilní frekvencí, tj. s nárůstem rozsahu (počtu textů) neklesá počet nově se vyskytnuvších jednotek. Proto se především pro účely lexikografické někdy ustupuje od požadavků vymezeného a omezeného rozsahu korpusu a budují se tzv. monitorovací korpusy, banky textů atd. Podobně lze používat i internet. [46] Srov. elektronická verze slovníků slovenštiny SLEX99. [47] Srv. více Osolsobě 2011^1 : 40n. [48] Sic! Nejde o pleonasmus. [49] Více k této problematice srov. Hnátková 2002, Hnátková, Kopřivová 2013. [50] Nemyslím si, že by mohly existovat sebevětší korpusy, v nichž bych našel všechny informace o slovníku a gramatice angličtiny, které chci zkoumat ... (ale) i ten nejmenší korpus, který jsem měl možnost zkoumat, mě přivedl k věcem, na něž bych jinak nebyl býval přišel. [51] Exultet – velikonoční liturgický zpěv. [52] Halas, F.: A co básník. In: Kundera, L. (ed.), A co, Praha : Československý spisovatel, 1983, s. 111. [53] O přechodnících se všeobecně tvrdí, že se v češtině příliš neužívají. Nicméně se od nich (vcelku pravidelně) tvoří adjektiva (typ kupující nebo dostavivší se), která (alespoň v prvním případě) frekventovaná a užívaná jsou. Pravidelně se pak chybuje při záměnách adjektiv tvořených od přechodníku přítomného (procesuálních žehlící, kryjící, ... ) a adjektiv účelových, tvořených od kmene minulého (typ žehlicí, krycí, ...). Ve zvukové realizaci adjektiv odvozených od sloves 4. třídy vzoru prosit se totiž stírá rozdíl mezi dlouhým a krátkým i/í, což je pro češtinu typické i jinde, např. ve tvarech zájmena ona – ji/jí. To má pak vliv na pravopisné chyby při grafickém zaznamenání kvantity u příslušných adjektiv. To jsou mimo jiné důvody, pro něž je třeba tvoření přechodníků věnovat patřičnou pozornost. [54] Uživatelé korpusu si mohou pomoci tak, že tvar slovesa vyhledají v korpusu a zobrazí si lemma. [55] Kolísání mezi vzory se může odrazit v lemmatizaci tak, že méně obvyklý tvar (archaický) není rozpoznán automatickou morfologickou analýzou (lemma je tvar sám a tag je X.*). [56] První krok je uveden pro případ, že máme za úkol určit třídu a vzor slovesa v libovolném tvaru (textovém). Tento krok není většinou nutný pro určení třídy, je ale nezbytný pro určení vzoru. Usnadní také práci s výjimkami. Pomůckou ke správnému utvoření infinitivu od libovolného tvaru může být následující postup: a) utvoříme větu, v níž bude příslušný tvar tvarem (součástí tvaru) přísudkového slovesa, a b) provedeme substituci konstrukcí s modálním slovesem. Máme např. určit třídu a vzor slovesného tvaru odpluje. Studenti chybovali a tvořili nesprávně infinitiv odplouvat. Správně je ovšem odplout. Jestliže nahradíme přísudkový tvar Loď z přístavu tvarem Loď z přístavu, pak se uvedené chybě vyhneme. [57] V tom případě se e graficky realizuje jako ě. Jde, pokud je nám známo, o jediné sloveso stonat–stůně a jeho prefigované deriváty. [58] Srov. např. doklady jako ... zítra v mých očích ..., ... již v zemi, k níž jste láskou vřeli ..., jakož i chybné značkování tvaru tlím (ve skutečnosti jde o překlep ve slově film) v korpusu SYN ( ... nejlepší propagandistický všech dob ...) versus ... bez vlastní viny pučím, raším, , ..., ... tam pod vodou, ... a už je jich moc ... Nebo např. doklad z korpusu SYN jako ... anebo tu zášť , poněkud kultivovaněji ... versus na internetu doložené ... všichni tady na to síru ... [59] Sloveso zdát (se), které etymologicky souvisí se slovesem dát se (děje se, ...), srov. udát se, tvoří synchronně tvary podle vzoru 5. třídy dělat. S něčím podobným se setkáváme u slovesa klát, které přešlo z 1. třídy (kolu, ...) do 5. třídy. V SSJČ i PSJČ se uvádí, že sloveso prokláti se vyskytuje „jen ve tvarech minulých“, nicméně např. v korpusu SYN jsou doloženy i tvary od kmene přítomného ... a chladnokrevně jej oštěpem ... utvořené podle vzoru dělat a tamtéž najdeme i doklad tvaru podle vzoru krýt ... Jupiter rozkomíhá smrtící blesk a mě ... Pravidelně se nechová též sloveso plát, u něhož jsou řídce doloženy tvary podle vzoru krýt (srov. doklad z korpusu SYN ... tak oko mi ... a ... zář jiter i západů v jeho krvi nám horoucně ...), běžnější jsou ovšem tvary podle vzoru dělat. V korpusu SYN je poměr tvarů podle vzoru krýt:dělat buď 2:80, nebo 3:81. U doložených tvarů 3. pl. ind. préz. akt. nelze totiž rozlišit třídu a vzor (srov. homonymní pla-j-í jako hra-j-í nebo pl-aj-í jako tk-aj-í). [60] O přechodnících se všeobecně tvrdí, že se v češtině příliš neužívají. Nicméně se od nich (vcelku pravidelně) tvoří adjektiva (typ kupující nebo dostavivší se), která (alespoň v prvním případě) frekventovaná a užívaná jsou. Pravidelně se pak chybuje při záměnách adjektiv tvořených od přechodníku přítomného (procesuálních žehlící, kryjící, ... ) a adjektiv účelových, tvořených od kmene minulého (typ žehlicí, krycí, ...). Ve zvukové realizaci adjektiv odvozených od sloves 4. třídy vzoru prosit se totiž stírá rozdíl mezi dlouhým a krátkým i/í, což je pro češtinu typické i jinde, např. ve tvarech zájmena ona – ji/jí. To má pak vliv na pravopisné chyby při grafickém zaznamenání kvantity u příslušných adjektiv. To jsou mimo jiné důvody, pro něž je třeba tvoření přechodníků věnovat patřičnou pozornost. [61] Retnice alternují též ve tvarech přechodníku přítomného sloves podle vzoru prosit (na rozdíl od tvarů pasivního příčestí a dějových jmen: srov. nemluvě, ale mluvení), v grafické rovině se po nich tedy píše ě, stejně jako se [ďe],[ťe],[ňe] graficky realizuje jako dě, tě, ně. [62] Všimněme si, že kromě sloves 5. tř. vzoru dělat může ve 3. sg. ind. préz. akt. končit na ají a v imperativu výjimečně na ej i sloveso 3. tř. vzoru krýt (srv. tkát/tkají/tkej ale i hrát/hrají/hrej vedle hraj). [63] Všimněme si, že kromě sloves 4. tř. vzoru sázet a 5. tř. vzoru dělat mohou na řetězec [eě]j v imperativu končit slovesa 3. tř. vzoru krýt (srv. sázet/sázej ale i pět/pěj, spět/spěj, smát se/směj se, vát/věj, …) a 4. tř. vzoru prosit (srv. sázet/sázej ale i vykolejit/vykolej).