28 Synonymní/variantní tvary infinitivu jako problém konzistentní lemmatizace Klára OSOLSOBĚ� Filozofická fakulta Masarykovy univerzity, Brno osolsobe@phil.muni.cz Synonymous/variant forms of infinitive as a problem of consistent lemmatization ABSTRACT: The NovaMorf project (see more Hlaváčová 2009; Osolsobě et al. 2017; Petkevič et al. 2019) provided us with two following proposals which have been accepted as our point of departure. The first introduces a concept of the multiple lemma. The second expresses the so-called golden rule of morphology, i.e. the requirement for systematic processing of variants, so that each variant would differ by a pair of lemma + tag. These two requirements lead to the systematic corpus-based study of the variations in the Czech morphology. The aim of our text is to give a comprehensive picture of the consistent lemmatization of verb forms. If we have two variants of an infinitive such, that they can be considered synonymous (myslet/myslit), then, let the concept of multiple lemma be applied. Here, we give a complete list containing the synonymous lemmas of Czech verbs extracted from grammars, dictionaries and the large language corpora. KEYWORDS: lemmatization, infinitive, variant 1. Úvod Cí�lem tohoto textu je podat ucelený obraz jedné oblasti automatického zpracování� přirozeného jazyka (češtiny), a sice lemmatizace slovesných tvarů. Do slovesného tvarosloví� zahrnujeme: a) tvar(y) infinitivu, b) tvary l-ového pří�čestí� a přechodní�ku minulého, c) tvary indikativu a přechodní�ku pří�tomného, d) tvary imperativu. K slovesnému paradigmatu volně patří� i e) tvary pasivní�ho pří�čestí� a/nebo tvary dějového jména na ní/tí. Lemmatem slovesného tvaru je v rámci automatické morfologické analýzy zpravidla tvar infinitivu. Pod tvar infinitivu není� zahrnut tvar verbální�ho substantiva na ní/tí, jeho lemmatem je nominativ singuláru pří�slušného substantiva. Pod ví�cenásobné lemma {tvar infinitivu, dlouhý/adjektivizovaný tvar pasivní�ho pří�čestí� na ný/tý} mají� být podle návrhu NovaMorf (Petkevič et al. 2019) zahrnuty krátké (participiální�) i dlouhé (adjektivizované) tvary pasivní�ho pří�čestí�. Popis tvarosloví� českého slovesa v synchronní� podobě prezentovaný morfologickou anotací� korpusů řady SYNvykazuje nekonzistentní� řešení� v pří�padě, že variantní� tvary má základní� tvar slovesa – infinitiv. Zaměří�me se tudí�ž na interpretace slovesných tvarů jednoho základu, které lze interpretovat jako tvary synonymní�/variantní� (např. myslet/myslit, obléci/obléknout atd.). Také se budeme snažit zaznamenat nedostatky pokrytí� morfologického slovní�ku (Hajič – Hlaváčová 2013). 2. Zpracování variantního základního tvaru v rámci automatické morfologické analýzy Existuje-li ví�ce než jedna varianta, která může představovat lemma/základní� tvar, pak řešení� na poli automatické analýzy nebyla dosud jednoznačná. Tak napří�klad paralelní� 28―41 29 Klára OSOLSOBĚ Synonymní/variantní tvary infinitivu jako problém konzistentní lemmatizace varian­tní� tvary (filozofie/filosofie, citron/citrón, blúza/blůza/blusa, být/bejt, mýt/mejt) byly zpracovány nejednotně. V rámci projektu NovaMorf byly přijaty dva návrhy. První� se týká variantnosti základní�ho tvaru/lemmatu a zavádí� koncept ví�cenásobného lemmatu. Druhý se týká tzv. zlatého pravidla morfologie, které zavádí� požadavek systematického zpracování� variant, a to tak, aby se každá varianta lišila dvojicí� lemma+tag (viz ví�ce Hlaváčová 2009; Osolsobě et al. 2017; Petkevič et al. 2019). Tyto dva požadavky vedly k systematickému korpusově podloženému studiu variantnosti českého tvarosloví�. 3. Variantní tvary českých sloves Pokud variantní� tvary nejsou v infinitivu, pak přestože jednotlivé tvary slovesných subparadigmat lze vztahovat k různým tří�dám a vzorům, lemmatizace není� problematická. Pří�klady ukazuje tabulka 1. Tab. 1 1 2 ind. préz. imp. l-ové pasivní/slovesné subst. infinitiv probodne probodni probodnul/probodl probodnut/proboden probodnout1 kope/kopá kop/kopej kopal kopán kopat háže/hází haž/házej házel házení házet uzřu2 /uzřím uzři uzřel uzření uzřít vlaje/vlá vlaj vlál vlání vlát nehraje/nehrá nehraj/nehrej nehrál nehrán nehrát 3.1 Typologie variantních tvarů infinitivu V následují�cí�m přehledu se budeme zabývat pouze variantami kmenotvorné pří�pony infinitivní�ho slovesného tvaru, a to i tehdy, kdy dochází� k přehodnocení� kmenotvorné pří�pony v důsledku historického vývoje. Nebudeme se zabývat teritoriálně ovlivněným krácení�m kmenotvorné pří�pony v infinitivu.3 Dále nás budou zají�mat varianty infinitivu souvisejí�cí� s variantností� kořenového vokálu í/e/ě: sít/set.4 Stranou ponecháme varianty kořenového vokálu souvisejí�cí� s tzv. úžení�m é/[íý] (nést/ nýst, lézt/lízt, prolézat/prolízat), se změnou [ýí]/ej (rýt/rejt, hýbat/hejbat, lít/lejt) a krácení�m dlouhého kořenového vokálu (hrát/hrat)5 i další� teritoriálně podmí�něné alternace (rýt/rét). 1  Diachronní� infinitiv probósti (viz stč. banka: … jehož nemohl nižádný přemoci ani kopiem ani mečem …) je patrně důvodem pro synchronní� dublety (bez kmenotvorného -nu-) v l-ovém a pasivní�m pří�čestí�. 2  Jen vezmu ji do rukou, ucítím bolest a poté krev rudou jako růže. 3  Doklady se najdou v korpusu SYNv7: (Kdo ju včil postiská, kdo ju zahřeje, komu bude a vařit a fusekle látat? Madla v kuchyni se dívala v televizi na nějaký zas dokument o zločinech komunismu, jsem si sedl ke stroji v příjemné chuti něco pěkného si . Když sem si uvědomil, že by sem tu měl , tak sem zpanikařil a bez rozmyslu sem vlez do te ďury. „Neboj, děvucho, u nas se řika – kvuli dvuch piv je škoda boty …,“ smál se Ostravák. „To mu musiš <řeknut>, že si sprostě mluvil?“) 4  Varianty s krátkým [eě] jsou různě hodnoceny kodifikační�mi pří�ručkami, nicméně v úzu prezentovaném korpusy jsou doloženy. Patrně zde působí� tlak analogie sloves, která mají� pouze krátké [eě] v kořeni infinitivu (pět, pomět se, spět), viz Š�tí�cha et al. (2013). 5  V Riu se budu především snažit svůj tenis, a to co nejlíp. 30 I ▪ KORPUS ▪ EMPIRIE ▪ MORFOLOGIE Tyto varianty jsou variantami hláskoslovnými, a týkají� se tudí�ž všech sloves, jejichž hláskoslovná podoba alternaci připouští�. Nebudeme se zde zabývat variantami infinitivní�ho tvaru typu prosit/prositi a moci/moct (variantní� koncovka), neboť jde o univerzální� variantnost českých sloves. Také variantní� infinitivy tvaru typu sprát/seprat (variantní� prefix) ponecháme stranou (varianty existují� u jednotlivých sloves a souvisejí� s přehodnocení�m kmenotvorného vokálu na kmenový, viz např. od-tí-0-t/ode-t-nou-t, ale roz-pj-a-l i roze-pj-a-l/roze-p-nu-l).6 3.1.1 Typ 1 Existují� dvě varianty infinitivu, které lze pokládat za synonymní�. U jednotlivých tvarů slovesných subparadigmat lze vždy určit, ke kterému infinitivu/lemmatu se mají� přiřadit. Každému lemmatu odpoví�dá a) kompletní� soubor tvarů a b) nekompletní� soubor tvarů. Pří�klady ukazuje tabulka 2. Tab. 2 ind. préz. imp. l-ové pasivní/slovesné subst. infinitiv věje věj vál vání vát vane vaň vanul vanutí vanout plaje/plá plaj plál plání plát plane plaň planul planutí planout – – sťal stětí stít setne setni setnul/setl setnutí setnout 3.1.2 Typ 2 Existují� dvě varianty infinitivu, které lze pokládat za synonymní�. U jednotlivých tvarů slovesných subparadigmat nelze někdy určit, ke kterému infinitivu/lemmatu se mají� přiřadit. Některé tvary lze na základě analogie morfologického systému češtiny řadit k oběma variantní�m lemmatům (podbarvené). Pří�klady ukazuje tabulka 3. 6  Ziková (2016) uvádí�, že alternace e/0 v prefixech slovesných tvarů nelze spojovat s potřebami výslovnosti, nýbrž souvisejí� s morfosyntaxí� a závisí� na morfologické interpretaci vokálu/slabičné sonory v následují�cí� slabice (viz např. roze-stř-í-t × roz-stříh-a-t, ode-př-í-t × od-přisáh-nou-t, ode-br-a-t × od-brzd-i-t, se-hn-a-t × s‑hní‑0‑t). Varianty se vyskytují� u sloves typu začít, u kterých byl kořenový vokál (nosovka) v důsledku hláskoslovného vývoje (denazalizace) přehodnocen na kmenový vokál. Také se okrajově objevují� u sloves .*[bdpsž] rát/.*[bdpsž]eru a .*ml[íe]t/.*melu. Uvedená slovesa mají� (v důsledku hláskoslovného vývoje – zániku/vokalizace jerů a metateze likvid) v tvarech od kmene prézentní�ho kořenový vokál nenulový a v tvarech od kmene infinitivní�ho kořenový vokál nulový. Je tedy možné, že dublety jsou u tvarů od kmene minulého důsledkem působení� analogie (přizpůsobení� podoby prefixu tvarům od kmene pří�tomného a naopak). V korpusech jsme v infinitivu zaznamenali pouze varianty u vulgární�ho slovesa (Někdo to totiž bude muset s odpuštěním , když se nebude hrát. Tohle si fakt někdo musí šeredně …) a okrajově i u sloves odebrat (Za vysvětlování doktorky, že je potřeba Nikymu mozkomíšní tekutina, jsem se zatajeným dechem četla rizika, která jsou spojená s tímto zákrokem. Dal by se tady vzorek krve a poslat ho do Německa na ty LTT testy?) a seprat (Hleďme, jak se stydí, a že ještě samou hanbou nepropad: vždyť kolik pecnů denně musí ten žráč a na čí účet, že si jenom tak pouští krev žilou? A dovedl se o to jak s ďáblem, tak s andělem …). PSJČ� uvádí� variantu smlít/smlet/semlít, SSJČ� pak sedrat/sdrát, seprat/sprát. 31 Klára OSOLSOBĚ Synonymní/variantní tvary infinitivu jako problém konzistentní lemmatizace Tab. 3 7 8 ind. préz. imp. l-ové pasivní/slovesné subst. infinitiv obleče obleč oblékl oblečen obléci oblékne oblékni oblékl/obléknul oblečen7 /obléknut obléknout chytí chyť chytil chycen chytit chytne chytni chytl/chytnul chycen8 /chytnut chytnout vymyslím vymysli vymyslel vymyšlen vymyslet vymyslím vymysli vymyslil vymyšlen vymyslit 3.1.3 Typ 3 Existují� dvě varianty infinitivu, které lze pokládat za synonymní�. U jednotlivých tvarů slovesných subparadigmat nelze nikdy určit, ke kterému infinitivu/lemmatu se mají� přiřadit. Variantní� i nevariantní� tvary lze na základě analogie morfologického systému češtiny řadit k oběma variantní�m lemmatům. Pří�klady ukazuje tabulka 4. Tab. 4 ind. préz. imp. l-ové pasivní/slovesné subst. infinitiv tlí/tleje tli/tlej tlel tlení tlít/tlet 3.1.4 Typ 4 Existují� dvě varianty infinitivu, které lze pokládat za synonymní�. K nim lze přiřadit pouze nevariantní� tvary. Pří�klady ukazuje tabulka 5. Tab. 5 ind. préz. imp. l-ové pasivní/slovesné subst. infinitiv ční čni čněl čnění čnít/čnět mele mel mlel mlet(ý) mlít/mlet 7  Zajisté je technicky vzato možné řadit tvary k lemmatům podle kmenotvorné pří�pony. Nicméně se domní�váme, že tento pří�stup odporuje jak tradiční�m popisům (mluvnice, slovní�ky, dosavadní� praxe automatických morfologických analyzátorů), tak úzu: Musíte dodržovat dress code? Neřekla bych. Na obrazovce jsem v modelech, které mám připravené speciálně na vysílání, takže nikdo neřeší, jak přijdu do práce . Dokážu se ale adekvátně situaci. „Panenky mám už ze sedmnácti zemí světa, třeba i z Ekvádoru, Egypta, Japonska, Finska, Ruska nebo Číny. Ty nové jsou už , starší musíme , než je vystavíme,“ poznamenala Marie Roháčková. Jsem poslušná. Když mi řekli, že se tak mám , jsem se. Akademická gramatika spisovné češtiny (Š�tí�cha et al. 2013, s. 473) se o rozdí�lu pasivní�ch pří�čestí� na -en a na -t od sloves, která kolí�sají� mezi tří�dami (1. a 2.), explicitně nezmiňuje. 8  Totéž platí� i pro slovesa, která kolí�sají� mezi typem prosit a tisknout. Přestože tato synonyma v mluvnicí�ch většinou nebývají� zmiňována (výjimkou je zmí�nka o kolí�sání� slovesa chytit/chytnout ve Š�tí�chově Akademické gramatice spisovné češtiny), zaznamenávají� je výkladové slovní�ky. Doklady z korpusu svědčí� o tom, že dosavadní� technické řešení� uměle oddělují�cí� dvě různá lemmata, přičemž např. tvary pasivní�ho pří�čestí� chycen.* jsou důsledně řazeny pod lemma chytit, není� v souladu s jazykovou intuicí�: Je tu příroda, člověk si u vody nad pruty odpočine od všeho a sem tam i rybu. ryby většinou rozdávám příbuzným, protože je nejím. 32 I ▪ KORPUS ▪ EMPIRIE ▪ MORFOLOGIE 4. Automatické nástroje K  analýze dat jsme použili automatický nástroj Morfio (Cvrček – Vondřička 2009) a nástroj Deriv (Š�merk 2009). Oba nástroje pracují� s korpusy,9 Deriv je naví�c propojen s elektronickými verzemi tištěných slovní�ků.10 Synonymii jsme ověřovali v tištěných slovní�cí�ch, v korpusu SYNv7 a ve webovém korpusu Araneum. Při analýze otevřené tří�dy sloves typu myslit/myslet jsme vycházeli z korpusu SYN2015. 5. Návrh zásad lemmatizace Vzhledem k tomu, že korpusová analýza ukazuje, že variantní�/synonymní� infinitivy se ani zdaleka netýkají� jen sloves, která jsou známá ze školských mluvnic, pokusí�me se stanovit pravidla lemmatizace pro automatické nástroje a podáme pokud možno úplný korpusově a slovní�kově podložený výčet lemmat. 5.1 Návrh k typu 1 Existují�-li dvě varianty infinitivu, které lze pokládat za synonymní� a u jednotlivých tvarů slovesných subparadigmat lze vždy určit, ke kterému infinitivu/lemmatu se mají� přiřadit, pak tam, kde každému lemmatu odpoví�dá a) kompletní� soubor tvarů, i tam, kde jednomu z lemmat odpoví�dá b) nekompletní� soubor tvarů, nechť je využit koncept ví�cenásobného lemmatu. K pří�padu a) patří� lemmata:11 {vát, vanout}, {vyvát, vyvanout}, {ovát, ovanout}, {zavát, zavanout}, {odvát, odvanout}, {přivát, přivanout}, {provát, provanout}, {vevát, vevanout}, {navát, navanout}, {svát, svanout}, {rozvát, rozvanout}, {vsout, vsunout},12 {(pro)slout, (pro)slynout}13 , {nadout, nadmout}, {vzdout/vzedmout}, {ožít, oživnout}, {snout,14 snovat}. Dvě různá slovesa jsou klít a klnout (komu) i zaklít (koho v co) a zaklnout, podobně plout a plynout, dout a dmout se, kout a kovat, zasnout15 a zasnít16 (se). 9  Morfio pracuje s korpusy SYN2005, SYN2010 a SYN2015. Deriv pracuje s webovými korpusy řady csTenTen. 10  Je možno přepnout na platformu DebDict. Ví�ce Osolsobě et al. 2009. 11  Tento seznam je uzavřený. Přechody/kolí�sání� mezi neproduktivní� 3. tří�dou slovesnou typ krýt a produktivní� 2. tří�dou slovesnou (popř. 3. tří�dou typem kupovat) jsou záležitostí� historického vývoje češtiny. Do seznamu nezařazujeme slovesa, která v synchronní�m úzu prezentovaném korpusy řady SYN nejsou doložena. Jedná se sloveso rout ve významu rvát (viz doklad z diakorp: neb jich bieše tady cěsta, bliz od té zdi toho města, přěd nímž boha umučili, v hlavu rujíc, v líce bili.) a trout ve významu otravovat (srov. Š�milauer 1972, s. 215). V pří�padě tvaru rout se jedná v korpusech řady SYN převážně o variantní� pravopis slova raut. Tvary jsou přiřazeny lemmatu routa a interpretovány jako tvary genitivu plurálu. Tvar trout je užit v angličtině (trout = angl. pstruh). 12  Dvě různá slovesa jsou sesout a sesunout, vysout a vysunout, zasout a zasunout. Infinitiv vsout je doložen pouze v SSJČ�, v synchronní�ch korpusech se nevyskytuje. Jeden tvar vztažitelný k infinitivu vsout je doložen v SYN v7: … vyřítila se dvě děvčata, současně se chtěla naráz prodrat skrz úzké dveře, se tam, a když se prorvaly ven, tak řvaly smíchy, … Doklady z korpusu Araneum jsou překlepy. 13  Infinitiv proslynout uvádí� SSJČ�, v synchronní�ch korpusech doložen není�, na internetu se doklady najdou. 14  V korpusu SYNv7 jsou tvary snout řazené k lemmatu snout/Vf.* vesměs propria (pří�jmení� Snout) nebo jejich části (název mužstva Lassie’s snout), popř. překlep (mezera naví�c: vlásky …). Doklady na užití� slovesa snout jsou ojedinělé: Už slova děti uprchlíkův v nás mohou jen temný čoud. 33 Klára OSOLSOBĚ Synonymní/variantní tvary infinitivu jako problém konzistentní lemmatizace K pří�padu15 b)16 patří� lemmata:17 {tít, tnout}, {odtít, odetnout}, {podtít, podetnout}, {přetít, přetnout}, {stít, setnout}, {roztít, rozetnout}, {vtít, vetnout}, {zatít, zatnout}, {načít, načnout}, {počít, počnout}, {začít, začnout}, {započít, započnout}, {vzít, vezmout},18 {opomenout, opominout, opomnět}, {pozapomenout, pozapomnět}, {připomenout, připomnět}, {rozvzpomenout, rozvzpomnět}, {vzpomenout, vzpomnět}, {vyvzpomenout, vyvzpomnět}, {zapomenout, zapomnět}, {plát, planout}, {vzplát, vzplanout}, {zaplát, zaplanout}. Sporné je, zda ve slovní�ku automatického analyzátoru zaznamenávat pří�pady typu žít a žnout, konkrétně prefigované varianty nažít a nažnout, sežít a sežnout, a to s ohledem na homonymii se slovesem žít ve významu ‚být naživu‘.19 Velmi problematické se jeví� také zachycení� slovesa ro(z)žnout/rozžít (na Moravě běžně uží�vané ve významu rozsvítit),20 a to jednak s ohledem na neustálenou grafickou podobu, jednak s ohledem na homonymii tvaru imperativu rožni s tvary substantiva rožeň. 5.2 Návrh k typu 2 Existují�-li dvě varianty infinitivu, které lze pokládat za synonymní� a u jednotlivých tvarů slovesných subparadigmat nelze někdy určit, ke kterému infinitivu/lemmatu se mají� přiřadit (některé tvary lze na základě analogie morfologického systému češtiny řadit k oběma variantní�m lemmatům), pak nechť je využit koncept ví�cenásobného lemmatu. Ví�cenásobná lemmata nechť mají� slovesa kolí�sají�cí� mezi typy prosit – (trpět) – sázet: Internetová jazyková pří�ručka k nim uvádí�, cituji: „Ve 4. slovesné tří�dě najdeme několik sloves, která kolí�sají� mezi vzory ,prosit‘ a ,sázet‘. Patří� k nim frekventovaná slovesa bydlit – bydlet, musit – muset, myslit – myslet, z méně uží�vaných pak kvílit – kvílet, šílit – šílet a ha- nit – hanět. Historicky k nim můžeme řadit i slovesa další�, mj. bujit – bujet, lačnit – lačnět, truchlit – truchlet.“ 15  Podle SSJČ� má sloveso zasnout dva významy, a sice 1) ,usnout‘ a 2) ,upadnout do snění�‘. U slovesa zasnít se oba významy objevují�. V současném úzu prezentovaném korpusy řady SYN však v pří�padě tvarů od lemmatu zasnít naprosto převažují� tvary s reflexivní�m se (viz také výklad SSČ�), okrajově se pak vyskytují� ještě i tvary zasnít si. Sloveso zasnout není� reflexivní�. Nereflexivní� doklady u slovesa zasnít v SSJČ� jsou převážně z literatury 19. stol. V korpusu SYN jsme objevili ojedinělé doklady nereflexivní�ho užití�: „To by bylo fajn,“ Čáslava nad vidinou startu na světovém šampionátu. „Obrázky nás probudí neb , už nevím dál … tak zhasni!“ „Snad se mi to podaří,“ jednadvacetiletá Monika Řeháková. 16  V SYNv7 jsou potenciálně homonymní� tvary zasni, zasněme, zasněte desambiguovány oběma lemmaty, tedy zasnít nebo zasnout. Ve všech pří�padech jde ovšem o tvary slovesa zasnít se, desambiguace by se dala zpřesnit právě použití�m pravidel pro výskyt zvratného se. 17  Tento seznam je uzavřený. 2. tří�da vzor začít je uzavřená tří�da sloves. Kromě sloves 2. tří�dy typu začít řadí�me do tohoto seznamu sloveso plát/plánout a jeho prefigované varianty. Sloveso je zvláštní� tí�m, že kromě paralelní�ch tvarů podle 3. tří�dy typu krýt a 2. tří�dy, viz typ 1 pří�pad a), má naví�c ještě tvary od kmene pří�tomného podle 5. tří�dy typu dělat (tedy např. Do samoty mi jako chudokrevný měsíc. Vlá tvá hříva a svíce a dohořívá až dohoří). Bohužel většina tvarů .*plám, .*pláš, .*plá, .*pláme, .*pláte, jsou překlepy. 18  Doklady tohoto tvaru se v korpusu SYNv7 nevyskytují�, objevují� se ovšem ve webovém korpusu Aranea: „Můžu si kamaše?“ 19  V pří�padě infinitivu nažít jde ve většině dokladů v SYNv7 o sloveso žít ve významu ,zaží�t‘: Na druhou stranu je takový autorský typ sběratel, takže si určité věci potřebuje . Pouze jeden doklad je na význam nažnout: „Dobře,“ přikývne, „ale musíme jít trávu.“ V pří�padě inifinitivu sežít jde v jednom pří�padě o sloveso sežnout: „Šla ten kousek meze, co máme ještě u lesa,“ … Ve dvou pří�padech jde o překlep. 20  SYNv7: Okamura strávil dětství v Bystřici. Dodnes proto říká „žufánek a “. 34 I ▪ KORPUS ▪ EMPIRIE ▪ MORFOLOGIE Rozsáhlé seznamy synonymní�ch i nesynonymní�ch dvojic sloves založené na analýze korpusu csTenTen12 sestavila N. Volková (2017). Tyto seznamy se opí�rají� o analýzu dat z brněnského morfologického slovní�ku (Osolsobě 1996), který je bohužel značně závislý na zdrojí�ch, z nichž vzešel (heslář SSJČ�), a obsahuje velké množství� sloves, která v synchronní�m úzu nejsou doložena. Z toho důvodu jsme se rozhodli pro analýzu dat z korpusu SYN2015, a to prostřednictví�m nástroje Morfio. Z automaticky vygenerovaného seznamu dvojic jsme ruční� analýzou zí�skali přehled o slovesech liší�cí�ch se v infinitivu kmenotvorným [ieě]. Rozdělili jsme je na l) pří�pady synonymní�ch lemmat a 2) pří�pady dvou odlišných sloves. Slovesa první� skupiny nechť mají� ví�cenásobné lemma:21 {bydlit, bydlet}, {dobydlit, dobyd­let}, {obydlit, obydlet}, {odbydlit, odbydlet}, {pobydlit, pobydlet}, {probydlit, probydlet}, {vybydlit, vybydlet}, {zabydlit, zabydlet}, {myslit, myslet}, {namyslit, namyslet}, {domyslit, domys­let}, {pomyslit, pomyslet}, {promyslit, promyslet}, {přimyslit, přimyslet}, {smyslit, smyslet}, {vymyslit, vymyslet}, {zamyslit, zamyslet}, {musit, muset}, {bujit, bujet}, {blyštit, blyštět}, {hanit, hanět}, {chraptit, chraptět}, {chroptit, chroptět}, {kabonit, kabonět}, {kapalnit, kapalnět}, {krabatit, krabatět}, {kulatit, kulatět}, {kvílit, kvílet}, {lačnit, lačnět}, {nadstavit, nadstavět}, {ošklivit, ošklivět22 }, {oželit, oželet}, {pohanit, pohanět}, {posmutnit, posmutnět}, {potemnit, potemnět}, {poulit, poulet}, {prýštit, prýštět}, {pučit,23 pučet}, {rozbulit, rozbulet}, {rozesmutnit, rozesmutnět}, {rozezvučit, rozezvučet}, {rozkošatit, rozkošatět}, {rozradostnit, rozradostnět}, {řeřavit, řeřavět}, {svědit, svědět}, {svraštit, svraštět}, {svrbit, svrbět}, {šílit, šílet}, {škaredit, škaredět}, {špičatit, špičatět}, {špinavit,24 špinavět}, {temnit, temnět}, {truchlit, truchlet}, {utvářit, utvářet}, {vězit, vězet}, {vláčit, vláčet}, {vybulit, vybulet}, {vyhladovit, vyhladovět}, {vyhovit, vyhovět}, {vykoulit, vykoulet}, {vypučit, vypučet}, {vytvářit, vytvářet}, {vyzdravit, vyzdravět}, {zabahnit, zabahnět}, {zachroptit, zachroptět}, {zakvílit, zakvílet}, {zašpičatit, zašpičatět}, {zašustit, zašustět}, {zatemnit, zatemnět}, {zavrtit, zavrtět}, {zešílit, zešílet}, {zšeřit, zšeřet}, {ztemnit, ztemnět}, {zvučit, zvučet}. Slovesa druhé skupiny nechť mají� lemmata dvě:25 bělit a bělet (se), divočit a divočet, dostavit (se) a dostavět, dovážit a dovážet, hrbatit a hrbatět, hutnit a hutnět, chybit a chybět, jasnit (se) a jasnět, klidnit a klidnět, nastavit a nastavět, navážit a navážet, obestavit a obestavět, odšumit a odšumět, odvážit (se) a odvážet, otěhotnit a otěhotnět, otupit a otupět, ozdravit a ozdravět, ozřejmit a ozřejmět, pochybit a pochybět, praštit a praštět, proděravit a proděravět, přestavit a přestavět, převážit a převážet, přistavit a přistavět, přivážit a přivážet, rozestavit a rozestavět, rozněžnit (se) a rozněžnět, rozvážit a rozvážet, stavit (se) a stavět, svářit (se) a svářet, světlit a světlet, trčit a trčet, tvářit (se) a tvářet, vestavit a vestavět, vrásnit a vrásnět, vystavit a vystavět, vytrčit a vytrčet, vyvážit a vyvážet, zastavit a zastavět, zavážit a zavážet, zbělit a zbělet, zbídačit a zbídačet, zbystřit a zbystřet, zcivilnit a zcivilnět, zdomácnit a zdomácnět, zdrsnit a zdrsnět, zduchovnit a zduchovnět, zdůvěrnit a zdůvěrnět, zelenit a zelenět, 21  Tento seznam je z principu otevřený, měl by ovšem zachytit slovesa, která se v úzu prezentovaném korpusy skutečně objevují�. 22  V korpusu SYNv7 jsou doklady jak na význam ,mí�t v ošklivosti co‘ (A přesto si to čím dál víc …), tak na význam ,stávat se ošklivým‘ (Lidé se věkem ohýbali a  …). 23  Bohužel je většina dokladů tvarů puč[ií].* užita ve významu půjčit. 24  Lemma špinavět je přiřazeno tvarům špinavěj, ve všech pří�padech jde o překlepy (špinavej, špinavější). 25  Tato skupina představuje velký problém pro automatickou morfologickou analýzu, a to s ohledem na homonymii všech tvarů kromě infinitivu a l-ového pří�čestí�. Výsledky desambiguace nejsou uspokojivé. Významový rozdí�l mezi deadjektivní�mi slovesy bývá rozdí�l mezi stávat se jakým/ činit jakým. Tento význam však v úzu bývá někdy potlačen (viz výše). Další� pozorovaný významový rozdí�l je +/– pří�tomnost externí�ho činitele děje – např. znervóznit a znervóznět. 35 Klára OSOLSOBĚ Synonymní/variantní tvary infinitivu jako problém konzistentní lemmatizace zestručnit a zestručnět, zesvětlit a zesvětlet, zesvětštit a zesvětštět, zešeřit a zešeřet, zešikmit a  zešikmět, zeškaredit a  zeškaredět, zeštíhlit a  zeštíhlet, zevšednit a  zevšednět, zhmotnit a zhmotnět, zhutnit a zhutnět, zchromit a zchromět, zintenzívnit a zintenzívnět, zjasnit a zjasnět, zjemnit a zjemnět, zjinačit a zjinačet, zkapalnit a zkapalnět, zklidnit a zklidnět, zkrabatit a zkrabatět, zkrásnit a zkrásnět, zkrvavit a zkrvavět, zkudrnatit a zkudrnatět, zlhostejnit a zlhostejnět, zlidštit a zlidštět, zmalátnit a zmalátnět, zmatnit a zmatnět, zmléčnit a zmléčnět, zmocnit a zmocnět, zmohutnit a zmohutnět, zmrtvit a zmrtvět, zmrzačit a zmrzačet, zmužnit a zmužnět, znecitlivit a znecitlivět, znehybnit a znehybnět, znejasnit a znejasnět, znejistit a znejistět, zneklidnit a zneklidnět, znervóznit a znervóznět, zněžnit a zněžnět, zobecnit a zobecnět, zostřit a zostřet, zošklivit a zošklivět, zpevnit a zpevnět, zplacatit a zplacatět, zploštit a zploštět, zpohodlnit a zpohodlnět, zpomalit a zpomalet, zpovrchnit a zpovrchnět, zpozornit a zpozornět, zpravidelnit a zpravidelnět, zprotivit a zprotivět, zprůhlednit a zprůhlednět, zprůsvitnit a zprůsvitnět, zprůzračnit a zprůzračnět, zpružnit a zpružnět, zpřesnit a zpřesnět, zpřísnit a zpřísnět, zruměnit a zruměnět, ztitěrnit a ztitěrnět, ztučnit a ztučnět, ztupit a ztupět, zubatit a zubatět, zuhelnatit a zuhelnatět, zútulnit a zútulnět, zvěcnit a zvěcnět, zveličit a zveličet, zveřejnit a zveřejnět, zvětšit a zvetšet, zvláčnit a zvláčnět, zvlčit a zvlčet, zvnitřnit a zvnitřnět, zvroucnit a zvroucnět, zvýraznit a zvýraznět, zvýznamnit a zvýznamnět, zženštit a zženštět. Patrným přegenerování�m morfologického slovní�ku MorfFlex (Hajič – Hlaváčová 2013) jsou lemmata navelit, zamlžet, zaokrouhlet, zavazit. Ví�cenásobná lemmata nechť mají� slovesa kolí�sají�cí� mezi typy nést/péci/umřít – tisknout:26 {vybříst, vybřednout}, {zabříst, zabřednout}, {zábst, zábnout}, {zazábst, zazábnout}, {vlást,27 vládnout}, {naklást, nakladnout28 }, {krást, kradnout29 }, {ukrást, ukradnout}, {vykrást, vy- kradnout30 }, {rozkrást, rozkradnout31 }, {okrást, okradnout32 }, {vkrást, vkradnout33 }, {přikrást, přikradnout34 }, {zkrást, zkradnout35 }, {propást, propásnout}, {mást, mátnout}, {pomást, pomátnout}, {zmást, zmátnout}, {nalézt, naleznout}, {vynalézt, vynaleznout}, {odvynalézt, odvynaleznout}, {znovuvynalézt, znovuvynaleznout}, {hrýzt, hryznout}, {odhrýzt, odhryznout}, {podhrýzt, podhryznout}, {zahrýzt, zahryznout}, {houst, hudnout36 }, {zahoust, zahudnout37 }, 26  Jedná se o uzavřený seznam sloves. Přechody mezi neproduktivní�mi typy 1. tří�dy (nést, péci) a 2. tří�dou (typem tisknout) jsou popsány v českých mluvnicí�ch (Komárek et al. 1986; Š�tí�cha et al. 2013). Přesto nejsou dosud beze zbytku zachyceny automatickými morfologickými slovní�ky. V korpusu SYNv7, ale napří�klad i ve webových korpusech se okrajově vyskytují� jak tvary velmi archaické (např. vlást), ale i velmi progresivní� (např. kradnout, zmohnout, rostnout, hnětnout, …). S ohledem na budoucí� údržbu slovní�ku je třeba zvážit, zda potenciální� tvary nepřegenerovat. 27  Doklady z korpusu SYNv7: … Zas budou příšery kurvy horší než hovno ze sraček uplácaj si tvář svobodymilovníků … „Řekům sluší nad barbary ,“ dodává, protože „barbar a otrok jest od přírody totéž.“ 28  Doloženo pouze v korpusu csTenTen: Vím, je to jen červík, ale vážně mi nedělá velkou radost to, že to mohlo larvy … 29  Takový člověk určitě nebude … 30  Favorita stačil 24letý lapka na Klíši … 31  … za to my nemůžeme, že náš stát politici nechali , … 32  T-mobile se mě snaží . 33  Jin a jang však mají v sobě tu vlastnost, že se umí do nás pomalu, … 34  … jen slouhové a služebníčci, jimž vrchnost dovolí si něco … 35  Než aby si to alespoň museli , tak jim to dejte. 36  V korpusu SYNv7 je jeden doklad: Ti budou o zradě. Ve druhém pří�padě jde o překlep: Dietologové je nedoporučují jíst ve velkých dávkách, když se snažíme … 37  V korpusu SYNv7 je jeden doklad: … co by si mohli v hospodě … 36 I ▪ KORPUS ▪ EMPIRIE ▪ MORFOLOGIE {vmést, vmetnout38 }, {rozkvést, rozkvetnout39 }, {vykvést, vykvetnout40 }, {růst, rostnout41 }, {srůst, srostnout42 }, {hníst, hnětnout43 }, {prohníst, prohnětnout44 }, {vyhníst, vyhnětnout45 }, {spočíst, spočtnout46 }, {započíst, započtnout47 }, {otřást, otřásnout48 }, {setřást, setřásnout49 }, {proplést, proplétnout50 }, {říct, řeknout}, {doříct, dořeknout}, {odříct, odřeknout}, {podříct, podřeknout}, {zříct, zřeknout}, {doobléci, doobléknout}, {dovléci, dovléknout}, {navléci, navléknout}, {obléci, obléknout}, {odvléci, odvléknout}, {podvléci, podvléknout}, {povléci, povléknout}, {provléci, provléknout}, {přivléci, přivléknout}, {převléci, převléknout}, {přivléci, přivléknout}, {svléci, svléknout}, {vléci, vléknout51 }, {vyvléci, vyvléknout}, {vysvléci, vysvléknout}, {zavléci, zavléknout}, {stříci, střehnout52 }, {dosíci, dosáhnout}, {zmoci, zmohnout53 }, {tlouci, tlouknout}, {natlouci, natlouknout}, {otlouci, otlouknout}, {přitlouci, přitlouknout}, {stlouci, stlouknout}, {vtlouci, vtlouknout}, {vytlouci, vytlouknout}, {zatlouci, zatlouknout}, {ztlouci, ztlouknout}, {otéci, oteknout}, {utéci, uteknout}, {vztéci,54 vzteknout}, {ztéci, zteknout55 }, {posíci, poseknout56 }, {odemčít, odemknout}, {uzamčít, uzamknout}, {zamčít, zamknout}. 38  V korpusu SYNv7 jsou dva doklady: Zručně pracovali pendreky a já jsem dostal chuť jim do štítů: I vás vezme čert! Leckterý z mužů, kteří sem za mnou přijdou, může mu plivnout, do tváře hanbu jeho ženy, a tuto ošklivou slinu nesetře do nejdelší smrti. 39  Doloženo pouze v korpusu csTenTen: Závěrečnej verš „růže musí / a ne uvadnout“ to celý zabíjí, protože takhle může rýmovat akorát zamilovanej deváťák, ne čtyřicetiletej rocker. 40  Doloženo pouze v korpusu csTenTen: Prima nechala jarní programové schéma ve znamení novinek. 41  Doloženo pouze v korpusu csTenTen: Mám děcko a vidím ho denně celý den . 42  Doloženo pouze v korpusu csTenTen: … tedki musi kliční kost a bude to dobrý, … 43  Pouze jediný doklad v SYNv7: Když věděla, že bratři na víkend přijedou, začala už dny předtím vařit polévku, těsto, ze spíže snášet sklenice se zavařeninou, které držela proti světlu a otáčela a obracela. V korpusu Araneum je jich několik. 44  Doklad z korpusu Araneum: Dáme na 48 hodin odležet do ledničky při teplotě 4–6 °C (můžeme během oněch 48 hodin maso jednou „“). 45  Doklad z korpusu Araneum: do bochánku. Přes noc těsto v ledničce odpočívá. 46  Dokladz korpusucsTenTen:Adsl.Platím200,-Kčměsícmámgarantovanoupřidělenourychlost8kB./s a žádnej podělanej limit 10GB a jednoduchým počtem si můžete , kolik jsem schopen za 24h stáhnout, jasně, není to tak rychlé, ale oproti adsl je to zadarmo a občas možná rychlejší. 47  Doklad z korpusu csTenTen: Bohužel v osobákách už žádná V8ka není, Taurus má jen V6 a Viktorka se už nedělá. Ještě nutno Lincolna a jeho Navigator. 48  Doklad z korpusu csTenTen: Přidává dalších osm událostí, která otřásly, nebo mohly světem mezi lety 2000–2008. 49  Doklad z korpusu csTenTen: Zlověstný meloun si vysedává na vrcholku hory a vaším úkolem bude ho . 50  Doklad z korpusu csTenTen: … jediný, co pro ní můžu udělat, je vzít jí za ruku si s ní prsty a možná se pokusit je trochu zahřát. 51  Tvar vléknout je vždy překlep (mezera naví�c). 52  Slovesa stříci/střehnout se a střežit (se) nejsou ve všech užití�ch synonymní�. V morfologickém slovní�ku by tudí�ž neměly být přegenerovány tvary střežen.* k lemmatu {stříci, střehnout, …} podle {zmoci, zmohnout, zmožený}. Tvary střežen.* nechť patří� k lemmatu {střežit, střežený}, k lemmatu {stříci, střehnout, střehnutý} by měly patřit pouze tvary střehnut.*, které ovšem v úzu prezentovaném korpusy doloženy nejsou. Verbální� substantivum střežení (se) čeho se ovšem vztahuje ke slovesu {stříci, střehnout}, kdežto střežení koho se vztahuje ke slovesu střežit. Chybou slovní�ku Morfflex je interpretace imperativu střez (se), střez[mt]e (se) lemmatem střežit. Tvarem imperativu od lemmatu střežit je střež. Tvar imperativu střez je tvarem slovesa stříci (se), viz Internetová jazyková pří�ručka (http://prirucka.ujc.cas.cz/?slovo=st%C5%99ez). 53  Doklady jsou pouze ve webovém korpusu Araneum: Proto doufám, že se najde dostatek zodpovědných lidí, které případné osoby, jenž alkohol a budou mít potřebu provokovat a dělat bordel, pošlou do patřičných míst a nedopustí, abychom pošpinili důvěru v naše fandění! 37 Klára OSOLSOBĚ Synonymní/variantní tvary infinitivu jako problém konzistentní lemmatizace 545556 Pravidelné tvary od lemmatu {.*hrýzt, .*hrzynout} jsou .*hryz(^[aá]).*/.*hryzn.* (Na, na, co valacha, ty bagáne? Nesmite tabak hryzat jak chleba, nebo ho hned a bude na nic. … zase jsem se vracel, výčitkami svědomí …), a nikoli .*hryže.*/.*hryz[áa].*, patří�cí� k lemmatu .*hryzat. Infinitivy s[íé]ci a seknout a většina prefigovaných odvozenin nejsou úplnými synonymy. Pokud ovšem zavedeme zásadu přiřazení� tvarů l-ových pří�čestí� .*sekl.* lemmatu .*s[íé]ci a  tvarů .*seknul.* lemmatu .*seknout, výsledky lemmatizace nebudou odpoví�dat intuici rodi­lého mluvčí�ho. Intuici neodpoví�dá ani nynější� stav desambiguace, kdy je přiřazení� dvou různých lemmat tvarům sekl.* dí�lem statistiky.57 Tvary jednoho lemmatu (.*nout) jsou v korpusu SYNv7 doloženy od sloves ozábnout, vyzábnout, dovládnout, ovládnout, povládnout, převládnout, spoluvládnout, zavládnout, zvládnout, nakrást, pokrást, odkrást, dokrást, prokrást, zakrást, překrást, doukrást, prohryznout, přehryznout, rozhryznout, vyhryznout, uhryznout, i další�ch sloves 1. tří�dy vzoru nést neuvedených výše, a dále pak rozvléc[it], uvléc[it], nařknout, prořeknout se, přeřeknout se, zařeknout se, uřknout, vyřknout, postřehnout, i další�ch sloves 1. tří�dy vzoru péci neuvedených výše, ani od osáhnout,58 obsáhnout, přisáhnout, sáhnout, vsáhnout, zasáhnout, odpřisáhnout, zapřisáhnout. Ví�cenásobná lemmata nechť mají� synonymní� slovesa s tvary podle typu prosit i tisknout:59 {chytit, chytnout}, {podchytit, podchytnout}, {přichytit, přichytnout}, {uchytit, uchytnout}, {zachytit, zachytnout}, {odchlípit, odchlípnout}, {rozchlípit, rozchlípnout}, {rozštípit, rozštípnout}, {oblbit, oblbnout}, {rozglábit, rozglábnout}, {nachladit, nachladnout}, {zatřpytit, zatřpytnout}, {zhasit, zhasnout}, {obstoupit, obstoupnout}, {odstoupit, odstoupnout}. Teoreticky by bylo možné mí�t v těchto pří�padech lemmata dvě. Bylo by ovšem třeba důsledně dodržet pravidlo, podle kterého by tvary na .*nut(ý) patřily k lemmatu {.*nout, .*nutý} a tvary .*[eě]n(ý) k lemmatu {.*it, .*[eě]ný}60 . Domní�váme se ovšem, že jde-li o kolí�sání� mezi konjugační�mi typy, pak je z hlediska analogie s pří�pady jako oblečen(ý)/obléknut(ý) 54  Doloženo pouze v korpusu csTenTen: … ale v příslovích se všelijaké archaismy udržují rýmem velmi dlouho. V dnešní době se už nadobro vymizelo a máme jen vzteknouti se, … 55  Doloženo pouze v korpusu csTenTen: Dá se silničně třeba Milešovka? 56  Infinitiv poseknout je doložen pouze v korpusu Araneum: Protože po neděli odjíždíme, tak jsme museli trávu a to bylo něco. 57  A my s dědečkem právě sekli /seknout/VpMP---XR-AA--1 trávu. … sníh uklízeli, sekli /síci/VpMP---XR-AA--- trávu, hrabali listí, … 58  Jediný relevantní� doklad v korpusu SYNv7 je: Očekáváme, že hráčům přinese zkvalitnění herních činností a také si sami to, když budou sami v cizím prostředí. Ve všech další�ch dokladech se jedná o překlepy (většinou vynechané pí�smeno, takže ve skutečnosti se jedná o tvary slovesa dosáhnout). 59  Tento seznam by měl být uzavřený. Akademická gramatika spisovné češtiny (Š�tí�cha et al. 2013, s. 486) uvádí� pouze sloveso chytit/chytnout. Slovní�ky (předevší�m SSJČ�) jich uvádějí� ví�ce. Většinou se v pří�padě pří�buzných sloves s tvary podle prosit a tisknout jedná o dvě různá významově odlišná slovesa. Synonymní�ch sloves je poměrně málo. Synonymie patrně souvisí� s tí�m, že slovesné kořeny označují� děj, který probí�há v okamžiku, takže je potlačen rozdí�l způsobu slovesného děje (momentánní� × nemomentánní�) v češtině často vyjadřovaný právě rozdí�lem mezi 2. a 4. tří�dou slovesnou. Podobně ojedinělými jsou synonymní� dvojice tančit a tancovat, soustružit a soustruhovat (viz Š�losar 1981, s. 58). 60  Akademická gramatika spisovné češtiny (Š�tí�cha et al. 2013, s. 486) uvádí� ke slovesu chytit/chytnout: „Trpné pří�čestí� se tvoří� výhradně podle vzoru prosit (viz Tvoření� neurčitých slovesných tvarů).“ V korpusu SYNv7 jsou doloženy jen dlouhé/adjektivní� tvary chytnutý (Myslíte si, že byly penalty špatně kopnuté nebo dobře ?). 38 I ▪ KORPUS ▪ EMPIRIE ▪ MORFOLOGIE ví�cenásobné lemma pří�padnější�m řešení�m. Naopak v okrajových pří�padech synonymní�ch dvojice typu tančit/tancovat a soustružit/soustruhovat vykazují� obě sady tvarů takovou mí�ru autonomie (dané výraznou kmenotvornou pří�ponou), že je u nich možné nadále ponechat lemmata dvě, přestože jde o synonymní� slovesa. 5.3 Návrh k typu 3 Existují�-li dvě varianty infinitivu, které lze pokládat za synonymní� a u jednotlivých tvarů slovesných subparadigmat nelze nikdy určit, ke kterému infinitivu/lemmatu se mají� přiřadit (variantní� i  nevariantní� tvary lze na základě analogie morfologického systému češti­ny řadit k oběma variantní�m lemmatům), pak nechť je využit koncept ví�cenásobného lemmatu. Slovesa kolí�sají�cí� mezi typy krýt – prosit/trpět/sázet s variantní�m infinitivem na [íeě]t:61 {tlít, tlet}, {zetlít, zetlet}, {chvít, chvět}, {zachvít, zachvět}, {rozechvít, rozechvět}, {prochvít, prochvět}, {pozachvít, pozachvět}, {dochvít, dochvět}, {s(t)kvít,62 s(t)květ}, {zas(t)kvít, zas(t)květ}. Nepravidelná slovesa: {chtít, chtět}, {jíst, jest63 }, {najíst, najest}, {dojíst, dojest64 }, {pojíst, pojest}, {přejíst, přejest65 }, {zajíst, zajest}. Z mluveného úzu jsou známy i další� prefigované varianty. Lze je nají�t na internetu (projest,66 ujest,67 vyjest68 ). Č�asté jsou ovšem pří�pady, kdy různě graficky pojaté tvary mají� význam souvisejí�cí� se slovesem jet. 5.4 Typ 4 Existují�-li dvě varianty infinitivu, které lze pokládat za synonymní� a které jsou jedinými variantní�mi tvary, k nimž lze přiřadit pouze nevariantní� tvary, pak nechť je využit koncept ví�cenásobného lemmatu. 61  Tento seznam by měl být uzavřený. Kromě uvedených sloves by k tomuto typu patřilo vulgární� sloveso, které kolí�sá mezi typem krýt – trpět – dělat, a má tudí�ž čtyři variantní� tvary infinitivu: {chčít, ščít, chcát, scát}, {vychčít, vyščít, vychcat, vyscat}, …. 62  V korpusech řady SYN se tyto substandardní� tvary okrajově vyskytují� a jsou lemmatizovány lemmatem skvět. 63  Substandardní� infinitiv je homonymní� s archaickým tvarem 3. osoby indikativu prézentu aktiva slovesa být. V korpusu SYNv7 se doklady vyskytují�: Myslela, že budeme šišky, a zatím jíme zemáky. Jsou lemmatizovány chybně jako tvary slovesa být. 64  Tvary jsou doloženy ve webovém korpusu řady Araneum. Doklady svědčí� pro substandardní� infinitiv slovesa dojíst (K tomu pochopitelne uz v rodine zazita hlaska: „To se musi “, kterou babicka aplikuje vzdy, kdyz ji neco zbyva…), ale i pro chybně graficky zaznamenané substantivum dojezd (… ale benzín mě vůbec v hadičce neproudí přitom hlavu a vše co k tomu patří jsem o pucoval nevíte co stím díkes a dobrej všem …). 65  Tvary jsou doloženy ve webovém korpusu řady Araneum: „Za chvíli bude oběd, takže se nesmíš moc , abys obědval.“ 66  Má problém závislost na jídle a chlastu. Zkoušela sis s nim promluvit? Nemá zájem se změnit, kam až se chce na dva metraky nebo pres? 67  … mohla jsem se rybích salátů … 68  tak jsem včera byl tu šelepku za pár peněz a musím říct, že dobrý, dost dobrý, za cenu dvou menu a dvou pivíček pecka. 39 Klára OSOLSOBĚ Synonymní/variantní tvary infinitivu jako problém konzistentní lemmatizace Do této skupiny patří�: (a) slovesa typu trpět/sázet s variantní�m infinitivema na [íě]t:69 {bdít, bdět}, {bzdít, bzdět}, {čnít, čnět}, {čpít, čpět}, {doznít, doznět}, {hřmít, hřmět}, {lpít, lpět}, {od(e)znít, od(e)znět}, {pomnít, pomnět}, {proznít, proznět}, {rdít, rdět}, {rozeznít, rozeznět}, {setmít, setmět}, {souznít, souznět}, {tkvít, tkvět}, {tmít, tmět}, {ulpít, ulpět}, {utkvít, utkvět}, {vyčpít, vyčpět}, {vyznít, vyznět}, {zardít, zardět}, {zahřmít, zahřmět}, {zatmít, zatmět}, {zaznít, zaznět}, {znít, znět}, popří�padě další� prefigované varianty. V korpusu SYNv7 jsou doloženy i další� lokální� varianty jako napří�klad: {odpovědít, odpovědět}, {ubzdít, ubzdět}, {vědít, vědět}. (b) Slovesa typu krýt s variantní�m infinitivem na [íeě]t:70 {klít, klet71 }, {plít,72 plet}, {proklít, proklet73 }, {odít, odět74 }, {podít, podět75 }, {sít, set76 }, {zaklít, zaklet77 }, {zít,78 zet79 }. (c) Slovesa typu umřít s variantní�m infinitivem na [íeě]t:80 {mlít, mlet}, {semlít, semlet}, {umlít, umlet}, {podemlít, podemlet}, {rozemlít, rozemlet}, {namlít, namlet}, {vymlít, vymlet}, {omlít, omlet}, {domlít, domlet}, {přemlít, přemlet}, {zamlít, zamlet}, {promlít, promlet}, {odemlít, odemlet}, {předemlít, předemlet}, {zmlít, zmlet}, {přimlít, přimlet}, {mlít, mlet}, {mlít, mlet}, {pomlít, pomlet}. 69  Tento seznam by měl být uzavřený. 70  Tento seznam je uzavřený. 71  Č�ást dokladů jsou správně interpretované tvary pasivní�ho pří�čestí�, část jsou nerozpoznané variantní� infinitivy interpretované mylně stejně a část jsou rozdělená slova. (… budiž ! … Já teď kleju tak, jak jsem si nikdy nemyslil, že budu někdy . Vše budeme ladit nímu mistrovství světa …). 72  Menší� část dokladů jsou pří�pady homonymní�ho lemmatu plít s významem plivat: Svíčky jak nahrbení skřítci těží tu hebký noční klid rubají tiše do všech stran pod nohy sobě budou … Sám Antonín Václavík byl rodákem luhačovickým a připomíná, že v jeho dětství nebylo dovoleno nebo močit do studánky či řeky. V jistých kruzích patří k dobrému tónu se s dalajlámou vyfotografovat, v jiných zas na něj a lísat se k Číně. K této interpretaci samozřejmě variantní� infinitiv plet vztáhnout nelze. 73  Většina dokladů jsou tvary pasivní�ho pří�čestí� správně rozpoznané automatickou morfolgickou analýzou. Najdou se ovšem i tvary infinitivu: Na jevišti tak ožije příběh žen, které uměly pomoci a léčit, ale i uřknout a . I ty jsou interpretovány jako tvary pasivní�ho participia. Naopak tvary zaklet jsou v korpusu SYN v7 ví�ce méně všechny pří�pady pasiva, ačkoliv infinitiv nelze vyloučit. 74  Tvar je homonymní� s tvarem pasivní�ho participia: „A tak jako blesk z čistého nebe, či spíše z modrého Atlantiku, přišel rozkaz, že mám složit svých pět švestek, parádní modř a být připraven k transportu do San Franciska!“ ale … Gudea je do černé tuniky … 75  Protože nebylo jasné, kam se vlastně mohli , prohledávali policisté okolí Jáchymova … 76  Doklady jsou vesměs desambiguovány chybně a je jich poměrně málo (většina dokladů je buď na tvar čí�slovky sto, nebo substantivum set). Přesto se variantní� infinitivy vyskytují�: Stroj byl ale přepracován, takže je univerzální a může jak do zpracované tak nezpracované půdy. Málo kdy se v tuhle dobu podaří, abychom mohli . Výsevní ústrojí je mechanické (lze mák i kukuřici) distribuce osiva je pneumatická. 77  Až na jediný (Tak aš pudete do stráně a začne to bejt na zádech těšky, tak musite pořádně , vono to udělá s rance hop a budete vidět, že pudete jako prázdny.) jsou doklady v korpusu SYNv7 tvary pasivní�ho pří�čestí�. 78  O variantě zít/zet svědčí� doklady z korpusu SYNv7 z Dení�ku Bohemia (např. Celé léto bude zít prázdnotou.). Akademická gramatika spisovné češtiny (Š�tí�cha et al. 2013, s. 481), řadí� sloveso zet ke slovesům „bez alternace samohlásky v tvarotvorném základu“ (spolu se slovesy pět, spět). Automatická analýza tvar zít řadí� k nerozpoznaným tvarům. 79  Řekl bych, že bude akorát prázdnotou. 80  Tento seznam je uzavřený. 40 I ▪ KORPUS ▪ EMPIRIE ▪ MORFOLOGIE 6. Závěr Jední�m z kroků automatické morfologické analýzy uží�vané např. k tagování� velkých korpusů je lemmatizace. V dosavadní� praxi jsou výsledky automatické morfologické analýzy nekonzistentní� v pří�padě, že základní� tvar/lemma je variantní� (má ví�ce podob). Velmi komplikovaná je lemmatizace sloves, jejichž tvarosloví� je z principu mnohem komplexnější� než tvarosloví� jmen. Na základě dosavadní�ch mluvnických popisů, slovní�ků i jazykových korpusů jsme se zabývali otázkou variantnosti/synonymie infinitivu s ohledem na tvaroslovnou soustavu, kterou infinitiv reprezentuje. Na základě klasifikací� a analýz popsaných výše konstatujeme, že konzistentní� lemmatizace sloves se synonymní�mi/variantní�mi tvary v infinitivu ví�cenásobným lemmatem podle návrhu projektu NovaMorrf (Osolsobě et al. 2017; Petkevič et al. 2019) by neměla narazit na výrazné problémy, protože se jedná předevší�m o uzavřené skupiny sloves, jejichž výčet opřený o rozsáhlé korpusy máme k dispozici (viz výše). U uzavřenýchtří�djevždymožnézvažovat,nakolikjevhodnégenerovati další�prefigováné varianty, které nejsou doloženy ve sledovaných korpusech. Proti hovoří� fakt, že se někdy může jednat buď o překlepy,81 nebo o homonymní� tvary.82 Naší�m cí�lem nikterak není� tvrdit, že se všechna výše uvedená data mají� zaznamenávat v morfologickém slovní�ku. Chtěli jsme ukázat, že pokud zaznamenávána budou, pak by se tak mělo dí�t konzistentně. ZDROJE BENKO, V. (2015): Srovnatelné webové korpusy Aranea. Ú� stav Č�eského národní�ho korpusu FF UK, Praha. Dostupný z WWW: . CVRČ�EK, V. – VONDŘ� IČ�KA, P. (2013): Morfio. Praha: FF UK. Dostupný z WWW: . Czech web corpus crawled by SpiderLing in May, October and November 2017, October and November 2016, October and November 2015. Czech Wikipedia downloaded in November 2017. Encoded in UTF-8, cleaned, deduplicated, tagged using majka+desamb pipeline v2. Dostupný z WWW: . Czech Web 2017 (csTenTen17). Internetová jazyková pří�ručka. Dostupná z WWW: . KŘ� EN, M. – CVRČ�EK, V. – Č�APKA, T. – Č�ERMÁ� KOVÁ� , A. – HNÁ�TKOVÁ� , M. – CHLUMSKÁ� , L. – JELÍ�NEK, T. – KOVAŘ� Í�KOVÁ�, D. – PETKEVIČ�, V. – PROCHÁ�ZKA, P. – SKOUMALOVÁ�, H. – Š�KRABAL, M. – TRUNEČ�EK, P. – VONDŘ� IČ�KA, P. – ZASINA, A. (2018): Korpus SYN, verze 7 z 29. 11. 2018. Ú� stav Č�eského národní�ho korpusu FF UK, Praha. Dostupný z WWW: . Š�MERK, P. (2009): Deriv – webové rozhraní. Dostupné z: . LITERATURA BENKO, V. (2014): Aranea: Yet Another Family of (Comparable) Web Corpora. In: P. Sojka – A. Horák – I. Kopeček – K. Pala (eds.), TSD 2014, LNAI 8655, 257–264. Springer International Publishing. CVRČ�EK, V. et al. (2010): Mluvnice současné češtiny, 1. Praha: Nakladatelství� Lidové noviny. 81  Např. ve webových korpusech se vyskytuje tvar načtnout, a to nikoli jako variantní� infinitiv k načíst, ale jako překlep za ,načrtnout‘. 82  Napří�klad tvary pasivní�ch pří�čestí� na t (odět, podět, zaklet, …). 41 Klára OSOLSOBĚ Synonymní/variantní tvary infinitivu jako problém konzistentní lemmatizace HAJIČ�, J. (2004): Disambiguation of Rich Inflection (Computational Morphology of Czech). Vol. 1. Praha: Karolinum Charles University Press. HAJIČ�, J. – HLAVÁ�Č�OVÁ� , J. (2013): MorfFlex CZ, LINDAT/CLARIN digital library at Institute of Formal and Applied Linguistics, Charles University in Prague, . HLAVÁ�Č�OVÁ� , J. (2009): Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. Disertační� práce. Praha: UK. Dostupná z: . HNÁ�TKOVÁ� , M. – KŘ� EN, M. – PROCHÁ� ZKA, P. – SKOUMALOVÁ� , H. (2014): The SYN-series corpora of written Czech. In: N. Calzolari (eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), 160–164. KOMÁ� REK, M. et al. (1986): Mluvnice češtiny, 2. Praha: Academia. (cit. jako MČ� 2) OSOLSOBĚ�, K. (1996): Algoritmický popis české formální morfologie a strojový slovník češtiny. Disertační� práce. Brno: Masarykova univerzita. OSOLSOBĚ�, K. (2011): Morfologie českého slovesa a tvoření deverbativ jako problém strojové analýzy češtiny. 1. vyd. Brno: Masarykova univerzita. OSOLSOBĚ�, K. – HLAVÁ�Č�KOVÁ� , D. – PALA, K. – Š�MERK, P. (2009): Exploring Derivational Relations in Czech with the Deriv Tool. In: NLP, Corpus Linguistics, Corpus Based Grammar Research. Bratislava, Slovakia: Tribun, 152–161. OSOLSOBĚ�, K. – HLAVÁ�Č�OVÁ� , J. – PETKEVIČ�, V. – Š�IMANDL, J. – SVÁ�Š�EK, M. (2017): Nová automatická morfologická analýza češtiny. Naše řeč, 100 (4), 225–234. OSOLSOBĚ�, K. – Ž�IŽ�KOVÁ�, H. (2016): Automatická morfologická analýza z hlediska pokrytí� a nepokrytí� morfologických variant. In: Korpusová lingvistika Praha 2016, Od mluvené češtiny k psané, 17. září 2016, Praha. PETKEVIČ�, V. – HLAVÁ�Č�OVÁ� , J. – OSOLSOBĚ�, K. – SVÁ�Š�EK, M. – Š�IMANDL, J. (2019): Parts of Speech in NovaMorf, A New Morphological Annotation of Czech. Journal of Linguistics / Jazykovedný časopis, 70 (2), 358–369. Š�LOSAR, D. (1981): Slovotvorný vývoj českého slovesa. Brno: UJEP. Š�MILAUER, V. (1972): Nauka o českém jazyku. Praha: SPN. Š�TÍ�CHA, F. et al. (2013): Akademická gramatika spisovné češtiny. Praha: Academia. VOLKOVÁ� , N. (2017): Vybraný problém homonymie slovesných tvarů z hlediska automatické morfologické analýzy. Brno: FF MU. (Nepublikovaná magisterská diplomová práce pod vedení�m K. Osolsobě.) Dostupná z WWW: . ZIKOVÁ�, M. (2016): When Prosody Follows Syntax: Verbal Stems in Czech. Linguistica Brunensia, 64 (1), 163–185.