Synonymní / variantní tvary infinitivu jako problém konzistentní lemmatizace Klára Osolsobě osolsobe@phil.muni.cz Úvod Cílem tohoto textu je podat ucelený obraz jedné oblasti automatického zpracování přirozeného jazyka (češtiny), a sice lemmatizace slovesných tvarů. Do slovesného tvarosloví zahrnujeme: a) tvar(y) infinitivu, b) tvary l-ového příčestí a přechodníku minulého, c) tvary indikativu a přechodníku přítomného, d) tvary imperativu. K slovesnému paradigmatu volně patří i e) tvary pasivního příčestí a/nebo tvary dějového jména na ​ní/tí​. Lemmatem slovesného tvaru je v rámci automatické morfologické analýzy zpravidla tvar infinitivu. Pod tvar infinitivu není zahrnut tvar verbálního substantiva na ​ní/tí​, jeho lemmatem je nominativ singuláru příslušného substantiva. Pod vícenásobné lemma {tvar infinitivu, dlouhý/adjektivizovaný tvar pasivního příčestí na ​ný/tý​} mají být podle návrhu NovaMorf (Petkevič a kol. 2019) zahrnuty krátké (participiální) i dlouhé (adjektivizované) tvary pasivního příčestí. Popis tvarosloví českého slovesa v synchronní podobě prezentovaný morfologickou anotací korpusů řady SYN vykazuje nekonzistentní řešení v případě, že variantní tvary má základní tvar slovesa – infinitiv. Zaměříme se tudíž na interpretace slovesných tvarů jednoho základu, které lze interpretovat jako tvary synonymní / variantní (např. ​myslet/myslit, obléci/obléknout atd.). Také se budeme snažit zaznamenat nedostatky pokrytí morfologického slovníku (Hajič, Hlaváčová 2013). Zpracování variantního základního tvaru v rámci automatické morfologické analýzy Existuje-li více než jedna varianta, která může představovat lemma/základní tvar, pak řešení na poli automatické analýzy nebyla dosud jednoznačná. Tak například paralelní variantní tvary (​filozofie/filosofie, citron/citrón, blúza/blůza/blusa, být/bejt, mýt/mejt​) byly zpracovány nejednotně. V rámci projektu NovaMorf byly přijaty dva návrhy. První se týká variantnosti základního tvaru/lemmatu a zavádí koncept vícenásobného lemmatu. Druhý se týká tzv. zlatého pravidla morfologie, které zavádí požadavek systematického zpracování variant, a to tak, aby se každá varianta lišila dvojicí lemma+tag (viz více Hlaváčová 2009, Osolsobě a kol. 2017, Petkevič a kol. 2019). Tyto dva požadavky vedly k systematickému korpusově podloženému studiu variantnosti českého tvarosloví. Variantní tvary českých sloves Pokud variantní tvary nejsou v infinitivu, pak přestože jednotlivé tvary slovesných subparadigmat lze vztahovat k různým třídám a vzorům, lemmatizace není problematická. Příklady ukazuje tabulka 1. Tabulka 1 ind. préz. i imp. l-ové pasivní/slovesné infinitiv probodne probodni probodnul/ probodl probodnut/ proboden probodnout1 kope/kopá kop/kopej kopal kopán kopat háže/hází haž/házej házel házení házet uzřu /​uzřím2 uzři uzřel uzření uzřít vlaje/vlá vlaj vlál vlání vlát nehraje/nehrá nehraj/nehrej nehrál nehrán nehrát Typologie variantních tvarů infinitivu V následujícím přehledu se budeme zabývat pouze variantami kmenotvorné přípony infinitivního slovesného tvaru, a to i tehdy, kdy dochází k přehodnocení kmenotvorné přípony v důsledku historického vývoje. Nebudeme se zabývat teritoriálně ovlivněným krácením kmenotvorné přípony v infinitivu . Dále nás budou zajímat varianty infinitivu3 související s variantností kořenového vokálu ​í/e/ě: sít/set .4 Stranou ponecháme varianty kořenového vokálu související s tzv. úžením ​é/[íý] ​(​nést/nýst, lézt/lízt, prolézat/prolízat​), se změnou ​[ýí]/ej ​(​rýt/rejt, hýbat/hejbat, lít/lejt​) a krácením dlouhého kořenového vokálu (​hrát/hrat ) i další teritoriálně podmíněné alternace (​rýt/rét​)​.5 Tyto varianty jsou variantami hláskoslovnými, a týkají se tudíž všech sloves, jejichž hláskoslovná podoba alternaci připouští. Nebudeme se zde zabývat variantami infinitivního tvaru typu ​prosit/prositi a ​moci/moct (variantní koncovka), neboť jde o univerzální variantnost českých sloves. 1 Diachronní infinitiv ​probósti​(viz stč. banka: ​… jehož nemohl nižádný přemoci ani ​​kopiem ani mečem …​) je patrně důvodem pro synchronní dublety (bez kmenotvorného ​-nu-​) v l-ovém a pasivním příčestí. 2 ​Jen vezmu ji do rukou, ucítím bolest a poté ​​krev rudou jako růže. 3 Doklady se najdou v korpusu SYN v7: (​Kdo ju včil postiská, kdo ju zahřeje, komu bude ​​a vařit a fusekle látat? Madla v kuchyni se dívala v televizi na nějaký zas dokument o zločinech komunismu, jsem si sedl ke stroji v příjemné chuti něco pěkného si ​​. Když sem si uvědomil, že by sem tu měl ​​, tak sem zpanikařil a bez rozmyslu sem vlez do te ďury.​​„​Neboj, děvucho, u nas se řika ​–​ kvuli dvuch piv je škoda boty ​…,“ smál se Ostravák. ​„​To mu musiš ​<řeknut>​, že si sprostě mluvil?“​) 4 Varianty s krátkým [eě] jsou různě hodnoceny kodifikačními příručkami, nicméně v úzu prezentovaném korpusy jsou doloženy. Patrně zde působí tlak analogie sloves, která mají pouze krátké [eě] v kořeni infinitivu (​pět, pomět se, spět​), viz Štícha a kol. 2013. 5 ​V Riu se budu především snažit ​​svůj tenis, a to co nejlíp. Také ​variantní infinitivy tvaru typu ​sprát/seprat (variantní prefix) ponecháme stranou (varianty existují u jednotlivých sloves a souvisejí s přehodnocením kmenotvorného vokálu na kmenový, viz např. ​od-tí-0-t/ode-t-nou-t​, ale ​roz-pj-a-l ​i ​roze-pj-a-l/roze-p-nu-l​) .6 Typ 1 Existují dvě varianty infinitivu, které lze pokládat za synonymní. U jednotlivých tvarů slovesných subparadigmat lze vždy určit, ke kterému infinitivu/lemmatu se mají přiřadit. Každému lemmatu odpovídá a) kompletní soubor tvarů a b) nekompletní soubor tvarů. Příklady ukazuje tabulka 2. Tabulka 2 ind. préz. imp. l-ové pasivní infinitiv věje věj vál vání vát vane vaň vanul vanutí vanout plaje/plá plaj plál plání plát plane plaň planul planutí planout – – sťal stětí stít setne setni setnul/setl setnutí setnout Typ 2 Existují dvě varianty infinitivu, které lze pokládat za synonymní. U jednotlivých tvarů slovesných subparadigmat nelze někdy určit, ke kterému infinitivu/lemmatu se mají přiřadit. 6 Ziková 2016 uvádí, že alternace ​e/0​v prefixech slovesných tvarů nelze spojovat s potřebami výslovnosti, nýbrž souvisejí s morfosyntaxí a závisí na morfologické interpretaci vokálu/slabičné sonory v následující slabice (viz např. roze-stř-í-t × roz- stříh-a-t, ode-př-í-t × od-přisáh-nou-t, ode-br-a-t × od-brzd-i-t, se-hn-a-t × s-hní-0-t). Varianty se vyskytují jednak u sloves typu ​začít​, u kterých byl kořenový vokál (nosovka) v důsledku hláskoslovného vývoje (denazalizace) přehodnocen na kmenový vokál. Také se okrajově objevují u sloves .*[bdpsž]rát/.*[bdpsž]eru​a ​.*ml[íe]t/.*melu​. Uvedená slovesa mají (v důsledku hláskoslovného vývoje – zániku/vokalizace jerů a metateze likvid) v tvarech od kmene prézentního kořenový vokál nenulový a v tvarech od kmene infinitivního kořenový vokál nulový. Je tedy možné, že dublety jsou u tvarů od kmene minulého důsledkem působení analogie (přizpůsobení podoby prefixu tvarům od kmene přítomného a naopak). V korpusech jsme v infinitivu zaznamenali pouze varianty u vulgárního slovesa (​Někdo to totiž bude muset s odpuštěním ​​, když se nebude hrát. Tohle si fakt někdo musí šeredně ​​…​)​ ​a okrajově i u sloves odebrat​(​Za vysvětlování doktorky, že je potřeba Nikymu ​​mozkomíšní tekutina, jsem se zatajeným dechem četla rizika, která jsou spojená s tímto zákrokem. Dal by se tady ​​vzorek krve a poslat ho do Německa na ty LTT testy?​) a ​seprat​(​Hleďme, jak se stydí, a že ještě samou hanbou nepropad: vždyť kolik pecnů denně musí ​​ten žráč a na čí účet, že si jenom tak pouští krev žilou? A dovedl se o to ​​jak s ďáblem, tak s andělem …​)​. ​PSJČ uvádí variantu ​smlít/smlet/semlít​, SSJČ pak ​sedrat/sdrát, seprat/sprát​. Některé tvary lze na základě analogie morfologického systému češtiny řadit k oběma variantním lemmatům (podbarvené). Příklady ukazuje tabulka 3. Tabulka 3 ind. préz. imp. l-ové pasivní infinitiv obleče obleč oblékl oblečen obléci oblékne oblékni oblékl​/obléknul oblečen /obléknut7 obléknout chytí chyť chytil chycen chytit chytne chytni chytl/chytnul chycen /chytnut8 chytnout vymyslím vymysli vymyslel vymyšlen vymyslet vymyslím vymysli vymyslil vymyšlen vymyslit Typ 3 Existují dvě varianty infinitivu, které lze pokládat za synonymní. U jednotlivých tvarů slovesných subparadigmat nelze nikdy určit, ke kterému infinitivu/lemmatu se mají přiřadit. Variantní i nevariantní tvary lze na základě analogie morfologického systému češtiny řadit k oběma variantním lemmatům. Příklady ukazuje tabulka 4. Tabulka 4 ind. préz. imp. l-ové pasivní infinitiv 7 Zajisté je technicky vzato možné řadit tvary k lemmatům podle kmenotvorné přípony. Nicméně se domníváme, že tento přístup odporuje jak tradičním popisům (mluvnice, slovníky, dosavadní praxe automatických morfologických analyzátorů), tak úzu: ​Musíte dodržovat dress code? Neřekla bych. Na obrazovce jsem v modelech, které mám připravené speciálně na vysílání, takže nikdo neřeší, jak přijdu do práce ​​. Dokážu se ale​​adekvátně situaci. „Panenky mám už ze sedmnácti zemí světa, třeba i z Ekvádoru, Egypta, Japonska, Finska, Ruska nebo Číny. Ty nové jsou už ​​, starší musíme​​​, než je vystavíme,“poznamenala Marie Roháčková. Jsem poslušná. Když mi řekli, že se tak mám ​​, ​jsem se. ​Akademická gramatika spisovné češtiny (Štícha a kol. 2013, 473) se o rozdílu pasivních příčestí na ​-en​a na ​-t​od sloves, která kolísají mezi třídami (1. a 2.) explicitně nezmiňuje. 8 Totéž platí i pro slovesa, která kolísají mezi typem ​prosit​a ​tisknout​. Přestože tato synonyma v mluvnicích většinou nebývají zmiňována (výjimkou je zmínka o kolísání slovesa ​chytit/chytnout ​ve Štíchově Akademické gramatice spisovné češtiny), zaznamenávají je výkladové slovníky. Doklady z korpusu svědčí o tom, že dosavadní technické řešení uměle oddělující dvě různá lemmata, přičemž např. tvary pasivního příčestí ​chycen.* jsou důsledně řazeny pod lemma ​chytit,​není v souladu s jazykovou intuicí: ​Musím zmínit alespoň jeden model , který mě ​​a byl ​​!​​Je tu příroda, člověk si u vody nad pruty odpočine od všeho a sem tam ​i rybu. ​​ryby většinou rozdávám příbuzným, protože je nejím. A když je radnice při takových manévrech ​​, místo aby se ​​za nos, podává stížnost k Radě pro televizní a rozhlasové vysílání. tlí/tleje tli/tlej tlel tlení tlít/tlet Typ 4 Existují dvě varianty infinitivu, které lze pokládat za synonymní. K nim lze přiřadit pouze nevariantní tvary. Příklady ukazuje tabulka 5. Tabulka 5 ind. préz. imp. l-ové pasivní infinitiv ční čni čněl čnění čnít/čnět mele mel mlel mlet(ý) mlít/mlet Automatické nástroje K analýze dat jsme použili automatický nástroj ​Morfio ​(Cvrček, Vondřička 2009) a nástroj Deriv (Šmerk, 2009). Oba nástroje pracují s korpusy , Deriv ​je navíc propojen s9 elektronickými verzemi tištěných slovníků . ​Synonymii jsme ověřovali v tištěných10 slovnících, v korpusu SYN v7 a ve webovém korpusu Araneum. Při analýze otevřené třídy sloves typu ​myslit/myslet​ jsme vycházeli z korpusu SYN2015. Návrh zásad lemmatizace Vzhledem k tomu, že korpusová analýza ukazuje, že variantní/synonymní infinitivy se ani zdaleka netýkají jen sloves, která jsou známá ze školských mluvnic, pokusíme se stanovit pravidla lemmatizace pro automatické nástroje a podáme pokud možno úplný korpusově a slovníkově podložený výčet lemmat. Návrh k typu 1 Existují-li dvě varianty infinitivu, které lze pokládat za synonymní a u jednotlivých tvarů slovesných subparadigmat lze vždy určit, ke kterému infinitivu/lemmatu se mají přiřadit, pak tam, kde každému lemmatu odpovídá a) kompletní soubor tvarů, i tam, kde jednomu z lemmat odpovídá b) nekompletní soubor tvarů, nechť je využit koncept vícenásobného lemmatu. 9 ​Morfio ​pracuje s korpusy SYN2005, SYN2010 a SYN2015. ​Deriv ​pracuje s webovými korpusy řady csTenTen. 10 Je možno přepnout na platformu DebDict. Více Osolsobě a kol. 2009. K případu a) patří lemmata :11 {vát, vanout}, {vyvát, vyvanout}, {ovát, ovanout}, {zavát, zavanout}, {odvát, odvanout}, {přivát, přivanout}, {provát, provanout}, {vevát, vevanout}, {navát, navanout}, {svát, svanout}, {rozvát, rozvanout}, {vsout, vsunout} , {(pro)slout, (pro) slynout}, {nadout,12 13 nadmout}, {vzdout/vzedmout}, {ožít, oživnout}, {snout , snovat}.14 Dvě různá slovesa jsou ​klít ​a ​klnout ​(komu) ​i ​zaklít ​(koho v co) ​a ​zaklnout, ​podobně plout a plynout, dout​ a ​dmout se​, ​kout​ a ​kovat, zasnout ​a ​zasnít (se)​.15 16 K případu b) patří lemmata :17 {tít, tnout}, {odtít, odetnout}, {podtít, podetnout}, {přetít, přetnout}, {stít, setnout}, {roztít, rozetnout}, {vtít, vetnout}, {zatít, zatnout}, {načít, načnout}, {počít, počnout}, {začít, začnout}, {započít, započnout}, {vzít, vezmout }, {opomenout, opominout, opomnět},18 {pozapomenout, pozapomnět}, {připomenout, připomnět}, {rozvzpomenout, rozvzpomnět}, 11 Tento seznam je uzavřený. Přechody/kolísání mezi neproduktivní 3. třídou slovesnou typ ​krýt​a produktivní 2. třídou slovesnou (popř. 3. třídou typem ​kupovat​) jsou záležitostí historického vývoje češtiny. Do seznamu nezařazujeme slovesa, která v synchronním úzu prezentovaném korpusy řady SYN nejsou doložena. Jedná se sloveso ​rout​ve významu ​rvát​(viz doklad z diakorp: ​neb jich bieše tady cěsta, bliz od té zdi toho města, přěd nímž boha umučili, v hlavu ​rujíc​, v líce bili.​) a ​trout ​ve významu ​otravovat​(srov. Šmilauer 1972, 215). V případě tvaru ​rout​se jedná v korpusech řady SYN převážně o variantní pravopis slova ​raut​. Tvary jsou přiřazeny lemmatu ​routa​a interpretovány jako tvary genitivu plurálu. Tvar ​trout​je užit v angličtině (trout = angl. pstruh). 12 Dvě různá slovesa jsou ​sesout​a ​sesunout, vysout ​a ​vysunout,​​zasout ​a ​zasunout​. Infinitiv ​vsout ​je doložen pouze v SSJČ, v synchronních korpusech se nevyskytuje. Jeden tvar vztažitelný k infinitivu ​vsout ​je doloženv SYN v7: ​Ale zachránila mi dvě děvčata, z přízemí toho domu, ze kterého se vykláněla z prvního patra ta šilhatá blondýnka, vyřítila se dvě děvčata, současně se chtěla naráz prodrat skrz úzké dveře, ​​se tam, a když se prorvaly ven, tak řvaly smíchy, …​Doklady z korpusu ​Araneum ​jsou překlepy. 13 Infinitiv ​proslynout ​uvádí SSJČ, v synchronních korpusech doložen není, na internetu se doklady najdou. 14 V korpusu SYN v7 jsou tvary ​snout​řazené k lemmatu ​snout/Vf.*​vesměs propria (příjmení ​Snout​) nebo jejich části (název mužstva ​Lassie's snout​), popř. překlep (mezera navíc: ​<​Učí snout>​vlásky ...​). Doklady na užití slovesa ​snout ​jsou ojedinělé: ​Už slova děti uprchlíkův v nás mohou ​​jen temný čoud. 15 Podle SSJČ má sloveso ​zasnout ​dva významy, a sice 1) ,usnout’ a 2) ,upadnout do snění’. U slovesa ​zasnít ​se oba významy objevují. V současném úzu prezentovaném korpusy řady SYN však v případě tvarů od lemmatu zasnít ​naprosto převažují tvary s reflexivním ​se​(viz také výklad SSČ), okrajově se pak vyskytují ještě i tvary zasnít si​. Sloveso​ zasnout ​není reflexivní. Nereflexivní doklady u slovesa ​zasnít ​v SSJČ jsou převážně z literatury 19. stol. V korpusu SYN jsme objevili ojedinělé doklady nereflexivního užití: ​„To by bylo fajn,“ ​Čáslava nad vidinou startu na světovém šampionátu.“Obrázky nás probudí neb ​​, už nevím dál … tak zhasni!” „Snad se mi to podaří,“ ​​jednadvacetiletá Monika Řeháková. 16 V SYN v7 jsou potenciálně homonymní tvary ​zasni, zasněme, zasněte​desambiguovány oběma lemmaty, tedy zasnít ​nebo ​zasnout​. Ve všech případech jde ovšem o tvary slovesa ​zasnít se​, desambiguace by se dala zpřesnit právě použitím pravidel pro výskyt zvratného ​se​. 17 Tento seznam je uzavřený. 2. třída vzor ​začít​je uzavřená třída sloves. . Kromě sloves 2. třídy typu ​začít řadíme do tohoto seznamu sloveso ​plát/plánout​a jeho prefigované varianty. Sloveso je zvláštní tím, že kromě paralelních tvarů podle 3. třídy typu ​krýt​a 2. třídy typu ​minout​, viz typ 1 případ a), má navíc ještě tvary od kmene přítomného podle 5. třídy typu ​dělat​(tedy např. ​Do samoty mi ​​jako chudokrevný měsíc. Vlá tvá hříva a svíce ​​a dohořívá až dohoří​). Bohužel většina tvarů ​.*plám, .*pláš, .*plá, .*pláme, .*pláte​, jsou překlepy. 18 Doklady tohoto tvaru se v korpusu SYN v7 nevyskytují, objevují se ovšem ve webovém korpusu ​Aranea​: „Můžu si ​​kamaše?“ {vzpomenout, vzpomnět}, {vyvzpomenout, vyvzpomnět}, {zapomenout, zapomnět}, {plát, planout}, {vzplát, vzplanout}, {zaplát, zaplanout}. Sporné je, zda ve slovníku automatického analyzátoru zaznamenávat případy typu ​žít a ​žnout, konkrétně prefigované varianty ​nažít a ​nažnout​, ​sežít a sežnout​, a to s ohledem na homonymii se slovesem ​žít ve významu ‚být naživu‘ . Velmi problematické se jeví také zachycení19 slovesa ​ro(z)žnout/rozžít ​(na Moravě běžně užívané ve významu ​rozsvítit ), a to jednak s20 ohledem na neustálenou grafickou podobu, jednak s ohledem na homonymii tvaru imperativu rožni​ s tvary substantiva ​rožeň​. Návrh k typu 2 Existují-li dvě varianty infinitivu, které lze pokládat za synonymní a u jednotlivých tvarů slovesných subparadigmat nelze někdy určit, ke kterému infinitivu/lemmatu se mají přiřadit (některé tvary lze na základě analogie morfologického systému češtiny řadit k oběma variantním lemmatům), pak nechť je využit koncept vícenásobného lemmatu. Vícenásobná lemmata nechť mají slovesa kolísající mezi typy ​prosit – (trpět) – sázet​: Internetová jazyková příručka k nim uvádí, cituji: „Ve 4. slovesné třídě najdeme několik sloves, která kolísají mezi vzory ,prosit‘ a ,sázet‘. Patří k nim frekventovaná slovesa ​bydlit – bydlet, musit – muset, myslit – myslet​, z méně užívaných pak ​kvílit – kvílet, šílit – šílet a ​hanit – hanět​. Historicky k nim můžeme řadit i slovesa další, mj. ​bujit – bujet, lačnit – lačnět, truchlit – truchlet​.“ Rozsáhlé seznamy synonymních i nesynonymních dvojic sloves založené na analýze korpusu csTenTen17 sestavila N. Volková. Tyto seznamy se opírají o analýzu dat z brněnského morfologického slovníku (Osolsobě 1996), který je bohužel značně závislý na zdrojích, z nichž vzešel (heslář SSJČ), a obsahuje velké množství sloves, která v synchronním úzu nejsou doložena. Z toho důvodu jsme se rozhodli pro analýzu dat z korpusu SYN2015, a to prostřednictvím nástroje ​Morfio​. Z automaticky vygenerovaného seznamu dvojic jsme ruční analýzou získali přehled o slovesech lišících se v infinitivu kmenotvorným [ieě]. Rozdělili jsme je na l) případy synonymních lemmat a 2) případy dvou odlišných sloves. Slovesa první skupiny nechť mají vícenásobné lemma : ​{bydlit, bydlet}, {dobydlit, dobydlet},21 {obydlit, obydlet}, {odbydlit, odbydlet}, {pobydlit, pobydlet}, {probydlit, probydlet}, {vybydlit, vybydlet}, {zabydlit, zabydlet}, {myslit, myslet}, {namyslit, namyslet}, {domyslit, domyslet}, {pomyslit, pomyslet}, {promyslit, promyslet}, {přimyslit, přimyslet}, {smyslit, 19 V případě infinitivu ​nažít​jde ve většině dokladů v SYN v7 o sloveso ​žít ​ve významu ,být naživu‘: ​Na druhou stranu je takový autorský typ sběratel, takže si určité věci potřebuje ​​. ​Pouze jeden doklad je na význam nažnout​: „​Dobře,​“ ​přikývne,​„​ale musíme jít ​ ​trávu.​“​ ​V případě inifinitivu ​sežít​jde v jednom případě o sloveso ​sežnout​: „​Šla ​ ​ten kousek meze, co máme ještě u lesa,​“​ …​Ve dvou případech jde o překlep. 20 ​Okamura strávil dětství v Bystřici. Dodnes proto říká „žufánek a ​​“. 21 Tento seznam je z principu otevřený, měl by ovšem zachytit slovesa, která se v úzu prezentovaném korpusy skutečně objevují. smyslet}, {vymyslit, vymyslet}, {zamyslit, zamyslet}, {musit, muset}, ​{bujit, bujet}, {blyštit, blyštět}, {hanit, hanět}, {chraptit, chraptět}, {chroptit, chroptět}, {kabonit, kabonět}, {kapalnit, kapalnět}, {krabatit, krabatět}, {kulatit, kulatět}, {kvílit, kvílet}, {lačnit, lačnět}, {nadstavit, nadstavět}, {ošklivit, ošklivět }, {oželit, oželet}, {pohanit, pohanět}, {posmutnit,22 posmutnět}, {potemnit, potemnět}, {poulit, poulet}, {prýštit, prýštět}, {pučit , pučet},23 {rozbulit, rozbulet}, {rozesmutnit, rozesmutnět}, {rozezvučit, rozezvučet}, {rozkošatit, rozkošatět}, {rozradostnit, rozradostnět}, {řeřavit, řeřavět}, {svědit, svědět}, {svraštit, svraštět}, {svrbit, svrbět}, {šílit, šílet}, {škaredit, škaredět}, {špičatit, špičatět}, ?{špinavit ,24 špinavět}, {temnit, temnět}, {truchlit, truchlet}, {utvářit, utvářet}, {vězit, vězet}, {vláčit, vláčet}, {vybulit, vybulet}, {vyhladovit, vyhladovět}, {vyhovit, vyhovět}, {vykoulit, vykoulet}, {vypučit, vypučet}, {vytvářit, vytvářet}, {vyzdravit, vyzdravět}, {zabahnit, zabahnět}, {zachroptit, zachroptět}, {zakvílit, zakvílet}, {zašpičatit, zašpičatět}, {zašustit, zašustět}, {zatemnit, zatemnět}, {zavrtit, zavrtět}, {zešílit, zešílet}, {zšeřit, zšeřet}, {ztemnit, ztemnět}, {​zvučit, zvučet​}. Slovesa druhé skupiny nechť mají lemmata dvě : ​bělit ​a ​bělet (se)​, ​divočit ​a ​divočet, dostavit25 (se) a ​dostavět, dovážit ​a ​dovážet, hrbatit ​a ​hrbatět, hutnit ​a ​hutnět, chybit ​a ​chybět, jasnit (se) a ​jasnět, klidnit ​a ​klidnět​, ​nastavit a ​nastavět, navážit ​a ​navážet, obestavit ​a ​obestavět, odšumit a odšumět, odvážit (se) a ​odvážet, otěhotnit ​a ​otěhotnět, otupit ​a ​otupět, ozdravit ​a ozdravět, ozřejmit ​a ​ozřejmět, pochybit a pochybět​, ​praštit ​a ​praštět, proděravit ​a ​proděravět​, přestavit a ​přestavět, převážit ​a ​převážet, přistavit a ​přistavět, přivážit ​a ​přivážet, rozestavit a rozestavět, rozněžnit (se) ​a ​rozněžnět, rozvážit ​a ​rozvážet, stavit (se) a ​stavět, svářit (se) ​a svářet, světlit ​a ​světlet, trčit ​a ​trčet​, ​tvářit (se) ​a ​tvářet​, ​vestavit a ​vestavět, vrásnit ​a ​vrásnět​, vystavit ​a ​vystavět, vytrčit ​a ​vytrčet, vyvážit ​a ​vyvážet, zastavit ​a ​zastavět, zavážit a ​zavážet, zbělit ​a ​zbělet, zbídačit ​a ​zbídačet, zbystřit ​a ​zbystřet, zcivilnit ​a ​zcivilnět, zdomácnit ​a zdomácnět, zdrsnit ​a ​zdrsnět, zduchovnit ​a ​zduchovnět, zdůvěrnit ​a ​zdůvěrnět, zelenit ​a zelenět, zestručnit ​a ​zestručnět, ​zesvětlit ​a ​zesvětlet​, ​zesvětštit a ​zesvětštět​, ​zešeřit ​a ​zešeřet​, zešikmit a ​zešikmět​, ​zeškaredit ​a ​zeškaredět​, ​zeštíhlit ​a ​zeštíhlet​, ​zevšednit ​a ​zevšednět​, zhmotnit ​a ​zhmotnět​, ​zhutnit a ​zhutnět​, ​zchromit a ​zchromět​, ​zintenzívnit a ​zintenzívnět​, ​zjasnit a ​zjasnět​, ​zjemnit ​a ​zjemnět​, ​zjinačit ​a ​zjinačet​, ​zkapalnit a ​zkapalnět​, ​zklidnit ​a ​zklidnět​, zkrabatit ​a ​zkrabatět, zkrásnit ​a ​zkrásnět​, ​zkrvavit ​a ​zkrvavět​, ​zkudrnatit ​a ​zkudrnatět, zlhostejnit ​a ​zlhostejnět​, ​zlidštit ​a ​zlidštět​, ​zmalátnit ​a ​zmalátnět​, ​zmatnit ​a ​zmatnět​, ​zmléčnit ​a zmléčnět​, ​zmocnit ​a ​zmocnět​, ​zmohutnit ​a ​zmohutnět​, ​zmrtvit ​a ​zmrtvět​, ​zmrzačit ​a ​zmrzačet​, zmužnit ​a ​zmužnět​, ​znecitlivit ​a ​znecitlivět​, ​znehybnit ​a ​znehybnět​, ​znejasnit ​a ​znejasnět​, znejistit ​a ​znejistět​, ​zneklidnit ​a ​zneklidnět​, ​znervóznit ​a ​znervóznět​, ​zněžnit ​a ​zněžnět​, ​zobecnit a ​zobecnět​, ​zostřit ​a ​zostřet​, ​zošklivit ​a ​zošklivět​, ​zpevnit ​a ​zpevnět​, ​zplacatit ​a ​zplacatět​, 22 V korpusu SYN v7 jsou doklady jak na význam ,mít v ošklivosti co‘ (​A přesto si to ​ ​čím dál víc ...​), tak na význam ,stávat se ošklivým‘ (​Lidé se věkem ohýbali a ​​...​). 23 Bohužel je většina dokladů tvarů ​puč[ií].* ​užita ve významu ​půjčit​. 24 Lemma ​špinavět​je přiřazeno tvarům ​špinavěj​, ve všech případech jde o překlepy (​špinavej, špinavější​). 25 Tato skupina představuje velký problém pro automatickou morfologickou analýzu, a to s ohledem na homonymii všech tvarů kromě infinitivu a l-ového příčestí. Výsledky desambiguace nejsou uspokojivé. Významový rozdíl mezi deadjektivními slovesy bývá rozdíl mezi stávat se jakým/ činit jakým. Další pozorovaný významový rozdíl je +/– přítomnost externího činitele děje – např. ​znervóznit​a ​znervóznět. zploštit ​a ​zploštět​, ​zpohodlnit ​a ​zpohodlnět​, ​zpomalit ​a zpomalet​, ​zpovrchnit ​a ​zpovrchnět​, zpozornit ​a ​zpozornět​, ​zpravidelnit ​a ​zpravidelnět​, ​zprotivit ​a ​zprotivět​, ​zprůhlednit ​a zprůhlednět​, ​zprůsvitnit ​a ​zprůsvitnět​, ​zprůzračnit ​a zprůzračnět​, ​zpružnit ​a ​zpružnět​, ​zpřesnit a ​zpřesnět​, ​zpřísnit ​a ​zpřísnět​, ​zruměnit ​a ​zruměnět, ztitěrnit ​a ​ztitěrnět​, ​ztučnit ​a ​ztučnět​, ztupit ​a ​ztupět​, ​zubatit ​a ​zubatět​, ​zuhelnatit ​a ​zuhelnatět​, ​zútulnit ​a ​zútulnět​, ​zvěcnit ​a ​zvěcnět​, zveličit ​a ​zveličet​, ​zveřejnit ​a ​zveřejnět​, ​zvětšit ​a ​zvetšet​, ​zvláčnit ​a ​zvláčnět​, ​zvlčit ​a ​zvlčet​, zvnitřnit ​a ​zvnitřnět​, ​zvroucnit ​a ​zvroucnět​, ​zvýraznit ​a ​zvýraznět​, ​zvýznamnit ​a ​zvýznamnět​, zženštit ​a ​zženštět​. Patrným přegenerováním morfologického slovníku MorfFlex jsou lemmata ​navelit, zamlžet, zaokrouhlet, zavazit​. Vícenásobná lemmata nechť mají slovesa kolísající mezi typy ​nést/péci/umřít​​–​​tisknout :26 {vybříst, vybřednout}, {zabříst, zabřednout}, {zábst, zábnout}, {zazábst, zazábnout}, {vlást ,27 vládnout}, {naklást, nakladnout }, {krást, kradnout }, {ukrást, ukradnout}, {vykrást,28 29 vykradnout }, {rozkrást, rozkradnout }, {okrást, okradnout }, {vkrást, vkradnout },30 31 32 33 {přikrást, přikradnout }, {zkrást, zkradnout }, {propást, propásnout}, {mást, mátnout},34 35 {pomást, pomátnout}, {zmást, zmátnout}, {nalézt, naleznout}, {vynalézt, vynaleznout}, {odvynalézt, odvynaleznout}, {znovuvynalézt, znovuvynaleznout}, {hrýzt, hryznout}, {odhrýzt, odhryznout}, {podhrýzt, podhryznout}, {zahrýzt, zahryznout}, {houst, hudnout }, {zahoust,36 zahudnout }, {vmést, vmetnout }, {rozkvést, rozkvetnout }, {vykvést, vykvetnout }, {růst,37 38 39 40 26 Jedná se o uzavřený seznam sloves. Přechody mezi neproduktivními typy 1. třídy (​nést, péci​) a typem ​tisknout jsou popsány v českých mluvnicích (Komárek a kol. 1986, Štícha a kol. 2013). Přesto nejsou dosud beze zbytku zachyceny automatickými morfologickými slovníky. V korpusu SYN v7, ale například i ve webových korpusech se okrajově vyskytují jak tvary velmi archaické (např. ​vlást​), ale i velmi progresivní (např. ​kradnout, zmohnout, rostnout, hnětnout, ...​). S ohledem na budoucí údržbu slovníku je třeba zvážit, zda potenciální tvary nepřegenerovat. 27 Doklady z korpusu SYN v7: ​… Zas budou příšery ​​kurvy horší než hovno ze sraček uplácaj si tvář svobodymilovníků … „Řekům sluší nad barbary <​vlást>​,“ dodává, protože „barbar a otrok jest od přírody totéž.“ 28 Doloženo pouze v korpusu csTenTen: ​Vím, je to jen červík, ale vážně mi nedělá velkou radost to, že to mohlo ​larvy ... 29 ​Takový člověk určitě ​​nebude ... 30 ​Favorita stačil ​​24letý lapka na Klíši ... 31 … ​za to my nemůžeme, že náš stát politici nechali ​​, ... 32 ​T-mobile se mě snaží ​​. 33 ​Jin a jang však mají v sobě tu vlastnost, že se umí do nás ​​pomalu, ... 34 ​… jen slouhové a služebníčci, jimž vrchnost dovolí si něco ​​... 35 ​Než aby si to alespoň museli ​​, tak jim to dejte. 36 V korpusu SYN v7 je jeden doklad: ​Ti budou ​​o zradě. ​Ve druhém případě jde o překlep: Dietologové je nedoporučují jíst ve velkých dávkách, když se snažíme ​​... 37 V korpusu SYN v7 je jeden doklad: ​… co by si mohli ​​v hospodě ... 38 V korpusu SYN v7 jsou dva doklady: ​Zručně pracovali pendreky a já jsem dostal chuť ​​jim do štítů: I vás vezme čert! Leckterý z mužů, kteří sem za mnou přijdou, může mu plivnout, ​​do tváře hanbu jeho ženy, a tuto ošklivou slinu nesetře do nejdelší smrti. 39 Doloženo pouze v korpusu csTenTen: ​Závěrečnej verš „růže musí ​ ​/ a ne uvadnout“ to celý zabíjí, protože takhle může rýmovat akorát zamilovanej deváťák, ne čtyřicetiletej rocker. 40 Doloženo pouze v korpusu csTenTen: ​Prima nechala ​​jarní programové schéma ve znamení novinek. rostnout }, {srůst, srostnout }, {hníst, hnětnout }, {prohníst, prohnětnout }, {vyhníst,41 42 43 44 vyhnětnout }, {spočíst, spočtnout }, {započíst, započtnout }, {otřást, otřásnout }, {setřást,45 46 47 48 setřásnout }, {proplést, proplétnout }, {říct, řeknout} , {doříct, dořeknout}, {odříct,49 50 51 odřeknout}, {podříct, podřeknout}, {zříct, zřeknout}, {doobléci, doobléknout}, {dovléci/dovléknout}, {navléci, navléknout}, {obléci, obléknout}, {odvléci, odvléknout}, {podvléci, podvléknout}, {povléci, povléknout}, {provléci, provléknout}, {přivléci, přivléknout}, {převléci, převléknout}, {přivléci, přivléknout}, {svléci, svléknout}, {vléci/vléknout }, {vyvléci, vyvléknout}, {vysvléci, vysvléknout}, {zavléci, zavléknout}, {stříci,52 střehnout }, {dosíci, dosáhnout}, {zmoci, zmohnout }, {tlouci, tlouknout}, {natlouci,53 54 natlouknout}, {otlouci, otlouknout}, {přitlouci, přitlouknout}, {stlouci, stlouknout}, {vtlouci, vtlouknout}, {vytlouci, vytlouknout}, {zatlouci, zatlouknout}, {ztlouci, ztlouknout}, {otéci, 41 Doloženo pouze v korpusu csTenTen: ​Mám děcko a vidím ho denně celý den ​rostnout>​. 42 Doloženo pouze v korpusu csTenTen: ​… tedki musi ​ ​kliční kost a bude to dobrý, ... 43 Pouze jediný doklad v SYN v7: ​Když věděla, že bratři na víkend přijedou, začala už dny předtím vařit polévku, ​​těsto, ze spíže snášet sklenice se zavařeninou, které držela proti světlu a otáčela a obracela. ​V korpusu Araneum je jich několik. 44 Doklad z korpusu Araneum: ​Dáme na 48 hodin odležet do ledničky při teplotě 4​–​6 °C (můžeme během oněch 48 hodin maso jednou „​​“). 45 Doklad z korpusu Araneum: ​​do bochánku. Přes noc těsto v ledničce odpočívá. 46 Doklad z korpusu csTenTen: ​Adsl.Platím 200,- Kč měsíc mám garantovanou přidělenou rychlost 8kB./s a žádnej podělanej limit 10GB a jednoduchým počtem si můžete ​​, kolik jsem schopen za 24h stáhnout, jasně, není to tak rychlé, ale oproti adsl je to zadarmo a občas možná rychlejší. 47 Doklad z korpusu csTenTen: ​Bohužel v osobákách už žádná V8ka není, Taurus má jen V6 a Viktorka se už nedělá. Ještě nutno ​​Lincolna a jeho Navigator. 48 Doklad z korpusu csTenTen: ​Přidává dalších osm událostí, která otřásly, nebo mohly ​​světem mezi lety 2000​–​2008. 49 Doklad z korpusu csTenTen: ​Zlověstný meloun si vysedává na vrcholku hory a vaším úkolem bude ho ​. 50 Doklad z korpusu csTenTen:​ … jediný, co pro ní můžu udělat, je vzít jí za ruku ​​si s ní prsty a možná se pokusit je trochu zahřát. 51 Na tomto místě upozorňujeme na sloveso ​řečiti​(s deriváty ​do-/roz-/s-/za-řečiti se​), které uvádí SSJČ jakožto zastaralé nářeční sloveso s významem ​‚mluvit‘, ‚říkat‘​. V dnešním úzu je nacházíme v kompozitech (​dobrořečit, zlořečit, protiřečit​). Pokud by ve slovníku ​Morfflex​bylo zachováno, domníváme se, že by nemělo patřit k vícenásobnému lemmatu, tedy ​{říct, řeknout}​. Upozorňujeme na ně z důvodu, že většina tvarů, které jsou řazeny v korpusu SYN v8 pod lemma ​řečit​, s uvedeným slovesem nesouvisí. Vesměs jde buď o překlepy, nebo o tvary substantiva ​neřeč​, a to zejména v etymologické figuře ​řeč neřeč​(více Osolsobě, Žižková​ ​2020). 52 Tvar ​vléknout​je vždy překlep (mezera navíc). 53 Slovesa ​stříci/střehnout se ​a ​střežit (se)​nejsou ve všech užitích synonymní. V morfologickém slovníku by tudíž neměly být přegenerovány tvary ​střežen.*​k lemmatu {​stříci, střehnout, ...​} podle {​zmoci, zmohnout, zmožený​}. Tvary ​střežen.*​nechť patří k lemmatu {​střežit, střežený​}, k lemmatu {​stříci, střehnout, střehnutý​} by měly patřit pouze tvary ​střehnut.*​, které ovšem v úzu prezentovaném korpusy doloženy nejsou. Verbální substantivum ​střežení (se)​čeho​ se ovšem vztahuje ke slovesu {​stříci, střehnout​}, kdežto ​střežení ​koho ​se vztahuje ke slovesu ​střežit​. Chybou slovníku ​Morfflex ​je interpretace imperativu ​střez (se), střez[mt]e (se) lemmatem ​střežit.​Tvarem imperativu od lemmatu ​střežit ​je ​střež​. Tvar imperativu ​střez​je tvarem slovesa ​stříci (se)​, viz Internetová jazyková příručka (​http://prirucka.ujc.cas.cz/?slovo=st%C5%99ez​). 54 Doklady jsou pouze ve webovém korpusu Araneum: ​Proto doufám, že se najde dostatek zodpovědných lidí, které případné osoby, jenž ​ ​alkohol a budou mít potřebu provokovat a dělat bordel, pošlou do patřičných míst a nedopustí, abychom pošpinili důvěru v naše fandění! oteknout}, {utéci, uteknout}, {vztéci , vzteknout}, {ztéci, zteknout }, {posíci, poseknout}55 56 57 {odemčít, odemknout}, {uzamčít, uzamknout}, {zamčít, zamknout}. Pravidelné tvary od lemmatu ​{.*hrýzt, .*hrzynout} jsou ​.*hryz(^[aá]).*/.* hryzn.* ​(​Na, na, co valacha, ty bagáne? Nesmite tabak hryzat jak chleba, nebo ho hned ​ a bude na nic. … ​zase jsem se vracel, ​ výčitkami svědomí ...​), ​a nikoli .*hryže.*/.*hryz[áa].*​, patřící k lemmatu​ .*hryzat. Infinitivy ​s[íé]ci ​a ​seknout a většina prefigovaných odvozenin nejsou úplnými synonymy. Pokud ovšem zavedeme zásadu přiřazení tvarů l-ových příčestí ​.*sekl.* lemmatu ​.*s[íé]ci a tvarů ​.*seknul.* ​lemmatu ​.*seknout​, výsledky lemmatizace nebudou odpovídat intuici rodilého mluvčího. Intuici neodpovídá ani nynější stav desambiguace, kdy je přiřazení dvou různých lemmat tvarům ​sekl.* ​dílem statistiky.58 Tvary jednoho lemmatu (​.*nout​) jsou v korpusu SYN v7 doloženy od sloves ​ozábnout, vyzábnout​, ​dovládnout, ovládnout, povládnout, převládnout, spoluvládnout, zavládnout, zvládnout, nakrást, pokrást, odkrást, dokrást, prokrást, zakrást, překrást, doukrást, prohryznout, přehryznout, rozhryznout​, ​vyhryznout, uhryznout​, i dalších sloves 1. třídy vzoru nést neuvedených výše, a dále pak ​rozvléc[it], ​uvléc[it], ​nařknout, prořeknout se, přeřeknout se, zařeknout se, uřknout, vyřknout​, ​postřehnout, ​i dalších sloves 1. třídy vzoru ​péci neuvedených výše, ani od ​osáhnout , obsáhnout, přisáhnout, sáhnout, vsáhnout, zasáhnout,59 odpřisáhnout, zapřisáhnout​. Vícenásobná lemmata nechť mají synonymní slovesa s tvary podle typu ​prosit ​i​ ​tisknout :60 {chytit, chytnout}, {podchytit, podchytnout}, {přichytit, přichytnout}, {uchytit, uchytnout}, {zachytit, zachytnout}, {odchlípit, odchlípnout}, {rozchlípit, rozchlípnout}, {rozštípit, rozštípnout}, {oblbit, oblbnout}, {rozglábit, rozglábnout}, {nachladit, nachladnout}, 55 Doloženo pouze v korpusu csTenTen: … ​ale v příslovích se všelijaké archaismy udržují rýmem velmi dlouho. V dnešní době ​ ​se už nadobro vymizelo a máme jen vzteknouti se, ... 56 Doloženo pouze v korpusu csTenTen: ​Dá se silničně ​​třeba Milešovka? 57 Infinitiv ​poseknout ​je doložen pouze v korpusu ​Araneum​: ​Protože po neděli odjíždíme, tak jsme museli ​trávu a to bylo něco. 58 ​A my s dědečkem právě ​sekli /seknout/VpMP---XR-AA--1 ​trávu. … sníh uklízeli, ​sekli /síci/VpMP---XR-AA--- ​trávu, hrabali listí, ... 59 Jediný relevantní doklad v korpusu SYN v7 je: ​Očekáváme, že hráčům přinese zkvalitnění herních činností a také si sami ​​to, když budou sami v cizím prostředí.​Ve všech dalších dokladech se jedná o překlepy (většinou vynechané písmeno, takže ve skutečnosti se jedná o tvary slovesa ​dosáhnout​). 60 Tento seznam by měl být uzavřený. Akademická gramatika spisovné češtiny (Štícha a kol. 2013, 486) uvádí pouze sloveso ​chytit/chytnout. ​Slovníky (především SSJČ) jich uvádějí více. Většinou se v případě příbuzných sloves s tvary podle ​prosit ​a ​tisknout ​jedná o dvě různá významově odlišná slovesa. Synonymních sloves je poměrně málo. Synonymie patrně souvisí s tím, že slovesné kořeny označují děj, který probíhá v okamžiku, takže je potlačen rozdíl způsobu slovesného děje (momentánní × nemomentánní) v češtině často vyjadřovaný právě rozdílem mezi 2. a 4. třídou slovesnou. Podobně ojedinělými jsou synonymní dvojice ​tančit​a​ tancovat, soustružit ​a ​soustruhovat​(viz Šlosar 1981, 58). {zatřpytit, zatřpytnout}, {zhasit, zhasnout}, {obstoupit, obstoupnout}, {odstoupit, odstoupnout}, {přistoupit, přistoupnout}. Teoreticky by bylo možné mít v těchto případech lemmata dvě. Bylo by ovšem třeba důsledně dodržet pravidlo, podle kterého by tvary na ​.*nut(ý) patřily k lemmatu {​.*nout, .*nutý​} a tvary ​.*[eě]n(ý) ​k lemmatu {​.*it, .*[eě]ný​} . Domníváme se ovšem, že jde-li o61 kolísání mezi konjugačními typy, pak je z hlediska analogie s případy jako oblečen(ý)/obléknut(ý) ​vícenásobné lemma případnějším řešením. Naopak v okrajových případech synonymních dvojice typu ​tančit/tancovat ​a ​soustružit/soustruhovat vykazují obě sady tvarů takovou míru autonomie (dané výraznou kmenotvornou příponou), že je u nich možné nadále ponechat lemmata dvě, přestože jde o synonymní slovesa. ​Návrh k typu 3 Existují-li dvě varianty infinitivu, které lze pokládat za synonymní a u jednotlivých tvarů slovesných subparadigmat nelze nikdy určit, ke kterému infinitivu/lemmatu se mají přiřadit (variantní i nevariantní tvary lze na základě analogie morfologického systému češtiny řadit k oběma variantním lemmatům), pak nechť je využit koncept vícenásobného lemmatu. Slovesa kolísající mezi typy ​krýt – prosit/trpět/sázet ​s variantním infinitivem na ​[íeě]t :62 {tlít, tlet}, {zetlít, zetlet}, {chvít, chvět}, {zachvít, zachvět}, {rozechvít, rozechvět}, {prochvít, prochvět}, {pozachvít, pozachvět}, {dochvít, dochvět}, {s(t) kvít, s(t)květ}, {zas(t)kvít,63 zas(t)květ}. Nepravidelná slovesa: {chtít, chtět}, {jíst, jest }, {najíst, najest}, {dojíst, dojest }, {pojíst, pojest}, {přejíst, přejest64 65 66 }, {zajíst, zajest}​. 61 Akademická gramatika spisovné češtiny (Štícha a kol. 2013, 486) uvádí ke slovesu ​chytit/chytnout​: „Trpné příčestí se tvoří výhradně podle vzoru ​prosit ​(viz Tvoření neurčitých slovesných tvarů).“ V korpusu SYN v7 jsou doloženy jen dlouhé/adjektivní tvary ​chytnutý ​(​Myslíte si, že ​byly​penalty špatně kopnuté nebo dobře ​?​). 62 Tento seznam by měl být uzavřený. Kromě uvedených sloves by k tomuto typu patřilo vulgární sloveso, které kolísá mezi typem ​krýt – trpět – dělat​, a má tudíž čtyři variantní tvary infinitivu: {​chčít, ščít, chcát, scát​}, {​vychčít, vyščít, vychcat, vyscat​}, .... 63 V korpusech řady SYN se tyto substandardní tvary okrajově vyskytují a jsou lemmatizovány lemmatem ​skvět​. 64 Substandardní infinitiv je homonymní s archaickým tvarem 3. osoby indikativu prézentu aktiva slovesa ​být​. V korpusu SYN v7 se doklady vyskytují​: Myslela, že budeme ​​šišky, a zatím jíme zemáky.​Jsou lemmatizovány chybně jako tvary slovesa ​být​. 65 Tvary jsou doloženy ve webovém korpusu řady Araneum. Doklady svědčí pro substandardní infinitiv slovesa dojíst​(​K tomu pochopitelne uz v rodine zazita hlaska: ​„​To se musi ​​“​, kterou babicka aplikuje vzdy, kdyz ji neco zbyva...​), ale i pro chybně graficky zaznamenané substantivum ​dojezd​(​... ale benzín mě vůbec v hadičce neproudí přitom hlavu a vše co k tomu patří jsem o pucoval nevíte co stím díkes a dobrej ​​všem ...​)​. 66 Tvary jsou doloženy ve webovém korpusu řady Araneum: „​Za chvíli bude oběd, takže se nesmíš moc ​, abys obědval.​“ Z mluveného úzu jsou známy i další prefigované varianty. Lze je najít na internetu (​projest ,67 ujest , vyjest ). Časté jsou ovšem případy, kdy různě graficky pojaté tvary mají význam68 69 slovesa ​jet​. Typ 4 Existují-li dvě varianty infinitivu, které lze pokládat za synonymní a které jsou jedinými variantními tvary, k nimž lze přiřadit pouze nevariantní tvary, pak nechť je využit koncept vícenásobného lemmatu. Do této skupiny patří: a) slovesa typu ​trpět/sázet ​ s variantním infinitivema na ​[íě]t :70 {bdít, bdět}, {bzdít, bzdět}, {čnít, čnět}, {čpít, čpět}, {doznít, doznět}, {hřmít, hřmět}, {lpít, lpět}, {od(e)znít, od(e)znět}, {pomnít, pomnět}, {proznít, proznět}, {rdít, rdět}, {rozeznít, rozeznět}, {setmít, setmět}, {souznít, souznět}, {tkvít, tkvět}, {tmít, tmět}, {ulpít, ulpět}, {utkvít, utkvět}, {vyčpít, vyčpět}, {vyznít, vyznět}, {zardít, zardět}, {zahřmít, zahřmět}, {zatmít, zatmět}, {zaznít, zaznět}, {znít, znět}, ​popřípadě další prefigované varianty​. ​V korpusu jsou doloženy i další lokální varianty jako například: ​{odpovědít, odpovědět}, {ubzdít, ubzdět}, {vědít, vědět}. b) Slovesa typu ​krýt​ s variantním infinitivema na ​[íeě]t :71 67 ​Má problém závislost na jídle a chlastu. Zkoušela sis s nim promluvit? Nemá zájem se změnit, kam až se chce ​na dva metraky nebo pres? 68 … ​mohla jsem se ​​rybích salátů ... 69 ​tak jsem včera byl ​ ​tu šelepku za pár peněz a musím říct, že dobrý, dost dobrý, za cenu dvou menu a dvou pivíček pecka. 70 Tento seznam by měl být uzavřený. 71 Tento seznam je uzavřený. {klít, klet }, {plít , plet}, {proklít, proklet }, {odít, odět }, {podít, podět }, {sít, set },72 73 74 75 76 77 {zaklít, zaklet }, {zít , zet }.78 79 80 c) Slovesa typu ​umřít ​s variantním infinitivema na ​[íeě]t​:81 {mlít, mlet}​, ​{semlít, semlet}​, {umlít, umlet}​, {podemlít, podemlet}​, {rozemlít, rozemlet}​, {namlít, namlet}​, {vymlít, vymlet}​, ​{omlít, omlet}​, {domlít, domlet}​, {přemlít, přemlet}​, {zamlít, zamlet}​, {promlít, promlet}​, {odemlít, odemlet}​, ​{předemlít, předemlet}​, {zmlít, zmlet}​,​ {přimlít, přimlet}​,​ {mlít, mlet}​,​ {mlít, mlet}​,​ {pomlít, pomlet}​. Závěr Jedním z kroků automatické morfologické analýzy užívané např. k tagování velkých korpusů je lemmatizace. V dosavadní praxi jsou výsledky automatické morfologické analýzy nekonzistentní v případě, že základní tvar / lemma je variantní (má více podob). Velmi komplikovaná je lemmatizace sloves, jejichž tvarosloví je z principu mnohem komplexnější než tvarosloví jmen. Na základě dosavadních mluvnických popisů, slovníků i jazykových korpusů jsme se zabývali otázkou variantnosti / synonymie infinitivu s ohledem na tvaroslovnou soustavu, kterou infinitiv reprezentuje. Na základě analýz popsaných výše konstatujeme, že konzistentní lemmatizace sloves se synonymními / variantními tvary v 72 Část dokladů jsou správně interpretované tvary pasivního příčestí, část jsou nerozpoznané variantní infinitivy interpretované mylně stejně a část jsou rozdělená slova. (​… budiž ​​! … Já teď kleju tak, jak jsem si nikdy nemyslil, že budu někdy ​​. Vše budeme ladit ​​nímu mistrovství světa …​). 73 Menší část dokladů jsou případy homonymního lemmatu ​plít​s významem ​plivat: Svíčky jak nahrbení skřítci těží tu hebký noční klid rubají tiše do všech stran pod nohy sobě budou ​ ​… Sám Antonín Václavík byl rodákem luhačovickým a připomíná, že v jeho dětství nebylo dovoleno ​ ​nebo močit do studánky či řeky. V jistých kruzích patří k dobrému tónu se s dalajlámou vyfotografovat, v jiných zas na něj ​ ​a lísat se k Číně. K této interpretaci samozřejmě variantní infinitiv ​plet ​vztáhnout nelze. 74 Většina dokladů jsou tvary pasivního příčestí správně rozpoznané automatickou morfolgickou analýzyou. Najdou se ovšem i tvary infinitivu: ​Na jevišti tak ožije příběh žen, které uměly pomoci a léčit, ale i uřknout a ​. ​I ty jsou interpretovány jako tvary pasivního participia. Naopak tvary ​zaklet​jsou v korpusu SYN v7 více méně všechny případy pasiva, ačkoliv infinitiv nelze vyloučit. 75 ​Tvar je homonymní s tvarem pasivního participia: „​A tak jako blesk z čistého nebe, či spíše z modrého Atlantiku, přišel rozkaz, že mám složit svých pět švestek, ​​parádní modř a být připraven k transportu do San Franciska!“ ​ale ​… Gudea je ​​do černé tuniky ... 76 ​Protože nebylo jasné, kam se vlastně mohli​​, prohledávali policisté okolí Jáchymova ... 77 Doklady jsou vesměs desambiguovány chybně a je jich poměrně málo (většina dokladů je buď na tvar číslovky ​sto​, nebo substantivum ​set​). Přesto se variantní infinitivy vyskytují:​ Stroj byl ale přepracován, takže je univerzální a může ​​jak do zpracované tak nezpracované půdy. Málo kdy se v tuhle dobu podaří, abychom mohli ​​. Výsevní ústrojí je mechanické (lze ​​mák i kukuřici) distribuce osiva je pneumatická. 78 Až na jediný (​Tak aš pudete do stráně a začne to bejt na zádech těšky, tak musite pořádně ​​, vono to udělá s rance hop a budete vidět, že pudete jako prázdny.​) jsou doklady v korpusu SYN v7 tvary pasivního příčestí. 79 O variantě ​zít/zet​svědčí doklady z korpusu SYN v7 z Deníku Bohemia (např. ​Celé léto bude ​zít​prázdnotou.​). Akademická gramatika spisovné češtiny (Štícha a kol. 2013, 481), řadí sloveso ​zet ​ke slovesům „bez alternace samohlásky v tvarotvorném základu“ (spolu se slovesy ​pět, spět​). Automatická analýza tvar ​zít ​řadí k nerozpoznaným tvarům. 80 ​Řekl bych, že bude akorát ​​prázdnotou. 81 Tento seznam je uzavřený. infinitivu vícenásobným lemmatem podle návrhu projektu NovaMorrf (Petkevič a kol. 2019) by neměla narazit na výrazné problémy, protože se většinou jedná o uzavřené skupiny sloves, jejichž výčet opřený o rozsáhlé korpusy máme k dispozici (viz výše). U uzavřených tříd je vždy možné zvažovat, nakolik je vhodné generovat i další prefigováné varianty, které nejsou doloženy ve sledovaných korpusech. Proti hovoří fakt, že se někdy může jednat buď o překlepy , nebo o homonymní tvary . Naším cílem není tedy tvrdit, že se všechna výše82 83 uvedená data mají zaznamenávat v morfologickém slovníku, ale ukázat, že pokud zaznamenávána budou, pak by se tak mělo dít konzistentně. Literatura Babincová, Adriana (2017): ​Morfologické varianty jako problém strojové analýzy češtiny. Brno: FF MU. ​https://is.muni.cz/auth/th/o7kzm/ (Nepublikovaná bakalářská práce pod vedením K. Osolsobě.) Cvrček, Václav a kol. (2010): ​Mluvnice současné češtiny ​1. Praha: Nakladatelství Lidové noviny. Hajič, Jan (2004): ​Disambiguation of Rich Inflection (Computational Morphology of Czech)​. Vol. 1. Praha: Karolinum Charles University Press. Hajič, Jan and Hlaváčová, Jaroslava (2013). ​MorfFlex CZ​, LINDAT/CLARIN digital library at Institute of Formal and Applied Linguistics, Charles University in Prague, http://hdl.handle.net/11858/00-097C-0000-0015-A780-9​. Hlaváčová, Jaroslava (2009): ​Formalizace systému české morfologie s ohledem na automatické zpracování českých textů​. Disertační práce. Praha: UK. Dostupná z:. http://utkl.ff.cuni.cz/phpBB3/viewtopic.php?f=11&t=1​. Komárek, Miroslav a kol. (1986): ​Mluvnice češtiny ​2​ ​(​MČ ​2)​.​ Praha: Academia. Osolsobě, Klára (1996): ​Algoritmický popis české formální morfologie a strojový slovník češtiny​. Disertační práce. Brno: MU. Osolsobě, Klára, Hlaváčková Dana, Pala Karel a Šmerk Pavel (2009): Exploring Derivational Relations in Czech with the Deriv Tool. In ​NLP, Corpus Linguistics, Corpus Based Grammar Research​. Bratislava, Slovakia: Tribun, s. 152–161. Osolsobě, Klára (2011): ​Morfologie českého slovesa a tvoření deverbativ jako problém strojové analýzy češtiny​. 1. vyd. Brno: Masarykova univerzita. Osolsobě, Klára a Hana Žižková (2016): Automatická morfologická analýza z hlediska pokrytí a nepokrytí morfologických variant. In ​Korpusová lingvistika Praha 2016, Od mluvené češtiny k psané, 17. září 2016​, Praha. 82 Např. ve webových korpusech se vyskytuje tvar ​načtnout​, a to nikoli jako variantní infinitiv k ​načíst​, ale jako překlep za ,​načrtnout​‘. 83 Například tvary pasivních příčestí na ​t​(​odět, podět, zaklet, ...​). Osolsobě, Klára a Hana Žižková (2020): Reduplikace v etymologické figuře typu hlava nehlava jako konvenční model pro kreativní idiomatické tvoření. In ​Konwencja i kreacja w języku i w literaturze czeskiej​. ​Poznaň, ??-??. Osolsobě, Klára, Hlaváčová Jaroslava, Petkevič Vladimír, Šimandl, Josef , Svášek Martin (2017): Nová automatická morfologická analýza češtiny. ​Naše řeč​, AV ČR, Ústav pro jazyk český, 2017, roč. 2017, č. 4, s. 225–234. Petkevič, Vladimír, Hlaváčová, Jaroslava, Osolsobě, Klára, Svášek, Martin, Šimandl, Josef (2019): Parts of speech in NovaMorf, a new morphological annotation of Czech. ​Journal of Linguistics / Jazykovedný časopis​, 2019, Vol. 70, No. 2, s. 358–369. Šlosar, Dušan (1981): ​Slovotvorný vývoj českého slovesa. ​Brno: UJEP. Šmilauer, Vladimír (1972): ​Nauka o českém jazyku. ​Praha: SPN. Štícha, František (ed.) (2013): ​Akademická gramatika spisovné češtiny. ​Praha: Academia. Volková, Nikol (2017): ​Vybraný problém homonymie slovesných tvarů z hlediska automatické morfologické analýzy​. Brno: FF MU. ​https://is.muni.cz/auth/th/nrfef/ (Nepublikovaná magisterská práce pod vedením K. Osolsobě). Ziková, Markéta (2016): When Prosody Follows Syntax: Verbal Stems in Czech. ​Linguistica Brunensia​, Brno: Masarykova univerzita, 2016, roč. 64, č. 1, s. 163–185. Použité korpusy a další elektronické zdroje Cvrček, V. – Vondřička, P. (2013): ​Morfio​. FF UK. Praha 2013. Dostupný z WWW: <​http://morfio.korpus.cz​.> Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A. (2018): ​Korpus SYN, verze 7 z 29. 11. 2018​. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz​. Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): ​The SYN-series corpora of written Czech​. In ​Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14)​, s. 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. Benko, V. (2015): Srovnatelné webové korpusy Aranea. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: <​http://www.korpus.cz​>. Benko, V. (2014): Aranea: Yet Another Family of (Comparable) Web Corpora. In: Sojka, P. – Horák, A. – Kopeček, I. – Pala, K. (eds): ​TSD 2014​, LNAI 8655, s. 257–264. Springer International Publishing. Czech Web 2017 (csTenTen17). Czech web corpus crawled by SpiderLing in May, October and November 2017, October and November 2016, October and November 2015. Czech Wikipedia downloaded in November 2017. Encoded in UTF-8, cleaned, deduplicated, tagged using majka+desamb pipeline v2. Dostupný z WWW: <​https://app.sketchengine.eu/#dashboard?corpname=preloaded%2Fcstenten17_mj2​>. Internetová jazyková příručka. Dostupná z WWW: <​http://prirucka.ujc.cas.cz/​>. Šmerk, P. (2009): ​Deriv – webové rozhraní​.​ ​Dostupné z: <​http://deb.fi.muni.cz/deriv​>.