1 Formální pravidla derivace deverbativ na –č Klára Osolsobě osolsobe@phil.muni.cz Úvod Cílem studie je otestovat možnosti algoritmizace slovotvorných postupů a ověřit tak možnosti automatizace vytváření alespoň některých částí derivačního slovníku češtiny. Prostředkem ke zvolenému cíli bude rozbor jednoho derivačního typu jmen odvozených od sloves sufixem –č. Při analýze budeme používat webové rozhraní Deriv vytvořené na FI MU, které pro generování možných derivačních vztahů používá slovník automatického morfologického analyzátoru ajka (Sedláček, 2004), a data získaná z korpusů ČNK (SYN2000, SYN2005, SYN2006PUB). Pokusíme formulovat pravidla použitelná jak při extrakci dat ze slovníků morfologického analyzátoru ajka prostřednictvím Deriv, tak při formulaci dotazů pro získání příslušného materiálu z jazykových korpusů. Výsledkem by měla být a) formulace formálních pravidel pro derivaci deverbativ tvořených sufixem –č, b) vytvoření co nejrozsáhlejšího seznamu torzovitě popsaných popřípadě málo doložených a ve slovnících nezachycených výjimek a anomálií, který pomůže zpřesnit empiricky navržená pravidla, c) vytvoření pokud možno co nejrozsáhlejšího seznamu možných homonymií generovaných automaticky při aplikaci navržených pravidel. 1. Ajka Derivační rozhraní Deriv (http://nlp.fi.muni.cz/projekty/ajka/cjbb85/) je nástroj vyvinutý na FI MU, který umožňuje jednoduchým způsobem vyhledávat ve strojovém slovníku automatického morfologického analyzátoru ajka (Sedláček, 2004) lemmata podle formálně zadaných pravidel (úvodní řetězec, koncový řetězec, morfologická značka) a vytvářet touto cestou seznamy slov, která s velkou mírou pravděpodobnosti patří k jednomu derivačnímu typu, respektive jsou tvořena jedním derivačním prostředkem. Se seznamy lze následně pracovat, je možné je prohlížet ve dvou modech, a to jako prosté seznamy nebo jako seznamy s uvedením frekvence vyhledaných jednotek v korpusu SYN2000 (viz níže). Nástroj tedy umožňuje rychlé prohledání a extrakci dat z rozsáhlého strojového slovníku českých kmenů (Osolsobě, 1996, Sedláček, 2004), je propojen s korpusem SYN200 (100 milionů slovních tvarů), a umožňuje tak v korpusu ověřovat frekvenci jednotek zahrnutých ve strojovém slovníku. Poznámka: Strojový slovník češtiny (Osolsobě, 1996) byl vybudován na základě hesláře SSJČ a doplněn o řadu dalších slov na základě testování aplikací automatických morfologických analyzátorů lemma (Ševeček, 1996) a 2 ajka (Sedláček, 2004) na korpusech češtiny (korpusy ČNK, korpusy budované na FI MU). Strojový slovník analyzátoru ajka zahrnuje zhruba 400 000 jednotek (kmenů), k nimž na základě formálních pravidel (deklinačních vzorů) generuje 6 milionů slovních tvarů. 2. Analýza materiálu V tomto oddíle ukážeme, jak lze využít nástroje Deriv ke zjišťování relevantních informací o dvojicích sloveso – potencionální odvozené substantivum. Po přihlášení (uživatelské jméno/heslo) v Deriv zvolíme z nabídky funkci Hledání slov podle pravidla. Nejdříve zadáme do nabídky příkaz pro vyhledání slov končících na -t a majících značku k5.* (sloveso) a uložíme je do souboru (1). Pak zadáme příkaz pro vyhledání slov končících na –č a majících značku k1gM.* (substantivum, maskulinum životné) a uložíme je do souboru (2). Vytvořené soubory (1) a (2) sloučíme a vytvoříme z nich soubor jeden (3). Na takto vzniklý soubor použijeme funkci Hledej základová slova a zadáme, že chceme v příslušném souboru najít dvojice slov takových, že jeden člen páru končí na –t a druhý je slovo vzniklé odtržením –t a jeho nahrazením –č. Dále aplikujeme funkci Rozdělení souboru a získáme dva soubory, jeden, který obsahuje nalezené dvojice (4) a druhý, který obsahuje zbylá slova, ke kterým se nepodařilo najít podle příslušného pravidla slovo do „páru“ (5). Soubor (4) pak obsahuje kandidáty na hledaný derivační typ. Poznámka: Přegenerování (případům, které jsou z hlediska automatické morfologické analýzy homonymní s tvary generovanými podle zadaného pravidla) dvojic typu *klít/klíč, *mít/míč a *mlít/mlíč se vyhneme zadáním morfologické značky (k1gM.* - maskulinum životné), dvojici kout/kouč je třeba zařadit k výjimkám. Popsaným postupem získáme seznam, který zahrnuje 720 dvojic. Z dvojic sloveso – činitelské jméno nezahrnuje ty, pro které neplatí jednoduše formulované vyhledávací pravidlo, tedy z lingvistického hlediska případy, kdy formantem činitelského jména není pouze sufix -č a odvozovacím základem není kmen (! infinitivní) /kořen slovesa, ale kdy při derivaci dochází k hláskovým alternacím, a to buď k alternacím kořenového vokálu (KoS), anebo kmenového vokálu (KmS). Poznámka: Přegenerovávání v případě dvojice halit/halič je třeba přičíst na vrub chybě morfologického analyzátoru ajka (substantivum halič (!h) se interpretuje jako maskulinum životné. U dvojice koč/kot (k1gM.*.) je chybou derivačního nástroje, který při aplikaci funkce Rozděl soubor nepracuje s morfologickými značkami. Totéž platí o dvojici myč/myt, (myt - tvar pasivního t-ového participia), jimž bychom se mohli vyhnout při aplikaci funkce Hledání slov podle pravidla specifikací značky k5.*mF (infinitiv). 2.1 Alternace KoS a KmS a možnosti jejich vyhledávání - Deriv 3 V této části přihlížíme ke ze studie (Klímová, Štícha, 2006). K popisu derivace deverbativ na -č uvedenému v této studii jsme na mnoha místech navrhli úpravy a doplnění. 2.1.1 Samohláskové alternace KmS Pro vyhledávání dvojic s alternací KmS lze pro automatický analyzátor formulovat příslušná pravidla poměrně jednoduše, protože alternující vokál předchází bezprostředně před sufixem –č, a při vyhledávání podle koncového řetězce znaků lze zadat místo jednoho znaku (-t > -č) znaky dva. Sledujeme-li systém českých slovesných tříd, pak zjistíme, že lze doložit pravidelné alternace kmenového vokálu –a-t/-á-č u několika sloves první třídy podle kmene přítomného (vzory brát a mazat : orat/oráčt, mazat/mazáč), a u sloves páté třídy podle kmene přítomného vzoru dělat/kopat (kopat/kopáč). Samohláskovou alternaci KmS má substantivum derivované od slovesa mlít, které bývá zařazováno buď jako nepravidelné (Šmilauer, 1971), nebo jako sloveso první třídy podle kmene přítomného vzor umřít (Komárek, 1986). Alternace jsou též doloženy u malé skupiny nepravidelných sloves čtvrté třídy podle kmene přítomného s dlouhou KmS –í-t/-i-č (mstít/mstič). 2.1.2 Samohláskové alternace KoS Formulace pravidel pro automatický analyzátor je poměrně snadná v případě, že kořenový vokál bezprostředně předchází před sufixem –č, tedy z lingvistického hlediska v případě sloves třetí třídy podle kmene přítomného vzory krýt (mýt/myč). Poměrně složitější je formulovat pravidla alternací KoS v případě, že KoS bezprostředně nepředchází před sufixem –č. Jde o některá slovesa 4. třídy vzor prosit : typ loupit/lupič, o slovesa vzoru sázet, která mívají dublety : typ sázet/s(a|á)zeč a o slovesa 1. a 5. třídy vzorů mazat/brát a dělat, která mívají rovněž dublety : typ (a) vázat/vazač / vzpírat/vzpěrač a typ (b) uspávat/usp(á|a)vač. 2.2 Typy alternací KmS a KoS stojících bezprostředně před sufixem –č 2.2.1 Alternace KmS .*(a|e|ě|i|í)t.>.*(á|e|ě|i)č Poznámka: Nadále budeme užívat regulární výrazy obvyklé pro práci s korpusovými manažery (např. Bonito, Rychlý, 2000) i jinými aplikacemi. Deriv, funkce Hledání slov podle pravidla pracuje se zadáním, které používá regulární výrazy. Znak „.“ se užívá pro libovolný znak (písmeno), znak „*“ za libovolné opakování předchozího znaku, znak „|“ znamená „nebo“ (disjunkce), znak „&“ znamená „a současně“ (konjunce). .*at/.*áč .*ít/.*eč .* (e|ě)t/.*ič .* it/.*(e|ě)č .*ít/.*ič kopat/kopáč mlít/mleč držet/držič obalit/obaleč mstít/mstič 22-4=18* 1** 1*** 1**** 1 *Poznámka: Čtyři automaticky generované případy nelze pokládat za deriváty sloves, nýbrž jsou odvozeny od substantiv : *klepetat/klepeto/klepetáč, *krkat/krk/krkáč (z něm. Geizhals), *volat/vole/voláč, a patří tedy do kategorie substantiv podle význačné části, nebo od adjektiva (*zelenat/zelený/zelenáč), patří do kategorie nositel vlastnosti. 4 ** Poznámka: Chybám typu *klít/kleč, *lít/leč, *sít/seč se vyhneme zadáme-li morfologickou značku (k1gM.* maskulinum životné). Zabráníme tak mylnému vyhledání feminin, která jsou homonymní s automaticky generovatelnými deverbativy. Analyzátor nevyhledá dvojici plít/pleč (srv. níže). *** Poznámka: Zdá se, že od sloves 4. třídy podle kmene přítomného vzoru trpět se deverbativa na –č téměř netvoří. **** Poznámka: Tento typ doložený pouze jediným dokladem je sporný proto, že za fundující sloveso substantiva obaleč se pokládá obalit, tedy sloveso dokonavé (srv. níže). 2.2.2 Alternace KoS .*(í|ý)t.>.*(i|y|e)č .*ít/.*ič .*ýt/.*yč .*ít/.*eč šít/šič mýt/myč 3-2* 1 0 * Poznámka: Zařazení substantiva dojič a jeho domnělá fundace verbem dojít nás vedla k následující úvaze. Domněle fundující sloveso dojít je slovesem dokonavým. Deverbativa kategorie činitelských jmen tvořená sufixem –č jsou v naprosté většině případů tvořena od sloves nedokonavých (srv. Šmilauer, 1971, s. 27, Dokulil, 1986, s. 237). Zdá se, že by bylo možné zabránit automatickému generování chybné interpretace zavedením pravidla, které by vyloučilo práci se slovesy dokonavými (konkrétně při výběru slov na –t ze slovníku ajky vybrat podle značky pouze slova se značkou k5aImF – infinitivy nedokonavých sloves). Rozbor feminin (?přechýlených jmen činitelských např. hráčka, šička, plečka a ženských názvů prostředků např. hračka, pračka, plečka) jsme v této studii ponechali stranou, ačkoliv jde o velmi zajímavou problematiku zejména z hlediska hláskových alternací. 2.3 Typy alternací KoS nestojících bezprostředně před sufixem –č 2.3.1 Typy alternací KoS sloves na -it .*á.it/.*a.ič .*í.it/.*i.ič .*ou.it/.*u.ič .*ý.it/.*y.ič .*í.it/.*ě.ič pálit/palič řídit/řidič loupit/lupič 5* 2 6 0** 0** * Poznámka: Započítány jsou i případy .*á..it/.*a..ič (dlážďit/dlaždič). ** Poznámka: Vzhledem k tomu, že existují slovesa bílit i bělit a činitelská jména bílič i bělič, dáváme pro synchronní popis jazyka přednost interpretaci bílit/bílič a bělit/bělič a nepředpokládáme alternace KoS .*í.it/.*ě.ič. Pro automatickou morfologickou analýzu (a nejen pro ni) jsou problematické dvojice sloves inchoativum/faktitivum např. tupět/tupit, jejichž významový rozdíl se často stírá (srv. Šmilauer, 1971, s. 157, a také interpretaci slovesa bělet v SSJČ : „bělet 1. …stávat se bílým …; 2. (co) činit bílým: kávu b. mlékem…“). Činitelská jména se logicky tvoří od faktitiv. Rovněž nebyly doloženy alternace typu .*ý.it/.*y.č (např. sloveso hýřit/*hyřič). 2.3.2 Typy alternací KoS sloves na souhlásku -t .*áCt/.*a.eč .*éCt/.*e.ač klást/kladeč plést/pletač 1 1 Poznámka: „C“ užíváme za libovolný konsonant, tedy (b|c|č|d|f|g|h|j|k|l|m|n|ň|p|q|r|ř|s|š|t|ť|v|w|x|z|ž), skutečně doloženy jsou pouze případy (c|s|z). Jde o deverbativa od sloves 1. třídy podle kmene přítomného vzorů nést/péct. Jak dokládají další (i neživ.) deverbativa na -č, samohláskou vkládanou mezi kmen zakončený na 5 souhlásku a sufix –č může být jak –a- nebo –e- (viz výše), tak –á- (srv. např. péct/pekáč - .*éCt/.*e.áč, nebo ?síct(sekat)/sekáč - .*íCt/.*e.áč). Dokladem pestrosti alternujících KoS může být i hníst/hnětač (.*íCt/.*ě.ač). 2.3.3 Typy alternací KoS sloves na -(e|ě)t .*á.(e|ě)t/.* (a|á).(e|ě)č .*í.(e|ě)t/.* (i|í).(e|ě)č sázet/s(a|á)zeč odklízet/odkl(i|í)zeč 16+1* 1 * Poznámka: Fundace substantiva povaleč perfektivním slovesem poválet (perfekt.) je sporná (srv. výše). Poznámka: U deverbativ s KoS –ou- (vysoušeč, ostouzeč, zkoušeč, pokoušeč, spouštěč, ...) nebyl doložen případ alternace. Rovněž jsme nenašli případ alternace KoS .*í. (e|ě)t/.*(e|ě).(e|ě)č. 2.3.4 Typy alternací KoS sloves na -at .*á.at/.*a.ač .*í.at/.*ě.ač .*í.at/.*i.ač .*ou.at/.*u.ač .*ý.at/.*y.ač vázat/vazač vzpírat/vzpěrač stříhat/střihač foukat/fukač ohýbat/ohybač 27* 24 9 7* 4 * Poznámak: V uvedeném počtu jsou zahrnuta pouze slovesa, která nekončí na –ávat. ** Poznámka: Započítány jsou i případy .*ou..at/.*u..ač (poslouchat/posluchač). 3. Porovnání možností a výsledků Deriv a korpusových sond Deriv je poměrně výkonný nástroj, odhalí však pouze případy, kdy jsou oba členy vyhledávané dvojice uvedeny ve strojovém slovníku kmenů. Sondy do korpusů ovšem ukazují, že by bylo žádoucí, aby bylo možné pracovat s potencionálně generovatelnými tvary (pravidly pro odvozování příslušných dvojic) a s korpusy jako zdroji dat pro ověřování existujících derivátů. V následující kapitole proto ukážeme bohatství existujících korpusů. Ukážeme, jak je možné poloautomaticky (použitím formálních pravidel) vyhledávat v korpusech kandidáty na analyzovaný derivační typ, a to především mezi slovy, kterým automatická morfologická analýza nepřiřadí správnou značku. 4. Korpusy ČNK Jazykové korpusy představují v současnosti uznávaný a preferovaný zdroj dat nejrůznějších lingvistických observací. V této studii budeme sledovat, jak mohou korpusy psaného jazyka (češtiny) pomoci při přípravě podkladů pro pravidla automatické derivace zvoleného typu. Budeme pracovat s korpusy SYN2000, SYN2005 a SYN2006PUB. Pokusíme ukázat, jakým způsobem lze z lemmatizovaných a morfologicky anotovaných korpusů shromáždit co nejrozsáhlejší materiál pro studium vybraného derivačního typu (odd 4.1) a jak lze zužitkovat i nedostatky automatické morfologické analýzy (odd 4.2). 4. 1 Pravidla pro vyhledávání 6 Sledované korpusy jsou anotovány na rovině tzv. morfologického značkování a jsou lemmatizovány (Hajič, 2004). Uvedeme systematický postup vyhledávání kandidátů derivačního typu jmen činitelských tvořených sufixem –č v korpusech označkovaných automatickým analyzátorem J. Hajiče (dále HA). Pokud tedy chceme tyto kandidáty v korpusu vyhledat, pak můžeme zvolit následující postup: Vyjdeme z předpokladu, že činitelská jména tvořená sufixem –č jsou maskulina životná. Tím je odlišíme od slovotvorně stejně tvořených a někdy homonymních jmen prostředků (např. nosič). Do dotazovacího řádku zadáme následující dotaz. [lemma=“.*č“ & tag=“NNM.*“] Prozkoumáme-li výsledky (statistický přehled lemmat), pak můžeme na základě empirických dat formulovat pravidlo č. 1: Pokud u substantiva maskulina životného končícího na –č předchází před –č souhláska, pak se nejedná o činitelské jméno. Použitím negativního filtru odstraníme konkordantní řádky. N/filtr [lemma=“.*(b|c|č|d|ď|f|g|h|j|k|l|m|n|ň|p|q|r|ř|s|š|t|ť|v|w|x|z|ž)č“] (Odstraníme případy jako např. Renč, pinč, komanč, ...) Dále můžeme formulovat pravidlo č. 2: Pokud u substantiva maskulina životného končícího na –č předchází před –č samoláska o-, ó-, u-, ů-, (ú-), é- , pak se nejedná o činitelské jméno. Použitím negativního filtru odstraníme konkordantní řádky. N/filtr [lemma=“.*(o|u|ů|ú|ó|é)č“] (Odstraníme substantiva jako Bezruč, kouč, Koč, roztoč, ...) Empiricky lze dále zjistit, že soubor obsahuje množství proprií (zejména jména na –ič), která nejsou deverbativy. Apelativa (tedy i jména činitelská na -č) mohou fungovat jako propria (srv. např. příjmení typu Mazáč, ...). Ruční analýzou seznamu, který jsme získali použitím p-filtru pro vyhledání slov, jejichž lemma je velké písmeno (propria), jsme získali 590 lemmat. Pouze k několika (např. Tkáč, Klapáč, Klepáč, Kováč, Mazáč, Řezáč, ?Radič, ?Prudič, Hajič, ?Bulič, ?Pulič, ?Zvonič) by bylo možné tvořit česká slovesa. Problematiku vlastních jmen ponechává tato studii stranou. Přistoupili jsme tudíž k odstranění proprií, přičemž jsme vyšli z lemmatizace (lemma začíná velkým písmenem). N/filtr [lemma=“(A|Á|B|C|Č|D|Ď|E|É|F|G|H|I|Í|J|K|L|M|N|Ň|O|Ó|P|Q|R|Ř|S|Š|T|Ť|U|Ú|V|W|X|Y|Z|Ž).*č“] (Odstraníme vlastní jména, především jihoslovanská na –ič : Karadžič, ...) Na základě další analýzy empirických dat můžeme formulovat pravidlo č. 3.: Pokud u substantiva maskulina životného končícího na –č předchází před –č samoláska á-, jde poměrně často o desubstantiva (jména podle význačné části/znaku) typ hlaváč, nebo o deadjektivní názvy nositelů vlastností typ zelenáč. Pomocí pozitivního filtru lze vytvořit seznamy, ty je pak třeba ručně analyzovat. P/filtr [lemma=“.*áč“ ] Konkordance>Statistiky>Frekvenční distribuce .*áč činitelská ostatní 7 SYN2000 56 17* 39 SYN2005 50 29** 21 SYN2006PUB 58 20*** 38 *hráč/32016, spoluhráč/2210, protihráč/447, rváč/209, spáč/198, kopáč/164, sekáč/108, oráč/70, voráč/67, štváč/55, sráč/51, česáč/14, kokrháč/6, srdcerváč/4, řezáč/4, práč/3, zváč/2. Poznámka: V případě deverbativa sekáč upozorňujeme na možnou homonymii v rodě (sekáč – prostředek např.: na tu že by musel a kladivem, i na možnou homonymii seconhand-sekáč např.: . ... sekáči kupují v .... První z nich automatická morfologická analýza reflektuje, výsledky disambiguace příslušné homonymie nejsou ovšem příliš uspokojivé. Druhá na rovině morfologické analýzy pochopitelně reflektována není. Substantivum voláč je termínem z oblasti zoologie holub voláč a jde o desubstantivum (od vole, -ete) nikoli o deverbativum (srv. např. SSJČ, PSČ). Substantivum zelenáč není derivováno od slovesa zelenat se, ale od adjektiva zelený. ** hráč/16822, spoluhráč/1673, rváč/331, protihráč/317, spáč/293, kopáč/203, smrkáč/157, oráč/126, sráč/110, sekáč/102, česáč/102, štváč/60, řezáč/41, voráč/28, hrabáč/22, práč/11, srdcerváč/10, žráč/10, makáč/5, kokrháč/5, psáč/2, nahraváč/2, smáč/1, ochutnáváč/1, odzdisráč/1, načesáč/1, exspoluhráč/1, vrzáč/1, jakobyspoluhráč/1. Poznámka: V případě substantiv načesáč/1 a jakobyspoluhráč/1 jde o okazionalismy, jak vysvíta z kontextu ( ...Na počátku byl sen a slova „naháči a “, která napadla spisovatele Františka Zborníka..., ...že své < jakobyspoluhráče > nesekal hokejkou...). Substantivum poslucháč(5) pochází ze slovensky psaných textů. U substantiv nahraváč (2), ochutnáváč (1) jde patrně o překlepy nikoli o alternace KmS. U substantiva visáč(1) z kontextu plyne, že jde o univerbizaci za visací zámek mylně analyzovaný automatickou morfologickou analýzou jako tvar maskulina životného. Zdá se, že automatická morfologická analýza opřená o přesnější popis pravidel derivace by neměla generovat k substantivu visáč fundující sloveso (viset/*vis(i|e)č nebo *visat/visáč). Substantiva klepetáč a voláč (viz výše) nejsou deverbativy (nejsou odvozena od verb klepetat, volat). O substantivech sekáč, zelenáč platí to, co bylo řečeno v předešlé poznámce. *** hráč/160675, spoluhráč/3880, protihráč/2320, rváč/1047, kopáč/563, spáč/458, oráč/258, sekáč/201, sráč/173, voráč/151, štváč/113, řezáč/74, česáč/51, superhráč/27, práč/22, srdcerváč/19, hrabáč/14, smrkáč/9, kokrháč/8, zváč/1. Poznámka: O substantivech sekáč, zelenáč a voláč platí to, co bylo řečeno v předešlých poznámkách. V následující tabulce uvádíme počty kandidátů na činitelská jména (KČJ) v jednotlivých sledovaných korpusech, počty lemmat na –č, substantiv, která nelze interpretovat jako činitelská jména (NČJ) získané ruční analýzou, počty činitelských jmen na –áč získaných ruční analýzou (viz výše) a celkový počet správně lemmatizovaných (maskulina životná) jmen činitelských na –č (kromě proprií). KČJ NČJ činitelská na -áč CELKEM ČJ SYN2000 374 4* 17 387 SYN2005 738 73** 29 694 SYN2006PUB 449 6*** 20 462 * carevič, čuvač, knírač a proprium Dědič. Poznámka: Váhali jsme se zařazením substantiva trubač. V MČ 1 (srv. Dokulil, 1986 s. 237) se uvádí, že : „Přípona –č má řídce užívané varianty –ač: trubač, vozač a –eč: kladeč.“ Pokud by mělo být v rámci popisu 8 derivace uvedeno fundující sloveso, museli bychom mít pro uvedené a další případy zvláštní pravidlo pro deverbativa s okrajovou alternací KmS .*it/>.*(a|á)č (troubit/trubač, vozit/vozač, obdobně i pro neživ. kropit/kropáč). ** carevič, dědič (Dědič), knírač, rač(tvar rači=raději), apač (Apač), čuvač, znič (zničeho/znič nic), vozač, uvnič (místo uvnitř), čeč (člověče/čeč), vůbeč (místo vůbec), pumlič, prič, žeč, novořeč, borisyč (Borisyč), prrryč (pryč), taj-č, brič, 90,90Kč, prostorovič (vlastní jméno - překlep), babič (tvar babičy), vobyč, knihotlač, prostředníč (prostředníče/prostředníč/NNMS1.* správně má být : prostředníče/prostředník/NNMS5.*), hódžič (hódžiča . druh čaje), dutič, zkrenčič, skřenčič, krač, palač, tovnič, před-č, mič (Hoto no mič), pohlčovač, visielač, 900.000Kč, něčeho-něč, mučač, snoubič, mopač, čoveč, mělič, jiného-něč, 14Fryč, bač (tvar i bačov sb. bača), izolač, plyč, slépič, spotykač, šeč, síč, michajlyč, krč (rrr), zarobič, llkovič, basmač, prčič (do prčič), popovič, božič, čača/ča-č, tlačtlač, 150000Kč, tai-č, mitryč, oči-č, pič (vesměs tvary substantiva piča), břitvač, poněvač, neč (tvar nečeho), rapač, tarač, pyč, martinyč (Martinič), martynyč (Martynyč). Poznámka: Jak je patrné jde o řadu náhodných překlepů (často ve vlastních jménech), o chyby proti normě naznačující vady výslovnosti, o problematicky tokenizované tvary. Zdá se, že řada mylně zahrnutých tvarů se sem dostala při testování guesserů (viz níže). Otázkou, kterou si klademe, je, kolik z těchto tvarů je takových, že by mohly být deverbativními tvary od běžných českých sloves. Odpověď může být zajímavá proto, že by měla odhalit možné chyby, jichž by se mohl dopustit automatický generátor deverbativ. Mezi výše uvedenými lemmaty jsme empiricky zjistili pouze následující: dědit/dědič, znít/znič, mít/mič, snoubit/snoubič, bát/bač, sít/síč, prčit/prčič, pít/pič, ?prostřednět/prostředníč. Ke všem ostatním by nemělo být nalezeno ve slovníku kmenů příslušné sloveso. Případ zničeho/znič/NNM.* by dle našeho názoru vyloučilo pravidlo, které nepřipouští u příslušného typu zakončení –eho. Týž přístup by bylo možné aplikovat u případu bačov/bač/NNM.*. Ostatní případy lze ovšem pokládat za kandidáty homonym generovaných a potažmo rozpoznávaných automatickou morfologickou analýzou. Chybám jako *prostřednět/prostředníč by se dalo zabránit aplikací pravidel alternací KmS. Zajímavé je z tohoto hlediska substantivum snoubič, o němž z příslušného kontextu vysvítá, že se jedná o slangový výraz derivovaný zkracováním a grafickou adaptací od anglického snowboard. Internetové diskuse o tomto slově ovšem svědčí o tom, že i rodilé mluvčí napadne souvislost se slovesem snoubit, přestože slovníky (PSJČ, SSJČ) dokládají pouze snubič . *** carevič, čuvač, knírač a propria Dědič, Gluščevič, Zuvač. 4.2 Co mohou korpusy doplnit k informacím uváděným ve slovnících a potažmo i v automatických analyzátorech Korpusy jsou značkovány automatickými morfologickými analyzátory budovanými na základě slovníků kmenů, které se opíraly o dostupné slovníky a další datové zdroje. Řadu slov z periferie slovní zásoby zachycenou ve strojových slovnících analyzátory rozpoznávají. S periferními výrazy nezachycenými ve strojových slovnících pracují různě. Naším cílem bylo zjistit, jak pracuje automatická analýza se slovy/slovními tvary, které nejsou uvedeny ve slovníku automatického analyzátoru. Zvolili jsme jednoduchý postup. Vyhledali jsme všechna slova, jejichž lemma končí na .*č a která nejsou označkována jako maskulina životná a všímali jsme si značek. Kromě jmen prostředků (tlumič, pohrabáč, 9 zesilovač), neživotných nositelů vlastností (?listnáč, pečenáč, uzenáč) a substantiv nazvaných podle význačné části (ucháč, …), popřípadě desubstantivních názvů prostředků (květináč, ...) bylo třeba vyloučit feminina (řeč, síč, leč, …), zájmenné spřežky (oč, nač, zač, seč, več, ...), neohebná slova (pryč, jináč, leč, vniveč, napříč, heč, ...), zkratky (vč., tč., kč, Kč, ...). Kromě řady překlepů (slova spojená, rozdělená a jinak špatně napsaná) obsahoval takto vytvořený seznam předpokládané kandidáty na příslušná deverbativa. V korpusu SYN2000 a v korpusu SYN2006PUB měla tato slova většinou značku X.*. Poznámka: Morfologický analyzátor Jana Hajiče (Hajič, 2004) použitý pro značkování ČNK pracuje se značkou XX.*/X@.* - neznámé slovo. Analýza takto označených jednotek může sloužit a slouží k úpravám automatických nástrojů (rozšiřování slovníku kmenů). Jiná je situace v korpusu SYN2005, kde jsme si v seznamu získaném stejným postupem u slov, která lze pokládat za deverbativa tvořená sufixem –č, povšimli poměrně velmi vysoké frekvence značky Db.* (adverbium nestupňovatelné). Poznámka: Při značkování korpusu SYN2005 byly použity tzv. guessery, tj. automatické programy zaměřené na „uhadování“ informace u slov, kterým automatický analyzátor nepřiřadí ani jednu interpretaci. Tyto automatické nástroje mohou být založeny na různých přístupech (lingvistických, statistických, kombinovaných) (srv. Hlaváčová, 2001). Seznamy získané popsaným postupem zahrnují v naprosté většině případů jména činitelská a jména prostředků. Častá jsou mezi nimi kompozita. Kromě názvů osob (jména činitelská) a věcí (jména prostředků) se okrajově vyskytly termíny z oblasti zoologie a botaniky. Obvykle jde o organicky tvořená slova, někdy kalky termínů (controler/řídič, dreamer/snič), profesionalismy (krýč), slangové výrazy (pařič, kalič) a okazionalizmy (žíč). Druhou největší skupinu tvoří překlepy, mezi nimiž se poměrně často objevují nesprávně tokenizované tvary končící na Kč (např. 000Kč), dále slova rozdělená (např. bezpeč, nářeč, pokrač, silnič, ...) a okrajově i slova spojená (např. zmeškáčeskýhráč). Méně se vyskytují slova odvozená od substantivního/adjektivního základu. Mezi nimi jsou dosti časté případy, které lze interpretovat jako univerbizaci, často jde o okazionalizmy a výrazy příznakové (např. demáč, prdeláč, kafáč, cibuláč ,... ). Z beletristických textů pocházejí slova, která graficky zachycují vady výslovnosti (např. žeč, šeč, ...) a případy infinitivů jiných slovanských jazyků na –č (např. rozstřelač, oddač, ...). 4.3 Korpusy a slovníky (slovníky automatických morfologických analyzátorů nevyjímaje) V rámci této studie není možné popsat vše, co by bylo možné z korpusů získat například pro lexikografické účely. Sonda přináší celou řadu ústrojně utvořených pojmenování, která nejsou zařazena ve slovnících automatických morfologických analyzátorů a řada z nich nefiguruje 10 ani ve slovnících tištěných. V korpusu je lze najít v kontextu, z něhož je v naprosté většině případů dobře patrný jejich význam a z něho plynoucí morfologické vlastnosti (rozdílu jméno činitelské/ název prostředku odpovídá deklinace podle životného/neživotného typu). V tomto článku se omezíme na to, jak mohou korpusové doklady přispět pro upřesnění formulace pravidel pro automatickou derivaci deverbativ sledovaného typu. Zdá se, že jednou z možností jak rozšířit pokrytí automatické morfologické analýzy odvozených slov by mohla být aplikace slovotvorných pravidel, která by přispěla k identifikaci a rozpoznávání slov, která automatický morfologický analyzátor neidentifikuje na základě dat uložených ve slovníku. Sonda do tří korpusů ukazuje, že ačkoliv řada sledovaných deverbativ jsou slova s malou frekvencí, jedná se slova pravidelně derivovaná od obvyklých a automatickou analýzou rozpoznávaných (slovesných) základů. Pro automatickou morfologickou analýzu by mohla být podnětná i řada kompozit, u nichž pak zajímavý materiál skýtají především složeniny, kde je hranice složek komponovaného tvaru naznačena graficky (spojovník, lomítko), nebo případy, kdy jde o grafickou chybu a z ní plynoucí nesprávnou tokenizaci. V tomto článku bychom rádi upozornili především na doklady deverbativ od sloves, u nichž může docházet k alternacím KoS a KmS. Dokladů na tento typ alternací není ani v tištěných slovnících, ani ve slovnících automatických analyzátorů mnoho (viz výše). Korpusy se tak mohou stát cenným zdrojem dat pro přesnější formulaci pravidel na straně jedné a pro případné doplnění seznamů výjimek a anomálií na straně druhé. Porovnáme-li údaje o jednotlivých typech alternací KmS a KoS získané použitím nástroje Deriv (viz výše oddíl 2) s korpusovými daty, můžeme doplnit další příklady jednotlivých alternačních typů. .*at/.*áč* .* (e|ě)t/.*ič** .*ít/.*ič*** *K typu .*at/.*áč kopat/kopáč můžeme na základě analýzy korpusových dat doplnit deverbativa načesáč, makáč, ometáč, vometáč, ( neživ. hrkáč, brnkáč). Kromě toho lze na základě korpusů do seznamu výjimek zapsat případy potencionálních homonymií generovaných při aplikaci formálních pravidel. Patřily by sem výše uvedené případy (voláč/vole/*volat, sekáč/seconhand/*sekat) a další doložené v korpusech (rubáč/rub/*rubat, tutáč/tuty/*tutat). **K okrajově doloženému typu .* (e|ě)t/.*ič držet/držič jsme v korpusu SYN2005 našli doklad prdět/prdič. ***K typu .*ít/.*ič mstít/mstič jsme v korpusech nalezli deverbativum v doloženém případě neživotné (...na poličce jsem nedávno zahlédl i elektronický ...) snít/snič (kalk z angl. dreamer). .*á.it/.*a.ič* .*í.it/.*i.ič** .*ou.it/.*u.ič .*ý.it/.*y.ič .*í.it/.*ě.ič *K typu .*á.it/.*a.ič byly v korpusech nalezeny doklady vážit/važič, hlásit/hlasič. **K typu .*í.it/.*i.ič doklad mířit/miřič, dále neživotné (cídit/cidič, přímit/přimič). Poznámka: U substantiva průvodič se objevuje výjimečná alternace. Na samohláskové alternaci v prefixech (pro-/prů-) jsme u derivace deverbativ na –č nenarazili. Substantivum od slovesa provádět by mělo být tvořeno 11 pravidelně a znít prováděč jako prodavač, promítač, prohlížeč. Alternace pro/prů je běžná (nikoliv bezpodmínečná) u dějových jmen tvořených bezafixálně (průchod, průkaz, průvan, průjezd/projezd, průrva, průtah, průtok, … ale provoz, prodej, projev, pronájem, …) a u substantiva průvodce (na rozdíl od prodejce, pronájemce, provozce). V korpusu jsme narazili na substantivum průtokáč tvořené univerbizací od průtokový ohřívač (deverbativum od slovesa protékat by asi znělo protékač). .*áCt/.*a.eč .*éCt/.*e.ač .*áCt/.*a.ač* .*íCt/.*0.eč** *V korpusu byly nalezeny doklady dalších alternací KoS krást/kradač (.*áCt/.*a.ač), vokálem vloženým mezi kmen a sufix –č je v tomto případě –a- (pletač) KoS je ovšem –á- (kladeč). ** Zajímavý je doklad zánikové alternace KoS (číst/čteč - .*íCt/.*0.eč), Poznámka: Deverbativum okradač pokládáme za derivát slovesa okrádat nikoli okrást vzhledem k tomu, že deriváty na –č jsou pravidelně tvořeny od imperfektiv (srv. výše). Jednou z výjimek doloženou též v korpusech je botanický termín osladič. .*á.(e|ě)t/.* (a|á).(e|ě)č* .*í.(e|ě)t/.* (i|í).(e|ě)č** *K typu .*á.(e|ě)t/.* (a|á).(e|ě)č sázet/s(a|á)zeč můžeme na základě korpusů uvést substantiva jako zaražeč, navažeč, rozvažeč, odhaněč, potapěč. **K typu .*í.(e|ě)t/.* (í|í).(e|ě)č odklízet/odkl(i|í)zeč jsme nalezli doklad ovíjet/oviječ. .*á.at/.*a.ač* .*í.at/.*ě.ač** .*í.at/.*i.ač** .*ou.at/.*u.ač** .*ý.at/.*y.ač*** *K typu .*á.at/.*a.ač (.*á.at/.*a.(a|á)č) jsme nalezli např. přespávat/přespavač, práskat/praskač, okrádat/okradač, dávat/davač, dále např. jména prostředků přehrávat/přehravač, rozeznávat/rozeznavač, prohledávat/prohledavač, nasávat/nasavač, vyorávat/vyoravač. **K typům .*í.at/.*ě.ač, .*í.at/.*i.ač a .*ou.at/.*u.ač jsme žádné další doklady nenalezli. *** K typu .*ý.at/.*y.ač bylo nalezeno umývat/umyvač. Poznámka: Substantivum umyvač je doloženo v PSJČ, ve slovníku automatického analyzátoru ajka i v SSJČ je pouze umývač, korpusy dokládají užívání substantiva umyvač. Korpusy poskytují doklady pro zamyšlení nad alternacemi KoS z hlediska kodifikace dublet. Je jisté, že při malém počtu dokladů může jít pouze o překlepy (potapěč, počitač, nahravač, ...). Je ale také možné, že jde o důsledek rozkolísanosti úzu. Pokud budeme chtít formulovat přesná pravidla uvedených alternací, bude nejdříve nutné odpověď na otázku, z čeho by měla taková pravidla vyjít (jak reflektovat kodifikaci a normu, a to především v případech, kde korpusy ukazují možný rozpor). Poznámka: Máme na mysli případy, kdy tištěné slovníky i slovníky morfologických analyzátorů zaznamenávají např. pouze deverbativum sekáč, nebo zatykač a korpusy dokládají též sekač, zatýkač atp. Příklady deverbativ odvozených sufixem –č od sloves 3. třídy podle kmene přítomného tradičně řazených ke vzoru krýt jsou co do +/- alternací KoS poměrně těžko formálně popsatelné. Sledovali jsme proto jednotlivá slovesa a hledali jsme k nim příslušná deverbativa. Kromě alternujících případů jako jsou mýt/myč, existují názvy prostředků patřící do centra slovní zásoby, u nichž k alternacím nedochází (srv. rýt/rýč narozdíl od alternujícího bít/bič). V korpusech jsme navíc nalezli činitelská substantiva od slovesa šít/šič, krýt/krýč 12 (sportovní profesionalismus – ten, kdo kryje), okazionalismy jako žít/ žíč (ten, kdo si žije), pít/čajpíč a smát/smáč, u nichž rovněž nedochází k alternacím KoS. Vzhledem k vysokém počtu případů, kdy slova na –áč nejsou dverbativy, jsme pro potřeby automatické morfologické analýzy pátrali po dalších příkladech činitelských jmen na –áč. Seznamu deverbativ, u nichž se KmS –á- nekrátí (hráč, spáč, rváč, štváč, zváč, žváč, dráč, práč, sráč, ... i vlastní jméno Tkáč, ...), jsme doplnili o okazionalismus psát/psáč doložené v korpusech. 5. Závěr : formální pravidla derivace deverbativ na –č 1. Možnými kandidáty jmen činitelských na –č jsou slova, jejichž lemma (základní tvar) končí na –č a zároveň se jedná o maskulina životná (maskulina neživotná jsou naopak kandidáty na názvy prostředků, které jsou v některých případech tvořené paralelně např. nosič, v jiných bez paralely např. klepáč/klepač tímtéž sufixem). 2. Pokud má jít o deverbativum (jméno činitelské/prostředku), pak po formální stránce může po –č u jednotlivých tvarů následovat pouze uvedený řetězec znaků: .*č(e|i|ů) nebo .*č(e|ů)m nebo .*čích nebo .*čov(i|é). Derivační pravidla mohou využít pravidla flexe zahrnutá v automatických analyzátorech (konkrétně lingvistickou bázi analyzátoru ajka srv. Osolsobě, 1996, Sedláček, 2004). 3. Před sufixem –č nemůže, má-li jít o deverbativum, předcházet konsonant (slova jako pinč, Renč, ranč, pomeranč, punč, terč, ... nemohou být deverbativa). 4. Před –č vždy předchází samohláska. Má-li jít o deverbativum, pak ji z lingvistického hlediska je možné interpretovat buď jako kmenovou samohlásku (KmS např.: hlíd-at/hlíd-a-č), nebo jako kořenovou samohlásku (KoS např.: mý-t/my-č), nebo jako vokál vložený mezi slovesný kmen (pouze u sloves 1. třídy podle kmene přítomného vzor nést, péct: kradač, čteč, ...) a sufix –č (v literatuře uváděnými i v korpusech a strojových slovnících doloženými výjimkami jsou substantiva trubač, vozač, kropáč). Pokud je samohláskou –e, pak při tvoření flektivních tvarů nikdy nedochází k zánikové alternaci (neplatí .*Ceč,>.*Cče : substantiva skloňovaná jako Bubeneč/Bubenče, Ledeč/Ledče, … nemohou být deverbativy na –č, čteč/čteče ano). 5. KmS může být pouze -á-, -a-, -e-, -ě-, -i-, -í-. 6. KoS může být libovolný vokál, nicméně se zdá, že v češtině nejsou doloženy případy, kdy by jím bylo -o-, -ó-, -u-, -ů- (-ú-), -é-. Mezi slovesy typu krýt není sloveso na –(o|ó|ů|ú|é)t. Slovesa na –ou-t, se sice vyskytují (obout, zout, kout, plout, ...), deverbativa na –č 13 odvozená od těchto sloves nejsou ve zkoumaném materiálu doložena. Automatické přegenerovávání *kout/kouč je třeba při aplikaci pravidel vyloučit. 7. V češtině jsme našli pouze doklady, kdy KoS bezprostředně předcházející před –č je –á-, a-, -e-, -ě-, -i-, -í-, -y-, -ý-. 8. V češtině jsme našli pouze doklady, kdy vokál vložený mezi slovesný kmen (pouze u sloves 1. třídy podle kmene přítomného vzor nést, péct a výjimky trubač, vozač, kropáč) a sufix –č je -a-, -á-, -e-. 9. Pokud je substantivum na –č proprium, je třeba uvážit, zda má být popsáno v rámci popisu derivace apelativ. Vyloučení proprií má dobré (nejen praktické) důvody. 10. Pokud budeme nadále uvádět slovesné třídy a vzory, upozorňujeme na to, že je možné využít pravidel tvoření jednoduchých tvarů sloves od jednotlivých slovesných kmenů popsaných jako slovesné vzory (Osolsobě, 1996) a aplikovaných v automatickém morfologickém analyzátoru ajka (Sedláček, 2004). Algoritmický popis tvoření slovesných tvarů (Osolsobě, 1996) zachovává v základních rysech lingvistický přístup (Komárek, 1986), který ovšem na mnoha místech pro potřeby algoritmizace zjemňuje. 11. Automatická morfologická analýza, jejímž cílem by bylo nalézt dvojice sloveso/deverbativum na –č, by musela vyjít i z popisu doložených hláskových alternací KoS, pokud KoS nepředchází bezprostředně před -č. Na tomto místě pouze odkazujeme k tomu, co bylo řečeno výše (srv. odd. 2, 4). 12. Pokud před –č předchází –í-, pak deverbativa jsou pouze a) od sloves typu umřít (dříč, tříč, v korpusech např. kompozita hlad(o|y)mříč), b) od sloves typu bdít (bdíč, mstíč, sníč) a c) od sloves typu krýt (žíč). U slovesa mlít, které některé gramatiky řadí ke vzoru umřít, je ovšem doloženo pouze činitelské mleč, nikoli mlíč (odvozeno ze substantiva mlíčí srv. javor mlíč). Aby se vyloučilo „přegenerovávání“ je třeba vyloučit generování *bít/bíč (beech), *klít/klíč, (neklíč, centrklíč, multiklíč), *mít/míč, *mlít/mlíč, (pumlíč), *sít/síč. V analyzovaném materiálu nebyla doložena alternace KmS .*(e|ě)t/.*íč. Pravidlo, jehož aplikace by vedla k „přegenerovávání“ *klet/klíč, *mlet/mlíč, *prostřednět/prostředníč by nemělo existovat. 13. Pokud před –č předchází –á, pak může jít o desubstantivní názvy podle význačného rysu (typ hlaváč), deadjektivní názvy nositelů vlastností (typ zelenáč), desubstantivní názvy prostředků (typ květináč) aj (viz výše). Při aplikaci automatické analýzy může pomoci fakt, že k desubstantivům, deadjektivům, substantivům vzniklým univerbizací a krácením nemusí být doložena „fundující slovesa“. Problematické mohou být případy, kdy by aplikace derivačních pravidel mohla vést k „přegenerovávání“ (k příslušnému lemmatu na 14 –áč by bylo nalezeno existující lemma slovesa na -át/-at). Aby se vyloučilo „přegenerovávání“, je třeba vyloučit jako výjimky generování dvojic *plát/pláč, *tát/táč, *sekat(secondhand)/sekáč, *volat/voláč, *rubat/rubáč, *tutat/tutáč, zelenat/zelenáč, klepetat/klepetáč, krkat/krkáč. 14. Zdá se, že na –áč mohou končit pouze deverbativa derivovaná od uzavřeného seznamu sloves. KmS/KoS –á se u nich nekrátí. Aplikaci pravidel při automatické analýze mohou ovšem komplikovat kompozita, k nimž neexistuje odpovídající slovesné kompozitum (*solohrát/sólohráč, *zvonkahrát/zvonkohráč, *sedmispát/sedmispáč, ...). 15. Na –ič mohou kromě deverbativ, a to jak od sloves na –it (rodit/rodič), tak výjimečně od sloves na –ít (např. šič, bič) a (e|ě)t (např. držič, prdič), končit též slova, která nejsou deverbativy např. apelativum (carevič, neživ. sendvič). Vysoké procento „nedeverbativ“ představují propria, a to zejména jihoslovanská (Karadžič, Klimovič, ...). Při aplikaci automatické analýzy může pomoci fakt, že k nedeverbativům nemusí být doložena „fundující slovesa“. Problematické mohou být případy, kdy by aplikace derivačních pravidel mohla vést k „přegenerovávání“ (k příslušnému lemmatu na –ič by bylo nalezeno existující lemma slovesa na -ít/-it). Uvádíme „homonymii“ doloženou ve sledovaném materiálu: *snoubit/snoubič. Z potencionálně deverbativních proprií uvádíme substantivum Dědič, které automatický analyzátor použitý pro značkování korpusů ČNK omylem lemmatizuje jako apelativum lemma dědič. Tištěné slovníky (PSJČ, SSJČ, SSČ) uvádějí pouze substantivum dědic motivované substantivem děd. Mezi výjimky je třeba zařadit blokaci automatického generování dvojice *dojít/dojič. 16. Pokud by při aplikaci automatické analýzy došlo k tomu, že k jednomu tvaru na –ič by se generovaly dva tvary, a to jeden na -it a druhý na -(e|ě)t, pak by mělo platit pravidlo, že má přednost tvar na –it. (Je logické, že činitelská jména se tvoří od faktitiv (tupit), nikoliv od inchoativ (tupět) viz výše). 17. Na –ač mohou kromě deverbativ končit nedeverbativa např. apelativa (čuvač, knírač). K desubstantivům, deadjektivům, substantivům vzniklým univerbizací a krácením nemusí být a v analyzovaném materiálu nejsou doložena „fundující slovesa“. Aby se vyloučilo „přegenerovávání“ je třeba vyloučit generování *bát/bač (tvary bače, bačů substantiva bača). 18. Na –yč/-ýč mohou kromě deverbativ (mýt/myč, krýt/krýč, rýt/rýč) končit i nedeverbativa, a to především propria na –yč (Fryč, Maděryč, ...). Při aplikaci automatické analýzy může pomoci fakt, že k nedeverbativům nemusí být doložena „fundující slovesa“. Problematické mohou být případy, kdy by aplikace derivačních pravidel mohla vést k 15 „přegenerovávání“ (k příslušnému lemmatu na –yč/-ýč by bylo nalezeno existující lemma slovesa na –yt/-ýt). Aby se vyloučilo „přegenerovávání“ je třeba vyloučit jako výjimky generování dvojice *týt/tyč. 19. Na –eč/-ěč mohou kromě deverbativ (sazeč, pohaněč, mleč) končit též propria (Peč, Bubeneč, Ledeč, ...), která mohou být v korpusech chybně lemmatizována i značkována. Při aplikaci automatické analýzy může pomoci fakt, že k nedeverbativům nemusí být doložena „fundující slovesa“. Aby se vyloučilo „přegenerovávání“ je třeba jako výjimky vyloučit generování dvojic *klít/kleč, *lít/leč, *mít/meč, *pít/Peč, *sít/seč, *tít/teč, *vít/več. Při aplikaci je třeba dát pozor na překlepy či pokusy zaznamenat vady výslovnosti doložené v korpusech (šeč, žeč, čeč). I ony by při analýze neoznačkovaného textu mohly být důvodem „přegenerovávání“ a vytváření nesmyslných dvojic šít/*šeč, žít/*žeč, čít/*čeč. 20. Automatická morfologická analýza založená na výše uvedených pravidlech by u nelemmatizovaných a neoznačkovaných tvarů nebyla schopna diferencovat rozdíl životná/neživotná maskulina (jména činitelská/prostředků) u tvarů, jejichž koncovky jsou homonymní, tj. všechny kromě .*čov(i|é) a homonymie snoubič(. (http://ucnk.ff.cuni.cz/bonito/) Deriv http://nlp.fi.muni.cz/projekty/ajka/cjbb85/