Filip Kubeček, 456251, PLIN032 Hledání variantních slovesných tvarů od kmene prézentního Cílem práce je nalézt na základě jednoho dotazu všechny variantní slovesné tvary určitých gramatických kategorií tak, aby součástí bylo co nejméně nerelevantních výskytů. 1. indikativ prézentu aktiva • -u/-i v 1. osobě singuláru (typ kupuji/kupuju) – jde o: o některá slovesa vzoru mazat (= před koncovým [ui] v 1. os. sg. předchází [čřšž] nebo šl a infinitiv končí na [aá]t). Sériemi dotazů, z nichž základní byl [lc=".*[^v]([čřšž]|(šl))[ui]"&lemma=".*[aá]t"] jsem zjistil, že variantnost se netýká sloves s infinitivy na .*slat, .*lh[aá]t a početné skupiny sloves kolísající mezi I. a V. třídou (zakončení -u/-ám, viz níže). Na základě tohoto faktu jsem dospěl k závěru, že bude nejjednodušší sestavit seznam výčtem, neboť kýžených sloves je o poznání méně než zbylých sloves náležících (alespoň zčásti) ke vzoru mazat; výsledek tedy: [lc=".*maž[ui]|.*[kv]áž[ui]|(o|ne|do)*táž[iu]|.*(pl| sk)áč[ui]|.*píš[ui]"] • součástí jsou však některá substantiva se shodným zakončením (nejvýraznější homonymní tvar pláči), v případě lemmatizovaného korpusu můžeme pro jejich odstranění dodat &lemma=".*[aá]t") o slovesa vzorů krýt a kupovat (= před koncovým [ui] v 1. os. sg. předchází j). Základní dotaz [lc=".*j[ui]"&lemma=".*t"]- kromě nepravidelného slovesa být jsou relevantní všechna slovesa, zároveň však dostáváme spousty výskytů jiných slovních druhů, částečně je odfiltrujeme zpřesněním dotazu na [lc=".*[aeéěiuy]j[ui]"], v případě lemmatizovaného korpusu ještě doplněním &lemma=".*t". Kdybychom chtěli získat pouze slovesa mohoucí mít tuto variantu, nikoliv jejich výskyt v obou tvarech, je možno dotaz zjednodušit na [lc=".*[aeéěiuy]ju"], neboť zakončení -u je méně homonymní s ostatními slovy o výsledný dotaz: 1) [lc="(.*maž[ui]|.*[kv]áž[ui]|.[oe]táž[iu]|.*(pl|sk)á č[ui]|.*píš[ui])|(.*[aeéěiuy]j[ui])"] 2) [lc="(.*maž[ui]|.*[kv]áž[ui]|.[oe]táž[iu]|.*(pl|sk)á č[ui]|.*píš[ui])|(.*[aeéěiuy]ju)"] 3) [(lc=".*maž[ui]|.*[kv]áž[ui]|.[oe]táž[iu]|.*(pl|sk)á č[ui]|.*píš[ui]"&lemma=".*[aá]t")|(lc=".*[aeéěiuy]j[ ui]"&lemma=".*t")] Filip Kubeček, 456251, PLIN032 o + -í/-ou (typ kupují/kupujou): v předchozím dotazu bude [ui] nahrazeno (í|ou) , sem se ale dostane nadměrné množství výsledků náležící ke vzoru dělat, bude proto lepší odfiltrovat zakončení .*aj(í|ou) a poté jen výčtem postihnout slovesa III. třídy mající takové zakončení (pozorováním jsem objevil pouze [hz]raj(í|ou), [tsk]aj(í|ou) a vlaj(í|ou) – nutno však počítat s obtížným začleněním prefigovaných variant u [tsk]aj(í|ou), neboť totožně končí množství sloves podle dělat (říkají, čekají, chystají, klesají, …). Součástí jsou rovněž nerelevantní slovesa IV. třídy, ta lze odstranit použitím atributu lemma (2). • výsledný dotaz: 1) [lc="(.*maž(í|ou)|.*[kv]áž(í|ou )|.[oe]táž(í|ou)|.*(pl|sk)áč(í| ou)|.*píš(í|ou))|(.*[eéěiuy]j(í |ou))|.*[hz]raj(í|ou)|[tsk]aj(í |ou)|.*vlaj(í|ou)"] 2) [lc="(.*maž(í|ou)|.*[kv]áž(í|ou )|.[oe]táž(í|ou)|.*(pl|sk)áč(í| ou)|.*píš(í|ou))|(.*[eéěiuy]j(í |ou))|.*[hz]raj(í|ou)|[tsk]aj(í |ou)|.*vlaj(í|ou)"&lemma=".*[^e ě]t"] 1) 2) 3) 1) 2) Filip Kubeček, 456251, PLIN032 • -m/-me v 1. osobě plurálu (typ nesem/neseme) o jde o slovesa I., II. a III. třídy: pro III. třídu využijeme dotaz z předešlého bodu, tedy [lc=".*[aeéiuy]jem(|e)"] . Zbylá slovesa mohou před koncovým em(|e) obsahovat různé souhlásky, avšak pozorováním jsem zjistil, že mezi nimi nikdy nejsou [ghkqwx], c mimo .*chcem(|e), [zs] jen s předcházejícím e (+ .*pasem(|e)) o Stejně jako v prvním případě můžeme hledat pouze charakterističtější zakončení (-me, 2), nebo použít atribut lemma (3). o výsledný dotaz: 1) [lc=".*[aeéiuy]jem(|e)|.*[^aáeéěiíoóuúůyýjghkqwxcsz] em(|e)|.*e[sz]em(|e)|.*pasem(|e)|.*chcem(|e)|.*stůně m(|e)"] 2) [lc=".*[aeéiuy]jeme|.*[^aáeéěiíoóuúůyýjghkqwxcsz]eme |.*e[sz]eme|.*paseme|.*chceme|.*stůněme"] 3) [lc=".*[aeéiuy]jem(|e)|.*[^aáeéěiíoóuúůyýjghkqwxcsz] em(|e)|.*e[sz]em(|e)|.*pasem(|e)|.*chcem(|e)|.*stůně m(|e)"&lemma=".*[cszaáeéěiíóuůúý]t|.*out"] • -u/-ám v 1. osobě singuláru (typ kopu/kopám) o jde o některá slovesa vzorů mazat a brát • vzor mazat: nejpřesnější výsledky dostaneme opět výčtem, jehož docílíme pozorováním dat: [lc=".*(ře|vr|klou|hry|lí)(žu|zám)|.*(o|pá)(řu 1) 2) 3) Filip Kubeček, 456251, PLIN032 |rám)|.*(kou|če|klu)(šu|sám)"]. Součástí jsou některé nerelevantní výskyty mající stejné zakončení (především na .*oru a .*lížu), ty by se daly odstranit doplněním všech možných předpon těchto sloves • vzor brát: těžko rozlišitelná podoba od sloves časovaných výhradně dle dělat, přesto jsem při jejich pozorování zjistil některé zákonitosti: o variantní tvary mají slovesa zakončená na p(u|ám) mimo .*čerpám, .*stoupám, .*chápu, .*cpu o variantní tvary nemají slovesa zakončená na [bmlvf]ám mimo .*škráb(u|ám), .*kýv(u|ám), .*plav(u|ám), .*raf(u|ám), .*lám(u|ám), hýb(u|ám) • Opět můžeme hledat pouze charakterističtější zakončení (-ám, 2), nebo použít atribut lemma (3). o výsledný dotaz: 1) [lc=".*(ře|vr|klou|hry|lí)(žu|zám)|.*(o|pá)(řu|rám)| .*(kou|če|klu)(šu|sám)|.*p(u|ám)|.*škráb(u|ám)|.*kýv (u|ám)|.*plav(u|ám)|.*raf(u|ám)|.*lám(u|ám)|(n|)(e|) hýb(u|ám)"&lc!=".*(čer|stou)pám|.*cpu|.*chápu"] 2) [lc=".*(ře|vr|klou|hry|lí)zám|.*(o|pá)rám|.*(kou|če| klu)sám|.*pám|.*škrábám|.*kývám|.*plavám|.*rafám|.*l ámám|(n|)(e|)hýbám"&lc!=".*(čer|stou)pám"] 3) [lc=".*(ře|vr|klou|hry|lí)(žu|zám)|.*(o|pá)(řu|rám)| .*(kou|če|klu)(šu|sám)|.*p(u|ám)|.*škráb(u|ám)|.*kýv (u|ám)|.*plav(u|ám)|.*raf(u|ám)|.*lám(u|ám)|(n|)(e|) hýb(u|ám)"&lc!=".*(čer|stou)pám|.*cpu|.*chápu"&lemma =".*[cszaáeéěiíóuůúý]t|.*out"] 1) 2) 3) Filip Kubeček, 456251, PLIN032 • -í/-ejí ve 3. osobě plurálu (typ sází/sázejí) o jde o slovesa vzoru sázet, jejichž kratší tvar je shodný se 3. osobou singuláru + koncovka í je velmi homonymní, takže hledáme pouze delší tvary podle dotazu [lc=".*[zžcčsšlřj]ejí"] • součástí i některá slovesa III. třídy, ta by šla podobně jako v analýze -í/-ou odstranit přidáním atributu lemma, nebo výčtem (není jich mnoho) 2. imperativ • -0/-ej (singulár), -te/-ejte (plurál) o Jelikož se potýkáme s nulovou koncovkou, nelze ji formálně graficky postihnout, navíc se tyto varianty týkají jen malé skupiny slov těžko odlišitelné od ostatních; jde o některá slovesa vzorů mazat a brát, která přejímají variantní koncovku podle vzoru dělat, někdy navíc s alternujícími hláskami nebo kvantitou (šlap(|ej), plav(|ej), pla(č|kej), lam|lámej, …) a ojediněle slovesa kolísající mezi vzory prosit a sázet (stav(|ěj), …). • -0/-i (typ oprosť/oprosti) o Tyto varianty se týkají některých sloves se základem zakončeným na [sš]ť, t[ř] a v menší míře zď, dč a č • Dotaz [lc=.*[sš](ť|ti)] dává příliš mnoho nerelevantních výsledků, zvláště kvůli homonymním tvarům zakončeným na .*sti, lepší je tedy hledat alternace s nulovou koncovkou (sť, šť), i zde ale dostaneme jen málo kýžených výsledků, navíc ne všechna slovesa se chovají stejně: oprosť, oprosti – odpusť, *odpusti. Specifičtější zakončení je .*tř(|i), .+z(ď|di), .*dč(|i), výsledků však v žádné skupině není mnoho, i proto, že imperativ (těchto sloves) není tolik užívaný. • Příklad hledání: [lc=".*tř(|i)"] Filip Kubeček, 456251, PLIN032 3. přechodník přítomný • Podle IJP mají variantní tvary slovesa „typu ‚třít‘ (dřít, přít se, vřít)“. Kromě jmenovaných jsem našel ještě sloveso mřít, všechna tedy pojmeme dotazem: [lc="[tdpvm]ř(e|íc)(|e)|[tdpvm]r(a|ouc)(|e)"] o tvary na -e jsou však homonymní s 3. os. sg. prézentu a celkově je dat velmi malé množství Zdroje: Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: SYN2015: reprezentativní korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz http://prirucka.ujc.cas.cz/