CJBB84 Morfologie a korpus 8.00-9.30 G13 V. Morfologické vlastnosti sloves na základě analýzy korpusových dat •Morfologické značkování neobsahuje informace o třídě/vzoru •Je možné vyhledat v korpusech lemmata podle třídy? •Triviální a netriviální vyhledávání sloves podle třídy a vzoru •K čemu je takové cvičení dobré? • Morfologické značkování neobsahuje informace o třídě/vzoru •Jaký je tvar slovesného lemmatu? •Morfologické značkování neobsahuje informace o třídě/vzoru •Které kategorie zachycuje morfologická značka? • • Je možné vyhledat v korpusech lemmata podle třídy? Opakování třída vzor -e nese nést peče péci/péct bere brát, vybrat maže mazat umře umřít -ne tiskne tisknout mine minout začne začít -je kryje krýt, pít kupuje kupovat -í prosí prosit, ctít trpí trpět sází sázet -á dělá dělat, tkát Lze hledat kombinace tvar+tag •Výhoda: přesnost •Nevýhoda: pokrytí (dotaz je zúžen na tvary, nicméně k hledané třídě mohou patřit i další slovesa, která se v použitém korpusu vyskytují, ale nikoliv ve hledaném tvaru) •přechody sloves mezi třídami Dotazy •[lc=".*e" & lc!=".*[nj]e" & tag= "VB.S...3.*"] •[lc=".*ne" & tag= "VB.S...3.*"] •[lc=".*je" & tag= "VB.S...3.*"] •[lc=".*í" & tag= "VB.S...3.*"] •[lc=".*á" & tag= "VB.S...3.*"] Co opomíjejí první dva dotazy? Co opomíjejí první dva dotazy? Podívejme se ještě jednou na tabulku a všimněme si společných a odlišných vlastností sloves podle tříd/vzorů Čeho si všímáme? •Je třeba vyjít ze znalosti gramatiky. Co je rozhodující pro zařazení slovesa ke třídě? •Jaké jsou společné vlastnosti kmene minulého/infinitivního sloves, patřících ke I., II., III. a IV. třídě? •Definujeme formální vlastnosti a převedeme je do podoby dotazu v jazyce cql • Triviální vyhledávání sloves podle třídy a vzoru •Jaké jsou společné vlastnosti tvaru infinitivu sloves I. třídy vzorů nést a péct? •Jak formulujeme dotaz na lemma (infinitiv) na základě uvedených vlastností? Jak na vzory nést/péct? •lemma končí buď na –ci, nebo na souhlásku (? libovolnou), za níž následuje koncovka infinitivu –t. •Do podmínky zadáme i to, že chceme vyhledat pouze slovesa. Uvedená zakončení lemmatu mohou mít i další slovní druhy: •… bez ohledu na to, do jaké velikosti kdy dorostu ... × …. když jsem skončil v dorostu ... •[lemma=".*([bcdfghjklmnprstvzščžřďťň]t|ci)" & tag= "V.*"] • Výsledek - konkordance Výsledek - lemmata Odpovězte •Které konsonanty mohou předcházet před –t u sloves typu nést? •Předchází před –t/-i u sloves typu péci/péct vždy c? •Je vyhledávání sloves podle těchto vzorů opravdu triviální? Kde nastanou problémy? •říci •nařknout •vyřknout •odříci/odřeknout •podřeknout •[lemma=“.*říc[it]|.*(řk|řek)nout”] Která další slovesa mají tvary podle 1. i 2. třídy? výsledek je dosti přegenerovaný Jak na vzory tisknout/minout? •lemma končí na –nout. •Do podmínky zadáme i to, že chceme vyhledat pouze slovesa. Uvedená zakončení lemmatu mohou mít i další slovní druhy: •… že se tady lidi museli vohnout až na zem ... × …. uzavřel Emanuel Vohnout alias Kamil Emanuel Gott ... •[lemma=".*nout" & tag= "V.*"] • Výsledek - konkordance Výsledek - lemmata Odpovězte •Jak odlišíme slovesa typu tisknout a minout? •Vyhledali jsme i slovesa, která nepatří ani k jednomu z uvedených vzorů? •Je vyhledávání sloves podle těchto vzorů opravdu triviální? •Jak budeme hledat slovesa typu začít? • Jak na vzor kupovat? Jak na vzor prosit? Jak na vzory trpět/sázet? •lemma končí na –ovat. •[lemma=".*ovat" & tag= "V.*"] •lemma končí na –it. •[lemma=".*it" & tag= "V.*"] •lemma končí na –[eě]t. •[lemma=".*[eě]t" & tag= "V.*"] • • Narazili jste na sloveso, které splňuje uvedené podmínky a ke vzoru kupovat nepatří? Narazili jste na sloveso, které splňuje uvedené podmínky a ke vzoru trpět/sázet nepatří? slovesa na –ít: [lemma=".*ít" & tag= "V.*"] slovesa na –řít: [lemma=".*řít" & tag= "V.*"] slovesa na –át: [lemma=".*át" & tag= "V.*"] slovesa na –ýt a –out (nikoli nout): [lemma=".*(ý|ou)t" & lemma!=".*nout" & tag= "V.*"] K čemu je takové cvičení dobré? •Formální znalosti týkající se vlastností, které mají slovesa patřící k jedné třídě/vzoru nám mohou pomoci v případě, že pátráme po formalizovatelných vlastnostech deverbativ. •Deverbativa se v češtině tvoří od tří základů: kořene, kmene, tvaru. •V případě derivátů od kmene a tvaru sdílí deriváty od jedné třídy/vzoru stejné formální vlastnosti (kmenotvornou příponu kmene, kmenoutvornou příponu + tvarovou koncovku tvaru). •Pokud zahrneme formální vlastnosti do podmínky, můžeme lépe popsat formální vlastnosti derivátu (slovesného tvaru). Otázky •Může l-ové příčestí v češtině končit na řetězec ol? •Častými příjmeními jsou tvary homonymní s l-ovými příčestími (Drbal, Zlámal, Nezval, Přecechtěl, Vyskočil, …). Mohla by k nim patřit i příjmení Obrtel, Šarel, Herel? •Které ze sloves nepatří do II. třídy slovesné: klene, upne, dožene, zatne, vzpomene? • Úkol na příště •Popište, jak lze vyhledat v korpusu substantiva tvořená ze sloves typ kutil, tedy jak apelativa, tak propria tvořená substantivizací l-ových příčestí. •