Základy využití korpusu v praxi cjbb75 pondělí: 8.00-10.00 G13 26. 4. 2021 Jak lze v korpusech hledat doklady pro výzkum morfologie? Mějme tvrzení 1: Všechna česká maskulina v genitivu plurálu mají koncovku na –ů. Máme 6 vzorů: pán/pánů, hrad/hradů, muž/mužů, stroj/strojů, předseda/předsedů, soudce/soudců. Existují z tohoto pravidla nějaké výjimky? Vzpomenete si na ně? Jak jsou obvyklé (jsou to slova z centra/periferie slovní zásoby)? Jak vyhledat data v korpusu: Co hledáme? 1) tvary genitivu plurálu substantiv maskulin, tedy tvary, které mají značku (tag): 1. pozice: N jako substantivum (noun) 2. pozice: N jako obyčejné substantivum (noun) 3. pozice: M jako maskulinum životné nebo I jako maskulinum neživotné (inanimatum) 4. pozice: P jako plurál 5. pozice: 2 jako 2. pád (genitiv) a zároveň 2) tvary (bez ohledu na velikost písma - lc), které nekončí na ů Frekvence/Vlastní/lc Jak lze výjimky z výše uvedeného pravidla dále kategorizovat? Jednoduše je lze rozdělit podle tří zastoupených koncovek u prvních 20: a) končící na –í (typ lidí/dní) b) bez koncovky/ s nulovou koncovkou (typ peněz-0/přátel-0) c) s adjektivní flexí (typ dospělých/zlatých) Vidíme, že jsou zastoupeny oba rody, jak maskulina životná, tak neživotná. Pozorujme jednotlivé typy z hlediska frekvence: Jak? P-filtr Chyby: Jak budeme formulovat dotaz, pokud chceme získat doklady, které ani nekončí na í, ani se neskloňují adjektivně? [tag="NN[MI]P2.*" & lc!=".*([ůí]|[íý]ch)"] Co můžeme na základě pozorovaných dat říci o slovech s výjimečnou koncovkou u maskulin v gen. pl.? 1. Do skupiny s koncovkou –í patří omezený seznam slov, mezi nimi jsou ovšem buď domácí slova velmi frekventovaná, nebo jejich deriváty. Nefrekventovanou výjimkou je nesklonný název měny/vlastní jméno a/Afghání (adaptace). 2. Do skupiny bez koncovky patří z domácí slovní zásoby pouze substantiva peníze, sudety a životná (ne)přítel, obyvatel a propria – plurália tantum (Klatovy, Poděbrady, Karpaty). Dále se objevují nesklonná přejatá/adaptovaná substantiva, zkratky, atd. 3. Adjektivní flexi mají substantiva s adjektivní flexí (radní, mluvčí, zlotý) a substantivizovaná adjektiva. K dalšímu procvičení: Mějme tvrzení 2: Všechna slovesa končí ve 3. osobě singuláru indikativu prézentu aktiva na e, í, á. Máme 5 tříd podle kmene přítomného se 4 vzory: nese/peče/bere/maže/umře, tiskne/mine/začne, kryje/kupuje, prosí/trpí/sází, dělá. Máme nepravidélná slovesa: být/je, mít/má, chtít/chce … Existují z tohoto pravidla nějaké výjimky? Vzpomenete si na ně? Jak jsou obvyklé (jsou to slova z centra/periferie slovní zásoby)? Jak vyhledat data v korpusu: Co hledáme? 1) tvary 3. osoby singuláru indikativu prézenta sloves, tedy tvary, které mají značku (tag): 1. pozice: V jako sloveso (verbun) 2. pozice: B jako prézens (žádná mnemotechnika) 4. pozice: S jako singulár 8. pozice: 3 jako 3. osoba a zároveň 2) tvary (bez ohledu na velikost písma - lc), které nekončí na e, í, á Mějme tvrzení 3: Všechna slovesa končí ve 2. osobě singuláru indikativu prézentu aktiva na š. Máme 5 tříd podle kmene přítomného se 4 vzory: neseš/pečeš/bereš/mažeš/umřeš, tiskneš/mineš/začneš, kryješ/kupuješ, prosíš/trpíš/sázíš, děláš. Máme nepravidélná slovesa: být/jsi, mít/máš, chtít/chceš … Existují z tohoto pravidla ještě nějaké výjimky? Vzpomenete si na ně? Jak jsou obvyklé (jsou to slova z centra/periferie slovní zásoby)? Jak vyhledat data v korpusu: Co hledáme? 1) tvary 3. osoby singuláru indikativu prézenta sloves, tedy tvary, které mají značku (tag): 1. pozice: V jako sloveso (verbun) 2. pozice: B jako prézens (žádná mnemotechnika) 4. pozice: S jako singulár 8. pozice: 2 jako 2. osoba a zároveň 2) tvary (bez ohledu na velikost písma - lc), které nekončí na š Chyby v desambiguaci: Mějme tvrzení 4: Substantiva typu muž mají ve vokativu singuláru koncovku i (muži). Mohou končit i jinak? Vzpomenete si na nějaký příklad? Jak vyhledat data v korpusu: Co hledáme? 1) tvary vokativu singuláru maskulin životných, která mají značku (tag): 1. pozice: N jako substantivum (noun) 2. pozice: N jako obyčejné substantivum (noun) 3. pozice: M jako maskulinum životné 4. pozice: S jako singulár 5. pozice: 5 jako 5. pád (vokativ) a zároveň 2) tvary (bez ohledu na velikost písma - lc), které nekončí na i a zároveň 3) Skloňují se podle typu muž, což znamená, že mají lemma končící na souhlásku „měkkou“ (?nebo obojetnou). Pro jednoduchost necháme obojetné souhlásky stranou: Má tvar kámo koncovku –o? Co mají společného ostatní substantiva? Mějme tvrzení 5: Kmenotvorná přípona kmene infinitivního sloves typu dělat, mazat, brát může být buď –a- (maz-a-t, děl-a-t) nebo –á- (br-á-t). Volba –a-/-á- podléhá pravidlu. Z pravidla existují výjimky. Vyhledejme v korpusu podklady, o které lze opírat pravidlo a v nichž lze nalézt výjimky. [lemma=".*át" & tag="Vf.*"] [lemma=".*at" & tag="Vf.*"] K jaké třídě a vzoru mohou patřit slovesa, jejichž lemma=".*át". Existuje nějaký postup, jak odfiltrovat slovesa typu krýt? ÚKOL na 3. 5. 2021 3. 5. Dú: 1. V dativu singuláru mají feminina typu žena koncovku –e realizovanou jako [eě], kdežto feminina typu růže mají v dativu singuláru (stejně jako feminina typu píseň, kost) koncovku –i. Vzpomenete si na nějakou výjimku z tohoto pravidla? Svůj jazykový cit ověřte v korpusu a popište, jak byste doklady výjimky z tohoto pravidla hledali v korpusu. 2. Neutra typu město mají v lokálu singuláru koncovku koncovku –e realizovanou jako [eě], ale mohou mít i koncovku u. Formulujte dotaz v jazyce cql tak, abyste získali seznam lemmat substantiv. 3. Neutra typu kuře mají v singuláru koncovky shodné s neutry typu moře a v plurálu koncovky shodné s koncovkami typu město. Existují další skupiny substantiv neuter, která ve flexi kolísají mezi uvedenými vzory, takže např. mají v genituvu sg. koncovku –a (jako bez města) a v genitivu pl. –í (jako bez moří). Pokud si na žádné nevzpomenete, jak budete formulovat dotaz v nástroji morfio, abyste našli odpověď. 4. V instrumentálu plurálu mají koncovku –mi substantiva skloňovaná podle typu kost. Koncovku –mi (tedy nikoli –ami, -emi, -ěmi, -ími, -ými) mají také substantiva, která se neskloňují podle typu kost. Vzpomenete si na nějaké? Jak je najdete v korpusu?