CJBB84 Morfologie a korpus 8.00-9.30 G13 II. Triviální a netriviální vyhledávání substantiv podle vzoru •Morfologické značkování neobsahuje informace o skloňovacím typu •Je možné vyhledat v korpusech lemmata skloňovaná podle určitého vzoru? • Formální vlastnosti substantiv a vzor •Zakončení a slovní druh (kos, sál, pila, žeň, chudě) •Zakončení a rod (kroj x zbroj, kůň x tůň) •sršeň, kredenc, káně, … •1. a 3. pozice (pražský systém) •Atributy k a g (brněnský systém) Substantiva (N/k1) •Rod (tag: pozice 3/g) •Zakončení lemmatu • Slovní formulace •Najděte substantiva skloňovaná podle vzoru žena. •1. substantiva (N/k1) •2. feminina (F/gF) •3. lemma končí na a (.*a) Cql dotaz •[tag="NNF.*" & lemma=".*a"] •[tag="k1gF.*" & lemma=".*a"] • • • Počet lemmat (podle frekvence) skloňovaných podle vzoru žena v korpusu SYN2015 Lemmata rozpoznaná automatickou morfologickou analýzou •Nerozpoznaná lemmata •Mají slovní druh „nerozpoznaný“ •Mají lemma=tvar, tudíž mohu pomocí atributu disjunkce vyjmenovat všechna přípustná zakončení. Problém: koncovková homonymie •[tag="X.*" & lemma=".*([ayěeubdfghklmnprstvz]|ou|ách|ám|ami)"] • Výsledky Frekvenční analýza Zjednodušení dotazu •[tag="X.*" & lemma=".*([ayěeu]|ou|ách|ám|ami)"] • Příliš mnoho dat Ještě zjednodušíme •[tag="X.*" & lemma="(ách|ám|ami)"] • Alespoň něco Vzory zjistitelné analogicky •U kterých vzorů kombinací formy lemmatu a morfologické informace o rodu získáme jednoznačný výsledek? •U kterých je postup složitější? vzory s komplikovanějším postupem •pán a muž •hrad a stroj •píseň a kost •moře a kuře POZOR na dvě grafické varianty [eě] • píseň/kost •[tag="NNF.*" & lemma=".*[^aeěiouyáéíóůúý]"] • odstraníme lemmata na .*[oe]st Jaká jsou další řešení? lemmata podle zakončení (např. na [ďťň]) Jak testovat kolísání mezi typy píseň/kost? •- eň ? •-ev ? •-el ? -eň -ev -el ocel Ráchel svízel jaký to měl svízel, že byl v pušti sám Navzdory všem svízelím dokázala ruská armáda financovat například vývoj a výrobu nové generace strategických raket. doklady z korpusu syn v8 moře/kuře •[tag="NNN.*" & lemma=".*[eě]"] • ruční analýza? slovotvorné vlastnosti n-filtr: lemma=.*iště může neutrum typu kuře končit na [bpfvmntd]e? může neutrum typu moře končit na [bpfvmntd]ě, pokud nejde o substantivum tvořené sufixem -iště? další zakončení může neutrum typu kuře končit na –ce nebo -le? •Neutrum typu kuře nemůže končit na ce. •Neutrum typu kuře může končit na le (sele, tele, varle, batole, kůzle, …), ovšem nemůže končit na [aáil]le. •Neutrum typu kuře končí na se v případě substantiva prase, house, kose, zakončení na ze lze předpokládat (např. mládě vyzy – vyze). Lemma irbise (mládě irbisa), problém homonymie. irbis (irbisa nebo irbise) IJP Korpusové doklady Závěr •Běžná opozice flektivních typů / vzorů v češtině neplatí u typu píseň/kost a moře/kuře. •Přesto se lze při sledování rozdílů mezi oběma typy opřít o zakončení (finálu, finální skupinu) kmene analyzovaného substantiva. •Forma v zakončení kmene – sufix, zakončení typické pro přejaté, cizí slovo. •Tzv. obojetné souhlásky a příslušnost k flektivnímu typu. Tabulka vzor – dotaz pro vyhledání lemmat skloňovaných podle vzoru předseda lemma=.*a & tag=NNM.* soudce lemma=.*[eě] & tag=NNM.* žena lemma=.*a & tag=NNF.* růže lemma=.*[eě] & tag=NNF.* město lemma=.*o & tag=NNN.* stavení lemma=.*í & tag=NNN.* Tabulka vzor – dotaz pro vyhledání lemmat skloňovaných podle vzoru píseň lemma=.*e[ňv] & tag=NNF* kost lemma=.*[oe]st & tag=NNF.* moře lemma=.*(iště|ce|[bpfvmdtn]e|[aáil]le) & tag=NNN.* kuře lemma=.*[bpfvmdtn]ě & tag=NNN.* K čemu může uvedené cvičení sloužit? •Vzor= pravidelné tvoření tvarů. •Upřesněné znalosti o formálních vlastnostech jazykových jednotek mohou napomoci při formulaci pravidel flexe. Úkol na 9 .3. 2022 •Popiš postup vyhledávání substantiv skloňovaných podle vzorů pán/muž. •Všímej si, jak se chovají obojetné souhlásky [bfmpvlsz]. •Lze mezi obojetnými souhláskami najít nějakou skupinu, která by byla typickým zakončením pouze tvrdých vzorů? • Existují nějaké postupy, jak formálně odlišit maskulina zakončená na obojetné souhlásky, které se mohou vyskytovat v zakončení maskulin obou vzorů?