CJBB84 Morfologie a korpus 8.00-9.30 G13 VI. O čem budeme mluvit •Spojení typu „jízda po italsku“ versus „jízda po Španělsku“ •Co říká IJP •Jak hledat data •Jak je vyřešen problém lemmatizace / taggování •Slovnědruhový přesah a adverbializace •Homonymie a kolokace Co říká IJP •Příslovečné spřežky píšeme dohromady –⁠ jako jedno slovo. Hranice chápání určitého výrazu jako spřežky však není ve všech případech jasná, často dochází ke kolísání, a nezřídka proto vedle sebe existují jak podoby psané zvlášť, tak dohromady a jejich význam je totožný (na příklad – například). Na druhou stranu se u některých příslovcí již dlouho neužívá jejich výchozí, dvouslovná podoba a jsou chápána jako spřežky jen z vývojových, etymologických důvodů (vzhůru, zpět atp.). •V ustrnulých spojeních typu kapr po mlynářsku, pstruh po námořnicku píšeme předložku zvlášť (na rozdíl od ustálených spojení poslepu i po slepu, postaru i po staru, podomácku i po domácku, která můžeme psát dvojím způsobem); zeměpisná jména v nich píšeme s malým počátečním písmenem: vepřové po německu, nákyp po francouzsku, stejně tak lze zmizet po anglicku. Nedodržení normy: po.*[sc]ku Řídké doklady psaní dohromady Jak hledat data: po .*sku Pozorování a filtrování •a) frazeologismy: kousek po kousku •b) substantiva zisk, loňsko, výtisk • lemma=.*sk lemma=rusk tag=NN[IM] Jak je vyřešen problém lemmatizace / taggování •[lemma=“po”][lemma=“.*sk[ou]”] • Frekvence/Vlastní/slovo nejvíce vpravo/POS pos=N pos=X POS=D pod=A Slovnědruhový přesah a adverbializace •Slovnědruhový přechod (adverbializace) je v případě vzniku adverbií zejména z předložkových pádů jmenných tvarů komplikovaný. •V tradičním popisu (IJP) jsou spojení typu „jízda po italsku“ traktovány v oddíle věnovaném „příslovečným“ spřežkám, spřažená grafická podoba je ovšem vyloučena a druhý člen spojení je interpretován jako „zeměpisné jméno psané s malým počátečním písmenem“ (implicitně to znamená, že jinak/mimo spojení s významem „po x-sku způsobu“ je „x-sku“ zeměpisné jméno psané s velkým písmenem). •Slovnědruhový přesah mají ustrnulé tvary jmen v pozici tzv. predikativ. Všimněte si N/D rozdílů v následujících příkladech a uvědomte si, kde je slovnědruhový přesah (nelze desambiguovat) •Je mu teplo. Je mu zima. •Bylo mu teplo. Byla mu zima. •Bylo mu teplo. Bylo mu zima. •Bylo mu velké teplo. Byla mu velká zima. •Bylo mu velmi teplo. Bylo mu velmi zima. Jak je to se slovnědruhovou přesažností případů typu po .*sku •Vidíme, že automatická morfologická analýza je v řešení slovnědruhové interpretace nekonzistentní. •Nesleduje bezvýhradně linii vytčenou v IJP (viz případy jako po [Cc]ikánsku a po kavalírsku). •Pod pos=N tak zahrnuje jak doklady „jízda po italsku“, tak doklady typu „jízda po Španělsku“ a dokonce i doklady jako „mluvit po rusínsku“. •Mnoho dokladů (většinou jde o první případ) zůstává nerozpoznáno automatickou morfologickou analýzou. • Jak fungují vlastní jména ve slovníku MorfFlex? •Propria jsou ve slovníku MorfFlex lemmatizována s velkým počátečním písmenem a ta, která jsou takto lemmatizována lze vyhledat přes lemma (lemma=[[:upper:]].*). •Pokud je ovšem ve slovníku pouze lemma s velkým počátečním písmenem, pak tvar s malým počátečním písmenem není rozpoznán automatickou morfologickou analýzou. • lemma=po word=[Šš]panělsku|[Pp]olsku • lemma=po word=[Bb]avorsku|[Ee]stonsku lemma=po word=[Nn]ěmecku|[Ii]talsku Problém slovníku MorfFlex •Nedostatek pokrytí tvarů „zeměpisných jmen“, které mohou mít obě pravopisné varianty počátečního písmena. •Obě varianty má ve slovníku MorfFlexu Španělsko i španělsko, Polsko i polsko, Německo i německo, ale i Italsko i italsko. •Variantu jedinou má např. Bavorsko a Estonsko. • Homonymie a kolokace •Pravopisně rozlišené varianty jsou pouze homofonní (nikoli homografní), takže jejich desambiguace by neměla v případě doplnění slovníku o chybějící položky činit potíže. •Podívejte se na data a sledujte, zda je pravopisná (grafická) norma vždy dodržována. • po Španělsku Kolokace (T-score) (-1,-1 lemma) Všimněte si chyb proti kodifikaci /pravopisu po Italsku Kolokace (T-score) (-1,-1 word) Pozorování •Dodržení pravopisné normy v psaných textech není zcela důsledné. •Oporou pro vyhledání chyb v pravopisu mohou být kolokační profily. Závěr •Spojení typu po .*sku •Popis v příručce a praxe lemmatizace •Otázka uchopení slovnědruhového přesahu •Nedostatky slovníku MorfFlex jako zdroj nerozpoznaných spojení typu po .*sku psaných podle platné kodifikace •Přegenerovaný slovník a porušení pravopisné normy • Domácí úkol na 4. 5. 2022 •Popište postup, jak lze hledat v korpusu SYNv9 doklady případů, kdy tvar na sku) následuje po předložce po a obsahuje gramatickou chybu, a jak postupovat v opačných případech.