CJBB84 Morfologie a korpus 10.00-11.30 G13 I. Morfologické značkování českých korpusů •Pražský systém : tagset_poziční •Brněnský systém : tagset_atributový Pražský systém •Poziční užívaný v korpusech ČNK •16 pozic – každá pozice odpovídá nějaké kategorii známé z klasické gramatiky •Např. na 1. pozici každé značky je uveden slovní druh podle klasické desetičlenné klasifikace slovních druhů. Na stejné pozici je i značka X pro jednotky, které nejsou rozpoznány automatickou morfologickou analýzou a značka Z pro interpunkční znaky. •Tag=N.* čteme: značka=substantivum (.*/.+ je regulární výraz, který čteme libovolný počet opakování libovolného znaku, což značí, že další pozice značky jsou pro nás nezajímavé). [tag="N.*"] Brněnský systém •Atributový užívaný v korpusech vytvářených na FI MU •Dvojice atribut_hodnota odpovídá rovněž gramatickým kategoriím a hodnotám, které nabývají. •Např. atribut k signalizuje slovní druh, je následován číslicí 1,2,3, …,0, které označují hodnotu klasických deseti slovních druhů ve školním řazení. • [tag="k1.*"] Jak se interpretaci ve formě lemmat a tagů dostaly do korpusu? •Automatická morfologická analýza •Morfologický slovník •Automatický nástroj •Tokenizátor •Lemmatizace/značkování •Diasambiguace • Jí je špatně. •Jí – jíst/VB-P---3P-AA---I •Jí – on/PPFS3—3-------- •Je – být/VB-S---3P-AA---I •Je – on/PPFP4—3-------- •Je – on/PNSP4—3-------- •Je – on/PPIP4—3-------- •Je – on/PPMP4—3-------- •Špatně – špatně/Dg--------1A---- Jí je špatně. Jí je špatně. Homonymie – problém disambiguace •Statistické metody •Pravidlové metody Chyby Rezervy automatické morfologické analýzy •Kde se berou chyby v automatické morfologické analýze? •Jaká úskalí mohou přinést pokusy o odstranění těchto chyb? • Kde se berou chyby v automatické morfologické analýze? •Tvar je ve slovníku a je chybně desambiguován v důsledku tvarové homonymie •Ve slovníku automatického analyzátoru chybí adekvátní interpretace, tvar/word tudíž nemůže být správně interpretován (podgenerování na rovině slovníku) • Tvar je ve slovníku a je chybně desambiguován v důsledku tvarové homonymie Popis homonym • Ve slovníku automatického analyzátoru chybí adekvátní interpretace, tvar/word tudíž nemůže být správně interpretován (podgenerování na rovině slovníku) Možná řešení a jejich úskalí •Guessery •Doplňování slovníku • Tvar/varianta není ve slovníku, přestože jiné tvary/varianty ve slovníku jsou, tudíž nemůže být správně desambiguován Nedostatečné pokrytí má vliv na nepřesnou analýzu •Řešení: DOPLNĚNÍ TVARŮ DO SLOVNÍKU = ZLEPŠENÍ VÝSLEDKŮ AUTOMATICKÉ ANALÝZY •PROBLÉMY • Pokrytí slovníku je v pořádku, ale výsledky analýzy nejsou přesné •Tvar/varianta není ve slovníku, přestože jiné tvary/varianty ve slovníku jsou, je ovšem homonymní s tvarem, který ve slovníku je, a tak desambiguace je technicky vzato v pořádku, nicméně neodpovídá skutečnosti • Nejde o chybu v desambiguaci, ale i o podgenerovaný slovník Časté případy podgenerování slovníku •Cizojazyčné jednotky •Vlastní jména •Termíny •Překlepy •Řídká slova •Řídce doložené varianty •Varianty substandardní (nekodifikované, které nebyly zaneseny do morfologického slovníku) [tag="X.*"] Závěr •Výsledky automatické morfologické analýzy - užitečný nástroj •Vždy bude obsahovat chyby •Chyby je možné odstraňovat •Nikdy nebudou odstraněny všechny chyby •Práce s a bez použití automatické analýzy Úkol na příště •Prostudovat pražský tagset (http://wiki.korpus.cz/doku.php/pojmy:tag?redirect=1#tagset) •Prostudovat brněnský tagset (https://nlp.fi.muni.cz/projekty/ajka/tags.pdf) •článek _ IS