CJBB84
Morfologie a korpus
9.10-10.50 G13
I.

Morfologické značkování českých korpusů
•Pražský systém : tagset_poziční
•Brněnský systém : tagset_atributový

Pražský systém
•Poziční užívaný v korpusech ČNK
•16 pozic – každá pozice odpovídá nějaké kategorii známé z klasické gramatiky •Např. na 1. pozici
každé značky je uveden slovní druh podle klasické desetičlenné klasifikace slovních druhů. Na
stejné pozici je i značka X pro jednotky, které nejsou rozpoznány automatickou morfologickou
analýzou a značka Z pro interpunkční znaky. •Tag=N.* čteme: značka=substantivum (.*/.+ je regulární
výraz, který čteme libovolný počet opakování libovolného znaku, což značí, že další pozice značky
jsou pro nás nezajímavé).

[tag="N.*"]


Brněnský systém
•Atributový užívaný v korpusech vytvářených na FI MU
•Dvojice atribut_hodnota odpovídá rovněž gramatickým kategoriím a hodnotám, které nabývají. •Např.
atribut k signalizuje slovní druh, je následován číslicí 1,2,3, …,0, které označují hodnotu
klasických deseti slovních druhů ve školním řazení.
•

[tag="k1.*"]


Jak se interpretaci ve formě lemmat a tagů dostaly do korpusu?
•Automatická morfologická analýza
•Morfologický slovník
•Automatický nástroj
•Tokenizátor
•Lemmatizace/značkování
•Diasambiguace
•

Jí je špatně.
•Jí – jíst/VB-P---3P-AA---I
•Jí – on/PPFS3—3--------
•Je – být/VB-S---3P-AA---I
•Je – on/PPFP4—3--------
•Je – on/PNSP4—3--------
•Je – on/PPIP4—3--------
•Je – on/PPMP4—3--------
•Špatně – špatně/Dg--------1A----

Jí je špatně.


Jí je špatně.


Homonymie – problém disambiguace
•Statistické metody
•Pravidlové metody

Chyby


Rezervy automatické morfologické analýzy
•Kde se berou chyby v automatické morfologické analýze?
•Jaká úskalí mohou přinést pokusy o odstranění těchto chyb?
•

Kde se berou chyby v automatické morfologické analýze?
•Tvar je ve slovníku a je chybně desambiguován v důsledku tvarové homonymie •Ve slovníku
automatického analyzátoru chybí adekvátní interpretace, tvar/word tudíž nemůže být správně
interpretován (podgenerování na rovině slovníku)
•

Tvar je ve slovníku


a je chybně desambiguován


v důsledku tvarové homonymie


Popis homonym
•


Ve slovníku automatického analyzátoru chybí adekvátní interpretace, tvar/word tudíž nemůže být
správně interpretován (podgenerování na rovině slovníku)


Možná řešení a jejich úskalí
•Guessery
•Doplňování slovníku
•

Tvar/varianta není ve slovníku, přestože jiné tvary/varianty ve slovníku jsou, tudíž nemůže být
správně desambiguován


Nedostatečné pokrytí má vliv na nepřesnou analýzu
•Řešení: DOPLNĚNÍ TVARŮ DO SLOVNÍKU = ZLEPŠENÍ VÝSLEDKŮ AUTOMATICKÉ ANALÝZY
•PROBLÉMY
•

Pokrytí slovníku je v pořádku, ale  výsledky analýzy nejsou přesné
•Tvar/varianta není ve slovníku, přestože jiné tvary/varianty ve slovníku jsou, je ovšem homonymní
s tvarem, který ve slovníku je, a tak desambiguace je technicky vzato v pořádku, nicméně neodpovídá
skutečnosti
•

Nejde o chybu v desambiguaci, ale i o podgenerovaný slovník


Časté případy podgenerování slovníku
•Cizojazyčné jednotky
•Vlastní jména
•Termíny
•Překlepy
•Řídká slova
•Řídce doložené varianty
•Varianty substandardní (nekodifikované, které nebyly zaneseny do morfologického slovníku)

[tag="X.*"]


Závěr
•Výsledky automatické morfologické analýzy - užitečný nástroj
•Vždy bude obsahovat chyby
•Chyby je možné odstraňovat
•Nikdy nebudou odstraněny všechny chyby
•Práce s a bez použití automatické analýzy

Úkol na příště
•Prostudovat pražský tagset (http://wiki.korpus.cz/doku.php/pojmy:tag?redirect=1#tagset)
•Prostudovat brněnský tagset (https://nlp.fi.muni.cz/projekty/ajka/tags.pdf)