Morfologická analýza pro češtinu morfologický analyzátor K. Pala, P. Šmerk podzim 2019 Úvod 1 •algoritmický popis české morfologie •Východiska a technická řešení •Slovní druhy, gramatické kategorie a značky (tagsety), lemmata •Morfologická analýza a syntéza – segmentace •Flexe – ohýbání – deklinace a konjugace, vzory, neohebné sl. druhy (prep., konj., part.) •Notace, formalizace, vhodné pro SP • • • • Úvod 2 •derivační morfologie – tvoření slov, detaily? •automaticky lze odvozovat: -posesivní (přivlastňovací) adj. od substantiv -deadjektivní adverbia, dobrý, dobře -stupňování adjektiv (výjimky dobrý, lepší ?) -deverbativní substantiva a adj. (boj–ovat-ový) -přechylování (příjmení a rodinná jména) -deminutiva (dům, domek, domeček) -činitelská jména a další (učit-el) - Ajka, Majka, morfologická analýza •Nástroje pro práci s morfologickou databází •- Morfologická databáze a slovník kmenů (cca 400 tis. položek) •Pokud možno úplné seznamy vzorů, podvzorů, odchylek, variant, výjimky •příklad: seznam vzorů s 1-5 kmeny •Přiřazení mezi kmeny a vzory – seznamy dává databáze • • Segmentace slova •Morfologická analýza (syntéza) vychází z definic vzorů podle slovních druhů (klasicky 10, H&J). Slovoforma – slovní tvar – je dán kombinací 5 složek •Prefix (fakultativní) •Kmenový základ (KMZ, stabilní) •Intersegment (IS, nestabilní) •Koncovka (T= koncovka flektivní) •Postfix (fakultativní) • • Vzory a konc. množiny •5 komponentové členění umožňuje operativně zpracovat hláskové alternace kmene v závislosti na koncovce (koncovkách, vlk - vlci). •Vzor je definován jako kombinace • PREFIX+KMZ+IS (lexikální část) • KONCOVKOVÉ MNOŽINY •(koncovka opatřená morfologickou značkou – potencionální gramatické významy příslušné kombinace nezávislé na kontextu). Příklad vzoru •poslat/pošlu •PREFIX: po- •KMZ: -0- •IS –sla-/-slá-/-šl-/-šle- •T (koncovky): (-t,-l,-la,..)/(-n,-na,..)/(-u,-i,…)/(-š,-0,-me…) •Postfix: -0 •V korpusu SYN2000 se najde 10754 tvarů Příklad vzoru II •po •+0 {maže} • W3A,W5A • W7 • W4C • PRT1,PRT2 • V13,PRT3 • PRMP • <šl> W1B,W2B,W6A • <šle> W1A • <šlouc> PRMI Vlastnosti uvedeného popisu •Používá se stále, pravidelně se doplňuje •Využití: značkování korpusů, modul pro syntaktickou analýzu, součást korektorů •Pokrytí: testováno na SYN2000, cca 96 % (4 % - číselné výrazy, zkratky, jiné jazyky) •komplementárně je k dispozici seznam kolokací – cca 110 000 pol. – propojení •Lze jej rozšiřovat (spisovná norma – nespisovné útvary, změny v kodifikaci) Nová zjištění u vzorů •Vzor hrad/les (MČ2 – tab. Str. 306) •Vzor žena (hláskové alternace ve kmeni kromě gen. pl.) •Vzor píseň/kost (MČ2 str. 330-1) •Vzor muž/obyvatel (jen v PMČ, v SYN2000 11028 příkladů, všechny uvedeny jako nom. sg. , ve skutečnosti přinejmenším ¾ z uveného počtu jsou tvary gen. pl.!!!) • Zpřesnění vzorů •branou – bránou (679:307) •branám – bránám (43:1) •branách – bránách (18:1) •branami – bránami (307:8), •silou – sílou (3207:53) •silám – sílám (585:1) •silách - sílách (1046:1) •silami – sílami (1516:2) •kravou – krávou (3:53) •kravám – krávám (26:0) •kravách – krávách (13:0) •kravami – krávami (32:6). Doplnění vzorů II •Adjektiva •- stupňování •- derivace adverbií Doplnění vzorů III •Slovesa •- brát – bral – brán nebrat – nebral – nebrán •(alternace kmenotvorné přípony v závislosti na počtu slabik) •IV. třída slovesná (kolísání mezi vzory prosit/trpět-sázet) •II. třída vzor tisknout – tvary minulého (l-ového) participia (-0-/-nu-) – kolísání – úplné seznamy Silná slovesa v češtině? •Členění sloves •I. třída •II. třída vzor začít •III. třída vzor krýt •(počet do 200 neprefigovaných sloves) Derivační vzory zájmen a číslovek •dev-ět-0 •dev-ít-i •dev-át-ý •dev-ater-o/ý •dev-ítk-a Morfologické značky (tagy) •systém atribut – hodnota, např. •Podle slovních druhů (10) •[word=slonům & lemma=“slon” & tag=“k1gMnPc3”] •[word=“dobří” & lemma=“dobrý” & tag=“k2eAgMnPc1d1“] •[word=“brát” & lemma=”brát” & tag=“k5mFaI”] •[word=“beru” & lemma=”brát” & tag=“k5mIp1nSaI“] •[word=“bral” & lemma=”brát” & tag=“k5mAgMnSaI”] Poziční vs. atributový systém •[tag=“NNMS(1|2|3|4|5|6|7).*”] > [tag=“k1gMnSc(1|2|3|4|5|6|7).*”] •[tag=“NNIS(1|2|3|4|5|6|7).*”] > [tag=“k1gNnSc(1|2|3|4|5|6|7).*”] •[tag=“NNFS(1|2|3|4|5|6|7).*”] > [tag=“k1gFnSc(1|2|3|4|5|6|7).*”] •[tag=“NNNS(1|2|3|4|5|6|7).*”] > [tag=“k1gInSc(1|2|3|4|5|6|7).*”] • • Soubory značek? •Brno vs. Praha, atributy vs. pozice •Nový soubor značek (tagset) •návrh společného – UK, MU, ÚJČ, další? •příprava na podzim Co je potřeba k propojení? •Nástroje – každý má svoje •seznamy, slovníky, data •výměna výsledků – oboustranně •ostatní pracoviště?