Derivancze — Derivational Analyser of Czech, Derinet PLIN033 osolsobe@phil.muni.cz Nástroje pro zpracování slovotvorby •Deriv •Derivancze •Derinet Deriv (deb.fi.muni.cz/deriv) – bohužel neudržováno •webové rozhraní •schopnost pracovat s morfologickým slovníkem analyzátoru (m)ajka •propojení s tištěnými slovníky •propojení s korpusy •Veronika Kalivodová: Tvorba uživatelského manuálu pro DEBDict a Deriv (Bc. DP, FF MU, 2017: https://is.muni.cz/th/mggon/?zoomy_is=1) •OSOLSOBĚ, Klára, Karel PALA, Pavel ŠMERK a Dana HLAVÁČKOVÁ. Relations between Formal and Derivational Morphology in Czech. In Czech in Formal Grammar. Mnichov: Lincom, 2009. s. 79-87, 9 s. ISBN 978-3-89586-282-3. • Derivancze: https://nlp.fi.muni.cz/projects/derivancze/ •Pala K., Šmerk P. (2015) Derivancze — Derivational Analyzer of Czech. In: Král P., Matoušek V. (eds) Text, Speech, and Dialogue. TSD 2015. Lecture Notes in Computer Science, vol 9302. Springer, Cham. https://doi.org/10.1007/978-3-319-24033-6_58 • • Hledání odvozených slov generovaných automaticky na základě brněnského slovníku (Osolsobě, 1996) kralovat synv8 czTenTen17 • czTenTen17 Pozadí morfologických slovníků •Pražský (MorfFlex) i brněnský slovník byly vytvořeny na základě pravidel, které „rozgenerovaly“ potenciální (paradigmaticky tvořené) tvary. •Od každého slovesa se tak tvoří: • a) úplný soubor tvarů pasivního příčestí/ tzv. krátkých tvarů (viz zde kralován), a to bez ohledu na to, zda jde o sloveso, které tyto tvary tvoří, či nikoliv; •b) úplný soubor tvarů dlouhých/adjektivních (viz zde kralovaný); •c) úplný soubor slovesných substantiv na ní/tí (viz zde kralování); •d) úplný soubor procesuálních adjektiv na oucí/ící omezený pouze videm (nedokonavým) základového slovesa (viz zde kralující). Automatická morfologická analýza •Je založena na slovnících, a tak pokud je ve slovníku ke tvaru nalezena dvojice lemmma+tag, pak je použita, viz interpretace udělované překlepům. • Dobře/špatně? •Nikoliv, automatické nástroje lze např. využít k tomu, aby se ze slovníku odstranily přegenerované výsledky (např. na základě vyloučení/potlačení tvarů, které mají v korpusech nulovou/malou frekvenci). Tento postup je ovšem třeba aplikovat velmi opatrně (viz nepředpokládané, ale doložené tvary typu kralováno atd.) Další funkce nástroje Derivancze: značky obsahující derivační vztahy (automatický generované a ručně editované) strom dům Ajka: https://nlp.fi.muni.cz/projekty/wwwajka/WwwAjkaSkripty/morph.cgi?jazyk=0 ? strom → stromek → stromeček × dům → domek a separé domek → domeček Problém je v automatickém zpracování dat, zejména v případě hláskových alternací a dalších nepravidelností, které jsou spoluformanty derivace Podobně: Různé nesrovnalosti: Tvary sací generované rozhraním Ajky lemma sací Pozor •bít → bil → bicí •krýt → kryl → krycí •sát → sál → sací •hrát → hrál → hrací •Ověřte, zda platí, že pokud se tvar účelového adjektiva na cí tvoří od kmene minulého slovesa, které nemá alternaci ve tvarech od kmene minulého, a zároveň má alternaci ve tvarech účelového adjektiva, pak ji nástroj Derivancze nezná. • • Která slovesa nemají alternaci kořenového vokálu? •Kořenový vokál dlouhý infinitivu se nekrátí u sloves III. třídy krýt, pokud tímto vokálem je á. •Seznam sloves: hrát, hřát, okřát, přát, smát se, sát, vát, … • Zachycení paradigmatických derivací někde bez ohledu na významové posuny Derinet (https://ufal.mff.cuni.cz/derinet) •DeriNet 2.0 (https://ufal.mff.cuni.cz/derimo2019/pdf-files/derimo2019-10.pdf) •1 milion lexemů (vzorek ze slovníku MorfFlex) propojených 808 tisíci derivačních vztahů a 600 odkazů z kompozit na základová slova; •anotace morfologických kategorií (u všech lexémů – zajišťuje rozdílné derivační vztahy u homonym: stát = V|N, tulení = N(v)/A(n), …), •identifikace kořenových morfů (u 250 lexemů), •semantické labely (150 relací, 5 labelů), •kompozita (600 lexemů) •tzv. fiktivní lexémy (testování např. -bízet). • Lexikální síť - příklad Sémantické labely strom dům https://quest.ms.mff.cuni.cz/derisearch2/v2/databases/Czech-DeriNet-2.0/dcql?ci=false&defA=lemma&li mit=10&offset=0&q=d%C5%AFm&style=stretch Vyzkoušejte •https://quest.ms.mff.cuni.cz/derisearch2/v2/databases/Czech-DeriNet-2.0/dcql?ci=false&defA=lemma&l imit=10&offset=0&q=d%C5%AFm&style=stretch • kralovat hrát Aplikace na další jazyky (např. fr. nebo pol.) Němčina Nástroje: Četba: Dú – 9. 12. 2020 •Prostudujte www stránky ÚFAL •články v IS_studijní materiály