Derivancze — Derivational Analyser of Czech, Derinet PLIN033 osolsobe@phil.muni.cz Nástroje pro zpracování slovotvorby •Deriv •Derivancze •Derinet Deriv (deb.fi.muni.cz/deriv) – bohužel neudržováno •webové rozhraní •schopnost pracovat s morfologickým slovníkem analyzátoru (m)ajka •propojení s tištěnými slovníky •propojení s korpusy •Veronika Kalivodová: Tvorba uživatelského manuálu pro DEBDict a Deriv (Bc. DP, FF MU, 2017: https://is.muni.cz/th/mggon/?zoomy_is=1) •OSOLSOBĚ, Klára, Karel PALA, Pavel ŠMERK a Dana HLAVÁČKOVÁ. Relations between Formal and Derivational Morphology in Czech. In Czech in Formal Grammar. Mnichov: Lincom, 2009. s. 79-87, 9 s. ISBN 978-3-89586-282-3. • Derivancze: https://nlp.fi.muni.cz/projects/derivancze/ •Pala K., Šmerk P. (2015) Derivancze — Derivational Analyzer of Czech. In: Král P., Matoušek V. (eds) Text, Speech, and Dialogue. TSD 2015. Lecture Notes in Computer Science, vol 9302. Springer, Cham. https://doi.org/10.1007/978-3-319-24033-6_58 • • Hledání odvozených slov generovaných automaticky na základě brněnského slovníku (Osolsobě, 1996) kralovat synv8 czTenTen17 • czTenTen17 Pozadí morfologických slovníků •Pražský (MorfFlex) i brněnský slovník byly vytvořeny na základě pravidel, které „rozgenerovaly“ potenciální (paradigmaticky tvořené) tvary. •Od každého slovesa se tak tvoří: • a) úplný soubor tvarů pasivního příčestí/ tzv. krátkých tvarů (viz zde kralován), a to bez ohledu na to, zda jde o sloveso, které tyto tvary tvoří, či nikoliv; •b) úplný soubor tvarů dlouhých/adjektivních (viz zde kralovaný); •c) úplný soubor slovesných substantiv na ní/tí (viz zde kralování); •d) úplný soubor procesuálních adjektiv na oucí/ící omezený pouze videm (nedokonavým) základového slovesa (viz zde kralující). Automatická morfologická analýza •Je založena na slovnících, a tak pokud je ve slovníku ke tvaru nalezena dvojice lemmma+tag, pak je použita, viz interpretace udělované překlepům. • Dobře/špatně? •Nikoliv, automatické nástroje lze např. využít k tomu, aby se ze slovníku odstranily přegenerované výsledky (např. na základě vyloučení/potlačení tvarů, které mají v korpusech nulovou/malou frekvenci). Tento postup je ovšem třeba aplikovat velmi opatrně (viz nepředpokládané, ale doložené tvary typu kralováno atd.) Další funkce nástroje Derivancze: značky obsahující derivační vztahy (automatický generované a ručně editované) strom dům Ajka: https://nlp.fi.muni.cz/projekty/wwwajka/WwwAjkaSkripty/morph.cgi?jazyk=0 ? strom → stromek → stromeček × dům → domek a separé domek → domeček Problém je v automatickém zpracování dat, zejména v případě hláskových alternací a dalších nepravidelností, které jsou spoluformanty derivace Podobně: Různé nesrovnalosti: Tvary sací generované rozhraním Ajky lemma sací Pozor •bít → bil → bicí •krýt → kryl → krycí •sát → sál → sací •hrát → hrál → hrací •Ověřte, zda platí, že pokud se tvar účelového adjektiva na cí tvoří od kmene minulého slovesa, které nemá alternaci ve tvarech od kmene minulého, a zároveň má alternaci ve tvarech účelového adjektiva, pak ji nástroj Derivancze nezná. • • Která slovesa nemají alternaci kořenového vokálu? •Kořenový vokál dlouhý infinitivu se nekrátí u sloves III. třídy krýt, pokud tímto vokálem je á. •Seznam sloves: hrát, hřát, okřát, přát, smát se, sát, vát, … • Zachycení paradigmatických derivací někde bez ohledu na významové posuny Derinet (https://ufal.mff.cuni.cz/derinet) •DeriNet 2.0 (https://ufal.mff.cuni.cz/derimo2019/pdf-files/derimo2019-10.pdf) •1 milion lexemů (vzorek ze slovníku MorfFlex) propojených 808 tisíci derivačních vztahů a 600 odkazů z kompozit na základová slova; •anotace morfologických kategorií (u všech lexémů – zajišťuje rozdílné derivační vztahy u homonym: stát = V|N, tulení = N(v)/A(n), …), •identifikace kořenových morfů (u 250 lexemů), •semantické labely (150 relací, 5 labelů), •kompozita (600 lexemů) •tzv. fiktivní lexémy (testování např. -bízet). • Lexikální síť - příklad Sémantické labely strom dům https://quest.ms.mff.cuni.cz/derisearch2/v2/databases/Czech-DeriNet-2.0/dcql?ci=false&defA=lemma&li mit=10&offset=0&q=d%C5%AFm&style=stretch Vyzkoušejte na verzi 2.1 •The present version, DeriNet 2.1, contains over 1 million lexemes (sampled from the MorfFlex dictionary) connected by 782 thousand derivational relations, 144 relations of conversion, 295 relations of univerbisation, 1,952 links pointing from compounds to their base words, and 50,533 links connecting orthographic variants. •https://quest.ms.mff.cuni.cz/derisearch2/v2/databases/ • legenda k zobrazení kralovat hrát chodit https://quest.ms.mff.cuni.cz/derisearch2/v2/databases/Czech-DeriNet-2.1/dcql?ci=false&context=clust er&defA=lemma&limit=10&minC=all&offset=0&q=chodit&showA=llemma&showA=lpos&style=stretch ? průchodit průchodí.* Kliknutím na uzel získáme další části derivací i kompozita Aplikace na další jazyky (např. fr. appliquer nebo pol. źródło) Němčina Nástroje: (https://ufal.mff.cuni.cz/universal-derivations) Četba: Dú – na příště •Prostudujte www stránky ÚFAL •články v IS_studijní materiály •