Nová příručka o tvoření slov: Slovník afixů užívaných v češtině (automatická morfologická analýza: prostředek a past při práci s korpusovými daty) Klára Osolsobě FF MU osolsobe@phil.muni.cz 24.9.2020 1 Šimandl , J. (ed.). Slovník afixů užívaných v češtině, Praha : Karolinum. 2016. 24.9.2020 2 http://www.ujc.cas.cz/eletronicke-slovniky-a-zdroje/Slovnik-afixu-html 24.9.2020 3 Co v něm lze najít? ´Česká utvořená slovní zásoba ´ ´Slovní zásoba se zřetelnou morfologickou stavbou 24.9.2020 4 Sufix -ouš 24.9.2020 5 Stavební prvek -hypno 24.9.2020 6 Frekvenční zpráva ´Korpus SYN2010 ´Korpus SYN (v3) ´Automatická morfologická analýza jako: prostředek a past při práci s korpusovými daty 24.9.2020 7 Obsah ´Tokenizace ´Nejednoznačná automatická analýza (lemma+tag): slovník ´Desambiguace ´Závěr 24.9.2020 8 Hesla ´na- -o (http://www.slovnikafixu.cz/heslar/na-%20-o) VV ´za- se (http://www.slovnikafixu.cz/heslar/za-%20se) KO ´-oš (http://www.slovnikafixu.cz/heslar/-o%C5%A1) KO ´-cí (http://www.slovnikafixu.cz/heslar/-c%C3%AD) KO, JŠ ´-í (http://www.slovnikafixu.cz/heslar/-%C3%AD) KO ´sou- -í (http://www.slovnikafixu.cz/heslar/sou-%20-%C3%AD) KO 24.9.2020 9 Tokenizace ´První krok automatické morfologické analýzy = rozdělení textu na jednotky, s nimiž pracují další kroky. Token odpovídá přibližně tomu, co klasická lingvistika nazývá grafické / textové slovo. ´V rámci NLP se problémy takto pojaté tokenizace řeší v rámci zpracování tzv. MWE (Multiword Expression). 24.9.2020 10 24.9.2020 11 ´Příslušná adverbia obvykle charakterizuje dvojí způsob psaní, srov.: načerno / na černo, nahrubo / na hrubo, naměkko / na měkko. První způsob zápisu je nutno považovat za základní. Do statistické části hesla jsou zahrnuty pouze varianty psané dohromady. ´Výsledky frekvenční zprávy ukazují pouze frekvenci jedné z variant grafického úzu (navíc jde pouze o varianty zachycené ve slovníku automatického analyzátoru, viz níže). ´ ´ 24.9.2020 12 Nejednoznačná automatická morfologická analýza (lemma+tag na základě porovnání se slovníkem) ´Výsledky lemmatizace jsou závislé na rozsahu a obsahu použitého slovníku (HAJIČ, J., HLAVÁČOVÁ, J. (2013). MorfFlex CZ, LINDAT/CLARIN digital library at Institute of Formal and Applied Linguistics, Charles University in Prague, http://hdl.handle.net/11858/00-097C-0000-0015-A780-9.) ´Přestože je slovník rozsáhlý a stále se doplňuje, je počet hapaxových výrazů v textech stabilní veličina. Údaje o produktivitě mohou být selektivní (závislé na slovníku). 24.9.2020 13 . ´Zopakujeme-li u hesla na- -o dotaz s vynecháním morfologické značky (D.*), nalezneme další relevantní doklady. ´Slova s malou frekvencí odpovídají modelu tvoření. ´Obraz produktivity lze tudíž napadnout. ´ 24.9.2020 14 Neúplný slovník: -oš Mil-oš, Jug-oš × Káj-oš, Tal-oš 24.9.2020 15 ´Slovník automatického analyzátoru budovaný primárně pro analýzu psaného spisovného jazyka zachycuje expresivní slovní zásobu včetně proprií velmi selektivně. ´Dotaz [lemma=".*oš" & tag="NN[MI].*"] dává 125 lemmat, z toho 69 relevantních. Dotaz [lemma="(.*oš)|(.*oš[eiů])|(.*oších)|(.*ošům) & tag="X.*"] dává 282 tvarů, z toho 36 relevantních lemmat. ´ ´ Desambiguace ´Výsledky desambiguace (výběru interpretace ze všech nabízených automatickou morfologickou analýzou) jsou závislé na použité metodě desambiguace. ´Problém homonymie (transpozice, polyfunkční afixy, náhodné shody při formálním zadání dotazu) je řešen selektivně. 24.9.2020 16 Desambiguace: -cí vedou-cí ´vedoucí (↖1/2/3) 8.348 ´ adjektivum vyjadřující (1) aktuální vlastnost plynoucí z děje (např. cesta vedoucí lesem = ‚cesta, která vede lesem‘), může se (2) dezaktualizovat (vedoucí složky armády = ‚vedení armády‘) a (3) substantivizovat (vedoucí skupinky = ‚vůdce skupinky‘). ´(1) a (2) automatická morfologická analýza nerozlišuje. ´(3) je sice zachycen, nicméně výsledky desambiguace jsou velmi nespolehlivé. 24.9.2020 17 Chyby v desambiguaci: cestují-cí 24.9.2020 18 ´Náhodné shody řetězců ´„Řetězec sou- -í mají i substantiva, která nejsou tvořena příslušným cirkumfixem. Jsou to a) dějová jména od sloves s prefixem/počátečním řetězcem sou, např. soustředění, soužití, soutěžení; b) deriváty jmen na -ství/-ctví s počátečním řetězcem/prefixem sou-, např. sousedství, souručenství; c) substantivum soukromí, utvořené od adjektiva/adverbia. V korpusu SYN2010 je jich celkem 28.“ 24.9.2020 19 Závěr ´S limity automatické analýzy počítáme a snažili jsme se na ně upozorňovat uživatele v takovém rozsahu, aby nebyl uveden v omyl. ´Veškeré údaje (pokud není uveden opak) odkazující na korpus jsou vzaty z referenčního korpusu (SYN2010) a způsob jejich zjištění je dostatečně popsán. Každý uživatel slovníku má tudíž možnost uvedený postup zopakovat i s použitím jiných dat (jiných korpusů) (požadavek empirické testovatelnosti výsledků). ´Bez využití výsledků automatické morfologické analýzy by vznik slovníku (psaní hesel) byl a) nesrovnatelně časově náročnější, b) podstatně nákladnější a ve svém výsledku c) méně objektivní. 24.9.2020 20 DĚKUJI VÁM ZA POZORNOST! 24.9.2020 21 Dú na 14. 10. 2020 ´Který derivační afix jste v SAUČ nenašli a jak byste hledali data pro jeho charakteristiku v korpusu? 24.9.2020 22 Příklad ´V SAUČ je jako samostatné heslo afix –il (zastoupeno např. slovem čum-il, které je zdůvodněno tak, že nejde i typ derivátu od kmene minulého, neboť kmenotvorné –ě- není součástí derivace na rozdíl od případů jako např. Skác-e-t → Skác-el, - kut-i-t → kut-i-l, tlach-a-t → tlach-a-l, Krý-0-t → Kry-0-l). ´V SAUČ ovšem chybí sufix –l ´K tomuto tématu viz OSOLSOBĚ, Klára. Využití corpus driven metod při corpus based výzkumu. In Děngeová, Zuzana; Vališová, Pavlína. Proměna jazyka a jeho výzkumu v době nových médií a technologií. 1. vyd. Praha: Ústav pro jazyk český AV ČR, 2015. s. 3-12, 10 s. ISBN 978-80-86496-87-0. 24.9.2020 23