Nová příručka o tvoření slov: Slovník afixů užívaných v češtině (automatická morfologická analýza: prostředek a past při práci s korpusovými daty) Klára Osolsobě FF MU osolsobe@phil.muni.cz 18.9.2018 1 Šimandl , J. (ed.). Slovník afixů užívaných v češtině, Praha : Karolinum. 2016. 18.9.2018 2 http://www.ujc.cas.cz/eletronicke-slovniky-a-zdroje/Slovnik-afixu-html 18.9.2018 3 Co v něm lze najít? ´Česká utvořená slovní zásoba ´ ´Slovní zásoba se zřetelnou morfologickou stavbou 18.9.2018 4 Sufix -ouš 18.9.2018 5 Stavební prvek -hypno 18.9.2018 6 Frekvenční zpráva ´Korpus SYN2010 ´Korpus SYN (v3) ´Automatická morfologická analýza jako: prostředek a past při práci s korpusovými daty 18.9.2018 7 Obsah ´Tokenizace ´Nejednoznačná automatická analýza (lemma+tag): slovník ´Desambiguace ´Závěr 18.9.2018 8 Hesla ´na- -o (http://www.slovnikafixu.cz/heslar/na-%20-o) VV ´za- se (http://www.slovnikafixu.cz/heslar/za-%20se) KO ´-oš (http://www.slovnikafixu.cz/heslar/-o%C5%A1) KO ´-cí (http://www.slovnikafixu.cz/heslar/-c%C3%AD) KO, JŠ ´-í (http://www.slovnikafixu.cz/heslar/-%C3%AD) KO ´sou- -í (http://www.slovnikafixu.cz/heslar/sou-%20-%C3%AD) KO 18.9.2018 9 Tokenizace ´První krok automatické morfologické analýzy = rozdělení textu na jednotky, s nimiž pracují další kroky. Token odpovídá přibližně tomu, co klasická lingvistika nazývá grafické / textové slovo. ´V rámci NLP se problémy takto pojaté tokenizace řeší v rámci zpracování tzv. MWE (Multiword Expression). 18.9.2018 10 18.9.2018 11 ´Příslušná adverbia obvykle charakterizuje dvojí způsob psaní, srov.: načerno / na černo, nahrubo / na hrubo, naměkko / na měkko. První způsob zápisu je nutno považovat za základní. Do statistické části hesla jsou zahrnuty pouze varianty psané dohromady. ´Výsledky frekvenční zprávy ukazují pouze frekvenci jedné z variant grafického úzu (navíc jde pouze o varianty zachycené ve slovníku automatického analyzátoru, viz níže). ´ ´ 18.9.2018 12 Nejednoznačná automatická morfologická analýza (lemma+tag na základě porovnání se slovníkem) ´Výsledky lemmatizace jsou závislé na rozsahu a obsahu použitého slovníku (HAJIČ, J., HLAVÁČOVÁ, J. (2013). MorfFlex CZ, LINDAT/CLARIN digital library at Institute of Formal and Applied Linguistics, Charles University in Prague, http://hdl.handle.net/11858/00-097C-0000-0015-A780-9.) ´Přestože je slovník rozsáhlý a stále se doplňuje, je počet hapaxových výrazů v textech stabilní veličina. Údaje o produktivitě mohou být selektivní (závislé na slovníku). 18.9.2018 13 . ´Zopakujeme-li u hesla na- -o dotaz s vynecháním morfologické značky (D.*), nalezneme další relevantní doklady. ´Slova s malou frekvencí odpovídají modelu tvoření. ´Obraz produktivity lze tudíž napadnout. ´ 18.9.2018 14 Neúplný slovník: -oš Mil-oš, Jug-oš × Káj-oš, Tal-oš 18.9.2018 15 ´Slovník automatického analyzátoru budovaný primárně pro analýzu psaného spisovného jazyka zachycuje expresivní slovní zásobu včetně proprií velmi selektivně. ´Dotaz [lemma=".*oš" & tag="NN[MI].*"] dává 125 lemmat, z toho 69 relevantních. Dotaz [lemma="(.*oš)|(.*oš[eiů])|(.*oších)|(.*ošům) & tag="X.*"] dává 282 tvarů, z toho 36 relevantních lemmat. ´ ´ Desambiguace ´Výsledky desambiguace (výběru interpretace ze všech nabízených automatickou morfologickou analýzou) jsou závislé na použité metodě desambiguace. ´Problém homonymie (transpozice, polyfunkční afixy, náhodné shody při formálním zadání dotazu) je řešen selektivně. 18.9.2018 16 Desambiguace: -cí vedou-cí ´vedoucí (↖1/2/3) 8.348 ´ adjektivum vyjadřující (1) aktuální vlastnost plynoucí z děje (např. cesta vedoucí lesem = ‚cesta, která vede lesem‘), může se (2) dezaktualizovat (vedoucí složky armády = ‚vedení armády‘) a (3) substantivizovat (vedoucí skupinky = ‚vůdce skupinky‘). ´(1) a (2) automatická morfologická analýza nerozlišuje. ´(3) je sice zachycen, nicméně výsledky desambiguace jsou velmi nespolehlivé. 18.9.2018 17 Chyby v desambiguaci: cestují-cí 18.9.2018 18 ´Náhodné shody řetězců ´„Řetězec sou- -í mají i substantiva, která nejsou tvořena příslušným cirkumfixem. Jsou to a) dějová jména od sloves s prefixem/počátečním řetězcem sou, např. soustředění, soužití, soutěžení; b) deriváty jmen na -ství/-ctví s počátečním řetězcem/prefixem sou-, např. sousedství, souručenství; c) substantivum soukromí, utvořené od adjektiva/adverbia. V korpusu SYN2010 je jich celkem 28.“ 18.9.2018 19 Závěr ´S limity automatické analýzy počítáme a snažili jsme se na ně upozorňovat uživatele v takovém rozsahu, aby nebyl uveden v omyl. ´Veškeré údaje (pokud není uveden opak) odkazující na korpus jsou vzaty z referenčního korpusu (SYN2010) a způsob jejich zjištění je dostatečně popsán. Každý uživatel slovníku má tudíž možnost uvedený postup zopakovat i s použitím jiných dat (jiných korpusů) (požadavek empirické testovatelnosti výsledků). ´Bez využití výsledků automatické morfologické analýzy by vznik slovníku (psaní hesel) byl a) nesrovnatelně časově náročnější, b) podstatně nákladnější a ve svém výsledku c) méně objektivní. 18.9.2018 20 DĚKUJI VÁM ZA POZORNOST! 18.9.2018 21