PLIN033_2 MORFIO Aplikace k odhadování rozsahu a produktivity slovotvorných modelů v češtině na základě korpusových dat 1 Co dnes chceme? •představit aplikaci MORFIO •ukázat na konkrétním příkladu postup práce při extrakci podkladů pro lingvistickou analýzu slovotvorných formací automaticky získaných prostřednictvím aplikace MORFIO •zadat úkoly na příště 2 Co je to MORFIO ? •Aplikace Morfio slouží k odhadování rozsahu a produktivity slovotvorných modelů v češtině na základě korpusových dat. •slovotvorný vztah - vytvářen 1) formální shodou/podobností v určitých částech slova, tzv. báze (např. dřev- je část společná pro slova dřevo i dřevěný) a 2) formálními odlišnostmi v částech specifických, tzv. formantech (morfy -o a -ěný v předchozím příkladu). •Cílem aplikace je najít všechny dvojice, resp. trojice nebo čtveřice, jednotek v korpusu, které se shodují v bázi a liší se pouze specifikovanými formanty. •Výstupem aplikace Morfio není a nemůže být lingvisticky bezchybný výstup, spíš se jedná o pomůcku, která množství dat dokáže pro lingvistické účely předzpracovat. 3 MORFIO •http://morfio.korpus.cz/ •http://ucnk.ff.cuni.cz/bonito/znacky.php •http://wiki.korpus.cz/doku.php/pojmy:morfologicka_analyza •http://wiki.korpus.cz/doku.php/pojmy:tag 4 Jak vypadá přístup 5 Volba korpusu •SYN2010 •SYN2005 •SYN2015 •Araneum CS Minus 6 Další volby •Frekvence vyšší než (nastavíme-li 10, pak sice redukujeme přegenerování, můžeme ovšem také podgenerovat, neboť produktivita je schopnost být modelem pro nová tvoření) •Hledat / Vyhodnotit – záleží na zadání Morfologické specifikace •Alternace – opět je třeba zohlednit míru pře-/pod-generování a také sladit zadání alternace se zadáním dotazu 7 https://wiki.korpus.cz/doku.php/cnk:uvod 8 Zadání dotazu •regulární výrazy •morfologické značky (viz výše) •další možnosti zobecnění (rozlišení samohlásek, souhlásek, ... Viz Nápověda) •volby různých typů alternací 9 Co chceme? •Kolik a která substantiva typu učitel mají ženský protějšek (přechýlování/moce) tvořený příponou -ka •Jaké další dvojice tohoto typu známe? •Jak je můžeme popsat? •Jaké mají formální vlastnosti? 10 -tel / -telka •Substantivum maskulinum životné •Lemma končí na tel •Substantivum femininum •Lemma končí na telka 11 Vyplnění formuláře 12 SOUHRN V záložce souhrn jsou uvedeny počty typů s nadlimitní frekvencí a součet jejich výskytů. Jedna sada údajů (sloupec "celkem") se vždy týká vzoru samotného (chápaného izolovaně), druhá sada (sloupec "v modelu") pak odkazuje k těm jednotkám příslušejícím ke vzoru, které zároveň patří do analyzovaného slovotvorného modelu, tj. slova, která mají k sobě odvozeninu identifikovanou v rámci druhého vzoru. 13 Výpis V tabulce jsou uvedeny všechny doklady ze všech vzorů, které vstupují do zadaného modelu. Červená část slov označuje společnou bázi (ta se může lišit pouze v případě aplikace alternací). V závorkách uvedený údaj představuje celkovou frekvenci jednotky ve zvoleném korpusu. Tabulku je možné přetřídit podle libovolného sloupce a to jak abecedně, tak frekvenčně pomocí šipek v záhlaví tabulky. Každé slovo zároveň funguje jako odkaz směřující k ukázce konkordancí ve zvoleném korpusu. 14 Výpis lze •seřadit podle frekvence 1. nebo 2. členu dvojice 15 Výpis lze •seřadit abecedně podle 1. nebo 2. členu dvojice 16 Kliknutím na lemma bylo možné získat konkordanci v příslušném korpusu tato funkce je „mrtvá“ 17 Lze ovšem zadat dotaz do korpusu [tag="N.F.*" & lemma="hodnotitelka"] 18 Vzor 1 •Výsledky analýzy jednotlivých vzorů jako samostatných dotazů jsou prezentovány ve formě tabulky jednotek (slovních tvarů nebo lemmat) spolu s jejich frekvencemi ve zvoleném korpusu. Tabulku je možné doplnit i o jednotky, které v modelu nebyly brány v potaz, protože jejich frekvence byla nižší než uživatelem stanovený limit. Údaje zvýrazněné barevným pozadím se účastní slovotvorného modelu (tj. existuje k nim v druhém vzoru protějšek se stejnou bází, lišící se pouze formanty). 19 tel (vzor 1) •Žlutě jsou ty členy, k nimž byl nalezen vzor 2 20 Co lze vyčíst ze Vzoru 1? •Na výsledcích vidíme nedostatky malého korpusu. Spočívají v tom, že méně obvyklá přechýlená jména v korpusu menšího rozsahu nejsou doložena. V důsledku toho je výzkum produktivity prováděný na jednotlivých menších korpusech nutně zkreslený. •v SYNv11 jsou doložena přechýlená jména: buditelka - https://www.korpus.cz/kontext/view?viewmode=kwic&pagesize=40&attrs=word&attrs=lemma_lc&attrs=tag&at tr_vmode=visible-kwic&base_viewattr=word&refs=%3Ddoc.title&q=~rGmeAsycq0OS&cutoff=, exředitelka https://www.korpus.cz/kontext/view?viewmode=kwic&pagesize=40&attrs=word&attrs=lemma_lc&attrs=tag&at tr_vmode=visible-kwic&base_viewattr=word&refs=%3Ddoc.title&q=~o8giMAAwIKwu&cutoff=0 a další 21 telka (vzor2) •Žlutě jsou ty členy, k nimž byl nalezen vzor 1 22 Co lze vyčíst ze Vzoru 2? •Na konci seznamu si všimněte slova pastelka, které splňuje formální zadání, nicméně neodpovídá mu žádné životné maskulinum. Pokud bychom nedali do dotazu Morfia podmínku tag=NNM.*, tak bychom dostali přegenerovanou dvojici pastel/pastelka. •Je možné zúžit dotaz bez podmínky tagu tak, abychom přegenerovanou dvojici vyloučili? •Je možné, aby činitelské jméno v češtině končilo na .*stel? (https://www.korpus.cz/kontext/view?viewmode=kwic&pagesize=40&attrs=word&attrs=lemma_lc&attrs=tag&a ttr_vmode=visible-kwic&base_viewattr=word&refs=%3Ddoc.title&q=~0GSWOcQsYOwA&cutoff=0 ) 23 Produktivita 24 Měření produktivity •Odhad produktivity obou vzorů a jejich vzájemné porovnání vychází z teoretických poznámek H. Baayena (viz zde). Morfologická produktivita se zde měří pomocí odhadu tendence přírůstku nových typů při přírůstku dokladů (tokenů) pro každý vzor samostatně. Ze srovnání pak vyplývá, který vzor je produktivní, protože počet jeho typů roste rychleji, s jeho formanty se pojí nové a nové báze, a který vzor je naopak neproduktivní a potenciálně uzavřený (i když třeba frekventovaný a rozsáhlý). 25 kapital.*/social.* 26 Souhrn Výpis 27 produktivita 28 Vzor 1 Vzor 2 29 pomocí aplikace morfio vyhledejte v korpusu syn2015 dvojice základové slovo=adjektivum, odvozené slovo= substantivum název vlastnosti 30 seznam podle frekvence adjektiv 31 přidán variantní sufix -ota 32 seznam podle substantiv na -ota 33 OTÁZKY •Sledujte doklady, které se vám z nějakého důvodu zdají nepatřičné. •Zobrazte si jejich výskyty v příslušném korpusu a snažte se najít postup, jak přeformulovat dotaz tak, aby výsledek nebyl přegenerovaný. 34 Jak hledat substantiva typu soudce •http://morfio.korpus.cz/cm0fitxO •https://www.korpus.cz/kontext/view?viewmode=kwic&pagesize=40&attrs=word&attrs=lemma&attrs=tag&attr _vmode=visible-kwic&base_viewattr=word&structs=p&refs=%3Ddoc.title&q=~kCq8WaqiiiI8&cutoff=0 35 Výsledek 36 Přegenerování dotazu 37 Podgenerování dotazu 38 Pozorování Dotaz na deverbativa na ce (N.M.*, .*ce) dává mnohem více výsledků. Při pohledu na ně lze vyvodit, proč je výsledek získaný aplikací Morfio podgenerovaný. V české tradici se rozlišují jména činitelská a konatelská. Liší se pouze slovnědruhovou příslušností základového slova. U tzv. root-derivací (do derivace nevstupuje slovesný kořen+kmenotvorná přípona, ale pouhý kořen) je někdy nesnadné odlišit, kdy je základovým slovem sloveso a kdy deverbativum vzniklé konverzí. 39 Pozorujeme 40 Vyzkoušejte opakování dotazu s alternacemi http://morfio.korpus.cz/KKs0LTk1 http://morfio.korpus.cz/7fgquwNR 41 Alternace Přegenerování Podgenerování 42 Zobrazení substantiv bez odpovídajících sloves 43 Která slova fundují substantiva na ce ? Slovesa Konvertovaná jména ? zastánce 44 Jak na substantiva tvořená suxem -ec http://morfio.korpus.cz/2CXjd9wa 45 Úkol na příště •Pomocí aplikace MORFIO vyhledejte v korpusu SYN2020 kandidáty na deriváty substantiv tvořených ze sloves sufixem –č, přičemž chceme pouze názvy živých bytostí (hrát/hráč), takže např. dvojice jako vařit-vařič nás zajímá pouze v případě, že jde u vzoru dvě o označení člověka vyrábějícího pokoutně drogy a nikoli o neškodnou část běžného kuchyňského vybavení. •Popište problémy, na které jste při práci narazili a připravte si dotazy k technickým problémům. 46