PLIN033 Deriv – nástroj pro testování derivačních vztahů ve strojovém slovníku a v korpusech 1 Co dnes chceme? •představit některé funkce Deriv •ukázat na konkrétním příkladu postup práce při extrakci podkladů pro lingvistickou analýzu slovotvorných formací automaticky získaných prostřednictvím Derivu •zadat úkoly na příště 2 Co je to Deriv? •webové rozhraní •schopnost pracovat s morfologickým slovníkem analyzátoru (m)ajka •propojení s tištěnými slovníky •propojení s korpusy 3 ajka – tagset •http://nlp.fi.muni.cz/projekty/ajka/tags.pdf • • 4 debdict • 5 deb.fi.muni.cz/deriv •HESLO: smerk@mail.muni.cz. •Jméno: PLIN033, heslo: plin 6 Hledání slovních tvarů •Lze hledat dle značky (brněnský systém - http://nlp.fi.muni.cz/projekty/ajka/tags.pdf) 7 Co chceme? •Substantiva typu náměstí •Jaké další známe? •Jak je můžeme popsat? •Jaké mají formální vlastnosti? 8 ná- -í •Substantiva •Neutra •Lemma začíná na ná a končí na í • 9 Vyplnění formuláře • 10 Vyhledat a otevřít •Seznam slov, která odpovídají zadání a která jsou uvedena ve slovníku morfologického analyzátoru ajka • 11 Co lze dále zjistit? •Otevřít soubor •Upravovat jeho obsah •Prohlížet frekvence •Nahlížet do slovníků •Nahlížet do korpusů 12 Otevření s frekvencemi • 13 slovo (frekvence) • 14 Kliknutím na slovo získáme informace z tištěných slovníků uložených v databázi debdict • 15 Kliknutím na slovo získáme informace o výskytu v korpusech • 16 Jak dále ? •Méně obvyklá a méně frekventovaná slova 17 náhlaví • 18 Výskyt v korpusu •Odpovídá význam výskytů nalezených v korpusu významům, které uvádějí tištěné slovníky ? • • 19 Pohled do zdrojů •Kliknutím na url lze získat u velkých korpusů z webu přístup ke zdrojovým textům 20 Celý text •Co je to náhlaví? 21 Lingvistická analýza automaticky vyhledaných dat •Které jednotky nepatří do seznamu substantiv, neuter tvořených cirkumfixem ná- -í? •Projděme seznam (84 jednotek). •Využijme funkce nástroje Deriv označovat nalezené jednotky (okénko mezi pořadovým číslem a slovem). 22 Ruční práce •Co je to nádbí a nádní? 23 nádbí •Odpovídá výklad ve slovníku významu korpusových vyhledávek? 24 nádní • 25 nádní •Odpovídá značkování? 26 Chyby ve značkách •I adjektivní výskyty jsou označkovány jako substantiva 27 Zvolme značky a vyznačme případy tzv. přegenerování •XY? 28 Přegenerování a podgenerování jako obecný problém automatické analýzy •Podmínka v zadání je nutná, nikoli dostačující. •Důsledek – přegenerování – výsledek obsahuje data, která jsme vyhledat nezamýšleli. •Důsledek – podgenerování – výsledek neobsahuje data, která jsme vyhledat zamýšleli. • 29 Přegenerované výsledky •Substantiva (kolektiva) na [sc]tví – X. •Dějová jména od sloves začínajících na ná- – Y. •Další (kompozitum názvosloví) – Z. •Podezřelé (chyby ve značkování) – ! •Podezřelé (překlepy) – ? • 30 Uložení do nového souboru •Název nového souboru se liší od starého • 31 Označkovaný soubor •Funkce vybrat pouze slova označená jako 32 Vybrat slova bez poznámek •Je možné ručně upravit – odstranit přegenerovaná data. 33 Postup odstranění/výběru ručně označkovaných jednotek •Chceme-li zvolit více poznámek (ručně zvolených značk), pak je třeba zadat volbu pod menu „více poznámek spojit spojkou“. • • 34 Soubor bez ručně označených dat •neodstranili jsme podezřelé jednotky 35 Soubor uložíme •Nový název souboru je např. ná_í_KO1_?! 36 Další zpracování •můžeme např. odstranit „podezřelé“ jednotky stejně, jak bylo uvedeno výše •můžeme práci odložit •můžeme dále kontrolovat, zda jsme někde neudělali chybu •můžeme se věnovat lingvistickému popisu, např. vytvořit následující slovníkové heslo 37 slovníkové heslo •návrh • 38 nebo se na data podívat z hlediska frekvenční analýzy •vybrat slova, která uvadějí slovníky, ale v korpusech se nevyskytují (nebo jde o překlepy) •vybrat slova, která mají velmi nízké frekvence (hapaxy) 39 Úkol na 14. 10. 2014 •Prostudovat tagset ajky •Zajistit si přístupová práva ke slovníkům pod debdictem •Zajistit si přístupová práva ke sketchengine •Podle návodu zpracujte substantiva typu mezi- -í (jako mezistolí). •Popište problémy, na které jste při práci narazili a připravte si dotazy k technickým problémům. 40