PLIN063_4 Algoritmický popis morfologie osolsobe@phil.muni.cz Morfologické vzory a vybrané problémy lemmatizace •Morfologie versus slovotvorba •Pravidelné derivace jakožto součást morfologie a jakožto technická pomoc při údržbě dat ve slovníku •Pravidelné deriváty sloves a adjektiv •Negace a negativa tantum Morfologie versus slovotvorba •Paradigmatické tvoření •Omezený soubor formálních prostředků (afixů), z toho plyne i pravidelné tvarosloví •Nová pojmenování tvoří významově homogenní skupinu •Blízkost tvaroslovného a slovotvorného systému • Subklasifikace adjektiv a adverbií – pravidelné derivace •Desubstantivní posesiva – názvy živých bytostí/osob + afixy ův/in – AU.*; •Deverbativa z přechodníků – procesuální adjektiva + afix ou-c(í)/í-c(í) – AG.*; adjektiva z přech. min. + afix (v)-š(í) – AM.*; •Deadjektivní adverbia – potenciálně stupňovatelná + afix –[eě]/-y –Dg.*; Kategorie stupeň •Mluvnice (většinou slovotvorba - modifikace) •Slovníky (většinou sč. informace o tvarosloví) • Korpusová analýza Co lze nalézt kromě překlepů? •doklady pravidelně tvořených komparativů a superlativů (fragmentárnější, submisivnější, hybnější, nehybnější, humanitnější, determinativnější, …) •doklady superlativů s prefixoidem sebe- (sebemistrovštější, ) •substandardní tvary (pozdějš, …) Pravidelné derivace jakožto součást morfologie a jakožto technická pomoc při údržbě dat ve slovníku •Adjektiva posesivní na ův/in •Verbální substantivum na ní/tí •Adjektiva z přechodníků na oucí/ící a ší/vší •Adverbia pravidelně tvořená z adjektiv •Negace •Názvy vlastností •Přechylování •Deminutiva Pravidelné deriváty sloves a adjektiv •Lexikalizace •Vid a omezení derivací •Přegenerování slovníku Lexikalizace •Např. u verbálních substantiv (transponovaných sloves) se pojmenování děje přenáší na výsledek/prostředek/místo děje. •… Opatřením si informací o její předpokládané nevěře přes špiony … • … Vojenská opatření si vysvětlovali jako součást psychologického a politického nátlaku … •… A zavede -li se vázání nástupu do penze na střední délku dožití … •… Některá vázání umožňují předozadním současným posunem špičky i paty měnit postavení těžiště … •… Nebaví vás dlouhé ležení na pláži, … •… V centru města si vytvořilo ležení Valdštejnovo vojsko … Vid a omezení derivací (červeně vyznačená adjektiva nejsou rozpoznána automatickou morfologickou analýzou, všimněte si, čím je zajímavý poslední příklad) •… poslední vzduchem se mihnoucí vlaštovky … •… nad vodou mihnoucí se vážku … •… Jinak samotné focení je pro mě odreagující a zábavné … •… nádory vyvolající intenzivní protinádorovou imunitní odpověď viditelnou v mikroskopických vzorcích … •… ryby „opásající“ ploutve jiným rybám (pokud jim neožerou všechny, zase dorostou , kráva se živí v zásadě obdobně) … Přegenerování slovníku / guessery •… mladých plavčících, kteří se vrhají do vln, aby zachránili druhé před nebezpečím … • • SSJČ: plavčit Nedostatky v rozgenerování slovníku (slovesa – zemdlít, chcát, … jsou rozpoznány MA) ale i jinde [lc=".*oucí|.*ící" & tag="X.*"] Nedostatky v pokrytí slovníku / rozgenerování Stupňování •Lze adjektiva na .*(ou|í)cí stupňovat? •Příručky •Data •Řešení nejodstrašujícnější Jak naložit s lexikalizací •Proč je třeba značkovat deverbativnost? •Jsme schopni stanovit hranice lexikalizace? •Jak mohou pomoci slovníky a korpusy? •Lze se uchýlit k přiznaným technickým zjednodušením? Problém hranic lexikalizace a variantnosti •Po válce se za udavače Frankových dlouho považoval skladník jejich bývalé firmy Van Maarten , ale dvojí policejní šetření nevedlo k výsledkům právně postačujícím ke vznešení/A obžaloby. Lze hledat pomocí filtru a kontextu Lze hledat potenciální chyby Adverbia •Adverbia z adjektiv •Adverbia a jmenné tvary •Adverbia a zájmenná adverbia Adverbia z adjektiv [lc=po][lc=.*sku & tag=X.*] Zájmenná adverbia Názvy vlastností a přechylování i další transpozice a modifikace •Nejsou jenom na –ost •Využití k údržbě slovníku •Využití v dalších aplikacích •Využití v guesserech Slovnědruhové přechody a přesahy jako problém slovnědruhového tagování – slovník a korpus •slovnědruhová víceznačnost jako problém morfologie a syntaxe •slovnědruhová víceznačnost v morfologických slovnících •slovnědruhově přesažné jednotky a subklasifikace slovního druhu • slovnědruhové přechody jakožto otevřený proces, korpusy jako zdroje dat pro výzkum slovnědruhových přechodů • Víceznačnost slovního druhu a morfologie •Adjektivní skloňování substantiv •Valenční adjektiva •Nesklonná jména •Nadstavbové slovní druhy sklonnost/nesklonnost •Vyjadřování gramatických významů sloves Víceznačnost slovního druhu a syntax •Elipsa / slovnědruhové přechody •Jednoslovná morfologie - značkování analytických tvarů sloves •Značkování poddruhů zájmen (tázací a relační) Slovnědruhová víceznačnost v morfologických slovnících: Požadavek konzistence není splněn •Sledujte, jak jsou v korpusu SYN2020 označkována lemmata na vedoucí, cestující. •Sledujte, jak jsou v korpusu SYN2020 označkovány tvary Vyhlídal. • cestující vedoucí Sledujte, jak jsou v korpusu SYN2020 označkovány tvary Vyhlídal Úkol – četba na příště •ke zlepšení slovníku substantivizovaných adjektiv: •ke zlepšení slovníku procesuálních adjektiv