PLIN033_3 Přegenerovávání a podgenerovávání – dva problémy automatické analýzy přirozeného jazyka, konkrétně slovotvorby Přegenerovávání •Formální definici (algoritmu) odpovídají jednotky, které tvoří homogenní skupinu (tu, kterou se prostřednictvím formálního zadání snažíme definovat), ale i jednotky, které jsou vůči této skupině heterogenní. Tento jev spadá na vrub obecné vlastnosti přirozeného jazyka, jíž je víceznačnost (homonymie) na všech úrovních. Podgenerovávání •Rubem téže mince je tzv. podgenerovávání, tedy případ, kdy formální zadání je vymezeno příliš úzce, takže nejsou zachyceny jednotky, které se jeho prostřednictvím snažíme definovat. Příklady přegenerovávání z minulých cvičení •Náboženství, nádeničení, … •Klíč, míč, … Pomocí nástroje Deriv a Morfio vyhledejte kandidáty na činitelská jména na -tel •Maskulina životná s koncovým řetězcem tel Deriv •seznam Deriv hledání dvojic •t$/k5.*mF>tel/k1gMnSc1 Deriv •seznam Morfio •Seznam Přegenerovávání •Přít/přítel • Důvody přegenerovávání •Příliš široké formální vymezení •Nemožnost užšího formálního vymezení Podgenerovávání •Kde jsou slova jako ředitel, uchvatitel, šiřitel, majitel, pisatel, … ? •Zahrnutí alternací do vyhledávání jakožto prostředek zúžení definice hledaných jednotek. Derivační pravidla a výsledky pro derivaci sloveso – dějové jméno na -tel • Derivační pravidla a výsledky pro derivaci sloveso – dějové jméno na -tel Derivační pravidla a výsledky pro derivaci sloveso – dějové jméno na -tel Přegenerované doklady • •mučet/mučitel, proset/prositel, těžet/těžitel, zcizet/zcizitel. •mocnět/mocnitel, pět/pitel, zmocnět/zmocnitel, prosít/prositel, učít/učitel. •dát/datel. Tento případ přegenerovávání by bylo možno eliminovat aplikací podmínky, že substantivum musí být skloňováno podle vzoru muž, již by bylo možno zadat v případě, že bychom pracovali se strojovým slovníkem značkovaným tak, že by součástí značky byla i informace o flektivním typu (vzor). •Jedná se o substantiva přítel a nepřítel. V praxi automatické morfologické analýzy (lemmatizace) nepanuje jednota v interpretaci derivátů se záporkou ne- (srv. Osolsobě 20071). Řešení tohoto problému přesahuje záměr této práce. •zařádit/zařaditel. •boudit/buditel, moučit/mučitel. •ohlédat/ohledatel. • Přehled alternací Přehled alternací Vyhledávání dvojic •at$/k5.*mF>áč/k1gMnSc1 • Přegenerovávání • klepetáč •Slovník krkáč •slovník Důvody •Polyfunkčnost prostředku (-á-č x –áč) •Závisí na mimojazykových znalostech •Obtížně se formálně definuje Podgenerovávání •Nedostatky ve formální definici •Nepravidelnosti (vozač, trubač) •Jednotky nejsou zachyceny ve slovníku •Jednotkám nezachyceným ve slovníku chybí interpretace na úrovni lemmatu a morfologické značky Morfio •kout/kouč, klít/klíč, sálat/salač •Propria: máchat/Machač, tykat/Tykač, dědit/Dědič, pískat/Piskač, kopat/Kopač, klapat/Klapač, kovat/Kovač, pleskat/Pleskač, bílit/Bilič Typy přegenerovávání •hláskové alternace kořenového vokálu u derivátů od sloves III. třídy podle kmene prézentního (vzor krýt) •hláskové alternace kořenového vokálu u ostatních tříd a vzorů •hláskové alternace kmenotvorného vokálu u ostatních tříd a vzorů Alternace KoV u derivátů sloves podle krýt •hrát/hráč •chcát/chcáč •? pít/píč •? pět/pěč •? sít/síč V korpusech lze najít (SYN) •pít (čaj)/ čajpíč •žít/žíč •! šít/šič • • • A kromě toho u neživotných máme •bít/bič •rýt/rýč • Všimněme si dvojic •vyprávět/vypravěč |vyprávěč •vyjednávat/vyjednavač |vyjednávač • IJP •http://prirucka.ujc.cas.cz/?id=730#nadpis14 •2 Střídání krátkých a dlouhých samohlásek při tvoření slov •Příklady nikoli pravidla (?seznamy výjimek) Úkol na 29.10. 2014 •Pomocí nástrojů Deriv a morfio vyhledejte kandidáty na dvojice sloveso-jméno prostředku na –dlo. •Popište případy přegenerování popř. podgenerování