Statistická extrakce idiomů Jan Bušta CZPJ FI MU, Brno PV173 3. 11. 2010 Motivace Fazly, A. – Stevenson, S. Automatically Constructing a Lexicon of Verb Phrase Idiomatic Combinations (2006) Cíle ● automaticky najít v textovém korpusu idiomatická spojení ve tvaru sloveso + (předložka +) jméno (spadnout z višně, nebuď labuť, zaset nenávist) ● změřit pokrytí a přesnost oproti ruční anotaci a SČFI vybrat a přizpůsobit vhodný algoritmus pro extrakci ● Jak na to I ● Lexikální pevnost – – – vytvoření množiny „synonymních“ výrazů je jménu ve spojení vytvoření množiny tranzitivních sloves v korpusu výpočet pravděpodobnosti vzhledem k <*,n> a – aneb jak se může měnit jméno ve frázi Jak na to II ● Syntaktická pevnost – – – – pasivizace pluralizace negace změna (přidání) členu – aneb v jaké variantě se fráze vyskytuje Jak na to III ● Kombinace předchozích metod – – nastavení vah lexikální a syntaktické pevnosti zlepšení výsledků – aneb tak dlouho kombinujeme, dokud nám to nevyjde Závěr ● Funguje to? – pro AJ ano, úspěšnost až 74 % ● A pro češtinu? – snad, uvidíme v brzké budoucnosti ● A využití? – – pomoc lexikografům při vytváření slovníků idiomatických frází detekce potenciálních problémů při strojovém překladu A jak to celé dopadne? VÍME VŠE: NEVÍME NIC Cimrmanova teorie poznání Děkuji za pozornost. Jan Bušta xbusta@fi.muni.cz