Obsah Syntaktická analýza „State of the art" Problémy Cfle disertační práce Dosavadní výsledky, publikace ooooo oo ooo o o Syntaktická analýza češtiny a její aplikace ,,towards my thesis" Vojtěch Kovář Centrum zpracování přirozeného jazyka Fakulta Informatiky, Masarykova Univerzita Botanická 68a, 602 00 Brno xkovar3@fi.muni.cz 11.11.2010 Vojtech Kovar FI MU Brno Syntakticka analýza CeStiny a její aplikace - ,,towards my thesis" Obsah Syntaktická analýza „State of the art" Problémy Cfle disertační práce Dosavadní výsledky, publikace ooooo oo ooo o o Obsah jl Syntaktická analýza ^ ,,State of the art" ^| Problémy ll Cíle disertaCní prace ^1 Dosavadn í výsledky, publikace □ g - = = -o^O Vojtech Kovar FI MU Brno Syntakticka analýza CeStiny a její aplikace - ,,towards my thesis" Obsah Syntaktická an •oooo alýza „State of the art" Problémy Cíle disertační práce oo ooo o Dosavadní výsledky, publikace 0 Syntaktická analýza přiroz eneho jazyka Syntaktická analýza přirozeného jazyka ■ Co? Proc? ■ odhalen í strukturn ích vztahů ve větě ■ hranice fraz í, závislosti... ■ ,,rozbor věty" na stredn í Škole ■ zaklad pro pokroCilejsí analýzu vety ■ Kodovan í syntaxe prirozeneho jazyka ■ syntakticke stromy ■ slozkove - odvozen í z CFG ■ zavislostn í - zavislosti mezi slovy ■ hybridn í - kombinace predchoz ích dvou ■ Parcialn í syntakticka analyza ■ vyznacen í hranic a typu fraz í v textu □ g - = = -00,0 Vojtech Kovar FI MU Brno Syntakticka analýza Cestiny a její aplikace - ,,towards my thesis" Obsah Syntaktická analýza ,,State of the art" Problémy Cíle disertační prace DoSa vadní výsledky, publikace o«ooo oo ooo O 0 Příklady - sloZkový strom Veta: Šetřete peníze, netelefonujte, faxujte! netelefonujte , faxujte Šetřete peníze Vojtech Kovar Syntakticka analyza cestiny a její aplikace - ,,towards my thesis" g - = = *r)<\(y Fl MU Brno Obsah Syntakticka analyza ,,State of the art" Problemy C íle disertačn í prace Dosa jvadn í vysledky, publikace oo«oo OO ooo O 0 Príklady - zavislostn í strom Veta: Šetřete pen íze, netelefonujte, faxujte! [root] Šetřete , netelefonujte faxujte peníze Vojtčech Kovačr Syntakticka analyza cestiny a jej í aplikace - ,,towards my thesis" FI MU Brno Obsah Syntaktická analýza ,,State of the art" Problémy Cíle disertační prace D0Sa vadní vysledky, publikace ooo«o OO ooo O 0 Příklady - hybridní strom Veta: Šetřete peníze, netelefonujte, faxujte! Šetřete faxujte pemze g - = = -o^o Vojtech Kovar Syntakticka analyza cestiny a její aplikace - ,,towards my thesis" FI MU Brno Obsah Syntaktická analýza oooo* Automaticka syntakticka analýza? ,,State of the art" oo Problémy ooo Cľle disertační prac adní výsledky, publikace Automatická syntaktická analýza? ■ Prerekvizity ■ rozdělen í textu na slova (tokenizace) ■ morfologická analýza ■ — zakladn í tvar, slovn í druh, pad, C íslo, rod... ■ Principy automatických analyzatorU ■ pravidlove systemy ■ — rucne napsana formaln í gramatika ■ — rucne napsana sada pravidel ■ statisticke systemy ■ — indukcejednoduchych pravidel z anotovanych dat ■ — hledan í maximaln í kostry v grafu □ g - = = -00,0 Vojtech Kovar Syntakticka analýza cestiny a její aplikace Obsah Syntaktická analýza „State of the art" ooooo «o Hodnocení kvality syntaktické analýzy Problémy ooo Cľlé disertační prac adní vyslédky, publikace Hodnocení kvality syntaktické analýzy ■ Manuálně anotovane korpusy ■ = velkě soubory stromU vět ■ Penn Treebank (PTB) ■ Pražsky zavislostní korpus (PDT) ■ Metriky podobnosti stromu ■ společně hrany ■ společně neterminaly, cesty od korene k listu ■ vystupem je „procento shody" ■ PARSEVAL, Leaf-ancestor assessment, precision, recall ■ Hodnocení kvality analyzy ■ procento shody s daty v anotovanych korpusech Vojtech Kovar Syntaktická analýza CéStiny a jéjí aplikacé - ,,towards my thésis" Syntaktická analýza ooooo ,,State of the art" Problémy ooo C íle disertační prac adn í výsledky, publikace Nejlepší současné výsledky Obsah ■ Angličtina ■ PARSEVAL (podobnost stromů, PTB) ■ — 92.1 % (MčClosky, Charniak, and Johnson, 2006) ■ detekce jmenných frází (F-measůre, PTB) ■ — 95.2 % (Shen and Sarkar, 2005) ■ Cestina ■ zavislostní přesnost (podobnost stromů, PDT) ■ — 86.3 % (Nakagawa, 2007) ■ detekce jmenných fraz í (precision, PDT - 1200 vet) ■ 93.1 % (Grac, Jakůb ícek and Kovar, 2010) Vojtech Kovař Syntakticka analýza Cestiny a jej í aplikace - ,,towards my thesis" FI MU Brno Obsah Syntaktická analýza ooooo ,,State of the art" oo Problémy • OO Cľle disertační prac adní výsledky, publikace Problémy současné syntaktické analýzy Úspěšnost ■ uvedena čísla nejsou dostatečná ■ chyby analyzátoru jsou pro vetsinu aplikací limitující Metriky uspesnosti ■ nejsou reprezentativn í ■ nereflektuj í skutečnou využitelnost analyzatom v realnych aplikac íčh Anotovana data ■ složite struktury ■ chyby, nekonzistence, arbitrarn í konstrukce, vyber textu, ... Velmi aktualn í diskuse Vojtech Kovar Syntakticka analýza Cestiny a její aplikace - ,,towards my thesis" FI MU Brno Obsah Syntakticka analyza ooooo ,,State of the art" oo Problemy oso Cíle disertační prac adní vysledky, publikace Probiemy současne syntakticke analýzy (2) ■ Zbytečné a neřešitelné problémy ■ ,,Karel mluvil o sexu š Britney Spears" ■ lide nejsou bez dodatečných znalostí určit analýzu ■ ,,Letadlo spadlo do pole za lesem" ■ není dulezite, kam se zavesí zvyraznena fraze □ g - = = -o^o Vojtčech Kovačr Syntakticka analyza cestiny a její aplikace - ,,towards my thesis" Obsah Syntakticka analyza ,,State of the art" Problemy C íle disertačn í prace Dosa jvadn í vysledky, publikace ooooo OO OO* O 0 Príklady - zavislostní strom Veta: Šetřete pen íze, netelefonujte, faxujte! [root] Šetřete , netelefonujte faxujte peníze Vojtech Kovar Syntakticka analyza cestiny a jej í aplikace - ,,towards my thesis" FI MU Brno Obsah Syntaktická analýza ooooo ,,State of the art" OO Probiemy C íle disertačn í prace Dosavadn í výsledky, publikace OOO • 0 C íle prace Cesta k řešení problémů - ,,towards the thesis" ■ Zjednodušen í konstrukce anotovanych dat ■ nyn í: stovky stran manualU pro anotatory ■ cíl: jednotky stran ■ Vyvoj reprezentativnejs ích meř ítek kvality analýzy ■ nyn í: metriky na stromech ■ c íl: ,,benchmarkove sady" zaloZene na vyuZit ív aplikac ích ■ — detekce interpunkce, extrakce faktu, morfologicka desambiguace ■ Vyvoj a zlepsen í soucasnych analyzatoru ■ nyn í: optimalizace vzhledem k anotovanym datum ■ cíl: ,,application driven development" ■ principy YAGNI, KISS, worse is better, ... Vojtech Kovar FI MU Brno Syntakticka analýza cestiny a jej í aplikace - ,,towards my thesis" Obsah Syntakticka analyza ,,State of the art" Problemy Cíle disertační prac ooooo oo ooo o Dosavadní vysledky, publikace Dosavadní výsledky, publikace adní vysledky, publikace Dosavadn í výsledky ■ navrh a vývoj noveho analyzátoru pro ceStinu ■ identifikace častých chyb v anotovaných datech ■ navrh alternativn í syntakticke anotace ■ Publikace Jakubicek, Horäk, Koväf. Mining Phrases from Syntactic Analysis. (2009) Koväf, Jakub ifek. Prague Dependency Treebank Annotation Errors: A Preliminary Analysis. (2009) Kovafr, Horak, Jakub ifcek. Syntactic Analysis as Pattern Matching: The SET Parsing System. (2009) Grac, Jakubifek, Kovar. Through Low-Cost Annotation to Reliable Parsing Evaluation (2010) Vojtčech Kovačr Syntakticka analyza cestiny a její aplikace - ,,towards my thesis" FI MU Brno