Syntaktická analýza PLIN059 Mgr. Dana Hlaváčková, Ph.D. Syntaktická analýza • počítačové zpracování věty • lineární řetězec tokenů • graf (vztahy větných členů) - strom (tree) • rozpoznání hranice věty - segmenter (statistický, pravidlový, trénování) • kde věta začíná a končí (velké počáteční písmeno, interpunkce) • ...nechutnalo nám. • ...Masarykovo nám. č. 13. Syntaktická analýza • předpoklad - tokenizace - tokeny (listy) - morfologicky správně označkovaný (a desambiguovaný) korpus - správná segmentace vět • stromy - uzly a hrany • závislostní (řídící a podřízené členy) • složkové (bezprostřední složky - fráze) Základní pojmy • stromy (větve, listy) - tree • stromová banka, závislostní korpus - treebank • syntaktická analýza - parsing • syntaktický analyzátor - parser • věta - sentence S, klauze - clause • nominální fráze - NP (nominal phrase) • verbální fráze-VP (verbal phrase) Malá vnučka dala babičce krásný dárek. ZÁVISLOSTNÍ STROM vnučka subject malá modifier dala babičce object dárek object \ krásný modifier Malá vnučka dala babičce krásný dárek. SLOŽKOVÝ STROM dala VP NP NP ADJ malá N vnučka N babičce ADJ Syntaktická analýza • syntaktický analyzátor • statistický (stochastický) - strojové učení na referenčním treebanku, deep learning na datech • pravidlový - formálni gramatika, popis frází a pravidla jejich spojování • datové struktury - závislostní/složkové stromy • automatická, poloautomatická, ruční anotace K čemu to potřebujeme? • další rovina popisu jazyka v NLP • treebank - referenční data pro automatické nástroje • synchronní (i diachrónni) studie, vazba na slovesnou valenci a sémantickou rovinu • frekvenční studie - SYN2015, SYN2020 • navazující aplikace, např. vývoj pravopisného a gramatického korektoru, aktuální členění věty (téma a réma), koreferenční vztahy (anafora a katafora), dialogové systémy • čeština - jeden z nejobtížnějších jazyků - flexe a volný slovosled Syntaktická analýza - Praha • historické pozadí • lingvistický strukturalismus, Pražská škola • Pražský lingvistický kroužek (1926, Mathesius, Jakobson, Trnka) • funkčně generativní popis (Functional Generative Description, FGP, Sgall, 60. léta) • závislostní syntax • hloubková (tektogramatická) struktura • formální popis aktuálního členění věty a koreference Syntaktická analýza - Praha • ÚFAL MFF UK • https://ufal. mff. cuni. cz/praaue-dependencv-treebank • PDT 1.0-3.5 (Prague Dependency Treebank, Pražský závislostmi korpus) • ruční anotace • rovina anotace: - slovní - morfologická - syntaktická (analytická) - sémantická (tektogramatická) - aktuální členění vety, koreferenční vztahy, MWEs, analýza diskurzu Syntaktická analýza - Brno • CZPJ Fl MU, syntaktické analyzátory • SYNT - A. Horák, formálni popis gramatiky (metagramatika, pravidla), složkové stromy • h tt p: //n I p i i. m u n i. cz/p ro i e kt v/w w wsvn t/ • SET - V. Kovář, pravidlový systém založený na vzorech, identifikace částí věty, složkové a závislostní stromy, keře (bush), přepíná mezi pozičním a atributivním systémem - nominální fráze (NP) - verbální fráze (VP) - koordinace (COORD) • https://nlp.fi.muni.cz/proiektv/set/wwwset.cgi/first page