Syntaktická analýza PLIN059 Mgr. Dana Hlaváčková, Ph.D. Mgr. Jakub Machura, Ph.D. Syntaktická analýza •počítačové zpracování věty •lineární řetězec tokenů •graf (vztahy větných členů) – strom (tree) •rozpoznání hranice věty – segmenter (statistický, pravidlový) •kde věta začíná a končí (velké počáteční písmeno, interpunkce) •...nechutnalo nám. •...Masarykovo nám. č. 13. • Syntaktická analýza •předpoklad –tokenizace – tokeny (listy) –morfologicky správně označkovaný (a desambiguovaný) korpus –správná segmentace vět •stromy – uzly a hrany •závislostní (řídící a podřízené členy) •složkové (bezprostřední složky – fráze) Dílčí úkoly analýzy jazyka Tokenizace Dílčí úkoly analýzy jazyka Tokenizace „Chcete-li mi to dát, neváhejte!“ Tokenizace „Chcete-li mi to dát, neváhejte!“ „ Chcete - li mi to dát , neváhejte ! “ Tokenizace ohlas -imperativ slovesa ohlásit -nom./akuz. substantiva ohlas -2. os. sg. fem. minulého času slovesa ohnout Tokenizace ohlas Větná segmentace Větná segmentace - explicitně vyznačený začátek i konec věty - Větná segmentace -explicitně vyznačený začátek i konec věty např. XML: - -explicitně vyznačený začátek i konec věty např. XML: - Větná segmentace Větná segmentace Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu. Větná segmentace Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu. Větná segmentace Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu. Jak to vyřešit? Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu. Jak to vyřešit? Další problémy? Větná segmentace Morfologická analýza lemma, lemmatizace Morfologická analýza lemma, lemmatizace tag, tagging, tagger desambiguace Desambiguace Syntaktická desambiguace František hrál v altánu šachy se svým ruským přítelem. Parsing = Syntaktická analýza Parsing Cíle: -„porozumět“ gramatice př. jaz. -odhalit povrchovou strukturu (větný rozbor) Parsing Výsledky: -orientované grafy (tzv. stromy) závislostní × složkový Parsing Překážky: -pro čj bohatá morfologie a rel. volný slovosled -velké množství teoretických východisek -subjektivita syntaxe Faxu škodí především přetížené telefonní linky. Základní pojmy •stromy (větve, listy) – tree •stromová banka, závislostní korpus – treebank •syntaktická analýza – parsing •syntaktický analyzátor – parser •věta – sentence S, klauze – clause •nominální fráze – NP (nominal phrase) •verbální fráze – VP (verbal phrase) dala vnučka subject babičce object malá modifier dárek object krásný modifier Malá vnučka dala babičce krásný dárek. ZÁVISLOSTNÍ STROM Malá vnučka dala babičce krásný dárek. SLOŽKOVÝ STROM N vnučka N babičce N dárek ADJ krásný dala VP ADJ malá NP NP NP Syntaktická analýza •syntaktický analyzátor •statistický (stochastický) – strojové učení na referenčním treebanku •pravidlový – formální gramatika, popis frází a pravidla jejich spojování •datové struktury – závislostní/složkové stromy •automatická, poloautomatická, ruční anotace K čemu to potřebujeme? •další rovina popisu jazyka v NLP •treebank – referenční data pro automatické nástroje •synchronní (i diachronní) studie, vazba na slovesnou valenci a sémantickou rovinu •frekvenční studie – SYN2015, SYN2020 •navazující aplikace, např. vývoj pravopisného a gramatického korektoru, aktuální členění věty (téma a réma), koreferenční vztahy (anafora a katafora), dialogové systémy •čeština – jeden z nejobtížnějších jazyků – flexe a volný slovosled Syntaktická analýza – Praha •historické pozadí •lingvistický strukturalismus, Pražská škola •Pražský lingvistický kroužek (1926, Mathesius, Jakobson, Trnka) •funkčně generativní popis (Functional Generative Description, FGP, Sgall, 60. léta) •závislostní syntax •hloubková (tektogramatická) struktura •formální popis aktuálního členění věty a koreference Syntaktická analýza – Praha •ÚFAL MFF UK • https://ufal.mff.cuni.cz/pdt3.5 •PDT 1.0–3.5 (Prague Dependency Treebank, Pražský zavislostní korpus) •ruční anotace •rovina anotace: –slovní –morfologická –syntaktická (analytická) –sémantická (tektogramatická) –aktuální členění věty, koreferenční vztahy, MWEs, analýza diskurzu •teoreticky závislý, určen pro strojové učení Syntaktická analýza – Praha •syntakticky značkované korpusy syn2015 a syn2020 • Syntaktická analýza – Brno •CZPJ FI MU, syntaktické analyzátory •SYNT – A. Horák, formální popis gramatiky (metagramatika, pravidla), složkové stromy •http://nlp.fi.muni.cz/projekty/wwwsynt/ •SET – V. Kovář, pravidlový systém založený na vzorech, identifikace částí věty, složkové a závislostní stromy, keře (bush), přepíná mezi pozičním a atributivním systémem –nominální fráze (NP) –verbální fráze (VP) –koordinace (COORD) •https://nlp.fi.muni.cz/projekty/set/wwwset.cgi/first_page