Jakub Machura Masarykova univerzita Ústav českého jazyka machura@phil.muni.cz podzim 2024 PLIN034 Algoritmický popis syntaxe GRAMATICKÉ FORMALISMY GRAMATICKÉ FORMALISMY •velké množství přístupů •nejrozšířenější gramatiky: •závislostní •kategoriální •stromové •lexikální funkční •gramatiky příznakových struktur • ZÁVISLOSTNÍ FORMALISMY •vhodné pro popis jazyků s volným slovosledem •vztah závislosti mezi řídícími a závislými větnými členy •neexistují žádné neterminály, pouze lexikalizované uzly •využití valence nebo subkategorizace •typicky vztah mezi slovesem a jeho možnými doplněními: NOSIT = koho|co = komu & koho|co • ZÁVISLOSTNÍ FORMALISMY •FGP/FGD (Functional Generative Description) •UDG, Unification Dependency Grammar – Maxwell •MTT, Meaning- Text Theory – Mel’čuk •WG, Word Grammar – Hudson •Lexicase – Starosta •FG, Functional Grammar, Dik •LG, Link Grammar – Temperley, Carnegie Mellon University (http://www.link.cs.cmu.edu/link/) •DUG, Dependancy Unification Grammar – Halliday UNIVERSAL DEPENDENCIES •universaldependencies.org •„Universal Dependencies (UD) is a framework for consistent annotation of grammar (parts of speech, morphological features, and syntactic dependencies) across different human languages. UD is an open community effort with over 600 contributors producing over 200 treebanks in over 150 languages.“ •společná pravidla, jednotný manuál •snaha vytvořit jednotný systém pro anotaci jakéhokoli (lidského) jazyka tak, aby bylo možné jazyky vzájemně srovnávat. UNIVERSAL DEPENDENCIES •snaha vytvořit jednotný systém pro anotaci jakéhokoli (lidského) jazyka tak, aby bylo možné jazyky vzájemně srovnávat •společná pravidla, jednotný manuál •nutné zjednodušení, částečná ztráta informace UNIVERSAL DEPENDENCIES UNIVERSAL DEPENDENCIES UNIVERSAL DEPENDENCIES UNIVERSAL POS TAGS •gramatiky pro jednotlivé jazyky založené na podobných principech •detaily značkování ale často nejsou převoditelné 1:1 •sjednocení – minimalistická Google Universal Tagset UNIVERSAL FEATURES •značky z Universal Tagset vymezují základní třídy •lexikální a gramatické vztahy popisují Universal Features UNIVERSAL DEPENDENCIES JAZYKOVÉ INSTRUKCE PRO UD •každý jazyk má uvedené instrukce pro: •tokenizaci (hranici slov) •morfologické značky •syntax – základní a rozšířené závislosti • •pro češtinu: www.universaldependencies.org/cs/ •cíl instrukcí: sjednocení anotací napříč jazyky •obsahuje i instrukce netypické pro jazyk – např. v češtině značkování některých zájmen jako determiner nebo expandování slov – kdybych = když + bych SYNTAKTICKÁ ANOTACE V UD •dává se přednost vztahům mezi plnovýznamovými slovy, funkční slova jsou upozaděna •obsahová (plnovýznamová) slova jsou v závislostní struktuře primární, funkční slova jsou na nich závislá, na funkčních slovech nemohou být závislá žádná jiná slova •syntaktické funkce patří do seznamu Universal Dependency Relations (http://universaldependencies.org/u/dep/index.html) •koordinace je asymetrická (první člen koordinace reprezentuje celou koordinaci, další členy a spojka jsou závislé na něm) SYNTAKTICKÁ ANOTACE V UD SYNTAKTICKÁ ANOTACE V UD They buy and sell books. VYUŽITÍ UNIVERSAL DEPENDENCIES •srovnání lingvistických fenoménů napříč jazyky •testování syntaktické analýzy na různých jazycích •vícejazyčná syntaktická analýza – paralelní dokumenty •snadné porozumění rozdílům v anotaci STROJOVÉ UČENÍ A ZÁVISLOSTNÍ FORMALISMUS •jedna hrana pro každé slovo •2 až 3 informace pro učení • • • •head •dependant •type = edge label STROJOVÉ UČENÍ A ZÁVISLOSTNÍ FORMALISMUS •problém u neprojektivních konstrukcí VYHODNOCENÍ •velmi lehce rozpoznáme, jestli je vazba správná, porovnáme s treebankem •ale jak moc je správná, resp. špatná? • http://universaldependencies.org/udw17/pdf/UDW11.pdf VYHODNOCENÍ •4 metriky: UAS – Unlabeled attachement score – words with correct head LAS – Labeled attachement score – words with correct head and type RA – Root Accuracy – analysis with correct root CM – Complete Match rate – fully correct analyses TAG, LTAG •formalismus založen na syntaxi frázové struktury • •Tree Adjoining Grammar – Joshi, Levy a Takahashi (TAG formalism, 1975) •Lexicaloized TAG – Joshi a Schabes (1991) • •pracuje se přímo se stromy, a ne s řetězci slov • TAG •stavební prvky analýzy nejsou slova a neterminály, ale částečně specifikované syntaxové stromy které podléhají několika přípustným stromovým operacím •množina počátečních stromů – základní stavební prvky •složitější věty odvozovány s použitím pomocných stromů TAG •neobsahují rekurzi – popisují složkovou strukturu jednoduchých vět, jmenných skupin, předložkových skupin… 1.všechny nelistové uzly odpovídají neterminálům 2.všechny listové uzly odpovídají terminálům nebo neterminálům určeným k substituci počáteční strom typu X = jeho kořen je označen termem X TAG •reprezentují rekurzivní stromy, popisují větné struktury, které se připojují k základním strukturám (např. příslov. určení) 1.všechny nelistové uzly odpovídají neterminálům 2.všechny listové uzly odpovídají terminálům nebo neterminálům určeným k substituci kromě právě jednoho neterminálního uzlu (patový uzel, foot node) 3.patový uzel má stejné označení jako kořenový uzel (slouží k připojení stromu k jinému uzlu) TAG TAG DEFINICE TAG •TAG G = (I, A, S) je: •množina I konečných počátečních stromů •množina A pomocných stromů •typ stromu S – neterminál označující větu LEXIKALIZACE TAG •LTAG je lexikalizovanou variantou formalismu TAG • LEXIKALIZACE TAG TAG, LTAG •díky použití operace připojení mají TAG a LTAG větší generativní sílu než bezkontextové gramatiky (CFG ⊂ MCSL) generování mírně kontextových jazyků (mildly context-sensitive languages) • TAG, LTAG •i jiné formalismy umí MSCL: •LIG, Linear Indexed Grammars – Gazdar, 1985 •HG, Head Grammar – Pollard, 1984 •CCG, kombinatorické kategoriální gramatiky • • • • KATEGORIÁLNÍ GRAMATIKY •categorial grammar, CG •skupina teorií syntaxe a sémantiky PJ s velkým důrazem na lexikon •neobsahuje pravidla pro kombinování slov → lexikální kategorie slov tvoří funkce, které určují, jak se dané kategorie kombinují s jinými výrazy a je výsledkem aplikace podvýrazů na sebe • • • KATEGORIÁLNÍ GRAMATIKY •opírají se o princip kompozicionality: Význam složeného výrazu je jednoznačně určen významy částí tohoto výrazu a způsobem, jakým jsou tyto části složeny dohromady. •základy kategoriální g. položili ve 30. letech 20. stol. polští logikové Leśniewski a Ajdukiewicz •hlavní uplatnění nalezly tyto gramatiky v lingvistice zejm. při popisu jazyků s pevným slovosledem (např. angl.). •první použití CG pro popis PJ: Jehošua Bar-Hillel (1953) • • KATEGORIÁLNÍ GRAMATIKY •CG jsou tvořeny a) množinou tzv. základních syntaktických kategorií (neterminálních symbolů) např. N (podstatné jméno), N\S (intranzitivní sloveso) •každé kategorii je přiřazena množina slov jazyka (terminálních symbolů) patřících do této kategorie b) elementárních operací vytvářejících z těchto kategorií odvozené syntaktické struktury a majících podobu jednostranného „krácení abstraktních zlomků“ • • KATEGORIÁLNÍ GRAMATIKY •„krácení zlomků“ • • • •intranzitivní sloveso lze zachytit jako „zlomek“ N/S (nalevo vyžaduje N, podmět): N N/S S • KATEGORIÁLNÍ GRAMATIKY •CG jsou ekvivalentní CFG •výhoda: rozšířitelné o sémantickou komponentu •existují ale rozšíření CG, která vedou k systémům s vyšší vyjadřovací silou, než mají standardní CG •klíčový problém: nespojité větné části (neprojektivita) •řešení pomocí rozšíření CG – přídavné kombinatorické operátory založené na typech •např. CCG (kombinatorické CG) přidává pravidla odpovídající jednoduchým operacím nad kategoriemi • LEXIKÁLNÍ FUNKČNÍ GRAMATIKY (LFG) •teorie organizovaná na lexikalistické hypotéze •Kaplan a Bresnan, 1982 •dva typy syntaktických struktur •vnější, složková, c-struktura: slovosled a syntaktické složky •vnitřní, funkční, f-struktura: syntaktické funkce (podmět, předmět apod.) • LEXIKÁLNÍ FUNKČNÍ GRAMATIKY (LFG) •jazyky se výrazněji odlišují v organizace fráze, v pořadí a způsobech realizace gram. funkcí •abstraktnější, funkcionální organizace jazyků se odlišuje daleko méně (např. se běžně objevují funkce podmět, předmět atd.) • LEXIKÁLNÍ FUNKČNÍ GRAMATIKY (LFG) •složková struktura – zachycuje frázovou dominanci a prioritu a je reprezentována jako strom frázové struktury (CFG strom) •funkční struktura – zachycuje syntaktickou strukturu typu predikát-argumenty a je reprezentován maticí dvojic atribut-hodnota •f-struktura obsahuje: •příznaky: čas, rod, číslo… •funkce: PRED, SUBJ, OBJ, jejichž hodnoty mohou být jiné f-struktury • • LEXIKÁLNÍ FUNKČNÍ GRAMATIKY (LFG) Zjednodušená f-struktura věty Lucka snědla všechny buchty LEXIKÁLNÍ FUNKČNÍ GRAMATIKY (LFG) Zjednodušená f-struktura věty Včera v parku Lucka snědla všechny buchty LEXIKÁLNÍ FUNKČNÍ GRAMATIKY (LFG) Vztah mezi c‑strukturou a f‑strukturou LEXIKÁLNÍ FUNKČNÍ GRAMATIKY (LFG) F‑struktura nemusí odpovídat uzlu c‑struktury LEXIKÁLNÍ FUNKČNÍ GRAMATIKY (LFG) Více uzlů c‑struktury může odpovídat jedné f‑struktuře LEXIKÁLNÍ FUNKČNÍ GRAMATIKY (LFG) HPSG (HEAD-DRIVEN PHRASE STRUCTURE GRAMMAR) •Pollard & Sag, 1987, 1994 •navazuje na Generalized Phrase Structure Grammar (1985) •lexikalismus •gramatika jako celek obsahující pravidla i slovník •analýza libovolného výrazu (věta, syntagma i slovo) na více rovinách popisu jazyka současně (včetně fonologie, morfologie, sémantiky i pragmatiky), a to jako jazykový znak •gramatika je deklarativní, ne derivační: popisuje stav, ne operace vedoucí k výsledku • HPSG (HEAD-DRIVEN PHRASE STRUCTURE GRAMMAR) HPSG (HEAD-DRIVEN PHRASE STRUCTURE GRAMMAR) HPSG (HEAD-DRIVEN PHRASE STRUCTURE GRAMMAR) •neterminály jsou nahrazeny příznakovými strukturami •založeno na omezeních (constrains) •modeluje jazyk pomocí deklarativních omezení typovaných struktur •příznaky jsou propojeny pomocí strukturního sdílení, předávání proměnných mezi podstrukturami dané struktury • HPSG (HEAD-DRIVEN PHRASE STRUCTURE GRAMMAR) •lexikální hlava – základní prvek frázové struktury HPSG •hlava určuje základní gramatické vlastnosti fráze •N zastupuje NP •VP zastupuje S •V zastupuje VP • •relace závislostí (např. valenční rámec slovesa) • HPSG (HEAD-DRIVEN PHRASE STRUCTURE GRAMMAR) HPSG (HEAD-DRIVEN PHRASE STRUCTURE GRAMMAR) •velké množství akcí je v lexikonu HPSG (HEAD-DRIVEN PHRASE STRUCTURE GRAMMAR) •reprezentace frází, příznak DAUGHTERS (struktura členů fráze) Literatura Nový encyklopedický slovník češtiny online: https://www.czechency.org/ hesla: Formální gramatika, Lexikalistická hypotéza, Nelexikalistická hypotéza, LFG HPSG https://universaldependencies.org/