Počítačové nástroje pro češtinu Jaro 2020 Markéta Masopustová masopustova@phil.muni.cz Valenční slovníky Termíny •Valence; •Verbum finitum; •Verbum infinitum; •Synset; •Funktor. • ? Termíny •Valence – schopnost vázat na sebe syntaktické pozice, substantiva, adverbia, verba; •Verbum finitum – sloveso v určitém tvaru; •Verbum infinitum – sloveso v neurčitém tvaru; •Synset – synonymická řada; •Funktor – typ syntakticko-sémantického vztahu mezi slovesem a jeho doplněním. • ? Valence – především slovesná, ale také pro adjektiva a substantiva (dějová substantiva) PMČ: „schopnost přísudkových výrazů vázat na sebe jistý počet syntaktických pozic (větných členů), determinovaný počtem a povahou sémantických participantů, a to v jistých formách (podobách) obsaditelných primárně jistými výrazy, buď nevětnými (zejména substantivy a výrazy adverbiálními), nebo větnými (vedlejšími větami).“ -Nemusí být vždy obsazeny; obligatorní pozice × fakultativní (nemusí ve větě být) -Jedno-, dvou, troj- a čtyřvalenční Valenční slovníky •není jich mnoho •snaha vytvořit rozsáhlou elektronickou databázi českých slovesných valenčních rámců •valence – významem determinovaná schopnost slovesa vázat na sebe další slova •snaha zachytit valenci sloves na syntaktické a sémantické úrovni a doplnit je o další relevantní informace o chování v přirozeném kontextu •Slovníky: •Slovesa pro praxi: valenční slovník nejčastějších českých sloves; •BRIEF; •VALLEX; •VerbaLex. • - Je jich málo, Slovesa pro praxi dlouhou dobu jediná tištěná - Snaha vytvořit rozsáhlou elektronickou databázi českých slovesných valenčních rámců - valence – významem determinovaná schopnost slovesa vázat na sebe další slova - zachytit valenci sloves na syntaktické i sémantické úrovni - doplnit další relevantní informace o chování sloves v přirozeném kontextu Slovesa pro praxi •N. Svozilová, 1997. •První a dlouho jediný tištěný valenční slovník pro češtinu. •Zdrojem lístkový lexikální archiv ÚJČ AV ČR a Frekvenční slovník češtiny (Jelínek, 1961). •Celkem 767 valenčně analyzovaných sloves. •Zápis obsahuje heslové slovo, informaci o vidu, stylovém zařazení, výklad významu, větný vzorec a příklady. •Navazuje na něj Slovník slovesných, substantivních a adjektivních vazeb a spojení (Svozilová, Prouzová, Jirsová, 2005). • Obsah obrázku text, noviny Popis byl vytvořen automaticky - Příklad v materiálech SENT = věta BRIEF •K. Pala a P. Ševeček, 1997. •Elektronický slovník na FI MU. •Obsahuje 15 000 sloves a přes 50 000 valenčních rámců. •Zdrojem knižně vydané slovníky (SSJČ, SSČ, Slovník českých synonym). •Pouze pravostranné valence, u slovesa uvedeny přímé a předložkové pády. •Základem pro Český syntaktický slovník (Skoumalová, 2001). •Nejsou přístupné pro veřejnost. Valence českých sloves je ve slovníku zachycena tak, že u každého slovesa jsou uváděny přímé nebo předložkové pády, které se s daným slovesem pojí. Ve slovníku je zaznamenána pouze pravostranná valence. Slovesa ve slovníku obsahují i frazeologická spojení a nejčetnější kolokace. U sloves je zobrazena také informace o jejich reflexivitě a tranzitivnosti nebo intranzitivnosti. Autoři slovníku rezignovali na rozlišování dvojstupňové obligatornosti a fakultativnosti participantů a navrhli stupnici slovesných doplnění, v níž rozlišili šest stupňů valenční spojitelnosti: 1. integrální, lexikálně determinovaná, nevypustitelná doplnění; 2. obligatorní, nutná doplnění; 3. fakultativní, nepovinná doplnění; 4. střední doplnění; 5. volná doplnění; 6. periferní doplnění (srov. Pala, Ševeček, 1997; Hlaváčková, 2008). Slovník obsahuje pouze povrchové realizace. Není v něm zachycen popis významové struktury, nejsou v něm rozlišeny jednotlivé významy sloves. Slovník neobsahuje informace o sémantických rolích (Hlaváčková, 2008). BRIEF je zaznamenán ve dvou formátech, ve formátu brief a verbose. Formát brief je určen ke strojovému zpracování, například pro automatickou syntaktickou analýzu, formát verbose je určen pro uživatele (Hlaváčková, 2008). Ze slovníku BRIEF vznikl v roce 2001 automatickým doplněním významové struktury Český syntaktický slovník18 , angl. Czech syntactic lexicon (Skoumalová, 2001). Slovník obsahuje přibližně 18 000 sloves (po sloučení slovesných rámců a rozdělení významů). Jednotlivá slovesa jsou zaznamenána v podobě slovesných rámců. Ty obsahují, kromě jiného, informaci o podmětu, reflexivitě, obligatornosti a informaci o funktorech (sémantických rolích) a jejich realizaci na morfematické rovině (pád, vedlejší věta, infinitiv). Funktory se dělí na aktanty (Actor, Patient, Addresse, Origin a Effect ) a volná doplnění. Jednotlivým členům rámce byly funktory přiřazeny na základě algoritmu, který byl vyvinut pro tyto účely. Ve slovníku je jednoznačně automaticky určeno 6 500 slovesných rámců, 1 000 rámců má určeny aktanty, ale ne volná doplnění, a zbylé rámce obsahují členy, u kterých nebylo rozhodnuto, zda se jedná o aktanty nebo volná doplnění. (srov. Skoumalová, 2001; Lopatková, Žabokrtský, Kettnerová, 2008). 18 BRIEF ani Český syntaktický slovník nejsou veřejně dostupné. VALLEX •M. Lopatková, V. Kettnerová, Z. Žabokrtský; vzniká od roku 2001. •Několik verzí, v roce 2008 vyšla první knižní verze. •Formální popis valenčních rámců; využívá sémantické role (funktory). •Vychází z funkčního generativního popisu sloves. •Zápis obsahuje sloveso v základním tvaru, informaci o vidu, jednotlivé významy, upřesnění pomocí synonymických výrazů, valenční rámec, příklad a případně sémantická třída. •Valenční pozice obsahují informaci o obligatornosti / fakultativnosti a číslo pádu. • ^impf pro nedokonavá slovesa; ^pf pro dokonavá slovesa; ^iter pro iterativa; ^biasp pro obouvidová slovesa. Funktory http://ufal.mff.cuni.cz/vallex/3.0/guide.html#/filter/sect-lu/sect-functors Diateze = Termín pro přiřazení ↗participantů / ↗aktantů sémantické struktury věty a pozic, které obsazují v syntaktické struktuře věty, př. deagent označuje reflexivní sloveso VALLEX 3.0 •http://ufal.mff.cuni.cz/vallex/3.0/ •4 586 českých sloves, která odpovídají 10 821 lexikálním jednotkám. •Přímé propojení s PDT. •Zdrojem BRIEF, SSČ, SSJČ, Slovesa pro praxi, korpusy ČNK řady SYN, PDT. • http://ufal.mff.cuni.cz/vallex/3.0/ VerbaLex •D. Hlaváčková, A. Horák; vzniká od roku 2005. •Inspirace ve VALLEXu. •Zdrojem BRIEF, VALLEX a český WordNet. •Systém synonymických řad převzatý s WordNetu (odlišnost od ostatních slovníků). •Dvě úrovně sémantických rolí: •První úroveň – sémantická role podle EuroWordNetu; celkem 38 rolí. •Druhá úroveň – hyperonymum; přímý odkaz na Princeton WordNet; otevřená množina. VerbaLex •Obsahuje 10 469 sloves (slovesných lemmat) a 19 247 valenčních rámců. •Zápis obsahuje synset (slovesa mají uvedenou vidovou variantu, číslem je označeno pořadí), seznam jednotlivých sloves (čísla v rámečku) s jejich valenčními rámci (obě úrovně), informaci o pádu a příklad. • VerbaLex – sémantické třídy sloves •Motivace v sémantické klasifikaci predikátů (Daneš, Grepl, Karlík). •Východiskem: •B. Levin: English Verb Classes and Alternations (48 základních sémantických tříd); •M. Palmer: VerbNet (82 základních sémantických tříd, celkem 395 podtříd). •České sémantické třídy: •modifikovaný překlad, doplnění o další synonyma, vidové protějšky, prefigovaná slovesa; •82 základních sémantických tříd, celkem 258 podtříd, aktuálně seznam zahrnuje 11 241 sloves, z toho 6 393 různých lemmat. VerbaLex •https://nlp.fi.muni.cz/verbalex/html3/index.php •Přístup: plin/plin. https://nlp.fi.muni.cz/verbalex/html3/index.php - ďobat: definice, wordnet Děkuji za pozornost.