Počítačové nástroje pro češtinu jaro 2021 Markéta Audy Masopustová audy.masopustova@phil.muni.cz Sémantická analýza, valenční slovníky Sémantická analýza Termíny •Sémantika; •Hyponyma; •Hyperonyma; •Kohyponyma; •Meronyma; •Synset. ? Termíny •Sémantika – nauka o významu; •Hyponyma – podřazená slova; •Hyperonyma – nadřazená slova; •Kohyponyma – významově shodná slova; •Meronyma – označuje část celku; •Synset – synonymická řada. ? Sémantická analýza • Snaží se o formální popis významu – rozdělit slova do skupin a dát jim nějakou nálepku. • Snaží se o zobecnění světa. • Měla by být jazykově nezávislá. • Počátky můžeme najít v ontologiích (v inf. explicitní a formalizovaný popis určité problematiky). • Většinou se jedná spíše o nějaký slovník, který uchovává znalosti z určité problematiky. • V ČR se tím zabývají především v rámci CZPJ FI MU a na ÚFAL MFF CUNI. Tokenizace Morfologická analýza Syntaktická analýza Sémantická analýza NER • Rozpoznání pojmenovaných entit (Named Entity Recognition). • Cílem je najít předem definované kategorie v nestrukturovaném textu. • Poměrně složité, musí se předem definovat, co je jmenná entita. • Jmenná entita může být např. jméno, město, datum, značka, … • https://nlp.fi.muni.cz/projekty/ner/v 2/ • http://ufal.mff.cuni.cz/cnec/cnec2.0 V rámci ÚFALu •PDT: • Prague Dependency Treebank; • České texty doplněné o morfologickou a syntaktickou informaci. • Vyznačený není význam, ale o významová roli ve větě (agens, patiens, …). •SEANCe – projekt ke značkování sentimentu (emocí v textu). Sémantické sítě (anglické) • FrameNet • lexikální síť čitelná pro člověka i stroj • https://framenet.icsi.berkeley.e du/fndrupal/ • VerbNet • slovník sloves • https://verbs.colorado.edu/~mp almer/projects/verbnet.html • ConceptNet • sémantická síť vytvořená pro lepší porozumění významu pro stroj • http://conceptnet.io/ • obrázek z ConceptNetu → WordNet •G. A. Miller (Princeton University) – psycholog, psycholingvista, psycholexikolog. •Základním je Princeton WordNet (1985), postupně vytvářeny národní Wordnety. •http://wordnet.princeton.edu •http://globalwordnet.org/resour ces/wordnets-in-the-world/ •podrobnosti viz NESČ a obrázek → WordNet prakticky •Přístup: demo/demo; read/read. •DebVisDic 2: • https://deb.fi.muni.cz/proj_debvis dic-cs.php •RAW viewer: • https://deb.fi.muni.cz/raw-viewer /rawviewer.html Valenční slovníky Termíny •Valence; •Verbum finitum; •Verbum infinitum; •Synset; •Funktor. ? Termíny •Valence – schopnost vázat na sebe syntaktické pozice, substantiva, adverbia, verba; •Verbum finitum – sloveso v určitém tvaru; •Verbum infinitum – sloveso v neurčitém tvaru; •Synset – synonymická řada; •Funktor – typ syntakticko-sémantického vztahu mezi slovesem a jeho doplněním. ? Valenční slovníky • není jich mnoho • snaha vytvořit rozsáhlou elektronickou databázi českých slovesných valenčních rámců • valence – významem determinovaná schopnost slovesa vázat na sebe další slova • snaha zachytit valenci sloves na syntaktické a sémantické úrovni a doplnit je o další relevantní informace o chování v přirozeném kontextu Slovníky: • Slovesa pro praxi: valenční slovník nejčastějších českých sloves; • BRIEF; • VALLEX; • VerbaLex. Slovesa pro praxi • N. Svozilová, 1997. • První a dlouho jediný tištěný valenční slovník pro češtinu. • Zdrojem lístkový lexikální archiv ÚJČ AV ČR a Frekvenční slovník češtiny (Jelínek, 1961). • Celkem 767 valenčně analyzovaných sloves. • Zápis obsahuje heslové slovo, informaci o vidu, stylovém zařazení, výklad významu, větný vzorec a příklady. • Navazuje na něj Slovník slovesných, substantivních a adjektivních vazeb a spojení (Svozilová, Prouzová, Jirsová, 2005). BRIEF • K. Pala a P. Ševeček, 1997. • Elektronický slovník na FI MU. • Obsahuje 15 000 sloves a přes 50 000 valenčních rámců. • Zdrojem knižně vydané slovníky (SSJČ, SSČ, Slovník českých synonym). • Pouze pravostranné valence, u slovesa uvedeny přímé a předložkové pády. • Základem pro Český syntaktický slovník (Skoumalová, 2001). • Nejsou přístupné pro veřejnost. VALLEX • M. Lopatková, V. Kettnerová, Z. Žabokrtský; vzniká od roku 2001. • Několik verzí, v roce 2008 vyšla první knižní verze. • Formální popis valenčních rámců; využívá sémantické role (funktory). • Vychází z funkčního generativního popisu sloves. • Zápis obsahuje sloveso v základním tvaru, informaci o vidu, jednotlivé významy, upřesnění pomocí synonymických výrazů, valenční rámec, příklad a případně sémantická třída. • Valenční pozice obsahují informaci o obligatornosti / fakultativnosti a číslo pádu. VALLEX 4.0 •http://ufal.mff.cuni.cz/vallex/4 .0/ •4 659 českých sloves, která odpovídají 11 030 lexikálním jednotkám. •Přímé propojení s PDT. •Zdrojem BRIEF, SSČ, SSJČ, Slovesa pro praxi, korpusy ČNK řady SYN, PDT. VerbaLex • D. Hlaváčková, A. Horák; vzniká od roku 2005. • Inspirace ve VALLEXu. • Zdrojem BRIEF, VALLEX a český WordNet. • Systém synonymických řad převzatý z WordNetu (odlišnost od ostatních slovníků). • Dvě úrovně sémantických rolí: • První úroveň – sémantická role podle EuroWordNetu; celkem 38 rolí. • Druhá úroveň – hyperonymum; přímý odkaz na Princeton WordNet; otevřená množina. VerbaLex • Obsahuje 10 469 sloves (slovesných lemmat) a 19 247 valenčních rámců. • Zápis obsahuje synset (slovesa mají uvedenou vidovou variantu, číslem je označeno pořadí), seznam jednotlivých sloves (čísla v rámečku) s jejich valenčními rámci (obě úrovně), informaci o pádu a příklad. VerbaLex – sémantické třídy sloves • Motivace v sémantické klasifikaci predikátů (Daneš, Grepl, Karlík). • Východiskem: • B. Levin: English Verb Classes and Alternations (48 základních sémantických tříd); • M. Palmer: VerbNet (82 základních sémantických tříd, celkem 395 podtříd). • České sémantické třídy: • modifikovaný překlad, doplnění o další synonyma, vidové protějšky, prefigovaná slovesa; • 82 základních sémantických tříd, celkem 258 podtříd, aktuálně seznam zahrnuje 11 241 sloves, z toho 6 393 různých lemmat. VerbaLex •https://nlp.fi.muni.cz/verbal ex/html3/index.php • Přístup: plin/plin. Děkuji za pozornost.