PA153 Počítačové zpracování přirozeného jazyka 05 - Sémantika II (logická reprezentace, od věty k diskurzu) Karel Pala, Zuzana Nevěřilová Centrum ZPJ, Fl MU, Brno 15. listopadu 2020 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 1/26 Q Lexikální význam a kontext Q Kontext Q Větná sémantika, logická sémantika Q Sloveso jako predikát Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 2/26 Lexikální význam a kontext lexikální význam: izolovaný význam slov plnovýznamové (autosémantické) lexikální jednotky (LU): o substantiva * adjektiva o verba • adverbia černý, moci, nechat, být, tak, vlastně pomocné (synsémantické) LU: z, proč, jak, ten ostatní: kykyryký Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 3/26 PA153 Zpracování přirozeného jazyka '—Lexikální význam a kontext '—Lexikální význam a kontext Některé LU mají izolovaný význam, uvedené LU jsou do jisté míry protipříklady. Např. černý" znamená „neplatící", ale jen v kolokaci ,,černý pasažér". Pomocná a způsobová (modálni) slovesa mají význam oslabený. U některých LU má smysl mluvit o významu skutečně jen v kontextu. Lexikální význam a kontext lexikální význam: izolovaný význam slov plnovýznamové (autosémantické) lexikální jednotky (LU): • substantiva • adjektiva • verba • adverbia I černý, moci, nechat, být, tak, vlastně I pomocné (synsémantické) LU: z, proč, jak, ten I ostatní: kykyryký Lexikální význam a kontext Krakutel z jejich mrusy se ploc blutkal, načež potom tražil také všechny své stěvače. Vyšetřovatel jopuz hrych vlády tre moc naštval, bruvěž slekym rozzuřil vičké kruky more posluchače. Vyšetřovatel z jejich vlády se moc naštval, načež potom rozzuřil také všechny své posluchače. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 4/26 o CM O Csl LO i PA153 Zpracování přirozeného jazyka '—Lexikální význam a kontext Lexikální význam a kontext Lexikální význam a kontext Vyšetřovatel jopuz hrych vlády tre moc naštval, bruvěž slekym rozzuřil vičké kruky moré posluchače. Vyšetřovatel z jejich vlády se moc naštval, načež potom rozzuřil také všechny své posluchače. Krakutel z jejich mrusy se ploc blutkal, načež potom tražil také všechny U těchto vět zkusíme určit slovní druhy a větné členy. U té první věty by to mělo být snazší než u té druhé. V první větě jsou plnovýznamová slova nahrazena nesmyslnými slovy, ale koncovka je zachována. V druhé větě jsou nahrazena všechna neplnovýznamová slova, konec slova je opět zachován. Jde o ukázku důležitosti funkčních slov pro pochopení významu věty. Význam těchto slov si uvědomíme právě jen v kontextu věty. Kontext • verbální kontext (co bylo řečeno, co bude následovat) • situační kontext (místo, čas, počet komunikačních partnerů, jejich vzájemný vztah, presu pozice mluvčího) komunikační situace: KS = s, a, oi,..., on, p, ŕ, kde s - mluvčí, a - adresát, oi,..., on - promluvové objekty, p - místo komunikace, t - čas komunikace presupozice mluvčího: společná báze znalostí (to, co není třeba zmiňovat) • sociální kontext (vzdělání, zkušenost, životní podmínky, status sociální skupiny) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 5/26 Kontext Jak zkoumat verbální kontext: • v době před korpusové" • konkordance v korpusu (středně velké korpusy) • word sketch (velké korpusy) 9 word embeddings modifiers of "kandidát" verbs with "kandidát" as subject "kandidát" and/or... prezidentský prezidentského kandidáta kandidovat kandidát kandiduje kandidátka kandidátů a kandidátek perfektní perfektní kandidát uspět kandidát uspěje kandidátek kandidáty a kandidátky na republikánský republikánský kandidát postoupit kandidáti postoupí do lídr lídrem a kandidátem vhodný vhodného kandidáta na pozici ucházet se kandidát uchází koncipient koncipienti a kandidáti žhavý žhavým kandidátem jevit kandidát se jeví kandidát kandidáta či kandidátů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 6/26 Kontext a word sketch Jak vypočítat word sketch? word sketch grammar multi word sketch Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Kontext a word em beddings Reprezentace slova pomocí n-rozměrného vektoru1. Vektor se vypočítá na základě kontextu: • continuous bag-of-words (CBOW): výpočet pravděpodobnosti dalšího slova w za předpokladu kontextu c P(w\c) — 0.9, kde w =můj, c = {Kde, domov} o skip-gram: pravděpodobost kontextu c za předpokladu slova w word2vec, GloVe, Fast Text, NumberBatch, ... M ale-Female Verb tense Country-Capital 1https://towardsdatascience.com/ creating-word-embeddings-coding-the-word2vec-algorithm-in-python-using-deep- Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 8/26 Kontext a word em beddings Kontextové word embeddings (ELMo, BERT, CoVe, . . .): 1 left my phone on the left side of the table. cleaning turn left left continue le§ windows straight phong tablj I I I I I I II I left my phone on the table. I left when he was cleaning the windows. Turn left than continue straight on. □ Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 9/26 Větná sémantika význam věty: význam slov + syntaktické vztahy mezi větnými složkami (princip kompozicionality) Compositionality Principle: • The meaning of the whole is a function of the meaning of the parts and the mode of combining them. • The meaning of a complex expression is uniquely determined by the meaning of its constituents and the syntactic construction used to combine them. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 10 / Logická sémantika 9 redukuje lexikálni význam LU na logický typ (individum, čas, ...) 9 zůstává predikátová struktura u sloves, příp. deverbativ o propozice mají pravdivostní hodnotu propozice2: informační obsah věty vyjádřený větou pronesenou v určitém kontextu více různých vět může vyjadřovat tutéž propozici: The Earth is round. Země je kulatá. http://plato.stanford.edu/entries/propositions-structured/ 05 - Sémantika II 11 / 26 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Logická sémantika a predikátová logika Predikátová logika 1. řádu (First Order Predicate Logic) [Mendelson, 1997] • termy: proměnné (x), funkce (f(x)) • predikátové symboly (P(x)) • logické spojky (V, A, -n, =4>, 44>) • kvantifikátory (V, 3) • symbol rovnosti (=) • mimologické symboly (aritmetické symboly, řetězce atd.) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 12/26 Logická sémantika a predikátová logika Kdo nebude znát malou násobilku, dostane hodnocení F. Vx : -"Z(x," malá násobilka1) =>► H(x," F") (Z(x, y) - x zná y, /-/(x, y) - x dostal hodnocení y) Petr nezná malou násobilku. -nZ(" Petr"," malá násobilka") Usudek: -.Z(" Petr"," malá násobilka") H(" Petr"," F") je pravdivý Logická sémantika a predikátová logika Vyzkoušejte: forali, exists, not, ->, and, or Komu se nelení, tomu se zelení. Vx : N (x) Z (x) Honza se odrazil od podlahy a vyskočil do dvou metrů. 0(" Honza1," podlaha1) V("Honza11 ,"2 metry11) Tahle vláda není ani ryba ani rak. -"(" tahle vláda11 =" ryba11) A tahle vláda11 =" rak11) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 14/26 Limity predikátové logiky • ne všechny konstrukce v přirozeném jazyce jsou propozice ► Dobrý den. Děkuji vám. ► Kdybych tak měl milión . . . ► Nedá se nic dělat. • ne všechny propozice jsou 1. řádu Lhát se nemá. N(L) o v přirozeném jazyce je mnohem víc kvantifikátorů ► většina ► velká část ► kdekdo ► pár lidí, skoro nikdo ► pokud vůbec někdo řešení: jiné logiky, rozšířená FOPL, intenzionální logiky (TIL) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 15/26 Predikátová logika, typy argumentů Z(x,y) - x žije v y Honza žil ještě v Brně. Z(" Honza1," Brr?o") Honza žil ještě v sobotu. Z(" Honza1," sobota11) Z(x, y) - x žije v y a y je místo typované logiky Sloveso jako predikát sloveso (příp. deverbativum) jako predikát, ostatní větné členy jako argumenty predikátu valence Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 17/26 Sloveso jako predikát Kluk rozbil okno. Kámen vletěl do okna a rozbil ho. Okno se rozbilo. rozbít: AG(osoba) ART(výrobek) INS(nástroj) kluk osoba kámen nástroj okno výrobek Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 18/26 Valenční slovníky české: • Vallex: In VALLEX 2.x, there are roughly 2,730 lexeme entries containing together around 6,460 lexical units ("senses"). 3 • Verba Lex: 4 ► 21032 literálú (sloveso + význam) ► 10469 slovesných lemmat anglické: 9 VerbNet: 8537 total verbs represented 5 http://ufal.mff.cuni.cz/vallex/2.6/doc/home.html 4http://nip.fi.muni.cz/cs/VerbaLex 5http://verbs.Colorado.edu/verb-index/index.php Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 19/26 Valenční slovníky: Vallex VALLEX 2.6 class functors forms aspect control reflex. recipr. complexity VALEVAL ■i-_m ■ zlobit, zlobívat • zlobit se, zlobívat se • zlomit se, zlámat se • zmáčknout, zmačkat • zmáčknout se, zmačkat se • zmáhat, zmoci/zmoct • zmáhat se, zmoci se/zmoct se • zmapovat zmařiťf |~3~| ~ zkazit; zničit -frame: ACT°bl PAT*1 BEN*P MEANS^P -example: zmaňl celé jednání svou nezodpovědností; zmařil mu život -rfl: pass: jeho podvratné plány se naštěstí dopředu zmařily m H (51) • CH (22) • I (17) • J C") • K (73) • L (37) • M (53) • N (133) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 20/26 Valenční slovníky: VerbaLex Verb classes • admit-64 (65) • adopt-91 (4) • allow-63 (69) • animal sounds-38 (60) • approve-75 (91) • assessment-34 (50) Verb class "destroy-44~ ~ • babrat1 • bořit • bořit2 • bourat^ • bourat, • brakovat^ ' brát27 • břídrt^ • demolovat1 zmařitpf zničitpf rozbítpf 3 5 3 mařit ničitimpfrozbíjetimpf 3 5 J 3 | 1 | zmařit3, mařit^ r; void-52 (51) | 2 | rozbít^, rozbíjet^ zničit^, ničit5 m * banish-iu.^ pb) • battle-36.3 (8) ♦ bodyinternalmotion-49 (131) ♦ build-26.1-4 (7) -frame: GROUP obl VERB obl GROUP °bl il i4 -example: policie rozbila zločinecký gang (pf) Karel Pala, Zuzana Nevěřilová 153 Zpracování přirozeného jazyka 05 - Sémantika II 21/26 Valenční slovníky: VerbNet Roles • Agent [+lnt control] • Patient [+concrete] • Instrument [+concrete] Frames npvnp example "The Romans destroyed the city." syntax Agent v Patient semantics cause(Agent, E) destroyed(result(E), Patient) npvnp PP.lnstrument example "The builders destroyed the warehouse with explosives." syntax Agent V Patient (with} Instrument semantics cause(agent, E) use(duringce), agent, instrument) destroyed(result(e), patient) NP. instrument V NP ex4mple MThe explosives destroyed the warehouse." syntax instrument V patient semantics cause(?agent, E) lse(during(E), ?agent, instrument) destroyed(result(e), patient) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Zachycení významu ve valenčním rámci zmařitpf zničit1 rozbítpf Verb classes * admit-64 (65) * adopt-91 (4) * allow-63 (69) * animal_sounds-38 (60) * approve-75 (91) * assessment-34 (50) - »mjjmi * banish-10.2 (55) * battle-36.3 (8) * bodyinternalmotion-49 (131) * build-26.1-4 (7) Verb class "destroy 44 * babrat1 * bořit * bořit^ * bourat^ * bourat, * brakovaly * bffdit * demolovat. mafjtimpf njčit^pf rozbíjet I 1 I zmařit^, mařit^ ~ impf I 1 I rozbity rozbijet3, zničit^, ničit^ f ráme: GROUP < Institution: 1> VERB GROUP obl example: policie rozbila zločinecký gang (pf) • sloveso a jeho synonyma (synset) 9 překlad slovesná třída (slovesa komunikace, slovesa ničení ... [Wu and Palmer, 1994]) 9 slovesné rámce (jednotlivé případy užití slovesného synsetu) • počet argumentů (slotů) • syntaktické informace (větné členy: pořadí, pád, příp. předložka) • sémantické role (role) 9 výběrová omezení (typický reprezentant) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 23 PA153 Zpracování přirozeného jazyka Sloveso jako predikát Zachycení významu ve valenčním rámci zmařit."f zničit1* rozbít1* • oJupl-91 [4} • bom, mařit"'"'' ničit _npf rozbíjet""* [60J . apprcíe-ZS (911 . nsramrwíl (50) :^ * S^'L) [7] rozbt,. rozbij, mčt.. mSt,. = ' blil-37 -fiame: GROUP < institutu, n :1> °bl VERB M GROUP °M [ĽJD • demoLrt, • sloveso a jeho synonyma (synset) • překlad • slovesná třída (slovesa komunikace, slovesa ničení ... [Wu and Palmer, 1994]) • slovesné rámce (jednotlivé případy užití slovesného synsetu) • počet argumentů (slotů) • syntaktické informace (větné členy: pořadí, pád, příp. předložka) • sémantické role (role) • výběrová omezení (typický reprezentant) Dostáváme se zpět k tomu, o čem byla zmínka v minulém semináři: teorie prototypu Propojení valenčních rámců: od slovníků k sémantické síti popisy typických situací: skripty (scénáře), rámce: nakupovat, měřit, dolovat, zemřít • návrhy od 70. let: Schank, Abelson, Minsky 9 aplikace (datové zdroje): od 90. let FrameNet 6 'https://framenet.icsi.berkeley.edu/fndrupal/ Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 05 - Sémantika II 24 / 26 Propojení valenčních rámců: FrameNet Definition: This transparent noun frame is concerned with ^^s for measuring the \ I of regions. Hillary lives in the middle of ^ Paul owns ^ i:igifeiE