PA153 Počítačové zpracování přirozeného jazyka 04 - Sémantika I (reprezentace lexikálního významu) Karel Pala, Zuzana Nevěřilová Centrum ZPJ, Fl MU, Brno 1. listopadu 2020 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 1/32 Q Lexikální význam Q Slovníkové heslo O Nal ezení významu v kontextu Q Popis lexikálních významů pro ZPJ Sémantické primitivy Sémantické třídy • Teorie prototypů Q Shrnutí Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 2/32 Lexikální význam lexikální význam (lexical meaning): izolovaný význam slova [Oxford Dictionaries, 2013] bez ohledu na význam věty, ve které se slovo nachází • bez ohledu na gramatické kategorie jiné významy: gramatický význam, význam slov a význam vět • kuře - kuřata 9 frekvence - kmitočet • Pan profesor běží na tramvaj. Gepard běží za kořistí. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 3/32 PA153 Zpracování přirozeného jazyka o '—Lexikální význam o Csl o Csl Lexikální význam Lexikální význam lexikální význam (lexical meaning): izolovaný význam slova [Oxford Dictionaries, 2013] • bez ohledu na význam věty, ve které se slovo nachází • bez ohledu na gramatické kategorie jiné významy: gramatický význam, význam slov a význam vět • kuře - kuřata • frekvence - kmitočet • Pan profesor běží na tramvaj. Gepard běží za kořistí. slova kuře a kuřata mají tentýž lexikální význam, ale rozdílný gramatický (singulár, plurál) frekvence a kmitočet jsou různá slova, která mají tentýž lexikální (i gramatický a dokonce i další) význam běžet má stejný význam, přestože si představíme celkem jinou činnost (styl, rychlost, terén) Lexikální forma a lexikální význam Lexikální jednotka (lexical unit, LU) [Ziková, 2003]: • reprezentována lexikální formou • asociována s určitým lexikálním významem • má určité gramatické vlastnosti (např. tranzitivní sloveso) • může mít určité pragmatické vlastnosti (např. smirgl je expresivní označení pro tramvaj) Lexikální vztahy: • LU se stejným významem, ale jinou formou synonymie (např. šalina, tramvaj, šmirgl) • LU se stejnou formou, ale jiným významem homonymie (např. kolej) nebo polysémie (např. ucho) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 4/32 Kde najít informace o lexikálním významu? Slovník/lexikon = soubor lexikálních jednotek (LU) Slovníky: • výkladové • překladové • současného jazyka (synonym, zkratek, rýmů ...) • terminologické • historické o etymologické • speciální (frekvenční, retrográdní, valenční) PA153 Zpracování přirozeného jazyka '—Lexikální význam '—Kde najít informace o lexikálním významu? Na tomto místě zmiňujeme slovníky jen jako prostředky pro popis lexikálního významu. Více o slovnících, jejich druzích a vytváření slovníků vyučuje předmět IB047 Uvod do korpusové lingvistiky a počítačové lexikografie. Kde najit informace o lexikálním významu? Slovník/lexikon = soubor lexikálních jednotek (LU) Slovníky: • výkladové • překladové • současného jazyka (synonym, zkratek, rýmů . . . ) • terminologické • historické • etymologické • speciální (frekvenční, retrográdní, valenční) Struktura slovníkového hesla bez -U m. (ó.j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s květenstvím drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em): [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý: b. hroznatý 3. ob. květ černého bezu; vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) • lexikální forma • gramatické vlastnosti 9 pragmatické vlastnosti • definice • kolokace příklady užití 9 odvozené lexikální formy Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 6/ Slovníkové definice a hyperonymie bez -U m. (6. j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s květemtvím drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em): [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím ria b. dej pokoj; bot. rod Sambucus: b. černý: b. hroznatý 3. ob. květ černého bezu; vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) Definice klasická: bez = vysoký keř s květenstvím drobných nažloutlých květů... [Havránek et al.f 1960] • genus proximum (nejbližší rod) • differentia specifica (druhové rozdíly) hyperonymie kulhati ned. (1. j. -ám, rozk. -ej, přech. přít. -aje) troponymie l- chodit takr že váha těla se nepřenáší stejnoměrně na obě nohy, levou nohu - -- Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 7/32 Definice pomocí synonym: bez = šeřík PA153 Zpracování přirozeného jazyka o '—Slovníkové heslo 1—Slovníkové definice a hyperonymie Slovníkové definice a hyperonymie bez -H»(£>-n) 1. šeřík (bot): modrý, bílý b.; kytice bezu 1. \y:] lóitar ooč bezem :iiiu; ob eipi jdi mi s ti b. -vo- jjiv .''.jií SVi.i'í.'iHfi/s. b. černý; b. hroznatý 3. ob. květ černého beiu: vařit čaj e bezu; odraz bezového b:étu: pít teplý b. (J» I Definice klasická: bez = vysoký keř s květenstvím drobných nažloutlých květů... [Havránek et al., 1960] • genus proximum (nejbližsí rod) • differentia specifica (druhové rozdíly) Definice pomocí synonym: bez = šeřík hyperonymie nič (l.j.-äm. :oik. -ej. f ŕccii oťa -a-e; r/iodit tak zí y cha lila :c nepřena';: •Ae-jumxěrné no obé n< levou nohu klasické slovníkové heslo vyžaduje pro porozumění aspoň nějakou znalost jazyka, tudíž je pro počítačové zpracování neúplné Nalezení významu v kontextu někdy (ve skutečnosti velmi často) jen se znalostí lexikálního významu nevystačíme =4> je třeba znát kontext lexikální desambiguace (Word Sense Disambiguation) funkce: (1/1/, c) —> s • l/l/ G W - množina slov • c £ C - množina kontextů • s G S - množina významů 04 - Sémantika I Naivní Leskův algoritmus: kočka (SSJC) [Lesk, 1986] O malá kočkovitá šelma, chovaná v domácnostech, na venkově zvi. pro hubení myší; kočka domácí (zool.); šedivá, černá, tříbarevná k.; hladká srst kočky; k. mňouká, přede; k. číhá na myš; k. chytá ptáky; angorská k.; být falešný, úlisný jako k.; přen. expr. je to k. falešník; to děvče je k. lichotné, úlisné; [x] jsou na sebe jako pes a k. nenávidí se.. . O malá n. středně velká šelma s hustým kožichem; zool. rod Felis: k. plavá; k. divoká; k. domácí O samice kočkovité šelmy vůbec; rysí k.; lví k.; expr. každá kočkovitá šelma vůbec (tygr, levhart aj.) O ob. kožišina na límci, kolem krku n. ramen O kocovina (Haš.) O věc připomínající někt. vlastnost u kočky: bot. velký trs ostřic vystupující z rašeliniště (na blatech); tech. pojízdný vozík jeřábu se zdvihacím ústrojím O druh důtek; devítiocasá k. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 9/32 Naivní Leskův algoritmus: vstup Aminokyselina DL-methionin okyseluje moč, čímž chrání močové ústrojí psů i koček (důležitá vlastnost zvláště u kasírovaných jedinců). {aminokyselina, DL-methionin, okyselovat, moč, čímž, chránit, močový, ústrojí, pes, i, důležitý, vlastnost, zvláště, u, kasírovaný, jedinec} {aminokyselina, což, DL-methionin, důležitý, chránit, i, jedinec, kasírovaný, moč, močový, okyselovat, pes, u, ústrojí, vlastnost, zvláště} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 10 Leskův algoritmus: naivní {aminokyselina, což, DL-methionin, důležitý, chránit, i, jedinec, kasírovaný, moč, močový, okyselovat, pes, u, ústrojí, vlastnost, zvláště} 1: {a, angorský, být, černý, číhat, děvče, domácí, domácnost, expresívne, falešník, falešný, hladký, hubení, chovaný, chytat, jako, kočkovitý, lichotný, malý, mňoukat, myš, na, nenávidět, pes, pro, přeneseně, příst, pták, se, srst, šedivý, šelma, to, tříbarevný, úlisný, v, venkov, zoologicky, zvláště} 2: {divoký, domácí, Felis, hustý, kožich, malý, nebo, plavý, rod, s, středně, šelma, velký, zoologicky} 6: {bláto, botanicky, jeřáb, na, některý, ostřice, pojízdný, připomínající, rašeliniště, s, technicky, trs, u, ústrojí, věc, velký, vozík, vlastnost, vystupující, z, zdvihací} 7: {devítiocasá, druh, důtky} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 11/32 Leskův algoritmus: naivní {aminokyselina, což, DL-methionin, důležitý, chránit, i, jedinec, kasírovaný, moč, močový, okyselovat, pes, u, ústrojí, vlastnost, zvláště} Di = {pes,zvláště} D2 = {} Ds = {} Da = {} D5 = {} Dg = {u,ústrojí,vlastnost} Dt = {} věc připomínající někt. vlastnost u kočky: bot. velký trs ostřic vystupující z rašeliniště (na blatech); tech. pojízdný vozík jeřábu se zdvihacím ústrojím Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 12/ o I PA153 Zpracování přirozeného jazyka '—Nalezení významu v kontextu Leskův algoritmus: naivní {aminokyselina, což, DL-methionin, důležitý, chránit, i, jedinec, kasírovaný, moč, močový, okyselovat, pes, u, ústrojí, vlastnost, zvláště} Di = {pes,zvláště} »2 = 0 »3 = {} »4 = {} »5 = 0 I O CM O Csl Leskův algoritmus: naivní Dď = {u,ústrojí,vlastnost} »7 = {} věc připomínající někt. vlastnost u kočky: bot. velký trs ostřic vystupujíc z rašeliniště (na blatech); tech. pojízdný vozík jeřábu se zdvihacím ústrojím Naivní L. algoritmus určil, že význam slova kočka v uvedené větě je 6. Je to spíš náhoda podpořená tím, že u významů 1 a 6 v SSJč také nejvíc textu. Vylepšené verze L. algoritmu některá slova nepočítají, přidávají slovům váhy (např. pomocí TF-IDF), zohledňují vzdálenost od desambiguovaného slova Naivní Leskův algoritmus: kočka (SSJC) [Lesk, 1986] O malá kočkovitá šelma, chovaná v domácnostech, na venkově zvi. pro hubení myší; kočka domácí (zool.); šedivá, černá, tříbarevná k.; hladká srst kočky; k. mňouká, přede; k. číhá na myš; k. chytá ptáky; angorská k.; být falešný, úlisný jako k.; přen. expr. je to k. falešník; to děvče je k. lichotné, úlisné; [x] jsou na sebe jako pes a k. nenávidí se.. . O malá n. středně velká šelma s hustým kožichem; zool. rod Felis: k. plavá; k. divoká; k. domácí O samice kočkovité šelmy vůbec; rysí k.; lví k.; expr. každá kočkovitá šelma vůbec (tygr, levhart aj.) O ob. kožišina na límci, kolem krku n. ramen O kocovina (Haš.) O věc připomínající někt. vlastnost u kočky: bot. velký trs ostřic vystupující z rašeliniště (na blatech); tech. pojízdný vozík jeřábu se zdvihacím ústrojím O druh důtek; devítiocasá k. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 13/32 Slabiny WSD (i/i/, c) —y s • l/l/ G W - množina slov • c G C - množina kontextů • s G 5 - množina významů Všechny algoritmy WSD závisejí na inventáři a popisu významů. Kolik významů má slovo kočka? • SSJČ: 7 • SSČ: 2 a PSJČ:10 • Slovník českých synonym: 4 • Český WordNet: 3 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 14/32 o CM O Csl O i i PA153 Zpracování přirozeného jazyka '—Nalezení významu v kontextu Slabiny WSD Slabiny WSD • s € S - množina významů Všechny algoritmy WSD závisejí na inventáři a popisu významů. Kolik významů má slovo kočka! • SSJČ: 7 • SSČ: 2 • PSJČ: 10 • Slovník českých synonym: 4 • Český WordNet: 3 Leskův a. je jednoduchý i ve svých pokročilejších verzích, zajímavý algoritmus nabídl [Yarowsky, 1995]. Jde o alg. strojového učení, kdy se v prvním průchodu určí kolokace, které naprosto jistě souvisejí s konkrétním významem slova. V dalších průchodech se vypočítávají další slova, která signalizují konkrétní význam slova. WSD nebo WSD Algoritmy, které nepočítají s pevným inventářem významů, jen s kontextem: Word Sense Discrimination production tnu équipé [Véronis, 2004] Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 15/32 Word Sense Discrimination Algoritmy, které nepočítají s pevným inventářem významů, jen s kontextem: word embeddings Aíneric a n_Crinn e_Story Ro bert_Wťŕd&tila Bim pson_murder_c a se Micíle^^Tsimpsor _^Bemand_Madoff The_Revena ntj 2015_f i I m i O.J._5imp! \ Martin 5hkneli / / Deaths m 20L6 Zika virus Xr-arnster Marco_Rubio Ted Cnuz Imva_caucuse5 □ Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 16/32 Komponentová analýza (Componential analysis) = popis významu slov pomoci množiny sémantických rysů (primitiv), které jsou buď přítomny, nebo nepřítomny, nebo irelevantní pro daný význam: • muž = +ADULT +MALE • chlapec = -ADULT +MALE • batole = -ADULT ±MALE Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 17/32 Komponentová analýza (Componential analysis) I označení popis příklad T tempus, čas den, rok, leden, soumrak L locus, místo dům, chrám, světadíl, břeh BYT bytost víla HUM člověk strejda, rada, bača ANIM zvíře pes, slon, velbloud PLÁNT rostlina strom, kosatec QUA vlastnost nespokojenec, povýšenec + HUM FEN fenomén úkaz, zázrak ENT entita protiklad, argument OBJ objekt, předmět stůl, krb, ale i dům (OBJ + L) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 18/32 Komponentová analýza (Componential analysis) II označení popis příklad INF informace telefonát, článek, vzkaz EMO emoce cit, radost, strach, neklid, úsměv INS instrument, nástroj nuz, sip hřeben MACH stroj, aparát, zařízení počítač PROC proces zážeh, postup, pokrok MOT pohyb běh, let, pád AKT aktivita, činnost boj, odboj, příchod MAT materiál hlína, dřevo BP část těla (body part) prst, krk ORG organizace, instituce vláda Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 19/32 Sémantické třídy = skupiny slov, která sdílejí nějakou sémantickou vlastnost obratlovec - savec - šelma - psovitá šelma - pes - pudl - trpasličí pudl taxonomie, hierarchie tříd Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 20/32 Sémantické třídy, Porfyriův strom Supreme genus: Differentiae: Subordinate genera: Differentiae: Subordinate genera: Differentiae: Proximate genera: Differentiae: Species: Substance immaterial Body Spirit sensitive insensitive Animal Plant irrational Human Beast InttividitatM Socrates Plato Aristotle etc. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 21/32 Sémantické třídy, sémantické sítě, odvozování Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 22/32 Sémantické sítě WordNet (Princeton WordNet, PWN) - lexikální síť • původně nástroj k ověření teorie o uspořádání lidské paměti (G. A. Miller, od r. 1985) počítačově dobře zpracovatelný zdroj informací o významech slov a vztazích mezi významy [Fellbaum, 1998] • jednotkou je synonymická řada (synonymical set, synset) • syn sety jsou spojeny relacemi: ► hyperonymie/hyponymie: vůz, automobil - dodávka ► holonymie/meronymie (part of, member of): vůz, automobil - tlumič; orchestr - houslista ► troponymie: šeptat - mluvit ► near-antonym: den - noc ► odvození: velikost - velký slovní druhy: substantiva, adjektiva, verba, adverbia Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 23/32 Word Net angličtina: PWN (117 tis. synsetů) projekty EuroWordNet (holandština, italština, španělština, němčina, francouzština, čeština, estonština) • ILI - InterLingual Index • Top Ontology (63 kategorií) • Base Concepts projekty (BalkaNet), při kterých vznikají word n ety pro další jazyky, koordinátorem databází je Global WordNet Association (GWA) současný český W.: 28 tis. synsetů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I WordNet není jediný Ontológie = explicitní specifikace sdílené konceptualizace 9 firemní o. • všeobecné o. SUMO/MILO (Suggested Upper Merged Ontology, Mid-Level Ontology) • common sense o. ConceptNet Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I Ontológie a datové formáty (ontologické jazyky) • predikátová logika 1. řádu a rozšíření • Rodina KIF (Knowledge Interchange Format) • Rodina RDF (Resource Description Framework), ,Jazyky sémantického webu": RDF, RDFS, OWL, DAM L Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 26/32 « —J y y v /i . i ■ Ontológie a datové formáty (ontologické jazyky) PA153 Zpracovaní přirozeného jazyka Popis lexikálních významů pro ZPJ '—Sémantické třídy g 1—Ontológie a datové formáty (ontologické jazyky) Csl • predikátová logika 1. řádu a rozšírení • Rodina KIF (Knowledge Interchange Format) • Rodina RDF (Resource Description Framework), „jazyky sémantického webu": RDF, RDFS, OWL, DAM L O jazycích SW příště, v souvislosti s popisem významu věty Teorie prototypů: co je to ptáček? Aitchison, 2003 in [Goddard, 2011] Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 27/32 Teorie prototypů E. Rosch dokázala, že lidé uvažují o vlastnostech třídy jako o vlastnostech typického zástupce třídy. t. prototypů se uplatňuje v popisu typických situací (rámce, skripty) vzdálenost mezi koncepty: židle je víc nábytek než sporák Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 28/32 Shrnutí gramatika syntax slovní druh, gramatické kategorie větný člen sémantika sémantická třída pragmatiky popis lexikálního významu: • pro uživatele jazyka: slovníky o pro počítačové programy: specializované zdroje (sém. rysy, ontológie, prototypy) rozlišení lexikálního významu: • pro uživatele jazyka: číslo významu • pro počítačové programy: WSD, vzdálenost mezi koncepty 04 - Sémantika I 29 / 32 Odkazy I Fellbaum, C. (1998). WordNet: An Electronic Lexical Database (Language, Speech, and Communication ). The MIT Press. Published: Hardcover. Goddard, C. (2011). Semantic Analysis: A Practical Introduction. Oxford Textbooks in Linguistics. Oxford University Press. Havránek, B. et al. (1960). Slovník spisovného jazyka českého (Dictionary of Written Czech, SSJČ). Academia, Praha, 1st edition. electronic version, created in the Institute of Czech Language, Czech Academy of Sciences Prague in cooperation with Faculty of Informatics, Masaryk University Brno. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 30/32 Odkazy II Lesk, M. (1986). Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone. In Proceedings of the 5th annual international conference on Systems documentation, SIGDOC '86, pages 24-26, New York, NY, USA. ACM. Oxford Dictionaries (2013). Lexical meaning. Oxford Dictionaries. online. http://oxforddictionaries.com/definition/english/ lexical-meaning (accessed October 03, 2013). Veronis, J. (2004). Hyperlex: Lexical cartography for information retrieval. In Computer Speech and Language: Special Issue on Word Sense Disambiguation, page 23. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 31/32 Odkazy III Yarowsky, D. (1995). Unsupervised word sense disambiguation rivaling supervised methods. In Proceedings of the 33rd annual meeting on Association for Computational Linguistics, ACL '95, pages 189-196, Stroudsburg, PA, USA. Association for Computational Linguistics. Ziková, M. (2003). Současný český jazyk: Tvoření slov. online. http://www.phi1.muni.cz/cest/lide/zikova/CJA009_l.rtf (accessed October 03, 2013). Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 32/32