PA153 Počítačové zpracování přirozeného jazyka 04 - Sémantika I (reprezentace lexikálního významu) Karel Pala, Zuzana Nevěřilová Centrum ZPJ, Fl MU, Brno 19. října 2016 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 1/34 O Lexikální význam Q Slovníkové heslo O Nal ezení významu v kontextu • Algoritmy lexikální desambiguace Q Popis lexikálních významů pro ZPJ Sémantické primitivy Sémantické třídy • Teorie prototypů O Sh rnuti Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 2/34 Lexikální význam lexikální význam (lexical meaning): izolovaný význam slova [Oxford Dictionaries, 2013] o bez ohledu na význam věty, ve které se slovo nachází • bez ohledu na gramatické kategorie Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 3/34 Lexikální význam lexikální význam (lexical meaning): izolovaný význam slova [Oxford Dictionaries, 2013] o bez ohledu na význam věty, ve které se slovo nachází • bez ohledu na gramatické kategorie jiné významy: gramatický význam, význam slov a význam vět Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 3/34 Lexikální význam lexikální význam (lexical meaning): izolovaný význam slova [Oxford Dictionaries, 2013] o bez ohledu na význam věty, ve které se slovo nachází • bez ohledu na gramatické kategorie jiné významy: gramatický význam, význam slov a význam vět • kuře - kuřata 9 frekvence - kmitočet • Pan profesor běží na tramvaj. Gepard běží za kořistí. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 3/34 PA153 Zpracování přirozeného jazyka '—Lexikální význam '—Lexikální význam slova kuře a kuřata mají tentýž lexikální význam, ale rozdílný gramatický (singulár, plurál) frekvence a kmitočet jsou různá slova, která mají tentýž lexikální (i gramatický a dokonce i další) význam běžet má stejný význam, přestože si představíme celkem jinou činnost (styl, rychlost, terén) Lexikální význam lexikální význam (lexical meaning): izolovaný význam slova [Oxford Dictionaries, 2013] • bez ohledu na význam věty, ve které se slovo nachází • bez ohledu na gramatické kategorie jiné významy: gramatický význam, význam slov a význam vět • kuře - kuřsts 9 frekvence - kmitočet • Pan profesor běží na tramvaj. Gepard běží za kořistí. Lexikální forma a lexikální význam Lexikální jednotka (lexical unit, LU) [Ziková, 2003]: • reprezentována lexikální formou • asociována s určitým lexikálním významem • má určité gramatické vlastnosti (např. tranzitivní sloveso) • může mít určité pragmatické vlastnosti (např. já je pokaždé někdo jiný) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 4/34 Lexikální forma a lexikální význam Lexikální jednotka (lexical unit, LU) [Ziková, 2003]: • reprezentována lexikální formou • asociována s určitým lexikálním významem • má určité gramatické vlastnosti (např. tranzitivní sloveso) • může mít určité pragmatické vlastnosti (např. já je pokaždé někdo jiný) 9 LU se stejným významem, ale jinou formou Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 4/34 Lexikální forma a lexikální význam Lexikální jednotka (lexical unit, LU) [Ziková, 2003]: • reprezentována lexikální formou • asociována s určitým lexikálním významem • má určité gramatické vlastnosti (např. tranzitivní sloveso) • může mít určité pragmatické vlastnosti (např. já je pokaždé někdo jiný) 9 LU se stejným významem, ale jinou formou synonymie (např. šalina, tramvaj, šmirgl) • LU se stejnou formou, ale jiným významem Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 4/34 Lexikální forma a lexikální význam Lexikální jednotka (lexical unit, LU) [Ziková, 2003]: • reprezentována lexikální formou • asociována s určitým lexikálním významem • má určité gramatické vlastnosti (např. tranzitivní sloveso) • může mít určité pragmatické vlastnosti (např. já je pokaždé někdo jiný) 9 LU se stejným významem, ale jinou formou synonymie (např. šalina, tramvaj, šmirgl) • LU se stejnou formou, ale jiným významem homonymie (např. kolej) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 4/34 Kde najít informace o lexikálním významu? Slovník/lexikon/lexikální databáze = soubor lexikálních jednotek (LU) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I Kde najít informace o lexikálním významu? Slovník/lexikon/lexikální databáze = soubor lexikálních jednotek (LU) Slovníky: • jednojazyčné výkladové • překladové • současného jazyka (synonym, zkratek, rýmů ...) • terminologické • historické o etymologické • speciální (frekvenční, retrográdní, valenční) «... strojově čitelné slovníky = machine readable dictionaries □ Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 5/34 Struktura slovníkového hesla bez -U m. (ó.j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s květemtvim drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em); [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý; b. hroznatý 3. ob. květ černého bezu: vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) • lexikální forma • gramatické vlastnosti • definice • kolokace • příklady užití • odvozené lexikální formy (hnízdování) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 6/ t—I I O t—I I t—I O Csl PA153 Zpracování přirozeného jazyka Slovníkové heslo Struktura slovníkového hesla Struktura slovníkového hesla bez -Um. (6.J.-11) šeřík !bot): modrý, bílý b.; kytice bezu 2. vysoký keř .s květenstvím drobných nažloutlých květů, které dozrávajína podzim x drobné če, bobulky (bezinky); bez černý Jboi.): třást bez(em); [s] zůstat ood bezem mp-cčatse; ob.eipr. jdirr. b. áajpQKDj; iot. íWSambiícus. b. černý: b. hroznatý' kvét če7},í vaiit čaj z bezu; ?dvorz bezového květu: pit teplý b. • lexikální forma • gramatické vlastnosti • definice • kolokace • příklady užití • odvozené lexikální formy (hnízdování) Ukázka je ze SSJČ, kde není žádná odvozená forma, ale v SSČ je bezový a bezinka. Pro jiná slova je v SSC mnohem více odvozených forem: květ, květen, květena, květák, květenství, květina, květináč, květinářka, květinářství Kolokace jako slovníkové heslo pevné kolokace: zakopaný pes, devítiocasá kočka, slaměný vdovec, New York, křížem krážem, ad hoc porušují princip kompozicionality samostatná slovníková hesla? Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I Kolokace jako slovníkové heslo pevné kolokace: zakopaný pes, devítiocasá kočka, slaměný vdovec, New York, křížem krážem, ad hoc porušují princip kompozicionality samostatná slovníková hesla? v NLP se používá termín multiword expresion (MWE) je důležité MWE identifikovat, např. pro strojový překlad: 9 pevné MWE: zakopaný pes • vzory: vzít na hůl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 7/34 Slovníkové definice a hyperonymie bez -U m. (6. j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s kvetemtvim drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em); [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý; b. hroznatý 3. ob. květ černého bezu: vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) Definice pomocí synonym: bez = šeřík Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 8 / Slovníkové definice a hyperonymie bez -U m. (6. j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s kvetemtvim drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em); [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý; b. hroznatý 3. ob. květ černého bezu: vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) Definice klasická: bez = vysoký keř s květenstvím drobných Definice pomocí synonym: nažloutlých květů... [Havránek et al., 1960] bez = šeřík • genus proximum (nejbližší rod) • differentia specifica (druhové rozdíly) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 8/34 Slovníkové definice a hyperonymie bez -U m. (6. j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s kvetemtvim drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em); [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý; b. hroznatý 3. ob. květ černého bezu: vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) Definice klasická: bez = vysoký keř s květenstvím drobných Definice pomocí synonym: nažloutlých květů... [Havránek et al., 1960] bez = šeřík • genus proximum (nejbližší rod) • differentia specifica (druhové rozdíly) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 8/34 Slovníkové definice a hyperonymie bez -U m. (6. j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s kvetemtvim drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em); [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý; b. hroznatý 3. ob. květ černého bezu: vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) Definice klasická: bez = vysoký keř s květenstvím drobných Definice pomocí synonym: nažloutlých květů... [Havránek et al., 1960] bez = šeřík • genus proximum (nejbližší rod) • differentia specifica (druhové rozdíly) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 8/34 Slovníkové definice a hyperonymie bez -U m. (6. j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s kvetemtvim drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em); [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý; b. hroznatý 3. ob. květ černého bezu: vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) Definice klasická: bez = vysoký keř s květenstvím drobných Definice pomocí synonym: nažloutlých květů... [Havránek et al., 1960] bez = šeřík • genus proximum (nejbližší rod) • differentia specifica (druhové rozdíly) hyperonymie Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 8/34 Slovníkové definice a hyperonymie bez -U m. (6. j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s květemtvím drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em); [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý; b. hroznatý 3. ob. květ černého bezu: vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) Definice pomocí synonym: Definice klasická: bez = vysoký keř s květenstvím drobných nažloutlých květů... [Havránek et al., 1960] bez = šeřík • differentia specifica (druhové rozdíly) hyperonymie troponymie kulhali ned. (1. j. -ani, rozk. -ej, přech. přít. -aje) 1. chodit tak, že váha těla se nepřenáší stejnoměrně na obě nohy, levou nohu Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka CT) i—I Ô t-1 I i—I O C\l PA153 Zpracování přirozeného jazyka Slovníkové heslo 1—Slovníkové definice a hyperonymie Slovníkové definice a hyperonymie 41..« j ■») 1. šeřík lbol) modrý, bílý b.; kytice bezu 2. \ytoký keř í hvtemtvim drobných nažloutlých hitů klerě dozrávajína podzim v drobné černe h í hiiih - i.'u-ľ'.b:, bez če?--r: . ■ tí Lit oez< íi.i [x] /ustat -x>d bizem -Íl--:: jdi i'ii s tii b. dijpvkoj; bot rod Sambucus. b. černý: b. hroznatý 3. ob kvét černého b.szi/: vaiit čaj z bezu; :_»í-.-n odvar tezového h'étu: pil teplý b. ťJir.) Definice pomocí synonym: bez šerí k Definice klasická: bez = vysoký keř s květenstvím drobných nažloutlých květů... [Havránek et al., 1960] • genus proximum (nejbližší rod) • differentia specifica (druhové rozdíly) hyperonymie kulliati liti; (l.j.-ám, luA. *ej, přcLli -a;e; 1. chodit tak. Že váha těla se nepřenáší ii klasické slovníkové heslo vyžaduje pro porozumění aspoň nějakou znalost jazyka, tudíž je pro počítačové zpracování neúplné Nalezení významu v kontextu někdy (ve skutečnosti velmi často) jen se znalostí lexikálního významu nevystačíme =4> je třeba znát kontext Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 9/34 Nalezení významu v kontextu někdy (ve skutečnosti velmi často) jen se znalostí lexikálního významu nevystačíme =4> je třeba znát kontext lexikální desambiguace (Word Sense Disambiguation) funkce: (1/1/, c) —>► s • 1/1/ £ W - množina slov • c £ C - množina kontextů • s G 5 - množina významů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 9/34 Naivní Leskův algoritmus: list (SSJC) [Lesk, 1986] O jeden ze základních orgánů rostlin, zprav, do plochy rozšířený a velmi různých tvarů; lupen: kaštanový, dubový, javorový I.; velký, malý I.; drobné listy borůvčí; široké listy lip; zelné listy; fíkový I., přen. (ve výtv. dílech) jeho zpodobení zakrývající ohanbí, jednání ap. věcně něco zastírající; Q kniž. a nář. listí: svěžím listem zalesklo se habří (Jir.); stromy obalily se listem (Něm.) O kus papíru čtyřúhelníkového tvaru, zprav, určený k psaní, tisku ap.: sešit o 24 listech; titulní I. v knize; I. pergamenu; cyklus grafických listů; její duše je nepopsaný I. (kniž.) nemá zkušenosti; zpívat, hrát přímo z listu z notového partu bez cvičení; ... O kniž. a zast. dopis, psaní: zalepený, zapečetěný I.; otevřený I.; veřejný, osobní I.; listy Jana Nerudy; hist. opovědný, odporný, výhostní I.; cirk. apoštolský, pastýřský I. provolání, výzva papeže, biskupa O úřední listina o něčem svědčící, k něčemu opravňující: rodný, domovský (dř.), oddací, úmrtní I.; výuční, živnostenský I.; odběrní, dodací I.; nákladní I.; záruční, zástavní I.; vůdčí I. (dř.) řidičský 04 - Sémantika I 10/34 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Naivní Leskův algoritmus: vstup Ještě lepším řešením by bylo vydat se evropskou cestou: zbavit se úvěrů bez zodpovědnosti dlužníka a rozvinout systém financí založený na zástavních listech, jako jsou německé Pfandbriefe. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 11 Naivní Leskův algoritmus: vstup Ještě lepším řešením by bylo vydat se evropskou cestou: zbavit se úvěrů bez zodpovědnosti dlužníka a rozvinout systém financí založený na zástavních listech, jako jsou německé Pfandbriefe. {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 11 Naivní Leskův algoritmus {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} l:{a, borůvčí, dílo, do, drobný, dubový, fíkový, javorový, jeden, jednání, kaštanový, lípa, lupen, malý, ohanbí, orgán, plocha, rostlina, rozšířený, různý, široký, tvar, věčně, velký, velmi, ... } 2:{habří, listí, obalit, se, strom, svěží, zalesknout} 3:{bez, být, cvičení, cyklus, čtyřúhelníkový, dnes, duše, grafický, hráč, hrát, jeden, jeho, jiný, k, karta, kniha, který, kus, mít, mluvit, něco, notový, o, obrátit, on, padat, papír, part, pergamen, popsaný, přímo, psaní, ruka, se, sešit, situace, souhrn, štěstí, tvar, určený, v, tisk, titulní, z, ... } 4:{apoštolský, biskup, dopis, Jan, Neruda, odporný, opovědný, osobní, otevřený, papež, pastýřský, provolání, psaní, veřejný, výhostní, výzva, zalepený, zapečetěný} 5:{dodací, domovský, k, kniha, listina, nákladní, něco, o, odběrní, oddací, opravňující, průkaz, pozemkový, rodný, řidičský, svědčící, úmrtní, úřední, vůdčí, výuční, záruční, zástavní, živnostenský} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 12/34 Naivní Leskův algoritmus {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} l:{a, borůvčí, dílo, do, drobný, dubový, fíkový, javorový, jeden, jednání, kaštanový, lípa, lupen, malý, ohanbí, orgán, plocha, rostlina, rozšířený, různý, široký, tvar, věčně, velký, velmi, ... } 2:{habří, listí, obalit, se, strom, svěží, zalesknout} 3:{bez, být, cvičení, cyklus, čtyřúhelníkový, dnes, duše, grafický, hráč, hrát, jeden, jeho, jiný, k, karta, kniha, který, kus, mít, mluvit, něco, notový, o, obrátit, on, padat, papír, part, pergamen, popsaný, přímo, psaní, ruka, se, sešit, situace, souhrn, štěstí, tvar, určený, v, tisk, titulní, z, ... } 4:{apoštolský, biskup, dopis, Jan, Neruda, odporný, opovědný, osobní, otevřený, papež, pastýřský, provolání, psaní, veřejný, výhostní, výzva, zalepený, zapečetěný} 5:{dodací, domovský, k, kniha, listina, nákladní, něco, o, odběrní, oddací, opravňující, průkaz, pozemkový, rodný, řidičský, svědčící, úmrtní, úřední, vůdčí, výuční, záruční, zástavní, živnostenský} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 12/34 Naivní Leskův algoritmus {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} l:{a, borůvčí, dílo, do, drobný, dubový, fíkový, javorový, jeden, jednání, kaštanový, lípa, lupen, malý, ohanbí, orgán, plocha, rostlina, rozšířený, různý, široký, tvar, věčně, velký, velmi, ... } 2:{habří, listí, obalit, se, strom, svěží, zalesknout} 3:{bez, být, cvičení, cyklus, čtyřúhelníkový, dnes, duše, grafický, hráč, hrát, jeden, jeho, jiný, k, karta, kniha, který, kus, mít, mluvit, něco, notový, o, obrátit, on, padat, papír, part, pergamen, popsaný, přímo, psaní, ruka, se, sešit, situace, souhrn, štěstí, tvar, určený, v, tisk, titulní, z, ... } 4:{apoštolský, biskup, dopis, Jan, Neruda, odporný, opovědný, osobní, otevřený, papež, pastýřský, provolání, psaní, veřejný, výhostní, výzva, zalepený, zapečetěný} 5:{dodací, domovský, k, kniha, listina, nákladní, něco, o, odběrní, oddací, opravňující, průkaz, pozemkový, rodný, řidičský, svědčící, úmrtní, úřední, vůdčí, výuční, záruční, zástavní, živnostenský} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 12/34 Naivní Leskův algoritmus {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} l:{a, borůvčí, dílo, do, drobný, dubový, fíkový, javorový, jeden, jednání, kaštanový, lípa, lupen, malý, ohanbí, orgán, plocha, rostlina, rozšířený, různý, široký, tvar, věčně, velký, velmi, ... } 2:{habří, listí, obalit, se, strom, svěží, zalesknout} 3:{bez, být, cvičení, cyklus, čtyřúhelníkový, dnes, duše, grafický, hráč, hrát, jeden, jeho, jiný, k, karta, kniha, který, kus, mít, mluvit, něco, notový, o, obrátit, on, padat, papír, part, pergamen, popsaný, přímo, psaní, ruka, se, sešit, situace, souhrn, štěstí, tvar, určený, v, tisk, titulní, z, ... } 4:{apoštolský, biskup, dopis, Jan, Neruda, odporný, opovědný, osobní, otevřený, papež, pastýřský, provolání, psaní, veřejný, výhostní, výzva, zalepený, zapečetěný} 5:{dodací, domovský, k, kniha, listina, nákladní, něco, o, odběrní, oddací, opravňující, průkaz, pozemkový, rodný, řidičský, svědčící, úmrtní, úřední, vůdčí, výuční, záruční, zástavní, živnostenský} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 12/34 Naivní Leskův algoritmus {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} l:{a, borůvčí, dílo, do, drobný, dubový, fíkový, javorový, jeden, jednání, kaštanový, lípa, lupen, malý, ohanbí, orgán, plocha, rostlina, rozšířený, různý, široký, tvar, věčně, velký, velmi, ... } 2:{habří, listí, obalit, se, strom, svěží, zalesknout} 3:{bez, být, cvičení, cyklus, čtyřúhelníkový, dnes, duše, grafický, hráč, hrát, jeden, jeho, jiný, k, karta, kniha, který, kus, mít, mluvit, něco, notový, o, obrátit, on, padat, papír, part, pergamen, popsaný, přímo, psaní, ruka, se, sešit, situace, souhrn, štěstí, tvar, určený, v, tisk, titulní, z, ... } 4:{apoštolský, biskup, dopis, Jan, Neruda, odporný, opovědný, osobní, otevřený, papež, pastýřský, provolání, psaní, veřejný, výhostní, výzva, zalepený, zapečetěný} 5:{dodací, domovský, k, kniha, listina, nákladní, něco, o, odběrní, oddací, opravňující, průkaz, pozemkový, rodný, řidičský, svědčící, úmrtní, úřední, vůdčí, výuční, záruční, zástavní, živnostenský} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 12/34 Naivní Leskův algoritmus {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} l:{a, borůvčí, dílo, do, drobný, dubový, fíkový, javorový, jeden, jednání, kaštanový, lípa, lupen, malý, ohanbí, orgán, plocha, rostlina, rozšířený, různý, široký, tvar, věčně, velký, velmi, ... } 2:{habří, listí, obalit, se, strom, svěží, zalesknout} 3:{bez, být, cvičení, cyklus, čtyřúhelníkový, dnes, duše, grafický, hráč, hrát, jeden, jeho, jiný, k, karta, kniha, který, kus, mít, mluvit, něco, notový, o, obrátit, on, padat, papír, part, pergamen, popsaný, přímo, psaní, ruka, se, sešit, situace, souhrn, štěstí, tvar, určený, v, tisk, titulní, z, ... } 4:{apoštolský, biskup, dopis, Jan, Neruda, odporný, opovědný, osobní, otevřený, papež, pastýřský, provolání, psaní, veřejný, výhostní, výzva, zalepený, zapečetěný} 5:{dodací, domovský, k, kniha, listina, nákladní, něco, o, odběrní, oddací, opravňující, průkaz, pozemkový, rodný, řidičský, svědčící, úmrtní, úřední, vůdčí, výuční, záruční, zástavní, živnostenský} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 12/34 Naivní Leskův algoritmus Ještě lepším řešením by bylo vydat se evropskou cestou: zbavit se úvěrů bez zodpovědnosti dlužníka a rozvinout systém financí založený na zástavních listech, jako jsou německé Pfandbriefe. {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} Di = {a} D2 = {se} D3 = {bez, být, se} D* = {} D5 = {zástavní} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 13 Naivní Leskův algoritmus Ještě lepším řešením by bylo vydat se evropskou cestou: zbavit se úvěrů bez zodpovědnosti dlužníka a rozvinout systém financí založený na zástavních listech, jako jsou německé Pfandbriefe. {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} Di = {a} D2 = {se} D3 = {bez, být, se} D* = {} D5 = {zástavní} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 13 Naivní Leskův algoritmus Ještě lepším řešením by bylo vydat se evropskou cestou: zbavit se úvěrů bez zodpovědnosti dlužníka a rozvinout systém financí založený na zástavních listech, jako jsou německé Pfandbriefe. {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} Di = {a} D2 = {se} D3 = {bez, být, se} D* = {} D5 = {zástavní} kus papíru čtyřúhelníkového tvaru, zprav, určený k psaní, tisku ap. .. . Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 13 t—I O Csl PA153 Zpracování přirozeného jazyka Nalezení významu v kontextu '—Algoritmy lexikální desambiguace '—Naivní Leskův algoritmus Naivní Leskův algoritmus Ještě lepším řešením by bylo vydat se evropskou cestou: zbavit se úvěrů bez zodpovědnosti dlužníka a rozvinout systém financí založený na zástavních listech, jako jsou německé Pfandbriefe. {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} Ol = {a} D2 = {se} D3 = {bez, být, se} »4 = 0 D5 = {zástavní} kus papíru čtyřúhelníkového tvaru, zprav, určený k psaní, tisku ap. ... Naivní L. algoritmus určil, že význam slova list v uvedené větě je 3. Je to spíš náhoda podpořená tím, že u významů 1 a 3 v SSJC také nejvíc textu. Vylepšené verze L. algoritmu některá slova nepočítají, přidávají slovům váhy (např. pomocí TF-IDF), zohledňují vzdálenost od desambiguovaného slova Slabiny Lesková algoritmu slovníkové definice a príklady užití Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka WSD založené na metodách strojového učení [Yarowsky, 1995] O stanovit význam u pevných kolokací (ručně nebo ze slovníku) obrátit list (list:3), živnostenský list (list:5), ... O iterativně zjistit další kolokace kopie (živnostenského listu) —>► kopie oddacího listu (list:5) O opakovat, dokud desambiguované množiny nepřestanou narůstat Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I WSD založené na metodách strojového učení [Yarowsky, 1995] O stanovit význam u pevných kolokací (ručně nebo ze slovníku) obrátit list (list:3), živnostenský list (list:5), ... O iterativně zjistit další kolokace kopie (živnostenského listu) —>► kopie oddacího listu (list:5) O opakovat, dokud desambiguované množiny nepřestanou narůstat Algoritmus natrénovaný na obecném korpusu je použitelný na dalších textech. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I Slabiny WSD (i/i/. c) —y s • 1/1/ G W - množina slov • c G C - množina kontextů • s G 5 - množina významů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Slabiny WSD (i/i/. c) —y s • 1/1/ G W - množina slov • c G C - množina kontextů • s G 5 - množina významů Všechny algoritmy WSD závisejí na inventáři a popisu významů. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 16/34 Slabiny WSD (l/l/, c) —r S • 1/1/ G W - množina slov • c G C - množina kontextů • s G 5 - množina významů Všechny algoritmy WSD závisejí na inventáři a popisu významů. Kolik významů má slovo list? 9 SSJČ: 8 • SSČ: 6 • Slovník českých synonym: 4 • Český WordNet: 9 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 16/34 PA153 Zpracování přirozeného jazyka Nalezení významu v kontextu '—Algoritmy lexikální desambiguace 1—Slabiny WSD Slabiny WSD (w,c) —> S • w € W - množina slov • c € C - množina kontextů • s € S - množina významů Všechny algoritmy WSD závisejí na inventáři a popisu významů. Kolik významů má slovo list! • SSJČ: 8 • SSČ: 6 • Slovník českých synonym: 4 • Český WordNet: 9 Leskův a. je jednoduchý i ve svých pokročilejších verzích, zajímavý algoritmus nabídl [Yarowsky, 1995]. Jde o a. strojového učení, kdy se v prvním průchodu určí kolokace, které naprosto jistě souvisejí s konkrétním významem slova. V dalších průchodech se vypočítávají další slova, která signalizují konkrétní význam slova. WSD nebo WSD Algoritmy, které nepočítají s pevným inventářem významů, jen s kontextem: Word Sense Discrimination Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 17/34 WSD nebo WSD Algoritmy, které nepočítají s pevným inventářem významů, jen s kontextem: Word Sense Discrimination production [Véronis, 2004] □ Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 17/34 Komponentová analýza (Componential analysis) = popis významu slov pomoci množiny sémantických rysů (primitiv), které jsou buď přítomny, nebo nepřítomny, nebo irelevantní pro daný význam: • muž = +HUMAN +ADULT +MALE • žena = +HUMAN +ADULT -MALE • chlapec = +HUMAN -ADULT +MALE • batole = +HUMAN -ADULT ±MALE [Katz and Fodor, 1963] a [Bierwisch, 1971] Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 18/34 Komponentová analýza (Componential analysis) I označení popis příklad T tempus, čas den, rok, leden, soumrak L locus, místo dům, chrám, světadíl, břeh BYT bytost víla HUM člověk strejda, rada, bača ANIM zvi re pes, slon, velbloud PLANT rostlina strom, kosatec QUA vlastnost nespokojenec, povýšenec + H U M FEN fenomén úkaz, zázrak ENT entita protiklad, argument OBJ objekt, předmět stůl, krb, ale i dům (OBJ + L) 04 - Séma Komponentová analýza (Componential analysis) II označení popis příklad INF informace telefonát, článek, vzkaz EMO emoce cit, radost, strach, neklid, úsměv INS instrument, nástroj nuz, sip hřeben MACH stroj, aparát, zařízení počítač PROC proces zážeh, postup, pokrok MOT pohyb běh, let, pád AKT aktivita, činnost boj, odboj, příchod MAT materiál hlína, dřevo BP část těla (body part) prst, krk ORG organizace, instituce vláda Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 20/34 Sémantické třídy = skupiny slov, která sdílejí určitý sémantický rys Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Sémantické třídy = skupiny slov, která sdílejí určitý sémantický rys obratlovec - savec - šelma - psovitá šelma - pes - pudl - trpasličí pudl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 21/34 Sémantické třídy = skupiny slov, která sdílejí určitý sémantický rys obratlovec - savec - šelma - psovitá šelma - pes - pudl - trpasličí pudl taxonomie, hierarchie tříd Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 21/34 Sémantické třídy, Porfyriův strom Supreme genus: Differentiae: Subordinate genera: Differentiae: Subordinate genera: Differentiae: Proximate genera: Differentiae: Species: Substance immaterial Body Spirit sensitive insensitive Animal Plant irrational Human Beast InttividitatM Socrates Plato Aristotle etc. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 22/34 Sémantické třídy, sémantické sítě, odvozování Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 23/34 Sémantické třídy, sémantické sítě, odvozování Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 23/34 Sémantické sítě WordNet (Princeton WordNet, PWN) - lexikální síť • původně nástroj k ověření teorie o uspořádání lidské paměti (G. A. Miller, od r. 1985) počítačově dobře zpracovatelný zdroj informací o významech slov a vztazích mezi významy [Fellbaum, 1998] • jednotkou je synonymická řada (synonymical set, synset) • syn sety jsou spojeny relacemi: ► hyperonymie/hyponymie: vůz, automobil - dodávka ► holonymie/meronymie (part of, member of): vůz, automobil - tlumič; orchestr - houslista ► troponymie: šeptat - mluvit ► near-antonym: den - noc ► odvození: velikost - velký slovní druhy: substantiva, adjektiva, verba, adverbia Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 24/34 Word Net angličtina: PWN (117 tis. synsetů) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Word Net angličtina: PWN (117 tis. synsetů) projekty EuroWordNet (angličtina + holandština, italština, španělština němčina, francouzština, čeština, estonština) • ILI - InterLingual Index • Top Ontology (63 kategorií) 9 Base Concepts Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I Word Net angličtina: PWN (117 tis. synsetů) projekty EuroWordNet (angličtina + holandština, italština, španělština, němčina, francouzština, čeština, estonština) • ILI - InterLingual Index • Top Ontology (63 kategorií) 9 Base Concepts projekty (BalkaNet: bulharština, čeština, rumunština, řečtina, srbština, turečtina), při kterých vznikají word n ety pro další jazyky, koordinátorem databází je Global WordNet Association (GWA) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 25/34 Word Net angličtina: PWN (117 tis. synsetů) projekty EuroWordNet (angličtina + holandština, italština, španělština, němčina, francouzština, čeština, estonština) • ILI - InterLingual Index • Top Ontology (63 kategorií) 9 Base Concepts projekty (BalkaNet: bulharština, čeština, rumunština, řečtina, srbština, turečtina), při kterých vznikají word n ety pro další jazyky, koordinátorem databází je Global WordNet Association (GWA) současný český W.: 28 tis. synsetů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 25/34 WordNet není jediný Ontológie = explicitní specifikace sdílené konceptualizace • firemní o. • všeobecné o. SUMO/MILO (Suggested Upper Merged Ontology, Mid-Level Ontology) • common sense o. ConceptNet Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 26/34 Ontológie a datové formáty (ontologické jazyky) • predikátová logika 1. řádu a rozšíření • Rodina KIF (Knowledge Interchange Format) • Rodina RDF (Resource Description Framework), „jazyky sémantického webu": RDF, RDFS, OWL, DAM L Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 27/34 Teorie prototypů: co je to ptáček? Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Teorie prototypů: co je to ptáček? Aitchison, 2003 in [Goddard, 2011] Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 28/34 Teorie prototypů E. Rosch dokázala, že lidé uvažují o vlastnostech třídy jako o vlastnostech typického zástupce třídy. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 29/34 Teorie prototypů E. Rosch dokázala, že lidé uvažují o vlastnostech třídy jako o vlastnostech typického zástupce třídy. t. prototypů se uplatňuje v popisu typických situací (rámce, skripty) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 29/34 Teorie prototypů E. Rosch dokázala, že lidé uvažují o vlastnostech třídy jako o vlastnostech typického zástupce třídy. t. prototypů se uplatňuje v popisu typických situací (rámce, skripty) vzdálenost mezi koncepty: židle je víc nábytek než sporák Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 29/34 Shrnutí gramatika slovní druh, gramatické kategorie syntax větný člen sémantika sémantická třída Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 30/34 Shrnutí gramatika slovní druh, gramatické kategorie syntax větný člen sémantika sémantická třída popis lexikálního významu: • pro uživatele jazyka: slovníky o pro počítačové programy: specializované zdroje (sém. rysy, ontológie, prototypy) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 30/34 Shrnutí gramatika slovní druh, gramatické kategorie syntax větný člen sémantika sémantická třída popis lexikálního významu: • pro uživatele jazyka: slovníky o pro počítačové programy: specializované zdroje (sém. rysy, ontológie, prototypy) rozlišení lexikálního významu: • pro uživatele jazyka: číslo významu • pro počítačové programy: WSD, vzdálenost mezi koncepty Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 30/34 Odkazy I Bierwisch, M. (1971). On classifying semantic features. In M. Bierwisch, K. E. H., editor, Progress in Linguistics, pages 27-50 Mouton. Fellbaum, C. (1998). WordNet: An Electronic Lexical Database (Language, Speech, and Communication ). The MIT Press. Published: Hardcover. Goddard, C. (2011). Semantic Analysis: A Practical Introduction. Oxford Textbooks in Linguistics. Oxford University Press. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 31/34 Odkazy II Havránek, B. et al. (1960). Slovník spisovného jazyka českého (Dictionary of Written Czech, SSJČ). Academia, Praha, 1st edition. electronic version, created in the Institute of Czech Language, Czech Academy of Sciences Prague in cooperation with Faculty of Informatics, Masaryk University Brno. Katz, J. and Fodor, J. (1963). The structure of a semantic theory. Language, (39):170-210. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 32/34 Odkazy III Lesk, M. (1986). Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone. In Proceedings of the 5th annual international conference on Systems documentation, SIGDOC '86, pages 24-26, New York, NY, USA. ACM. Oxford Dictionaries (2013). lexical meaning. Oxford Dictionaries. online. http://oxforddictionaries.com/definition/english/ lexical-meaning (accessed October 03, 2013). Veronis, J. (2004). Hyperlex: Lexical cartography for information retrieval. In Computer Speech and Language: Special Issue on Word Sense Disambiguation, page 23. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 33/34 Odkazy IV Yarowsky, D. (1995). Unsupervised word sense disambiguation rivaling supervised methods. In Proceedings of the 33rd annual meeting on Association for Computational Linguistics, ACL '95, pages 189-196, Stroudsburg, PA, USA. Association for Computational Linguistics. Ziková, M. (2003). Současný český jazyk: Tvoření slov. online. http://www.phi1.muni.cz/cest/lide/zikova/CJA009_l.rtf (accessed October 03, 2013). Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 34/34