Vágnost a subjektivita Víceznačnost Je víceznačnost problém? PLIN021 Sémantická analýza v praxi OP VK Mezi bohemistikou a informatikou www. p roj e kt- i n o va. cz Zuzana Nevěřilová xpopelkOfi.muni.cz Centrum zpracování přirozeného jazyka, B203 Fakulta informatiky, Masarykova univerzita 25. února 2013 Vágnost a subjektivita Víceznačnost Je víceznačnost problém? Vágnost a subjektivita Víceznačnost Je víceznačnost problém? Vágnost a subjektivita Víceznačnost Je víceznačnost problém? Zkoumání významu Význam zkoumáme z pohledu počítačové lingvistiky. Chceme se dobrat nějakého formálního modelu významu. Co nám v tom brání? • význam je těžké definovat • lidé jazyk používají „nepořádně" Vágnost a subjektivita Víceznačnost Je víceznačnost problém? Zkoumání významu Řeč je jakési bludiště cest. Přijdeš z jedné strany a vyznáš se tu; přijdeš na totéž místo z jiné strany, a už se tu nevyznáš. [Wittgenstein, 1953] Vágnost a subjektivita Víceznačnost Vágnost a subjektivita významů Je víceznačnost problém? muž = dospělý člověk mužského pohlaví Je 18letý člověk mužského pohlaví muž? Je lľletý člověk mužského pohlaví muž? Je 16letý člověk mužského pohlaví muž? Vágnost a subjektivita Víceznačnost Vágnost a subjektivita významů Je víceznačnost problém? Jsou významy diskrétní, nebo spojité? PLIN021 Sémantická analýza v praxi cn '—Vágnost a subjektivita ° I n —Vágnost a subjektivita významů o ■ Mezi špalkem a židlí, mezi mužem a klukem je dost mezistupňů, na kterých se neshodneme. Jak to, že se vůbec domluvíme? Tradičně vidíme významy odděleně (diskrétně), jsme na to zvyklí ze slovníků, kde jsou významy očíslovány a seřazeny (podle čeho vlastně? Není to chyba? Není rozumnější vidět otesaný špalek jako 10% židli a 90% špalek? Vágnost a subjektivita Víceznačnost Je víceznačnost problém? PLIN021 Sémantická analýza v praxi cn '—Vágnost a subjektivita o Práce se spojitými prostory je složitější a méně intuitivní (méně přirozená?) než s diskrétními prostory. Rada vědců (Aitchison) se přiklání k nějakému odstupňování významu. Odpovídá tomu i psychologická zkušenost: když řeknu „pták", představíte si kosa nebo pěnkavu, těžko si někdo ihned vybaví pštrosa nebo kiviho. Kos nebo pěnkava jsou u nás „v centru" (jsou prototypem ptáka). Toto centrum ale asi bude kulturně nebo geograficky závislé... Vágnost a subjektivita Víceznačnost Je víceznačnost problém? Vágnost a subjektivita významů Wittgensteinův příklad: hra - deskové hry, karetní hry, míčové hry, Olympijské hry, dětské hry ... Co mají společného? zábava, soutěž, vítězství, dovednost ... rodinná podobnost - stavba těla, barva očí, temperament ... E. Rosch ukázala, že kategorie jsou často organizovány okolo typických reprezentantů.[Langacker, 1987] □ Vágnost a subjektivita významů PLIN021 Sémantická analýza v praxi WittgonfiteinŮv přiklad: hra - dtókav* hry, karetní hry, míčoví hry, cn '—Vágnost a subjektivita Ca mají stříhá? 2013-02 '—Vágnost a subjektivita významů W. připodobnil významovou podobnost k rodové podobnosti. Existuje, ale přesně a obecně ji popsat je velký problém. Vágnost a subjektivita Víceznačnost Je víceznačnost problém? Víceznačnost, homonymie, polysémie existuje na různých úrovních: přípony, koncovky, slova, slovní spojení, věty • homonymie - náhodný jev: úplná h. (líčit, kolej) a částečná h. (stát, los ...) • polysémie - přirozený jev: kohout, strom, kulhat ... Vágnost a subjektivita Víceznačnost Víceznačnost, homonymie, polysémie Je víceznačnost problém? Jak rozeznat polysémii od úplné homonymie? Nevíme. Záleží na tom? PLIN021 Sémantická analýza v praxi cn '—Víceznačnost cŇ ° I co —Víceznačnost, homonymie, polysémie o cn Někdy je velice snadné homonymii a polysémii rozeznat. Tam, kde k přenesení významu došlo dávno, nebo se přenesl „daleko", h. a p. může rozeznat jen expert. Pro počítačové zpracování není rozdíl mezi h. a p. důležitý, proto často mluvíme o víceznačnosti (ambiguity), aniž bychom specifikovali, jak vznikla. Později si ukážeme, že můžeme „vzdálenost" významů docela dobře spočítat. Vágnost a subjektivita Víceznačnost Je víceznačnost problém? Je víceznačnost problém v N LP? rychlý =4> fast auto car rychlé auto =4> fast car vysoký =4> high škola school vysoká škola =4> university? PLIN021 Sémantická analýza v praxi '—Je víceznačnost problém? '—Je víceznačnost problém v N LP? o cn rychlé auto - auto, které zrovna jede rychle; auto, které může jet velmi rychle; auto, na které můžeme rychle vydělat peníze? vysoká škola - univerzita; škola, jejíž budova je vysoká? Vágnost a subjektivita Víceznačnost Je víceznačnost problém? Je víceznačnost problém v NLP? Odpověď: jak kdy, záleží na aplikaci PLIN021 Sémantická analýza v praxi '—Je víceznačnost problém? '—Je víceznačnost problém v N LP? Bohužel nedokážeme ani přesně stanovit, kdy je víceznačnost problém. Přesněji řečeno dokážeme to až pro konkrétní výrazy, ne obecně. Vágnost a subjektivita Víceznačnost Jak rozlišovat významy (sense)? Kolik významů má slovo kočka? • SSJČ: 7 • SSČ: 2 • PSJČ: 10 • Slovník českých synonym: 4 • Český WordNet: 3 PLIN021 Sémantická analýza v praxi cn '—Je víceznačnost problém? OJ o i oo 1—Jak rozlišovat významy (sense)? o ukázka z DebDictu: kohoutek Vágnost a subjektivita Víceznačnost Jak rozlišovat významy (sense)? Je víceznačnost problém? Praktické problémy: granularita a užívání Jakou granularitu vlastně po aplikacích požadujeme? Požadujeme, aby aplikace „znaly" všechny významy, nebo jen ty, které se běžně užívají? PLIN021 Sémantická analýza v praxi '—Je víceznačnost problém? '—Jak rozlišovat významy (sense)? o cn Nabízí se možnost úplně vynechat významy, které v korpusu nenajdeme. Dostáváme se tady ale k věčnému problému korpusové lingvistiky - jak velkou část jazyka korpusy pokrývají? Neriskovali bychom vynecháním nepoužívaného významu situaci, že něco důležitého přehlédneme? Vágnost a subjektivita Víceznačnost Je víceznačnost problém? Granularita významu (sense): kočka • 1. malá kočkovitá šelma, chovaná v domácnostech • 2. malá n. středně velká šelma s hustým kožichem; zool. rod Felis • 3. samice kočkovité šelmy vůbec • 4. ob. kožišina na límci, kolem krku n. ramen • 5. kocovina (Haš.) • 6. věc připomínající někt. vlastnost kočky • 7. druh důtek Vágnost a subjektivita Víceznačnost Je víceznačnost problém? Granularita významu (sense): kočka • 2. malá n. středně velká šelma s hustým kožichem; zool. rod Felis • 1. malá kočkovitá šelma, chovaná v domácnostech • 3. samice kočkovité šelmy vůbec • 4. ob. kožišina na límci, kolem krku n. ramen • 5. kocovina (Haš.) • 6. věc připomínající někt. vlastnost kočky • 7. druh důtek Vágnost a subjektivita Víceznačnost Je víceznačnost problém? Granularita významu (sense): kočka • 2. malá n. středně velká šelma s hustým kožichem; zool. rod Felis • 1. malá kočkovitá šelma, chovaná v domácnostech • 3. samice kočkovité šelmy vůbec • 4. ob. kožišina na límci, kolem krku n. ramen • 5. kocovina (Haš.) • 6. věc připomínající někt. vlastnost kočky • 7. druh důtek Vágnost a subjektivita Víceznačnost Je víceznačnost problém? Granularita významu (sense): kočka • 2. malá n. středně velká šelma s hustým kožichem; zool. rod Felis • 1. malá kočkovitá šelma, chovaná v domácnostech • 3. samice kočkovité šelmy vůbec • 4. ob. kožišina na límci, kolem krku n. ramen • 6. věc připomínající někt. vlastnost kočky • 5. kocovina (Haš.) • 7. druh důtek PLIN021 Sémantická analýza v praxi '—Je víceznačnost problém? '—Granularita významu (sense): kočka o cn Zdá se, že významy netvoří seznam (jak jsme zvyklí ze slovníků), ale hierarchii. Návrh a tvorba hierarchického slovníku je zajímavé téma na závěrečnou práci. Vágnost a subjektivita Víceznačnost Je víceznačnost problém? 13 Erk, K., McCarthy, D., and Gaylord, N. (2009). Investigations on Word Senses and Word Usages. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, pages 10-18, Suntec, Singapore. Association for Computational Linguistics. i Goddard, C. (2011). Semantic Analysis: A Practical Introduction. Oxford Textbooks in Linguistics. Oxford University Press. 1 Langacker, R. W. (1987). Foundations of cognitive grammar: Theoretical Prerequisites. Stanford University Press, Stanford, CA. Vol 1, 1987(Hardcover), 1999(Paperback). Hi Wittgenstein, L. (1953). Philosophical Investigations. Basil Blackwell, Oxford. Vágnost a subjektivita Víceznačnost Je víceznačnost problém?