PLIN021 Sémantická analýza v pra OP VK Mezi bohemistikou a informatikou www. p roj e kt- i n ova. cz Zuzana Nevěřilová xpopelkOfi.muni.cz Centrum zpracování přirozeného jazyka, B203 Fakulta informatiky, Masarykova univerzita 18. března 2013 Slabiny WSD Word Sense Disambiguation Měření kvality WSD úkolem WSD je zjistit, jaký význam (z inventáře významů) má slovo ve vstupním textu ukázali jsme si dva reprezentanty metod pro WSD: Leskův algoritmus pracující se slovníkovými definicemi a příklady užití a Yarowského algoritmus strojového učení Slabiny WSD Word Sense Disambiguation: slabiny Měření kvality WSD největší slabinou je inventář významů proto existují jednak snahy vytvořit dobré inventáře, jednak snahy úplně se inventářím vyhnout (HyperLex, [Véronis, 2004]) Slabiny WSD Měření kvality WSD Word Net jako inventář významů? Princeton WordNet - ukázka český WordNet - ukázka Slabiny WSD Měření kvality WSD HyperLex, grafy • „malé světy" (Milgram, 1967) • graf • vážené hrany A-B: • w — O, pokud se slova vyskytují vždy spolu • w — 1, pokud se nikdy spolu nevyskytují • wAB = 1 - max[p(A\B), p(B\A)] • rozdělení grafu na podgrafy (NP-těžký problém) Slabiny WSD HyperLex: nalezení kořenového uzlu Měření kvality WSD rivijiTĽ prciihiClioTi iľľigatjon RiůlbaLI match ŕquipe Slabiny WSD HyperLex: nalezení minimálni kostry Měření kvality WSD rivijiTĽ prciihiClioTi iľľigatjon RiůlbaLI match ŕquipe Slabiny WSD Měření kvality WSD Word Sense Disambiguation: shrnutí • všechny algoritmy pro WSD pracují s kolokacemi • všechny pracují s určitým oknem, ve kterém kolokace sledují o PLIN021 Sémantická analýza v praxi '—Slabiny WSD '—Word Sense Disambiguation: shrnutí o CN Ono okno může zásadně ovlivňovat průběhy algoritmů. Není žádná „doporučená velikost" okna. Hlavním důvodem je to, co možná tušíme: různá slova mají různý dopad na význam promluvy. Sledováním velikosti a kvality tohoto okna (tj. kontextu) se budeme zabývat o něco později, až budeme znát také přístupy z úplně opačného konce. Slabiny WSD Měření kvality WSD Word Sense Disambiguation: měření kvality soutěž SENSEVAL (www.senseval.org) • vyhodnocení systémů pro WSD • od roku 1998 (Senseval-1, -2, -3, Semeval-2007, -2010) • od Semeval-1 jsou úkoly různé (např. přiřazení emoce ke krátkému textu, detekce metonymie ...) • čeština (zatím) chybí • data z proběhlých kol jsou k dispozici PLIN021 Sémantická analýza v praxi 00 1—1 '—Měření kvality WSD ■13007 «10) co o i có 1—Word Sense Disambiguation: měření kvality * data z piobtlilrcli kol jHu k oVlporiCi o CN Cokoli ze Senseval/Semeval je inpirací pro BP nebo referát. Slabiny WSD Měření kvality WSD 3 Veronis, J. (2004). Hyperlex: Lexical cartography for information retrieval. In Computer Speech and Language: Special Issue on Word Sense Disambiguation, page 23.