dbPedia WordNety VerbaLex SUMO/MILO Skripty PLIN021 Sémantická analýza v praxi OP VK Mezi bohemistikou a informatikou www. p roj e kt- i n o va. cz Zuzana Nevěřilová xpopelkOfi.muni.cz Centrum zpracování přirozeného jazyka, B203 Fakulta informatiky, Masarykova univerzita 11. dubna 2012 dbPedia WordNety VerbaLex SUMO/MILO Skripty dbPedia WordNety VerbaLex SUMO/MILO Skripty dbPedia WordNety VerbaLex SUMO/MILO Skripty dbPedia http://cs.dbpedia.org • sémantická síť automaticky vytvořená z Wikipedie • od března 2012 i česká verze (zatím ve zrodu) • jak získat vlastnosti (Property) a jejich hodnoty (Value)? • co je uzel? • co je hrana? • synonymie? dbPedia WordNety VerbaLex SUMO/MILO Princeton WordNet (PWN) • verze 1.5, 1.6, 1.7 • verze 2.0, 2.1 • verze 3.0 dbPedia WordNety VerbaLex SUMO/MILO Skripty EuroWordNet (EWN): rozdíly oproti PWN • každý národní WordNet budovaný nezávisle na ostatních jazycích • každý synset v národních WordNetech je propojený s PWN pomocí InterLingual Index (ILI) • jednotlivé stromy jsou spojeny pomocí vrcholové ontológie, která je společná všem WordNetům WordNety SUMO/MILO EuroWordNet (EWN) Vrcholová ontológie (Top ontology) Top IstOrd er Entity _L *-í—1-v~ FiuictÍDn Comp osition Origin FDim 2ndOiderEnlii)' *-1-* SituationTyp e Situation Comp o ne ni Covering Part Groif) N^ral Object Siatie Dynamic Physical Location Experience 1 1 Living Human skin hair body-covering body part cell muscle organ > church company institute organisation party union human adult adult fe male adult male child native " vi Direction distanc e spatial property spatial relation course path of position j divide locomotion motion desire disturbance emotion fe eling humor feasance [Association, 2012] dbPedia WordNety VerbaLex SUMO/MILO EuroWordNet (EWN): vrcholová ontologie • entity 1. řádu - konkrétní objekty a substance • entity 2. řádu - stavy, situace, události • entity 3. řádu - myšlenky, znalosti dbPedia WordNety VerbaLex SUMO/MILO Skripty EuroWordNet (EWN): základní koncepty Základní koncepty (Base Concepts) • 66 konkrétních synsetů (podstatná jména) 98 abstraktních synsetů (63 podstatných jmen a 35 sloves) dbPedia WordNety VerbaLex SUMO/MILO EuroWordNet (EWN), BalkaNet a další WordNety pro jiné jazyky než angličtina (ukázka) http://www.globalwordnet.org dbPedia WordNety VerbaLex SUMO/MILO Verba Lex Pokrytí VerbaLexu a propojení s WordNetem: • V.: 19158 rámců • V. odkazuje na 811 různých synsetů ve WN • není to zbytečně moc? • jak ověřit, že rámec odkazuje na ten správný synset? dbPedia WordNety VerbaLex SUMO/MILO Skripty Suggested Upper Merged Ontology (SUMO) • „největší volná (formální) ontológie (cca 25 000 konceptů a 80 000 axiomů) • SUMO - „horní" vrstva • Mld-Level Ontology (MILO) - „střední" vrstva • specializované domény (vojenství, ekonomie, geografie apod.) jsou pokryté jinými ontologiemi dbPedia WordNety VerbaLex SUMO/MILO Suggested Upper Merged Ontology (SUMO) ukázka z www.ontologyportal.org dbPedia WordNety VerbaLex SUMO/MILO Skripty Skripty, scénáře (Abelson) skript: v restauraci, prvky skriptu mohou být rámce • host (člověk, není v zaměstnání, má u sebe peníze, sedí na židli, jí jídlo) • číšník (člověk, je v zaměstnání) • kuchař (člověk, je v zaměstnání) • místnost (obsahuje židle, stoly, příjemnou teplotu) • jídlo (uvařil kuchař, donesl číšník hostovi) • peníze (zaplatil host číšníkovi za jídlo) „Pepovi u večeře zazvonil telefon. Chvíli poslouchal, pak položil telefon a opustil restauraci." dbPedia WordNety VerbaLex SUMO/MILO Skripty Skripty, scénáře (Abelson) „Pepovi u večeře zazvonil telefon. Chvíli poslouchal, pak položil telefon a opustil restauraci." Předpokládáme, že mezi „položil telefon" a „opustil restauraci" se stalo: • Číšník donesl účet. • Pepa zaplatil. • Pepa se oblékl. dbPedia WordNety VerbaLex SUMO/MILO Skripty Skripty, scénáře (Abelson) skript: v restauraci Usuzování v rámcích může být implicitní (podobné jako v sém. sítích) i speciální pro daný rámec. Usuzování v rámcích může být nemonotónní. Příklad: host zaplatil =4> číšník má u sebe peníze Příklad: každý host musí zaplatit svoji útratu. host zaplatil útratu za jiného hosta =4> jiný host nemusí platit svoji útratu dbPedia WordNety VerbaLex SUMO/MILO Skripty, scénáře (Abelson) skript: v restauraci Skripty popisují typické situace. Stereotypická je i informace o zaplněnosti slotů, např. restaurace musí mít číšníka. Pořadí ve scénáři je chronologické: host přijde do restaurace, objedná si jídlo, kuchař jídlo uvaří, host sní jídlo, host zaplatí číšníkovi... Můžeme nějak měřit vybočení ze stereotypu? dbPedia WordNety VerbaLex SUMO/MILO I Association, T. G. W. (2012). Eurowordnet top ontology. [online; accessed 2012-04-11 ].