Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě PLIN021 Sémantická analýza v praxi OP VK Mezi bohemistikou a informatikou www. p roj e kt- i n o va. cz Zuzana Nevěřilová xpopelkOfi.muni.cz Centrum zpracování přirozeného jazyka, B203 Fakulta informatiky, Masarykova univerzita 11. dubna 2012 Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Rámce - použití Rámce můžeme použít pro desambiguaci slov i celých vět [Laparra and Rigau, 2009]. [Bernard Láníky] stud en t studied [the piano] 5 u a j /■; c t [with Peter Wa 11& ch] t e a ch e r ■ Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Rámce - použití Rámce můžeme použít pro doplnění implicitní (nezmiňované) znalosti. Koupila jsem ojetou felicii. Byly to vyhozené peníze. koupit: • máčinitele člověk/instituce/skupina • mábenefaktora člověk/instituce/skupina • mápředmět výrobek/nemovitost/zvíře/rostlina/přírodnina • máčást činitel dá peníze • máčást benefaktor dá předmět PLIN021 Sémantická analýza v praxi '—Sémantické rámce -Rámce - použití Rámce se používají hodně. FrameNet nebo VerbaLex jsou zajímavé i svým velkým rozsahem, nejsou to jen nějaké experimenty s uměle vybranými jevy. zjistit, jak je na tom český FrameNet (PhD práce J. Materny) Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Ontológie O. je značně nadužívaný pojem, v informatice znamená „formální a explicitní specifikaci sdílené konceptualizace" [Gruber, 2009] • formální • explicitní • sdílené pojmy Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Ontológie • slovník (glosář, inventář pojmů ...) • taxonomie (tezaurus, inventář relací ...) PLIN021 Sémantická analýza v praxi '—Sémantické rámce '—Ontológie Ontológie se skládá z uvedených součástí a má uvedené vlastnosti, jinak ale může mít libovolný „tvar". O. můžeme chápat jako nadpojem pro taxonomie, sémantické sítě atd. Bohužel kvůli nadužívaní termínu v mnoha oblastech se setkáme s odmítáním zařadit určité projekty pod pojem ontológie. Vždy, když se hovoří o o., je potřeba ujasnit si, co tím myslíme. Nám v tomto kurzu bude stačit tento jednoduchý pohled a budeme se soustředit hlavně na různé „tvary" a využití o. Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Taxonomie (stromy) • Aristoteles - kategorie (všech) entit, které mohou lidé vnímat • Porfyrios - uspořádal kategorie • Carl Linné - klasifikace (všech) organismů důležité rysy: uzly jsou třídy (organismů, entit ...), třídy jsou strukturované do stromu (podtřída, nadtřída), uzly na stejné úrovni se vzájemně vylučují (implicitní předpoklad) PLIN021 Sémantická analýza v praxi T—1 1—1 —Taxonomie o cn i—1 '—Taxonomie (stromy) cn opět - každý z nich má pro své dílo zcela jiné motivy, výsledek je ale docela podobný... PLIN021 Sémantická analýza v praxi • Aristotela - katígaiw [viach) - Ta xo n o m i e "ľs; -Taxonomie (stromy) Najít dobré ukázky (obrázky k výše uvedeným). U Aristotela je těch kategorií 10: substance, kvantita, kvalita, relace, místo, čas, bytí na pozici, bytí ve stavu, dělání, ovlivnění Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Porfyriův strom (John. F. Sowa) Supreme genus: Differentiae: Subordinate genera: Differentiae: Subordinate genera: Differentiae: Proximate genera; Differentiae: Species: Individuals: ^JSubstance^^ material immaterial Body Spirit animate^^ inanimate Living Mineral sensitive^ insensitive Animal Plant rational^^ Irrational Human Beast Socrates Plato Aristotle etc. Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Taxonomie (stromy) relace is a relace member of PLIN021 Sémantická analýza v praxi 4-11 '—Taxonomie 2012-0 '—Taxonomie (stromy) Připomenout rozdíl mezi třídou a instancí. Jak je v přirozeném jazyce rozeznáváme? Například podle jména: Pes je mäsožravec, nepohrdne však ani ovocem. Alík má rád švestky. V mnoha případech je to složitější: Americký prezident je zároveň předsedou vlády. Americký prezident má babičku v ohrožení. Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Taxonomie (stromy) a slovníkové definice klasická definice = genus proximum + differentia specifica Počítač je v informatice elektronické zařízení, které zpracovává data pomocí předem vytvořeného programu. Elektronické zařízení je zařízení, jehož funkce závisí na elektrickém proudu nebo na elektromagnetickém poli. PLIN021 Sémantická analýza v praxi '—Taxonomie '—Taxonomie (stromy) a slovníkové definice Nabízí se možnost zpracování encyklopedií jako bází znalostí. Problém je, že málokterá „lidská" encyklopedie je počítačově zpracovatelná. Teď jsme už aspoň ve fázi počítačově čitelných. Existuje definice a definice. Některé jsou vědecké, jiné jsou common-sense. V encyklopediích najdeme častěji ty vědecké. Příklad z Encyclopaedia Britannica: papír je tenký, hladký list z dřevitého vlákna vyrobený na drátěném sítu vs. WordSmyth: papír je tenký materiál, který se používá k psaní nebo balení věcí Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Sémantické sítě sémantická síť = reprezentace lexikálních znalostí [Collins and Quillian, 1969] uzly = entity (třídy nebo instance), jednomu konceptu odpovídá ■ j-_ ____i Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Sémantické sítě • nadtyp-podtyp, is a, is-a, isa (hypo/hyperonymie) • instance třídy, member of • část-celek, has a (holo/meronymie) • upřesnění akce (troponymie) • příčina-následek PLIN021 Sémantická analýza v praxi '—Sémantické sítě -Sémantické sítě Jednotlivé podsítě, kde uzly spojují relace jednoho druhu, jsou stromy (tj. taxonomie). Je to docela logické - v každém druhu relace máme nějaké uspořádání „od nejmenšího po největšf'. Např. nadtyp-podtyp je klasická taxonomie. Část-celek taky, protože objekt x se skládá z částí a a b, část a se skládá z částí man (které jsou patrně menší než a i menší než x). PLIN021 Sémantická analýza v praxi '—Sémantické sítě -Sémantické sítě Důležitou vlastností taxonomií (tj. i těch částí sém. sítě, které tvoří taxonomii) je tranzitivita. Využíváme ji v odvozování (viz dál). Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Odbočka k odvozování Fakt F = tvrzení s pravdivostní hodnotou (např. ptáci létají) Báze znalostí (knowledge base) KB = (pokud možno konzistentní) soubor faktů (např. ptáci létají, vlaštovka je pták) Pokud z KB plyne F a přidáme další fakt takový, že KB je stále konzistentní, je KB monotónní reprezentace.[Allen, 1995] ptáci létají vlaštovka je pták vlaštovka létá Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Odbočka k odvozování ptáci létají tučňák je pták tučňák létá kromě tučňáka ptáci létají tučňák je pták NOT(tučňák létá) kromě tučňáka ptáci létají pštros je pták pštros létá kromě tučňáka, pštrosa, mláďat, mrtvých ptáků, ptáků se zraněnými křídly ... ptáci létají Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Odbočka k odvozování Používáme implicitní pravidlo (default rule), tj. ptáci létají, dokud neřekneme jinak. Uvedeme-li implicitní pravidlo, má přednost před obecným faktem. Ptáci létají, ale tučňák ne. Sémantické rámce Taxonomie Sémantické sítě Sémantické sítě - dědičnost Odvozování Existující sémantické sítě odvozování je monotónní PLIN021 Sémantická analýza v praxi '—Odvozování -Sémantické sítě - dědičnost Praktická ukázka dědičnosti a odvozování: 1. silniční vozidlo má (has part) volant 2. dodávka je (isa) silniční vozidlo 3. dodávka má (has part) volant 4. Mercedes Sprinter je (member of) dodávka 5. Mercedes Sprinter má (has part) volant Podíváme se, jestli uvedené „lezení po větvích" platí pokaždé. Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Sémantické sítě WordNet a EuroWordNet český WordNet Sítě z Wikipedie, dbpedia, ArtNet PLIN021 Sémantická analýza v praxi '—Existující sémantické sítě ° I cn —Sémantické sítě i—i o cn Nachystat ukázky. Český WordNet je jistě dobré téma pro BP. Podob česká dbpedia (která dosud neexistuje). Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě Asociativní sítě Někdy totožné se sémantickými sítěmi, jindy u asociativních sítí neplatí předpoklad, že jeden koncept odpovídá jednomu uzlu. PLIN021 Sémantická analýza v praxi '—Existující sémantické sítě '—Asociativní sítě Uvedený předpoklad typicky neplatí u sítí, které jsou generovány automaticky. PLIN021 Sémantická analýza v praxi '—Existující sémantické sítě '—Asociativní sítě Sémantické (asociativní) sítě se používají velmi mnoho. Je jich mnoho druhů, je mnoho způsobů jejich zápisu, jsou v módě (protože sémantický web je v módě a protože web tvoří také síť). V souvislosti se sémantickým webem můžeme zmínit jazyky sémantického webu: RDF, RDFS, OWL. Podrobněji se jim můžeme věnovat, pokud bude čas (a chuť). Trochu jsme nakousli odvozování. Podle experimentů z kognitivní vědy (dohledat) lidé nemají v hlavě všechno, ale odvozují. Oblast odvozování znalostí ze znalostních bází by vydala na zvláštní seminář, přesto se odvozování nemůžeme úplně vyhnout. Logická reprezentace bývá zpravidla chápána mimo jazyk, přesto cítíme, že je neoddělitelnou součástí promluvy. Sémantické rámce Taxonomie Sémantické sítě Odvozování Existující sémantické sítě i Allen, J. (1995). Natural Language Understanding (2nd ed.). Benjamin-Cummings Publishing Co., Inc., Redwood City, CA, USA. 1 Collins, A. M. and Quillian, M. R. (1969). Retrieval time from semantic memory. Journal of Verbal Learning and Verbal Behavior, 8(2):240-247. i Gruber, T. (2009). Ontology. In Liu, L. and Ózsu, M. T., editors, Encyclopedia of Database Systems, page 1963-1965. Springer Verlag. 1 Laparra, E. and Rigau, G. (2009). Integrating wordnet and framenet using a knowledge-based word sense disambiguation algorithm. In RANLP, Borovets, Bulgaria.