PA153 Počítačové zpracování přirozeného jazyka 11 - Znalosti, parafráze, odvozování Karel Pala, Zuzana Nevěřilová Centrum ZPJ, Fl MU, Brno 30. listopadu 2015 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 1/22 Q Znalosti Q Parafráze Q Přirozená logika Q Belief-Desire-Intention Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 2/22 Znalosti a odvozování • znalosti o jazyce (lexikon, gramatické kategorie, syntax) • znalosti o světě Znalostní báze (knowledge base, KB): obsahuje fakta, která jsou premisami v deduktivním odvozování Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Znalosti a odvozování • znalosti o jazyce (lexikon, gramatické kategorie, syntax) • znalosti o světě Znalostní báze (knowledge base, KB): obsahuje fakta, která jsou premisami v deduktivním odvozování lidmi čitelné KB: how-to, FAQ, recepty, návody, diagramy strojově čitelné KB: ontológie (S U M O-MILO), sémantické sítě (WordNet), dbPedia, ConceptNet Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Znalosti a odvozování • znalosti o jazyce (lexikon, gramatické kategorie, syntax) • znalosti o světě Znalostní báze (knowledge base, KB): obsahuje fakta, která jsou premisami v deduktivním odvozování lidmi čitelné KB: how-to, FAQ, recepty, návody, diagramy strojově čitelné KB: ontológie (S U M O-MILO), sémantické sítě (WordNet), dbPedia, ConceptNet Reprezentace znalostí (knowledge representation): znalostní báze + odvozovací pravidla Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Deklarativní vs. procedurální znalost Deklarativní (formálně verifikovatelná, obecně platná) vs. procedurální (implicitní, méně obecná) Příklad: robot, který se umí pohybovat po budově procedurální znalost: ,,dojdi do místnosti" deklarativní znalost: mapa objektu + základní kroky 11 - Parafráze, odvozování Deduktivní odvozování: monotónní a nemonotónní odvozování [Allen, 1995] KB: Ptáci létají. Vrabec je pták. Vrabec létá. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 5/22 Deduktivní odvozování: monotónní a nemonotónní odvozování [Allen, 1995] KB: Ptáci létají. Vrabec je pták. Pštros je pták. Vrabec létá. Pštros létá. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 5/22 Deduktivní odvozování: monotónní a nemonotónní odvozování [Allen, 1995] KB: Ptáci létají. Vrabec je pták. Pštros je pták. Pštros nelétá. Vrabec létá. Pštros létá. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 5/22 Znalosti o světě • encyklopedické (Jaké je hlavní město ČR?) • common-sense (Jak je vhodné obléci se 30. listopadu 2015?) neostrá hranice počítačově zpracovatelné zdroje encyklopedických znalostí: 9 encyklopedie o znalostní hry o dbPedia: strojově zpracovaná Wikipedie Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 6/22 Common sense a odvozování common sense: sdílená znalost, ne vždy v souladu s (vědeckými) fakty (V noci nesvítí slunce.) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Common sense a odvozování common sense: sdílená znalost, ne vždy v souladu s (vědeckými) fakty (V noci nesvítí slunce.) Cheap apartments are rare. Rare things are expensive. Cheap apartments are expensive. Deduktivní odvozování není možné použít vždy (ve skutečnosti skoro nikdy). Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 7/22 Common sense: nejznámější projekty • CyC: vývoj od r. 1985(1), reprezentace pomocí vlastního jazyka CyCL, mikroteorie • ConceptNet: syntaktická analýza OpenMind, propojení s Wiktionary 9 Never-ending Language Learning (NELL): prochází web a odvozuje, občas nutný lidský zásah ("I deleted my Internet cookies", "I deleted my files" =4> soubor je stejná kategorie jako pečivo) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 8/22 Parafráze Parafráze: promluva x je parafrází promluvy y, pokud x a y mají stejný nebo podobný význam. Tento most postavila Nejlepší firma s.r.o. Nejlepší firma s.r.o. postavila tento most. Stavitelem tohoto mostu je Nejlepší firma s.r.o. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 9/22 Přesnější definice Textové vyplývání ^ logické vyplývání Z text t textově vyplývá hypotéza h (t =4> h), pokud lidé, kteří přečtou t, odvodí, že A? je nejspíš pravda. [Dagan et al., 2007] parafráze = h ^ t A t ^ h Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 / 22 Rozpoznávaní textových vyplývání/parafrází hledání podobností: • na řetězcích (např. Levenshteinova vzdálenost) • na slovech o na slovech s použitím znalostní báze (napr. slovník synonym) o na syntaktických stromech • kombinace předchozích Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 11 / 22 Rozpoznávaní textových vyplývání/parafrází využití: • odpovídání na otázky • chatbots • detekce plagiátů • výuka • automatická sumarizace textu o doplnění implicitní znalosti ► logická analýza textu ► znalostní modely v umělé inteligenci Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 12 / 22 Korpusy parafrází • Microsoft Research Paraphrase Corpus 9 The Boeing-Princeton-ISI (BPI) Textual Entailment Test Suite2 • Multiple Translation Chinese Corpus3 • The SEMILAR Corpus: The SEMantic SimlLARity Corpus4 9 Paraphrase Discovery5 1http://research.microsoft.com/en-us/downloads/ 607dl4d9-20cd-47e3-85bc-a2f65cd28042/ http://www.cs.utexas.edu/users/pclark/bpi-test-suite/ 3https://catalog.ldc.upenn.edu/LDC2002T01 4http://deeptutor2.memphis.edu/Semilar-Web/public/semilar-api.html 5http://nip.cs.nyu.edu/paraphrase/ Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 13 / 22 Paraphrase Discovery vztahy mezi pojmenovanými entitami v korpusových datech: [lemma=,,Hannibal"] [] * [lemma=,,Hopkins"] within ztvárnit jako hrát odmítnout s na roli si hrající se objevil v podání představoval alias působí v roli se svým přítelem ( po boku Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Generovaní parafrází Základní způsoby parafrázování: 9 aktivní-pasivní větná konstrukce: Tento most byl postaven Nejlepší firmou s.r.o. 9 synonyma: Tuto lávku postavila Nejlepší firma s.r.o. o hyperonyma: Tuto stavbu postavila Nejlepší firma s.r.o. o substantivizace, deverbalizace: Stavitelem tohoto mostu je Nejlepší firma s.r.o. • kombinace: Tento most byl vytvořen Nejlepší firmou s.r.o. Podrobněji v [Bhagat and Hovy, 2013]. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 15 Přirozená logika [Lakoff, 1970] nástrojem této logiky je přirozený jazyk • monotonicita (monotonicity): víc než tisíc je hodně Mám víc než tisíc knih. Mám hodně knih. Nemám víc než tisíc knih. Nemám hodně knih. • obsažení/omezení (containment): červené auto je auto Po ulici jelo červené auto. Po ulici jelo auto. Po ulici nejelo červené auto. Po ulici nejelo auto. 9 exkluze (exclusion): pes není kočka Na dvorku seděl pes. Na dvorku seděla kočka. Na dvorku neseděl pes. Na dvorku neseděla kočka. odvození vs. presupozice: Mark David Chapman zastřelil Johna Lennona. =4> John Lennon nežije. Brazílie vyhrála mistrovství světa. =4> Brazílie hrála na mistrovství světa. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 16 / 22 Přirozená logika [Lakoff, 1970] nástrojem této logiky je přirozený jazyk • monotonicita (monotonicity): víc než tisíc je hodně Mám víc než tisíc knih. Mám hodně knih. Nemám víc než tisíc knih. Nemám hodně knih. • obsažení/omezení (containment): červené auto je auto Po ulici jelo červené auto. Po ulici jelo auto. Po ulici nejelo červené auto. Po ulici nejelo auto. 9 exkluze (exclusion): pes není kočka Na dvorku seděl pes. Na dvorku seděla kočka. Na dvorku neseděl pes. Na dvorku neseděla kočka. odvození vs. presupozice: Mark David Chapman zastřelil Johna Lennona. =4> John Lennon nežije. Mark David Chapman nezastrelil Johna Lennona. 7^ John Lennon nežije. Brazílie vyhrála mistrovství světa. =4> Brazílie hrála na mistrovství světa. Brazílie nevyhrála mistrovství světa. =4> Brazílie hrála na mistrovství světa. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 16 / 22 BDI: Znalost nebo domněnka? KB: Ptáci létají. Vrabec je pták. Pštros je pták. Pštros nelétá. Mrtvý vrabec nelétá. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka BDI: Znalost nebo domněnka? KB: Ptáci létají. Vrabec je pták. Pštros je pták. Pštros nelétá. Mrtvý vrabec nelétá. Znalostní báze se mění. Některé znalosti mají poměrně krátké trvání (Nejsem unavená. Je půl čtvrté.) V umělé inteligenci se používá termín domněnka (belief) [Marik et al., 2001]. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Umělá inteligence: modely uvažování inteligentních agentů Intencionálni systém: agent umí „uvažovat" o svých znalostech. Je schopen přemýšlet o svých přáních a jak jich lze dosáhnout [Mařík et al., 2001]. Mentální postoje: 9 informační postoje - znalosti, fakta získaná senzory o proaktivní postoje - cíle, plány, závazky Psychologické modely lidského uvažování [Bratman, 1987]: kognitivní stavy, afektivní stavy, konnativní stavy. Domněnka-přání-záměr: softwarový model pro aktivní inteligentní agenty Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 18 / 22 Umělá inteligence: belief-desire-intention Záměr, Intention Aby bylo možné vytvořit aktivního agenta, je třeba, aby ,,věděl, co chce" (intention). Pokud ví, co chce (tj. má záměr), vytvoří si agent nějaký plán (lokální cíl). Příklad: najdi cestu z domu X na Fl Int a (f) agent si vybírá vždy cesty tak, aby na nich někdy platila (f) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 19 / 22 Umělá inteligence: belief-desire-intention Záměr, Intention Aby bylo možné vytvořit aktivního agenta, je třeba, aby ,,věděl, co chce" (intention). Pokud ví, co chce (tj. má záměr), vytvoří si agent nějaký plán (lokální cíl). Příklad: najdi cestu z domu X na Fl Int a (f) agent si vybírá vždy cesty tak, aby na nich někdy platila (f) Přání, Desire Přání vyjadřuje agentovu motivaci. Motivovaný agent má cíle (cílové stavy). Cíle by neměly být v rozporu. Příklad: najdi nej kratší cestu z domu X na Fl Des a (f) pravdivost formule 0 je cílem agenta a Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 19 / 22 Umělá inteligence: belief-desire-intention Záměr, Intention Aby bylo možné vytvořit aktivního agenta, je třeba, aby ,,věděl, co chce" (intention). Pokud ví, co chce (tj. má záměr), vytvoří si agent nějaký plán (lokální cíl). Příklad: najdi cestu z domu X na Fl Int a (f) agent si vybírá vždy cesty tak, aby na nich někdy platila (f) Přání, Desire Přání vyjadřuje agentovu motivaci. Motivovaný agent má cíle (cílové stavy). Cíle by neměly být v rozporu. Příklad: najdi nej kratší cestu z domu X na Fl Des a (f) pravdivost formule 0 je cílem agenta a Belief, Domněnka Domněnka představuje agentovu bázi znalostí. Informace mohou být pravdivé, agent v ně v daný okamžik věří a chápe je jako nedokonalé přiblížení obrazu okolního světa [Mařík et al., 2001]. Příklad: najdi nej kratší cestu z domu na Fl. Mostecká je neprůjezdná. Bel a (f) agent a věří v pravdivost formule (f) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 19 / 22 Umělá inteligence: belief-desire-intention Záměr, Intention Aby bylo možné vytvořit aktivního agenta, je třeba, aby ,,věděl, co chce" (intention). Pokud ví, co chce (tj. má záměr), vytvoří si agent nějaký plán (lokální cíl). Příklad: najdi cestu z domu X na Fl Int a (f) agent si vybírá vždy cesty tak, aby na nich někdy platila (f) Přání, Desire Přání vyjadřuje agentovu motivaci. Motivovaný agent má cíle (cílové stavy). Cíle by neměly být v rozporu. Příklad: najdi nej kratší cestu z domu X na Fl Des a (f) pravdivost formule 0 je cílem agenta a Belief, Domněnka Domněnka představuje agentovu bázi znalostí. Informace mohou být pravdivé, agent v ně v daný okamžik věří a chápe je jako nedokonalé přiblížení obrazu okolního světa [Mařík et al., 2001]. Příklad: najdi nej kratší cestu z domu na Fl. Mostecká je neprůjezdná. Bel a (f) agent a věří v pravdivost formule (f) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 19 / 22 Odkazy I Allen, J. (1995). Natural Language Understanding (2nd ed.). Benjamin-Cummings Publishing Co., Inc., Redwood City, CA, USA Bhagat, R. and Hovy, E. (2013). What is a paraphrase? Computational Linguistics, 39(3):463-472. Bratman, M. (1987). Intention, plans, and practical reason. Harvard University Press. Dagan, I., Roth, D., and Zanzotto, F. M. (2007). Tutorial notes. In 45th Annual Meeting of the Association of Computational Linguistics, Prague, Czech Republic. The Association of Computational Linguistics. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Odkazy II Lakoff, G. (1970). Linguistics and natural logic. Synthese, 22(1-2):151-271. Marik, V., Štěpánková, 0., and Lažanský, J. (2001). Umělá inteligence. Number svazek 3 in Umělá inteligence. Academia. Pease, A. (2011). Ontology: A Practical Guide. Articulate Software Press. Schank, R. C. and Abelson, R. P. (1977). Scripts, Plans, Goals, and Understanding: An Inquiry Into Human Knowledge Structures (Artificial Intelligence). Lawrence Erlbaum Associates, 1 edition. Published: Hardcover. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Odkazy III Smith, B. (1995). Formal ontology, common sense and cognitive science. International Journal of Human-Computer Studies, pages 641-667 Wasserman, K. (1985). Physical object representation and generalization: A survey of programs for semantic-based natural language processing. AI Magazine, 5(4):28-42. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka