PA153 Počítačové zpracování přirozeného jazyka 11 - Znalosti, parafráze, odvozování Karel Pala, Marek Med veď Centrum ZPJ, Fl MU, Brno 5. prosince 2018 Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 1/34 Q Znalosti Q Odvozování Q Parafráze Q Přirozená logika Q Belief-Desire-Intention Q Použití Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka Znalosti • znalosti o jazyce (lexikon, gramatické kategorie, syntax) • znalosti o světě Znalostní báze (knowledge base, KB): obsahuje fakta, která jsou premisami v deduktivním odvozování lidmi čitelné KB: how-to, FAQ, recepty, návody, diagramy strojově čitelné KB: ontológie (SUMO-MILO), sémantické sítě (WordNet), dbPedia Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka Reprezentace znalosti Deklarativní produkčný systém Reprezentace znalosti Procedurální predikátová logika sémantické sítě Rámcové rámce Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 4 Znalosti Deklarativní: • znalosti zaznamenané v určitém jazyce • uložené v určitém zdroji (databáza) e jednoduché odvozován explicitná • formálně verifikovatelná • obecně platná Procedurálni: • vyjádření pomocí procedury • hodnota se zjistí provedením procedury o implicitní Example (pohyb robota po místnosti) Deklarativní: pohyb robota + mapa Procedurální: príď na pozíciu (X,Y) Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 5/34 Znalosti Rámce o kombinace deklarativního a procedurálního přístupu 9 rámce samotné sú deklaratívne o sloty v rámcoch sú procedurálne Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 6/34 Odvozování Reprezentace znalostí (knowledge representation): znalostní báze + odvozovací pravidla Dva druhy: o deduktivní odvozování nededuktivní odvozování Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka Deduktivní odvozování: monotónní a nemonotónní odvozování [Allen, 1995] KB: Ptáci létají. Vrabec je pták. Vrabec létá. Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 8/34 Deduktivní odvozování: monotónní a nemonotónní odvozování [Allen, 1995] KB: Ptáci létají. Vrabec je pták. Pštros je pták. Vrabec létá. Pštros létá. Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 8/34 Deduktivní odvozování: monotónní a nemonotónní odvozování [Allen, 1995] KB: Ptáci létají. Vrabec je pták. Pštros je pták. Pštros nelétá. Vrabec létá. Pštros létá. Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 8/34 Znalosti o světě • encyklopedické (Jaké je hlavní město ČR?) • common-sense (Jak je vhodné obléci se 5. prosince 2018?) počítačově zpracovatelné zdroje encyklopedických znalostí: • encyklopedie o znalostní hry o dbPedia: strojově zpracovaná Wikipedie Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 9/34 Common sense a odvozování common sense: sdílená znalost, ne vždy v souladu s (vědeckými) fakty (V noci nesvítí slunce.) Cheap apartments are rare. Rare things are expensive. Cheap apartments are expensive. Deduktivní odvozování není možné použít vždy (ve skutečnosti skoro nikdy). Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 10 / 34 Common sense: nejznámější projekty • Never-ending Language Learning (NELL): ► prochází web a odvozuje (hledá spojení mezi věcmi, které zná a věcmi, které najde prostřednictvím vyhledávání) ► pr. Pikes Peak ► občas nutný lidský zásah ("I deleted my (Internet) cookies", "I deleted my files" ^> soubor je stejná kategorie jako pečivo) o CyC: vývoj od r. 1985(!) ► reprezentace pomocí vlastního jazyka CyCL ► pokus o zavedení obsáhlé ontológie a znalostní báze ► cíl: expresivní jazyk, ontológie v rozumné úrovni detailu, znalostní báze, rychlý inferenční systém ► ontológia: 1,5 M tokenov ► KB: 24,5 M pravidiel ► inferenčný systém: dedukcia, indukcia, machine learning • ConceptNet: syntaktická analýza OpenMind, propojení s Wiktionary Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 11 / 34 Parafráze Parafráze: promluva x je parafrází promluvy y, pokud x a y mají stejný nebo podobný význam. Tento most postavila Nejlepší firma s.r.o. Nejlepší firma s.r.o. postavila tento most. Stavitelem tohoto mostu je Nejlepší firma s.r.o. 11 - Parafráze, odvozování 12 Přesnější definice Textové vyplývání ^ logické vyplývání Z text t textově vyplývá hypotéza h (t =4> h), pokud lidé, kteří přečtou t, odvodí, že A? je nejspíš pravda. [Dagan et al., 2007] parafráze = h ^ t A t ^ h Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 13 / 34 Rozpoznávaní textových vyplývání/parafrází hledání podobností: • na řetězcích (např. Levenshteinova vzdálenost) • na slovech o na slovech s použitím znalostní báze (napr. slovník synonym) o na syntaktických stromech • kombinace předchozích Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozován Rozpoznávaní textových vyplývání/parafrází využití: • odpovídání na otázky • chatbots • detekce plagiátů • výuka • automatická sumarizace textu o doplnění implicitní znalosti ► logická analýza textu ► znalostní modely v umělé inteligenci 11 - Parafráze Korpusy parafrází • Microsoft Research Paraphrase Corpus 9 The Boeing-Princeton-ISI (BPI) Textual Entailment Test Suite2 • Multiple Translation Chinese Corpus3 • The SEMILAR Corpus: The SEMantic SimlLARity Corpus4 9 Paraphrase Discovery5 1http://research.microsoft.com/en-us/downloads/ 607dl4d9-20cd-47e3-85bc-a2f65cd28042/ http://www.cs.utexas.edu/users/pclark/bpi-test-suite/ 3https://catalog.ldc.upenn.edu/LDC2002T01 4http://deeptutor2.memphis.edu/Semilar-Web/public/semilar-api.html 5http://nip.cs.nyu.edu/paraphrase/ Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 16 / 34 Paraphrase Discovery vztahy mezi pojmenovanými entitami v korpusových datech: [lemma=,,Hannibal"] [] * [lemma=,,Hopkins"] within ztvárnit jako hrát odmítnout s na roli si hrající se objevil v podání představoval alias působí v roli se svým přítelem ( po boku Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka Generovaní parafrází Základní způsoby parafrázování: 9 aktivní-pasivní větná konstrukce: Tento most byl postaven Nejlepší firmou s.r.o. 9 synonyma: Tuto lávku postavila Nejlepší firma s.r.o. o hyperonyma: Tuto stavbu postavila Nejlepší firma s.r.o. o substantivizace, deverbalizace: Stavitelem tohoto mostu je Nejlepší firma s.r.o. • kombinace: Tento most byl vytvořen Nejlepší firmou s.r.o. Podrobněji v [Bhagat and Hovy, 2013]. Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 18 Přirozená logika [Lakoff, 1970] nástrojem této logiky je přirozený jazyk • monotonicita (monotonicity): víc než tisíc je hodně Mám víc než tisíc knih. Mám hodně knih. Nemám víc než tisíc knih. Nemám hodně knih. • obsažení/omezení (containment): červené auto je auto Po ulici jelo červené auto. Po ulici jelo auto. Po ulici nejelo červené auto. Po ulici nejelo auto. 9 exkluze (exclusion): pes není kočka Na dvorku seděl pes. Na dvorku seděla kočka. Na dvorku neseděl pes. Na dvorku neseděla kočka. odvození vs. presupozice (podprahové informace): Mark David Chapman zastřelil Johna Lennona. =4> John Lennon nežije. Brazílie vyhrála mistrovství světa. =4> Brazílie hrála na mistrovství světa. 11 - Parafráze, odvozování Přirozená logika [Lakoff, 1970] nástrojem této logiky je přirozený jazyk • monotonicita (monotonicity): víc než tisíc je hodně Mám víc než tisíc knih. Mám hodně knih. Nemám víc než tisíc knih. Nemám hodně knih. • obsažení/omezení (containment): červené auto je auto Po ulici jelo červené auto. Po ulici jelo auto. Po ulici nejelo červené auto. Po ulici nejelo auto. 9 exkluze (exclusion): pes není kočka Na dvorku seděl pes. Na dvorku seděla kočka. Na dvorku neseděl pes. Na dvorku neseděla kočka. odvození vs. presupozice (podprahové informace): Mark David Chapman zastřelil Johna Lennona. =4> John Lennon nežije. Mark David Chapman nezastrelil Johna Lennona. 7^ John Lennon nežije. Brazílie vyhrála mistrovství světa. =4> Brazílie hrála na mistrovství světa. Brazílie nevyhrála mistrovství světa. =4> Brazílie hrála na mistrovství světa. Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 19 / 34 BDI: Znalost nebo domněnka? KB: Ptáci létají. Vrabec je pták. Pštros je pták. Pštros nelétá. Mrtvý vrabec nelétá. Znalostní báze se mění. Některé znalosti mají poměrně krátké trvání (Nejsem unavená. Je půl čtvrté.) V umělé inteligenci se používá termín domněnka (belief) [Marik et al., 2001]. Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka Umělá inteligence: modely uvažování inteligentních agentů Intencionálni systém: agent umí „uvažovat" o svých znalostech. Je schopen přemýšlet o svých přáních a jak jich lze dosáhnout [Mařík et al., 2001]. Mentální postoje: 9 informační postoje - znalosti, fakta získaná senzory o proaktivní postoje - cíle, plány, závazky Psychologické modely lidského uvažování [Bratman, 1987]: kognitivní stavy, afektivní stavy, konnativní stavy. Domněnka-přání-záměr: softwarový model pro aktivní inteligentní agenty Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka Umělá inteligence: belief-desire-intention Záměr, Intention Aby bylo možné vytvořit aktivního agenta, je třeba, aby ,,věděl, co chce" (intention). Pokud ví, co chce (tj. má záměr), vytvoří si agent nějaký plán (lokální cíl). Příklad: najdi cestu z domu X na Fl Int a (f) agent si vybírá vždy cesty tak, aby na nich někdy platila (f) Přání, Desire Přání vyjadřuje agentovu motivaci. Motivovaný agent má cíle (cílové stavy). Cíle by neměly být v rozporu. Příklad: najdi nej kratší cestu z domu X na Fl Des a (f) pravdivost formule 0 je cílem agenta a Belief, Domněnka Domněnka představuje agentovu bázi znalostí. Informace mohou být pravdivé, agent v ně v daný okamžik věří a chápe je jako nedokonalé přiblížení obrazu okolního světa [Mařík et al., 2001]. Příklad: najdi nej kratší cestu z domu na Fl. Mostecká je neprůjezdná. Bel a (f) agent a věří v pravdivost formule (f) Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 22 / 34 Databáze SQAD 0002 question question answer extraction answer extraction answer selection answer selection text metadata metadata source URL source URL Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 23 / 34 Otázka word/token lemma tag Jak jak kôeAdl se sebe k3xPyFc4 jmenuje jmenovat k5eAalmlp3nS světově světově kôeAdl nej rozšířenější rozšířený k2eAgFnScld3 hra hra klgFnScl na na k7c4 hrdiny hrdina klgMnPc4 klx. Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka Odpověď: Dungeons & Dragons Text: Nejrozšířenější světově hranou RPG hrou na hrdiny pak je Dungeons & Dragons. Metadata: (Entity, Entity) Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka Question answering system Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka AQA Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 27 / 34 Reprezentace znalostí Question reformulation: 11 Jak se jmenuje 11 Kdo je ..." osoba ..." reform u I uje na syntactic tree: ID word Dep ID 0 Jak 2 1 se 2 2 jmenuje -1 3 otec spisovatele Jiřího Mouchy 2 • Question type extraction: 11 Kdo byl ..." typu WHO • Main subject and main verb extraction: Jak se jmenuje otec jmenuje (hlavní sloveso) Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka Analýza dotazů (ML based) Kdo w. LSTM layer Dropout LSTM layer je zakladatelem Lidových i novín ? LSTM network Linear layer U s1,1 S1,2 □ □ □ Sk,l □ □ □ score vector of (q_type, a_type) touples (PERSON,PERSON) Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 29 / 34 Analýza dotazů (ML based) ŕ Kdo je zakladatelem Lidových novin word vector embeddi LSTM layer Dropout LSTM layer LSTM network Linear layer s1,1 S1,2 □ □ □ Sk,. □ □ □ S m,n score vector of (q_type, a_type) touples (PERSON,PERSON) Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 30 / 34 Word 2 vec 1.0 0.5 0.0 -0.5 -1.01 -0.8 O'9 q oven q Q refrigerator Q kitchen ovanity Otable Q sink w P) bathroom w Q toilet Q bathtub q faucet q shower i finish O color i paint microwave Q9e , bulb i fan Jed i light O kit 0 charger 0 battery O saw 0 dewalt (tool 0bosch A drill O valve , deck Q garden O hose Q sprinkler , concrete grass -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.3 Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 31 / 34 Hyperonyma question: keyword: hypernyms: rule: 'Jak se jmenovala první manželka Miloše Formana?' (What was the name of the first wife of Miloš Forman?) 'manželka' (wife) ['manželka', jednotlivec', 'osoba', 'bytosť, 'organismus'] (wife, individual, person, being, organism) (PERSON; PERSON) -> "osoba"in keyword.hypernym Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka Odkazy I Allen, J. (1995). Natural Language Understanding (2nd ed.). Benjamin-Cummings Publishing Co., Inc., Redwood City, CA, USA Bhagat, R. and Hovy, E. (2013). What is a paraphrase? Computational Linguistics, 39(3):463-472. Bratman, M. (1987). Intention, plans, and practical reason. Harvard University Press. Dagan, I., Roth, D., and Zanzotto, F. (2007). Tutorial notes. In 45th Annual Meeting of the Association of Computational Linguistics. The Association of Computational Linguistics. Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 33 / 34 Odkazy II Lakoff, G. (1970). Linguistics and natural logic. Synthese, 22(1-2):151-271. Marik, V., Štěpánková, 0., and Lažanský, J. (2001) Umělá inteligence. Number svazek 3 in Umělá inteligence. Academia. 11 - Parafráze