PA153 Počítačové zpracování přirozeného jazyka
11 - Znalosti, parafráze, odvozování
Karel Pala, Marek Med veď
Centrum ZPJ, Fl MU, Brno
5. prosince 2018
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 1/34
Q Znalosti
Q Odvozování
Q Parafráze
Q Přirozená logika
Q Belief-Desire-Intention
Q Použití
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
Znalosti
• znalosti o jazyce (lexikon, gramatické kategorie, syntax)
• znalosti o světě
Znalostní báze (knowledge base, KB): obsahuje fakta, která jsou premisami v deduktivním odvozování
lidmi čitelné KB: how-to, FAQ, recepty, návody, diagramy strojově čitelné KB: ontológie (SUMO-MILO), sémantické sítě (WordNet), dbPedia
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
Reprezentace znalosti
Deklarativní
produkčný systém
Reprezentace znalosti
Procedurální
predikátová logika sémantické sítě
Rámcové
rámce
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
11 - Parafráze, odvozování 4
Znalosti
Deklarativní:
• znalosti zaznamenané v určitém jazyce
• uložené v určitém zdroji (databáza) e jednoduché odvozován
explicitná
• formálně verifikovatelná
• obecně platná Procedurálni:
• vyjádření pomocí procedury
• hodnota se zjistí provedením procedury o implicitní
Example (pohyb robota po místnosti)
Deklarativní: pohyb robota + mapa Procedurální: príď na pozíciu (X,Y)
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 5/34
Znalosti
Rámce
o kombinace deklarativního a procedurálního přístupu 9 rámce samotné sú deklaratívne o sloty v rámcoch sú procedurálne
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 6/34
Odvozování
Reprezentace znalostí (knowledge representation): znalostní báze + odvozovací pravidla Dva druhy:
o deduktivní odvozování
nededuktivní odvozování
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
Deduktivní odvozování: monotónní a nemonotónní odvozování [Allen, 1995]
KB: Ptáci létají. Vrabec je pták. Vrabec létá.
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 8/34
Deduktivní odvozování: monotónní a nemonotónní odvozování [Allen, 1995]
KB: Ptáci létají. Vrabec je pták. Pštros je pták. Vrabec létá. Pštros létá.
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 8/34
Deduktivní odvozování: monotónní a nemonotónní odvozování [Allen, 1995]
KB: Ptáci létají. Vrabec je pták. Pštros je pták. Pštros nelétá. Vrabec létá. Pštros létá.
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 8/34
Znalosti o světě
• encyklopedické (Jaké je hlavní město ČR?)
• common-sense (Jak je vhodné obléci se 5. prosince 2018?)
počítačově zpracovatelné zdroje encyklopedických znalostí:
• encyklopedie o znalostní hry
o dbPedia: strojově zpracovaná Wikipedie
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
11 - Parafráze, odvozování 9/34
Common sense a odvozování
common sense: sdílená znalost, ne vždy v souladu s (vědeckými) fakty (V noci nesvítí slunce.)
Cheap apartments are rare. Rare things are expensive.
Cheap apartments are expensive.
Deduktivní odvozování není možné použít vždy (ve skutečnosti skoro nikdy).
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 10 / 34
Common sense: nejznámější projekty
• Never-ending Language Learning (NELL):
► prochází web a odvozuje (hledá spojení mezi věcmi, které zná a věcmi, které najde prostřednictvím vyhledávání)
► pr. Pikes Peak
► občas nutný lidský zásah ("I deleted my (Internet) cookies", "I deleted my files" ^> soubor je stejná kategorie jako pečivo)
o CyC: vývoj od r. 1985(!)
► reprezentace pomocí vlastního jazyka CyCL
► pokus o zavedení obsáhlé ontológie a znalostní báze
► cíl: expresivní jazyk, ontológie v rozumné úrovni detailu, znalostní báze, rychlý inferenční systém
► ontológia: 1,5 M tokenov
► KB: 24,5 M pravidiel
► inferenčný systém: dedukcia, indukcia, machine learning
• ConceptNet: syntaktická analýza OpenMind, propojení s Wiktionary
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 11 / 34
Parafráze
Parafráze: promluva x je parafrází promluvy y, pokud x a y mají stejný nebo podobný význam.
Tento most postavila Nejlepší firma s.r.o. Nejlepší firma s.r.o. postavila tento most. Stavitelem tohoto mostu je Nejlepší firma s.r.o.
11 - Parafráze, odvozování 12
Přesnější definice
Textové vyplývání ^ logické vyplývání
Z text t textově vyplývá hypotéza h (t =4> h), pokud lidé, kteří přečtou t, odvodí, že A? je nejspíš pravda. [Dagan et al., 2007] parafráze = h ^ t A t ^ h
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
13 / 34
Rozpoznávaní textových vyplývání/parafrází
hledání podobností:
• na řetězcích (např. Levenshteinova vzdálenost)
• na slovech
o na slovech s použitím znalostní báze (napr. slovník synonym) o na syntaktických stromech
• kombinace předchozích
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
11 - Parafráze, odvozován
Rozpoznávaní textových vyplývání/parafrází
využití:
• odpovídání na otázky
• chatbots
• detekce plagiátů
• výuka
• automatická sumarizace textu o doplnění implicitní znalosti
► logická analýza textu
► znalostní modely v umělé inteligenci
11 - Parafráze
Korpusy parafrází
• Microsoft Research Paraphrase Corpus
9 The Boeing-Princeton-ISI (BPI) Textual Entailment Test Suite2
• Multiple Translation Chinese Corpus3
• The SEMILAR Corpus: The SEMantic SimlLARity Corpus4 9 Paraphrase Discovery5
1http://research.microsoft.com/en-us/downloads/ 607dl4d9-20cd-47e3-85bc-a2f65cd28042/
http://www.cs.utexas.edu/users/pclark/bpi-test-suite/ 3https://catalog.ldc.upenn.edu/LDC2002T01
4http://deeptutor2.memphis.edu/Semilar-Web/public/semilar-api.html 5http://nip.cs.nyu.edu/paraphrase/
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 16 / 34
Paraphrase Discovery
vztahy mezi pojmenovanými entitami v korpusových datech: [lemma=,,Hannibal"] [] * [lemma=,,Hopkins"] within
ztvárnit jako
hrát odmítnout
s na roli
si hrající
se objevil v podání představoval alias působí v roli
se svým přítelem
(
po boku
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
Generovaní parafrází
Základní způsoby parafrázování:
9 aktivní-pasivní větná konstrukce: Tento most byl postaven Nejlepší firmou s.r.o.
9 synonyma: Tuto lávku postavila Nejlepší firma s.r.o.
o hyperonyma: Tuto stavbu postavila Nejlepší firma s.r.o.
o substantivizace, deverbalizace: Stavitelem tohoto mostu je Nejlepší firma s.r.o.
• kombinace: Tento most byl vytvořen Nejlepší firmou s.r.o. Podrobněji v [Bhagat and Hovy, 2013].
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
18
Přirozená logika [Lakoff, 1970]
nástrojem této logiky je přirozený jazyk
• monotonicita (monotonicity): víc než tisíc je hodně Mám víc než tisíc knih. Mám hodně knih. Nemám víc než tisíc knih. Nemám hodně knih.
• obsažení/omezení (containment): červené auto je auto Po ulici jelo červené auto. Po ulici jelo auto.
Po ulici nejelo červené auto. Po ulici nejelo auto.
9 exkluze (exclusion): pes není kočka
Na dvorku seděl pes. Na dvorku seděla kočka. Na dvorku neseděl pes. Na dvorku neseděla kočka.
odvození vs. presupozice (podprahové informace):
Mark David Chapman zastřelil Johna Lennona. =4> John Lennon nežije.
Brazílie vyhrála mistrovství světa. =4> Brazílie hrála na mistrovství světa.
11 - Parafráze, odvozování
Přirozená logika [Lakoff, 1970]
nástrojem této logiky je přirozený jazyk
• monotonicita (monotonicity): víc než tisíc je hodně Mám víc než tisíc knih. Mám hodně knih. Nemám víc než tisíc knih. Nemám hodně knih.
• obsažení/omezení (containment): červené auto je auto Po ulici jelo červené auto. Po ulici jelo auto.
Po ulici nejelo červené auto. Po ulici nejelo auto.
9 exkluze (exclusion): pes není kočka
Na dvorku seděl pes. Na dvorku seděla kočka. Na dvorku neseděl pes. Na dvorku neseděla kočka.
odvození vs. presupozice (podprahové informace): Mark David Chapman zastřelil Johna Lennona. =4> John Lennon nežije. Mark David Chapman nezastrelil Johna Lennona. 7^ John Lennon nežije. Brazílie vyhrála mistrovství světa. =4> Brazílie hrála na mistrovství světa. Brazílie nevyhrála mistrovství světa. =4> Brazílie hrála na mistrovství světa.
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 19 / 34
BDI: Znalost nebo domněnka?
KB: Ptáci létají. Vrabec je pták. Pštros je pták. Pštros nelétá. Mrtvý vrabec nelétá.
Znalostní báze se mění. Některé znalosti mají poměrně krátké trvání
(Nejsem unavená. Je půl čtvrté.)
V umělé inteligenci se používá termín domněnka
(belief) [Marik et al., 2001].
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
Umělá inteligence: modely uvažování inteligentních agentů
Intencionálni systém: agent umí „uvažovat" o svých znalostech. Je schopen přemýšlet o svých přáních a jak jich lze dosáhnout [Mařík et al., 2001]. Mentální postoje:
9 informační postoje - znalosti, fakta získaná senzory
o proaktivní postoje - cíle, plány, závazky
Psychologické modely lidského uvažování [Bratman, 1987]: kognitivní stavy, afektivní stavy, konnativní stavy.
Domněnka-přání-záměr: softwarový model pro aktivní inteligentní agenty
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
Umělá inteligence: belief-desire-intention
Záměr, Intention
Aby bylo možné vytvořit aktivního agenta, je třeba, aby ,,věděl, co chce" (intention). Pokud ví, co chce (tj. má záměr), vytvoří si agent nějaký plán (lokální cíl).
Příklad: najdi cestu z domu X na Fl
Int a (f) agent si vybírá vždy cesty tak, aby na nich někdy platila (f) Přání, Desire
Přání vyjadřuje agentovu motivaci. Motivovaný agent má cíle (cílové stavy). Cíle by neměly být v rozporu. Příklad: najdi nej kratší cestu z domu X na Fl Des a (f) pravdivost formule 0 je cílem agenta a Belief, Domněnka
Domněnka představuje agentovu bázi znalostí. Informace mohou být pravdivé, agent v ně v daný okamžik věří a chápe je jako nedokonalé přiblížení obrazu okolního světa [Mařík et al., 2001]. Příklad: najdi nej kratší cestu z domu na Fl. Mostecká je neprůjezdná. Bel a (f) agent a věří v pravdivost formule (f)
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 22 / 34
Databáze SQAD
0002
question
question
answer extraction
answer extraction
answer selection
answer selection
text
metadata
metadata
source URL
source URL
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 23 / 34
Otázka
word/token lemma tag
Jak jak kôeAdl
se sebe k3xPyFc4
jmenuje jmenovat k5eAalmlp3nS
světově světově kôeAdl
nej rozšířenější rozšířený k2eAgFnScld3
hra hra klgFnScl
na na k7c4
hrdiny hrdina klgMnPc4
klx.
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
Odpověď: Dungeons & Dragons
Text: Nejrozšířenější světově hranou RPG hrou na hrdiny pak je Dungeons & Dragons. Metadata: (Entity, Entity)
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
Question answering
system
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
AQA
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 27 / 34
Reprezentace znalostí
Question reformulation: 11 Jak se jmenuje 11 Kdo je ..."
osoba ..." reform u I uje na
syntactic tree:
ID word Dep ID
0 Jak 2
1 se 2
2 jmenuje -1
3 otec spisovatele Jiřího Mouchy 2
• Question type extraction: 11 Kdo byl ..." typu WHO
• Main subject and main verb extraction: Jak se jmenuje otec jmenuje (hlavní sloveso)
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
Analýza dotazů (ML based)
Kdo
w.
LSTM layer
Dropout
LSTM layer
je zakladatelem Lidových
i
novín ?
LSTM network
Linear layer
U
s1,1 S1,2 □ □ □ Sk,l □ □ □
score vector of (q_type, a_type) touples
(PERSON,PERSON)
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 29 / 34
Analýza dotazů (ML based)
ŕ
Kdo je
zakladatelem
Lidových
novin
word vector embeddi
LSTM layer
Dropout
LSTM layer
LSTM network
Linear layer
s1,1 S1,2 □ □ □ Sk,. □ □ □ S m,n
score vector of (q_type, a_type) touples
(PERSON,PERSON)
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 30 / 34
Word 2 vec
1.0
0.5
0.0
-0.5
-1.01 -0.8
O'9
q oven q Q refrigerator
Q kitchen
ovanity Otable
Q sink w P) bathroom w Q toilet
Q bathtub
q faucet q shower
i finish
O
color
i paint
microwave Q9e
, bulb
i fan
Jed
i light
O
kit
0 charger 0 battery
O saw 0 dewalt (tool 0bosch A drill
O
valve
, deck
Q garden O
hose
Q sprinkler
, concrete
grass
-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
0.3
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
31 / 34
Hyperonyma
question:
keyword: hypernyms:
rule:
'Jak se jmenovala první manželka Miloše Formana?' (What was the name of the first wife of Miloš Forman?) 'manželka' (wife)
['manželka', jednotlivec', 'osoba', 'bytosť, 'organismus']
(wife, individual, person, being, organism)
(PERSON; PERSON) -> "osoba"in keyword.hypernym
Karel Pala, Marek Medveď
PA153 Zpracování přirozeného jazyka
Odkazy I
Allen, J. (1995).
Natural Language Understanding (2nd ed.).
Benjamin-Cummings Publishing Co., Inc., Redwood City, CA, USA
Bhagat, R. and Hovy, E. (2013).
What is a paraphrase?
Computational Linguistics, 39(3):463-472.
Bratman, M. (1987).
Intention, plans, and practical reason.
Harvard University Press.
Dagan, I., Roth, D., and Zanzotto, F. (2007). Tutorial notes.
In 45th Annual Meeting of the Association of Computational Linguistics. The Association of Computational Linguistics.
Karel Pala, Marek Medveď PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 33 / 34
Odkazy II
Lakoff, G. (1970). Linguistics and natural logic. Synthese, 22(1-2):151-271.
Marik, V., Štěpánková, 0., and Lažanský, J. (2001) Umělá inteligence.
Number svazek 3 in Umělá inteligence. Academia.
11 - Parafráze