PA153 Počítačové zpracování přirozeného ja 11 - Znalosti, parafráze, odvozování Karel Pala, Zuzana NevěTilová Centrum ZPJ, Fl MU, Brno 4. prosince 2014 Q Znalosti Q Parafráze Q) Přirozená logika 01 Rozpoznávání témat Znalosti a odvozování • znalosti o jazyce (lexikon, gramatické kategorie, syntax) a znalosti o světě Znalostní báze (knowledge base, KB): obsahuje fakta, která jsou premisami v deduktivním odvozování lidmi čitelné KB: how-to, FAQ, recepty, návody, diagramy strojově čitelné KB: ontológie (SUMO-MILO), sémantické sítě (WordNet), dbPedia, ConceptNet Reprezentace znalostí (knowledge representation): znalostní báze + odvozovací pravidla Deklarativní vs. procedurální znalost Deklarativní (formálně verifikovatelná, obecně platná) vs. proceduráln (implicitní, méně obecná) Příklad: robot, který se umí pohybovat po budově procedurální znalost: ,,dojdi do místnosti" deklarativní znalost: mapa objektu + základní kroky Deduktivní odvozování: monotónní a nemonotónní odvozování [Allen, 1995] KB: Ptáci létají. Vrabec je pták. Pštros je pták. Pštros nelétá. Vrabec létá. Pštros létá. Pštros létá. Znalosti o světě • encyklopedické (Jaké je hlavní město ČR?) • common-sense (Jak je vhodné obléci se 4. prosince 2014?) neostrá hranice počítačově zpracovatelné zdroje encyklopedických znalostí: • encyklopedie • znalostní hry • dbPedia: strojově zpracovaná Wikipedie Common sense a odvozování common sense: sdílená znalost, ne vždy v souladu s (vědeckými) fakty (V noci nesvítí slunce.) Cheap apartments are rare. Rare things are expensive. Cheap apartments are expensive. Deduktivní odvozování není možné použít vždy (ve skutečnosti skoro nikdy). Common sense: nejznámější projekty • CyC: vývoj od r. 1985(1), reprezentace pomocí vlastního jazyka CyCL, mikroteorie • ConceptNet: syntaktická analýza OpenMind, propojení s Wiktionary • Never-ending Language Learning (NELL): prochází web a odvozuje, občas nutný lidský zásah ("I deleted my Internet cookies", "I deleted my files" =4> soubor je stejná kategorie jako pečivo) Parafráze Parafráze: promluva x je parafrází promluvy y, pokud x a y mají stejný nebo podobný význam. Tento most postavila Nejlepší firma s.r.o. Nejlepší firma s.r.o. postavila tento most. Stavitelem tohoto mostu je Nejlepší firma s.r.o. Presnejší definice Textové vyplývaní 7^ logické vyplývaní Z text ŕ textově vyplýva hypotéza h (ŕ =4> h), pokud lidé, kteří přečtou ŕ, odvodí, že h }e nejspíš pravda. [Dagan et al., 2007] parafráze = h^tAt^h Rozpoznávaní textových vyplývání/parafrází hledání podobností: • na řetězcích (např. Levenshteinova vzdálenost) • na slovech • na slovech s použitím znalostní báze (např. slovník synonym) • na syntaktických stromech • kombinace předchozích Rozpoznávaní textových vyplývání/parafrází využití: • odpovídání na otázky • chatbots • detekce plagiátů • výuka • automatická sumarizace textu • doplnění implicitní znalosti ► logická analýza textu ► znalostní modely v umělé inteligenci «... Korpusy parafrází • Microsoft Research Paraphrase Corpus • The Boeing-Princeton-ISI (BPI) Textual Entailment Test Suite2 • Multiple Translation Chinese Corpus3 • The SEMILAR Corpus: The SEMantic SimlLARity Corpus4 • Paraphrase Discovery5 http://research.microsoft.com/en-us/downloads/ 607dl4d9-20cd-47e3-85bc-a2f65cd28042/ 2 http://www.cs.utexas.edu/users/pclark/bpi-test-suite/ 3https://catalog.ldc.upenn.edu/LDC2002T01 4http: //deeptutor2.memphis.edu/Semilar-Web/public/semilar-api.html 5http://nip.cs.nyu.edu/paraphrase/ Paraphrase Discovery vztahy mezi pojmenovanými entitami v korpusových datech: [lemma="Hannibal"] []* [lemma="Hopkins"] within ztvárnit jako hrát odmítnout s na roli si hrající / se objevil v podání představoval alias působí v roli se svým přítelem ( po boku Generovaní parafrází Základní způsoby parafrázování: • aktivní-pasivní větná konstrukce: Tento most byl postaven Nejlepší firmou s.r.o. • synonyma: Tuto lávku postavila Nejlepší firma s.r.o. • hyperonyma: Tuto stavbu postavila Nejlepší firma s.r.o. • substantivizace, deverbalizace: Stavitelem tohoto mostu je Nejlepší firma s.r.o. a kombinace: Tento most byl vytvořen Nejlepší firmou s.r.o. Podrobněji v [Bhagat and Hovy, 2013]. Přirozená logika [Lakoff, 1970] nástrojem této logiky je přirozený jazyk • monotonicita (monotonicity): víc než tisíc je hodně Mám víc než tisíc knih. Mám hodně knih. Nemám víc než tisíc knih. Nemám hodně knih. • obsažení/omezení (containment): červené auto je auto Po ulici jelo červené auto. Po ulici jelo auto. Po ulici nejelo červené auto. Po ulici nejelo auto. • exkluze (exclusion): pes není kočka Na dvorku seděl pes. Na dvorku seděla kočka. Na dvorku neseděl pes. Na dvorku neseděla kočka. odvození vs. presupozice: Mark David Chapman zastřelil Johna Lennona. =4> John Lennon nežije. Mark David Chapman nezastrelil Johna Lennona. 7^ John Lennon nežije. Brazílie vyhrála mistrovství světa. =4> Brazílie hrála na mistrovství světa. Brazílie nevyhrála mistrovství světa. =4> Brazílie hrála na mistrovství světa. PA153 Zpracování přirozeného jazyka — Přirozená logika '—Přirozená logika [Lakoff, 1970] «™n«=ni^[m=n=«ni=^:vfcntíti,fcj.l N.mim»k.n.i,i,l= knih. N.mím hcd* knih V přednášce jsem se spletla, šipky na snímcích jsou dobře. Analýza textu „bez analýzy" Z textu můžeme získat dost informací bez analýzy obsahu textu (kódování nebo jazyk, délka textu, počet odstavců, počet slov ...). Můžeme získat informace o obsahu bez analýzy obsahu? Ano, ale ... jazykově nezávislé metody jsou založeny na faktu, že některé části textu jsou důležitější než jiné pokud ty důležitější identifikujeme, můžeme dále pracovat jen s nimi Odbočka k PageRank: důležité jsou odkazy 6 PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 18 / 26 Ôiäýzisk erergäické spotečnôšíi ČĚŽlza tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun. Tržby se meziročně snížily o 0,3 procenta na 161^9_mi_liard_y_ korun.Hlavnim důvodem pokleku byly_odjD[sy_alrtjy_kyůli regulacím evropského [energetického sejrtoru] a související snižování Velkoobchodních cen ejektřjnyj, sdělila iflrmai. Výsledeicje tak výrazně ^odočekáváním. Analytici "totiž předpokládali, že čistý zisk ČĚŽ stoupne o víc než ^/i_procertai_na 3_4J8 miliardy korun. Společnost také oznámila, že kvůli sniženj___ y~e Iko iq b chod n ich cen e I _e_ ktři ny a re g u I at o r n irn zá s ah ům do _eyrap s ké h o fen erg etické ho seírtoruj snížila celoroční výhled čistéha zjskujna_35 mjNArď.karun^^ Půy_oďnĚ_p_oč|ta[a s výsledkem o 2,5 miliardy vyšším. "Oč odrážejí současný stav energetiky V Evropě. Fakt", že na naše výsledky "tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitřní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneš. Rozpoznávaní témat (topic recognition) • extrakce klíčových frází (key p hra ses) • klasifikace textu do kategorií (sport, fotbal, finance, půjčky, ekonomie, energetika...) Extrakce klíčových frází (key phrases) obecně • podobný úkol jako extrakce klíčových slov • klíčové n-gramy (slovo = unigram) • zkoumaný korpus a referenční korpus • potřebujeme (předpočítané) frekvence n-gramů • frekvence n-gramu není srovnatelná s frekvencí m-gramu pro n ^ m Extrakce klíčových frází (key phrases), projekt To|P|icks • zkoumaný korpus je (krátký) text • referenční korpus je (velký) korpus • text rozdělíme na možné fráze (pomocí regulární gramatiky) • každá fráze získá skóre: frekvence n-gramů v textu / frekvence n-gramů v korpusu • vyhledáváme základní tvary n-gramů (např. energetický společnost ČEZ) • skóre fráze posiluje, pokud má podfráze také nějaké skóre • skóre fráze posiluje, pokud fráze obsahuje pojmenovanou entitu • skóre fráze oslabuje, pokud je fráze krátká nebo pokud je číslo Projekt To|P|icks: analýza „bez analýzy" • pracujeme s tokeny (použili jsme tokenizaci) • pracujeme s n-gramy lemmat (použili jsme lemmatizaci) a počítame poměr frekvencí (používame korpus konkrétního jazyka) • extrahujeme kandidáty pomocí regulární gramatiky (používáme parciální syntaktickou analýzu) • rozpoznáváme pojmenované entity • neprobíhá úplná analýza • nepracujeme s lexikálním významem Iŕjstý.zisk energetické společnosti CĚŽ za tri čtvrtletí letošního roku meziročně klesl o 4,7 Iprocenta na 31,7 miliardy korun, tržby se meziročně snížily o 0,3 procenta na 161L9_miJiardy_ Ikorun.Hlavním důvodem poklesu _byl¥_odj3[sy_alrtjy_kyúli regulacím evropského ie n e rg eti cké h a_ I Isektoru] a související snižování Velkoobchodních cen , sdělila firma]. Výsledekje tak ' lyýraznějíodočekáváním. Analytici "totiž předpokládali, že čistý zisk ČEŽ stoupne o víc než l^/j .Pípcentalna p^^S milj ard^ korun. Společnost také oznámila, že kvůli snížení....... I^ikpqbch^ních cen ejektřjnj: a regulatorním_zásahů_m_do_ey_rqpského Lene/getičitého Isektoru] snížila celoroční výhled čistéhci ziskujna_35 mjHACď.karuni_-_ Půy_oďné_p_oč|ta[a s [výsledkem o 2,5 miliardy vyšším "Ďče odrážejí ■současný stav energetiky V Evropě]. Fakt", že na naše výsledky "tato krize doléhá později a Ivýrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii [předprodejů elektřiny na roky dopředu a důraz na vnitřní úspory," uvedl k výsledkům předseda| Ipředstavenstva a generální ředitel Daniel Beneš]. obecnější otázka: dává program správný výstup? je třeba stanovit přesně cíl > je třeba stanovit vzdálenost (nejlépe metriku) mezi výstupem a cílem Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 11 - Parafráze, odvozování 24 / 26 Rozpoznávaní témat . . .je zatím velmi vágně definovaný problém, tudíž má jen omezeně dobrá řešení. Odkazy I Q Allen, J. (1995). Natural Language Understanding (2nd ed.). Benjamin-Cummings Publishing Co., Inc., Redwood City, CA, USA. H Bhagat, R. and Hovy, E. (2013). What is a paraphrase? Computational Linguistics, 39(3):463-472. H Dagan, I., Roth, D., and Zanzotto, F. M. (2007). Tutorial notes. In 45th Annual Meeting of the Association of Computational Linguistics, Prague, Czech Republic. The Association of Computational Linguistics. 1 Lakoff, G. (1970). Linguistics and natural logic. Synthese, 22(1-2):151-271.