PA153 Počítačové zpracování přirozeného jazyka 13 - Analýza promluvy, rozpoznávání anafor Vašek Němčík NLP Centrum, Fl MU, Brno 23. prosince 2013 Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 1/28 Přehled • Text/diskurs • Anafora - motivace, definice, úvod • Typy anafor, potřebné znalosti • AR algoritmy vod • text/diskurs - jednotka jazykové komunikace větší než: • věta/výpověď - minimální obsahově úplná jednotka věta výpověď langue parole (de Saussure) competence performance (Chomsky) produkt proces struktura chování nedůležité kdy/kde/jak podmínky/okolnosti/způsob • referenční výrazy • reference (odkazování) jazykový výraz i—> mimojazyková entita Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, a Reference • exofora (vnější reference) výraz odkazuje k entitě ve světě přímo "Slunce", "Alpy", "Václav Havel", "ten přechod před Fl" ► deixe - odkazování k entitám v rámci komunikační situace (gesta, "tady", "teď", "tamto", ...) • endofora (vnitřní reference) entita je určena na základě vztahu k jinému výrazu v diskursu (nejen mimojazykový, ale i jazykový kontext ...) ► anafora - výraz se vztahuje k výrazu dříve v textu katafora - výraz se vztahuje k výrazu dále v textu méně častá; vysktuje se v beletrii (zvyšuje napětí): "Ranní světlo ho probudilo už v pět. Rychle se oblékl a nasnídal. Detektiv Jones věděl, že nemůže ztrácet čas." Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 4/28 Anafora • anafora (anaphor) - anaforický výraz (x Chomsky) ► zejména zájmena, ale i "ten muž", ... • antecedent - předcházející výraz, ke kterému se anafora vztahuje • anafora (anaphora) - anaforická reference (jev) • anaphora resolution - určování anaforických vztahů (hledání vztahů mezi anaforami a antecedenty) Příklady: • [Petr], snědl [koláč];. [(on)],- Byl hladový a [ten koláč]; vypadal lahodně. • [Venus],- rose at 0930, but I didn't see [the thing]/. • [Jones], offered [[his], furniture]; for sale, but nobody wanted [the stuff];. Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 5/28 Lze udělat úkrok stranou? • Můžeme se tomu všemu vyhnout, třeba používáním jen přímé reference? • Nemuseli bychom se zabývat kontextem ... NE. Z mnoha vážných důvodů: • Lidé jsou líní. ► anafory jsou krátké a snadno se používají ► patrně vlastní lidské komunikaci (ve všech jazycích!) • diskurs není libovolná sekvence výpovědí ► koherence - sémantická návaznost ► kohese - gramatické a lexikální vztahy ~» anaforické vztahy drží text pohromadě (umožňují nám se držet zamýšleného toku myšlenek) Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 6/28 Ilustrační příklad [Jarda]/ si koupil Porsche. (On)/ Rád jezdí rychle. [Jarda]/ si koupil Porsche. [Jarda]*,-j rád jezdí rychle. ~» delší/složitější věta zní divně (nutí k zamyšlení) • Kooperační princip (Grice) Komunikační maximy: ► kvality ► relevance ► kvantity ► způsobu • Posluchač předpokládá, že se jimi mluvčí řídí. • Když ne, má to hlubší důvody. • více o pragmatice v "IA091 Sémantika a komunikace" Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 7/28 Proč to učit počítače? • zásadní úzké hrdlo mnoha NLP aplikací • Information Extraction ► [Václav Havel] was a Czech writer and dramatist. [He] was the ninth and last President of Czechoslovakia and the first President of the Czech Republic. (Wikipedia) *■ "the best doctor in Europe" —> Google Letters from Asia addressed loosely to The Best Doctor in Europe arrived on [his] doorstep. [His] own reputation as the best doctor in Europe couldn't save [him] from the tragedies of [his] life. • Bez AR nenajdeme to, co hledáme. Pouze anaforické výrazy (které jsou samy o sobě prázdné). Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 8/28 Proč to učit počítače? • Strojový překlad • CZ i-> EN [Sestřička] mu dala [pilulku]. Spolkl [ji] a usnul. [The nurse] gave him a pill. He swallowed [her] and fell asleep. • DE i-> EN Ich suche [meine Uhr]. Ich kann [sie] nirgendwo finden. I am looking for [my watch]. I can't find [her] anywhere. • nelze překládat přímo (různé gramatické kategorie) • navíc: různé vlastnosti anafor Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 9/28 Definice úlohy » nalézt anaforické výrazy v textu « určit k nim antecedenty • určit typ vztahu ► koreference (dva výrazy se odkazují ke stejnému promluvoému objektu) ► bridging (asociativní/nepřímá anafora) (jakákoliv sémantická relace) * hyperonymie/hyponymie "Nábytek je drahý. Židle jsou nejdražší." * část/celek "Každý majitel bytu se snaží zabezpečit vchodové dveře." * entita/vlastnost "Pepa má nové auto. Barvu určitě vybírala jeho žena." * příčina/následek "Včera tu byl požár. Kouř je tu stále cítit." Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 10 / 28 Typy anafor • textová vs. gramatická [Ben] takes a photo of [himself] every day. « pronominální (pro NLP asi nej relevantnější) » nominální Od září bude do [Brna] létat nová letecká linka. Očekává se, že přinese [druhému největšímu městu ČR] nové turisty. • slovesná John likes cats. So does Bill. • one-anaphora John has a black Porsche. I would like one too. « nulová (zero) anafora anafora není povrchově realisována v češtině (a ostatních pro-drop jazycích) nevyjádřené podměty Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 11 / 28 Typy pronominálních anafor • osobní zájmena ► silná: "jemu", "on", "ona" ► slabá: "mu", "ho" (klitika) ► nulová: 0 • demonštratívni zájmena: "ten", "ta", "tomu" • reflexivní zájmena: "se", "sebe", "svůj" • posesivní zájmena: "jeho", "jejího" • relativní zájmena: "který", "jenž" ALE jsou i neanaforická zájmena: • deixe: "to" • expletivní/pleonastická zájmena: It's raining. / Es regnet. It is the first chapter, I enjoy the most. Zdá se, že tu někdo byl. PA153 Zpracování při Diskurs, anafory 12 / 28 Znalosti potřebné pro AR • morfologie ► shoda v 4>-atributech (závislé na jazyce) ► čeština: osoba, číslo, rod ► angličina: pouze sémantický rod => nutnost mít informaci jméno i—> rod a syntax ► posice anafory/antecedentu v syntaktické struktuře věty paralelismus tendence k zachování stejných syntaktických rolí: [Mary] met [Lucy] at the bus station. [She] asked [her] about the new neighbour. • pragmatika ► Griceův kooperační princip ... ► komunikační situace + kontext ► scénáře Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 13 / 28 Sémantika a znalosti o světě 9 hraje při interpretaci anafor často rozhodující roli • sémantická plausibilita zvyšuje/snižuje pravděpodobnost některé interpretace, některé lze zcela vyloučit After the [bartender] served [the patron], [he] got a big tip. After the [bartender] served [the patron], [he] left a big tip. » iniciální interpretace (hned) • pokud pozdější informace vedou ke sporu: ~» reinterpretace (backtracking) • garden-path effect • význam slov a znalosti o světě • inference Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 14 / 28 Sémantika a znalosti o světě • If the baby does not thrive on raw milk, boil it. • The FBI's role is to ensure our country's freedom and be ever watchful of those who threaten it. • Stehlíková ustoupila od sbírky. Romové o ni nestojí. • Klaus dostal dopis podepsaný Aničkou. Má ho policie. • A: I ve Veselé vačici by mohla být volná místa. B: Jé, tam jsem ještě nebyla. Slyšela jsem, že tam chodí studenti. A že prý dobře vaří. • 'I said disarm only!' Lockhart shouted in alarm over the heads of the battling crowd, as Malfoy sank to his knees; Harry had hit him with a Tickling Charm, and he could barely move for laughing. (J. Rowling: Harry Potter and the Chamber of Secrets) Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 15 / 28 Sémantika a znalosti o světě • Genau so sei es ihm vorgekommen, sagte Gauss, schlief ein und wachte bis zum abendlichen Pferdewechsel an der Grenzstation nicht mehr auf. Während die alten Pferde ab- und neue angeschirrt wurden, assen sie Kartoffelsuppe in einer Gastwirtschaft. (Daniel Kehlmann: "Die Vermessung der Welt: Die Reise") • všechny tyto znalosti je obtížné shromáždit • i kdyby byly k disposici, bylo by obtížné v nich hledat • AR je považováno za "Al-úplný problém" AR je stejně obtížný problém jako naučit počítače myslet. =>• nutno si úkol zúžit Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 16 / 28 Teoretické problémy • John loves his wife. So does Bill. • The man who gave his [paycheque] to his wife was wiser than the man who gave [it] to his mistress. • If any man owns [a donkey], he beats [it]. • [No one] will be admitted to the examination, unless [he] has registered four weeks in advance. • [The man who shows he deserves [it]] will get [the prize [he] desires]. Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 17 / 28 AR algoritmy • heuristická pravidla (70. léta) ► SHRDLU - "block world" Terryho Windograda ► Hobbsovo syntaktické hledání ► jednoduchá pravidla, vzory, časté instance • sématické teorie ► centering, focusing - modelování lokální koherence ► BFP algoritmus ► výpočetně problematické • knowledge-poor (90. léta) ► kacířství motivované praktickými potřebami ► založené na datech, která lze dostatečně úspěšně spočítat (morfologie, povrchová syntax, jednoduché sémantické třídy) ► RAP - váhování ► CoGNIAC (pouze 6 pravidel - vysoká přesnost, malé pokrytí) ► MARS - váhování Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 18 / 28 Naivní algoritmus - lineární procházení • za antecedent je považován nejbližší předcházející výraz, který neodporuje zmíněným omezením ► osoba, rod, číslo ► syntaktická omezení, Chomského principy A, B, C • předcházející věty lze procházet zleva doprava, nebo na základě syntaktických rolí • filtrování pomocí sémantických tříd ... Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 19 / 28 Hobbs syntactic search • jako syntaktickou strukturu předpokládá frázové stromy • X-bar theory (Chomsky, Jackendoff) X - complement - X' - adjunct - X' - specifier - XP • algoritmus je definován jako procházení stromu • začíná se v listu dané anafory a podle kategorie aktuálního uzlu se volí další cesta • prominentnější posice jsou procházeny dříve • lze adaptovat na jiné formalismy • jednoduché, ale nefunguje špatně Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 20 / 28 BFP algoritmus • založeno na teorii "Centering" (modelování lokální koherence) 9 každá výpověď: ► forward-looking centers (setříděné) ► preferred center (ten nejvýše postavený) ► backward-looking center » cílem je nalezení koreferenčních vztahů, které představují nejplynulejší přechod center Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 21 / 28 RAP • identifikace NP, filtrování nereferenčních, reflexiva atd. • přidělí se iniciální váhy kandidátům (součet) • při hledání antecedentu ke konkrétní anafoře se pro danou kombinaci váhy dále upravují (katafora, paralelismus, ...) • antecedentem je kandidát s nejvyšší vahou • při zpracovávání nové věty se všechny váhy podělí dvěma Factor type Initial weight Sentence recency 100 Subject emphasis 80 Existential emphasis 70 Accusative emphasis 50 Indirect object and oblique complement emphasis 40 Head noun emphasis 80 Non-adverbial emphasis 50 Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 22 / 28 Pražské algoritmy • hned několik algoritmů • formulovány "na papíře" • vyhodnocovány ručně • jako RAP také váhovací princip • modeluje aktivaci objektu v mysli posluchače • zohledňuje se informace o AČV • teoreticky logické, ale prakticky nepotvrzené Aktuální členění větné (Topic-Focus Articulation, Information Structure) Každá věta obsahuje dvě části: a Topic (základ): to o čem věta vypovídá (kontextově zapojené) a Focus/Comment (ohnisko): co se vypovídá o základu (nové; kontextově nezapojené) (toto rozdělení může být triviální - pouze ohnisko) ~ aktivace promluvového objektu v mysli čtenáře Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 24 / 28 Aktuální členění větné I • je v různých jazycích vyjadřováno různě • v jazycích s tzv. "volným slovosledem" je hlavním nástrojem slovosled Rohlíčky prý jsou dneska zvláště vypečené. Je tomu tak? Ne, není tomu tak, Milosti. Ba naopak. Vypečené rohlíčky zvláště dnes nejsou. • slovosled má vliv na sémantiku, není tedy "volný" • v mluvené řeči větný přízvuk • Cizí jazyky: germánské jazyky It was Mary, who John called on the phone. *■ finština Poydällä on ruokaa. Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 25 / 28 AR a strojové učení • statistika a strojové učení dnes v NLP převažují • AR není klasifikační problém předefinování umožňující použití std. ML metod: • 1 instance: dvojice anafora-antecedent • atributy: knowledge-poor informace • cílový atribut: 1 pro koreferentní dvojici, jinak 0 • velký nepoměr negativních a positivních instancí • nutno část negativních instancí odstranit z trénovacích dat Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 26 / 28 Gracie: Last week my brother went out on a murder case, and you know, he found that man in an hour. George: He found the murderer in an hour? Gracie: No, the man who was killed. George: Not only is your brother tall, but he's fast. Gracie: And then Mr. &i Mrs. Jones were having matrimonial trouble, and my brother was hired to watch Mrs. Jones. George: Well, I imagine she was a very attractive woman. Gracie: She was, and my brother watched her day and night for six months. George: Well, what happened? Gracie: She finally got a divorce. George: Mrs. Jones? Gracie: No, my brother's wife. (George Burns and Gracie Allen in "The Salesgirl") Vašek Němčík PA153 Zpracování přirozeného jazyka Diskurs, anafory 27 / 28