PLIN037 Sémantika a počítače Zuzana Nevěřilová 2024 Diskurz •Koherentní sekvence vět •Tvrzení •Otázky •Repliky (v dialogu) •Kontext (i mimotextový) •Záměr •Interpretace Úlohy NLP ve vztahu k analýze diskurzu •Sémantika •Rozpoznání entit (named entity recognition, NER) •Nalezení klíčových slov •Nalezení anafor •Nalezení repliky • •Pragmatika •Relace mezi entitami (entity linking) •Detekce tématu (a jejich struktury) •Relace mezi všemi koreferenty •Detekce struktury dialogu •Dialog •Monolog • •Synchronní •Asynchronní • •Mluvený •Psaný •„Internet language“ Typy diskurzu •Koherentní struktury •Segmentace, parsing •Model koherence •Evaluace •Témata (topics) •Segmentace témat, pojmenování (labeling) •Struktura koreference •Rozpoznání anafor •Struktura konverzace •Rozpoznání řečových aktů • Analýza diskurzu (promluvy) •Text summarization •Essay scoring •Machine translation •Question answering •Harmful speech recognition •Discourse representation theory – 1981 •Discourse referents •Discourse conditions • A farmer owns a donkey. He beats it. •J. R. Hobbs – 1985 •Rhetorical Structure Theory - 1988 •Segmented Discourse Representation Theory – 2003 • • • Teorie analýzy diskurzu •= Relace mezi klauzemi nebo větami •Jerry R. Hobbs: Coherence and Structure of Discourse •Příležitost (occasion) – slabší než kauzalita, jen změna stavu Vlak přijel v 5 hodin do Chicaga. V 6 měl Ronald Reagan tiskovou konferenci. Koherentní čtení: RR přijel vlakem do Chicaga. •Evaluace (evaluation) – proč bylo řečeno předchozí Přijels dnes autem? Já mám auto v servisu. Koherentní čtení: Musíme jet výjimečně tvým autem. •Relace k předchozí znalosti – background, explanation Měl mizernou náladu. Tu noc se špatně vyspal. Koherentní čtení: Měl špatnou náladu, protože špatně spal. • • • • • Relace koherence •= Relace mezi klauzemi nebo větami •Expanze, rozšíření (expansion) • • • • • • •Paralela Krev obsahuje nejvyšší koncentraci viru žloutenky typu B. Moč obsahuje nejnižší koncentrace. Koherentní čtení: Krev a moč jsou si podobné. •Elaborace John umí otevřít Billův sejf. Zná kombinaci. Koherentní čtení: John umí otevřít Billův sejf (běžnou metodou). • • • • Relace koherence Specifické – specifické Specifické – obecné Obecné – specifické Pozitivní Paralela Elaborace Generalizace Exemplifikace Negativní Kontrast Porušení očekávání •= Relace mezi klauzemi nebo větami •Expanze, rozšíření (expansion) • • • • • • •Exemplifikace Tento algoritmus seřadí seznam v opačném pořadí. Když je vstupem „A, B, C“, výstupem algoritmu bude „C, B, A“. Koherentní čtení: Tento algoritmus seřadí seznam v opačném pořadí. •Generalizace obrácená exemplifikace • • • • • Relace koherence Specifické – specifické Specifické – obecné Obecné – specifické Pozitivní Paralela Elaborace Generalizace Exemplifikace Negativní Kontrast Porušení očekávání •= Relace mezi klauzemi nebo větami •Expanze, rozšíření (expansion) • • • • • • •Kontrast Vlastní výzkum přináší do hry mechanismy podobné hodinovému strojku; objev má magickou podstatu. Koherentní čtení: Výzkum a objev mají opačnou podstatu. •Porušení očekávání John je právník, ale je čestný. Koherentní čtení: Právnící nebývají čestní. • • • • • Relace koherence Specifické – specifické Specifické – obecné Obecné – specifické Pozitivní Paralela Elaborace Generalizace Exemplifikace Negativní Kontrast Porušení očekávání •Prvky diskurzu = Elementary Discourse Units (EDU) •Jádro (nucleus) •Okraj (satellite) •Typy relací • •Evidence •The program as published for calendar year 1980 really works. •In only few minutes, I entered all the figures from my 1980 tax return and got a result which agreed with my hand calculations to the penny. Teorie rétorických struktur Rhetorical Structure Theory Segmented Discourse Representation Theory •Discourse representation structure (DRS) = (referenty, podmínky) • •A man walks. Every man walks. Segmented Discourse Representation Theory •A man walked in. He ordered a beer. • • •Every man walks. •He ordered a beer.* Segmented Discourse Representation Theory •Maximalizace koherence • •(Maximising Discourse Coherence principle) Lexikální prostředky koherence •Anafory (odkazy) •Rekurence (opakování) •Konektory (funkční slova) • Gramatické prostředky koherence •Gramatická shoda •Elipsy (výpustky) Loni bylo sice uděleno devětkrát více pokut, jejich průměrná výše ale klesla na 933 korun. Vyměřeny byly za všechny formy daňových prohřešků. Starší dcera chodila do tanečních, mladší [dcera] [nechodila] vůbec. Pavlína Honzovi zakázala zpívat svou písničku. Loni bylo uděleno devětkrát více pokut. Pokuty byly uděleny za nejrůznější prohřešky. Tak Vaše nacionále bychom měli. A proč jste se vlastně rozhodl studovat jadernou fyziku? •Dataset s vyznačenými vztahy •Explicitní relace (byl použit lexikální prostředek koherence) 18k relací •Implicitní relace 16k •Alternativní lexikalizace (volné lexikální prostředky) quite a contrary, best of all, that is why 624 •Relace mezi entitami Pierre Vinken, 61 years old, will join the board as a nonexecutive director Nov. 29. Mr. Vinken is chairman of Elsevier N.V., the Dutch publishing group. 5k •Žádná relace 254 • Penn Discourse Treebank (PDTB) https://catalog.ldc.upenn.edu/LDC2008T05 https://direct.mit.edu/coli/article/40/4/921/1485/Reflections-on-the-Penn-Discourse-TreeBank • Detekce témat (dialog) https://ntunlpsg.github.io/project/acl19tutorial/ •Lokuce (co promluva říká) •Ilokuční akt (jak ovlivní příjemce) •Tvrzení •Otázka •Návrh •Příkaz •Slib •Vyhrůžka •Nadávka •Pozdrav •Omluva • Struktura konverzace Řečové akty https://cs.wikipedia.org/wiki/%C5%98e%C4%8Dov%C3%A9_jedn%C3%A1n%C3%AD https://ntunlpsg.github.io/project/acl19tutorial/ Analýza diskurzu a velké jazykové modely •Oproti lidem modely rozpoznají komunikační záměry hůře (v roce 2023). A graph of different colored bars Description automatically generated A group of text boxes Description automatically generated Literatura •Mann, William C.; Thompson, Sandra A. (1988). "Rhetorical structure theory: toward a functional theory of text organization" (PDF). Text: Interdisciplinary Journal for the Study of Discourse. 8 (3): 243–281. doi:10.1515/text.1.1988.8.3.243. https://www.cis.upenn.edu/~nenkova/Courses/cis700-2/rst.pdf •HOBBS, J. (1985). On the Coherence and Structure of Discourse. Technical Report, 37. https://www.isi.edu/~hobbs/ocsd.pdf •Marcu, Daniel: The rhetorical parsing, summarization, and generation of natural language texts. University of Toronto. 1998. https://ftp.cs.toronto.edu/pub/gh/Marcu-PhDthesis.pdf •Jakub Dotlačil (2017): TEORIE VÁZÁNÍ. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny. URL: https://www.czechency.org/slovnik/TEORIE VÁZÁNÍ (poslední přístup: 13. 2. 2024) •Marek Nekula (2017): KOHEZE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny. URL: https://www.czechency.org/slovnik/KOHEZE (poslední přístup: 13. 2. 2024) •Marek Nekula (2017): KONEKTOR. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny. URL: https://www.czechency.org/slovnik/KONEKTOR (poslední přístup: 13. 2. 2024) • • • • • • •