Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická interpretace promluvy Řízení průběhu dialogu Teorie Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2018 >0 0,0 Rozpoznávaní řeči Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická interpretace promluvy Řízení průběhu dialogu Teorie ■ Rozpoznávání plynulé řeči - převádí souvislou promluvu na psaný text. ■ Rozpoznávání izolovaných slov/příkazů. ■ Princip rozpoznávání: Q získání vektoru příznaků pomocí metod krátkodobé analýzy signálu, B klasifikace na základě vektoru příznaku získaného v předchozím kroku. Rozpoznávaní izolovaných slov Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická interpretace promluvy Řízení průběhu dialogu Teorie ■ Slouží k rozpoznání povelů nebo slov (příkazů) zřetelně oddělených na začátku a konci mezerou. ■ Odpadá problém stanovení začátku a konce slova v souvislé promluvě. ■ Obvykle systémy závislé na uživateli: ■ nutnost natrénování ■ omezená kapacita slovníku. ■ Obtíže při rozpoznávání izolovaných slov: ■ Určení začátku a konce promluvy: ■ odlišení šumu od sykavek, ■ detekce nahodilého zvukového vzruchu (klepnutí, .. .) kontra okluzívy, které obsahují pauzy, ■ možná přítomnost infrazvuku. ■ . .. Rozpoznávání izolovaných slov Typy klasifikátorů Dialogové systémy ■ Klasifikátory využívající porovnání slov metodou DTW. Luděk Bártek ■ Snaží se nalézt co největší shodu mezi rozpoznávaným Rozpoznávání slovem a slovy v databázi. řeči Rozpoznávání ■ Klasifikátory založené na statistických metodách - izolovaných slov Rozpoznávání plynulé řeči Sémantická modelování pomocí skrytých M a r kovových modelů: ■ simulace procesu tvorby řeči. interpretace promluvy ■ Klasifikátory pracující na dvou úrovních: Řízení průběhu O segmentace a fonetické dekódování jednotlivých segmentů dialogu Teorie B rozpoznání slova na základě dekódovaných segmentů. ■ Využití umělých neuronových sítí - více viz: ■ Hinton, 0., Teh - A Fast Learning Algorithm for Deep Belief Nets, in Neural Computation, 2006 ■ Bengio, L, Popovici, L. - Greedy Layer-Wise Training of Deep Networks, in NIPS' 20016 ■ Speech recognition - Lecture 14: Neural Networks Dynamic Time Warping (DTW) Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Metoda borcení časové osy. Používá se pro porovnání dvou číselných řad - dvou úseků promluv (dvou slov). Vstup: ■ posloupnost akustických vektorů získaných pomocí metod krátkodobé analýzy signálu ■ databáze akustických vektorů rozpoznávaných slov. Výstup - rozpoznané slovo resp. povel. DTW Základní postup Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická interpretace promluvy Řízení průběhu dialogu ■ Vytvoříme databázi rozpoznávaných slov (referenční posloupnosti akustických vektorů). ■ Obvykle několik posloupností pro každé slovo, které odpovídají několika způsobům vyslovení příkazu. ■ Rozpoznávané slovo převedeme na odpovídající posloupnost akustických vektorů. Teorie ■ Metodou DTW nalezneme referenční posloupnost akustických vektorů s maximální shodou. DTW Formalizace Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická interpretace promluvy Řízení průběhu dialogu Teorie Algoritmus DTW hledá parametrizaci f,g: f,g:i = f(k)J = g(k),ke minimalizující výraz K D(A6) = ^d(af(/),%)) i=l d - vzdálenost akustických vektorů (např. Euklidovská metrika) af(i)' bg(i) - referenční a rozpoznávaný příkaz. DTW Omezující podmínky Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie f,g - neklesající funkce Omezení na lokální souvislost a strmost: ■ 0 < f(k) - f(k-l) < /* ■ 0• -E O Q, O DTW Omezující podmínky - pokračování Dialogové systémy Luděk Bártek Rozpoznávání ■ Globální vymezení oblasti pohybu funkce DTW: řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická ■ omezení minimální a maximální přípustné směrnice přímky vymezující přípustnou oblast pohybu funkce DTW, při splnění podmínky na hraniční body: interpretace promluvy l + a[i(k)-l] < 1 + P[i(k) - 1] Řízení průběhu dialogu Teorie ■ a - minimální směrnice přímky omezující přípustnou oblast ■ /3 - maximální směrnice přímky omezující přípustnou oblast. DTW - Praktická realizace klasifikátoru slov Blokové schéma Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická interpretace promluvy Řízení průběhu dialogu Teorie £ Vytvořeni referenčních obrazů slov a jejich uložení ve slovníku Uživatel Zpracování signálu ± Výběr příznaků Vytvoření obrazu testovaného slova Porovnání obrazů Algoritmem DTW Rozpoznání neznámého slova Obrázek: Blokové schéma klasifikátoru slov □ DTW - Praktická realizace klasifikátoru slov Trénování Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Obecný postup: O Řečník resp. skupina řečníků vysloví postupně každé trénované slovo požadovaného slovníku, buď jednou nebo opakovaně. B Vstupní slova jsou zdigitalizována a následně převedena zvolenou metodou krátkodobé analýzy na posloupnost vektorů příznaků. B Detekce hranic (počátku a konce) slov: ■ Může být náročné na provedení, např. kvůli rušivému pozadí. ■ Nekorektní detekce hranic slov zhoršuje úspěšnost rozpoznávání. ■ Metody odstraňující i jen částečně vliv akustického pozadí zvyšují výpočetní náročnost. Vytvoření referenčních obrazů slov. DTW - praktická realizace Metody vytváření referenčních obrazů slov Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická interpretace promluvy Řízení průběhu dialogu Teorie ■ Přímé použití obrazů trénovací množiny jako referenčních obrazů slov - DTW nevyžaduje, aby obrazy téhož slova byly stejně dlouhé, ale z důvodu možnosti aplikace pomocných kritérií, je vhodné provést časovou normalizaci každého obrazu. ■ Vytváření průměrného vzorového obrazu pro každou třídu slov w\ ■ používají se metody lineárního a dynamického průměrování. ■ Vytváření vzorových obrazů shlukováním. ■ Vzorové obrazy pro dané slovo se rozdělí do shluků tak, že obrazy uvnitř shluku jsou si ,,podobné" a obrazy z různých shluků jsou ,,nepodobné". ■ Shlukování lze realizovat interaktivně (poloautomaticky -metoda řetězové mapy, algoritmus ISODATA), automaticky (algoritmy založené na MacQueenově algoritmu). Více viz závěrečná práce Mgr. Jiřího_Kučejy. DTW Redukce výpočetních a paměťových nároků Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Nevýhody DTW - vysoké paměťové a výpočetní nároky mohou znesnadňovat klasifikaci v reálném čase i při relativně malém slovníku. Metody řešení: ■ Hrubá síla - využití paralelních procesorů popř. zákaznických obvodů - může být drahé. ■ Vhodné zakódování parametrů jednotlivých mikrosegmentů referenčních i testovacích obrazů. Využívá se: ■ vektorová kvantizace - počet různých vzorků je konečný -uloží se do kódové knihy a místo hodnoty vzorku se pracuje s jejich indexy v kódové knize. ■ kódová kniha - abeceda všech hodnot, které se vyskytly v signálu (lze kódovat úsporněji než při použití standardního PCM). DTW Redukce výpočetních a paměťových nároků Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Využití oblastí spektrální stacionarity - metoda segmentace spektrální stopy. ■ Spektrální stopa - spojnice koncových bodů vektorů příznaků. ■ Lze ji aproximovat - např. lineárními úseky. Optimalizace vyhledávání nejbližšího souseda: ■ metody prohledávání metrických prostorů ■ nutno ověřit, že vzdálenost použitá v DTW je metrika DTW Redukce výpočetních a paměťových nároků Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Redukce výpočetních nároků pomocí heuristik při porovnávání. ■ Vícestupňový rozhodovací postup: Q porovnání promluvy proti celému slovníku pomocí omezené množiny příznaků B dohledání výsledku kroku 1. pomocí klasického DTW. ■ Práh zamítnutí: po každém kroku spočítáme vzdálenost slova a obrazu pokud překročí experimentálně stanovený práh, obraz je zamítnut. Skryté Markovovské Modely - H M M Dialogové systémy Luděk Bártek Rozpoznávaní řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Modelování řeči pomocí HMM vychází z následující představy o tvorbě řeči: ■ Hlasové ústrojí se v krátkém čase nachází v jedné z konečně mnoha artikulačních konfigurací - generuje hlasový signál. ■ Přejde do následující konfigurace. Tuto činnost lze modelovat statisticky. Kvantizací akustických vektorů lze dosáhnout konečnosti všech parametrů odpovídajícího modelu. HMM Principy použití pro rozpoznávání Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Jsou generovány dvě vzájemně svázané časové posloupnosti náhodných proměnných: ■ podpůrný Markovův řetězec - posloupnost konečného počtu stavů ■ řetězec konečného počtu spektrálních vzorů. Náhodná funkce ohodnocující pravděpodobnostmi vztah vzorů k jednotlivým stavům. Pro rozpoznávání řeči jsou nejčastěji využívané levo-pravé Markovovy modely: ■ vhodné pro modelování procesů spjatých se vzrůstajícím časem. HMM Markovův proces Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Markovův proces G se skrytým Markovovým modelem je pětice G = (Q, V, A/, M,tt) ■ Q = <7i, • • •, <7/c - množina stavů ■ V = vi,..., v/c - množina výstupních symbolů ■ N = (a7/j) - matice přechodu. Určuje pravděpodobnost přechodu ze stavu q; v čase t\ do stavu q/ v čase Í2- m M = (rrijj) - matice přechodu, určující pravděpodobnost generování akustického vektoru vj, v kterémkoliv čase ve stavu g,-. ■ 7ľ = (7T/) - vektor pravděpodobností počátečního stavu (pravděpodobnost toho, že stav / je počáteční). Trojice A = (A/, M, 7r) - vytváří model řečového segmentu. ■ např. Vintsjukův model pro slovo - počet stavů 40 — 50 (odvozeno od průměrného počtu mikrosegmentů ve slově; délka mikrosegmentů 10 ms). HMM Určení pravděpodobnosti promluvy Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Značíme P(0\X) Promluva O standardně zpracována do posloupnosti O = (oi,..., oT) ■ T - počet mikrosegmentů promluvy ■ o\ - odpovídají výstupním symbolům. Určení P(0|A) - metoda využívající rekurzivní výpočet odpředu nebo odzadu generované posloupnosti (forward-backward algorithm). >0 Q,o HMM Určení pravděpodobnosti promluvy - výpočet Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Výpočet odpředu: ■ ol\ - pravděpodobnost přechodu do stavu q-, při generování posloupnosti {oi,..., ot}(aj = P(oi... oř, q/(r)|A) ■ Rekurzivní výpočet: inicializace: ai(/) = 717/77/(01), / G< 1, N > Rekurzivní krok pro t=l,. . . T-l: N a/+iO") = E«t('>»>i(o/+i) i=l pro j G< 1, N >, m(ot) je ekvivalentní zápisu /t7,(/), pokud ot = v\. Výsledná pravděpodobnost: N P(0|A) = ]>>r(/) i=l HMM Alternativní způsob výpočtu P(0\X) Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Nevýhoda předchozího postupu: ■ ve výsledném vztahu jsou zahrnuty pravděpodobnosti všech možných posloupností stavů délky T. ■v Řešení: ■ výpočet maximálně pravděpodobné posloupnosti stavů Q. Výpočet realizován pomocí Viterbiova algoritmu: ■ problém řešen rekurzivně s použitím technik dynamického programování. HMM Trénování parametrů modelu A = (A/, M,7r) Dialogové systémy ■ Nutno stanovit postup při trénování parametrů modelu. Luděk Bártek ■ Cíl trénování: Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči ■ maximalizace pravděpodobnosti P(0 A) ■ Problém: ■ neexistuje analytická metoda ke zjištění globálního maxima Sémantická funkce n proměnných. interpretace promluvy ■ ■v Řešení: Řízení průběhu dialogu Teorie ■ lze použít iterativní algoritmy zajišťující aspoň lokální maximalitu. ■ Nejpoužívanější postup - Baum-Welchův algoritmus. ■ Další problém při trénování modelu: ■ vliv konečné trénovací množiny: ■ čím menší trénovací množina a čím větší matice M, tím větší pravděpodobnost, že některé prvky zůstanou nastaveny na 0 (problém chybějících/neadekvátních dat). HMM Rozhodovací pravidlo při rozpoznávání izolovaného slova Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Používá se princip maximální věrohodnosti. Pro slovo O a všechna A: □ Spočítáme P(0|A). Jako výsledek vybereme třídu s maximální hodnotou P(0\X). HMM Implementace Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Modelování povelů: ■ nejčastěji se používají modely se 4 7 stavy. ■ Pro modelovaní lze využít nástroje pro tvorbu HMM ■ HTK - Hidden Markov Model Toolkit. Modelování fonémů: ■ obvykle 4 — 7 stavů ■ model slova - zřetězení modelů fonémů ■ problémy s výpočtem v reálném čase ■ lze řešit pomocí speciálních algoritmů pro hledání maxima P(0\X). Príklady struktur pro fonémy Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická interpretace promluvy Řízení průběhu dialogu Teorie >0 0,0 Príklady struktur pro fonémy Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická interpretace promluvy Řízení průběhu dialogu Teorie Rozpoznávaní plynulé řeči Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Hlavní rozdíly oproti rozpoznávání slov: ■ nelze vytvořit databázi vzorů ■ nutno brát zřetel na prozodické faktory ■ nutno určovat hranice mezi slovy ■ vypořádání se s výplňkovými zvuky a chybami řeči. Řešení - statistický přístup: ■ jazykový model ■ model uživatele. Příklad: HMM vrátí stejnou pravděpodobnost např. pro slova Mmáma" a „nána" - nejspíše se použije máma - je castejsi. Rozpoznávaní plynulé řeči Jazykové modely Dialogové systémy Luděk Bártek Rozpoznávaní řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Máme: ■ posloupnost slov (promluva) 1/1/ = (1/1/1,..., wn) m posloupnost akustických vektorů O = (oi,..., ot). Chceme nalézt l/l/* (množinu všech promluv), která maximalizuje P(W\0). Dle Bayesova pravidla platí: P(|/|/*|0) = maxP(W\0) = max P(l/I/)* P(0\W) P(Ô) Rozpoznávaní plynulé řeči Jazykové modely - pokračovaní Dialogové systémy Luděk Bártek Rozpoznávaní řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Pro nalezení maxima potřebujeme znát: ■ model řečníka - P(0\W) ■ jazykový model - P{W). Model řečníka lze nahradit pravděpodobností generování W odpovídajícím Markovovým modelem. Trigramový model: ■ Experimentálně ověřeno, že platí: P{^n\w1 . . . ^_i) = P{wn\wn_2Wn-l) Rozpoznávaní plynulé řeči Rozpoznávání tématu Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Úspěšnost rozpoznávání řeči se pohybuje cca 50 % — 99 % v závislosti na úkolu, jazyku, ... Úspěšnost rozpoznávání lze zvýšit omezením domény rozpoznávání: ■ rozpoznání tématu ■ použitím gramatik pro rozpoznávání řeči. Známé téma: ■ změna stavového prostoru a pravděpodobnosti trigramů: ■ např. burzovní zprávy - rozpoznáno „honey" nebo ,,money "? ■ možnost vytvoření přesnějšího jazykového modelu. Gramatiky pro podporu rozpoznávaní řeči Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Úspěšnost obecného rozpoznávání plynulé řeči může klesnout až na cca 50 %. Zvýšení lze dosáhnout omezením domény - např. specifikováním přípustných vstupů. Lze použít gramatiky pro podporu rozpoznávání řeči ■ bezkontextové gramatiky Způsoby zápisů gramatik: ■ prostředky logického programování ■ proprietami řešení ■ otevřené standardy - JSGF, W3C SRGS, .. . Gramatiky pro podporu rozpoznávání řeči Java Speech Grammar Specification (JSGF) Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Textový zápis gramatiky nezávislý na platformě a prodejci Určen pro použití při rozpoznávání řeči. Součást Java Speech API. Používá styl a konvence jazyka Java. Aktuální verze 1.0 (říjen 1998). Použit např. v rozpoznávací Sphinx-4, VoiceXML interpretru VoiceGlue, . .. Podrobněji v 2. polovině semestru při probírání tvorby dialogových rozhraní. Gramatiky pro podporu rozpoznávaní řeči Ukázka JSGF Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie #JSGF = Chci jet . Chci jet z do . Chci jet z do v .; = vlakem | autobusem; = ; = ; = ; Gramatiky pro podporu rozpoznávání řeči W3C Speech Recognition Grammar Specification (SRGS) Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Standard W3C. Aktuální verze 1.0 (březen 2004). Definuje způsob zápisu pravidel a jejich odkazování. Dva způsoby zápisu: ■ XML ■ ABNF (Augmented BNF). Podrobněji v 2. polovině semestru při probírání tvorby dialogových rozhraní. Ukázka W3C SRGS Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie #ABNF 1.0 UTF-8 root Spozdrav; language cs-CZ; mode voice; Spozdrav = ahoj ahoj < /rule> < /grammar> Sémantická interpretace promluvy Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Cíl - počítači srozumitelná interpretace informací zadaných uživatelem. Příklad: Chtěl bych si koupit Zkrocení zlé ženy od Shakespeara. ■ akce = nákup ■ titul = Zkrocení zlé ženy ■ autor = Shakespeare Reprezentace - dvojice (atribut, hodnota). Obecné kroky sémantické analýzy: Q zjištění struktury rozpoznané promluvy B zjištění významů jednotlivých částí rozpoznané promluvy Q případně odvození významu celé promluvy z významů jednotlivých částí promluvy. Sémantická interpretace 7^ smyslu promluvy. Sémantická interpretace promluvy Implementace Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Pravidlům gramatiky pro rozpoznávání řeči přidáme atributy, do kterých ukládáme jejich sémantickou reprezentaci. Na atributech lze provádět operace sloužící k sestavení sémantické interpretace celé promluvy z interpretací jednotlivých pravidel. ■ např jazykem ECMAScript (viz standard Sematic Interpretation for Speech Recognition Ke zjištění smyslu sdělení je případně nutno jej zasadit do kontextu. ■ Kontext lze popsat pomocí konečného automatu s výstupem (Mealyho automatu - viz některá z dalších přednášek). Popis Sémantické Interpretace Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie JSGF: ■ přiřazena pomocí značek (tags) ■ zápis - {sémantická interpretace} < sentence >=< intro >< titul > od < autor > < titul >= Pejska a kočičku {Povídání o pejskovi a kočičce}| (Zlou ženu|Zkrocení zlé ženy) {Zkrocení zlé ženy}|... SRGS - standard SISR : ■ standard W3C Voice Browser Activity. ■ Je postaven na jazyce ECMAScript. ■ K pravidlům se přidává pomocí značky nebo atributu tag. ■ Do dialogu je interpretace vracena ve formátu JSON. Základní pojmy Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Dialog - rozhovor dvou a více účastníku (sled promluv) Promluva - Souvislé sdělení, které učiní jeden účastník dialogu směrem k druhému. Obrat - Promluva a reakce druhého účastníka na ni. Dialogová strategie ■ Postup, který k dané promluvě přiřazuje následující promluvu. ■ Využívá znalost stavu dialogu: ■ zadané a požadované informace ■ schopnosti účastníků dialogu Je vlastností každého účastníka dialogu Základní pojmy Dialogová komunikace Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Hodnotící funkce: ■ funkce přiřazující každému dialogu reálné číslo. ■ Označuje se E(Ľ), kde L je dialog. Dialogová komunikace - Uspořádaná čtveřice M = (S1,S2,E1,E2) Si, i G {1,2} - dialogová strategie příslušného účastníka E/, / G {1, 2} - hodnotící funkce příslušného účastníka. Základní pojmy Kooperativita dialogu Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Dialogovou komunikaci M = (Si, S2, Ei, £2) nazveme: ■ Kooperativním Ei = E2. Oba účastníci dialogu mají stejný cíl a snaží se spolupracovat. ■ Nekooperativní m Ei 7^ E2. Cíle obou účastníků dialogu se odlišují. ■ S nulovým součtem m Ei = — E2. Cíle obou účastníků dialogu jsou protichůdné. Toto hodnocení vychází z teorie her: ■ na dialog lze pohlížet jako na hru dvou účastníků. Pravidla pro vedení kooperativního dialogu Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Dialogový systém by se měl snažit o kooperativní dialog. Autor Herbert Paul Grice - anglický jazykovědec. Aspekt informativnosti: O Buď přiměřeně informativní - ne méně než je potřeba, ale ani ne více než je potřeba. Aspekt přesvědčivosti: O Neuváděj nepravdivé informace. B Neuváděj informace, které nelze dokázat nebo doložit. Aspekt způsobu: O Informace v replice by měla být co nejvíce explicitní. Vyhýbejte se nejednoznačnostem. Usilujte o stručnost. Buďte disciplinovaní, udržujte v dialogu pořádek. Pravidla pro vedení kooperativního dialogu pokračování Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Aspekt zdvořilosti, empatie a etiky: Minimalizujte nároky vůči komunikačnímu partnerovi, maximalizujte výhody pro něj. Minimalizujte nedostatky komunikačního partnera a maximalizujte jeho přednosti. Maximalizujte souhlas s partnerem a minimalizujte jeho nesouhlas. Maximalizujte empatii vůči partnerovi. Aspekt asymetrie: O Informujte uživatele o všech důležitých charakteristikách, které vybočují z očekávaného normálního průběhu dialogu, a která by měl vzít v úvahu k zajištění kooperativity. Zajistěte stručné, avšak dostatečné informování uživatele o možnostech systému a jeho omezeních. Informujte srozumitelně a dostatečně o způsobu interakce se systémem. Pravidla pro vedení kooperativního dialogu Komunikace člověk — počítač Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Aspekt znalostí a schopností: O Vezměte v úvahu relevantní znalosti uživatele. Vezměte v úvahu možné uživatelovy chybné analogie. Rozlišujte mezi začínajícím a zkušeným uživatelem systému. Vezměte v úvahu legitimní představy uživatele o znalostech a schopnostech systému. Aspekt vyjasňování a odstraňování chyb: O V případě selhání komunikace iniciujte meta komunikaci zajišťující odstranění chyby nebo její vysvětlení. B Zajistěte vysvětlující meta komunikaci v případě nekonsistentních nebo nejednoznačných uživatelových vstupních dat. Aspekty komunikace kooperativního dialogového systému Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Dialogový systém při komunikaci s uživatelem by měl brát ohled na následující aspekty: ■ aspekt informativnosti ■ aspekt přesvědčivosti ■ aspekt způsobu ■ aspekty zdvořilosti, empatie a etiky ■ aspekt asymetrie ■ aspekt znalostí a schopností uživatele ■ aspekt vyjasňování a odstraňování chyb. Iniciativa v dialogu Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Další krok dialogu je vždy určen dialogovou strategií jedné z komunikujících stran. ■ Jedna strana klade dotazy druhá na ně odpovídá. V případě komunikace člověk — počítač lze rozlišit: ■ dialog s iniciativou uživatele ■ dialog s iniciativou systému ■ dialog se smíšenou iniciativou. Reálné systémy používají: ■ dialogy se smíšenou iniciativou ■ dialogy s iniciativou systému. Iniciativa v dialogu Příklady Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Dialog s iniciativou systému: Systém: Zadejte Vaše uživatelské jméno Uživatel: xyz Systém: Aby Vás bylo možné ověřit řekněte větu „Můj hlas je můj pas. Ověř si mě." Uživatel: Můj hlas je můj pas. Ověř si mě. Teorie Dialog se smíšenou iniciativou: Uživatel: Chtěl bych je dnes vlakem z Adamova do Kerkyry. Systém: Chcete nalézt přímý spoj nebo spojení s přestupy? Uživatel: Chtěl bych jet bez přestupů. Systém: Je mi líto, ale přímý vlak z Adamova do Kerkyry nejezdí. Zpětná vazba v dialogovém systému Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Před tím, než systém zpracuje získané informace, je vhodné provést jejich verifikaci: ■ oprava chyb rozpoznávání řeči ■ oprava chyb uživatele ■ . .. Způsoby ověření získaných dat: ■ Sumarizující zpětná vazba - po zadání veškerých dat uživatelem je zopakuje a případně umožní jejich opravu. ■ Zpětná vazba ,,echo" - po zadání každého údaje ho uživateli zopakuje, poskytne mu možnost případné opravy. ■ Implicitní zpětná vazba - posledně zadaná data jsou součástí dotazu na následující údaj. ■ Explicitní zpětná vazba - systém validuje zadaná data pomocí explicitních dotazů na jejich hodnoty. Zpětná vazba v dialogovém systému Příklady Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Sumarizující zpětná vazba: Uživatel: Chci jet vlakem z Adamova do Kerkyry. Systém: Hledaný druh spojení Vlak. Odjezd Adamov, cílová stanice Kerkyra. Zpětná vazba „echo": Systém: Cím chcete jet? Vlakem. Chcete jet vlakem. Odkud chcete jet? Z Adamova. Chcete jet z Adamova. Kam chcete jet? Do Kerkyry. Uživatel Systém: Uživatel Systém: Uživatel Zpětná vazba v dialogovém systému Příklady Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Implicitní zpětná vazba: Systém: Jméno studenta. Uživatel: Jan Novák. Systém: Ve kterém městě se Jan Novák narodil Teorie Explicitní zpětná vazba: Systém: Zadejte jméno studenta. Uživatel: Jan Novák. Systém: Student se jmenuje Jan Novák. Je to tak? Ukázka opravného dialogu Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická interpretace promluvy Řízení průběhu dialogu Teorie Uživatel Systém: Uživatel Systém: Uživatel Systém: Jmenuji se Jan Horák a narodil jsem se 8.8. 1988 v ABC. Bylo zadáno jméno Jan Novák, datum narození 8.8. 1988 a místo narození ABC. Ne jméno je Jan Horák. Zadal jste jméno Jan Horňák. Datum narození 8.8. 1988 a místo ABC. Ne, jméno má být Jan Novák. Zadal jste jméno Jan Novák, datum narození 8.8. 1988 a místo ABC. Další aspekty dialogových strategií Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Možnost přerušit systém. Možnost iniciovat korekce a metakomunikaci uživatelem: Uživatel: Mohl, byste prosím zopakovat poslední dotaz? Možnost získání nápovědy: Uživatel: Mohl byste mi upřesnit požadované údaje? Detekce znalostí a schopností uživatele: ■ Částečně lze odvodit z předchozího průběhu dialogu: ■ počet chyb uživatele ■ počet žádostí o nápovědu ■ Uzpůsobení iniciativy dialogového systému. Přizpůsobení dialogové strategie - např. uživatel ve spěchu, vystresovaný uživatel, ... Další aspekty dialogových strategií Dialogové systémy Luděk Bártek Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Teorie Detekce emocí uživatele: ■ na základě neverbálních charakteristik hlasu - nutná podpora v modulu rozpoznávání řeči ■ pomocí dalších čidel - EEG, EKG, ... vícejazyčnost (multilingualita). multimodalita ■ rozhovor vede avatar (talking head) - vhodné např. pro uživatele s poruchou slyšení. ■ alternativní způsob vstupu: ■ klávesnice ■ snímání obličeje zdvořilost prozódie učení se z chyb.