Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2014 Rozpoznávání izolovaných slov Typy klasifikátorů Dialogové systémy Luděk Bártek Rozpoznávání řeči ■ Klasifikátory využívající porovnání slov metodou DTW. Sémantická ■ Snaží se nalézt co největší shodu mezi rozpoznávaným interpretace promluvy slovem a slovy v databázi. Řízení průběhu ■ Klasifikátory založené na statistických metodách - dialogu modelování pomocí skrytých Markovových modelů: ■ simulace procesu tvorby řeči. ■ Klasifikátory pracující na dvou úrovních: Q segmentace a fonetické dekódování jednotlivých segmentů B rozpoznání slova na základě dekódovaných segmentů. Dyn amic Time Warping (DTW) Dialogové systémy Luděk Bártek Rozpoznávání řeči ■ Metoda borcení časové osy. Sémantická interpretace ■ Používá se pro porovnání dvou číselných řad - dvou úseků promluvy Řízení průběhu dialogu ■ promluv (dvou slov). Vstup: ■ posloupnost akustických vektorů získaných pomocí metod krátkodobé analýzy signálu ■ databáze akustických vektorů rozpoznávaných slov. ■ Výstup - rozpoznané slovo resp. povel. DTW Základní postup Dialogové systémy Luděk Bártek Rozpoznávání řeči Sémantická interpretace promluvy Řízení průběhu ■ Vytvoříme databázi rozpoznávaných slov (referenční posloupnosti akustických vektorů). ■ Obvykle několik posloupností pro každé slovo, které odpovídají několika způsobům vyslovení příkazu. dialogu ■ Rozpoznávané slovo převedeme na odpovídající posloupnost akustických vektorů. ■ Metodou DTW nalezneme referenční posloupnost akustických vektorů s maximální shodou. ■00.0 DTW Formalizace Dialogové systémy Algoritmus DTW hledá parametrizaci f,g: f,g:i = f{k),j = g{k),ke minimalizující výraz K D{A,B) = YJd{af[i),bg{i)) i=l ■ d - vzdálenost akustických vektorů (např. Euklidovská metrika) ■ 3f(,), - referenční a rozpoznávaný příkaz. DTW Omezující podmínky Dialogové systémy Luděk Bártek ■ f,g - neklesající funkce Rozpoznávání řeči ■ Omezení na lokální souvislost a strmost: Sémantická ■ 0 < f{k) - f{k-l) < 1* interpretace promluvy m 0 < g(k) - g(k - 1) < J* Řízení průběhu ■ většinou platí l*,J* — 1,2,3 dialogu ■ Z praktických testů vyplynulo, že při příliš strmém přírůstku může dojít k nevhodné korespondenci mezi příliš krátkým segmentem vzorku a a příliš dlouhým segmentem vzorku b. m Omezení na hraniční body: ■ f(l) — 1, f(K) — 1, kde 1 je počet vzorků slova a. ■ g(l) — l,g(K) — J, kde J je počet vzorků slova b. DTW Omezující podmínky - pokračování Dialogové systémy Globální vymezení oblasti pohybu funkce DTW: ■ omezení minimální a maximální přípustné směrnice přímky vymezující přípustnou oblast pohybu funkce DTW, při splnění podmínky na hraniční body: 1 + a[i(k) - 1] < 1 + 0[i(k) - 1] a - minimální směrnice přímky omezující přípustnou oblast j3 - maximální směrnice přímky omezující přípustnou oblast. DTW - Praktická realizace klasifikátoru slov Blokové schéma Rozpoznávání řeči Sémantická interpretace promluvy Řízení průběhu dialogu Zpracování signálu Vytvořeni referenčních obrazů slov a jejich uloženi ve slovníku Výber příznaků Vytváření obrazu testovaného slova Porovnání obrazů Algoritmem DTW Rozpoznání neznámého slova Obrázek: Blokové schéma klasifikátoru slov DTW - Praktická realizace klasifikátoru slov Trénování Dialogové systémy Obecný postup: Q Řečník resp. skupina řečníků vysloví postupně každé trénované slovo požadovaného slovníku, bud' jednou nebo opakovaně. B Vstupní slova jsou zdigitalizována a následně převedena zvolenou metodou krátkodobé analýzy na posloupnost vektorů příznaků. Q Detekce hranic (počátku a konce) slov: ■ Může být náročné na provedení, např. kvůli rušivému pozadí. ■ Nekorektní detekce hranic slov zhoršuje úspěšnost rozpoznávání. ■ Metody odstraňující i jen částečně vliv akustického pozadí zvyšují výpočetní náročnost. Q Vytvoření referenčních obrazů slov. DTW - praktická realizace Metody vytváření referenčních obrazů slov Dialogové systémy ■ Přímé použití obrazů trénovací množiny jako referenčních Luděk Bártek obrazů slov - DTW nevyžaduje, aby obrazy téhož slova Rozpoznávání řeči byly stejně dlouhé, ale z důvodu možnosti aplikace pomocných kritérií, je vhodné provést časovou normalizaci Sémantická interpretace promluvy každého obrazu. ■ Vytváření průměrného vzorového obrazu pro každou třídu Řízení průběhu slov w. dialogu ■ používají se metody lineárního a dynamického průměrová ní. ■ Vytváření vzorových obrazů shlukováním. ■ Vzorové obrazy pro dané slovo se rozdělí do shluků tak, že obrazy uvnitř shluku jsou si „podobné" a obrazy z různých shluků jsou „nepodobné". ■ Shlukování lze realizovat interaktivně (poloautomaticky -metoda řetězové mapy, algoritmus ISODATA), automaticky (algoritmy založené na MacQueenově algoritmu). Více viz závěrečná práce Mgr. Jiřího Kučery. ' < □ ► <äŕ> < < i ► i -00.O DTW Redukce výpočetních a paměťových nároků Dialogové systémy Nevýhody DTW - vysoké paměťové a výpočetní nároky mohou znesnadňovat klasifikaci v reálném čase i při relativně malém slovníku. Metody řešení: ■ Hrubá síla - využití paralelních procesorů popř. zákaznických obvodů - může být drahé. ■ Vhodné zakódování parametrů jednotlivých mikrosegmentů referenčních i testovacích obrazů. Využívá se: ■ vektorová kvantizace - počet různých vzorků je konečný -uloží se do kódové knihy a místo hodnoty vzorku se pracuje s jejich indexy v kódové knize. ■ kódová kniha - abeceda všech hodnot, které se vyskytly v signálu (lze kódovat úsporněji než při použití standardního PCM). DTW Redukce výpočetních a paměťových nároků Dialogové systémy Využití oblastí spektrální stacionarity - metoda segmentace spektrální stopy. ■ Spektrální stopa - spojnice koncových bodů vektorů příznaků. ■ Lze ji aproximovat - např. lineárními úseky. Optimalizace vyhledávání nejbližšího souseda: ■ metody prohledávání metrických prostorů ■ nutno ověřit, že vzdálenost použitá v DTW je metrika. DTW Redukce výpočetních a paměťových nároků Dialogové systémy Luděk Bártek Rozpoznávání řeči ■ Redukce výpočetních nároků pomocí heuristik při Sémantická porovnávání. interpretace promluvy ■ Vícestupňový rozhodovací postup: Řízení průběhu Q porovnání promluvy proti celému slovníku pomocí dialogu omezené množiny příznaků Teorie Q dohledání výsledku kroku 1. pomocí klasického DTW. ■ Práh zamítnutí: Q po každém kroku spočítáme vzdálenost slova a obrazu Q pokud překročí experimentálně stanovený práh, obraz je zamítnut. Skryté Markovovské Modely - HM M Dialogové systémy Modelování řeči pomocí HMM vychází z následující představy o tvorbě řeči: ■ Hlasové ústrojí se v krátkém čase nachází v jedné z konečně mnoha artikulačních konfigurací - generuje hlasový signál. ■ Přejde do následující konfigurace. Tuto činnost lze modelovat statisticky. Kvantizací akustických vektorů lze dosáhnout konečnosti všech parametrů odpovídajícího modelu. HMM Principy použití pro rozpoznávání Dialogové systémy Jsou generovány dvě vzájemně svázané časové posloupnosti náhodných proměnných: ■ podpůrný Markovův řetězec - posloupnost konečného počtu stavů ■ řetězec konečného počtu spektrálních vzorů. Náhodná funkce ohodnocující pravděpodobnostmi vztah vzorů k jednotlivým stavům. Pro rozpoznávání řeči jsou nejčastěji využívané levo-pravé Markovovy modely: ■ vhodné pro modelování procesů spjatých se vzrůstajícím časem. HMM Markovu v proces Dialogové systémy Markovův proces G se skrytým Markovovým modelem je pětice G = (Q, V, N, M, n) m Q — q\,..., qk - množina stavů ■ V — vi,... ,Vj( — množina výstupních symbolů m N — {n;j) - matice přechodu. Určuje pravděpodobnost přechodu ze stavu q-, v čase ŕi do stavu qj v čase Í2. ■ M — {m■, j) - matice přechodu, určující pravděpodobnost generovaní akustického vektoru vj, v kterémkoliv čase ve stavu q/. m tt — {-kj) - vektor pravděpodobností počátečního stavu (pravděpodobnost toho, že stav / je počáteční). Trojice A = (N, M, tt) - vytváří model řečového segmentu. ■ např. Vintsjukův model pro slovo - počet stavů 40 — 50 (odvozeno od průměrného počtu mikrosegmentů ve slově; délka mikrosegmentů 10 ms). HMM Určení pravděpodobnosti promluvy Dialogové systémy Luděk Bártek Rozpoznávání ■ Značíme P{0\X) řeči Sémantická interpretace ■ Promluva 0 standardně zpracována do posloupnosti promluvy 0 = (oi,...,or) Řízení průběhu dialogu ■ T - počet mikrosegmentů promluvy Teorie ■ o-, - odpovídají výstupním symbolům. ■ Určení P(0 A) - metoda využívající rekurzivní výpočet odpředu nebo odzadu generované posloupnosti (forward-backward algorithm). HMM Určení pravděpodobnosti promluvy - výpočet Dialogové systémy Výpočet odpředu: a,- - pravděpodobnost přechodu do stavu q,- při generování posloupnosti {oi,..., ot}(aj — P{o\... ot, q,(ř)|A) ■ Rekurzivní výpočet: Q inicializace: ai(/) = 7r,m,(oi), / G< 1, N > Q Rekurzivní krok pro t=l,. .. T-l: i=i pro j G< 1, N >, m(ot) je ekvivalentní zápisu rrii(l), pokud ot = v>. Výsledná pravděpodobnost: P(0\\) = Y,<*tV) HMM Alternativní způsob výpočtu P(0\X) Dialogové systémy Nevýhoda předchozího postupu: ■ ve výsledném vztahu jsou zahrnuty pravděpodobnosti všech možných posloupností stavů délky T. Řešení: ■ výpočet maximálně pravděpodobné posloupnosti stavů Q. Výpočet realizován pomocí Viterbiova algoritmu: ■ problém řešen rekurzivně s použitím technik dynamického programování. HMM Trénování parametrů modelu A = (A/, M, tv) Dialogové systémy Nutno stanovit postup při trénování parametrů modelu. Cíl trénování: ■ maximalizace pravděpodobnosti P(0\X) Problém: ■ neexistuje analytická metoda ke zjištění globálního maxima funkce n proměnných. Řešení: ■ lze použít iterativní algoritmy zajištující aspoň lokální maximalitu. Nej používanější postup - Baum-Welchův algoritmus. Další problém při trénování modelu: ■ vliv konečné trénovací množiny: ■ čím menší trénovací množina a čím větší matice M, tím větší pravděpodobnost, že některé prvky zůstanou nastaveny na 0 (problém chybějících/neadekvátních dat). i (5P ► < 1 -00.0 HMM Rozhodovací pravidlo při rozpoznávání izolovaného slova Dialogové systémy Luděk Bártek Používá se princip maximální věrohodnosti. Q Pro slovo 0 a všechna A: Q Spočítáme P(0\\). Q Jako výsledek vybereme třídu s maximální hodnotou P(0\X). HMM Implementace Dialogové systémy Modelování povelů: ■ nejčastěji se používají modely se 4 — 7 stavy. ■ Pro modelovaní lze využít nástroje pro tvorbu HMM ■ HTK - Hidden Markov Model Toolkit. Modelování fonémů: ■ obvykle 4 — 7 stavů ■ model slova - zřetězení modelů fonémů ■ problémy s výpočtem v reálném čase ■ lze řešit pomocí speciálních algoritmů pro hledání maxima P(0\\). Příklady struktur pro fonémy Příklady struktur pro fonémy Rozpoznávaní plynulé řeči Dialogové systémy Hlavní rozdíly oproti rozpoznávání slov: ■ nelze vytvořit databázi vzorů ■ nutno brát zřetel na prozodické faktory ■ nutno určovat hranice mezi slovy ■ vypořádání se s výplňkovými zvuky a chybami řeči. Řešení - statistický přístup: ■ jazykový model ■ model uživatele. Příklad: HMM vrátí stejnou pravděpodobnost např. pro slova „máma" a ,,nána" - nejspíše se použije máma - je častější. Rozpoznávaní plynulé reči Jazykové modely Dialogové systémy Máme: ■ posloupnost slov (promluva) 1/1/ — (wi,..., wn) m posloupnost akustických vektoru O — (oi,..., ot). Chceme nalézt W* (množinu všech promluv), která maximalizuje P(W\0). Dle Bayesova pravidla platí: P(W*\0) = maxP(W\0) = max P(W) * P(0\W) PjÔ) Rozpoznávání plynulé reči Jazykové modely - pokračování Dialogové systémy Luděk Bártek Rozpoznávání řeči ■ Pro nalezení maxima potřebujeme znát: ■ model řečníka - P{0\W) Sémantická interpretace ■ jazykový model - P(W). promluvy ■ Model řečníka lze nahradit pravděpodobností generování Řízení průběhu dialogu W odpovídajícím Markovovým modelem. Teorie ■ Trigramový model: ■ Experimentálně ověřeno, že platí: P{wn\w1 ... irv„_i) = P{wn\wn_2wn-i) Rozpoznávaní plynulé reči Rozpoznávání tématu Dialogové systémy Úspěšnost rozpoznávaní řeči se pohybuje cca 50 % — 99 % v závislosti na úkolu, jazyku, ... Úspěšnost rozpoznávání lze zvýšit omezením domény rozpoznávání: ■ rozpoznání tématu ■ použitím gramatik pro rozpoznávání řeči. Známé téma: ■ změna stavového prostoru a pravděpodobnosti trigramů: ■ např. burzovní zprávy - rozpoznáno „honey" nebo „money"? ■ možnost vytvoření přesnějšího jazykového modelu. Gramatiky pro podporu rozpoznávání řeči Dialogové systémy Luděk Bártek Rozpoznávání ■ Úspěšnost obecného rozpoznávání plynulé řeči může řeči klesnout až na cca 50 %. Sémantická interpretace ■ Zvýšení lze dosáhnout omezením domény - např. promluvy Řízení průběhu specifikováním přípustných vstupů. dialogu ■ Lze použít gramatiky pro podporu rozpoznávání řeči: ■ bezkontextové gramatiky ■ Způsoby zápisů gramatik: ■ prostředky logického programování ■ proprietami řešení ■ otevřené standardy - JSGF, W3C SRGS, .. . ■00.0 Gramatiky pro podporu rozpoznávání řeči Java Speech Grammar Specification (JSGF) Dialogové systémy Luděk Bártek Rozpoznávání ■ Textový zápis gramatiky nezávislý na platformě a prodejci. řeči Sémantická ■ Určen pro použití při rozpoznávání řeči. interpretace promluvy ■ Součást Java Speech API. Řízení průběhu ■ Používá styl a konvence jazyka Java. ■ Aktuální verze 1.0 (říjen 1998). ■ Použit např. v rozpoznávací Sphinx-4, VoiceXML interpretru VoiceGlue, . .. ■ Podrobněji v 2. polovině semestru při probírání tvorby dialogových rozhraní. Gramatiky pro podporu rozpoznávaní řeči Ukázka JSGF Dialogové systémy #JSGF = Chci jet .| Chci jet z do .| Chci jet z do v = vlakem | autobusem; = ; = ; = ; Gramatiky pro podporu rozpoznávání řeči W3C Speech Recognition Grammar Specification (SRGS) Dialogové systémy Standard W3C. Aktuální verze 1.0 (březen 2004). Definuje způsob zápisu pravidel a jejich odkazování. Dva způsoby zápisu: ■ XML ■ ABNF (Augmented BNF). Podrobněji v 2. polovině semestru při probírání tvorby dialogových rozhraní. Ukázka W3C SRGS Dialogové systémy #ABNF 1.0 UTF-8 root $pozdrav; language cs-CZ; mode voice; $pozdrav = ahoj ahoj < /rule> < /grammar> Sémantická interpretace promluvy Dialogové systémy Cíl - počítači srozumitelná interpretace informací zadaných uživatelem. Příklad: Chtěl bych si koupit Zkrocení zlé ženy od Shakespeara. ■ akce — nákup ■ titul — Zkrocení zlé ženy ■ autor — Shakespeare Reprezentace - dvojice (atribut, hodnota). Implementace: ■ pravidlům gramatiky pro rozpoznávání řeči přidáme atributy, do kterých ukládáme jejich sémantickou reprezentaci. ■ Na atributech lze provádět operace sloužící k sestavení sémantické interpretace celé promluvy z interpretací jednotlivých pravidel. 4 □ ► 4 S ► 4 1 -00.0 Popis Sémantické Interpretace Dialogové systémy Luděk Bártek ■ JSGF: Rozpoznávání řeči ■ přiřazena pomocí značek (tags) ■ zápis - {sémantická interpretace} Sémantická interpretace < sentence >=< intro >< titul > od < autor > promluvy < titul >= Pejska a kočičku Řízení průběhu dialogu {Povídání o pejskovi a kočičce} Teorie (Zlou ženu Zkrocení zlé ženy) {Zkrocení zlé ženy} ... ■ SRGS - standard SISR : ■ standard W3C Voice Browser Activity. Je postaven na jazyce ECMAScript. ■ K pravidlům se přidává pomocí značky nebo atributu tag. ■ Do dialogu je interpretace vracena ve formátu JSON. ■ . . . Základní pojmy Dialogové systémy Luděk Bártek ■ Dialog - rozhovor dvou a více účastníku (sled promluv). Rozpoznávání řeči ■ Promluva - Souvislé sdělení, které učiní jeden účastník Sémantická dialogu směrem k druhému. interpretace promluvy ■ Obrat - Promluva a reakce druhého účastníka na ni. Řízení průběhu dialogu ■ Dialogová strategie Teorie ■ Postup, který k dané promluvě přiřazuje následující promluvu. ■ Využívá znalost stavu dialogu: ■ zadané a požadované informace ■ schopnosti účastníků dialogu ■ ■ Je vlastností každého účastníka dialogu. Základní pojmy Dialogová komunikace Dialogové systémy Luděk Bártek Rozpoznávání ■ Hodnotící funkce: řeči ■ funkce přiřazující každému dialogu reálné číslo. Sémantická interpretace ■ Označuje se E(L), kde Z. je dialog. Řízení průběhu dialogu ■ Dialogová komunikace - Uspořádaná čtveřice M = {S1,S2,E1,E2) ■ S,, i G {1,2} - dialogová strategie příslušného účastníka. ■ E-,, i G {1, 2} - hodnotící funkce příslušného účastníka. Základní pojmy Kooperativita dialogu Dialogové systémy Dialogovou komunikaci M = (Si, S2, Ei, £2) nazveme: ■ Kooperativní <=> £1 = £2. Oba účastníci dialogu mají stejný cíl a snaží se spolupracovat. ■ Nekooperativní 4=> £1 7^ £2. Cíle obou účastníků dialogu se odlišují. ■ S nulovým součtem <=> E\ — —£2. Cíle obou účastníků dialogu jsou protichůdné. Toto hodnocení vychází z teorie her: ■ na dialog lze pohlížet jako na hru dvou účastníků. Pravidla pro vedení kooperativního dialogu Dialogové systémy Dialogový systém by se měl snažit o kooperativní dialog. Autor Herbert Paul Grice - anglický jazykovědec. Aspekt informativnosti: Q Buď přiměřeně informativní - ne méně než je potřeba, ale ani ne více než je potřeba. Aspekt přesvědčivosti: Q Neuváděj nepravdivé informace. B Neuváděj informace, které nelze dokázat nebo doložit. Aspekt způsobu: Q Informace v replice by měla být co nejvíce explicitní. Q Vyhýbejte se nejednoznačnostem. Q Usilujte o stručnost. Q Buďte disciplinovaní, udržujte v dialogu pořádek. Pravidla pro vedení kooperativního dialogu pokračování Dialogové systémy ■ Aspekt zdvořilosti, empatie a etiky: Luděk Bártek Q Minimalizujte nároky vůči komunikačnímu partnerovi, Rozpoznávání maximalizujte výhody pro něj. řeči B Minimalizujte nedostatky komunikačního partnera a Sémantická interpretace maximalizujte jeho přednosti. promluvy B Maximalizujte souhlas s partnerem a minimalizujte jeho Řízení průběhu nesouhlas. dialogu B Maximalizujte empatii vůči partnerovi. ■ Aspekt asymetrie: B Informujte uživatele o všech důležitých charakteristikách, které vybočují z očekávaného normálního průběhu dialogu, a která by měl vzít v úvahu k zajištění kooperativity. B Zajistěte stručné, avšak dostatečné informování uživatele o možnostech systému a jeho omezeních. B Informujte srozumitelně a dostatečně o způsobu interakce se systémem. Pravidla pro vedení kooperativního dialogu Komunikace člověk — počítač Dialogové systémy Luděk Bártek ■ Aspekt znalostí a schopností: Rozpoznávání Q Vezměte v úvahu relevantní znalosti uživatele. řeči B Vezměte v úvahu možné uživatelovy chybné analogie. Sémantická interpretace Q Rozlišujte mezi začínajícím a zkušeným uživatelem promluvy systému. Řízení průběhu Q Vezměte v úvahu legitimní představy uživatele o znalostech a schopnostech systému. ■ Aspekt vyjasňování a odstraňování chyb: Q V případě selhání komunikace iniciujte meta komunikaci zajišťující odstranění chyby nebo její vysvětlení. B Zajistěte vysvětlující meta komunikaci v případě nekonsistentních nebo nejednoznačných uživatelových vstupních dat. Aspekty komunikace kooperativního dialogového systému Dialogové systémy Dialogový systém při komunikaci s uživatelem by měl brát ohled na následující aspekty: ■ aspekt informativnosti ■ aspekt přesvědčivosti ■ aspekt způsobu ■ aspekty zdvořilosti, empatie a etiky ■ aspekt asymetrie ■ aspekt znalostí a schopností uživatele ■ aspekt vyjasňování a odstraňování chyb. Iniciativa v dialogu Dialogové systémy Další krok dialogu je vždy určen dialogovou strategií jedné z komunikujících stran. ■ Jedna strana klade dotazy, druhá na ně odpovídá. V případě komunikace člověk — počítač lze rozlišit: ■ dialog s iniciativou uživatele ■ dialog s iniciativou systému ■ dialog se smíšenou iniciativou. Reálné systémy používají: ■ dialogy se smíšenou iniciativou ■ dialogy s iniciativou systému. Iniciativa v d ialogu Příklady Dialogové systémy ■ Dialog s iniciativou systému: Luděk Bártek Systém: Zadejte Vaše uživatelské jméno Rozpoznávání řeči Uživatel: xyz Systém: Aby Vás bylo možné ověřit řekněte větu: Sémantická „Můj hlas je můj pas. Ověř si mě." interpretace promluvy Uživatel: Můj hlas je můj pas. Ověř si mě. Řízení průběhu dialogu ■ Dialog se smíšenou iniciativou: Uživatel: Chtěl bych je dnes vlakem z Adamova do Kerkyry. Systém: Chcete nalézt přímý spoj nebo spojení s přestupy? Uživatel: Chtěl bych jet bez přestupů. Systém: Je mi líto, ale přímý vlak z Adamova do Kerkyry nejezdí. Zpětná vazba v dialogovém systému Dialogové systémy Před tím, než systém zpracuje získané informace, je vhodné provést jejich verifikaci: ■ oprava chyb rozpoznávání řeči ■ oprava chyb uživatele Způsoby ověření získaných dat: ■ Sumarizující zpětná vazba - po zadání veškerých dat uživatelem je zopakuje a případně umožní jejich opravu. ■ Zpětná vazba „echo" - po zadání každého údaje ho uživateli zopakuje, poskytne mu možnost případné opravy. ■ Implicitní zpětná vazba - posledně zadaná data jsou součástí dotazu na následující údaj. ■ Explicitní zpětná vazba - systém validuje zadaná data pomocí explicitních dotazů na jejich hodnoty. 4Ľ3k4l3*4 = k4 = * -š -O^O Zpětná vazba Příklady v dialogovém systému Dialogové systémy Luděk Bártek ■ Sumarizující zpětná vazba: Rozpoznávání Uživatel: Chci jet vlakem z Adamova do Kerkyry. řeči Sema nticka Systém: Hledaný druh spojení Vlak. Odjezd Adamov, interpretace cílová stanice Kerkyra. promluvy Řízení průběhu dialogu ■ Zpětná vazba „echo": Systém: Čím chcete jet? Uživatel: Vlakem. Systém: Chcete jet vlakem. Odkud chcete jet? Uživatel: Z Adamova. Systém: Chcete jet z Adamova. Kam chcete jet? Uživatel: Do Kerkyry. Zpětná vazba v dialogovém systému Příklady Dialogové systémy Luděk Bártek Rozpoznávání ■ Implicitní zpětná vazba: řeči Systém: Jméno studenta. Sémantická interpretace Uživatel: Jan Novák. promluvy Systém: Ve kterém městě se Jan Novák narodil. Řízení průběhu dialogu Teorie ■ Explicitní zpětná vazba: Systém: Zadejte jméno studenta. Uživatel: Jan Novák. Systém: Student se jmenuje Jan Novák. Je to tak? Ukázka opravného dialogu Dialogové systémy Uživatel: Jmenuji se Jan Horák a narodil jsem se 8.8. 1988 v ABC. Systém: Bylo zadáno jméno Jan Novák, datum narození 8.8. 1988 a místo narození ABC. Uživatel: Ne jméno je Jan Horák. Systém: Zadal jste jméno Jan Horňák. Datum narození 8.8. 1988 a místo ABC. Uživatel: Ne, jméno má být Jan Novák. Systém: Zadal jste jméno Jan Novák, datum narození 8.8. 1988 a místo ABC. Další aspekty dialogových strategií Dialogové systémy Luděk Bártek ■ Možnost přerušit systém. Rozpoznávání ■ Možnost iniciovat korekce a metakomunikaci uživatelem: řeči Uživatel: Mohl, byste prosím zopakovat poslední dotaz? Sémantická interpretace ■ Možnost získání nápovědy: promluvy Řízení průběhu Uživatel: Mohl byste mi upřesnit požadované údaje? dialogu ■ Detekce znalostí a schopností uživatele: ■ Částečně lze odvodit z předchozího průběhu dialogu: ■ počet chyb uživatele ■ počet žádostí o nápovědu ■ ... ■ Uzpůsobení iniciativy dialogového systému. ■ Přizpůsobení dialogové strategie - např. uživatel ve spěchu, vystresovaný uživatel, ... Další aspekty dialogových strategií Dialogové systémy ■ Detekce emocí uživatele: Luděk Bártek ■ na základě neverbálních charakteristik hlasu - nutná Rozpoznávání řeči podpora v modulu rozpoznávání řeči ■ pomocí dalších čidel - EEG, EKG, .. . Sémantická interpretace ■ vícejazyčnost (multilingualita). promluvy Řízení průběhu dialogu ■ multimodalita ■ rozhovor vede avatar (talking head) - vhodné např. pro uživatele s poruchou slyšení. ■ alternativní způsob vstupu: ■ klávesnice ■ snímání obličeje ■ . . . ■ zdvořilost ■ prozódie ■ učení se z chyb.