Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Sémantická interpretace promluvy
Řízení průběhu dialogu Teorie
Dialogové systémy
Luděk Bártek
Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity,
Brno
jaro 2018
>0 0,0
Rozpoznávaní řeči
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Sémantická interpretace promluvy
Řízení průběhu dialogu Teorie
■ Rozpoznávání plynulé řeči - převádí souvislou promluvu na psaný text.
■ Rozpoznávání izolovaných slov/příkazů.
■ Princip rozpoznávání:
Q získání vektoru příznaků pomocí metod krátkodobé
analýzy signálu, B klasifikace na základě vektoru příznaku získaného
v předchozím kroku.
Rozpoznávaní izolovaných slov
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Sémantická interpretace promluvy
Řízení průběhu dialogu Teorie
■ Slouží k rozpoznání povelů nebo slov (příkazů) zřetelně oddělených na začátku a konci mezerou.
■ Odpadá problém stanovení začátku a konce slova v souvislé promluvě.
■ Obvykle systémy závislé na uživateli:
■ nutnost natrénování
■ omezená kapacita slovníku.
■ Obtíže při rozpoznávání izolovaných slov:
■ Určení začátku a konce promluvy:
■ odlišení šumu od sykavek,
■ detekce nahodilého zvukového vzruchu (klepnutí, .. .) kontra okluzívy, které obsahují pauzy,
■ možná přítomnost infrazvuku.
■ . ..
	Rozpoznávání izolovaných slov	
	Typy klasifikátorů	
Dialogové		
systémy	■	Klasifikátory využívající porovnání slov metodou DTW.
Luděk Bártek		■ Snaží se nalézt co největší shodu mezi rozpoznávaným
Rozpoznávání		slovem a slovy v databázi.
řeči Rozpoznávání	■	Klasifikátory založené na statistických metodách -
izolovaných slov Rozpoznávání plynulé řeči Sémantická		modelování pomocí skrytých M a r kovových modelů:
		■ simulace procesu tvorby řeči.
interpretace promluvy	■	Klasifikátory pracující na dvou úrovních:
Řízení průběhu		O segmentace a fonetické dekódování jednotlivých segmentů
dialogu Teorie		B rozpoznání slova na základě dekódovaných segmentů.
	■	Využití umělých neuronových sítí - více viz: ■ Hinton, 0., Teh - A Fast Learning Algorithm for Deep Belief Nets, in Neural Computation, 2006 ■ Bengio, L, Popovici, L. - Greedy Layer-Wise Training of Deep Networks, in NIPS' 20016 ■ Speech recognition - Lecture 14: Neural Networks
Dynamic Time Warping (DTW)
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Metoda borcení časové osy.
Používá se pro porovnání dvou číselných řad - dvou úseků promluv (dvou slov).
Vstup:
■ posloupnost akustických vektorů získaných pomocí metod krátkodobé analýzy signálu
■ databáze akustických vektorů rozpoznávaných slov.
Výstup - rozpoznané slovo resp. povel.
	DTW Základní postup	
Dialogové systémy		
Luděk Bártek		
Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická interpretace promluvy Řízení průběhu dialogu	■ Vytvoříme databázi rozpoznávaných slov (referenční posloupnosti akustických vektorů). ■ Obvykle několik posloupností pro každé slovo, které odpovídají několika způsobům vyslovení příkazu. ■ Rozpoznávané slovo převedeme na odpovídající posloupnost akustických vektorů.	
Teorie	■ Metodou DTW nalezneme referenční posloupnost akustických vektorů s maximální shodou.	
		
DTW
Formalizace
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Sémantická interpretace promluvy
Řízení průběhu dialogu Teorie
Algoritmus DTW hledá parametrizaci f,g:
f,g:i = f(k)J = g(k),ke<l,K> minimalizující výraz
K
D(A6) = ^d(af(/),%))
i=l
d - vzdálenost akustických vektorů (např. Euklidovská metrika)
af(i)' bg(i) - referenční a rozpoznávaný příkaz.
DTW
Omezující podmínky
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
f,g - neklesající funkce
Omezení na lokální souvislost a strmost:
■ 0 < f(k) - f(k-l) < /*
■ 0<g{k)-g{k-l)<J*
■ většinou platí /*, J* = 1,2,3
■ Z praktických testů vyplynulo, že při příliš strmém přírůstku může dojít k nevhodné korespondenci mezi příliš krátkým segmentem vzorku a a příliš dlouhým segmentem vzorku b.
Omezení na hraniční body:
■ f(l) = 1, f(K) = /, kde I je počet vzorků slova a.
■ g-(l) = l,g"(/<) = J, kde J je počet vzorků slova b.
-írnJ^ <      >•      -E     O Q, O
	DTW
	Omezující podmínky - pokračování
Dialogové systémy	
Luděk Bártek	
Rozpoznávání	■ Globální vymezení oblasti pohybu funkce DTW:
řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči Sémantická	■ omezení minimální a maximální přípustné směrnice přímky vymezující přípustnou oblast pohybu funkce DTW, při splnění podmínky na hraniční body:
interpretace promluvy	l + a[i(k)-l] < 1 + P[i(k) - 1]
Řízení průběhu dialogu Teorie	■ a - minimální směrnice přímky omezující přípustnou oblast ■ /3 - maximální směrnice přímky omezující přípustnou oblast.
DTW - Praktická realizace klasifikátoru slov
Blokové schéma
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Sémantická interpretace promluvy
Řízení průběhu dialogu
Teorie
£
Vytvořeni referenčních obrazů slov a jejich uložení ve slovníku
Uživatel
Zpracování signálu
±
Výběr příznaků
Vytvoření obrazu testovaného slova
Porovnání obrazů Algoritmem DTW
Rozpoznání neznámého slova
Obrázek: Blokové schéma klasifikátoru slov
□
DTW - Praktická realizace klasifikátoru slov
Trénování
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Obecný postup:
O Řečník resp. skupina řečníků vysloví postupně každé
trénované slovo požadovaného slovníku, buď jednou nebo opakovaně.
B Vstupní slova jsou zdigitalizována a následně převedena zvolenou metodou krátkodobé analýzy na posloupnost vektorů příznaků.
B Detekce hranic (počátku a konce) slov:
■ Může být náročné na provedení, např. kvůli rušivému pozadí.
■ Nekorektní detekce hranic slov zhoršuje úspěšnost rozpoznávání.
■ Metody odstraňující i jen částečně vliv akustického pozadí zvyšují výpočetní náročnost.
Vytvoření referenčních obrazů slov.
DTW - praktická realizace
Metody vytváření referenčních obrazů slov
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Sémantická interpretace promluvy
Řízení průběhu dialogu Teorie
■ Přímé použití obrazů trénovací množiny jako referenčních obrazů slov - DTW nevyžaduje, aby obrazy téhož slova byly stejně dlouhé, ale z důvodu možnosti aplikace pomocných kritérií, je vhodné provést časovou normalizaci
každého obrazu.
■ Vytváření průměrného vzorového obrazu pro každou třídu slov w\
■ používají se metody lineárního a dynamického průměrování.
■ Vytváření vzorových obrazů shlukováním.
■ Vzorové obrazy pro dané slovo se rozdělí do shluků tak, že obrazy uvnitř shluku jsou si ,,podobné" a obrazy z různých shluků jsou ,,nepodobné".
■ Shlukování lze realizovat interaktivně (poloautomaticky -metoda řetězové mapy, algoritmus ISODATA), automaticky (algoritmy založené na MacQueenově algoritmu). Více viz závěrečná práce Mgr. Jiřího_Kučejy.
DTW
Redukce výpočetních a paměťových nároků
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Nevýhody DTW - vysoké paměťové a výpočetní nároky mohou znesnadňovat klasifikaci v reálném čase i při relativně malém slovníku.
Metody řešení:
■ Hrubá síla - využití paralelních procesorů popř. zákaznických obvodů - může být drahé.
■ Vhodné zakódování parametrů jednotlivých mikrosegmentů referenčních i testovacích obrazů. Využívá se:
■ vektorová kvantizace - počet různých vzorků je konečný -uloží se do kódové knihy a místo hodnoty vzorku se pracuje s jejich indexy v kódové knize.
■ kódová kniha - abeceda všech hodnot, které se vyskytly v signálu (lze kódovat úsporněji než při použití standardního PCM).
DTW
Redukce výpočetních a paměťových nároků
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Využití oblastí spektrální stacionarity - metoda segmentace spektrální stopy.
■ Spektrální stopa - spojnice koncových bodů vektorů příznaků.
■ Lze ji aproximovat - např. lineárními úseky.
Optimalizace vyhledávání nejbližšího souseda:
■ metody prohledávání metrických prostorů
■ nutno ověřit, že vzdálenost použitá v DTW je metrika
DTW
Redukce výpočetních a paměťových nároků
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Redukce výpočetních nároků pomocí heuristik při porovnávání.
■ Vícestupňový rozhodovací postup:
Q porovnání promluvy proti celému slovníku pomocí
omezené množiny příznaků B dohledání výsledku kroku 1. pomocí klasického DTW.
■ Práh zamítnutí:
po každém kroku spočítáme vzdálenost slova a obrazu pokud překročí experimentálně stanovený práh, obraz je zamítnut.
Skryté Markovovské Modely - H M M
Dialogové systémy
Luděk Bártek
Rozpoznávaní řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Modelování řeči pomocí HMM vychází z následující představy o tvorbě řeči:
■ Hlasové ústrojí se v krátkém čase nachází v jedné
z konečně mnoha artikulačních konfigurací - generuje hlasový signál.
■ Přejde do následující konfigurace.
Tuto činnost lze modelovat statisticky.
Kvantizací akustických vektorů lze dosáhnout konečnosti všech parametrů odpovídajícího modelu.
HMM
Principy použití pro rozpoznávání
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Jsou generovány dvě vzájemně svázané časové posloupnosti náhodných proměnných:
■ podpůrný Markovův řetězec - posloupnost konečného počtu stavů
■ řetězec konečného počtu spektrálních vzorů.
Náhodná funkce ohodnocující pravděpodobnostmi vztah vzorů k jednotlivým stavům.
Pro rozpoznávání řeči jsou nejčastěji využívané levo-pravé Markovovy modely:
■ vhodné pro modelování procesů spjatých se vzrůstajícím časem.
HMM
Markovův proces
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Markovův proces G se skrytým Markovovým modelem je pětice G = (Q, V, A/, M,tt)
■ Q = <7i, • • •, <7/c - množina stavů
■ V = vi,..., v/c - množina výstupních symbolů
■ N = (a7/j) - matice přechodu. Určuje pravděpodobnost přechodu ze stavu q; v čase t\ do stavu q/ v čase Í2-
m M = (rrijj) - matice přechodu, určující pravděpodobnost generování akustického vektoru vj, v kterémkoliv čase ve stavu g,-.
■ 7ľ = (7T/) - vektor pravděpodobností počátečního stavu (pravděpodobnost toho, že stav / je počáteční).
Trojice A = (A/, M, 7r) - vytváří model řečového segmentu.
■ např. Vintsjukův model pro slovo - počet stavů 40 — 50 (odvozeno od průměrného počtu mikrosegmentů ve slově; délka mikrosegmentů 10 ms).
HMM
Určení pravděpodobnosti promluvy
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Značíme P(0\X)
Promluva O standardně zpracována do posloupnosti
O = (oi,..., oT)
■ T - počet mikrosegmentů promluvy
■ o\ - odpovídají výstupním symbolům.
Určení P(0|A) - metoda využívající rekurzivní výpočet odpředu nebo odzadu generované posloupnosti (forward-backward algorithm).
>0 Q,o
HMM
Určení pravděpodobnosti promluvy - výpočet
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Výpočet odpředu:
■ ol\ - pravděpodobnost přechodu do stavu q-, při generování posloupnosti {oi,..., ot}(aj = P(oi... oř, q/(r)|A)
■ Rekurzivní výpočet:
inicializace: ai(/) = 717/77/(01), / G< 1, N > Rekurzivní krok pro t=l,. . . T-l:
N
a/+iO") = E«t('>»>i(o/+i)
i=l
pro j G< 1, N >, m(ot) je ekvivalentní zápisu /t7,(/),
pokud ot = v\.
Výsledná pravděpodobnost:
N
P(0|A) = ]>>r(/)
i=l
HMM
Alternativní způsob výpočtu P(0\X)
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Nevýhoda předchozího postupu:
■ ve výsledném vztahu jsou zahrnuty pravděpodobnosti všech možných posloupností stavů délky T.
■v
Řešení:
■ výpočet maximálně pravděpodobné posloupnosti stavů Q. Výpočet realizován pomocí Viterbiova algoritmu:
■ problém řešen rekurzivně s použitím technik dynamického programování.
	HMM	
	Trénování parametrů modelu A = (A/, M,7r)	
Dialogové		
systémy	■	Nutno stanovit postup při trénování parametrů modelu.
Luděk Bártek	■	Cíl trénování:
Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči		■ maximalizace pravděpodobnosti P(0 A)
	■	Problém:
		■ neexistuje analytická metoda ke zjištění globálního maxima
Sémantická		funkce n proměnných.
interpretace promluvy	■	■v Řešení:
Řízení průběhu dialogu Teorie		■ lze použít iterativní algoritmy zajišťující aspoň lokální
		maximalitu.
	■	Nejpoužívanější postup - Baum-Welchův algoritmus.
	■	Další problém při trénování modelu: ■ vliv konečné trénovací množiny: ■ čím menší trénovací množina a čím větší matice M, tím větší pravděpodobnost, že některé prvky zůstanou nastaveny na 0 (problém chybějících/neadekvátních dat).
HMM
Rozhodovací pravidlo při rozpoznávání izolovaného slova
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Používá se princip maximální věrohodnosti. Pro slovo O a všechna A: □ Spočítáme P(0|A).
Jako výsledek vybereme třídu s maximální hodnotou P(0\X).
HMM
Implementace
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Modelování povelů:
■ nejčastěji se používají modely se 4
7 stavy.
■ Pro modelovaní lze využít nástroje pro tvorbu HMM
■ HTK - Hidden Markov Model Toolkit.
Modelování fonémů:
■ obvykle 4 — 7 stavů
■ model slova - zřetězení modelů fonémů
■ problémy s výpočtem v reálném čase
■ lze řešit pomocí speciálních algoritmů pro hledání maxima P(0\X).
Príklady struktur pro fonémy
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Sémantická interpretace promluvy
Řízení průběhu dialogu Teorie
>0 0,0
Príklady struktur pro fonémy
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Sémantická interpretace promluvy
Řízení průběhu dialogu Teorie
Rozpoznávaní plynulé řeči
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Hlavní rozdíly oproti rozpoznávání slov:
■ nelze vytvořit databázi vzorů
■ nutno brát zřetel na prozodické faktory
■ nutno určovat hranice mezi slovy
■ vypořádání se s výplňkovými zvuky a chybami řeči.
Řešení - statistický přístup:
■ jazykový model
■ model uživatele.
Příklad: HMM vrátí stejnou pravděpodobnost např. pro slova Mmáma" a „nána" - nejspíše se použije máma - je castejsi.
Rozpoznávaní plynulé řeči
Jazykové modely
Dialogové systémy
Luděk Bártek
Rozpoznávaní řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Máme:
■ posloupnost slov (promluva) 1/1/ = (1/1/1,..., wn) m posloupnost akustických vektorů O = (oi,..., ot).
Chceme nalézt l/l/* (množinu všech promluv), která maximalizuje P(W\0).
Dle Bayesova pravidla platí:
P(|/|/*|0) = maxP(W\0) = max
P(l/I/)* P(0\W) P(Ô)
Rozpoznávaní plynulé řeči
Jazykové modely - pokračovaní
Dialogové systémy
Luděk Bártek
Rozpoznávaní řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Pro nalezení maxima potřebujeme znát:
■ model řečníka - P(0\W)
■ jazykový model - P{W).
Model řečníka lze nahradit pravděpodobností generování W odpovídajícím Markovovým modelem.
Trigramový model:
■ Experimentálně ověřeno, že platí:
P{^n\w1 . . . ^_i) = P{wn\wn_2Wn-l)
Rozpoznávaní plynulé řeči
Rozpoznávání tématu
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Úspěšnost rozpoznávání řeči se pohybuje cca 50 % — 99 % v závislosti na úkolu, jazyku, ...
Úspěšnost rozpoznávání lze zvýšit omezením domény rozpoznávání:
■ rozpoznání tématu
■ použitím gramatik pro rozpoznávání řeči. Známé téma:
■ změna stavového prostoru a pravděpodobnosti trigramů:
■ např. burzovní zprávy - rozpoznáno „honey" nebo ,,money "?
■ možnost vytvoření přesnějšího jazykového modelu.
Gramatiky pro podporu rozpoznávaní řeči
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Úspěšnost obecného rozpoznávání plynulé řeči může klesnout až na cca 50 %.
Zvýšení lze dosáhnout omezením domény - např. specifikováním přípustných vstupů.
Lze použít gramatiky pro podporu rozpoznávání řeči
■ bezkontextové gramatiky Způsoby zápisů gramatik:
■ prostředky logického programování
■ proprietami řešení
■ otevřené standardy - JSGF, W3C SRGS, .. .
Gramatiky pro podporu rozpoznávání řeči
Java Speech Grammar Specification (JSGF)
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Textový zápis gramatiky nezávislý na platformě a prodejci
Určen pro použití při rozpoznávání řeči.
Součást Java Speech API.
Používá styl a konvence jazyka Java.
Aktuální verze 1.0 (říjen 1998).
Použit např. v rozpoznávací Sphinx-4, VoiceXML interpretru VoiceGlue, . ..
Podrobněji v 2. polovině semestru při probírání tvorby dialogových rozhraní.
Gramatiky pro podporu rozpoznávaní řeči
Ukázka JSGF
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
#JSGF
<koren> = Chci jet <cim> . Chci jet <cim> z <odkud> do <kam> . Chci jet <cim> z <odkud> do <kam> v <kdy> .; <cim> = vlakem | autobusem; <odkud> = <czMesto>; <kam> = <czMesto>; <kdy> = <czCas>;
Gramatiky pro podporu rozpoznávání řeči
W3C Speech Recognition Grammar Specification (SRGS)
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Standard W3C.
Aktuální verze 1.0 (březen 2004).
Definuje způsob zápisu pravidel a jejich odkazování.
Dva způsoby zápisu:
■ XML
■ ABNF (Augmented BNF).
Podrobněji v 2. polovině semestru při probírání tvorby dialogových rozhraní.
Ukázka W3C SRGS
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
#ABNF 1.0 UTF-8 root Spozdrav; language cs-CZ; mode voice; Spozdrav = ahoj
<?xml version=" 1.0"encoding=" utf-8" ? >
<grammar root=" pozdrav"xml:lang="cs-CZ"version=" 1.0" >
<rule id=" pozdrav" >
ahoj
< /rule>
< /grammar>
Sémantická interpretace promluvy
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Cíl - počítači srozumitelná interpretace informací zadaných uživatelem.
Příklad:
Chtěl bych si koupit Zkrocení zlé ženy od Shakespeara.
■ akce = nákup
■ titul = Zkrocení zlé ženy
■ autor = Shakespeare
Reprezentace - dvojice (atribut, hodnota). Obecné kroky sémantické analýzy:
Q zjištění struktury rozpoznané promluvy B zjištění významů jednotlivých částí rozpoznané promluvy Q případně odvození významu celé promluvy z významů jednotlivých částí promluvy.
Sémantická interpretace 7^ smyslu promluvy.
Sémantická interpretace promluvy
Implementace
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Pravidlům gramatiky pro rozpoznávání řeči přidáme atributy, do kterých ukládáme jejich sémantickou reprezentaci.
Na atributech lze provádět operace sloužící k sestavení sémantické interpretace celé promluvy z interpretací jednotlivých pravidel.
■ např jazykem ECMAScript (viz standard Sematic Interpretation for Speech Recognition
Ke zjištění smyslu sdělení je případně nutno jej zasadit do kontextu.
■ Kontext lze popsat pomocí konečného automatu s výstupem (Mealyho automatu - viz některá z dalších přednášek).
Popis Sémantické Interpretace
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
JSGF:
■ přiřazena pomocí značek (tags)
■ zápis - {sémantická interpretace}
< sentence >=< intro >< titul > od < autor >
< titul >= Pejska a kočičku {Povídání o pejskovi a kočičce}|
(Zlou ženu|Zkrocení zlé ženy) {Zkrocení zlé ženy}|...
SRGS - standard SISR :
■ standard W3C Voice Browser Activity.
■ Je postaven na jazyce ECMAScript.
■ K pravidlům se přidává pomocí značky nebo atributu tag.
■ Do dialogu je interpretace vracena ve formátu JSON.
Základní pojmy
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Dialog - rozhovor dvou a více účastníku (sled promluv)
Promluva - Souvislé sdělení, které učiní jeden účastník dialogu směrem k druhému.
Obrat - Promluva a reakce druhého účastníka na ni. Dialogová strategie
■ Postup, který k dané promluvě přiřazuje následující promluvu.
■ Využívá znalost stavu dialogu:
■ zadané a požadované informace
■ schopnosti účastníků dialogu
Je vlastností každého účastníka dialogu
Základní pojmy
Dialogová komunikace
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Hodnotící funkce:
■ funkce přiřazující každému dialogu reálné číslo.
■ Označuje se E(Ľ), kde L je dialog.
Dialogová komunikace - Uspořádaná čtveřice
M = (S1,S2,E1,E2)
Si, i G {1,2} - dialogová strategie příslušného účastníka E/, / G {1, 2} - hodnotící funkce příslušného účastníka.
Základní pojmy
Kooperativita dialogu
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Dialogovou komunikaci M = (Si, S2, Ei, £2) nazveme:
■ Kooperativním Ei = E2. Oba účastníci dialogu mají stejný cíl a snaží se spolupracovat.
■ Nekooperativní m Ei 7^ E2. Cíle obou účastníků dialogu se odlišují.
■ S nulovým součtem m Ei = — E2. Cíle obou účastníků dialogu jsou protichůdné.
Toto hodnocení vychází z teorie her:
■ na dialog lze pohlížet jako na hru dvou účastníků.
Pravidla pro vedení kooperativního dialogu
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Dialogový systém by se měl snažit o kooperativní dialog.
Autor Herbert Paul Grice - anglický jazykovědec. Aspekt informativnosti:
O Buď přiměřeně informativní - ne méně než je potřeba, ale ani ne více než je potřeba.
Aspekt přesvědčivosti: O Neuváděj nepravdivé informace.
B Neuváděj informace, které nelze dokázat nebo doložit. Aspekt způsobu:
O Informace v replice by měla být co nejvíce explicitní. Vyhýbejte se nejednoznačnostem. Usilujte o stručnost.
Buďte disciplinovaní, udržujte v dialogu pořádek.
Pravidla pro vedení kooperativního dialogu
pokračování
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Aspekt zdvořilosti, empatie a etiky:
Minimalizujte nároky vůči komunikačnímu partnerovi, maximalizujte výhody pro něj. Minimalizujte nedostatky komunikačního partnera a maximalizujte jeho přednosti.
Maximalizujte souhlas s partnerem a minimalizujte jeho nesouhlas.
Maximalizujte empatii vůči partnerovi. Aspekt asymetrie:
O Informujte uživatele o všech důležitých charakteristikách, které vybočují z očekávaného normálního průběhu dialogu, a která by měl vzít v úvahu k zajištění kooperativity. Zajistěte stručné, avšak dostatečné informování uživatele o možnostech systému a jeho omezeních. Informujte srozumitelně a dostatečně o způsobu interakce se systémem.
Pravidla pro vedení kooperativního dialogu
Komunikace člověk — počítač
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Aspekt znalostí a schopností:
O Vezměte v úvahu relevantní znalosti uživatele.
Vezměte v úvahu možné uživatelovy chybné analogie. Rozlišujte mezi začínajícím a zkušeným uživatelem systému.
Vezměte v úvahu legitimní představy uživatele o znalostech a schopnostech systému.
Aspekt vyjasňování a odstraňování chyb:
O V případě selhání komunikace iniciujte meta komunikaci zajišťující odstranění chyby nebo její vysvětlení.
B Zajistěte vysvětlující meta komunikaci v případě
nekonsistentních nebo nejednoznačných uživatelových vstupních dat.
Aspekty komunikace kooperativního dialogového systému
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Dialogový systém při komunikaci s uživatelem by měl brát ohled na následující aspekty:
■ aspekt informativnosti
■ aspekt přesvědčivosti
■ aspekt způsobu
■ aspekty zdvořilosti, empatie a etiky
■ aspekt asymetrie
■ aspekt znalostí a schopností uživatele
■ aspekt vyjasňování a odstraňování chyb.
Iniciativa v dialogu
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Další krok dialogu je vždy určen dialogovou strategií jedné z komunikujících stran.
■ Jedna strana klade dotazy druhá na ně odpovídá. V případě komunikace člověk — počítač lze rozlišit:
■ dialog s iniciativou uživatele
■ dialog s iniciativou systému
■ dialog se smíšenou iniciativou.
Reálné systémy používají:
■ dialogy se smíšenou iniciativou
■ dialogy s iniciativou systému.
Iniciativa v dialogu
Příklady
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Dialog s iniciativou systému: Systém:    Zadejte Vaše uživatelské jméno Uživatel: xyz
Systém:    Aby Vás bylo možné ověřit řekněte větu
„Můj hlas je můj pas. Ověř si mě." Uživatel:   Můj hlas je můj pas. Ověř si mě.
Teorie
Dialog se smíšenou iniciativou: Uživatel:   Chtěl bych je dnes vlakem z Adamova
do Kerkyry.
Systém:    Chcete nalézt přímý spoj nebo spojení
s přestupy? Uživatel:   Chtěl bych jet bez přestupů. Systém:    Je mi líto, ale přímý vlak z Adamova do Kerkyry
nejezdí.
Zpětná vazba v dialogovém systému
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Před tím, než systém zpracuje získané informace, je vhodné provést jejich verifikaci:
■ oprava chyb rozpoznávání řeči
■ oprava chyb uživatele
■ . ..
Způsoby ověření získaných dat:
■ Sumarizující zpětná vazba - po zadání veškerých dat uživatelem je zopakuje a případně umožní jejich opravu.
■ Zpětná vazba ,,echo" - po zadání každého údaje ho uživateli zopakuje, poskytne mu možnost případné opravy.
■ Implicitní zpětná vazba - posledně zadaná data jsou součástí dotazu na následující údaj.
■ Explicitní zpětná vazba - systém validuje zadaná data pomocí explicitních dotazů na jejich hodnoty.
Zpětná vazba v dialogovém systému
Příklady
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Sumarizující zpětná vazba: Uživatel:   Chci jet vlakem z Adamova do Kerkyry. Systém:     Hledaný druh spojení Vlak. Odjezd Adamov,
cílová stanice Kerkyra.
Zpětná vazba „echo": Systém:    Cím chcete jet?
Vlakem.
Chcete jet vlakem. Odkud chcete jet? Z Adamova.
Chcete jet z Adamova. Kam chcete jet? Do Kerkyry.
Uživatel Systém: Uživatel Systém: Uživatel
Zpětná vazba v dialogovém systému
Příklady
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Implicitní zpětná vazba: Systém:    Jméno studenta. Uživatel:   Jan Novák.
Systém:    Ve kterém městě se Jan Novák narodil
Teorie
Explicitní zpětná vazba: Systém:    Zadejte jméno studenta. Uživatel:   Jan Novák.
Systém:    Student se jmenuje Jan Novák. Je to tak?
Ukázka opravného dialogu
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Sémantická interpretace promluvy
Řízení průběhu dialogu Teorie
Uživatel
Systém:
Uživatel Systém:
Uživatel Systém:
Jmenuji se Jan Horák a narodil jsem se 8.8. 1988 v ABC.
Bylo zadáno jméno Jan Novák, datum narození 8.8. 1988 a místo narození ABC. Ne jméno je Jan Horák.
Zadal jste jméno Jan Horňák. Datum narození
8.8. 1988 a místo ABC.
Ne, jméno má být Jan Novák.
Zadal jste jméno Jan Novák, datum narození
8.8. 1988 a místo ABC.
Další aspekty dialogových strategií
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Možnost přerušit systém.
Možnost iniciovat korekce a metakomunikaci uživatelem: Uživatel:   Mohl, byste prosím zopakovat poslední dotaz?
Možnost získání nápovědy: Uživatel:   Mohl byste mi upřesnit požadované údaje?
Detekce znalostí a schopností uživatele:
■ Částečně lze odvodit z předchozího průběhu dialogu:
■ počet chyb uživatele
■ počet žádostí o nápovědu
■ Uzpůsobení iniciativy dialogového systému.
Přizpůsobení dialogové strategie - např. uživatel ve spěchu, vystresovaný uživatel, ...
Další aspekty dialogových strategií
Dialogové systémy
Luděk Bártek
Rozpoznávání řeči
Rozpoznávání izolovaných slov
Rozpoznávání plynulé řeči
Teorie
Detekce emocí uživatele:
■ na základě neverbálních charakteristik hlasu - nutná podpora v modulu rozpoznávání řeči
■ pomocí dalších čidel - EEG, EKG, ...
vícejazyčnost (multilingualita). multimodalita
■ rozhovor vede avatar (talking head) - vhodné např. pro uživatele s poruchou slyšení.
■ alternativní způsob vstupu:
■ klávesnice
■ snímání obličeje
zdvořilost
prozódie
učení se z chyb.