Dialogové systémy Luděk Bártek Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2017 >0 0,0 Cíl a náplň předmětu Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie zpracování zvuku ■ Cíl - seznámení s oblastí dialogových systémů. ■ Obsah kurzu: ■ U vod do dialogových systémů, historie ■ Základní technologie: Fyzikální akustika Fyziologická akustika ■ digitální zpracování zvuku ■ rozpoznávání řeči ■ porozumění rozpoznané řeči ■ syntéza řeči ■ přenos hlasu prostřednictvím počítačové sítě 1 -f) <\(y Cíl a náplň předmětu pokračování Dialogové systémy Luděk Bártek Obsah kurzu: ■ Dialogové systémy: ■ formální modely dialogu ■ analýza dialogu, kooperativní a nekooperativní dialog ■ dialogové strategie ■ information retrieval DS ■ simulace DS ■ multimodalita ■ nástroje pro tvorbu dialogových systémů - W3C Voice Browser Activity ■ aplikace. □ s Ukončení predmetu Dialogové systémy Luděk Bártek Možná ukončení: ■ zkouška ■ kolokvium ■ zápočet Požadavky: ■ zkouška + kolokvium - dobrá orientace v probírané problematice ■ zkouška - písemka + ústní dozkoušení ■ kolokvium - nástin řešení problémové úlohy a detailnější rozbor některé z použitých technologií. ■ zápočet - zápočtová písemka současně se zkouškou. Doporučená literatura Knihy Dialogové systémy ■ J. Psutka, Komunikace s počítačem mluvenou řečí, Luděk Bártek Academia, Praha, 1995 0 předmětu ■ Z. Kotek, V. Marik, Metody rozpoznávání a jejich Úvod do aplikace, Academia, Praha, 1993 dialogových systémů ■ T. Dutoit, An Introduction to Text-to-Speech Synthesis, Historie Kluwer Academic Publishing, 1996 zpracování zvuku ■ A. Kobsa, W. Wahlster, User Models in Dialog System, Fyzikální akustika Fyziologická Springer 1989 ■ D. B. Roe, J. G. Wilpon (editors), Voice Communication akustika Between Humans and Machines, National Academy Press, Washington D.C., 1994 ■ F. Jelinek, Statistical Methods for Speech Recognition, MIT Press 1997 ■ K. Jokinen, M. McTear, Spoken Dialogue Systems, Morgan & Claypool Publishers 2010 Doporučená literatura Web Dialogové systémy Luděk Bártek Nuance Dragon Odkazy na dialogové systémy (DS) - Odkazy na dialogové systémy (DS) Různé projekty z oblasti počítačové sémantiky na Stanford University Stránky W3C Voice Browser Activity Co je dialogový systém? Dialogové systémy Luděk Bártek Dialogový systém - systém komunikující s uživatelem pomocí dialogu v přirozeném jazyce ■ většinou se jedná o dialogové rozhraní ke klasickému IS. Častá komunikace mluvenou řečí. Alternativně: ■ komunikace pomocí DTMF ■ textová komunikace přirozenou řečí ■ multimodální komunikace: ■ řeč + obraz (simulace lidské tváře, titulky ve znakové řeči, ...) ■ řeč + text Výhody a nevýhody dialogových systémů Dialogové systémy Luděk Bártek 0 předmětu ■ Výhody: Úvod do dialogových systémů + + Přirozenější způsob komunikace. Přístupnost: Historie zpracování zvuku Fyzikální akustika ■ zrakově a motoricky postižení uživatelé ■ další uživatelé, kterým činí problémy ovládání počítače standardním způsobem ■ možnost podrobnějšího vedení uživatele krok za krokem Fyziologická akustika celým procesem ■ dalším krokem k lepší přístupnosti - multimodální rozhraní. ■ . .. Výhody a nevýhody dialogových systémů Dialogové systémy Luděk Bártek Výhody: + Větší množství potenciálních uživatelů: ■ počet uživatelů počítačů a Internetu vs. počet uživatelů telefonu. + ... Nevýhody: - rychlost komunikace ■ sekvenční vnímání zvuku vs. paralelní vnímání obrazu ■ lze částečně eliminovat pomocí vhodné dialogové strategie Aktuá Fl MU ní ' práce v oblasti dialogových systémů Dialogové systémy Luděk Bártek ■ Laboratoře: 0 předmětu Úvod do dialogových systémů Historie zpracování zvuku ■ ■ LSD - doc. Kopeček zaměřuje se na: ■ dialogové systémy a zpracování zvuku ■ sociální sítě ■ sociální informatika Fyzikální akustika Fyziologická akustika ■ ■ NLP - doc. Pala zaměřuje se na: ■ korpusy ■ slovníky ■ morfologii ■ syntaktickou analýzu ■ sémantiku 1 >T) (\Q» Aktuální práce v oblastech souvisejících s dialogovými systémy Výzkum Česká republika Dialogové systémy Luděk Bártek 0 předmětu ■ FIT VUT Brno Úvod do dialogových systémů ■ analýza signálu ■ rozpoznávání řeči Historie ■ systém pro automatizované zpracování konferencí zpracování zvu ku ■ . .. Fyzikální akustika Fyziologická akustika ■ ZČU v Plzni ■ rozpoznávání řeči ■ dialogové systémy ■ . .. ■ ČVUT - syntéza řeči 1 <\cy Aktuální práce v oblastech souvisejících s dialogovými systémy Komerční sféra - Česká republika Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie ■ FROG Systems s.r.o. - CS-voice 97 zpracování zvuku ■ OptimSys s.r.o - VoiceXML platforma OptimTalk Fyzikální akustika ■ ... Fyziologická akustika 1 >o Q,o Aktuální práce v oblasti dialogových systémů Výzkum a práce ve světě Dialogové systémy Luděk Bártek W3C Voice Browser Working Group ■ IBM ■ Nuance Communication ■ Lucent Technologies ■ Motorola ■ ScanSoft ■ Tel I me Networks ■ Vocalocity MIT OGI EPF Lausane European Masters in Language and Speech Dialogové systémy Luděk Bártek Evropské navazující studium v oblastech zpracování řeči a přirozeného jazyka (na Fl během magisterského studia). Zapojeny VŠ např. v Dánsku, Řecku, Španělsku, Belgii, Německu, Velké Británii, Nizozemí, ... Více informací: ■ Stránka o EuroMasters na Fl ■ doc. Pala, doc. Kopeček. Struktura dialogového systému Dialogové systémy Luděk Bártek Uživatelský prolil Lingvistické znalosti Syn teti zér feCi Sémantický analyzátor Korí text dialogu Doménové zn alosti tt t Dialogový manažer Generátor sdílen í r Komponenty dialogového systému Dialogové systémy Luděk Bártek Uživatel - koncové zařízení, které uživateli umožňuje komunikovat s dialogovým systémem: ■ telefon - komunikace prostřednictvím PSTN přes VoIP gateway - VoIP gateway převádí hlas na data a zpět ■ VoIP klient - komunikace prostřednictvím VoIP protokolu přímo s dialogovým systémem (SIP, H.323, Skype, .. .) ■ textový klient - komunikace prostřednictvím protokolů DTMF+VolP protokol, telnet, ssh, XMPP,. .. Rozpoznávání řeči: ■ převádí mluvené slovo na text ■ využívá se: ■ rozpoznávání plynulé řeči ■ rozpoznávání izolovaných slov ■ pro zvýšení úspěšnosti se používají gramatiky popisující množinu očekávaných vstupů. Komponenty dialogového systému Dialogové systémy Luděk Bártek ■ Sémantický analyzátor 0 předmětu ■ získává relevantní údaje z rozpoznaného textu Úvod do dialogových systémů ■ ■ využívají se např. atributové gramatiky. Dialogový manažer Historie zpracování zvuku ■ konečný automat ■ na základě aktuálního stavu a vstupu od uživatele Fyzikální akustika Fyziologická akustika ■ rozhoduje o dalším průběhu dialogu. Generátor promluv - na základě údajů od dialogového manažeru generuje promluvy, které jsou následně syntetizovány. ■ Řečový syntetizér - převádí promluvy od generátoru promluv na mluvenou řeč, která je poslána uživateli. Údaje používané dialogovým systémem Dialogové systémy Luděk Bártek Lingvistické znalosti - údaje o jazyce, které využívá rozpoznávač řeči pro zvýšení úspěšnosti (pravděpodobnosti výskytů jednotlivých sekvencí řečových segmentů, gramatika, ...). Uživatelský profil - informace o uživatelích (charakteristiky hlasu, vyjadřování, používané fráze, ...). Doménové znalosti - informace odvoditelné z oblasti dialogového systému (gramatika, ...). Kontext dialogu - informace o aktuálním stavu dialogu (krok dialogu, uživatelský vstup, chybovost uživatele, ...). Historie zpracování a napodobování řeči Dialogové systémy Luděk Bártek před 3 milióny let - Australopitekus - schopnost artikulované řeči starověk - budování mluvících soch bůžků 1779 - Kratzenstein - systém rezonátorů pro napodobení samohlásek a, e, i, o, u. mm >0 Q,o Historie zpracování a napodobování řeči Dialogové systémy Luděk Bártek 1791 - Wolfgang von Kempelen - mechanický mluvící stroj 1835 - zrekonstruován a upraven Wheatstonem v Dublinu - měl navíc pružnou „ústní dutinu" 1846 - J. Faber - mluvící stroj Euphonia Historie zpracování a napodobování řeči Dialogové systémy Luděk Bártek 1937 - R. R. Riesz - mechanický mluvící stroj napodobující lidské řečové ústrojí nostril pitch lips mouth teeth velum pharynx 3 ^^w^^M air from tank 1939 - H. Dudley - VODER (elektromechanický řečový syntetizér), VOCODER (elektrické zařízení kódování a přenos řeči) 50. léta 20. století - syntéza ve frekvenční oblasti, později syntéza v časové oblasti >0 Q,o Historie zpracování a napodobování řeči Dokončení Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů ■ cca 1970 - počítače Historie zpracování zvuku ■ 1966 - J. Weizenbaum - Eliza (Communications of the Fyzikální ACM, leden). akustika Fyziologická akustika Základy moderní analýzy reči Dialogové systémy Luděk Bártek 19. století ■ J.B. Fourier - Fourierova věta - využíva se při spektrální analýze zvuku ■ H. Helmholtz - zabýval se fyziologií vnímání hudby, Helmholtzův rezonátor ■ J. R. Ewald - fyziologie sluchu 1924 - spektrálni analýza řeči na bázi formantové analýzy samohlásek 1939 - vokodér - zařízení pro kompresi řeči pro účely přenosu hlasu rádiem a transkontinentálním kabelem 1946 - 1947 - zařízení pro grafický záznam řeči 2. polovina 20. století - intenzivní vývoj jak teorie, tak počítačových aplikací. Základní řečové technologie Dialogové systémy Luděk Bártek 0 předmětu ■ syntéza řeči Úvod do ■ rozpoznávání řeči dialogových systémů Historie ■ související oblasti - zpracování jak v časové tak frekvenční zpracování zvuku oblasti Fyzikální ■ rozpoznávání řečníka akustika Fyziologická ■ detekce emocí akustika ■ word spotting ■ ... Zvuk Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie zpracování zvuku ■ Zvuk ■ kmitavý pohyb molekul prostředí (vzduchu) ■ vyvoláván pružným odporem prostředí ■ Kmit hmotného bodu Fyzikální akustika Fyziologická akustika ■ pohyb bodu z rovnovážné polohy do místa s maximální výchylkou (amplitudou), odtud do protilehlého místa s maximální výchylkou zpět do rovnovážného bodu. Kmity Dialogové systémy Luděk Bártek Fyziologická akustika perioda Kmity Fyzikální veličiny Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie zpracování zvuku Fyzikální akustika Fyziologická akustika ■ Amplituda - maximální výchylka kmitavého pohybu. ■ Perioda (T) ■ doba jednoho opakování periodického děje. ■ jednotka - 1 s (sekunda). ■ Frekvence (f) ■ počet opakování periodického děje za jednotku času. ■ platí f = y ■ jednotka 1 Hz (Hertz). Kmity Fyzikální veličiny Dialogové systémy Luděk Bártek 0 předmětu ■ Síla působící na kmitající bod: Úvod do dialogových systémů Historie zpracování zvuku ■ F = — ks, k - tuhost pružiny, s - aktuální výchylka pružiny ■ F = ma ma = —ks, m - hmotnost tělesa, a - zrychlení ■ a + oj2s = 0 (uj2 = uj - úhlová rychlost kmitavého pohybu: uj = ^) Fyzikální akustika Fyziologická akustika ■ fáze kmitavého pohybu: íp = uot ■ okamžitá výchylka: y = ymsinujt — ymsimjj ■ okamžitá rychlost: v = ujymsinujt = ymsiníp ■ okamžité zrychlení: a = —ujymsinujt — ymsiníp Harmonické versus tlumené versus vynucené kmitání Dialogové systémy Luděk Bártek Harmonické kmitání ■ na těleso nepůsobí žádná vnější síla ■ v praxi se s ním téměř nesetkáme (odpor vzduchu, ... Tlumené kmitání ■ proti pohybu působí odpor prostředí ■ amplituda s časem (vzdáleností od zdroje) klesá Vynucené kmitání, rezonance ■ na hmotný bod působí navíc periodicky proměnné síla G = sinat ■ F = ma = —ky + sinat =4> a + u y = sinat ■ partikulami reseni: ) co>2 — a2 Zvuk - mechanické vlnění pružného prostředí (vzduch, voda, kov, ...) Akustika - věda studující zvuk (z řeckého akustikos -vztahující se k slyšení): ■ fyzikální - zvuk jako fyzikální vlnění ■ fyziologická akustika - vzniká a vnímání zvuku člověkem ■ hudební - zvuky z pohledu hudby ■ molekulární - vztah akustických vlastností a molekulární struktury. Rozdělení zvuku: ■ infrazvuk - frekvence < 16 Hz ■ slyšitelný zvuk - 16 Hz - 16kHz ■ ultrazvuk - > 16 kHz ■ hyperzvuk - až 108 Hz - využíván např. molekulární akustikou. Jednoduchý vs. složený tón Dialogové systémy Luděk Bártek Základní tón - průběh intenzity v čase lze popsat jednoduchou sinusoidou. Složený tón - lineární kombinace jednoduchých tónů Akustické spektrum zvuku Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie ■ Akustické spektrum - množina základních tónů, ze kterých je zvuk složen. ■ Získání spektra - Fourierova transformace: zpracování zvuku ■ F(x) musí splňovat Dirichletovy podmínky Fyzikální ■ periodická funkce s periodou T akustika ■ je na daném intervalu po částech spojitá (nejvýše konečný Fyziologická počet bodů nespojitosti 1. druhu) akustika ■ má nejvýše konečný počet extrémů na daném intervalu ■ definována v krajních bodech daného intervalu: Akustické spektrum Výpočet hodnot Dialogové systémy Využívá se rozkladu pomocí Fourierovy řady: Luděk Bártek F(x) = ^ + 3íCOs(íujx) + bisin(iujx) oo i=l UJ — 2tt T aproximace F(x) je nejlepší při použití hodnot koeficientů a a b\ 2 n a/c = — / F(x)cos(kx)dx 2 fi bf< = — / F(x)sin(kx)dx Hodnoty spektrálních koeficientů Sk = 3% + bl >0 0,0 Akustické spektrum zvuku pokračování Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů ■ Problém - zvuk je periodický pouze na určitých intervalech. Historie zpracování zvuku ■ analýza na krátkém intervalu, kde se předpokládá, že je periodický. Fyzikální akustika Fyziologická akustika ■ Z hlediska fyziologické akustiky - spektrum odpovídá rezonanci odpovídajících vlákének Cortiho ústrojí, resp. odpovídající reakci neuronů. Akustický tlak Dialogové systémy Luděk Bártek 0 předmětu ■ Akustický tlak Úvod do dialogových systémů ■ Odpovídá síle působící na element plochy v prostředí akustického vlnění. Historie zpracování ■ Pro sinusovou vlnu platí: zvuku Fyzikální akustika p = posin(cjt) Fyziologická akustika ■ po - maximální akustický tlak v průběhu periody ■ uj - úhlová rychlost ■ t - čas. Akustická intenzita a akustický tlak Dialogové systémy Luděk Bártek Akustická intenzita ■ Vyjadřuje množství akustické energie, které projde jednotkovou plochou za jednotku času. ■ Je přímo úměrná druhé mocnině akustického tlaku. ■ Rozsah intenzity zvuku - dán rozsahem minimální (Iq) a maximální (/i) akustické intenzity, kdy jsme schopni vnímat tón o frekvenci 1 kHz. ■ Práh citlivosti - p0 = 2 • 10~2Nm~2. ■ Práh bolestivosti - pi = 102Nm~2. ■ Rozsah - 2,5 • 1013Nm~2. Vnímaní zvuku Dialogové systémy Luděk Bártek Weber-Fechnerův psychofyzikální zákon ■ Člověkem subjektivně vnímaná hlasitost roste při geometrickém nárůstu intenzity přibližně lineárně. ■ Pro stanovení hladiny intenzity zvuku (L) volíme L = 10 • \ogl- h ■ jednotka - 1 bel (originál bell) [B] ■ Prakticky se využívá odvozená jednotka decibel [dB] (ÍO^S). Orientační hodnoty akustické intenzity Dialogové systémy Luděk Bártek Fyziologická akustika šepot - 10 - 20 dB tlumený hovor - 35 - 45 dB symfonický orchestr - 70 - 90 dB rocková hudba - 110 - 130 dB. □ rS1 Základy fyziologické akustiky Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie zpracování zvuku Fyzikální akustika ■ Fyziologická akustika se zabývá: ■ mechanizmem vytváření řeči ■ mechanizmem vnímání řeči. ■ Využívá Helmholtzovu rezonanční teorii. Fyziologická akustika 1 >T) <\ £v Helmholtzův rezonátor Dialogové systémy Luděk Bártek Princip činnosti: ■ Přivedením vzduchu do rezonátoru v něm vznikne přetlak. ■ Ten vytlačuje přebytečný vzduch ven a následně vzniká podtlak, který způsobí nasávání vzduchu z okolí. ■ Takto vzniká periodický děj: f Mechanismus vytváření řeči Dialogové systémy Luděk Bártek Řeč vzniká pomocí hlasového ústrojí (umístěno v hrtanu). Hlasivky vytváří úzkou hlasovou štěrbinu a jsou rozechvívány procházejícím vzduchem. Frekvence jejich kmitání určuje základní hlasivkový tón - Zvuk, který vzniká v hrtanu pomocí hlasivek (samohlásky, znělé souhlásky) je modifikován v rezonančních dutinách: ■ h rta nové ■ ústní ■ nosohltanové. Rezonanční dutiny fungují na stejném principu jako Helmholtzův rezonátor). Hlasivky a schéma lidského hlasového ústroji O předmětu Úvod do dialogových systémů Hlasivky Jejich umístění Fpiglattis Tuberde of epíglntfisi Yentrictilar fold Arye.piglottic fold 4 □ ► 4 [fP ► Mechanizmus vnímaní řeči Dialogové systémy Luděk Bártek Zvuk vnímame sluchovým orgánem. Sluchový orgán: ■ vnější ucho - zachycuje, soustřeďuje a přivádí zvukové vlny ke střednímu uchu ■ střední ucho ■ mechanickou cestou přenáší zvukovou energii mezi vnějším a vnitřním uchem ■ obsahuje mechanizmy k vyrovnání rozdílů tlaku mezi vnějším prostředím a sluchovým orgánem ■ vnitřní ucho - převádí zvukovou energii na vzruchy které jsou vedeny dále do mozku. Schéma sluchového orgánu Dialogové systémy Luděk Bártek Obrázek: Schéma sluchového orgánu Vnější ucho Dialogové systémy Luděk Bártek Obsahuje: ■ Ušní boltec - soustřeďuje zvukové vlny do zvukovodu. ■ Zvukovod - vede zachycenou zvukovou energii (vlny) k bubínku. ■ Bubínek: ■ Tenká blána na konci zvukovodu - síla cca 0.1 mm. ■ Zesílí a přenese zvukovou energii na kůstky středního ucha. Strední ucho Dialogové systémy Luděk Bártek Obsahuje: Kůstky středního ucha: ■ kladívko - přiléhá k bubínku ■ kovad linka ■ třmínek - přiléhá k oválnému okénku, kterým se zvuková energie předává do vnitřního ucha. Oválné okénko - tvoří přístup k vnitřnímu uchu. Eustachova trubice: ■ Vede ze středního ucha do nosohltanu. ■ Slouží k vyrovnání rozdílu tlaku mezi vnějším prostředím a středním uchem, aby nedošlo poškození sluchu. Vnitřní ucho Dialogové systémy Luděk Bártek Hlemýžď (Cochlea): ■ Je naplněn vodnatým roztokem. ■ Ustrojí ve tvaru ulity hlemýždě, které obsahuje Cortiho ústrojí. ■ Cortiho ústrojí obsahuje zhruba 20000 vlákének s délkami 40 //m - 0,5 mm. ■ Vlákénka jsou jsou napojena na nervová zakončení, která vedou vzruchy do příslušného centra v mozku. Rovnovážný orgán. >0 Q,o