Dialogové systémy Luděk Bártek Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2016 >0 0,0 Cíl a náplň předmětu Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie zpracování zvuku ■ Cíl - seznámení s oblastí dialogových systémů. ■ Obsah kurzu: ■ U vod do dialogových systémů, historie ■ Základní technologie: Fyzikální akustika Fyziologická akustika ■ digitální zpracování zvuku ■ rozpoznávání řeči ■ porozumění rozpoznané řeči ■ syntéza řeči ■ přenos hlasu prostřednictvím počítačové sítě 1 -f) <\(y Cíl a náplň předmětu pokračování Dialogové systémy Luděk Bártek Obsah kurzu: ■ Dialogové systémy: ■ formální modely dialogu ■ analýza dialogu, kooperativní a nekooperativní dialog ■ dialogové strategie ■ information retrieval DS ■ simulace DS ■ multimodalita ■ nástroje pro tvorbu dialogových systémů - W3C Voice Browser Activity ■ aplikace. □ s Ukončení predmetu Dialogové systémy Luděk Bártek Možná ukončení: ■ zkouška ■ kolokvium ■ zápočet Požadavky: ■ zkouška + kolokvium - dobrá orientace v probírané problematice ■ zkouška - písemka + ústní dozkoušení ■ kolokvium - nástin řešení problémové úlohy a detailnější rozbor některé z použitých technologií. ■ zápočet - zápočtová písemka současně se zkouškou. Doporučená literatura Knihy Dialogové systémy Luděk Bártek J. Psutka, Komunikace s počítačem mluvenou řečí, Academia, Praha, 1995 Z. Kotek, V. Marik, Metody rozpoznávání a jejich aplikace, Academia, Praha, 1993 T. Dutoit, An Introduction to Text-to-Speech Synthesis, Kluwer Academic Publishing, 1996 A. Kobsa, W. Wahlster, User Models in Dialog System, Springer 1989 D. B. Roe, J. G. Wilpon (editors), Voice Communication Between Humans and Machines, National Academy Press, Washington D.C., 1994 F. Jelinek, Statistical Methods for Speech Recognition, MIT Press 1997 Doporučená literatura Web Dialogové systémy Luděk Bártek Nuance Dragon Odkazy na dialogové systémy (DS) - Odkazy na dialogové systémy (DS) Různé projekty z oblasti počítačové sémantiky na Stanford University Stránky W3C Voice Browser Activity Co je dialogový systém? Dialogové systémy Luděk Bártek Dialogový systém - systém komunikující s uživatelem pomocí dialogu v přirozeném jazyce ■ většinou se jedná o dialogové rozhraní ke klasickému IS. Častá komunikace mluvenou řečí. Alternativně: ■ komunikace pomocí DTMF ■ textová komunikace přirozenou řečí ■ multimodální komunikace: ■ řeč + obraz (simulace lidské tváře, titulky ve znakové řeči, ...) ■ řeč + text Výhody a nevýhody dialogových systémů Dialogové systémy Luděk Bártek 0 předmětu ■ Výhody: Úvod do dialogových systémů + + Přirozenější způsob komunikace. Přístupnost: Historie zpracování zvuku Fyzikální akustika ■ zrakově a motoricky postižení uživatelé ■ další uživatelé, kterým činí problémy ovládání počítače standardním způsobem ■ možnost podrobnějšího vedení uživatele krok za krokem Fyziologická akustika celým procesem ■ dalším krokem k lepší přístupnosti - multimodální rozhraní. ■ . .. Výhody a nevýhody dialogových systémů Dialogové systémy Luděk Bártek Výhody: + Větší množství potenciálních uživatelů: ■ počet uživatelů počítačů a Internetu vs. počet uživatelů telefonu. + ... Nevýhody: - rychlost komunikace ■ sekvenční vnímání zvuku vs. paralelní vnímání obrazu ■ lze částečně eliminovat pomocí vhodné dialogové strategie Aktuá Fl MU ní ' práce v oblasti dialogových systémů Dialogové systémy Luděk Bártek ■ Laboratoře: 0 předmětu Úvod do dialogových systémů Historie zpracování zvuku ■ ■ LSD - doc. Kopeček zaměřuje se na: ■ dialogové systémy a zpracování zvuku ■ sociální sítě ■ sociální informatika Fyzikální akustika Fyziologická akustika ■ ■ NLP - doc. Pala zaměřuje se na: ■ korpusy ■ slovníky ■ morfologii ■ syntaktickou analýzu ■ sémantiku 1 >o Q,o Aktuální práce v oblastech souvisejících s dialogovými systémy Výzkum Česká republika Dialogové systémy Luděk Bártek 0 předmětu ■ FIT VUT Brno Úvod do dialogových systémů ■ analýza signálu ■ rozpoznávání řeči Historie ■ systém pro automatizované zpracování konferencí zpracování zvu ku ■ . .. Fyzikální akustika Fyziologická akustika ■ ZČU v Plzni ■ rozpoznávání řeči ■ dialogové systémy ■ . .. ■ ČVUT - syntéza řeči 1 <\cy Aktuální práce v oblastech souvisejících s dialogovými systémy Komerční sféra - Česká republika Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie ■ FROG Systems s.r.o. - CS-voice 97 zpracování zvuku ■ OptimSys s.r.o - VoiceXML platforma OptimTalk Fyzikální akustika ■ ... Fyziologická akustika 1 <\cy Aktuální práce v oblasti dialogových systémů Výzkum a práce ve světě Dialogové systémy Luděk Bártek W3C Voice Browser Working Group ■ IBM ■ Nuance Communication ■ Lucent Technologies ■ Motorola ■ ScanSoft ■ Tel I me Networks ■ Vocalocity MIT OGI EPF Lausane European Masters in Language and Speech Dialogové systémy Luděk Bártek Evropské navazující studium v oblastech zpracování řeči a přirozeného jazyka (na Fl během magisterského studia). Zapojeny VŠ např. v Dánsku, Řecku, Španělsku, Belgii, Německu, Velké Británii, Nizozemí, ... Více informací: ■ Stránka o EuroMasters na Fl ■ doc. Pala, doc. Kopeček. Struktura dialogového systému Dialogové systémy Luděk Bártek Uživatelský prolil Lingvistické znalosti Syn teti zér feCi Sémantický analyzátor Korí text dialogu Doménové zn alosti tt t Dialogový manažer Generátor sdílen í r Komponenty dialogového systému Dialogové systémy Luděk Bártek Uživatel - koncové zařízení, které uživateli umožňuje komunikovat s dialogovým systémem: ■ telefon - komunikace prostřednictvím PSTN přes VoIP gateway - VoIP gateway převádí hlas na data a zpět ■ VoIP klient - komunikace prostřednictvím VoIP protokolu přímo s dialogovým systémem (SIP, H.323, Skype, .. .) ■ textový klient - komunikace prostřednictvím protokolů DTMF+VolP protokol, telnet, ssh, XMPP,. .. Rozpoznávání řeči: ■ převádí mluvené slovo na text ■ využívá se: ■ rozpoznávání plynulé řeči ■ rozpoznávání izolovaných slov ■ pro zvýšení úspěšnosti se používají gramatiky popisující množinu očekávaných vstupů. Komponenty dialogového systému Dialogové systémy Luděk Bártek ■ Sémantický analyzátor 0 předmětu ■ získává relevantní údaje z rozpoznaného textu Úvod do dialogových systémů ■ ■ využívají se např. atributové gramatiky Dialogový manažer Historie zpracování zvuku ■ konečný automat ■ na základě aktuálního stavu a vstupu od uživatele Fyzikální akustika Fyziologická akustika ■ rozhoduje o dalším průběhu dialogu. Generátor promluv - na základě údajů od dialogového manažeru generuje promluvy, které jsou následně syntetizovány. ■ Řečový syntetizér - převádí promluvy od generátoru promluv na mluvenou řeč, která je poslána uživateli. Údaje používané dialogovým systémem Dialogové systémy Luděk Bártek Lingvistické znalosti - údaje o jazyce, které využívá rozpoznávač řeči pro zvýšení úspěšnosti (pravděpodobnosti výskytů jednotlivých sekvencí řečových segmentů, gramatika, ...). Uživatelský profil - informace o uživatelích (charakteristiky hlasu, vyjadřování, používané fráze, ...). Doménové znalosti - informace odvoditelné z oblasti dialogového systému (gramatika, ...). Kontext dialogu - informace o aktuálním stavu dialogu (krok dialogu, uživatelský vstup, chybovost uživatele, ...). Historie zpracování a napodobování řeči Dialogové systémy Luděk Bártek před 3 milióny let - Australopitekus - schopnost artikulované řeči starověk - budování mluvících soch bůžků 1779 - Kratzenstein - systém rezonátorů pro napodobení samohlásek a, e, i, o, u. mm >0 Q,o Historie zpracování a napodobování řeči Dialogové systémy Luděk Bártek 1791 - Wolfgang von Kempelen - mechanický mluvící stroj 1835 - zrekonstruován a upraven Wheatstonem v Dublinu - měl navíc pružnou „ústní dutinu" 1846 - J. Faber - mluvící stroj Euphonia Historie zpracování a napodobování řeči Dialogové systémy Luděk Bártek 1937 - R. R. Riesz - mechanický mluvící stroj napodobující lidské řečové ústrojí nostril pitch lips mouth teeth velum pharynx 3 ^^w^^M air from tank 1939 - H. Dudley - VODER (elektromechanický řečový syntetizér), VOCODER (elektrické zařízení kódování a přenos řeči) 50. léta 20. století - syntéza ve frekvenční oblasti, později syntéza v časové oblasti >0 Q,o Historie zpracování a napodobování řeči Dokončení Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů ■ cca 1970 - počítače Historie zpracování zvuku ■ 1966 - J. Weizenbaum - Eliza (Communications of the Fyzikální ACM, leden). akustika Fyziologická akustika Základy moderní analýzy reči Dialogové systémy Luděk Bártek 19. století ■ J.B. Fourier - Fourierova věta - využíva se při spektrální analýze zvuku ■ H. Helmholtz - zabýval se fyziologií vnímání hudby, Helmholtzův rezonátor ■ J. R. Ewald - fyziologie sluchu 1924 - spektrálni analýza řeči na bázi formantové analýzy samohlásek 1939 - vokodér - zařízení pro kompresi řeči pro účely přenosu hlasu rádiem a transkontinentálním kabelem 1946 - 1947 - zařízení pro grafický záznam řeči 2. polovina 20. století - intenzivní vývoj jak teorie, tak počítačových aplikací. Základní řečové technologie Dialogové systémy Luděk Bártek 0 předmětu ■ syntéza řeči Úvod do ■ rozpoznávání řeči dialogových systémů Historie ■ související oblasti - zpracování jak v časové tak frekvenční zpracování zvuku oblasti Fyzikální ■ rozpoznávání řečníka akustika Fyziologická ■ detekce emocí akustika ■ word spotting ■ ... Zvuk Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie zpracování zvuku ■ Zvuk ■ kmitavý pohyb molekul prostředí (vzduchu) ■ vyvoláván pružným odporem prostředí ■ Kmit hmotného bodu Fyzikální akustika Fyziologická akustika ■ pohyb bodu z rovnovážné polohy do místa s maximální výchylkou (amplitudou), odtud do protilehlého místa s maximální výchylkou zpět do rovnovážného bodu. Kmity Dialogové systémy Luděk Bártek Fyziologická akustika perioda Kmity Fyzikální veličiny Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie zpracování zvuku Fyzikální akustika Fyziologická akustika ■ Amplituda - maximální výchylka kmitavého pohybu. ■ Perioda (T) ■ doba jednoho opakování periodického děje. ■ jednotka - 1 s (sekunda). ■ Frekvence (f) ■ počet opakování periodického děje za jednotku času. ■ platí f = y ■ jednotka 1 Hz (Hertz). Kmity Fyzikální veličiny Dialogové systémy Luděk Bártek 0 předmětu ■ Síla působící na kmitající bod: Úvod do dialogových systémů Historie zpracování zvuku ■ F = — ks, k - tuhost pružiny, s - aktuální výchylka pružiny ■ F = ma ma = —ks, m - hmotnost tělesa, a - zrychlení ■ a + oj2s = 0 (uj2 = uj - úhlová rychlost kmitavého pohybu: uj = ^) Fyzikální akustika Fyziologická akustika ■ fáze kmitavého pohybu: íp = uot ■ okamžitá výchylka: y = ymsinujt — ymsimjj ■ okamžitá rychlost: v = ujymsinujt = ymsiníp ■ okamžité zrychlení: a = —ujymsinujt — ymsiníp Harmonické versus tlumené versus vynucené kmitání Dialogové systémy Luděk Bártek Harmonické kmitání ■ na těleso nepůsobí žádná vnější síla ■ v praxi se s ním téměř nesetkáme (odpor vzduchu, ... Tlumené kmitání ■ proti pohybu působí odpor prostředí ■ amplituda s časem (vzdáleností od zdroje) klesá Vynucené kmitání, rezonance ■ na hmotný bod působí navíc periodicky proměnné síla G = sinat ■ F = ma = —ky + sinat =4> a + u y = sinat ■ partikulární reseni: ) co>2 — a2 Zvuk - mechanické vlnění pružného prostředí (vzduch, voda, kov, ...) Akustika - věda studující zvuk (z řeckého akustikos -vztahující se k slyšení): ■ fyzikální - zvuk jako fyzikální vlnění ■ fyziologická akustika - vzniká a vnímání zvuku člověkem ■ hudební - zvuky z pohledu hudby ■ molekulární - vztah akustických vlastností a molekulární struktury Rozdělení zvuku: ■ infrazvuk - frekvence < 16 Hz ■ slyšitelný zvuk - 16 Hz - 16kHz ■ ultrazvuk - > 16 kHz ■ hyperzvuk - až 108 Hz - využíván např. molekulární akustikou. Jednoduchý vs. složený tón Dialogové systémy Luděk Bártek Základní tón - průběh intenzity v čase lze popsat jednoduchou sinusoidou. Složený tón - lineární kombinace jednoduchých tónů Akustické spektrum zvuku Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie ■ Akustické spektrum - množina základních tónů, ze kterých je zvuk složen. ■ Získání spektra - Fourierova transformace: zpracování zvuku ■ F(x) musí splňovat Dirichletovy podmínky Fyzikální ■ periodická funkce s periodou T akustika ■ je na daném intervalu po částech spojitá (nejvýše konečný Fyziologická počet bodů nespojitosti 1. druhu) akustika ■ má nejvýše konečný počet extrémů na daném intervalu ■ definována v krajních bodech daného intervalu: Akustické spektrum Výpočet hodnot Dialogové systémy Využívá se rozkladu pomocí Fourierovy řady: Luděk Bártek F(x) = ^ + 3íCOs(íujx) + bisin(iujx) oo i=l UJ — 2tt T aproximace F(x) je nejlepší při použití hodnot koeficientů a a b\ 2 n a/c = — / F(x)cos(kx)dx 2 fi bf< = — / F(x)sin(kx)dx Hodnoty spektrálních koeficientů Sk = 3% + bl >0 0,0 Akustické spektrum zvuku pokračování Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů ■ Problém - zvuk je periodický pouze na určitých intervalech. Historie zpracování zvuku ■ analýza na krátkém intervalu, kde se předpokládá, že je periodický. Fyzikální akustika Fyziologická akustika ■ Z hlediska fyziologické akustiky - spektrum odpovídá rezonanci odpovídajících vlákének Cortiho ústrojí, resp. odpovídající reakci neuronů. Akustický tlak Dialogové systémy Luděk Bártek 0 předmětu ■ Akustický tlak Úvod do dialogových systémů ■ Odpovídá síle působící na element plochy v prostředí akustického vlnění. Historie zpracování ■ Pro sinusovou vlnu platí: zvuku Fyzikální akustika p = posin(cjt) Fyziologická akustika ■ po - maximální akustický tlak v průběhu periody ■ uj - úhlová rychlost ■ t - čas. Akustická intenzita a akustický tlak Dialogové systémy Luděk Bártek Akustická intenzita ■ Vyjadřuje množství akustické energie, které projde jednotkovou plochou za jednotku času. ■ Je přímo úměrná druhé mocnině akustického tlaku. ■ Rozsah intenzity zvuku - dán rozsahem minimální (Iq) a maximální (/i) akustické intenzity, kdy jsme schopni vnímat tón o frekvenci 1 kHz. ■ Práh citlivosti - p0 = 2 • 10~2Nm~2. ■ Práh bolestivosti - pi = 102Nm~2. ■ Rozsah - 2,5 • 1013Nm~2. Vnímaní zvuku Dialogové systémy Luděk Bártek Weber-Fechnerův psychofyzikální zákon ■ Člověkem subjektivně vnímaná hlasitost roste při geometrickém nárůstu intenzity přibližně lineárně. ■ Pro stanovení hladiny intenzity zvuku (L) volíme L = 10 • \ogl- h ■ jednotka - 1 bel (originál bell) [B] ■ Prakticky se využívá odvozená jednotka decibel [dB] (ÍO^S). Orientační hodnoty akustické intenzity Dialogové systémy Luděk Bártek Fyziologická akustika šepot - 10 - 20 dB tlumený hovor - 35 - 45 dB symfonický orchestr - 70 - 90 dB rocková hudba - 110 - 130 dB. □ rS1 Základy fyziologické akustiky Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie zpracování zvuku Fyzikální akustika ■ Fyziologická akustika se zabývá: ■ mechanizmem vytváření řeči ■ mechanizmem vnímání řeči. ■ Využívá Helmholtzovu rezonanční teorii. Fyziologická akustika Helmholtzův rezonátor Dialogové systémy Luděk Bártek Princip činnosti: ■ Přivedením vzduchu do rezonátoru v něm vznikne přetlak. ■ Ten vytlačuje přebytečný vzduch ven a následně vzniká podtlak, který způsobí nasávání vzduchu z okolí. ■ Takto vzniká periodický děj: f Mechanismus vytváření řeči Dialogové systémy Luděk Bártek Řeč vzniká pomocí hlasového ústrojí (umístěno v hrtanu). Hlasivky vytváří úzkou hlasovou štěrbinu a jsou rozechvívány procházejícím vzduchem. Frekvence jejich kmitání určuje základní hlasivkový tón - Zvuk, který vzniká v hrtanu pomocí hlasivek (samohlásky, znělé souhlásky) je modifikován v rezonančních dutinách: ■ h rta nové ■ ústní ■ nosohltanové. Rezonanční dutiny fungují na stejném principu jako Helmholtzův rezonátor). Hlasivky a schéma lidského hlasového ústroji O předmětu Úvod do dialogových systémů Hlasivky Jejich umístění Fpiglattis Tuberde of epíglntfisi Yentrictilar fold Arye.piglottic fold 4 □ ► 4 [fP ► Mechanizmus vnímaní řeči Dialogové systémy Luděk Bártek Zvuk vnímame sluchovým orgánem. Sluchový orgán: ■ vnější ucho - zachycuje, soustřeďuje a přivádí zvukové vlny ke střednímu uchu ■ střední ucho ■ mechanickou cestou přenáší zvukovou energii mezi vnějším a vnitřním uchem ■ obsahuje mechanizmy k vyrovnání rozdílů tlaku mezi vnějším prostředím a sluchovým orgánem ■ vnitřní ucho - převádí zvukovou energii na vzruchy, které jsou vedeny dále do mozku. Schéma sluchového orgánu Dialogové systémy Luděk Bártek Obrázek: Schéma sluchového orgánu Vnější ucho Dialogové systémy Luděk Bártek Obsahuje: ■ Ušní boltec - soustřeďuje zvukové vlny do zvukovodu. ■ Zvukovod - vede zachycenou zvukovou energii (vlny) k bubínku. ■ Bubínek: ■ Tenká blána na konci zvukovodu - síla cca 0.1 mm. ■ Zesílí a přenese zvukovou energii na kůstky středního ucha. Strední ucho Dialogové systémy Luděk Bártek Obsahuje: Kůstky středního ucha: ■ kladívko - přiléhá k bubínku ■ kovad linka ■ třmínek - přiléhá k oválnému okénku, kterým se zvuková energie předává do vnitřního ucha. Oválné okénko - tvoří přístup k vnitřnímu uchu. Eustachova trubice: ■ Vede ze středního ucha do nosohltanu. ■ Slouží k vyrovnání rozdílu tlaku mezi vnějším prostředím a středním uchem, aby nedošlo poškození sluchu. Vnitřní ucho Dialogové systémy Luděk Bártek Hlemýžď (Cochlea): ■ Je naplněn vodnatým roztokem. ■ Ustrojí ve tvaru ulity hlemýždě, které obsahuje Cortiho ústrojí. ■ Cortiho ústrojí obsahuje zhruba 20000 vlákének s délkami 40 //m - 0,5 mm. ■ Vlákénka jsou jsou napojena na nervová zakončení, která vedou vzruchy do příslušného centra v mozku. Rovnovážný orgán.