Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2015 Cíl a náplň předmětu Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů ■ Cíl - seznámení s oblastí dialogových systémů. ■ Obsah kurzu: Historie zpracování zvuku ■ Úvod do dialogových systémů, historie ■ Základní technologie: Fyzikální akustika ■ digitální zpracování zvuku ■ rozpoznávání řeči Fyziologická akustika ■ porozumění rozpoznané řeči ■ syntéza řeči ■ přenos hlasu prostřednictvím počítačové sítě 1 -00.0 Cíl a náplň předmětu pokračování Obsah kurzu: ■ Dialogové systémy: ■ formální modely dialogu ■ analýza dialogu, kooperativní a nekooperativní dialog ■ dialogové strategie ■ information retrieval DS ■ simulace DS ■ multimodalita ■ nástroje pro tvorbu dialogových systémů - W3C Voice Browser Activity ■ aplikace. Ukončení predmetu Dialogové systémy Možná ukončení: ■ zkouška ■ kolokvium ■ zápočet Požadavky: ■ zkouška + kolokvium - dobrá orientace v probírané problematice ■ zkouška - písemka + ústní dozkoušení ■ kolokvium - nástin řešení problémové úlohy a detailnější rozbor některé z použitých technologií. ■ zápočet - zápočtová písemka současně se zkouškou. Doporučená literatura Knihy Dialogové systémy J. Psutka, Komunikace s počítačem mluvenou řečí, Academia, Praha, 1995 Z. Kotek, V. Mařík, Metody rozpoznávání a jejich aplikace, Academia, Praha, 1993 T. Dutoit, An Introduction to Text-to-Speech Synthesis, Kluwer Academic Publishing, 1996 A. Kobsa, W. Wahlster, User Models in Dialog System, Springer 1989 D. B. Roe, J. G. Wilpon (editors), Voice Communication Between Humans and Machines, National Academy Press, Washington D.C., 1994 F. Jelinek, Statistical Methods for Speech Recognition, MIT Press 1997 Doporučená literatura Web Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů ■ Nuance Dragon ■ Odkazy na dialogové systémy (DS) - Odkazy na dialogové Historie zpracování systémy (DS) zvuku Fyzikální akustika ■ Různé projekty z oblasti počítačové sémantiky na Stanford University Fyziologická akustika ■ Stránky W3C Voice Browser Activity ■ ... Co je dialogový systém? Dialogové systémy Dialogový systém - systém komunikující s uživatelem pomocí dialogu v přirozeném jazyce ■ většinou se jedná o dialogové rozhraní ke klasickému IS. Častá komunikace mluvenou řečí. Alternativně: ■ komunikace pomocí DTMF ■ textová komunikace přirozenou řečí ■ multimodální komunikace: ■ řeč + obraz (simulace lidské tváře, titulky ve znakové řeči, řeč + text Výhody a nevýhody dialogových systémů Výhody: + Přirozenější způsob komunikace. + Přístupnost: ■ zrakově a motoricky postižení uživatelé ■ další uživatelé, kterým činí problémy ovládání počítače standardním způsobem ■ možnost podrobnějšího vedení uživatele krok za krokem celým procesem ■ dalším krokem k lepší přístupnosti - multimodální rozhraní. Výhody a nevýhody dialogových systémů Dialogové systémy Výhody: + Větší množství potenciálních uživatelů: ■ počet uživatelů počítačů a Internetu vs. počet uživatelů telefonu. Nevýhody: - rychlost komunikace ■ sekvenční vnímání zvuku vs. paralelní vnímání obrazu ■ lze částečně eliminovat pomocí vhodné dialogové strategie Aktuální práce v oblasti dialogových systémů Fl MU Dialogové systémy Laboratoře: ■ LSD - doc. Kopeček ■ zaměřuje se na: ■ dialogové systémy a zpracování zvuku ■ sociální sítě ■ sociální informatika ■ NLP - doc. Pala ■ zaměřuje se na: ■ korpusy ■ slovníky ■ morfologii ■ syntaktickou analýzu ■ sémantiku Aktuální práce v oblastech souvisejících s dialogovými systémy Výzkum Česká republika Dialogové systémy Luděk Bártek O předmětu Úvod do dialogových systémů Historie zpracování zvuku Fyzikální akustika Fyziologická akustika ■ FIT VUT Brno ■ analýza signálu ■ rozpoznávání řeči ■ systém pro automatizované zpracování konferencí ■ .. . ■ ZČU v Plzni ■ rozpoznávání řeči ■ dialogové systémy ■ .. . ■ ČVUT - syntéza řeči Aktuální práce v oblastech souvisejících s d i a 1 ogo vý m i sy sté m y Komerční sféra - Česká republika Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie ■ FROG Systems s.r.o. - CS-voice 97 zpracování zvuku ■ OptimSys s.r.o - VoiceXML platforma OptimTalk Fyzikální akustika ■ ... Fyziologická akustika 1 -00.0 Aktuální práce v oblasti dialogových systémů Výzkum a práce ve světě W3C Voice Browser Working Group ■ IBM ■ Nuance Communication ■ Lucent Technologies ■ Motorola ■ Scan Soft ■ Tel I me Networks ■ Vocalocity MIT OGI EPF Lausane European Masters in Language and Speech Dialogové systémy Evropské navazující studium v oblastech zpracování řeči a přirozeného jazyka (na Fl během magisterského studia). Zapojeny VŠ např. v Dánsku, Řecku, Španělsku, Belgii, Německu, Velké Británii, Nizozemí, ... Více informací: ■ Stránka o EuroMasters na Fl ■ doc. Pala, doc. Kopeček. Struktura dialogového systému Uživatelský profil Syn tetizér Generátor sděleni Komponenty dialogového systému Dialogové systémy Uživatel - koncové zařízení, které uživateli umožňuje komunikovat s dialogovým systémem: ■ telefon - komunikace prostřednictvím PSTN přes VoIP gateway - VoIP gateway převádí hlas na data a zpět ■ VoIP klient - komunikace prostřednictvím VoIP protokolu přímo s dialogovým systémem (SIP, H.323, Skype, . ..) ■ textový klient - komunikace prostřednictvím protokolů DTMF+VolP protokol, telnet, ssh, XMPP,.. . Rozpoznávání řeči: ■ převádí mluvené slovo na text ■ využívá se: ■ rozpoznávání plynulé řeči ■ rozpoznávání izolovaných slov ■ pro zvýšení úspěšnosti se používají gramatiky popisující množinu očekávaných vstupů. Komponenty dialogového systému Dialogové systémy Luděk Bártek ■ Sémantický analyzátor 0 předmětu ■ získává relevantní údaje z rozpoznaného textu Úvod do dialogových systémů ■ ■ využívají se např. atributové gramatiky. Dialogový manažer Historie ■ konečný automat zpracování zvuku ■ na základě aktuálního stavu a vstupu od uživatele Fyzikální akustika Fyziologická akustika ■ rozhoduje o dalším průběhu dialogu. Generátor promluv - na základě údajů od dialogového manažeru generuje promluvy, které jsou následně syntetizovány. ■ Řečový syntetizér - převádí promluvy od generátoru promluv na mluvenou řeč, která je poslána uživateli. Údaje používané dialogovým systémem Lingvistické znalosti - údaje o jazyce, které využíva rozpoznávač řeči pro zvýšení úspěšnosti (pravděpodobnosti výskytu jednotlivých sekvencí řečových segmentu, gramatika, ...). Uživatelský profil - informace o uživatelích (charakteristiky hlasu, vyjadrovaní, používané fráze, . ..). Doménové znalosti - informace odvoditelné z oblasti dialogového systému (gramatika, .. .). Kontext dialogu - informace o aktuálním stavu dialogu (krok dialogu, uživatelský vstup, chybovost uživatele, ...). před 3 milióny let - Australopitekus - schopnost artikulované řeči starověk - budování mluvících soch bůžků 1779 - Kratzenstein - systém rezonátorů pro napodoben samohlásek a, e, i, o, u. Historie zpracování a napodobování řeči ■ 1835 - zrekonstruován a upraven Wheatstonem v Dublinu - měl navíc pružnou „ústní dutinu" ■ 1846 - J. Faber - mluvící stroj Euphonia Historie zpracování a napodobování řeči 1937 - R. R. Riesz - mechanický mluvící stroj napodobující lidské řečové ústrojí 1939 - H. Dudley - VODER (elektromechanický řečový syntetizér), VOCODER (elektrické zařízení kódování a přenos řeči) 50. léta 20. století - syntéza ve frekvenční oblasti, později syntéza v časové oblasti Historie zpracování a na podobování řeči Dokončení Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie ■ cca 1970 - počítače zpracování zvuku ■ 1966 - J. Weizenbaum - ■ Eliza (Communications of the Fyzikální akustika ACM, leden). Fyziologická akustika Základy moderní analýzy řeči Dialogové systémy 19. století ■ J.B. Fourier - Fourierova věta - využíva se při spektrální analýze zvuku ■ H. Helmhotz - zabýval se fyziologií vnímání hudby, Helmholtzův rezonátor ■ J. R. Ewald - fyziologie sluchu 1924 - spektrálni analýza řeči na bázi formantové analýzy samohlásek 1939 - vokodér - zařízení pro kompresi řeči pro účely přenosu hlasu rádiem a transkontinentálním kabelem 1946 - 1947 - zařízení pro grafický záznam řeči 2. polovina 20. století - intenzivní vývoj jak teorie, tak počítačových aplikací. Základní řečové technologie Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Historie ■ syntéza řeči ■ rozpoznávání řeči ■ související oblasti - zpracování jak v časové tak frekvenční zpracování zvuku oblasti Fyzikální akustika Fyziologická akustika ■ roz poz n ává n í řeč n íka ■ detekce emocí ■ word spotting ■ ... Zvuk ■ kmitavý pohyb molekul prostředí (vzduchu) ■ vyvoláván pružným odporem prostředí Kmit hmotného bodu ■ pohyb bodu z rovnovážné polohy do místa s maximální výchylkou (amplitudou), odtud do protilehlého místa s maximální výchylkou zpět do rovnovážného bodu. Kmity Dialogové systémy perioda Kmity Fyzikální veličiny Dialogové systémy Luděk Bártek Amplituda - maximální výchylka kmitavého pohybu. Perioda (T) ■ doba jednoho opakovaní periodického děje. ■ jednotka - 1 s (sekunda). Frekvence (f) ■ počet opakovaní periodického děje za jednotku času. ■ platí ŕ = y ■ jednotka 1 Hz (Hertz). 4Ľ3k4l3*4 = k4 = * -š -O^O Kmity Fyzikální veličiny Dialogové systémy Síla působící na kmitající bod: ■ F — —ks, k - tuhost pružiny, s - aktuální výchylka pružiny ■ F — ma =>• ma — —ks, m - hmotnost tělesa, a - zrychlení ■ a + lo2s — 0 {to2 — ^, uj - úhlová rychlost kmitavého pohybu: uj — ^) fáze kmitavého pohybu: tp = ut okamžitá výchylka: y = ymsinuút = ymsinip okamžitá rychlost: v = u)ymsinu)t = ymsimf) okamžité zrychlení: a = —u)ymsinu)t = ymsimf) Harmonické versus tlumené versus vynucené kmitání Dialogové systémy Harmonické kmitání ■ na těleso nepůsobí žádná vnější síla ■ v praxi se s ním téměř nesetkáme (odpor vzduchu, . ..). Tlumené kmitání ■ proti pohybu působí odpor prostředí ■ amplituda s časem (vzdáleností od zdroje) klesá Vynucené kmitání, rezonance ■ na hmotný bod působí navíc periodicky proměnné síla G — sinat F = ma = — ky + sinat -partikulární řešení: sž'""fž a + úl y = sinat Zvuk - mechanické vlnění pružného prostředí (vzduch, voda, kov, .. .) Akustika - věda studující zvuk (z řeckého akustikos -vztahující se k slyšení): ■ fyzikální - zvuk jako fyzikální vlnění ■ fyziologická akustika - vzniká a vnímání zvuku člověkem ■ hudební - zvuky z pohledu hudby ■ molekulární - vztah akustických vlastností a molekulární struktury. Rozdělení zvuku: ■ infrazvuk - frekvence < 16 Hz ■ slyšitelný zvuk - 16 Hz - 16kHz ■ ultrazvuk - > 16 kHz ■ hyperzvuk - až 108 Hz - využíván např. molekulární akustikou. Jednoduchý vs. složený tón Dialogové systémy Luděk Bártek ■ Základní tón - průběh intenzity v čase lze popsat jednoduchou sinusoidou. 0 předmětu Úvod do dialogových systémů Historie zpracování zvuku / \ \ \ / Fyzikální akustika Fyziologická akustika ■ Složený tón - lineární kombinace jednoduchých tónů. / \ \J Akustické spektrum zvuku Dialogové systémy Akustické spektrum - množina základních tónů, ze kterých je zvuk složen. Získání spektra - Fourierova transformace: ■ F(x) musí splňovat Dirichletovy podmínky ■ periodická funkce s periodou T ■ je na daném intervalu po částech spojitá (nejvýše konečný počet bodů nespojitosti 1. druhu) ■ má nejvýše konečný počet extrémů na daném intervalu ■ definována v krajních bodech daného intervalu: Akustické spektrum Výpočet hodnot Dialogové systémy Využíva se rozkladu pomocí Fourierovy řady: F (x) = — + a;cos{iujx) + bjsin(iux) i=l uj 2tt aproximace F(x) je nejlepší při použití hodnot koeficientů a a b: 2 fí a^ = — F{x)cos{kx)dx 2 fí bk = — F{x)sin{kx)dx Hodnoty spektrálních koeficientů sk = \/4 + b\ Akustické spektrum zvuku pokračování Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů ■ Problém - zvuk je periodický pouze na určitých intervalech. Historie zpracování zvuku ■ analýza na krátkém intervalu, kde se předpokládá, že je periodický. Fyzikální akustika Fyziologická akustika ■ Z hlediska fyziologické akustiky - spektrum odpovídá rezonanci odpovídajících vlákének Cortiho ústrojí, resp. odpovídající reakci neuronů. Akustický tlak Dialogové systémy Luděk Bártek 0 předmětu ■ Akustický tlak Úvod do dialogových systémů ■ Odpovídá síle působící na element plochy v prostředí akustického vlnění. Historie zpracování zvuku Fyzikální akustika ■ Pro sinusovou vlnu platí: p = p0sin(ujt) Fyziologická akustika ■ po - maximální akustický tlak v průběhu periody u oj - úhlová rychlost ■ t - čas. ■0 0.0 Akustická intenzita a akustický tlak Dialogové systémy Luděk Bártek Akustická intenzita ■ Vyjadřuje množství akustické energie, které projde jednotkovou plochou za jednotku času. ■ Je přímo úměrná druhé mocnině akustickému tlaku. ■ Rozsah intenzity zvuku - dán rozsahem minimální (Iq) a maximální (/i) akustické intenzity, kdy jsme schopni vnímat tón o frekvenci 1 kHz. ■ Práh citlivosti - p0 = 2 • lCT2A/m~2. ■ Práh bolestivosti - p\ — 102Nm~2. ■ Rozsah - 2,5 • 1013A/m"2. Weber-Fechnerův psychofyzikální zákon ■ Člověkem subjektivně vnímaná hlasitost roste při geometrickém nárůstu intenzity přibližně lineárně. ■ Pro stanovení hladiny intenzity zvuku (L) volíme L = 10 • logý 'o ■ jednotka - 1 bel (originál bell) [B] ■ Prakticky se využívá odvozená jednotka decibel [dB] (ÍO^S). Orientační hodnoty akustické intenzity Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů ■ šepot - 10 - 20 dB Historie zpracování ■ tlumený hovor - 35 - 45 dB zvuku Fyzikální ■ symfonický orchestr - 70 - 90 dB akustika Fyziologická akustika ■ rocková hudba - 110 - 130 dB. < □ MS M | M | ► 1 -o^o Základy fyziologické akustiky Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů ■ Fyziologická akustika se zabývá: Historie zpracování zvuku ■ mechanizmem vytváření řeči ■ mechanizmem vnímání řeči. Fyzikální akustika ■ Využívá Helmholtzovu rezonanční teorii. Fyziologická akustika 1 -00.0 Helmholtzův rezonátor Dialogové systémy Princip činnosti: ■ Přivedením vzduchu do rezonátoru v něm vznikne přetlak. Ten vytlačuje přebytečný vzduch ven a následně vzniká podtlak, který způsobí nasávání vzduchu z okolí. ■ Takto vzniká periodický děj: 4Ľ3k4l3*4 = k4 = * -š -O^O Mec hanizmus vytváření řeči Dialogové systémy Luděk Bártek ■ Řeč vzniká pomocí hlasového ústrojí (umístěno v hrtanu). 0 předmětu ■ Hlasivky vytváří úzkou hlasovou štěrbinu a jsou Úvod do dialogových rozechvívány procházejícím vzduchem. systémů ■ Frekvence jejich kmitání určuje základní hlasivkový tón - zpracování Fq. zvuku Fyzikální akustika ■ Zvuk, který vzniká v hrtanu pomocí hlasivek (samohlásky, znělé souhlásky) je modifikován v rezonančních dutinách: Fyziologická ■ hrtanové akustika ■ ústní ■ nosohltanové. ■ Rezonanční dutiny fungují na stejném principu jako Helmholtzův rezonátor). Mec hanizmus vnímání řeči Dialogové systémy Luděk Bártek 0 předmětu ■ Zvuk vnímáme sluchovým orgánem. Úvod do ■ Sluchový orgán: dialogových systémů ■ vnější ucho - zachycuje, soustřeďuje a přivádí zvukové vlny Historie ke střednímu uchu zpracování zvuku ■ střední ucho Fyzikální ■ mechanickou cestou přenáší zvukovou energii mezi akustika vnějším a vnitřním uchem Fyziologická ■ obsahuje mechanizmy k vyrovnání rozdílů tlaku mezi akustika vnějším prostředím a sluchovým orgánem ■ vnitřní ucho - převádí zvukovou energii na vzruchy, které jsou vedeny dále do mozku. Schéma sluchového orgánu Obrázek: Schéma sluchového orgánu Vnější ucho Dialogové systémy Obsahuje: ■ Ušní boltec - soustřeďuje zvukové vlny do zvukovodu. ■ Zvukovod - vede zachycenou zvukovou energii (vlny) k bubínku. ■ Bubínek: ■ Tenká blána na konci zvukovodu - síla cca 0.1 mm. ■ Zesílí a přenese zvukovou energii na kůstky středního ucha. Střední ucho Dialogové systémy Obsahuje: ■ Kůstky středního ucha: ■ kladívko - přiléhá k bubínku ■ kovadlinka ■ třmínek - přiléhá k oválnému okénku, kterým se zvuková energie předává do vnitřního ucha. ■ Oválné okénko - tvoří přístup k vnitřnímu uchu. ■ Eustachova trubice: ■ Vede ze středního ucha do nosohltanu. ■ Slouží k vyrovnání rozdílu tlaku mezi vnějším prostředím a středním uchem, aby nedošlo poškození sluchu. Vnitřní ucho Dialogové systémy Hlemýžď (Cochlea): ■ Je naplněn vodnatým roztokem. ■ Ustrojí ve tvaru ulity hlemýždě, které obsahuje Cortiho ústrojí. ■ Cortiho ústrojí obsahuje zhruba 20000 vlákének s délkami 40 /im - 0,5 mm. ■ Vlákénka jsou jsou napojena na nervová zakončení, která vedou vzruchy do příslušného centra v mozku. Rovnovážný orgán.