Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2012 Cíl a náplň předmětu Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů ■ Cíl - seznámení s oblastí dialogových systémů. ■ Obsah kurzu: Stručná historie zpracování ■ Úvod do dialogových systémů, historie ■ Základní technologie: zvuku Fyzikální akustika ■ přenos hlasu prostřednictvím počítačové sítě ■ digitální zpracování zvuku Fyziologická akustika ■ rozpoznávání řeči ■ syntéza řeči Základy fyziologické akustiky Mechanizmus Vnímáni zvuku 1 -00.0 Cíl a náplň předmětu pokračování Dialogové systémy Obsah kurzu: ■ Dialogové systémy: ■ formální modely dialogu ■ analýza dialogu, kooperativní a nekooperativní dialog ■ dialogové strategie ■ information retrieval DS ■ simulace DS ■ multimodalita ■ nástroje pro tvorbu dialogových systémů - W3C Vo i ce Browser Activity ■ aplikace. Ukončení predmetu Dialogové systémy Možná ukončení: ■ zkouška ■ kolokvium ■ zápočet Požadavky: ■ zkouška + kolokvium - dobrá orientace v probírané problematice ■ písemka + ústní dozkoušení ■ nástin řešení problémové úlohy a detailnější rozbor některé z použitých technologií. ■ zápočet - schopnost návrhu řešení daného problému z oblasti dialogových systémů. Doporučená literatura Knihy Dialogové systémy J. Psutka, Komunikace s počítačem mluvenou řečí, Academia, Praha, 1995 Z. Kotek, V. Mařík, Metody rozpoznávání a jejich aplikace, Academia, Praha, 1993 T. Dutoit, An Introduction to Text-to-Speech Synthesis, Kluwer Academic Publishing, 1996 A. Kobsa, W. Wahlster, User Models in Dialog System, Springer 1989 D. B. Roe, J. G. Wilpon (editors), Voice Communication Between Humans and Machines, National Academy Press, Washington D.C., 1994 F. Jelinek, Statistical Methods for Speech Recognition, MIT Press 1997 Doporučená literatura Web Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Stručná historie zpracování zvuku Fyzikální akustika ■ Via Voice ■ Odkazy na dialogové systémy (DS) ■ Různé projekty z oblasti počítačové sémantiky na Stanford University ■ Stránky W3C VoiceBrowser Activity Fyziologická akustika ■ ... Základy fyziologické akustiky Mechanizmus Vnímáni zvuku Co je dialogový systém? Dialogové systémy Dialogový systém - systém komunikující s uživatelem pomocí dialogu v přirozeném jazyce ■ většinou se jedná o dialogové rozhraní ke klasickému IS. Častá komunikace přirozenou řečí. Alternativně: ■ komunikace pomocí DTMF ■ textová komunikace přirozenou řečí ■ multimodální komunikace: ■ řeč + obraz (simulace lidské tváře, titulky ve znakové řeči, řeč + text Výhody a nevýhody dialogových systémů Výhody: + Přirozenější způsob komunikace. + Přístupnost: ■ zrakově a motoricky postižení uživatelé ■ další uživatelé, kterým činí problémy práce ovládání počítače ■ možnost podrobnějšího vedení uživatele krok za krokem celým procesem ■ dalším krokem k lepší přístupnosti - multimodální rozhraní Výhody a nevýhody dialogových systémů Dialogové systémy Výhody: + Větší množství potenciálních uživatelů: ■ počet uživatelů počítačů a Internetu vs počet uživatelů telefonu. Nevýhody: - rychlost komunikace ■ sekvenční vnímání zvuku vs. paralelní vnímání obrazu ■ lze částečně eliminovat pomocí vhodné dialogové strategie Aktuální práce v oblasti dialogových systémů Fl MU Dialogové systémy Laboratoře: ■ LSD - doc. Kopeček, prof. Zezula ■ zaměřuje se na: ■ vyhledávání ■ dialogové systémy a zpracování zvuku ■ NLP - doc. Pala ■ zaměřuje se na: ■ korpusy ■ slovníky ■ morfologii ■ syntaktickou analýzu ■ sémantiku Aktuální práce v oblastech souvisejících s dialogovými systémy Výzkum Česká republika Dialogové systémy Luděk Bártek 0 předmětu ■ FIT VUT Brno Úvod do dialogových systémů Stručná historie zpracování zvuku Fyzikální akustika Fyziologická akustika ■ analýza signálu ■ rozpoznávání řeči ■ systém pro automatizované zpracování konferencí ■ .. . ■ ZČU v Plzni ■ rozpoznávání řeči ■ dialogové systémy ■ .. . Základy fyziologické akustiky Mechanizmus Vnímání zvuku ■ ČVUT - syntéza řeči 1 -00.0 Aktuální práce v oblastech souvisejících s d i a 1 ogo vý m i sy sté m y Komerční sféra - Česká republika Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Stručná ■ FROG Systems s.r.o. - CS-voice 97 historie zpracování ■ OptimSys s.r.o - VoiceXML platforma OptimTalk Fyzikální akustika ■ ... Fyziologická akustika Základy fyziologické akustiky Mechanizmus Vnímáni zvuku 1 -00.0 Aktuální práce v oblasti dialogových systémů Výzkum a práce ve světě W3C VoiceBrowser Working Group ■ IBM ■ Nuance Communication ■ Lucent Technologies ■ Motorola ■ Scan Soft ■ Tel I me Networks ■ Vocalocity MIT OGI EPF Lausane European Masters in Language and Speech Dialogové systémy Evropské navazující studium v oblastech zpracování řeči a přirozeného jazyka (na Fl během magisterského studia). Zapojeny VŠ např. v Dánsku, Řecku, Španělsku, Belgii, Německu, Velké Británii, Nizozemí, ... Více informací: ■ Stránka o EuroMasters na Fl ■ doc. Pala, doc. Kopeček. Struktura dialogového systému Uživatelský profil Syn tetizér Generátor sděleni Komponenty dialogového systému Dialogové systémy Uživatel - koncové zařízení, které uživateli umožňuje komunikovat s dialogovým systémem: ■ telefon - komunikace prostřednictvím PSTN přes VoIP gateway - VoIP gateway převádí hlas na data a zpět ■ VoIP klient - komunikace prostřednictvím VoIP protokolu přímo s dialogovým systémem (SIP, H323, Skype, .. .) ■ textový klient - komunikace prostřednictvím protokolů DTMF+VolP protokol, telnet, ssh, XMPP,.. . Rozpoznávání řeči: ■ převádí mluvené slovo na text ■ využívá se: ■ rozpoznávání plynulé řeči ■ rozpoznávání izolovaných slov ■ pro zvýšení úspěšnosti se používají gramatiky popisující množinu očekávaných vstupů. Komponenty dialogového systému Dialogové systémy Sémantický analyzátor ■ získava relevantní údaje z rozpoznaného textu ■ využívají se např. atributové gramatiky. Dialogový manažer ■ konečný automat ■ na základě aktuálního stavu a vstupu od uživatele rozhoduje o dalším průběhu dialogu. Generátor promluv - na základě údajů od dialogového manažeru generuje promluvy, které jsou následně syntetizovány. Řečový syntetizér - převádí promluvy od generátoru promluv na mluvenou řeč, která je poslána uživateli. Údaje používané dialogovým systémem Lingvistické znalosti - údaje o jazyce, které využíva rozpoznávač řeči pro zvýšení úspěšnosti (pravděpodobnosti výskytu jednotlivých sekvencí řečových segmentu, gramatika, ...). Uživatelský profil - informace o uživatelích (charakteristiky hlasu, vyjadrovaní, používané fráze, . ..). Doménové znalosti - informace odvoditelné z oblasti dialogového systému (gramatika, .. .). Kontext dialogu - informace o aktuálním stavu dialogu (krok dialogu, uživatelský vstup, chybovost uživatele, ...). Luděk Bártek O předmětu Uvod do dialogových systémů Fyziologická akustika Základy fyziologické akustiky před 3 milióny let - Australopitekus - schopnost artikulované řeči starověk - budování mluvících soch bůžků 1779 - Kratzenstein - systém rezonátorů pro napodob samohlásek a, e, i, o, u. Historie zpracování a napodobování řeči Dialogové systémy 1791 - Wolfgang von Kempelen - mechanický mluvící stroj 1835 - zrekonstruován a upraven Wheatstonem v Dublinu - měl navíc pružnou „ústní dutinu" 1846 - J. Faber - mluvící stroj Euphonia Historie zpracování a napodobování řeči 1937 - R. R. Riesz - mechanický mluvící stroj napodobující lidské řečové ústrojí 1939 - H. Dudley - VODER (elektromechanický řečový syntetizér), VOCODER (elektrické zařízení kódování a přenos řeči) 50. léta 20. století - syntéza ve frekvenční oblasti, později syntéza v časové oblasti Historie zpracování a napodobování řeči Dokončení Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Stručná ■ cca 1970 - počítače historie zpracování zvuku Fyzikální akustika ■ 1966 - J. Weizenbaum - Eliza (Communications of the ACM, leden). Fyziologická akustika Základy fyziologické akustiky Mechanizmus Vnímáni zvuku 16 kHz ■ hyperzvuk - až 108 Hz - využíván např. molekulární akustikou. Jednoduchý vs. složený tón Základní tón - průběh intenzity v čase lze popsat jednoduchou sinusoidou. Složený tón - lineární kombinace jednoduchých tónů. Akustické spektrum zvuku Dialogové systémy Akustické spektrum - množina základních tónů, ze kterých je zvuk složen. Získání spektra - Fourierova transformace: ■ F(x) musí splňovat Dirichletovy podmínky ■ periodická funkce s periodou T ■ je na daném intervalu po částech spojitá (nejvýše konečný počet bodů nespojitosti 1. druhu) ■ má nejvýše konečný počet extrémů na daném intervalu ■ definována v krajních bodech daného intervalu: Akustické spektrum Výpočet hodnot Dialogové systémy Využíva se rozkladu pomocí Fourierovy řady: F (x) = — + a;cos{iujx) + bjsin(iux) i=l uj 2tt aproximace F(x) je nejlepší při použití hodnot koeficientů a a b: 2 fí a^ = — F{x)cos{kx)dx 2 fí bk = — F{x)sin{kx)dx Hodnoty spektrálních koeficientů sk = \/4 + b\ Akustické spektrum zvuku pokračování Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů ■ Problém - zvuk je periodický pouze na určitých intervalech. Stručná historie zpracování ■ analýza na krátkém intervalu, kde se předpokládá, že je periodický. zvuku Fyzikální akustika Fyziologická akustika ■ Z hlediska fyziologické akustiky - spektrum odpovídá rezonanci odpovídajících vlákének Cortiho ústrojí, resp. odpovídající reakci neuronů. Základy fyziologické akustiky Mechanizmus Vnímání zvuku Akustický tlak Dialogové systémy Luděk Bártek 0 předmětu ■ Akustický tlak Úvod do dialogových systémů ■ Odpovídá síle působící na element plochy v prostředí akustického vlnění. Stručná historie zpracování zvuku ■ Pro sinusovou vlnu platí: p = p0sin(ujt) Fyzikální akustika Fyziologická akustika Základy fyziologické akustiky Mechanizmus Vnímáni zvuku ■ po - maximální akustický tlak v průběhu periody u oj - úhlová rychlost ■ t - čas. ■0 0.0 Akustická intenzita a akustický tlak Dialogové systémy Luděk Bártek Akustická intenzita ■ Vyjadřuje množství akustické energie, které projde jednotkovou plochou za jednotku času. ■ Je přímo úměrná druhé mocnině akustickému tlaku. ■ Rozsah intenzity zvuku - dán rozsahem minimální (Iq) a maximální (/i) akustické intenzity, kdy jsme schopni vnímat tón o frekvenci 1 kHz. ■ Práh citlivosti - p0 = 2 * lCT2A/m~2. ■ Práh bolestivosti - p\ — 102Nm~2. ■ Rozsah - 2,5 * 1013A/m"2. Vnímání zvuku Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů Stručná historie zpracování zvuku Fyzikální akustika Fyziologická akustika Základy fyziologické akustiky ■ Weber-Fechnerův psychofyzi kál ní zákon ■ Člověkem subjektivně vnímaná hlasitost roste při geometrickém nárůstu intenzity přibližně lineárně. ■ Pro stanovení hladiny intenzity zvuku (L) volíme L = 10 * log1-h ■ jednotka - 1 bel (originál bell) [B] ■ Prakticky se využívá odvozená jednotka decibel [dB] (ÍO^S). Mechanizmus Vnímáni zvuku Orientační hodnoty akustické intenzity Dialogové systémy Luděk Bártek 0 předmětu Úvod do dialogových systémů ■ šepot - 10 - 20 dB Stručná historie zpracování zvuku ■ tlumený hovor - 35 - 45 dB ■ symfonický orchestr - 70 - 90 dB Fyzikální akustika ■ rocková hudba - 110 - 130 dB. Fyziologická akustika Základy fyziologické akustiky Mechanizmus Vnímáni zvuku