Stručná historie zpracování zvuku a řeči PB095 - Uvod do počítačového zpracování řeči Luděk Bártek Fakulta Informatiky Masarykova Univerzita Brno podzim 2019 Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči Q Stručná historie zpracování zvuku a řeči Luděk Bártek PB095 - Úvod do počítačového zpracování řeči 9 Akustický signál. • Jedná se o kmitavý pohyb molekul pružného prostředí. • vzduch • voda • kov • ... • Vyvolán odporem prostředí - vede k opakovanému stlačování prostředí. • Podrobněji v části fyzikální akustika. Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Zvuk klepnutí na plastové tělo počítače (images/klepnuti-plast.wav) PB095 - Úvod do počítačového zpracování řeči Luděk Bártek Stručná historie zpracování zvuku a řeči Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči Akustický signál a gesta sloužící ke komunikaci. Obsahuje definované vzory (slova), která jsou dána jazykem. Velmi rozvinutý u člověka. • Příznaky schopnosti tvorby artikulované řeči již u Australopitéka ( -3 milióny let). Slouží ke sdělování: myšlenek, pocitů, emocí, ... • myšlenek - "Dnes budeme probírat láčkovce." ■ . o Ml ■ I f v I! I! |—v IV I v ■ VI I ■ \s -II! • pocitu - Je mi krasne. , Kadsi se ke mne ani nepribližuj! , "Au!" • emocí - " Jé!" ," Ach jo!" , " Hurá!" ,.. . Určité formy akustické komunikace (řeči) lze pozorovat i u I Iv/ I w ' I v v I o dalších vyssich živočichu: • způsob zajištění kooperace při získávání obživy (kytovci, vlk, ■■■) • vábení partnera (jelen, ...) 9 vyjádření emočních stavů (pes, opice, ...). Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Luděk Bártek PB095 - Úvod do počítačového zpracování řeči • fyzika - akustika • biologie - medicína (fyziologie, fyziologická akustika) • jazykověda - fonetika Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči napodobování řeči • Schopnost artikulované řeči - australopitekus - cca. -3 000 000 let • Starověk - budování mluvících soch • Galileo Galilei - souvislost mezi tónem a frekvencí • 1779 - Christian Gottlieb Kratzenstein - systém rezonátorů pro samohlásky a, e, i, o ,u Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči Přehled historie zpracování a napodobování řeči • 1791 - (Johann) Wolfgang von Kempelen (de Pázmánd) -první mechanický řečový syntetizér • 1835 - zrekonstruován a upraven Wheatonem - navíc pružná " ústní dutina". • 1846 - J. Faber - mluvící stroj Euphonia Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči Přehled historie zpracování a napodobování řeči • 1937 - R. R. Riesz - mechanický mluvící stroj • 1939 - H. Dudley • VODER - elektromechanický řečový syntetizér • VOCODER - systém pro kódování a přenos řeči Modulator O Carrier BF-KF ■'A BF-H Banddoor- Niveau analyse la atfi Iters o 50. léta 20. století - syntéza ve frekvenční oblasti • později v časové oblasti • 70. léta 20. století - počítačové zpracování zvuku Luděk Bártek PB095 - Úvod do počítačového zpracování řeči 19. století porozumění principů tvorby a zpracování řeči (rezonanční teorie, základy fonetiky): • J. B. Fourier - Fourierova věta • principy spektrální analýzy zvuku • H. Helmholtz o fyziologie vnímání hudby • Helmholtzů rezonátor • J.R. Ewald - fyziologie sluchu. Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Dvacáté století: • 1924 - spektrální analýza řeči na bázi formantové analýzy samohlásek o Vokodéry - komprese řečového záznamu • 1946 - 47 zařízení pro grafické zobrazení řeči • 2. polovina 20. století - intenzivní rozvoj teorie a počítačových aplikací Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči -24dfr -30dB -36dB -42dB -4SÚ Lil 11U Lk iL. á ■Ulli lU l Ml k L.__ ■mi iiiiiiiiJiLu kl . ■U MM lOOOHz ' 3000Hz ' 5000Hz ' 7000Hz ' 10000Hz 12000Hz 15000Hz 17000Hz 20000Hz Textová data k obrázku, (images/spektrum-a.txt) Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči • Syntéza řeči: • komerční TTS: • AT&T Natural Voices • IBM Research TTS • Loquendo TTS • nekomerční TTS: • MBrola • Festival o Demosthenes Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči o Rozpoznávání řeči: • izolovaných slov • souvislé promluvy • komerční: Dragon, ViaVoice Desktop Products • nekomerční: Sphinx4, ... o Dialogové systémy • Infocity Liberec (TU Liberec, Prof. J. Nouza), v letech 1998 — 2001 na dostupne na tel. 485353100 • MIT Cambridge, Spoken Language System Group • Aktuální seznam veřejně dostupných projektů viz http://web.sis.csail.mit.edu Luděk Bártek PB095 - Úvod do počítačového zpracování řeči • Syntéza a rozpoznávání řeči • Demosthenes • NLP - čeština pro syntetizér MBrola - využit řečový korpus CLAP • Asistivní technologie: • Audi-C - dialogové programování v C++ Audis - řečový hypertextový prohlížeč • ... • Dialogové systémy • WebGen - dialogové generování webových prezentací • GATE - dialogové kreslení obrázků, dialogové prohlížení obrázků, zvukové zobrazení obrázků • Dialogové rozhraní pro IDS JMK • ... • Spolupráce s laboratořemi NLP, VR, ... Luděk Bártek PB095 - Úvod do počítačového zpracování řeči