Stručná historie zpracování zvuku a řeči PB095 - Uvod do počítačového zpracování řeči Luděk Bártek Fakulta Informatiky Masarykova Univerzita Brno podzim 2022 Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Q Stručná historie zpracování zvuku a řeči Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči 9 Akustický signál. • Jedná se o kmitavý pohyb molekul pružného prostředí. • vzduch • voda • kov • ... • Vyvolán odporem prostředí - vede k opakovanému stlačování prostředí. a Podrobněji v části fyzikální akustika. Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Zvuk klepnutí na plastové tělo počítače (images/klepnuti-plast.wav) PB095 - Úvod do počítačového zpracování řeči Luděk Bártek Stručná historie zpracování zvuku a řeči ■.....*'n Zvuk tlesknutí (images/tlesknuti.wav) Luděk Bártek PB095 - Úvod do počítačového zpracování řeči • Akustický signál a gesta sloužící ke komunikaci. • Obsahuje definované vzory (slova), která jsou dána jazykem. • Velmi rozvinutý u člověka. • Příznaky schopnosti tvorby artikulované řeči již u Australopitéka ( -3 milióny let). Slouží ke sdělování: myšlenek, pocitů, emocí, ... • myšlenek - "Dnes budeme probírat láčkovce." ■ . o Ml ■ I f v I! I! |—v IV I v ■ VI I ■ \s -II! • pocitu - Je mi krasne. , Kadsi se ke mne ani nepribližuj! , "Au!" • emocí - " Jé!" ," Ach jo!" , " Hurá!" ,.. . 9 Určité formy akustické komunikace (řeči) lze pozorovat i u I Iv/ I w ' I v v I o dalších vyssich živočichu: • způsob zajištění kooperace při získávání obživy (kytovci, vlk, ■■■) • vábení partnera (jelen, ...) 9 vyjádření emočních stavů (pes, opice, ...). • ... Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči Zvukový záznam (images/ahoj .wav) PB095 - Úvod do počítačového zpracování řeči Luděk Bártek • fyzika - akustika 9 biologie - medicína (fyziologie, fyziologická akustika) • jazykověda - fonetika Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči napodobování řeči • Schopnost artikulované řeči - australopitekus - cca. -3 000 000 let • Starověk - budování mluvících soch o Galileo Galilei - souvislost mezi tónem a frekvencí • 1779 - Christian Gottlieb Kratzenstein - systém rezonátorů pro samohlásky a, e, i, o ,u Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči napodobování řeči • 1791 - (Johann) Wolfgang von Kempelen (de Pázmánd) -první mechanický řečový syntetizér • 1835 - zrekonstruován a upraven Wheatonem - navíc pružná " ústní dutina". • 1846 - J. Faber - mluvící stroj Euphonia Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči Přehled historie zpracování a napodobování řeči 1937 - R. R. Riesz - mechanický mluvící stroj 1939 - H. Dudley • VODER - elektromechanický řečový syntetizér • VOCODER - systém pro kódování a přenos řeči Modulator Q Carrier i—i TíiEH? BF-E ■'A BF-E T T Banddoor- Niveauanatyse la atfi Iters 50. léta 20. století - syntéza ve frekvenční oblasti • později v časové oblasti 70. léta 20. století - počítačové zpracování zvuku Luděk Bártek PB095 - Úvod do počítačového zpracování řeči 19. století porozumění principů tvorby a zpracování řeči (rezonanční teorie, základy fonetiky): • J. B. Fourier - Fourierova věta • principy spektrální analýzy zvuku • H. Helmholtz o fyziologie vnímání hudby • Helmholtzů rezonátor • J.R. Ewald - fyziologie sluchu. Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Dvacáté století: • 1924 - spektrální analýza řeči na bázi formantové analýzy samohlásek • Vokodéry - komprese řečového záznamu • 1946 - 47 zařízení pro grafické zobrazení řeči • 2. polovina 20. století - intenzivní rozvoj teorie a počítačových aplikací Luděk Bártek PB095 - Úvod do počítačového zpracování řeči -30dB -36dB -42dB^ -4SÚI -54dB^ -66dsJ -72dE -7BdBJ -84dBJ -90dB ■ ■ ImiliÉliiÉbUi t-r- -i-1-1- 14. I I I I I I I- 1000Hz 3000Hz 5000Hz 7000Hz 10000Hz 12000Hz 15000Hz 17000Hz 20000Hz Textová data k obrázku, (images/spektrum-a.txt) Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči • Syntéza řeči: • komerční TTS: • AT&T Natural Voices • IBM Research TTS • Loquendo TTS • nekomerční TTS: • MBrola • Festival o Demosthenes Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Stručná historie zpracování zvuku a řeči • Rozpoznávání řeči: 9 izolovaných slov • souvislé promluvy • komerční: Dragon, ViaVoice Desktop Products • nekomerční: Sphinx4, ... o Dialogové systémy • Infocity Liberec (TU Liberec, Prof. J. Nouza), v letech 1998 — 2001 na dostupne na tel. 485353100 • MIT Cambridge, Spoken Language System Group • Aktuální seznam veřejně dostupných projektů viz http://web.sis.csail.mit.edu • . . . Luděk Bártek PB095 - Úvod do počítačového zpracování řeči • Syntéza a rozpoznávání řeči • Demosthenes • NLP - čeština pro syntetizér MBrola - využit řečový korpus CLAP • Asistivní technologie: • Audi-C - dialogové programování v C++ Audis - řečový hypertextový prohlížeč • ... • Dialogové systémy • WebGen - dialogové generování webových prezentací • GATE - dialogové kreslení obrázků, dialogové prohlížení obrázků, zvukové zobrazení obrázků • Dialogové rozhraní pro IDS JMK • ... • Spolupráce s laboratořemi NLP, VR, ... Luděk Bártek PB095 - Úvod do počítačového zpracování řeči