Dialogové systémy Rozpoznávání řeči Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2015 Zpra Úvod cování digitalizovaného signálu Dialogové systémy Luděk Bártek ■ Zvuk je neměnný pouze na krátkých časových úsecích - Zpracování metody krátkodobé analýzy. digitalizo- vaného signálu ■ Tento interval se nazývá mikrosegment - velikost 10 — Zpracování v časové oblasti 40 ms. Zpracování ve frekvenční oblasti ■ Metody krátkodobé analýzy: Rozpoznávání ■ V časové oblasti - zpracovávají se přímo hodnoty řeči jednotlivých vzorků. Rozpoznávání ■ Ve frekvenční oblasti - ze vzorků se získávají frekvenční charakteristiky, které jsou následně zpracovány. ■ Modelování funkce Cortiho ústrojí - pomocí diferenciálních rovnic se simuluje rezonance na určitých vlákénkách Cortiho ústrojí. Zpracování digitalizovaného signálu Váhové okénko Dialogové systémy Při krátkodobé analýze předpokládáme, že signál je v okolí mikrosegmentu periodický se stejnou periodou jako uvnitř. Vzniklá chyba se kompenzuje použitím „okénka". Okénko - posloupnost vah pro vzorky v mikrosegmentu. Tyto váhy by měly odpovídat tomu, jak je daný vzorek ovlivněn okolím mikrosegmentu. Nejčastěji používané typy okének: ■ pravoúhlé okénko ■ Hammingovo okénko Zpracování digitalizovaného signálu Hammingovo okénko Zpracování digitalizovaného signálu Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání řeči Rozpoznávání Vychází z předpokladu, že čím jsou vzorky blíže středu mikrosegmentu, tím méně jsou ovlivněny okolím. ■ Pro výpočet vah se používá vzorec: , , Ín = 0.../V-1 0.54 - 0A6cos(j£") w(n) = < { >-) [n<0Vn>« 0 ■ Průběh vah okénka na mikrosegmentu: 1 -00.0 Zpracování digitalizovaného signálu Pravoúhlé okénko Dialogové systémy Luděk Bártek Zpracování digitalizo- ■ Vychází se z předpokladu: vaného signálu Q vzorky mikrosegmentu nejsou pro naše potřeby ovlivněny Zpracování v časové oblasti okolím mikrosegmentu Zpracování ve frekvenční B všechny vzorky mikrosegmentu jsou ovlivněny stejně. Rozpoznávání řeči ■ Všechny vzorky mikrosegmentu mají shodnou váhu. Rozpoznávání , . ÍO < n < N 1 w(n) = < |/)<0Vn>« 0 (n)e-'^" = 5>(n)lrV oblasti Rozpoznávání řeči ■ - intenzita k. spektrálního koeficientu, frekvence Rozpoznávání izolovaných slov závisí na velikosti mikrosegmentu N a vzorkovací frekvenci. ■ x(n) - n. vzorek daného mikrosegmentu Wn = e'Tŕ = cos{2tt/N) + j ■ s/n(27r//V). m Výpočet n. vzorku na základě hodnot X(k) - IDFT: 1 N-l 1 N-l k=0 k=0