Dialogové systémy Dialogové systémy Rozpoznávání řeči Zpracování ve frekvenční oblasti Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2019 Zpracování digitalizovaného signálu Úvod Dialogové systémy Luděk Bártek ■ Zvuk je neměnný pouze na krátkých časových úsecích - Zpracování metody krátkodobé analýzy. digitalizo- vaného signálu ■ Tento interval se nazývá mikrosegment - velikost 10 — Zpracování v časové oblasti 40 ms. Zpracování ve frekvenční oblasti ■ Metody krátkodobé analýzy: ■ V časové oblasti - zpracovávají se přímo hodnoty jednotlivých vzorků. ■ Ve frekvenční oblasti - ze vzorků se získávají frekvenční charakteristiky, které jsou následně zpracovány. ■ Modelování funkce Cortiho ústrojí - pomocí diferenciálních rovnic se simuluje rezonance na určitých vlákénkách Cortiho ústrojí. Zpracování digitalizovaného signálu Váhové okénko Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Při krátkodobé analýze předpokládáme, že signál je v okolí mikrosegmentu periodický se stejnou periodou jako uvnitř. Vzniklá chyba se kompenzuje použitím „okénka". Okénko - posloupnost vah pro vzorky v mikrosegmentu. Tyto váhy by měly odpovídat tomu, jak je daný vzorek ovlivněn okolím mikrosegmentu. Nejčastěji používané typy okének: ■ pravoúhlé okénko ■ Hammingovo okénko Zpracování digitalizovaného signálu Hammingovo okénko Dialogové systémy Luděk Bártek Vychází z předpokladu, že čím jsou vzorky blíže středu mikrosegmentu, tím méně jsou ovlivněny okolím. Pro výpočet vah se používá vzorec: Zpracování v časové oblasti Zpracování ve frekvenční oblasti w(n) — n = Q...N - 1 o,54- 0,46cos(^) n <0\/ n> N 0 Průběh vah okénka na mikrosegmentu : ► Zpracování digitalizovaného signálu Pravoúhlé okénko Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Vychází se z předpokladu: Q vzorky mikrosegmentu nejsou pro naše potřeby ovlivněny okolím mikrosegmentu Q všechny vzorky mikrosegmentu jsou ovlivněny stejně. Všechny vzorky mikrosegmentu mají shodnou váhu. w(n) — 0 < n < N 1 n <0V n> N 0 Analýza digitalizovaného signálu v časové oblasti Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Vychází přímo z hodnot vzorků, nikoliv z hodnot spektra Používané metody: ■ funkce krátkodobé energie ■ funkce krátkodobé intenzity ■ funkce středního počtu průchodů nulou ■ diference 1. řádu ■ autokorelační funkce Analýza v časové oblasti Funkce krátkodobé energie Dialogové systémy Luděk Bártek ■ Využívá funkci průměrné energie v rámci segmentu: Zpracování digitalizovaného signálu Zpracování v oo E(n)= (s(k)u(n - k))2 k=—oo časové oblasti Zpracování ve frekvenční oblasti ■ s(/c) - vzorek v čase k ■ oj(n — k) - váha odpovídajícího okénka pro čas k ■ Výstupem je průměrná energie v daném okénku. ■ Druhá mocnina zvyšuje dynamiku zvukového signálu. ■ Použití: ■ automatické oddělení ticha řeči (signálu) ■ příznaky v jednoduchých klasifikátorech slov ■ oddělení znělých a neznělých částí promluvy Analýza v časové oblasti Funkce krátkodobé intenzity Dialogové systémy Luděk Bártek Zpracování digitalizovaného ■ Funkce intenzity signálu v daném okénku. oo signálu Zpracování v časové oblasti Zpracování ve f rekvencn í l(n)= ]T \s(k)\u(n-k) k=—oo oblasti ■ \s(k)\ - absolutní hodnota vzorku v čase k ■ oj(n — k) - váha odpovídajícího okénka pro čas k ■ Použití - stejné jako funkce krátkodobé energie. ■ Oproti krátkodobé energii nezvýrazňuje tolik dynamiku řečového signálu. Analýza v časové oblasti Krátkodobá funkce středního počtu průchodu nulou Dialogové systémy Luděk Bártek ■ Počítá změny znaménka digitalizovaného signálu. Zpracování digitalizovaného signálu oo Z(n)= \sgn[s(k)] - sgn[s(k - l)]\u(n - k) Zpracování v časové oblasti k=—oo Zpracování ve frekvenční oblasti ■ Varianta - počet lokálních extrémů. ■ Obě metody mohou být negativně zatíženy šumem zvukového pozadí. ■ Použití: ■ detekce ticha ■ detekce začátku a konce i zašuměné promluvy ■ přibližné určení základního hlasivkového tónu a formantů ■ příznaky jednodušších klasifikátorů slov Analýza v časové oblasti Autokorelační funkce Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Vrací podobnost úseků daného mikrosegmentu (čím větší výsledná hodnota, tím podobnější úseky posunuté o m vzorků). oo R(m, rí) = ^ (s(k)uj(n - k))(s(k + m)uj{n - k + m)) k=—oo Je-li signál periodický s periodou P, R(m,n) nabývá maxima pro m=0, P, 2P, . .. Předpokládá délku mikrosegmentu aspoň 2P. Použití: ■ Používá se k zjišťování periodicity signálu základního tónu reci. ■ Základ pro výpočet koeficientů LPA. Analýza signálu ve frekvenční oblasti Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Transformuje digitální řečový signál z časové oblasti do frekvenční oblasti. Využívá k tomu nejčastěji Fourierovu transformaci. Nejčastěji používané druhy analýzy ve frekvenční oblasti ■ krátkodobá Fourierova transformace ■ krátkodobá diskrétni Fourierova transformace ■ rychlá Fourierova transformace ■ kepstrální analýza ■ lineární predikce Analýza signálu ve frekvenční oblasti Krátkodobá Fourierova transformace Dialogové systémy Luděk Bártek ■ Vychází z Fourierovy transformace: Zpracování digitalizovaného ' 1 oo S{u,t) = s(k)h(t - k)e-iojk signálu Zpracování v časové oblasti k=—oo Zpracování ve frekvenční oblasti ■ Obyčejnou Fourierovu transformaci získáme fixací času t. ■ \S(cj, t)\ - amplituda složky akustického spektra odpovídající frekvenci uj v čase t. ■ h(n) - váhová funkce okénka. ■ Předpokládá na vstupu periodickou funkci - zvuk je periodický na krátkých časových úsecích. ■ Při jejím použití se předpokládá, že zpracovávaný mikrosegment se periodicky opakuje. Analýza signálu ve frekvenční oblasti Diskrétní Fourierova transformace Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Používá se pro vyjádření spektrálních vlastností periodických posloupností s periodou N vzorků resp konečných posloupností délky N vzorků. Výpočet koeficientů X(k) DFT: A/-1 A/-1 X(k) = ^2x{n)e-^kn = J2x(n)Wľ '—kn N n=0 n=0 ■ |X(/c)| - intenzita k. spektrálního koeficientu, frekvence závisí na velikosti mikrosegmentu N a vzorkovací frekvenci ■ x(n) - n. vzorek daného mikrosegmentu ■ Wn = e''^ = cos(2tt/N) + / • sin(27r/N). Výpočet n. vzorku na základě hodnot X(k) - IDFT: - A/-1 A/-1 /c=0 /c=0 Analýza signálu ve frekvenční oblasti Rychlá diskrétní Fourierova transformace Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Výpočet spektrálních koeficientů pomocí DFT - n2 operací nad komplexními čísly. Pomocí FFT - N • log2^ operací násobení. FFT požaduje, aby délka analyzovaného segmentu byla mocninou 2. ■ využívá metodu rozděl a panuj pro optimalizovaný výpočet DFT ■ zvlášť se provádí výpočet lichých a sudých členů sumy ■ předchozí lze chápat jako transformaci dvou vektorů (xq,x2,...,x/v-2) a (xi,x3,..., x/v-i), lišících se pouze členem (e~'~^)k, a vlastní transformace se neliší. Analýza signálu ve frekvenční oblasti Kepstrální analýza Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Vychází z modelu činnosti hlasového ústroji. Řečové kmity lze modelovat jako odezvu lineárního systému na buzení sestávající ze sledu pulzů pro znělou řeč a šumu pro neznělou. Kepstrum - X(k) = IFFT(log\FFT(x(k))\) Kepstrální analýza umožňuje z řeči oddělit parametry buzení a parametry hlasového ústrojí. Využití: ■ ocenění fonetické struktury řeči - znělost, perioda základního tónu, formanty . . . ■ rozpoznávání slov ■ verifikace a identifikace mluvčího Analýza signálu ve frekvenční oblasti Lineárni prediktivní analýza Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Jedna z nejefektivnějších metod analýzy akustického signálu - zajišťuje velmi přesné odhady parametrů při relativně malé zátěži. Vychází z předpokladu, že s(/c) lze popsat jako lineární kombinaci N předchozích vzorků a buzení u(k)\ N s(k) =Y1 a-s(k - o + Gu(k) i=i kde G je koeficient zesílení a N rád modelu. Použití: ■ určování spektrálních charakteristik modelu hlasového ústrojí ■ z chyby predikce lze odvodit poznatky o znělosti a určit frekvenci základního hlasivkového tónu ■ koeficienty a; nesou informaci o spektrálních vlastnostech - lze je použít jako příznaky pro rozpoznávám řeči^