Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Úvod do počítačového zpracování řeči Luděk Bártek Fakulta Informatiky Masarykova Univerzita podzim 2023 Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Q Zpracování digitalizovaného signálu • Metody krátkodobé analýzy • Váhová okénka • Zpracování signálu v časové oblasti • Zpracování signálu ve frekvenční oblasti O Využití analýzy ve frekvenční oblasti Q Literatura Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti M El Sa SI ífi j ŕzy • Zvuk je periodický pouze na krátkém intervalu. • Zpracování signálu na krátkém časovém intervalu (mikrosegmentu), kde se nepředpokládají výraznější dynamické změny. o velikost od 10 do 40 ms • Metody krátkodobé analýzy: • v časové oblasti, • ve frekvenční oblasti. Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti o Nevýhoda použití mikrosegmentu: o Chyba způsobená předpokladem, že zvuk v okolí okénka zůstává periodický s periodou okénka. • Tuto chybu lze kompenzovat použitím okénka. • Okénko - posloupnost vah pro vzorky v mikrosegmentu. • Nejběžněji používané typy okének: o hammingovo, • pravoúhlé. Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Pro výpočet n. váhy se využívá vztah f 0,54 - 0, AQcos{^) n = 0... N - 1 U^n* ~ ^ 0 n < 0 V n> N N - počet vzorků v mikrosegmentu Hammingovo okénko pro mikrosegment délky 64 Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti • Přiřadí každému prvku mikrosegmentu vahu 1 uj(n) = 1 A7 = 0... A/ - 1 0 n< 0Vn>N N - délka mikrosegmentu Luděk Bártek Úvod do počítačového zpracování řeči . Metody krátkodobé analýzy Zpracovaní digitalizovaného signálu w , . „ , . . Vahova okénka Využiti analýzy ve frekvenční oblasti Zpracování signálu v časové oblasti Literatura Zpracování signálu ve frekvenční oblasti Analýza digitalizovaného signálu v časové oblasti 1 • Vychází se přímo z hodnot vzorků, nikoliv z hodnot spektra. • Používají se: • funkce krátkodobé energie funkce krátkodobé intenzity • krátkodobá funkce středního počtu průchodů nulou • diference 1. řádu Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti ie • Výpočet podle vzorce: oo E(n) = (s(kMn " k)f k=—oo o s(k) - vzorek v čase k, u(n - k) - váha odpovídajícího okénka pro čas k • Výstupem je průměrná energie v rámci segmentu. o Značně citlivá na velké změny úrovně signálu v rámci segmentu. o Druhá mocnina zvyšuje dynamiku zvukového signálu. • Ukázka výpočtu funkce krátkodobé energie v Octave. • Využití: • detekce ticha a promluvy • příznaky pro jednoduché klasifikátory slov • oddělení znělých a neznělých částí promluvy Luděk Bártek Úvod do počítačového zpracování řeči Funkce krátkodobé intenzity: oo /(")= E \s(k)u(n - k)\ k=—oo 9 Použití - shodné s funkcí krátkodobé energie. Ukázka implementace pro systém Octave. Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Ukázka průběhu funkce kr átkodobé energie 50 100 150 200 250 300 Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Ukázka průběhu funkce kr átkodobé intenzity 300 Luděk Bártek Úvod do počítačového zpracování řeči . Metody krátkodobé analýzy Zpracovaní digitalizovaného signálu w , . „ , . . Vahova okénka Využiti analýzy ve frekvenční oblasti Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Literatura Krátkodobá funkce středního počtu průchodů nulou • Krátkodobá funkce středního počtu průchodu nulou: o součet všech průchodů signálu nulou oo z(n) = \sgn[s(k)] - sgn[s(k --\)]\cj(n - k) k=—oo 9 varianta - počet lokálních extrémů • obě mohou být negativně ovlivněny šumem zvukového pozadí • Využití: • detekce začátku a konce slova (i zašuměného) 9 určení základního hlasivkového tónu • přibližné určení formantů • ... Luděk Bártek Úvod do počítačového zpracování řeči nulou . Metody krátkodobé analýzy Zpracovaní digitalizovaného signálu w „.., , . „ , . . Vahova okénka Využiti analýzy ve frekvenční oblasti Literatura Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti .jrůběhu funkce středního počtu průchodů Figure: ZCR pro promluvu: „Jak se máš? " Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti racovaní sianalu ve frekv • Diference prvního řádu oo Dn= \s(k) - s(k - 1)\u(n - k) k=—oc Luděk Bártek Úvod do počítačového zpracování řeči . Metody krátkodobé analýzy Zpracovaní digitalizovaného signálu ., v f 11 Vahova okénka Využiti analýzy ve frekvenční oblasti Zpracování signálu v casove oblasti Literatura , Zpracovaní signálu ve frekvenční oblasti lacní funkce • Krátkodobá autokorelační funkce: oo fí(A77, rí) = (s(k)uu(n - k))(s(k + m)u(n - k + m)) k=—oo • používá se při zjišťování periodicity signálu základního tónu V V i reci • je-li signál periodický s periodou T, R(m,n) nabývá maxima pro m = 0, 7,2 • 7,... • předpokládá délku mikrosegmentu aspoň 2 • 7 Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve fre kvenční oblasti • Transformují hodnoty vzorků na různé frekvenční charakteristiky. • Většinou je lze chápat jako spektrální charakteristiky. • Nejvíce používané: • krátkodobá Fourierova transformace • kepstrální analýza • lineární prediktivní analýza Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Fourierova řady Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti • f(x) - periodická funkce s periodou T, která má na intervalu T konečný počet extrémů a nespojitostí oo a0 f(x) = 4- + J2(akcos(kx) + bksin(kx)) /c=1 Způsob výpočtu koeficientů a, a £>,: o a, a + T - interval periodicity funkce f 2 ak = y / f(x)cos(kx)dx 2 bk = -f j f(x)sin(kx)dx Nelze přímo použít - digitalizovaný zvuk není spojitý a je periodický pouze na omezených úsecích. Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Diskrétní Fourierova Transformace (DFT) Používá se pro vyjádření spektrálních vlastností periodických posloupností s periodou N vzorků případně konečných posloupností délky N vzorků. Výpočet koeficientů X(k) DFT: A/-1 A/-1 X(k) = ^ x{n)e-^kn = x(n)u-kn n=0 n=0 9 \X(k)\ - intenzita k. spektrálního koeficientu; frekvence závisí na velikosti mikrosegmentu N a vzorkovací frekvence T • x(n) - n. vzorek daného mikrosegmentu. • oj = e'^ = cos(^) + i sin(jj-) Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Fourierova transformace Výpočet hodnoty vzorku na základě hodnot X(k) Výpočet n. vzorku na základě hodnot X(k) - Inverzní diskrétní Fourierova transformace (IDFT): , A/-1 a A/-1 k=0 k=0 Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti mm formace (FFT) • Časová složitost výpočtu spektrálních koeficientů pomocí DFT - n2 operací na komplexními čísly. • Pomocí FFT - Nlog2{^) operací násobení. a FFT požaduje, aby délka analyzovaného segmentu byla mocninou 2. a Algoritmus využívá: • periodicity členu u>ňnk ve výpočtu DFT • rekurzivní algoritmus metodou rozděl a panuj. Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti • Vychází z modelu činnosti hlasového ústrojí: a Řečové kmity lze modelovat jako odezvu lineárního systému na buzení sestávající ze sledu pulzů pro znělou hlásku a šumu pro neznělou. • Kepstrum - X(k) = IFFT(log\FFT(x(k))\) • Kepstrální analýza umožňuje z řeči oddělit parametry buzení a parametry hlasového ústrojí. • Využití: o ocenění fonetické struktury řeči • znělost * Fo, F|, F2, .. . • rozpoznávání slov • verifikace a identifikace mluvčího Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti • Jedna z neefektivnějších metod analýzy akustického signálu. • Zajišíuje velmi přesné odhady parametrů při relativně malé zatezi. • Vychází z předpokladu, že s(k) lze popsat jako lineární kombinaci N předchozích vzorků a buzení u(k) s koeficientem zesílení G: N s(k) =Y1 a'^k ~ 0 + Gu(k) /=1 Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Lineární predikce Použití Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti • Určená spektrálních charakteristik modelu hlasového ústrojí. • Z chyby predikce lze odvodit poznatky o znělosti a určit frekvenci základního tónu. • Koeficienty a, nesou informaci o spektrálních vlastnostech. « Lze je použít jako příznaky pro rozpoznávání řeči. Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Další metody zpracování s ignálu ve frekvenční oblasti • Pásmové filtry - obdoba pásmových filtrů z oblasti elektroniky, propouští rozsah frekvencí daný dvěma mezními frekvencemi. • Dolní propust - nepropouští frekvence vyšší, než je mezní frekvence filtru, při jejím dosažení klesá intenzita signálu na cca 1/3. • Horní propust - nepropouští nižší frekvence, než je mezní frekvence filtru, při jejím dosažení klesá intenzita signálu na cca 1/3. • Modelování Cochlei - simuluje chování vybraných vlákének Cochlei (vybírá několik frekvencí). Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura ční oblasti Filtry a propusti - vychází z FFT oo S(f,n)= s(k) ■ u(n - k) ■ e~ k=—oo Lze rozdělit na: • Pásmové filtry - propouští zvuky s frekvencemi v daném rozsahu. • Propusti: • dolní propust - propustí zvuky do dané mezní frekvence • horní propust - propouští zvuky od dané mezní frekvence. Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Využití analýzy ve frekvenční oblasti Literatura • Vychází se z rovnice pro FFT (viz předchozí slide). • Pro pevnou frekvenci fq lze rovnici upravit následovně: oo S(fq,n) = e-',f«n s(n- k) ■ ujq(k) ■ eif«k k=—oc • Pokud má cjq(k) vlastnost dolní propusti, lze uvedenou rovnici chápat jako pásmovou filtraci pro frekvenci fq. Luděk Bártek Úvod do počítačového zpracování řeči HTK - Hidden Markov Model Toolkit (Engineering Department of Cambridge University) - toolkit pro tvorbu rozpoznávačů řeči založených na skrytých Markovových modelech. ESPS toolkit NICO toolkit - toolkit pro vytváření umělých neuronových sítí, využívá se např. pro rozpoznávání řeči. Matlab - knihovny pro analýzu řeči • labrosa.ee.columbia.edu/matlab/ • Audio processing in Matlab • ... Octave - opensource alternativa Matlabu • Měly by jít použít tytéž knihovny. © Viz též bakalářská práce L. Oroszlányho (Fl, jaro 2012) SMP Tool Luděk Bártek Úvod do počítačového zpracování řeči