Zpracování digitalizovaného signálu Úvod do počítačového zpracování řeči Luděk Bártek Fakulta Informatiky Masarykova Univerzita podzim 2021 Luděk Bártek Úvod do počítačového zpracování řeči Q Zpracování digitalizovaného signálu • Metody krátkodobé analýzy • Váhová okénka • Zpracování signálu v časové oblasti • Zpracování signálu ve frekvenční oblasti Luděk Bártek Úvod do počítačového zpracování řeči Metody krátkodobé analýzy . Váhová okénka Zpracovaní digitalizovaného signálu Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Metody krátkodobé analýzy • Zvuk je periodický pouze na krátkém intervalu. • Zpracování signálu na krátkém časovém intervalu (mikrosegmentu), kde se nepředpokládají výraznější dynamické změny. o velikost od 10 do 40 ms • Metody krátkodobé analýzy: • v časové oblasti, a ve frekvenční oblasti. Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti o Nevýhoda použití mikrosegmentu: o Chyba způsobená předpokladem, že zvuk v okolí okénka zůstává periodický s periodou okénka. • Tuto chybu lze kompenzovat použitím okénka. • Okénko - posloupnost vah pro vzorky v mikrosegmentu. • Nejběžněji používané typy okének: « hammingovo, • pravoúhlé. Luděk Bártek Úvod do počítačového zpracování řeči Metody krátkodobé analýzy . Váhová okénka Zpracovaní digitalizovaného signálu Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Pro výpočet n. váhy se využívá vztah I 0,54 - 0, AQcos{^) n = 0... N - 1 U^n* ~ ^ 0 n < 0 V n> N N - počet vzorků v mikrosegmentu Hammingovo okénko pro mikrosegment délky 64 Luděk Bártek Úvod do počítačového zpracování řeči Priradí každému prvku mikrosegmentu váhu 1 u(ri) = 1 n = 0... A/ - 1 0 n< 0vn>N N - délka mikrosegmentu Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Analýza digitalizovaného signálu v časové oblasti 1 • Vychází se přímo z hodnot vzorků, nikoliv z hodnot spektra. • Používají se: • funkce krátkodobé energie funkce krátkodobé intenzity • krátkodobá funkce středního počtu průchodů nulou • diference 1. řádu Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti LSJ Lis R ie • Výpočet podle vzorce: oo E(n) = (s(kMn ~ k)f k=—oo o s(k) - vzorek v čase k, u(n - k) - váha odpovídajícího okénka pro čas k • Výstupem je průměrná energie v rámci segmentu. © Značně citlivá na velké změny úrovně signálu v rámci segmentu. o Druhá mocnina zvyšuje dynamiku zvukového signálu. • Ukázka výpočtu funkce krátkodobé energie v Octave. • Využití: • detekce ticha a promluvy • příznaky pro jednoduché klasifikátory slov • oddělení znělých a neznělých částí promluvy _g . . ._ Luděk Bártek Úvod do počítačového zpracování řeči Metody krátkodobé analýzy . Váhová okénka Zpracovaní digitalizovaného signálu Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Funkce krátkodobé intenzity Funkce krátkodobé intenzity: oo l(n)= \s(k)u(n-k)\ k——oo o Použití - shodné s funkcí krátkodobé energie. Ukázka implementace pro systém Octave. Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Ukázka průběhu funkce kr átkodobé energie 300 Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Ukázka průběhu funkce kr átkodobé intenzity ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ Luděk Bártek Úvod do počítačového zpracování řeči Metody krátkodobé analýzy . Váhová okénka Zpracovaní digitalizovaného signálu Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Krátkodobá funkce středního počtu průchodů nulou • Krátkodobá funkce středního počtu průchodu nulou: • součet všech průchodů signálu nulou oo z(ri) = Is9nis(k)] - sgn[s(k - 1)] \u(n - k) k=—oo • varianta - počet lokálních extrémů • obě mohou být negativně ovlivněny šumem zvukového pozadí • Využití: • detekce začátku a konce slova (i zašuměného) • určení základního hlasivkového tónu • přibližné určení formantů «... Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Ukázka průběhu funkce s nulou >tr :edního počtu průchodů - (U-1-LJ-1-Ld-1-1 0 50 100 150 ~SQU 250 300 Figure: ZCR pro promluvu: „Jak se máš? " Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti racovaní sianalu ve frekv • Diference prvního řádu oo Dn= \s(k) - s(k --\)\u(n- k) k=—oc Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Krátkodobá autokorelační funkce • Krátkodobá autokorelační funkce: oo R{m, n) = ^2 (s(k)u(n - k))(s(k + m)u{n - k + m)) k=—oo používá se při zjištování periodicity signálu základního tónu reci • je-li signál periodický s periodou T, R(m,n) nabývá maxima pro m = 0, 7,2 • 7,... • předpokládá délku mikrosegmentu aspoň 2 • 7 Luděk Bártek Úvod do počítačového zpracování řeči Metody krátkodobé analýzy . Váhová okénka Zpracovaní digitalizovaného signálu Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Zpracování signálu ve frekvenční oblasti • Transformují hodnoty vzorků na různé frekvenční charakteristiky. • Většinou je lze chápat jako spektrální charakteristiky. • Nejvíce používané: • krátkodobá Fourierova transformace • kepstrální analýza • lineární prediktivní analýza Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Fourierova řady Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti f(x) - periodická funkce s periodou T, která má na intervalu T konečný počet extrémů a nespojitostí oo a0 f(x) = -w + J](a/cCOs(/cx) + bksin(kx)) /c=1 • Způsob výpočtu koeficientů a, a £>,: o a, a + T - interval periodicity funkce f 2 ak = y / f(x)cos(kx)dx 2 bk = -f / f(x)sin(kx)dx Nelze přímo použít - digitalizovaný zvuk není spojitý a je periodický pouze na omezených úsecích. Luděk Bártek Úvod do počítačového zpracování řeči Metody krátkodobé analýzy . Váhová okénka Zpracovaní digitalizovaného signálu Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Diskrétní Fourierova Transformace (DFT) Používá se pro vyjádření spektrálních vlastností periodických posloupností s periodou N vzorků případně konečných posloupností délky N vzorků. Výpočet koeficientů X(k) DFT: A/-1 A/-1 X{k) = ^2x{n)e-i^kn —kn n=0 n=0 9 \X(k)\ - intenzita k. spektrálního koeficientu; frekvence závisí na velikosti mikrosegmentu N a vzorkovací frekvence T • x(n) - n. vzorek daného mikrosegmentu. 2tt oj = e1^ = cos(^rr) + i sin(^) Luděk Bártek Úvod do počítačového zpracování řeči Metody krátkodobé analýzy . Váhová okénka Zpracovaní digitalizovaného signálu Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Výpočet hodnoty vzorku na základě hodnot X(k) Výpočet n. vzorku na základě hodnot X(k) - Inverzní diskrétní Fourierova transformace (IDFT): A/-1 A/-1 k=0 k=0 Luděk Bártek Úvod do počítačového zpracování řeči Metody krátkodobé analýzy . Váhová okénka Zpracovaní digitalizovaného signálu Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti Rychlá Fourierova transformace (FFT) • Časová složitost výpočtu spektrálních koeficientů pomocí DFT - n2 operací na komplexními čísly. • Pomocí FFT - N log2(^) operací násobení. o FFT požaduje, aby délka analyzovaného segmentu byla mocninou 2. o Algoritmus využívá: • periodicity členu uňnk ve výpočtu DFT 9 rekurzivní algoritmus metodou rozděl a panuj. Luděk Bártek Úvod do počítačového zpracování řeči Metody krátkodobé analýzy . Váhová okénka Zpracovaní digitalizovaného signálu Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti • Vychází z modelu činnosti hlasového ústrojí: o Řečové kmity lze modelovat jako odezvu lineárního systému na buzení sestávající ze sledu pulzů pro znělou hlásku a šumu pro neznělou. • Kepstrum - X(k) = IFFT(log\FFT(x(k))\) • Kepstrální analýza umožňuje z řeči oddělit parametry buzení a parametry hlasového ústrojí. • Využití: * ocenění fonetické struktury řeči • znělost * Fo, F-\, F2,... • rozpoznávání slov o verifikace a identifikace mluvčího 9 ... Luděk Bártek Úvod do počítačového zpracování řeči Metody krátkodobé analýzy . Váhová okénka Zpracovaní digitalizovaného signálu Zpracování signálu v časové oblasti Zpracování signálu ve frekvenční oblasti • Jedna z neefektivnějších metod analýzy akustického signálu. • Zajištuje velmi přesné odhady parametrů při relativně malé zatezi. • Vychází z předpokladu, že s(k) lze popsat jako lineární kombinaci N předchozích vzorků a buzení u(k) s koeficientem zesílení G: N s(k) =Y1 ais(k ~ 0 + Gu(k) /=1 Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Použití 1 • Určená spektrálních charakteristik modelu hlasového ústrojí. • Z chyby predikce lze odvodit poznatky o znělosti a určit frekvenci základního tónu. • Koeficienty a, nesou informaci o spektrálních vlastnostech. o Lze je použít jako příznaky pro rozpoznávání řeči. Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Další metody zpracování s ignálu ve frekvenční oblasti • Pásmové filtry - obdoba pásmových filtrů z oblasti elektroniky, propouští rozsah frekvencí daný dvěma mezními frekvencemi. • Dolní propust - nepropouští frekvence vyšší, než je mezní frekvence filtru, při jejím dosažení klesá intenzita signálu na cca 1/3. • Horní propust - nepropouští nižší frekvence, než je mezní frekvence filtru, při jejím dosažení klesá intenzita signálu na cca 1/3. • Modelování Cochlei - simuluje chování vybraných vlákének Cochlei (vybírá několik frekvencí). Luděk Bártek Úvod do počítačového zpracování řeči Zpracování digitalizovaného signálu Metody krátkodobé analýzy Váhová okénka Zpracování signálu v časové oblasti Software pro analýzu signa ilu • HTK - Hidden Markov Model Toolkit (Engineering Department of Cambridge University) - toolkit pro tvorbu rozpoznávačů řeči založených na skrytých Markovových modelech. • ESPS toolkit • NICO toolkit - toolkit pro vytváření umělých neuronových sítí, využívá se např. pro rozpoznávání řeči. • Matlab - knihovny pro analýzu řeči • labrosa.ee.columbia.edu/matlab/ • Audio processing in Matlab 9 ... • Octave - opensource alternativa Matlabu • Měly by jít použít tytéž knihovny. o Viz též bakalářská práce L. Oroszlányho (Fl, jaro 2012) • SMP Tool Luděk Bártek Úvod do počítačového zpracování řeči