Digitalizace zvuku Zpracování digitalizovaného zvuku SIN04: Řečová interakce a sociální sítě Luděk Bártek Fakulta Informatiky Masarykova Univerzita podzim 2017 Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku 0 bsaf Q Digitalizace zvuku • Vzorkování • Kvantizace o Kódování průběhu vlny £ Zpracování digitalizovaného zvuku • Analýza zvuku v časové oblasti • Analýza zvuku ve frekvenční oblasti Luděk Bártek SIN04: Řečová interakce a sociální sítě ^. .x ,. , Vzorkovaní Digitalizace zvuku , Kvantizace Zpracovaní digitalizovaného zvuku , Kódovaní průběhu vlny O Vzorkování - snímání aktuální výchylky akustického signálu • převod spojitého signálu na posloupnost diskrétních reálných hodnot. O Kvantizace - převod reálných hodnot na celočíselné. O Kódování průběhu vlny. Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Vzoi 1 a Převod spojitého signálu s(t) na posloupnost diskrétních hodnot sn{t). • V daném okamžiku se sejme hodnota zvolené veličiny vstupního signálu (napětí, proud, ...). • Vzorkování se děje s periodou T. • Vzorkovací frekvence f = j- • Takto získané hodnoty jsou následně kvantizovány. o Pokud nemá dojít ke ztrátě informace obsažené v signálu, pak vzorkovací frekvence musí být minimálně dvojnásobkem nejvyšší frekvence, která je v signálu obsažena (Shannonův vzorkovací teorém). Luděk Bártek SIN04: Řečová interakce a sociální sítě ^. .x ,. , Vzorkovaní Digitalizace zvuku , Kvantizace Zpracovaní digitalizovaného zvuku , Kódovaní průběhu vlny Běžně používané vzorkovací frekvences • 8 kHz - telefonní kvalita • 16 kHz • 22 050 Hz - rozhlasová kvalita • 44 100 Hz-CD kvalita • 48 kHz - DVD kvalita Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Vzorkování Kvantizace 1 r ■ i 1 1 1 1 1 1........ "11 J L Ml...... M..... Luděk Bártek SIN04: Řečová interakce a sociální sítě ^. .x ,. , Vzorkovaní Digitalizace zvuku Kvantizace Zpracovaní digitalizovaného zvuku , , , Kódovaní průběhu vlny • Metoda převodu spojitých hodnot na diskrétní (reálných na celočíselné, ...). • Princip: 9 Chceme kvantizovat vstupní hodnoty z intervalu < min, max > 9 Spočítáme kvantizační krok step = max~min kde N je počet různých výstupních hodnot, o Pokud vstupní hodnota překročí k-násobek kvantizačního kroku, na výstup jde hodnota k. • Kvantizační chyba • zaokrouhlovací chyba způsobená velikostí kvantizačního kroku • je přímo úměrná velikosti kvantizačního kroku. Luděk Bártek SIN04: Řečová interakce a sociální sítě ^. .x ,. , Vzorkovaní Digitalizace zvuku Kvantizace Zpracovaní digitalizovaného zvuku , , , Kódovaní průběhu vlny Běžně používané kvantizace • Celočíselné: • 8 bitů - 256 úrovní • 16 bitů-65 536 úrovní • 24 bitů-16 777 216 úrovní o 32 bitů - 4 294 967 296 úrovní - používá se hlavně pro zpracování obrazu. • Reálné: • 32 bitů: 24 bitů znaménková mantisa, 8 bitů exponent • 64 bitů: 52 bitů znaménková mantisa, 11 bitů exponent Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Dokončení • Využití: • zpracování zvuku na počítači • audio stopa na blu-ray discích (kódování MPEG-4) Luděk Bártek SIN04: Řečová interakce a sociální sítě ~ ,. , Vzorkovaní Digitalizace zvuku . Kvantizace Zpracovaní digitalizovaného zvuku , ..„. . ^ a Kódovaní průběhu vlny AT/Sil 1 M§IB i 3! I Ukázka • Rozsah hodnot vstupního signálu < -127mi/, 128mV > 9 velikost intervalu vstupních hodnot 256 mV • 8bitová kvantizace • 256 úrovní signálů • Kvantizační krok 9 252^V = 1 mV ~ znr|ěna vstupní úrovně napětí o 1 mV - změna výstupní hodnoty o 1. 9 např. změna vstupního napětí z 0,5 mV na 1,1 mV - změna hodnoty na výstupu z 0 na 1. Luděk Bártek SIN04: Řečová interakce a sociální sítě ^. .x ,. , Vzorkovaní Digitalizace zvuku , Kvantizace Zpracovaní digitalizovaného zvuku , , , ..„. Kódovaní průběhu vlny • Pulsní kódová modulace o přímo ukládá hodnoty, které jsou výstup z kvantizace. « Nevýhody: • Relativně pomalé změny zvukového signálu relativně malé rozdíly sousedních vzorků velká redundance dat. -řešení diferenční PCM - ukládají se rozdíly mezi sousedními vzorky. • V případě příliš velkých změn amplitudy signálu problém s nastavením kvantizačního kroku. • příliš velký krok - ztráta informace o částech s malou amplitudou • příliš malý krok - přetečení hodnot v částech s velkou amplitudou. 9 Řešení - adaptivní PCM - kvantizační krok se určí v závislosti na amplitudě signálu. Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku v časové oblasti Analýza zvuku ve frekvenční oblasti Zpravování digitalizovanéh 10 signálu • Zvuk mívá velkou dynamiku • Většina charakteristik zvuku je neměnná pouze v rámci krátkých časových úseků - metody krátkodobé analýzy. • Mikrosegment • časový interval, na kterém předpokládáme neměnnost charakteristik zvuku. • používaná velikost 10 — 40 ms - závisí na použité metodě • Metody krátkodobé analýzy • v časové oblasti - pracují přímo s hodnotami vzorků o ve frekvenční oblasti - z hodnot vzorků se získají frekvenční charakteristiky, které jsou následně zpracovány. o Modelování funkce Coortiho ústrojí - matematická simulace rezonance vybraných vlákének Coortiho ústrojí. Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku v časové oblasti Analýza zvuku ve frekvenční oblasti Vát nové ol kéi n ko • Pro účely krátkodobé analýzy předpokládáme, že je signál signál v okolí mikrosegmentu periodický se stejnou periodou jako uvnitř mikrosegmentu. • Vzniklou chybu lze kompenzovat použitím „okénka". • Okénko - posloupnost vah pro jednotlivé vzorky mikrosegmentu. • Váhy odpovídají tomu, jak je vzorek pro účely dané metody ovlivněn okolím mikrosegmentu. o Čím více je vzorek ovlivněn okolím mikrosegmentu, tím má přiřazenu nižší váhu. o Nejčastěji používané typy okének: o pravoúhlé okénko Hammingovo okénko. Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Analýza zvuku v časové oblasti Zpracování digitalizovaného zvuku • Vychází z předpokladů: O Vzorky uvnitř mikrosegmentu nejsou pro naše potřeby ovlivněny okolím. O Všechny vzorky uvnitř mikrosegmentu jsou ovlivněny stejně. • Všechny vzorky uvnitř mikrosegmentu mají stejnou váhu w(s) = 1. • Váha vzorků mimo mikrosegment w(s) = 0. Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku v časové oblasti Analýza zvuku ve frekvenční oblasti H a n n n ni ng ovo 0 kéi n ko o Vychází z předpokladu, že čím je vzorek blíž okraji mikrosegmentu, tím více je ovlivněn okolím. • Váha vzorků uvnitř mikrosegmentu w(sn) = 0,54-0,46cos(fff) • N - počet vzorků v mikrosegmentu. • Váha vzorků mimo mikrosegment w(s) = 0. OJ a,7 0,6 0.5 0.1 0.3 0,2 0,1 18 20 30 40 SO bii Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku v časové oblasti Analýza zvuku ve frekvenční oblasti vuku v časové oblasti • Při analýze se vychází přímo z hodnot vzorků, nikoliv z hodnot spektra. • Používané metody: o metoda krátkodobé energie • metoda krátkodobé intenzity • funkce středního počtu průchodu nulou • diference 1. řádu • autokorelační funkce • ... Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku v časové oblasti Analýza zvuku ve frekvenční oblasti Metoda krátkodobé energ ie • Využívá funkci průměrné energie v segmentu oo E(n) = ]T (s(k)uj(n - k)f k=—oo • s(k) - vzorek v čase k • uj(n - k) - váha okénka pro vzorek v čase k • Druhá mocnina zvyšuje dynamiku zvukového signálu. • Použití: • automatická detekce ticha a promluvy • tvorba příznaků pro jednoduché klasifikátory slov o oddělení znělých a neznělých částí promluvy. Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku v časové oblasti Analýza zvuku ve frekvenční oblasti M lei tod a ki rát :kod 0 bé i n ter 1Z ■ i ty • Využívá funkci krátkodobé intenzity na daném mikrosegmentu oo /(")= E (\s(k)Hn-k)) k=—oo 9 s(k) - vzorek v čase k 9 uj(n - k) - váha okénka pro vzorek v čase k • Použití - stejné jako u průměrné energie. o Oproti krátkodobé energii nezvýrazňuje tolik dynamiku řečového signálu. Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku v časové oblasti Analýza zvuku ve frekvenční oblasti ůchodů nulou o Počítá změny znaménka digitalizovaného signálu na daném mikrosegmentu. oo Z(n)= J2 \sgn[s(k)] - sgn[s{k - 1)]\u(n - k) k=—oo • Varianta - počet lokálních extrémů. • Obě varianty mohou být ovlivněny šumem zvukového pozadí. • Použití: o detekce ticha • detekce začátku a konce promluvy (i zašuměné) 9 přibližné určení základního hlasivkového tónu a formantů • příznaky jednodušších klasifikátorů slov. Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku v časové oblasti Analýza zvuku ve frekvenční oblasti Ai u tol koi rel la .Cl n if u n kce • Vrací podobnost úseků daného mikrosegmentu posunutých o m vzorků - čím větší hodnota, tím jsou si vzorky podobnější. oo R(m, n) = ^2 [s{k)u{n - k)][s(k + m)cj(n - k + m)] k=—oo • Je-li funkce periodická s periodu P, potom, R(m,n) nabývá maxima pro m=P, 2P, ... a Předpokládá délku mikrosegmentu aspoň 2P. • Použití: • zjištění periodicity řeči a určení základního tónu řeči o základ pro výpočet koeficientů LPA. Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku v časové oblasti Analýza zvuku ve frekvenční oblasti ní oblasti • Ze vstupních vzorků získává akustické spektrum. • Nejpoužívanější metody: • krátkodobá Fourierova transformace o krátkodobá diskrétní Fourierova transformace o rychlá Fourierova transformace • kepstrální analýza lineární prediktivní analýza. Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku v časové oblasti Analýza zvuku ve frekvenční oblasti sformace • Vychází z Fourierovy transformace: • Krátkodobá Fourierova transformace oo S(w,ř)= s(k)h(t-k)e~iu,k k— — oo • Fixací času t získáme klasickou Fourierovu transformaci. • \S(u, t) \ - amplituda akustického spektra odpovídajícího frekvenci u v čase t. • h - váhová funkce okénka. • Předpokládá na vstupu periodickou funkci - zvuk je periodický na krátkých časových úsecích. • Předpokládá periodické opakování daného mikrosegmentu. Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku v časové oblasti Analýza zvuku ve frekvenční oblasti Krátkodobá diskrétní Four Fourierova transformace ierova transformace a rychlá • Používá se na výpočet spektra periodických posloupností s periodou N, resp. posloupností délky N. • Frekvence odpovídající spektrálním koeficientům závisí na délce mikrosegmentu a vzorkovací frekvenci. o Diskrétní Fourierova transformace • výpočetně časově náročná - n2 výpočtů nad komplexními čísly • prakticky nelze použít pro výpočty v reálném čase. • V praxi se používá Rychlá Fourierova transformace (FFT). • složitost nlog(^) operací násobení • algoritmus postaven na metodě rozděl a panuj • vyžaduje, aby délka mikrosegmentu byla mocninou dvou. Luděk Bártek SIN04: Řečová interakce a sociální sítě Figure: FFT spektrum hlásky á -lBdB -S4dB -90 d B 0Hz 2000Hz 5000Hz 7000Hz 10000Hz 12000Hz 15000Hz 17000Hz ZOOOQHi: Luděk Bártek SIN04: Řečová interakce a sociální sítě • Vychází z modelu činnosti hlasového ústrojí. o Řečové kmity lze modelovat jako odezvu lineárního systému na buzení sestávající z posloupnosti pulzů pro znělou řeč a šumu pro neznělou. o Kepstrum X{k) = IFFT{log\FFT{x{k))\) • Kepstrální analýza umožňuje z řeči oddělit: o parametry buzení • parametry hlasového ústrojí • Využití: • ocenění fonetické struktury řeči - znělost, perioda základního hlasivkového tónu, formanty, ... • rozpoznávání slov a verifikace a identifikace mluvčího Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Analýza zvuku v časové oblasti Zpracování digitalizovaného zvuku Analýza zvuku ve frekvenční oblasti Figure: Kepstrum hlásky á 0.30 0.20-0.15 -0.10- 0.000s 0.005s 0.010s 0,015s 0.020s 0,025s 0.030s 0.03 5s 0.040s 0,04 5s Luděk Bártek SIN04: Řečová interakce a sociální sítě Digitalizace zvuku Analýza zvuku v časové oblasti Zpracování digitalizovaného zvuku Analýza zvuku ve frekvenční oblasti Lineární prediktivní analýza • Jedna z neefektivnějších metod analýzy akustického signálu. • velmi přesné odhady parametrů při relativně malé zátěži. • Vychází z předpokladu, že vzorek lze popsat jako lineární kombinaci N předchozích vzorků a buzení u(k) se zesílením G N s(k) =Y, a'^k ~ ') + GuW /=i a Použití: • Určení charakteristik modelu hlasového ústrojí. • Z chyby predikce lze: • odvodit poznatky o znělosti • určit frekvenci základního hlasivkového tónu. o Získané koeficienty lze použít jako příznaky pro rozpoznávání řeči - nesou informaci o spektrálních Luděk Bártek SIN04: Řečová interakce a sociální sítě