Digitalizace zvuku Zpracov ání digitalizovaného zvuku SIN04: Řečová interakce a sociální sítě Luděk Bártek Fakulta Informatiky Masarykova Univerzita podzim 2015 Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Obsah Digitalizace zvuku Zpracování digitalizovaného zvuku Q Digitalizace zvuku Q Zpracování digitalizovaného zvuku • Analýza zvuku v časové oblasti • Analýza zvuku ve frekvenční oblasti Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Digitalizace zvuku O Vzorkování - snímání aktuální výchylky akustického signálu • převod spojitého signálu na posloupnost diskrétních reálných hodnot. O Kvantizace - převod reálných hodnot na celočíselné. O Kódování průběhu vlny. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Vzorkování • Převod spojitého signálu s(ř) na posloupnost diskrétních hodnot sn(t). • V daném okamžiku se sejme hodnota zvolené veličiny vstupního signálu (napětí, proud, ...). • Vzorkování se děje s periodou T. • Vzorkovací frekvence f — y. • Takto získané hodnoty jsou následně kvantizovány. • Pokud nemá dojít ke ztrátě informace obsažené v signálu, pak vzorkovací frekvence musí být minimálně dvojnásobkem nejvyšší frekvence, která je v signálu obsažena (Shannonův vzorkovací teorém). • Běžně používané vzorkovací frekvence: • 8 kHz - telefonní kvalita • 16 kHz • 22 050 Hz - rozhlasová kvalita • 44 100 Hz - CD kvalita • 48 kHz - DVD kvalita Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Vzorkovaní Ukázka Digitalizace zvuku Zpracování digitalizovaného zvuku Digitalizace zvuku Zpracování digitalizovaného zvuku Kvantizace • Metoda převodu spojitých hodnot na diskrétní (reálných na celočíselné, ...). • Princip: • Chceme kvantizovat vstupní hodnoty z intervalu < min, max > • Spočítáme kvantizační krok step — max^mm kde N je počet různých výstupních hodnot. • Pokud vstupní hodnota překročí k-násobek kvantizačního kroku, na výstup jde hodnota k. • Kvantizační chyba • zaokrouhlován chyba způsobená velikostí kvantizačního kroku • je přímo úměrná velikosti kvantizačního kroku. • Běžně používané kvantizace: • 8 bitů - 256 úrovní • 16 bitů - 65 536 úrovní • 24 bitů - 16 777 216 úrovní • 32 bitů - 4 294 967 296 úrovní - používá se hlavně pro zpracování obrazu. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Kvantizace Dokončení Digitalizace zvuku Zpracování digitalizovaného zvuku • Další používané kvantizace: • 32 bitů floating point • 64 bitů floating point • Využití: • zpracování zvuku na počítači • audio stopa na blu-ray discích (kódování MPEG-4) Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Určení kvantizačního kroku Ukázka • Rozsah hodnot vstupního signálu < — 127m\/, 128mV > • velikost intervalu vstupních hodnot 256 mV • 8bitová kvantizace • 256 úrovní signálů • Kvantizační krok • 252^v — lmV - změna vstupní úrovně napětí o 1 mV - změna výstupní hodnoty o 1. • např. změna vstupního napětí z 0,5 mV na 1,1 mV - změna hodnoty na výstupu z 0 na 1. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Kódování průběhu vlny • Pulsní kódová modulace • přímo ukládá hodnoty, které jsou výstup z kvantizace. • Nevýhody: • Relativně pomalé změny zvukového signálu =>• relativně malé rozdíly sousedních vzorků =>• velká redundance dat. - řešení diferenční PCM - ukládají se rozdíly mezi sousedními vzorky. • V případě příliš velkých změn amplitudy signálu problém s nastavením kvantizačního kroku. • příliš velký krok - ztráta informace o částech s malou amplitudou » příliš malý krok - přetečení hodnot v částech s velkou amplitudou. • Řešení - adaptivní PCM - kvantizační krok se určí v závislosti na amplitudě signálu. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Analýza zvuku v časové oblasti Zpracování digitalizovaného zvuku Analýza zvuku ve frekvenční oblasti Zpravování digitalizovaného signálu • Zvuk mívá velkou dynamiku • Většina charakteristik zvuku je neměnná pouze v rámci krátkých časových úseků - metody krátkodobé analýzy. • Mikrosegment • časový interval, na kterém předpokládáme neměnnost charakteristik zvuku. • používaná velikost 10 — 40 ms - závisí na použité metodě • Metody krátkodobé analýzy • v časové oblasti - pracují přímo s hodnotami vzorků • ve frekvenční oblasti - z hodnot vzorků se získají frekvenční charakteristiky, které jsou následně zpracovány. • Modelování funkce Coortiho ústrojí - matematická simulace rezonance vybraných vlákének Coortiho ústrojí. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Váhové okénko v časové oblasti ve frekvenční oblasti • Pro účely krátkodobé analýzy předpokládáme, že je signál signál v okolí mikrosegmentu periodický se stejnou periodou jako uvnitř mikrosegmentu. • Vzniklou chybu lze kompenzovat použitím ,,okénka". • Okénko - posloupnost vah pro jednotlivé vzorky mikrosegmentu. • Váhy odpovídají tomu, jak je vzorek pro účely dané metody ovlivněn okolím mikrosegmentu. • Čím více je vzorek ovlivněn okolím mikrosegmentu, tím má přiřazenu nižší váhu. • Nejčastěji používané typy okének: • pravoúhlé okénko • Hammingovo okénko. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Pravoúhlé okénko v časové oblasti ve frekvenční oblasti • Vychází z předpokladů: O Vzorky uvnitř mikrosegmentu nejsou pro naše potřeby ovlivněny okolím. O Všechny vzorky uvnitř mikrosegmentu jsou ovlivněny stejně. • Všechny vzorky uvnitř mikrosegmentu mají stejnou váhu w(s) = 1. • Váha vzorků mimo mikrosegment w(s) = 0. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace z i/uku alýza zvuku / časové oblasti Zpracov ání digitalizovaného z vuku alýza zvuku /e frekvenční oblasti Hammingovo okénko • Vychází z předpokladu, že čím je vzorek blíž okraji mikrosegmentu, tím více je ovlivněn okolím. • Váha vzorků uvnitř mikrosegmentu w{s„) = 0, 54 - 0,46cos(|^) • N - počet vzorků v mikrosegmentu. • Váha vzorků mimo mikrosegment w(s) = 0. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Analýza zvuku v časové oblasti Zpracování digitalizovaného zvuku Analýza zvuku ve frekvenční oblasti Analýza digitalizovaného zvuku v časové oblasti • Při analýze se vychází přímo z hodnot vzorků, nikoliv z hodnot spektra. • Používané metody: • metoda krátkodobé energie • metoda krátkodobé intenzity • funkce středního počtu průchodu nulou • diference 1. řádu • autokorelační funkce Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě Digitalizace z ✓uku íalýza zvuku \ / časové oblasti Zpracov ání digitalizovaného z1 vuku lalýza zvuku •< /e frekvenční oblasti Metoda krátkodobé energie • Využívá funkci průměrné energie v segmentu oo E(n)= £ (s(kMn-k))2 k——oo • s(k) - vzorek v čase k • Lú(n — k) - váha okénka pro vzorek v čase k. • Druhá mocnina zvyšuje dynamiku zvukového signálu. • Použití: • automatická detekce ticha a promluvy • tvorba příznaků pro jednoduché klasifikátory slov • oddělení znělých a neznělých částí promluvy. Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě Digitalizace z ✓uku íalýza zvuku \ / časové oblasti Zpracov ání digitalizovaného z1 vuku lalýza zvuku •< /e frekvenční oblasti Metoda krátkodobé intenzity • Využívá funkci krátkodobé intenzity na daném mikrosegmentu oo l(n)= £ (\s(k)Hn-k)) k——oo • s(k) - vzorek v čase k • Lú(n — k) - váha okénka pro vzorek v čase k • Použití - stejné jako u průměrné energie. • Oproti krátkodobé energii nezvýrazňuje tolik dynamiku řečového signálu. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Analýza zvuku v časové oblasti Zpracování digitalizovaného zvuku Analýza zvuku ve frekvenční oblasti Funkce středního počtu průchodů nulou • Počítá změny znaménka digitalizovaného signálu na daném mikrosegmentu. oo Z(n)= £ \sgn[s{k)] - sgn[s{k - l)]\u{n - k) k——oo • Varianta - počet lokálních extrémů. • Obě varianty mohou být ovlivněny šumem zvukového pozadí. • Použití: • detekce ticha • detekce začátku a konce promluvy (i zašuměné) • přibližné určení základního hlasivkového tónu a formantů • příznaky jednodušších klasifikátorů slov. Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Autokorelační funkce v časové oblasti ve frekvenční oblasti • Vrací podobnost úseků daného mikrosegmentu posunutých o m vzorků - čím větší hodnota, tím jsou si vzorky podobnější. oo R(m, n)= [sCcMn - k)]is(k + m)uj(n - k + m)] k——oo • Je-li funkce periodická s periodu P, potom, R(m,n) nabývá maxima pro m=P, 2P, ... • Předpokládá délku mikrosegmentu aspoň 2P. • Použití: • zjištění periodicity řeči a určení základního tónu řeči • základ pro výpočet koeficientů LPA. Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě zvuku v časové oblasti zvuku ve frekvenční oblasti Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku ve frekvenční oblasti • Ze vstupních vzorku získava akustické spektrum. • Nej používanější metody: • krátkodobá Fourierova transformace • krátkodobá diskrétni Fourierova transformace • rychlá Fourierova transformace • kepstrální analýza • lineárni prediktivní analýza. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Analýza zvuku v časové oblasti Zpracování digitalizovaného zvuku Analýza zvuku ve frekvenční oblasti Krátkodobá Fourierova transformace • Vychází z Fourierovy transformace: • Krátkodobá Fourierova transformace oo S(w,ŕ)= s{k)h{t - k)e-iujk k— — oo • Fixací času t získáme klasickou Fourierovu transformaci. • \5{bJ, ť)\ - amplituda akustického spektra odpovídajícího frekvenci uj v čase t. • h - váhová funkce okénka. • Předpokládá na vstupu periodickou funkci - zvuk je periodický na krátkých časových úsecích. • Předpokládá periodické opakování daného mikrosegmentu. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku zvuku v časové oblasti zvuku ve frekvenční oblasti Krátkodobá diskrétní Fourierova transformace a rychlá Fourierova transformace • Používá se na výpočet spektra periodických posloupností s periodou N, resp. posloupností délky N. • Frekvence odpovídající spektrálním koeficientům závisí na délce mikrosegmentu a vzorkovací frekvenci. • Diskrétní Fourierova transformace • výpočetně časově náročná - n2 výpočtů nad komplexními čísly • prakticky nelze použít pro výpočty v reálném čase. • V praxi se používá Rychlá Fourierova transformace (FFT). • složitost nlog(^) operací násobení • algoritmus postaven na metodě rozděl a panuj • vyžaduje, aby délka mikrosegmentu byla mocninou dvou. Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Spektrum zvuku á v časové oblasti ve frekvenční oblasti Figure: FFT spektrum hlásky á -lßdB- -30dB i 1 i -54dB -60dB--66dB-72dB- 1 i ,Jl IL U I ■ 1 É. LUiéI ■l ,1 i ■ ! p W M w l ■ ■ WW -90dB r ľ 'iia 1.1 OHz 2000Hz 500QHI 7000Hz 10000Hz 12000Hz 15000Hz 17000Hz 200( OHz Luděk Bártek SIN04: Řečová interakce a sociáli i í sítě 21 Digitalizace zvuku Zpracování digitalizovaného zvuku Kepstrální analýza • Vychází z modelu činnosti hlasového ústrojí. • Řečové kmity lze modelovat jako odezvu lineárního systému na buzení sestávající z posloupnosti pulzů pro znělou řeč a šumu pro neznělou. • Kepstrum X{k) = IFFT{log\FFT{x{k))\) • Kepstrální analýza umožňuje z řeči oddělit: • parametry buzení • parametry hlasového ústrojí • Využití: • ocenění fonetické struktury řeči - znělost, perioda základního hlasivkového tónu, formanty, . .. • rozpoznávání slov • verifikace a identifikace mluvčího Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Kepstrum hlásky á Figure: Kepstrum hlásky á =. 0.10 - 0.05 ■ 1 IHMH 0.00 --0.05 ■ -0.10 -0.15 -0.20- mi 0.000s 0.005s fl.OlOs 0.015s 0.020s 0.025s D.OiOs 0.035s 0.040s 0.045s Luděk Bártek SIN04: Řečová interakce a sociáli i í sítě Digitalizace z i/uku lalýza zvuku •< / časové oblasti Zpracov ání digitalizovaného z1 vuku íalýza zvuku \ /e frekvenční oblasti Lineární prediktivní analýza • Jedna z nejefektivnějších metod analýzy akustického signálu. • velmi přesné odhady parametrů při relativně malé zátěži. • Vychází z předpokladu, že vzorek lze popsat jako lineární kombinaci N předchozích vzorků a buzení u(k) se zesílením G N s(k) = -^2 a-,s(k - /') + Gu{k) i=l • Použití: • Určení charakteristik modelu hlasového ústrojí. • Z chyby predikce lze: • odvodit poznatky o znělosti • určit frekvenci základního hlasivkového tónu. • Získané koeficienty lze použít jako příznaky pro rozpoznávání řeči - nesou informaci o spektrálních vlastnostech. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě