Digitalizace zvuku Zpracov ání digitalizovaného zvuku SIN04: Řečová interakce a sociální sítě Luděk Bártek Fakulta Informatiky Masarykova Univerzita podzim 2013 Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Obsah Digitalizace zvuku Zpracování digitalizovaného zvuku Q| Digitalizace zvuku Q Zpracování digitalizovaného zvuku • Analýza zvuku v časové oblasti • Analýza zvuku ve frekvenční oblasti Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Digitalizace zvuku O Vzorkování - snímání aktuální výchylky akustického signálu • převod spojitého signálu na posloupnost diskrétních reálných hodnot. 0 Kvantizace - převod reálných hodnot na celočíselné. O Kódování průběhu vlny. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Vzorkování • Převod spojitého signálu s(ř) na posloupnost diskrétních hodnot s„(r). • V daném okamžiku se sejme hodnota zvolené veličiny vstupního signálu (napětí, proud, ...). • Vzorkování se děje s periodou T. • Vzorkovací frekvence f — y. • Takto získané hodnoty jsou následně kvantizovány. • Pokud nemá dojít ke ztrátě informace obsažené v signálu, pak vzorkovací frekvence musí být minimálně dvojnásobkem nejvyšší frekvence, která je v signálu obsažena (Shannonův vzorkovací teorém). • Běžně používané vzorkovací frekvence: • 8 kHz - telefonní kvalita • 16 kHz • 22 050 Hz - rozhlasová kvalita • 44 100 Hz - CD kvalita • 48 kHz - DVD kvalita Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Kvantizace • Metoda převodu spojitých hodnot na diskrétní (reálných na celočíselné, ...). • Princip: • Chceme kvantizovat vstupní hodnoty z intervalu < min, max > • Spočítáme kvantizační krok step — max/vIT"" kde N je počet různých výstupních hodnot. • Pokud vstupní hodnota překročí k-násobek kvantizačního kroku, na výstup jde hodnota k. • Kvantizační chyba • zaokrouhlován chyba způsobená velikostí kvantizačního kroku • je přímo úměrná velikosti kvantizačního kroku. • Běžně používané kvantizace: • 8 bitů - 256 úrovní • 16 bitů - 65 536 úrovní • 24 bitů - 16 777 216 úrovní • 32 bitů - 4 294 967 296 úrovní - používá se hlavně pro zpracování obrazu. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Určení kvantizačního kroku Ukázka • Rozsah hodnot vstupního signálu < —121mV,12šmV > • velikost intervalu vstupních hodnot 256 mV • 8bitová kvantizace • 256 úrovní signálů • Kvantizační krok • 25256^ — - změna vstupní úrovně napětí o 1 mV - změna výstupní hodnoty o 1. • např. změna vstupního napětí z 0,5 mV na 1,1 mV - změna hodnoty na výstupu z 0 na 1. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Kódování průběhu vlny • Pulsní kódová modulace • přímo ukládá hodnoty, které jsou výstup z kvantizace. • Nevýhody: • Relativně pomalé změny zvukového signálu =>• relativně malé rozdíly sousedních vzorků =>• velká redundance dat. - řešení diferenční PCM - ukládají se rozdíly mezi sousedními vzorky. • V případě příliš velkých změn amplitudy signálu problém s nastavením kvantizačního kroku. • příliš velký krok - ztráta informace o částech s malou amplitudou o příliš malý krok - přetečení hodnot v částech s velkou amplitudou. • Řešení - adaptivní PCM - kvantizační krok se určí v závislosti na amplitudě signálu. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Analýza zvuku v časové oblasti Zpracování digitalizovaného zvuku Analýza zvuku ve frekvenční oblasti Zpravování digitalizovaného signálu • Zvuk mívá velkou dynamiku o Většina charakteristik zvuku je neměnná pouze v rámci krátkých časových úseků - metody krátkodobé analýzy. • Mikrosegment • časový interval, na kterém předpokládáme neměnnost charakteristik zvuku. • používaná velikost 10 — 40 ms - závisí na použité metodě • Metody krátkodobé analýzy • v časové oblasti - pracují přímo s hodnotami vzorků • ve frekvenční oblasti - z hodnot vzorků se získají frekvenční charakteristiky, které jsou následně zpracovány. • Modelování funkce Coortiho ústrojí - matematická simulace rezonance vybraných vlákének Coortiho ústrojí. Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Váhové okénko v časové oblasti ve frekvenční oblasti • Pro účely krátkodobé analýzy předpokládáme, že je signál signál v okolí mikrosegmentu periodický se stejnou periodou jako uvnitř mikrosegmentu. • Vzniklou chybu lze kompenzovat použitím ,,okénka". • Okénko - posloupnost vah pro jednotlivé vzorky mikrosegmentu. • Váhy odpovídají tomu, jak je vzorek pro účely dané metody ovlivněn okolím mikrosegmentu. • Čím více je vzorek ovlivněn okolím mikrosegmentu, tím má přiřazenu nižší váhu. • Nejčastěji používané typy okének: • pravoúhlé okénko • Hammingovo okénko. Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Pravoúhlé okénko v časové oblasti ve frekvenční oblasti • Vychází z předpokladů: O Vzorky uvnitř mikrosegmentu nejsou pro naše potřeby ovlivněny okolím. Q Všechny vzorky uvnitř mikrosegmentu jsou ovlivněny stejně. • Všechny vzorky uvnitř mikrosegmentu mají stejnou váhu w(s) = 1. • Váha vzorků mimo mikrosegment w(s) = 0. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace z i/uku alýza zvuku / časové oblasti Zpracov ání digitalizovaného z vuku alýza zvuku /e frekvenční oblasti Hammingovo okénko • Vychází z předpokladu, že čím je vzorek blíž okraji mikrosegmentu, tím více je ovlivněn okolím. • Váha vzorků uvnitř mikrosegmentu w{sn) = 0,54 - 0,46cos(^) * N - počet vzorků v mikrosegmentu. • Váha vzorků mimo mikrosegment w(s) = 0. Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě zvuku v časové oblasti zvuku ve frekvenční oblasti Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza digitalizovaného zvuku v časové oblasti • Při analýze se vychází přímo z hodnot vzorku, nikoliv z hodnot spektra. • Používané metody: • metoda krátkodobé energie • metoda krátkodobé intenzity • funkce středního počtu průchodu nulou • diference 1. řádu • autokorelační funkce «... Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě Digitalizace z ✓uku íalýza zvuku \ / časové oblasti Z pra co v. ání digitalizovaného z1 vuku lalýza zvuku •< /e frekvenční oblasti Metoda krátkodobé energie • Využívá funkci průměrné energie v segmentu oo E(n) = £ (s(kMn - k)f k——oo • s(k) - vzorek v čase k • Lú(n — k) - váha okénka pro vzorek v čase k. • Druhá mocnina zvyšuje dynamiku zvukového signálu. • Použití: • automatická detekce ticha a promluvy • tvorba příznaků pro jednoduché klasifikátory slov • oddělení znělých a neznělých částí promluvy. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace z ✓uku íalýza zvuku \ / časové oblasti Z pra co v. ání digitalizovaného z1 vuku lalýza zvuku •< /e frekvenční oblasti Metoda krátkodobé intenzity • Využívá funkci krátkodobé intenzity na daném mikrosegmentu oo /(n)= £ (\s(k)\Lj(n - k)) k——oo • s(k) - vzorek v čase k • Lú(n — k) — váha okénka pro vzorek v čase k • Použití - stejné jako u průměrné energie. • Oproti krátkodobé energii nezvýrazňuje tolik dynamiku řečového signálu. Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě Digitalizace zvuku Analýza zvuku v časové oblasti Zpracování digitalizovaného zvuku Analýza zvuku ve frekvenční oblasti Funkce středního počtu průchodů nulou • Počítá změny znaménka digitalizovaného signálu na daném mikrosegmentu. oo Z(n)= £ \sgn[s{k)] - sgn[s{k - l)]\u{n - k) k——oo • Varianta - počet lokálních extrémů. • Obě varianty mohou být ovlivněny šumem zvukového pozadí. • Použití: • detekce ticha • detekce začátku a konce promluvy (i zašuměné) • přibližné určení základního hlasivkového tónu a formantů • příznaky jednodušších klasifikátorů slov. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Digitalizace zvuku Zpracování digitalizovaného zvuku Autokorelační funkce v časové oblasti ve frekvenční oblasti • Vrací podobnost úseků daného mikrosegmentu posunutých o m vzorků - čím větší hodnota, tím jsou si vzorky podobnější. oo R(m, n)= [s(/c)w(" - k)]is(k + rn)uj{n - k + m)] k——oo • Je-li funkce periodická s periodu P, potom, R(m,n) nabývá maxima pro m=P, 2P, ... • Předpokládá délku mikrosegmentu aspoň 2P. • Použití: • zjištění periodicity řeči a určení základního tónu řeči o základ pro výpočet koeficientů LPA. Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě zvuku v časové oblasti zvuku ve frekvenční oblasti Digitalizace zvuku Zpracování digitalizovaného zvuku Analýza zvuku ve frekvenční oblasti • Ze vstupních vzorku získava akustické spektrum. • Nej používanější metody: r krátkodobá Fourierova transformace • krátkodobá diskrétni Fourierova transformace • rychlá Fourierova transformace • kepstrální zn^ý-lz • lineárni prediktivní 2lX\2l\