Dialogové systémy Luděk Bártek Zpracování digitalizovaného signálu Zpracování v časové oblasti Zpracování ve frekvenční oblasti Dialogové systémy Rozpoznávání řeči Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masar Brno jaro 2018 □ rS1 Zpracování digitalizovaného signálu Úvod Dialogové systémy Luděk Bártek ■ Zvuk je neměnný pouze na krátkých časových úsecích - Zpracování di- metody krátkodobé analýzy. gitalizovaného signálu ■ Tento interval se nazývá mikrosegment - velikost 10 — z_prdcovdni v časové oblasti Zpracování ve 40 ms. frekvenční oblasti ■ Metody krátkodobé analýzy: ■ V časové oblasti - zpracovávají se přímo hodnoty jednotlivých vzorků. ■ Ve frekvenční oblasti - ze vzorků se získávají frekvenční charakteristiky, které jsou následně zpracovány. ■ Modelování funkce Cortiho ústrojí - pomocí diferenciálních rovnic se simuluje rezonance na určitých vlákénkách Cortiho ústrojí. Zpracování digitalizovaného signálu Váhové okénko Dialogové systémy Luděk Bártek Zpracovaní v časové oblasti Zpracování ve frekvenční oblasti Při krátkodobé analýze předpokládáme, že signál je v okolí mikrosegmentu periodický se stejnou periodou jako uvnitř. Vzniklá chyba se kompenzuje použitím „okénka". Okénko - posloupnost vah pro vzorky v mikrosegmentu. Tyto váhy by měly odpovídat tomu, jak je daný vzorek ovlivněn okolím mikrosegmentu. Nejčastěji používané typy okének: ■ pravoúhlé okénko ■ Hammingovo okénko Zpracování digitalizovaného signálu Hammingovo okénko Dialogové systémy Luděk Bártek Zpracování digitalizovaného signálu Zpracování v časové oblasti Zpracování ve frekvenční oblasti Vychází z předpokladu, že čím jsou vzorky blíže středu mikrosegmentu, tím méně jsou ovlivněny okolím. Pro výpočet vah se používá vzorec: w(n) — n = Q...N - 1 o,54- 0,46cos(^) n <0\/ n> N 0 Průběh vah okénka na mikrosegmentu : ► Zpracování digitalizovaného signálu Pravoúhlé okénko Dialogové systémy Luděk Bártek Zpracovaní v časové oblasti Zpracování ve frekvenční oblasti Vychází se z předpokladu: Q vzorky mikrosegmentu nejsou pro naše potřeby ovlivněny okolím mikrosegmentu Q všechny vzorky mikrosegmentu jsou ovlivněny stejně. Všechny vzorky mikrosegmentu mají shodnou váhu. w(n) — 0 < n < N 1 n <0V n> N 0 Analýza digitalizovaného signálu v časové oblasti Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Vychází přímo z hodnot vzorků, nikoliv z hodnot spektra Používané metody: ■ funkce krátkodobé energie ■ funkce krátkodobé intenzity ■ funkce středního počtu průchodů nulou ■ diference 1. řádu ■ autokorelační funkce Analýza v časové oblasti Funkce krátkodobé energie ■ Využívá funkci průměrné energie v rámci segmentu: ■ Výstupem je průměrná energie v daném okénku. ■ Druhá mocnina zvyšuje dynamiku zvukového signálu. ■ Použití: ■ automatické oddělení ticha řeči (signálu) ■ příznaky v jednoduchých klasifikátorech slov ■ oddělení znělých a neznělých částí promluvy. oo E(n)= £ (s(k)u(n - k))2 k=—oo ■ s(k) - vzorek v čase k ■ cj(n — k) - váha odpovídajícího okénka pro čas k Analýza v časové oblasti Funkce krátkodobé intenzity Dialogové systémy Luděk Bártek Zpracování digitalizovaného signálu Zpracování v časové oblasti Zpracování ve frekvenční oblasti Funkce intenzity signálu v daném okénku oo l(n)= Hk)Hn-k) k=—oo ■ \s(k)\ - absolutní hodnota vzorku v čase k ■ íj(n — k) - váha odpovídajícího okénka pro čas k Použití - stejné jako funkce krátkodobé energie. Oproti krátkodobé energii nezvýrazňuje tolik dynamik řečového signálu. Analýza v časové oblasti Krátkodobá funkce středního počtu průchodu nulou ■ Počítá změny znaménka digitalizovaného signálu. ■ Varianta - počet lokálních extrémů. ■ Obě metody mohou být negativně zatíženy šumem zvukového pozadí. ■ Použití: ■ detekce ticha ■ detekce začátku a konce i zašuměné promluvy ■ přibližné určení základního hlasivkového tónu a formantů ■ příznaky jednodušších klasifikátorů slov Z(n)= \sgn[s(k)] - sgn[s(k - l)]\u(n - k) k=—oo oo Analýza v časové oblasti Autokorelační funkce Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Vrací podobnost úseků daného mikrosegmentu (čím větší výsledná hodnota, tím podobnější úseky posunuté o m vzorků). oo R(m, rí) = ^ (s(k)u(n - k))(s(k + m)uj{n - k + m)) k=—oo Je-li signál periodický s periodou P, R(m,n) nabývá maxima pro m=0, P, 2P, . .. Předpokládá délku mikrosegmentu aspoň 2P. Použití: ■ Používá se k zjišťování periodicity signálu základního tónu reci. ■ Základ pro výpočet koeficientů LPA. Analýza signálu ve frekvenční oblasti Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Transformuje digitální řečový signál z časové oblasti do frekvenční oblasti. Využívá k tomu nejčastěji Fourierovu transformaci. Nejčastěji používané druhy analýzy ve frekvenční oblasti ■ krátkodobá Fourierova transformace ■ krátkodobá diskrétni Fourierova transformace ■ rychlá Fourierova transformace ■ kepstrální analýza ■ lineární predikce Analýza signálu ve frekvenční oblasti Krátkodobá Fourierova transformace Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Vychází z Fourierovy transformace: oo S(cj,ŕ)= ^2 s(k)h(t-k)e k=—oo — i u k m Obyčejnou Fourierovu transformaci získame fixací času t. m \S(uj, t)\ - amplituda složky akustického spektra odpovídající frekvenci uj v čase ŕ. ■ h(n) - váhová funkce okénka. Předpokládá na vstupu periodickou funkci - zvuk je periodický na krátkých časových úsecích. Při jejím použití se předpokládá, že zpracovávaný mikrosegment se periodicky opakuje. Analýza signálu ve frekvenční oblasti Diskrétní Fourierova transformace Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Používá se pro vyjádření spektrálních vlastností periodických posloupností s periodou N vzorků resp konečných posloupností délky N vzorků. Výpočet koeficientů X(k) DFT: A/-1 A/-1 X(k) = ^2x{n)e-^kn = J2x(n)Wľ '—kn N n=0 n=0 ■ |X(/c)| - intenzita k. spektrálního koeficientu, frekvence závisí na velikosti mikrosegmentu N a vzorkovací frekvenci ■ x(n) - n. vzorek daného mikrosegmentu ■ Wn = e''^ = cos(2tt/N) + / • sin(27r/N). Výpočet n. vzorku na základě hodnot X(k) - IDFT: - A/-1 A/-1 k=0 k=0 Analýza signálu ve frekvenční oblasti Rychlá diskrétní Fourierova transformace Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Výpočet spektrálních koeficientů pomocí DFT - n2 operací nad komplexními čísly. Pomocí FFT - N • log2^ operací násobení. FFT požaduje, aby délka analyzovaného segmentu byla mocninou 2. ■ využívá metodu rozděl a panuj pro optimalizovaný výpočet DFT ■ zvlášť se provádí výpočet lichých a sudých členů sumy ■ předchozí lze chápat jako transformaci dvou vektorů (xq,x2,...,x/v-2) a (xi,x3,..., x/v-i), lišících se pouze členem (e~'~^)k, a vlastní transformace se neliší. Analýza signálu ve frekvenční oblasti Kepstrální analýza Dialogové systémy Luděk Bártek ■ Vychází z modelu činnosti hlasového ústrojí. Zpracování di- ■ Rečové kmity lze modelovat jako odezvu lineárního gitalizovaného signálu systému na buzení sestávající ze sledu pulzů pro znělou řeč Zpracování v časové oblasti a šumu pro neznělou. Zpracování ve frekvenční oblasti ■ Kepstrum - X(k) = IFFT(log\FFT(x(k))\) ■ Kepstrální analýza umožňuje z řeči oddělit parametry buzení a parametry hlasového ústrojí. ■ Využití: ■ ocenění fonetické struktury řeči - znělost, perioda základního tónu, formanty, . . . ■ rozpoznávání slov ■ verifikace a identifikace mluvčího ■ . .. Analýza signálu ve frekvenční oblasti Lineárni prediktivní analýza Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Jedna z nejefektivnějších metod analýzy akustického signálu - zajišťuje velmi přesné odhady parametrů při relativně malé zátěži. Vychází z předpokladu, že s(/c) lze popsat jako lineární kombinaci N předchozích vzorků a buzení u(k)\ N s(k) =Y1 a-s(k - o + Gu(k) i=i kde G je koeficient zesílení a N rád modelu. Použití: ■ určování spektrálních charakteristik modelu hlasového ústrojí ■ z chyby predikce lze odvodit poznatky o znělosti a určit frekvenci základního hlasivkového tónu ■ koeficienty a; nesou informaci o spektrálních vlastnostech - lze je použit jako príznaky pro rozpoznávam reci^ >0 Q,o