Dialogové systémy Dialogové systémy Rozpoznávání řeči frekvenční oblasti Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2020 Zpracování digitalizovaného signálu Úvod Dialogové systémy Luděk Bártek ■ Zvuk je neměnný pouze na krátkých časových úsecích - Zpracování di- metody krátkodobé analýzy. gitalizovaného signálu ■ Tento interval se nazývá mikrosegment - velikost 10 — Zpracování v časové oblasti Zpracování ve 40 ms. frekvenční oblasti ■ Metody krátkodobé analýzy: ■ V časové oblasti - zpracovávají se přímo hodnoty jednotlivých vzorků. ■ Ve frekvenční oblasti - ze vzorků se získávají frekvenční charakteristiky, které jsou následně zpracovány. ■ Modelování funkce Cortiho ústrojí - pomocí diferenciálních rovnic se simuluje rezonance na určitých vlákénkách Cortiho ústrojí. Zpracování digitalizovaného signálu Váhové okénko Dialogové systémy Luděk Bártek /pracovaní v casove oblasti Zpracování ve frekvenční oblasti Při krátkodobé analýze předpokládáme, že signál je v okolí mikrosegmentu periodický se stejnou periodou jako uvnitř. Vzniklá chyba se kompenzuje použitím „okénka". Okénko - posloupnost vah pro vzorky v mikrosegmentu. Tyto váhy by měly odpovídat tomu, jak je daný vzorek ovlivněn okolím mikrosegmentu. Nejčastěji používané typy okének: ■ pravoúhlé okénko ■ Hammingovo okénko Zpracování digitalizovaného signálu Hammingovo okénko Dialogové systémy ■ Vychází z předpokladu, že čím jsou vzorky blíže středu Luděk Bártek mikrosegmentu, tím méně jsou ovlivněny okolím. Zpracování digitalizovaného signálu ■ Pro výpočet vah se používá vzorec: Zpracování v časové oblasti Zpracování ve frekvenční oblasti w(n) - (n = O...N 1 0,54 O^ôcosQ^) \n <0\/ n> N 0 ■ Průběh vah okénka na mikrosegmentu: ■■ o.s 0.7 o.e 0.5 O. <4 O. '-i O. 2 O.l / \ Ľ ÍO 20 30 40 50 fiO □ rfp - = Zpracování digitalizovaného signálu Pravoúhlé okénko Dialogové systémy Luděk Bártek /pracovaní v casove oblasti Zpracování ve frekvenční oblasti Vychází se z předpokladu: O vzorky mikrosegmentu nejsou pro naše potřeby ovlivněny okolím mikrosegmentu B všechny vzorky mikrosegmentu jsou ovlivněny stejně. Všechny vzorky mikrosegmentu mají shodnou váhu. 0 < n < N w(n) = <( " % < 0 V n > A/ 0 Analýza digitalizovaného signálu v časové oblasti Dialogové systémy Luděk Bártek Zpracování di- gitalizovaného signálu ■ Vychází přímo z hodnot vzorků, nikoliv z hodnot spektra. Zpracování v časové oblasti ■ Používané metody: Zpracování ve frekvenční oblasti ■ funkce krátkodobé energie ■ funkce krátkodobé intenzity ■ funkce středního počtu průchodů nulou ■ diference 1. řádu ■ autokorelační funkce ■ . .. Analýza v časové oblasti Funkce krátkodobé energie Dialogové systémy Luděk Bártek ■ Využívá funkci průměrné energie v rámci segmentu: Zpracování digitalizovaného signálu Zpracování v časové oblasti Zpracování ve oo E(n)= (s(k)u(n - k))2 k=—oo frekvenční oblasti ■ s(/c) - vzorek v čase k ■ oj(n — k) - váha odpovídajícího okénka pro čas k ■ Výstupem je průměrná energie v daném okénku. ■ Druhá mocnina zvyšuje dynamiku zvukového signálu. ■ Použití: ■ automatické oddělení ticha řeči (signálu) ■ příznaky v jednoduchých klasifikátorech slov ■ oddělení znělých a neznělých částí promluvy Analýza v časové oblasti Funkce krátkodobé intenzity Dialogové systémy Luděk Bártek Zpracování digitalizovaného signálu Zpracování v časové oblasti Zpracování ve frekvenční oblasti Funkce intenzity signálu v daném okénku oo l(n)= Y, \s(k)\u{n - k) k——oo m \s(k)\ - absolutní hodnota vzorku v čase k ■ oj(n — k) - váha odpovídajícího okénka pro čas k Použití - stejné jako funkce krátkodobé energie. Oproti krátkodobé energii nezvýrazňuje tolik dynamiku řečového signálu. Analýza v časové oblasti Krátkodobá funkce středního počtu průchodu nulou Dialogové systémy Luděk Bártek ■ Počítá změny znaménka digitalizovaného signálu. Zpracování di- oo gitalizovaného signálu Z{n)= \sgn[s(k)] - sgn[s(k - l)]\uj(n - k) Zpracování v časové oblasti Zpracování ve k=—oo frekvenční oblasti ■ Varianta - počet lokálních extrémů. ■ Obě metody mohou být negativně zatíženy šumem zvukového pozadí. ■ Použití: ■ detekce ticha ■ detekce začátku a konce i zašuměné promluvy ■ přibližné určení základního hlasivkového tónu a formantů ■ příznaky jednodušších klasifikátorů slov Analýza v časové oblasti Autokorelační funkce Dialogové systémy Luděk Bártek Vrací podobnost úseků daného mikrosegmentu (čím větší výsledná hodnota, tím podobnější úseky posunuté o m vzorků). Zpracování v časové oblasti Zpracování ve frekvenční oblasti oo R(m, n) = ^ (s(k)uj(n - /c))(s(/c + m)uj(n - k + m)) k=—oo Je-li signál periodický s periodou P, R(m,n) nabývá maxima pro m=0, P, 2P, . .. Předpokládá délku mikrosegmentu aspoň 2P. Použití: ■ Používá se k zjišťování periodicity signálu základního tónu reci. ■ Základ pro výpočet koeficientů LPA. Analýza signálu ve frekvenční oblasti Dialogové systémy Luděk Bártek Zpracování di- ■ Transformuje digitální řečový signál z časové oblasti do gitalizovaného signálu frekvenční oblasti. Zpracování v časové oblasti Zpracování ve ■ Využívá k tomu nejčastěji Fourierovu transformaci. frekvenční oblasti ■ Nejčastěji používané druhy analýzy ve frekvenční oblasti: ■ krátkodobá Fourierova transformace ■ krátkodobá diskrétní Fourierova transformace ■ rychlá Fourierova transformace ■ kepstrální analýza ■ lineární predikce ■ . .. Analýza signálu ve frekvenční oblasti Krátkodobá Fourierova transformace ■ Vychází z Fourierovy transformace: oo S(cj,ŕ)= ^ s(k)h(t-k)e — i oj k k=—oo m Obyčejnou Fourierovu transformaci získame fixací času t. m \S(cj, t)\ - amplituda složky akustického spektra odpovídající frekvenci u v čase t. m h(n) - váhová funkce okénka. ■ Předpokládá na vstupu periodickou funkci - zvuk je periodický na krátkých časových úsecích. ■ Při jejím použití se předpokládá, že zpracovávaný mikrosegment se periodicky opakuje. Analýza signálu ve frekvenční oblasti Diskrétní Fourierova transformace Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Používá se pro vyjádření spektrálních vlastností periodických posloupností s periodou N vzorků resp konečných posloupností délky N vzorků. Výpočet koeficientů X(k) DFT: A/-1 A/-1 <—kn N n=0 n=0 ■ |X(/c)| - intenzita k. spektrálního koeficientu, frekvence závisí na velikosti mikrosegmentu N a vzorkovací frekvenci ■ x(n) - n. vzorek daného mikrosegmentu m Wn = ei2fr = cos(2tt/N) + / • sin(27r/N). Výpočet n. vzorku na základě hodnot X(k) - IDFT: - A/-1 N-l /c=0 /c=0 Analýza signálu ve frekvenční oblasti Rychlá diskrétní Fourierova transformace Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Výpočet spektrálních koeficientů pomocí DFT - n2 operací nad komplexními čísly. Pomocí FFT - N • log2^ operací násobení. FFT požaduje, aby délka analyzovaného segmentu byla mocninou 2. ■ využívá metodu rozděl a panuj pro optimalizovaný výpočet DFT ■ zvlášť se provádí výpočet lichých a sudých členů sumy ■ předchozí lze chápat jako transformaci dvou vektorů (xq,x2,...,x/v-2) a (xi,x3,..., x/v-i), lišících se pouze členem (e~'~^)k, a vlastní transformace se neliší. Analýza signálu ve frekvenční oblasti Kepstrální analýza Dialogové systémy Luděk Bártek ■ Vychází z modelu činnosti hlasového ústrojí. Zpracování di- ■ Řečové kmity lze modelovat jako odezvu lineárního gitalizovaného signálu systému na buzení sestávající ze sledu pulzů pro znělou řeč Zpracování v časové oblasti a šumu pro neznělou. Zpracování ve frekvenční oblasti ■ Kepstrum - X(k) = IFFT(log\FFT(x(k))\) ■ Kepstrální analýza umožňuje z řeči oddělit parametry buzení a parametry hlasového ústrojí. ■ Využití: ■ ocenění fonetické struktury řeči - znělost, perioda základního tónu, formanty . . . ■ rozpoznávání slov ■ verifikace a identifikace mluvčího ■ . .. Analýza signálu ve frekvenční oblasti Lineárni prediktivní analýza Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Jedna z nejefektivnějších metod analýzy akustického signálu - zajišťuje velmi přesné odhady parametrů při relativně malé zátěži. Vychází z předpokladu, že s(/c) lze popsat jako lineární kombinaci N předchozích vzorků a buzení u(k)\ N s(k) = -^2a;s(k - i) + Gu(k) i=i kde G je koeficient zesílení a N rád modelu. Použití: ■ určování spektrálních charakteristik modelu hlasového ústrojí ■ z chyby predikce lze odvodit poznatky o znělosti a určit frekvenci základního hlasivkového tónu ■ koeficienty a; nesou informaci o spektrálních vlastnostech -lze je použít jako příznaky pro rozpoznávání,řeči.