Dialogové systémy Rozpoznávání řeči Rozpoznávání Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2014 Zpracování digitalizovaného signálu Úvod Dialogové systémy Zvuk je neměnný pouze na krátkých časových úsecích -metody krátkodobé analýzy. Tento interval se nazývá mikrosegment - velikost 10 — 40 ms. Metody krátkodobé analýzy: ■ V časové oblasti - zpracovávají se přímo hodnoty jednotlivých vzorků. ■ Ve frekvenční oblasti - ze vzorků se získávají frekvenční charakteristiky, které jsou následně zpracovány. Modelování funkce Cortiho ústrojí - pomocí diferenciálních rovnic se simuluje rezonance na určitých vlákénkách Cortiho ústrojí. Zpracování digitalizovaného signálu Váhové okénko Dialogové systémy Při krátkodobé analýze předpokládáme, že signál je v okolí mikrosegmentu periodický se stejnou periodou jako uvnitř. Vzniklá chyba se kompenzuje použitím „okénka". Okénko - posloupnost vah pro vzorky v mikrosegmentu. Tyto váhy by měly odpovídat tomu, jak je daný vzorek ovlivněn okolím mikrosegmentu. Nejčastěji používané typy okének: ■ pravoúhlé okénko ■ Hammingovo okénko Zpracování digitalizovaného signálu Hammingovo okénko Dialogové systémy Luděk Bártek Vychází z předpokladu, že čím jsou vzorky blíže středu mikrosegmentu, tím méně jsou ovlivněny okolím. Zpracování digitalizovaného signálu Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání řeči ■ Pro výpočet vah se používá vzorec: , , Ín = 0.../V-1 0.54 - 0A6cos(j%t") w(n) = < { >-) [n<0Vn>« 0 Rozpoznávání ■ Průběh vah okénka na mikrosegmentu: ■y \j J lO 2Ů 3Ú 40 E.O B-0 < □ ► « 0 (n-k) k——oo Rozpoznávání řeči Rozpoznávání ■ \s(k)\ - absolutní hodnota vzorku v čase k ■ u)(n — k) — váha odpovídajícího okénka pro čas k ■ Použití - stejné jako funkce krátkodobé energie. ■ Oproti krátkodobé energii nezvýrazňuje tolik dynamiku řečového signálu. Analýza v časové oblasti Krátkodobá funkce středního počtu průchodu nulou Dialogové systémy Počítá změny znaménka digitalizovaného signálu. oo Z(n)= £ \sgn[s{k)] - sgn[s{k - l)]\u{n - k) k——oo Varianta - počet lokálních extrémů. Obě metody mohou být negativně zatíženy šumem zvukového pozadí. Použití: ■ detekce ticha ■ detekce začátku a konce i zašuměné promluvy ■ přibližné určení základního hlasivkového tónu a formantů ■ příznaky jednodušších klasifikátorů slov Analýza v časové oblasti Autokorelační funkce Dialogové systémy 1 iirlaL' Rríi-foL' ■ Vrací podobnost úseků daného mikrosegmentu (čím větší LUUcK DditcK výsledná hodnota, tím podobnější úseky posunuté o m Zpracování digitalizovaného vzorků). signálu Zpracování v OO časové oblasti Zpracování ve frekvenční oblasti R(m,n)= {s{k)uj(n - k))(s(k + m)uj(n - k + m)) Rozpoznávání k——oo Rozpoznávání ■ Je-li signál periodický s periodou P, R(m,n) nabývá maxima pro m=0, P, 2P, ... ■ Předpokládá délku mikrosegmentu aspoň 2P. ■ Použití: ■ Používá se k zjišťování periodicity signálu základního tónu řeči. ■ Základ pro výpočet koeficientů LPA. Analýza signálu ve frekvenční oblasti Dialogové systémy Transformuje digitální řečový signál z časové oblasti do frekvenční oblasti. Využívá k tomu nejčastěji Fourierovu transformaci. Nejčastěji používané druhy analýzy ve frekvenční oblasti: ■ krátkodobá Fourierova transformace ■ krátkodobá diskrétni Fourierova transformace ■ rychlá Fourierova transformace ■ kepstrální analýza ■ lineární predikce Analýza signálu ve frekvenční oblasti Krátkodobá Fourierova transformace Dialogové systémy Luděk Bártek ■ Vychází z Fourierovy transformace: Zpracování di- oo gitalizovaného signálu S{u, t) = s{k)h{t - k)e-jwk Zpracování v časové oblasti k——oo Zpracování ve frekvenční oblasti Rozpoznávání ■ Obyčejnou Fourierovu transformaci získáme fixací času t. řeči Rozpoznávání m \S(u>, t)\ - amplituda složky akustického spektra odpovídající frekvenci u> v čase t. ■ h(n) - váhová funkce okénka. ■ Předpokládá na vstupu periodickou funkci - zvuk je periodický na krátkých časových úsecích. ■ Při jejím použití se předpokládá, že zpracovávaný mikrosegment se periodicky opakuje. Analýza signálu ve frekvenční oblasti Diskrétní Fourierova transformace Používá se pro vyjádření spektrálních vlastností periodických posloupností s periodou N vzorků resp. konečných posloupností délky N vzorků. Výpočet koeficientů X(k) DFT: X{k) N-l E n=0 x(n)e [kn N-l ^x(n)WNkn n=0 ■ - intenzita k. spektrálního koeficientu, frekvence závisí na velikosti mikrosegmentu N a vzorkovací frekvenci. ■ x(n) - n. vzorek daného mikrosegmentu * Wn = e*2* = cos{2tt/N) + j • s/n(27r//V). Výpočet n. vzorku na základě hodnot X(k) - IDFT: N-l k=0 1 A/"1 -Y k=0 kn 4 □ ► 4 S ► 4 1 -00.0 Analýza signálu ve frekvenční oblasti Rychlá diskrétní Fourierova transformace Dialogové systémy Luděk Bártek Zpracování di- gitalizovaného signálu Zpracování v časové oblasti ■ Výpočet spektrálních koeficientů pomocí DFT - n2 Zpracování ve frekvenční oblasti operací nad komplexními čísly. Rozpoznávání ■ Pomocí FFT - N ■ log2^ operací násobení. Rozpoznávání ■ FFT požaduje, aby délka analyzovaného segmentu byla mocninou 2. Ana Kepstr lýza signálu ve frekvenční oblasti "ální analýza Dialogové systémy Luděk Bártek ■ Vychází z modelu činnosti hlasového ústrojí. Zpracování di- ■ Řečové kmity lze modelovat jako odezvu lineárního gitalizovaného signálu systému na buzení sestávající ze sledu pulzů pro znělou řeč Zpracování v časové oblasti a šumu pro neznělou. Zpracování ve frekvenční oblasti ■ Kepstrum - X(k) = IFFT(FFT(x(k))) Rozpoznávání řeči ■ Kepstrální analýza umožňuje z řeči oddělit parametry Rozpoznávání buzení a parametry hlasového ústrojí. ■ Využití: ■ ocenění fonetické struktury řeči - znělost, perioda základního tónu, formanty, . .. ■ rozpoznávání slov ■ verifikace a identifikace mluvčího ■ .. . Analýza signálu ve frekvenční oblasti Lineárni prediktivní analýza Jedna z nejefektivnějších metod analýzy akustického signálu - zajišťuje velmi přesné odhady parametru při relativně malé zátěži. Vychází z předpokladu, že s(/c) lze popsat jako lineární kombinaci N předchozích vzorků a buzení u(k): s(k) N /=1 /) + Gu{k) kde G je koeficient zesílení a A/ řád modelu. Použití: ■ určování spektrálních charakteristik modelu hlasového ústrojí ■ z chyby predikce lze odvodit poznatky o znělosti a určit frekvenci základního hlasivkového tónu ■ koeficienty a,- nesou informaci o spektrálních vlastnostech lze je použít jako příznaky pro rozpoznávání řečiL 1 -00.0 Rozpoznávání reči Dialogové systémy Luděk Bártek Zpracování di- gitalizovaného signálu ■ Rozpoznávání plynulé řeči - převádí souvislou promluvu na Zpracování v časové oblasti psaný text. Zpracování ve frekvenční oblasti ■ Rozpoznávání izolovaných slov/příkazů. Rozpoznávání ■ Princip rozpoznávání: řeči Rozpoznávání Q získání vektoru příznaků pomocí metod krátkodobé ■ zolovaných slov analýzy signálu, B klasifikace na základě vektoru příznaku získaného v předchozím kroku. Rozpoznávaní izolovaných slov Zpracování digitalizovaného signálu Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání řeči Rozpoznávání ■ Slouží k rozpoznání povelů nebo slov (příkazů) zřetelně oddělených na začátku a konci mezerou. ■ Odpadá problém stanovení začátku a konce slova v souvislé promluvě. ■ Obvykle systémy závislé na uživateli: ■ nutnost natrénování ■ omezená kapacita slovníku. ■ Obtíže při rozpoznávání izolovaných slov: ■ Určení začátku a konce promluvy: ■ odlišení šumu od sykavek, ■ detekce nahodilého zvukového vzruchu (klepnutí, . . .) kontra okluzívy, které obsanují pauzy, ■ možná přítomnost infrazvuku.