Dialogové systémy
Rozpoznávání řeči
Luděk Bártek
Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity,
Brno
jaro 2015
	Zpra Úvod	cování digitalizovaného signálu
Dialogové		
systémy		
Luděk Bártek	■	Zvuk je neměnný pouze na krátkých časových úsecích -
Zpracování		metody krátkodobé analýzy.
digitalizo-		
vaného signálu	■	Tento interval se nazývá mikrosegment - velikost   10 —
Zpracování v časové oblasti		40 ms.
Zpracování ve frekvenční oblasti	■	Metody krátkodobé analýzy:
Rozpoznávání		■ V časové oblasti - zpracovávají se přímo hodnoty
řeči		jednotlivých vzorků.
Rozpoznávání		■ Ve frekvenční oblasti - ze vzorků se získávají frekvenční
		charakteristiky, které jsou následně zpracovány.
	■	Modelování funkce Cortiho ústrojí - pomocí diferenciálních
		rovnic se simuluje rezonance na určitých vlákénkách
		Cortiho ústrojí.
		
Zpracování digitalizovaného signálu
Váhové okénko
Dialogové systémy
Při krátkodobé analýze předpokládáme, že signál je v okolí mikrosegmentu periodický se stejnou periodou jako uvnitř.
Vzniklá chyba se kompenzuje použitím „okénka".
Okénko - posloupnost vah pro vzorky v mikrosegmentu.
Tyto váhy by měly odpovídat tomu, jak je daný vzorek ovlivněn okolím mikrosegmentu. Nejčastěji používané typy okének:
■ pravoúhlé okénko
■ Hammingovo okénko
Zpracování digitalizovaného signálu
Hammingovo okénko
Zpracování digitalizovaného signálu
Zpracování v časové oblasti Zpracování ve frekvenční oblasti
Rozpoznávání řeči
Rozpoznávání
Vychází z předpokladu, že čím jsou vzorky blíže středu mikrosegmentu, tím méně jsou ovlivněny okolím.
■ Pro výpočet vah se používá vzorec:
, ,     Ín = 0.../V-1   0.54 - 0A6cos(j£") w(n) = < { >-)
[n<0Vn>« 0
■ Průběh vah okénka na mikrosegmentu:
1 -00.0
	Zpracování digitalizovaného signálu
	Pravoúhlé okénko
Dialogové systémy	
Luděk Bártek	
Zpracování digitalizo-	■ Vychází se z předpokladu:
vaného signálu	Q vzorky mikrosegmentu nejsou pro naše potřeby ovlivněny
Zpracování v časové oblasti	okolím mikrosegmentu
Zpracování ve frekvenční	B všechny vzorky mikrosegmentu jsou ovlivněny stejně.
Rozpoznávání řeči	■ Všechny vzorky mikrosegmentu mají shodnou váhu.
Rozpoznávání	, .     ÍO < n < N 1 w(n) = < |/)<0Vn>« 0 <!►    1 -o^O
Analýza digitalizovaného signálu v časové oblasti
Dialogové systémy
Luděk Bártek
Vychází přímo z hodnot vzorku, nikoliv z hodnot spektra. Používané metody:
■ funkce krátkodobé energie
■ funkce krátkodobé intenzity
■ funkce středního počtu průchodů nulou
■ diference 1. řádu
■ autokorelační funkce
	Analýza v časové oblasti Funkce krátkodobé energie	
Dialogové systémy Luděk Bártek	■ Využívá funkci průměrné energie v rámci segmentu:	
Zpracování digitalizovaného signálu Zpracování v	oo E(n)=  £ (s(kMn-k))2 k——oo	
časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání řeči Rozpoznávání	■ s(k) - vzorek v čase k ■ Lú(n — k) — váha odpovídajícího okénka pro čas k ■ Výstupem je průměrná energie v daném okénku. ■ Druhá mocnina zvyšuje dynamiku zvukového signálu. ■ Použití: ■ automatické oddělení ticha řeči (signálu) ■ příznaky v jednoduchých klasifikátorech slov ■ oddělení znělých a neznělých částí promluvy.	
		■00.0
	Analýza v časové oblasti
	Funkce krátkodobé intenzity
Dialogové systémy	
Luděk Bártek	
Zpracování	■ Funkce intenzity signálu v daném okénku.
digitalizovaného	oo
signálu Zpracování v časové oblasti	/(n)=  £ \s(k)Hn-k)
Zpracování ve frekvenční oblasti	k——oo
Rozpoznávání řeči	■ \s(k)\ - absolutní hodnota vzorku v čase k
Rozpoznávání	■ Lú(n — k) — váha odpovídajícího okénka pro čas k ■ Použití - stejné jako funkce krátkodobé energie. ■ Oproti krátkodobé energii nezvýrazňuje tolik dynamiku řečového signálu.
Analýza v časové oblasti
Krátkodobá funkce středního počtu průchodu nulou
Dialogové systémy
Počítá změny znaménka digitalizovaného signálu.
oo
Z(n)=  £ \sgn[s{k)] - sgn[s{k - l)]\u{n - k)
k——oo
Varianta - počet lokálních extrémů.
Obě metody mohou být negativně zatíženy šumem
zvukového pozadí.
Použití:
■ detekce ticha
■ detekce začátku a konce i zašuměné promluvy
■ přibližné určení základního hlasivkového tónu a formantů
■ příznaky jednodušších klasifikátorů slov
	Ana	lýza v časové oblasti
	Autokorelační funkce	
Dialogové		
systémy 1 iirlaL' Rríi-foL'	■	Vrací podobnost úseků daného mikrosegmentu (čím větší
LUUcK DditcK		výsledná hodnota, tím podobnější úseky posunuté o m
Zpracování digitalizo-		vzorků).
vaného signálu		
Zpracování v časové oblasti Zpracování ve frekvenční		R(m,n)=        {s{k)Lú(n - k))(s(k + m)Lú(n - k + m))
Rozpoznávání		
řeči Rozpoznávání	■	Je-li signál periodický s periodou P, R(m,n) nabývá
		maxima pro m=0, P, 2P, ...
	■	Předpokládá délku mikrosegmentu aspoň 2P.
	■	Použití: ■ Používá se k zjišťování periodicity signálu základního tónu řeči. ■ Základ pro výpočet koeficientů LPA.
Analýza signálu ve frekvenční oblasti
Dialogové systémy
Transformuje digitální řečový signál z časové oblasti do frekvenční oblasti.
Využívá k tomu nejčastěji Fourierovu transformaci. Nejčastěji používané druhy analýzy ve frekvenční oblasti:
■ krátkodobá Fourierova transformace
■ krátkodobá diskrétni Fourierova transformace
■ rychlá Fourierova transformace
■ kepstrální analýza
■ lineární predikce
Analýza signálu ve frekvenční oblasti
Krátkodobá Fourierova transformace
Dialogové systémy
Vychází z Fourierovy transformace:
oo
S{u, t) =        s(k)h(t - k)e
iu)k
k=-c
■ Obyčejnou Fourierovu transformaci získáme fixací času ř.
■ \S(lj, t)\ - amplituda složky akustického spektra odpovídající frekvenci uj v čase ř.
■ h(n) - váhová funkce okénka.
Předpokládá na vstupu periodickou funkci - zvuk je periodický na krátkých časových úsecích.
Při jejím použití se předpokládá, že zpracovávaný mikrosegment se periodicky opakuje.
	Analýza signálu ve frekvenční oblasti
	Diskrétní Fourierova transformace
Dialogové systémy	■ Používá se pro vyjádření spektrálních vlastností
Luděk Bártek	periodických posloupností s periodou N vzorků resp.
~z- pracová n í	konečných posloupností délky N vzorků.
digitalizovaného	■ Výpočet koeficientů X(k) DFT:
signálu	N-l N-l
Zpracováni v časové oblasti Zpracování ve	X(k) = 5>(n)e-'^" = 5>(n)lrV
oblasti	
Rozpoznávání	
řeči	■           - intenzita k. spektrálního koeficientu, frekvence
Rozpoznávání izolovaných slov	závisí na velikosti mikrosegmentu N a vzorkovací frekvenci. ■ x(n) - n. vzorek daného mikrosegmentu Wn = e'Tŕ = cos{2tt/N) + j ■ s/n(27r//V). m Výpočet n. vzorku na základě hodnot X(k) - IDFT: 1  N-l                          1 N-l k=0 k=0 <!►    1 -o^O
Analýza signálu ve frekvenční oblasti
Rychlá diskrétní Fourierova transformace
Dialogové systémy
Výpočet spektrálních koeficientů pomocí DFT - n operací nad komplexními čísly.
Pomocí FFT - N ■ log2^ operací násobení.
FFT požaduje, aby délka analyzovaného segmentu byla mocninou 2.
	Ana Kepstr	lýza signálu ve frekvenční oblasti "ální analýza
Dialogové		
systémy		
Luděk Bártek	■	Vychází z modelu činnosti hlasového ústrojí.
Zpracování	■	Řečové kmity lze modelovat jako odezvu lineárního
digitalizovaného		systému na buzení sestávající ze sledu pulzů pro znělou řeč
signálu Zpracování v		a šumu pro neznělou.
časové oblasti Zpracování ve frekvenční	■	Kepstrum - X(k) = IFFT(FFT(x(k)))
oblasti Rozpoznávání	■	Kepstrální analýza umožňuje z řeči oddělit parametry
řeči Rozpoznávání		buzení a parametry hlasového ústrojí.
izolovaných slov	■	Využití:
		■ ocenění fonetické struktury řeči - znělost, perioda
		základního tónu, formanty, . ..
		■ rozpoznávání slov
		■ verifikace a identifikace mluvčího ■ .. .
		
Analýza signálu ve frekvenční oblasti
Lineárni prediktivní analýza
Jedna z nejefektivnějších metod analýzy akustického signálu - zajišťuje velmi přesné odhady parametru při relativně malé zátěži.
Vychází z předpokladu, že s(/c) lze popsat jako lineární kombinaci N předchozích vzorků a buzení u(k):
s(k)
N
/=1
/) + Gu{k)
kde G je koeficient zesílení a A/ řád modelu. Použití:
■ určování spektrálních charakteristik modelu hlasového ústrojí
■ z chyby predikce lze odvodit poznatky o znělosti a určit frekvenci základního hlasivkového tónu
■ koeficienty a,- nesou informaci o spektrálních vlastnostech
lze je použít jako příznaky pro rozpoznávání řečiL
1 -00.0
Rozpoznávaní řeči
Dialogové systémy
Luděk Bártek
Rozpoznávání plynulé řeči - převádí souvislou promluvu na psaný text.
Rozpoznávání izolovaných slov/příkazů. Princip rozpoznávání: Q získání vektoru příznaků pomocí metod krátkodobé
analýzy signálu, B klasifikace na základě vektoru příznaku získaného v předchozím kroku.
Rozpoznávaní izolovaných slov
Dialogové systémy
Slouží k rozpoznaní povelu nebo slov (príkazu) zřetelně oddělených na začátku a konci mezerou.
Odpadá problém stanovení začátku a konce slova v souvislé promluvě.
Obvykle systémy závislé na uživateli:
■ nutnost natrénování
■ omezená kapacita slovníku.
Obtíže při rozpoznávání izolovaných slov:
■ Určení začátku a konce promluvy:
■ odlišení šumu od sykavek,
■ detekce nahodilého zvukového vzruchu (klepnutí, . . .) kontra okluzívy, které obsanují pauzy,
■ možná přítomnost infrazvuku.