Dialogové systémy Luděk Bártek Zpracování digitalizovaného signálu Dialogové systémy Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání řeči Rozpoznávání řeči Rozpoznávání izolovaných slov Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2016 Zpracování digitalizovaného signálu Úvod Dialogové systémy Luděk Bártek Zpracovaní v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Zvuk je neměnný pouze na krátkých časových úsecích -metody krátkodobé analýzy. Tento interval se nazývá mikrosegment - velikost 10 — 40 ms. Metody krátkodobé analýzy: ■ V časové oblasti - zpracovávají se přímo hodnoty jednotlivých vzorků. ■ Ve frekvenční oblasti - ze vzorků se získávají frekvenční charakteristiky, které jsou následně zpracovány. Modelování funkce Cortiho ústrojí - pomocí diferenciálních rovnic se simuluje rezonance na určitých vlákénkách Cortiho ústrojí. Zpracování digitalizovaného signálu Váhové okénko Dialogové systémy Luděk Bártek Zpracovaní v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Při krátkodobé analýze předpokládáme, že signál je v okolí mikrosegmentu periodický se stejnou periodou jako uvnitř. Vzniklá chyba se kompenzuje použitím „okénka". Okénko - posloupnost vah pro vzorky v mikrosegmentu. Tyto váhy by měly odpovídat tomu, jak je daný vzorek ovlivněn okolím mikrosegmentu. Nejčastěji používané typy okének: ■ pravoúhlé okénko ■ Hammingovo okénko Zpracování digitalizovaného signálu Hammingovo okénko Dialogové systémy Luděk Bártek Zpracování digitalizovaného signálu Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Vychází z předpokladu, že čím jsou vzorky blíže středu mikrosegmentu, tím méně jsou ovlivněny okolím. Pro výpočet vah se používá vzorec: w(n) — n = Q...N - 1 o,54- 0,46cos(^) n <0\/ n> N 0 Průběh vah okénka na mikrosegmentu : ► Zpracování digitalizovaného signálu Pravoúhlé okénko Dialogové systémy Luděk Bártek Zpracovaní v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Vychází se z předpokladu: Q vzorky mikrosegmentu nejsou pro naše potřeby ovlivněny okolím mikrosegmentu Q všechny vzorky mikrosegmentu jsou ovlivněny stejně. Všechny vzorky mikrosegmentu mají shodnou váhu. w(n) — 0 < n < N 1 n <0V n> N 0 Analýza digitalizovaného signálu v časové oblasti Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Vychází přímo z hodnot vzorků, nikoliv z hodnot spektra Používané metody: ■ funkce krátkodobé energie ■ funkce krátkodobé intenzity ■ funkce středního počtu průchodů nulou ■ diference 1. řádu ■ autokorelační funkce Analýza v časové oblasti Funkce krátkodobé energie Dialogové systémy Luděk Bártek ■ Využívá funkci průměrné energie v rámci segmentu: Zpracování digitalizovaného signálu Zpracování v časové oblasti oo E(n)= (s(k)u(n - k))2 k=—oo Zpracování ve frekvenční oblasti Rozpoznávání řeči Rozpoznávání izolovaných slov ■ s(/c) - vzorek v čase k ■ oj(n — k) - váha odpovídajícího okénka pro čas k ■ Výstupem je průměrná energie v daném okénku. ■ Druhá mocnina zvyšuje dynamiku zvukového signálu. ■ Použití: ■ automatické oddělení ticha řeči (signálu) ■ příznaky v jednoduchých klasifikátorech slov ■ oddělení znělých a neznělých částí promluvy Analýza v časové oblasti Funkce krátkodobé intenzity Dialogové systémy Luděk Bártek Funkce intenzity signálu v daném okénku oo Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov l(n)= Hk)Hn-k) k——oo m \s(k)\ - absolutní hodnota vzorku v čase k ■ oj(n — k) - váha odpovídajícího okénka pro čas k Použití - stejné jako funkce krátkodobé energie. Oproti krátkodobé energii nezvýrazňuje tolik dynamiku řečového signálu. Analýza v časové oblasti Krátkodobá funkce středního počtu průchodu nulou Dialogové systémy Luděk Bártek Počítá změny znaménka digitalizovaného signálu oo Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Z(n)= \sgn[s(k)] - sgn[s(k - l)]\cu(n - k) k=—oo Varianta - počet lokálních extrémů. Obě metody mohou být negativně zatíženy šumem zvukového pozadí. Použití: ■ detekce ticha ■ detekce začátku a konce i zašuměné promluvy ■ přibližné určení základního hlasivkového tónu a formantů ■ příznaky jednodušších klasifikátorů slov Analýza v časové oblasti Autokorelační funkce Dialogové systémy Luděk Bártek Zpracování digitalizovaného siřrná 1 n ■ Vrací podobnost úseků daného mikrosegmentu (čím větší výsledná hodnota, tím podobnější úseky posunuté o m vzorků). O 1 Cj 1 1 Cl 1 LI Zpracování v časové oblasti Zpracování ve frekvenční oblasti oo n) = ^ (s(k)uj(n - /c))(s(/c + m)u{n - k + m)) Rozpoznávání i k=—oo l Cl-1 Rozpoznávání izolovaných slov ■ Je-li signál periodický s periodou P, R(m,n) nabývá maxima pro m=0, P, 2P, . .. ■ Předpokládá délku mikrosegmentu aspoň 2P. ■ Použití: ■ Používá se k zjišťování periodicity signálu základního tónu reci. ■ Základ pro výpočet koeficientů LPA. Analýza signálu ve frekvenční oblasti Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Transformuje digitální řečový signál z časové oblasti do frekvenční oblasti. Využívá k tomu nejčastěji Fourierovu transformaci. Nejčastěji používané druhy analýzy ve frekvenční oblasti ■ krátkodobá Fourierova transformace ■ krátkodobá diskrétni Fourierova transformace ■ rychlá Fourierova transformace ■ kepstrální analýza ■ lineární predikce Analýza signálu ve frekvenční oblasti Krátkodobá Fourierova transformace Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Vychází z Fourierovy transformace: oo S(cj5ŕ)= ^2 s(k)h(t-k)e k=—oo — i oo k m Obyčejnou Fourierovu transformaci získame fixací času t. m \S(cj, t)\ - amplituda složky akustického spektra odpovídající frekvenci u v čase t. m h(n) - váhová funkce okénka. Předpokládá na vstupu periodickou funkci - zvuk je periodický na krátkých časových úsecích. Při jejím použití se předpokládá, že zpracovávaný mikrosegment se periodicky opakuje. Analýza signálu ve frekvenční oblasti Diskrétní Fourierova transformace Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Používá se pro vyjádření spektrálních vlastností periodických posloupností s periodou N vzorků resp konečných posloupností délky N vzorků. Výpočet koeficientů X(k) DFT: A/-1 A/-1 X(k) = ^2x{n)e-^kn = J2x(n)Wľ '—kn N n=0 n=0 ■ |X(/c)| - intenzita k. spektrálního koeficientu, frekvence závisí na velikosti mikrosegmentu N a vzorkovací frekvenci ■ x(n) - n. vzorek daného mikrosegmentu ■ Wn = e''^ = cos(2tt/N) + / • sin(27r/N). Výpočet n. vzorku na základě hodnot X(k) - IDFT: - A/-1 A/-1 /c=0 /c=0 >0 0,0 Analýza signálu ve frekvenční oblasti Rychlá diskrétní Fourierova transformace Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Výpočet spektrálních koeficientů pomocí DFT - n2 operací nad komplexními čísly. Pomocí FFT - N • log2^ operací násobení. FFT požaduje, aby délka analyzovaného segmentu byla mocninou 2. ■ využívá metodu rozděl a panuj pro optimalizovaný výpočet DFT ■ zvlášť se provádí výpočet lichých a sudých členů sumy ■ předchozí lze chápat jako transformaci dvou vektorů (xq,x2,...,x/v-2) a (xi,x3,..., x/v-i), lišících se pouze členem (e~'~^)k, a vlastní transformace se neliší. Analýza signálu ve frekvenční oblasti Kepstrální analýza Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Vychází z modelu činnosti hlasového ústroji. Řečové kmity lze modelovat jako odezvu lineárního systému na buzení sestávající ze sledu pulzů pro znělou řeč a šumu pro neznělou. Kepstrum - X(k) = IFFT(log\FFT(x(k))\) Kepstrální analýza umožňuje z řeči oddělit parametry buzení a parametry hlasového ústrojí. Využití: ■ ocenění fonetické struktury řeči - znělost, perioda základního tónu, formanty . . . ■ rozpoznávání slov ■ verifikace a identifikace mluvčího Analýza signálu ve frekvenční oblasti Lineárni prediktivní analýza Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Jedna z nejefektivnějších metod analýzy akustického signálu - zajišťuje velmi přesné odhady parametrů při relativně malé zátěži. Vychází z předpokladu, že s(/c) lze popsat jako lineární kombinaci N předchozích vzorků a buzení u(k)\ N s(k) =Y1 a-s(k - o + Gu(k) i=i kde G je koeficient zesílení a N rád modelu. Použití: ■ určování spektrálních charakteristik modelu hlasového ústrojí ■ z chyby predikce lze odvodit poznatky o znělosti a určit frekvenci základního hlasivkového tónu ■ koeficienty a; nesou informaci o spektrálních vlastnostech - lze je použít jako příznaky pro rozpoznávám řeči^ Rozpoznávaní řeči Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Rozpoznávání plynulé řeči - převádí souvislou promluvu na psaný text. Rozpoznávání izolovaných slov/příkazů. Princip rozpoznávání: získání vektoru příznaků pomocí metod krátkodobé analýzy signálu, klasifikace na základě vektoru příznaku získaného v předchozím kroku. Rozpoznávaní izolovaných slov Dialogové systémy Luděk Bártek Zpracování v časové oblasti Zpracování ve frekvenční oblasti Rozpoznávání Rozpoznávání izolovaných slov Slouží k rozpoznaní povelů nebo slov (příkazů) zřetelně oddělených na začátku a konci mezerou. Odpadá problém stanovení začátku a konce slova v souvislé promluvě. Obvykle systémy závislé na uživateli: ■ nutnost natrénování ■ omezená kapacita slovníku. Obtíže při rozpoznávání izolovaných slov: ■ Určení začátku a konce promluvy: ■ odlišení šumu od sykavek, ■ detekce nahodilého zvukového vzruchu (klepnutí, .. .) kontra okluzívy, které obsahují pauzy, ■ možná přítomnost infrazvuku. < n ► < 3 ► <■€.*■ < E ► -E O Q, O