Rozpoznávaní řeči U vod do počítačového zpracování řeči Luděk Bártek Fakulta informatiky Masarykova univerzita podzim 2013 Luděk Bártek Uvod do počítačového zpracování řeči Obsah Rozpoznávání řeči Rozpoznávání řeči • Rozpoznávání izolovaných slov • Rozpoznávání plynulé promluvy Luděk Bártek Uvod do počítačového zpracování řeči Rozpoznávání řeči izolovaných slov plynulé promluvy Cíle rozpoznávání řeči • Cíle rozpoznávání řeči: • Interpretace příkazů uživatele - hlasové ovládání různých zařízení. • telefon • navigace » ... • Převod mluveného slova na text - přepis mluveného slova • záznamy soudních přelíčení • ... • Druhy rozpoznávání řeči: • rozpoznávání izolovaných slov • rozpoznávání plynulé promluvy. Luděk Bártek Uvod do počítačového zpracování řeči • Cíl - rozpoznání částí promluvy ohraničených z obou stran pauzou. • Uživatel může zadávat pouze jednotlivé povely nebo musí po vyřčení slova udělat pauzu. • Odpadá problém se stanovením rozhraní dvou slov/povelů. • Povel může být víceslovný, ale pro tyto účely představuje jedno slovo. • Obvykle jde o systémy závislé na uživateli • nutnost tréninku. • Mívají omezenou kapacitu slovníku • slovník - seznam rozpoznávaných slov. • Používají obvykle vektor příznaků. • Vektor hodnot získaných analýzou signálu (spektrum, kepstrum, energie, intenzity, ...). • Získán některou z metod krátkodobé analýzy. Luděk Bártek Uvod do počítačového zpracování řeči ✓ání izolovaných slov /ání plynulé promluvy Vektory příznaků a jejich porovnávání • Vektor příznaků • Vektorový prostor nad tělesem F je množina V společně s dvěma operacemi sčítání vektorů a násobení skalárem, které splňují následující axiomy: • (V, +) je komutativní grupa • Násobení skalárem (FxV —>• V) je asociativní a(bv) — ab(v) • lv=v, kde 1 je jednotkový prvek tělesa » a dále platí distributivní zákon: • a(v+w) = av + aw • (a+b)v = av +bv • Metrický prostor: Množina M se zobrazením d (metrikou), pro které platí: • d(x,y) > 0 • d(x, y) — 0 <ř=> x — y • d{x,y) = d(y,x) • d{x,z) < d{x,y) + d{y,z) • Příklad metriky je např. Euklidovská vzdálenost. Klasifikátory Rozpoznávání izolovaných slov Rozpoznávání plynulé promluvy • Klasifikátory využívající porovnání slov metodou DTW (Dynamic Time Warping) • umožňují porovnání podobnosti dvou dynamických jevů, které probíhají různými rychlostmi. • Klasifikátory založené na statistických metodách • modelování pomocí skrytých Markovových modelů. • Hierarchické klasifikátory • Pracují hierarchicky: O Akustická analýza signálu. Q Rozdělení signálu promluvy na segmenty. Q Fonetické dekódování jednotlivých segmentů. 0 Rozpoznání slova (povelu) probíhá ve druhé vyšší úrovni na základě posloupnosti klasifikovaných segmentů. • Podobný princip se využívá pro rozpoznávání plynulé řeči. Luděk Bártek Uvod do počítačového zpracování řeči Rozpoznávaní izolovaných slov Rozpoznávaní plynulé promluvy Metoda DTW (Borcení časové osy) • Používá se pro porovnaní dvou úseků promluv (slov). • Úseky jsou vyjádřeny posloupností vektorů příznaků • úsek promluvy rozdělen do mikrosegmentů • klasifikovány souborem krátkodobých charakteristik • Postup: O Pro rozpoznávané posloupnosti vytvoříme soubor referenčních posloupností akustických vektorů. Q Vytvoříme posloupnost akustických vektorů pro rozpoznávané slovo. O Metodou DTW porovnáme rozpoznávanou posloupnost s referenčními a vybereme tu, s nej větší shodou. Luděk Bártek Uvod do počítačového zpracování řeči Rozpoznávání ŕ soznávání izolovaných slov )oznávání plynulé promluvy Metoda DTW Pokračování • Algoritmus hledá parametrizaci f,g takovou, že i=f(k),j=g(k), k=l, K, minimalizuje výraz: K D(A,B) = ^d(a(f(k)),b(g(k))) k=l • d je vzdálenost mezi akustickými vektory (např. Euklidovská metrika) • Euklidovská metrika n £>,-M2) d(a, b) \ Luděk Bártek Uvod do počítačového zpracování řeči Rozpoznávaní izolovaných slov Rozpoznávání plynulé promluvy Metoda DTW (2.) • Omezující podmínky: • f,g - neklesající funkce • omezení na lokální souvislost a strmost: • 0 < f(k) - f(k-l) < I* o 0 < g(k) - g(k - 1) < r • většinou platí /*,_/* = 1, 2, 3 • Z praktických testů vyplynulo, že při příliš strmém přírůstku může dojít např. k nevhodné korespondenci mezi příliš krátkým segmentem vzorku A a příliš dlouhým segmentem vzorku B. • Omezení na hraniční body: • f(l) = l,f(K) = l • g(l) = l,g(K) = J Luděk Bártek Uvod do počítačového zpracování řeči Rozpoznávaní izolovaných slov Rozpoznávaní plynulé promluvy Metoda DTW (3.) • Omezující podmínky • Globální vymezení oblasti pohybu funkce DTW: • Omezení minimální a maximální přípustné směrnice přímky omezující přípustnou oblast, při splnění podmínky na hraniční body i+ «[/(/<)-i] <;(/<)