Rozpoznávání řeči Úvod do počítačového zpracování řeči Luděk Bártek Fakulta informatiky Masarykova univerzita podzim 2019 Luděk Bártek Úvod do počítačového zpracování řeči Rozpoznávání řeči • Rozpoznávání izolovaných slov • Rozpoznávání plynulé promluvy Luděk Bártek Úvod do počítačového zpracování řeči Cíle rozpoznávání řeči: o Interpretace příkazů uživatele - hlasové ovládání různých zařízení. • telefon • navigace • ... • Převod mluveného slova na text - přepis mluveného slova o záznamy soudních přelíčení • přenos řeči při velmi nízké přenosové rychlosti • ... Druhy rozpoznávání řeči: • rozpoznávání izolovaných slov o rozpoznávání plynulé promluvy Luděk Bártek Úvod do počítačového zpracování řeči Rozpoznávání řeči Rozpoznávání izolovaných slov Obecný postup Postup při rozpoznávání řeči: O Získání posloupnosti vektorů příznaků. 9 vhodnou metodou zpracování signálu O Klasifikace posloupnosti příznaků. • DTW • HMM • DNN Luděk Bártek Úvod do počítačového zpracování řeči Rozpoznávání řeči Rozpoznávání izolovaných slov • Cíl - rozpoznání částí promluvy ohraničených z obou stran pauzou. • Uživatel může zadávat pouze jednotlivé povely nebo musí po vyřčení slova udělat pauzu. • Odpadá problém se stanovením rozhraní dvou slov/povelů. Povel může být víceslovný, ale pro tyto účely představuje jedno slovo. • Obvykle jde o systémy závislé na uživateli 9 nutnost tréninku. • Mívají omezenou kapacitu slovníku slovník - seznam rozpoznávaných slov. o Používají obvykle vektor příznaků. o Vektor hodnot získaných analýzou signálu (spektrum, kepstrum, LPA, energie, intenzita, autokorelace, ...) • Získán některou z metod krátkodobé analýzy. Luděk Bártek Úvod do počítačového zpracování řeči Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé promluvy Vel ktoi ry pr ízr ía ků a j i ■ lej icľ P1 orovnávání • Vektor příznaků • Vektorový prostor nad tělesem F je množina V společně s dvěma operacemi sčítání vektorů a násobení skalárem, které splňují následující axiomy: • (V, +) je komutativní grupa • Násobení skalárem (FxV V) je asociativní a(bv) = ab(v) • 1v=v, kde 1 je jednotkový prvek tělesa • a dále platí distributivní zákon: • a(v+w) = av + aw • (a+b)v = av +bv • Metrický prostor: Množina M se zobrazením d (metrikou), pro které platí: 9 d(x, y) > 0 • d(x. y) = 0 <^> x = y • cŕ(x, y) = d(y, x) • cŕ(x, z) < d(x, y) + d(y, z) • Příklad metriky je např. Euklidovská vzdálenost. Luděk Bártek Úvod do počítačového zpracování řeči Rozpoznávání řeči Rozpoznávání izolovaných slov a Klasifikátory využívající porovnání slov metodou DTW (Dynamic Time Warping) • umožňují porovnání podobnosti dvou dynamických jevů, které probíhají různými rychlostmi. a Klasifikátory založené na statistických metodách o modelování pomocí skrytých Markovových modelů. • Klasifikátory založené na umělých neuronových sítích • Deep Neural Networks - použito např. v rozpoznávací CMU Sphinx «... • Hierarchické klasifikátory • Pracují hierarchicky: Akustická analýza signálu. O Rozdělení signálu promluvy na segmenty. O Fonetické dekódování jednotlivých segmentů. 0 Rozpoznání slova (povelu) probíhá ve druhé vyšší úrovni na základě posloupnosti klasifikovaných segmentů. • Podobný princip se využívá pro rozpoznávání plynulé řeči. Luděk Bártek Úvod do počítačového zpracování řeči Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé promluvy Metoda DTW (Borcení čas ové osy) • Používá se pro porovnání dvou úseků promluv (slov). • Úseky jsou vyjádřeny posloupností vektorů příznaků • úsek promluvy rozdělen do mikrosegmentů • klasifikovány souborem krátkodobých charakteristik • Postup: O Pro rozpoznávané posloupnosti vytvoříme soubor referenčních posloupností akustických vektorů. Q Vytvoříme posloupnost akustických vektorů pro rozpoznávané slovo. O Metodou DTW porovnáme rozpoznávanou posloupnost s referenčními a vybereme tu, s největší shodou. Luděk Bártek Úvod do počítačového zpracování řeči Rozpoznávání řeči Rozpoznávání izolovaných slov Metoda DTW Pokračování • Algoritmus hledá parametrizaci f,g takovou, že i=f(k),j=g(k), k=1, K, minimalizuje výraz: K D(A,B) = Y/d(a(f(k)),b(g(k))) /C=1 o d je vzdálenost mezi akustickými vektory (např. Euklidovská metrika) • Euklidovská metrika /=i d {a, b) \ Luděk Bártek Úvod do počítačového zpracování řeči o Omezující podmínky: • f,g - neklesající funkce • omezení na lokální souvislost a strmost: • 0 < f(k) - f(k- 1) < /* o 0