Rozpoznávání řeči Úvod do počítačového zpracování řeči Luděk Bártek Fakulta informatiky Masarykova univerzita podzim 2020 Luděk Bártek Úvod do počítačového zpracování řeči Rozpoznávání řeči • Rozpoznávání izolovaných slov • Rozpoznávání plynulé promluvy Luděk Bártek Úvod do počítačového zpracování řeči o Cíle rozpoznávání řeči: « Interpretace příkazů uživatele - hlasové ovládání různých zařízení. • telefon • navigace 9 ... • Převod mluveného slova na text - přepis mluveného slova 9 záznamy soudních přelíčení • přenos řeči při velmi nízké přenosové rychlosti • ... • Druhy rozpoznávání řeči: 9 rozpoznávání izolovaných slov o rozpoznávání plynulé promluvy. Luděk Bártek Úvod do počítačového zpracování řeči ..... Rozpoznávam izolovaných slov Rozpoznávam reci Rozpoznávam plynule promluvy Obecný postup • Postup při rozpoznávání řeči: O Získání posloupnosti vektorů příznaků. • vhodnou metodou zpracování signálu O Klasifikace posloupnosti příznaků. • DTW • HMM • DNN «... Luděk Bártek Úvod do počítačového zpracování řeči Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé promluvy slov • Cíl - rozpoznání částí promluvy ohraničených z obou stran pauzou. • Uživatel může zadávat pouze jednotlivé povely nebo musí po vyřčení slova udělat pauzu. • Odpadá problém se stanovením rozhraní dvou slov/povelů. Povel může být víceslovný, ale pro tyto účely představuje jedno slovo. • Obvykle jde o systémy závislé na uživateli • nutnost tréninku. • Mívají omezenou kapacitu slovníku slovník - seznam rozpoznávaných slov. o Používají obvykle vektor příznaků. o Vektor hodnot získaných analýzou signálu (spektrum, kepstrum, LPA, energie, intenzita, autokorelace, ...) • Získán některou z metod krátkodobé analýzy. Luděk Bártek Úvod do počítačového zpracování řeči Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé promluvy Vel ktoi ry pr ízr ía ků a j i ■ lej icľ P1 orovnávání • Vektor příznaků • Vektorový prostor nad tělesem F je množina V společně s dvěma operacemi sčítání vektorů a násobení skalárem, které splňují následující axiomy: • (V, +) je komutativní grupa • Násobení skalárem (FxV V) je asociativní a(bv) = ab(v) • 1v=v, kde 1 je jednotkový prvek tělesa • a dále platí distributivní zákon: • a(v+w) = av + aw * (a+b)v = av +bv • Metrický prostor: Množina M se zobrazením d (metrikou), pro které platí: • d(x, y) > 0 • d(x. y) = 0 <^> x = y • cŕ(x, y) = d(y, x) • d(x, z) < d(x, y) + cř(y, z) • Příklad metriky je např. Euklidovská vzdálenost. Luděk Bártek Úvod do počítačového zpracování řeči 9 Klasifikátory využívající porovnání slov metodou DTW (Dynamic Time Warping) • umožňují porovnání podobnosti dvou dynamických jevů, které probíhají různými rychlostmi. o Klasifikátory založené na statistických metodách o modelování pomocí skrytých Markovových modelů. • Klasifikátory založené na umělých neuronových sítích • Deep Neural Networks - použito např. v rozpoznávací CMU Sphinx «... • Hierarchické klasifikátory • Pracují hierarchicky: Akustická analýza signálu. O Rozdělení signálu promluvy na segmenty. O Fonetické dekódování jednotlivých segmentů. O Rozpoznání slova (povelu) probíhá ve druhé vyšší úrovni na základě posloupnosti klasifikovaných segmentů. • Podobný princip se využívá pro rozpoznávání plynulé řeči. Luděk Bártek Úvod do počítačového zpracování řeči Rozpoznávání řeči Rozpoznávání izolovaných slov Rozpoznávání plynulé promluvy Metoda DTW (Borcení čas ové osy) • Používá se pro porovnání dvou úseků promluv (slov). • Úseky jsou vyjádřeny posloupností vektorů příznaků • úsek promluvy rozdělen do mikrosegmentů • klasifikovány souborem krátkodobých charakteristik • Postup: O Pro rozpoznávané posloupnosti vytvoříme soubor referenčních posloupností akustických vektorů. Q Vytvoříme posloupnost akustických vektorů pro rozpoznávané slovo. O Metodou DTW porovnáme rozpoznávanou posloupnost s referenčními a vybereme tu, s největší shodou. Luděk Bártek Úvod do počítačového zpracování řeči ..... Rozpoznávam izolovaných slov Rozpoznávam reci Rozpoznávam plynule promluvy Metoda DTW Pokračování Algoritmus hledá parametrizaci f,g takovou, že i=f(k) j=g(k) k=1, K, minimalizuje výraz: K D(A,B) = Y/d(a(f(k)),b(g(k))) /C=1 • d je vzdálenost mezi akustickými vektory (např. Euklidovská metrika) • Euklidovská metrika n d {a, b) \ /=1 Luděk Bártek Úvod do počítačového zpracování řeči Omezující podmínky: • f,g - neklesající funkce • omezení na lokální souvislost a strmost: • 0 < f(k) - f(k- 1) < /* o 0