Rozpoznávání řeči SIN04: Řečová interakce a sociální sítě Luděk Bártek Fakulta informatiky Masarykova univerzita podzim 2017 Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání řeči Rozpoznávání řeči Rozpoznávání izolovaných slov • DTW Skryté Markovovské řetězce (HMM) • Rozpoznávání plynulé řeči Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Uvod • Ukol rozpoznávání řeči - převod mluvené řečí na text/příkazy/řídící povely. • Typy rozpoznávání řeči: • rozpoznávání izolovaných slov (příkazů) - rozpoznává ohraničené promluvy • rozpoznávání plynulé řeči. • Princip rozpoznávání řeči: O Získání vektoru příznaků pomocí metod krátkodobé analýzy signálu. O Klasifikace na základě takto získaného vektoru příznaků. Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Rozpoznávání izolovaných slov • Slouží k rozpoznání povelů a slov zřetelně oddělených na začátku a konci mezerou - odpadá problém s detekcí začátku a konce slova v souvislé promluvě. • Obvykle závislé na uživateli: 9 nutnost natrénování - namluvení databáze rozpoznávaných příkazů uživatelem, pro jiné uživatele může dojít k významnému snížení úspěšnosti rozpoznávání o omezená kapacita slovníku - pro každé rozpoznávané slovo musí mít uložen natrénovaný vzor Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání izolovaných slov D...... DTW Rozpoznáván, rec, $kryté MarkovQvské řetězce (HMM) Rozpoznávání plynulé řeči Problémy při rozpoznávání izolovaných slov • Detekce začátku a konce promluvy: • odlišení šumu a sykavek • odlišení nahodilého zvukového vzruchu (klepnuti, ...) od okluzív (plozív), které obsahují pauzy (okluzíva - souhláska vznikající tím, že vydechovanému/vdechovanému vzduchuje dána do cesty překážka, která je prudce odstraněna; patří sem např. p, b, t, d, c, k, g, ...) • přítomnost ultrazvuků Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání izolovaných slov D...... DTW Rozpoznáván, rec, $kryté MarkovQvské řetězce (HMM) Rozpoznávání plynulé řeči Klasifikátory pro rozpoznávání izolovaných slov • Využívající porovnání slov metodou DTW. • Ve slovníku se snaží nalézt slovo, které je co nejpodobnější hledanému slovu. o Založené na statistických metodách. • Např. skryté Markovovské modely. • modelování tvorby řeči o Založené na umělých neuronových sítích <* Klasifikátory pracující na dvou úrovních: O Segmentace a fonetické dekódování jednotlivých segmentů. O Rozpoznání slova na základě dekódovaných segmentů. Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči DTW • Metoda borcení časové osy. • Používá se pro porovnání dvou číselných řad - dvou úseků promluv (dvou slov). • Vstup: • posloupnost akustických vektorů získaných pomocí metod krátkodobé analýzy signálu • databáze akustických vektorů rozpoznávaných slov. • Výstup - rozpoznané slovo resp. povel. Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Základní postup • Vytvoříme databázi rozpoznávaných slov (referenční posloupnosti akustických vektorů). o Obvykle několik posloupností pro každé slovo, které odpovídají několika způsobům vyslovení příkazu. • Rozpoznávané slovo převedeme na odpovídající posloupnost akustických vektorů. • Metodou DTW nalezneme referenční posloupnost akustických vektorů s maximální shodou: • Máme posloupnosti {an} a {bn}. • Snažíme se najít posloupnosti indexů / a j takových, že minimalizují vzdálenost posloupností a a b. • Jsou kladena jistá omezení na to, jak mohou tyto posloupnosti vypadat. Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání izolovaných slov D...... DTW Rozpoznávaní reci , .. . /ihv/ih/in ^ Skryte Markovovske řetězce (HMM) Rozpoznávání plynulé řeči Blokové schéma Uživatel £ Vytvoření referenčních obrazů slov a jejich uložení ve slovníku Vytvoření obrazu testovaného slova Porovnání obrazů Algoritmem DTW * Rozpoznání neznámého slova Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Trénování O Řečník nebo skupina řečníků vysloví postupně každé trénované slovo požadovaného slovníku, bud jednou nebo opakovaně. O Vstupní slova jsou zdigitalizována a následně převedena zvolenou metodou krátkodobé analýzy na posloupnost vektorů příznaků O Detekce hranic slov: Může být náročné na provedení, kvůli rušivým vlivům na pozadí. • Nekorektní detekce hranic slov zhoršuje úspěšnost rozpoznávání. • Metody odstraňující vliv akustického pozadí zvyšují výpočetní náročnost. O Vytvoření referenčních obrazů slov. Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči ch obrazů slov Přímé použití obrazů trénovací množiny jako referenčních obrazů slov DTW nevyžaduje, aby obrazy téhož slova byly stejně dlouhé, ale z důvodu možnosti aplikace pomocných kritérií, je vhodné provést časovou normalizaci každého obrazu. • Vytvoření průměrného vzorového obrazu pro každou třídu slov. • Vytváření vzorových obrazů shlukováním. o Vzorové obrazy pro dané slovo se rozdělí do shluků tak, že obrazy uvnitř shluku jsou si ,,podobné" a obrazy z různých shluků jsou ,,nepodobné". Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání izolovaných slov D...... DTW Rozpoznáván, rec, $kryté MarkovQvské řetězce (HMM) Rozpoznávání plynulé řeči Nevýhody DTW a způsoby jejich odstraňování • Vysoké paměťové a výpočetní nároky mohou znesnadňovat klasifikaci v reálném čase i při relativně malém slovníku. o Metody řešení: • Hrubá síla - využití paralelních procesů a nebo pomocí zákaznických obvodů (může být drahé). • Vhodné zakódování parametrů jednotlivých mikrosegmentů referenční i testovacích obrazů (vektorová kvantizace - ukládá se do kódové knihy a pracuje se s indexy v kódové knize), • Využití oblastí spektrální stacionarity - metoda segmentace spektrální stopy. • Zavedení účinných způsobů vyhledávání nejbližšího souseda (metody prohledávání metrických prostorů). • Pomocí heuristik. Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči HMM 9 Modelování řeči pomocí HMM vychází z následující představy o tvorbě řeči: • hlasové ústrojí se v krátkém časovém okamžiku nachází v jedné z konečně mnoha artikuláčních konfigurací - generuje řečový signál. • Přejde do následující artikulační konfigurace. • Tuto činnost lze modelovat statisticky - pravděpodobnost přechodu do následující konfigurace. • Kvantizací akustických vektorů lze dosáhnout konečnosti všech parametrů modelu. • Počet různých vzorků je konečný - uloží se do kódové knihy a místo hodnoty vzorku se pracuje s jejich indexy v kódové knize. Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání izolovaných slov D...... DTW Rozpoznáván, rec, $kryté MarkovQvské řetězce (HMM) Rozpoznávání plynulé řeči Principy použití pro rozpoznávání • Jsou generovány dvě vzájemně svázané časové posloupnosti náhodných proměnných: • podpůrný Markovův řetězec - posloupnost konečného počtu stavů • řetězec konečného počtu spektrálních vzorů. • Náhodná funkce ohodnocující pravděpodobnostmi vztah vzorů k jednotlivým stavům. 9 Pro rozpoznávání řeči jsou nejčastější levo-pravé Markovovy modely: • vhodné pro modelování procesů spjatých se vzrůstajícím časem. Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Markovův proces Markovův proces G se skrytým Markovovým modelem je pětice G = (Q, y, A/,M,7r). 9 Q = <7i5 •••<> Q/c ~ množina stavů • V = vi,v/c - množina výstupních symbolů 9 N = (rijj) - matice přechodu. Určuje pravděpodobnost přechodu ze stavu g; v čase t\ do stavu q/ v čase Í2- • M = (rrijj) - matice přechodu, která určuje pravděpodobnost generování akustického vektoru vj, v kterémkoliv čase ve stavu • 7ľ = (7ľ/) - vektor pravděpodobností počátečního stavu (pravděpodobnost toho, že stav / je počáteční). Trojice A = (A/, M,7ľ) - vytváří model řečového segmentu (např. Vintsjukův model pro slovo - počet stavů 40 — 50 -odvozeno od průměrného počtu mikrosegmentů ve slově). Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči mluvy o Značení P(0|A). • Promluva O standardně zpracována do posloupnosti O = (Oi, Oj). • T - počet mikrosegmentů promluvy 9 o; - odpovídají výstupním symbolům. • Určení P(0|A) - metoda využívající rekurzivní výpočet odpředu nebo odzadu generované posloupnosti. • nevýhoda předchozího postupu - ve výsledném vztahu jsou zahrnuty pravděpodobnosti všech možných posloupností stavů délky T. řešení - výpočet maximálně pravděpodobné posloupnosti stavů Q. • výpočet bývá realizován pomocí Viterbiova algoritmu. Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání izolovaných slov D...... DTW Rozpoznáván, rec, $kryté MarkovQvské řetězce (HMM) Rozpoznávání plynulé řeči Trénování a rozpoznávání pomocí HMM • Trénování parametrů modelu A = (A/, M,7r): • Cíl trénování - maximalizace pravděpodobnosti P(0|A). • Problém - neexistuje analytická metoda ke zjištění globálního maxima funkce n proměnných. • Řešení - lze použít iterativní algoritmy zjišťující aspoň lokální maximalitu. • Nejpoužívanější postup - Bauman-Welchův algoritmus. • Další problémy při trénování modelu: • vliv konečné trénovací množiny - čím menší trénovací množina a čím větší matice M, tím větší pravděpodobnost, že některé prvky zůstanou nastaveny na 0. 9 Rozhodovací pravidlo - při rozpoznávání izolovaného slova: • Princip maximální věrohodnosti: O Pro slovo O a všechny modely A spočítáme P(0\X). O Jako výsledek vybereme třídu s maximální hodnotou P(0\X). Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání izolovaných slov D...... DTW Rozpoznáván, rec, $kryté MarkovQvské řetězce (HMM) Rozpoznávání plynulé řeči Implementace HMM 9 Modelování povelů: • nejčastěji se používají modely se 4 — 7 stavy • pro modelování lze použít nástroje na tvorbu HMM (např. HTK - Hiddem Markov Model Toolkit) • Modelování fonémů: • obvykle model se 4 — 7 stavy o model slova - zřetězení modelů fonémů o problémy s výpočtem v reálném čase - lze řešit použitím speciálních algoritmů pro určení maxima P(0\X). Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání izolovaných slov Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči pro tonemy Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání řeči Další techniky rozpoznávání Rozpoznávání izolovaných slov DTW o Různé varianty neuronových sítí: • Deep Neural Networks • Recurent Neural Networks • . .. • Mix uvedených technik: • Deep Neural Network HMM Hybrid Systems • ... Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání izolovaných slov D...... DTW Rozpoznáván, rec, $kryté MarkovQvské řetězce (HMM) Rozpoznávání plynulé řeči Hlavní rozdíly oproti rozpoznávání izolovaných slov: • nelze vytvořit databázi vzorů • nutno brát zřetel na prozodické faktory • nutno určovat hranice mezi slovy 9 nutno vypořádat se s výplňkovými zvuky a chybami řeči. • Řešení - statistický přístup: • jazykový model - popis promluv daného jazyka včetně jejich četností. • model uživatele - popis stylu vyjadřování daného uživatele. • Příklad: HMM vrátí stejnou pravděpodobnost pro slova máma a nána • nejspíše se použije máma - je častější. Luděk Bártek SIN04: Řečová interakce a sociální sítě Rozpoznávání izolovaných slov D...... DTW Rozpoznáván, rec, $kryté MarkovQvské řetězce (HMM) Rozpoznávání plynulé řeči Rozpoznávání plynulé promluvy Dokončení • Problém - úspěšnost obecného rozpoznávání může klesnout až k cca 50 9 Metody pro zvýšení úspěšnosti: o omezení problémové domény - specifikováním rozpoznávaných promluv. • např. pomocí gramatiky pro rozpoznávání řeči (JSGF, SRGS, ...) - více u dialogových systémů. • redukcí problémové oblasti Luděk Bártek SIN04: Řečová interakce a sociální sítě