Rozpoznávaní řeči Rozpoznávaní izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé reči SIN04: Řečová interakce a sociální sítě Luděk Bártek Fakulta informatiky Masarykova univerzita podzim 2013 Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávaní izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé reči Q Rozpoznávaní řeči Q Rozpoznávaní izolovaných slov 0 DTW 0 Skryté Markovovské řetězce (HMM) 0 Rozpoznávání plynulé řeči Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávaní izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé reči Úvod • Úkol rozpoznávaní řeči - převod mluvené řečí na text/příkazy/řídící povely. • Typy rozpoznávání řeči: • rozpoznávání izolovaných slov (příkazů) - rozpoznává ohraničené promluvy • rozpoznávání plynulé řeči. • Princip rozpoznávání řeči: O Získání vektoru příznaků pomocí metod krátkodobé analýzy signálu. O Klasifikace na základě takto získaného vektoru příznaků. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Rozpoznávání izolovaných slov • Slouží k rozpoznání povelů a slov zřetelně oddělených na začátku a konci mezerou - odpadá problém s detekcí začátku a konce slova v souvislé promluvě. • Obvykle závislé na uživateli: nutnost natrénování - namluvení databáze rozpoznávaných příkazů uživatelem, pro jiné uživatele může dojít k významnému snížení úspěšnosti rozpoznávání • omezená kapacita slovníku - pro každé rozpoznávané slovo musí mít uložen natrénovaný vzor Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávaní izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé reči Problémy při rozpoznávaní izolovaných slov • Detekce začátku a konce promluvy: • odlišení šumu a sykavek • odlišení nahodilého zvukového vzruchu (klepnuti, ...) od okluziv (plozív), které obsahují pauzy (okluziva - souhláska vznikající tím, že vydechovanému/vdechovanému vzduchu je dána do cesty překážka, která je prudce odstraněna; patří sem např. p, b, t, d, c, k, g, ...) • přítomnost ultrazvuku Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Klasifikátory pro rozpoznávání izolovaných slov • Využívající porovnání slov metodou DTW. • Ve slovníku se snaží nalézt slovo, které je co nejpodobnější hledanému slovu. • Založené na statistických metodách. • Např. skryté Markovovské modely. • modelování tvorby řeči • Založené na umělých neuronových sítích • Klasifikátory pracující na dvou úrovních: O Segmentace a fonetické dekódování jednotlivých segmentů. O Rozpoznání slova na základě dekódovaných segmentů. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávaní izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé reči P\T\A/ U 1 VV • Metoda borcení časové osy. • Používa se pro porovnaní dvou číselných řad - dvou úseků promluv (dvou slov). • Vstup: • posloupnost akustických vektorů získaných pomocí metod krátkodobé analýzy signálu • databáze akustických vektorů rozpoznávaných slov. • Výstup - rozpoznané slovo resp. povel. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávaní izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé reči T '1 1 J ' Základni postup • Vytvoříme databázi rozpoznávaných slov (referenční posloupnosti akustických vektoru). • Obvykle několik posloupností pro každé slovo, které odpovídají několika způsobům vyslovení příkazu. • Rozpoznávané slovo převedeme na odpovídající posloupnost akustických vektorů. • Metodou DTW nalezneme referenční posloupnost akustických vektorů s maximální shodou: • Máme posloupnosti {an} a {£>„}. • Snažíme se najít posloupnosti indexů i a j takových, že minimalizují vzdálenost posloupností a a b. » Jsou kladena jistá omezení na to, jak mohou tyto posloupnosti vypadat. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávaní izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé reči Uživatel Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávaní izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé reči l renovani O Řečník nebo skupina řečníků vysloví postupně každé trénované slovo požadovaného slovníku, buď jednou nebo opakovaně. O Vstupní slova jsou zdigitalizována a následně převedena zvolenou metodou krátkodobé analýzy na posloupnost vektoru příznaků Q Detekce hranie slov: • Může být náročné na provedení, kvůli rušivým vlivům na pozadí. • Nekorektní detekce hranie slov zhoršuje úspěšnost rozpoznávání. • Metody odstraňující vliv akustického pozadí zvyšují výpočetní náročnost. O Vytvoření referenčních obrazů slov. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Způsoby vytváření referenčních obrazů slov • Přímé použití obrazů trénovací množiny jako referenčních obrazů slov • DTW nevyžaduje, aby obrazy téhož slova byly stejně dlouhé, ale z důvodu možnosti aplikace pomocných kritérií, je vhodné provést časovou normalizaci každého obrazu. • Vytvoření průměrného vzorového obrazu pro každou třídu slov. • Vytváření vzorových obrazů shlukováním. • Vzorové obrazy pro dané slovo se rozdělí do shluků tak, že obrazy uvnitř shluku jsou si „podobné" a obrazy z různých shluků jsou „nepodobné". Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Nevýhody DTW a způsoby jejich odstraňování • Vysoké pamětové a výpočetní nároky mohou znesnadňovat klasifikaci v reálném čase i při relativně malém slovníku. • Metody řešení: • Hrubá síla - využití paralelních procesů a nebo pomocí zákaznických obvodů (může být drahé). • Vhodné zakódování parametrů jednotlivých mikrosegmentů referenční i testovacích obrazů (vektorová kvantizace - ukládá se do kódové knihy a pracuje se s indexy v kódové knize, • Využití oblastí spektrální stacionarity - metoda segmentace spektrální stopy. • Zavedení účinných způsobů vyhledávání nejbližšího souseda (metody prohledávání metrických prostorů). o Pomocí heuristik. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči UK/1 K/l H lvi lvi • Modelování řeči pomocí HMM vychází z následující představy o tvorbě řeči: • hlasové ústrojí se v krátkém časovém okamžiku nachází v jedné z konečně mnoha artikuláčních konfigurací - generuje řečový signál. • Přejde do následující artikulační konfigurace. • Tuto činnost lze modelovat statisticky - pravděpodobnost přechodu do následující konfigurace. • Kvantizací akustických vektorů lze dosáhnout konečnosti všech parametrů modelu. • Počet různých vzorků je konečný - uloží se do kódové knihy a místo hodnoty vzorku se pracuje s jejich indexy v kódové knize. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Principy použití pro rozpoznávání • Jsou generovány dvě vzájemně svázané časové posloupnosti náhodných proměnných: • podpůrný Markovův řetězec - posloupnost konečného počtu stavů • řetězec konečného počtu spektrálních vzorů. • Náhodná funkce ohodnocující pravděpodobnostmi vztah vzorů k jednotlivým stavům. • Pro rozpoznávání řeči jsou nejčastější levo-pravé Markovovy modely: • vhodné pro modelování procesů spjatých se vzrůstajícím časem. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Markovův proces • Markovův proces G se skrytým Markovovým modelem je pětice G = (Q, V, N, M, n). • Q — qi,qk - množina stavů o V — vi,- množina výstupních symbolů • N — (n,j) - matice přechodu. Určuje pravděpodobnost přechodu ze stavu q,- v čase ŕi do stavu qj v čase Í2- • M — {m/j) - matice přechodu, která určuje pravděpodobnost generování akustického vektoru vj, v kterémkoliv čase ve stavu q,- • n — (rij) - vektor pravděpodobností počátečního stavu (pravděpodobnost toho, že stav / je počáteční). • Trojice A = (N, M, n) - vytváří model řečového segmentu (např. Vintsjukův model pro slovo - počet stavů 40 — 50 -odvozeno od průměrného počtu mikrosegmentů ve slově). Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Určení pravděpodobnosti promluvy • Značení P(0\\). • Promluva O standardně zpracována do posloupnosti O = (oi,...,or). T - počet mikrosegmentů promluvy • o-, - odpovídají výstupním symbolům. • Určení P(0\X) - metoda využívající rekurzivní výpočet odpředu nebo odzadu generované posloupnosti. • nevýhoda předchozího postupu - ve výsledném vztahu jsou zahrnuty pravděpodobnosti všech možných posloupností stavů délky T. • řešení - výpočet maximálně pravděpodobné posloupnosti stavů Q. • výpočet bývá realizován pomocí Viterbiova algoritmu. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči ání a rozpoznávání pomocí HMM • Trénování parametrů modelu A = (N,m,n): • Cíl trénování - maximalizace pravděpodobnosti P(0|A). • Problém - neexistuje analytická metoda ke zjištění globálního maxima funkce n proměnných. • Řešení - lze použít iterativní algoritmy zjišťujícľ aspoň lokální maximalitu. • Nejpoužívanější postup - Bauman-Welchův algoritmus. • Další problémy při trénování modelu: • vliv konečné trénovací množiny - čím menší trénovací množina a čím větší matice M, tím větší pravděpodobnost, že některé prvky zůstanou nastaveny na 0. • Rozhodovací pravidlo - při rozpoznávání izolovaného slova: • Princip maximální věrohodnosti: O Pro slovo O a všechny modely A spočítáme P(0\\). Q Jako výsledek vybereme třídu s maximální hodnotou P(0\\). Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Implementace HMM • Modelování povelů: • nejčastěji se používají modely se 4 — 7 stavy • pro modelování lze použít nástroje na tvorbu HMM (např. HTK - Hiddem Markov Model Toolkit) • Modelování fonémů: • obvykle model se 4 — 7 stavy • model slova - zřetězení modelů fonémů • problémy s výpočtem v reálném čase - lze řešit použitím speciálních algoritmů pro určení maxima P(0\X). Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Rozpoznávaní řeči Rozpoznávání izolovaných slov DTW Skryté Markovovské řetězce (HMM) Rozpoznávání plynulé řeči Rozpoznávání plynulé řeči • Hlavní rozdíly oproti rozpoznávání izolovaných slov: • nelze vytvořit databázi vzorů • nutno brát zřetel na prozodické faktory • nutno určovat hranice mezi slovy » nutno vypořádat se s výplňkovými zvuky a chybami řeči. • Řešení - statistický přístup: • jazykový model - popis promluv daného jazyka včetně jejich četností. • model uživatele - popis stylu vyjadřování daného uživatele. • Příklad: HMM vrátí stejnou pravděpodobnost pro slova máma a nána • nejspíše se použije máma - je častější. • Problém - úspěšnost obecného rozpoznávání může klesnout až k cca 50 • Metody pro zvýšení úspěšnosti: • omezení problémové domény - specifikováním rozpoznávaných Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě