Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti SIN04: Řečová interakce a sociální sítě Syntéza řeči Luděk Bártek Fakulta Informatiky Masarykova Univerzita podzim 2015 Luděk Bártek SIN04: Řečová interakce a sociální sítě Obsah Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti O Syntéza řeči Q Syntéza v časové oblasti Q Syntéza ve frekvenční oblasti Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Syntéza řeči Úvod • Převod textu na mluvenou řeč. • Výsledek by měl znít co nejpřirozeněji. • Přirozená řeč by měla obsahovat: • správnou výslovnost (spodoba znělosti, koartikulace, ...) • správnou intonaci: • správná větná melodie • správné časování • správné umístění a intenzita přízvuků (větných, slovních) Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Druhy syntézy reči • Syntéza ve frekvenční oblasti (starší): • simuluje chovaní řečového ústrojí. • Syntéza v časové oblasti: • Založena na spojovaní segmentů řeči do větších celků. • Zvláštní druhy: • korpusová syntéza • problémově orientovaná syntéza. Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Fáze syntézy reči O Fonetický přepis syntetizovaného textu - zahrnuje: • spodobu znělosti - dochází k ní na hranici mezi znělou neznělou souhláskou a na hranici mezi souhláskou a samohláskou. • přepis čísel • přepis cizích slov • přepis zkratek • ... O Syntéza foneticky přepsaného textu. O Případný postprocessing - doplnění intonace, prízvuku, Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Fonetický přepis textu • Psaná a mluvená podoba textu nejsou shodné. • Slouží k přesnému a jednoznačnému zápisu syntetizované promluvy. • Využívá fonetickou abecedu: • mezinárodní fonetická abeceda IPA (součást standardu UNICODE) • SAMPA - ľbitový přepis IPA, který se využívá v různých syntetizérech. • Ukázka přepisu věty „Čeština je krásný jazyk": • SAMPA: tSeScina je kra:sni: jazik • IPA: tf'ejcina je kr'aisni: j'azik Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Fonetický přepis textu (pokračovaní) • Nelze si pamatovat přepisy všech promluv - nutno zabezpečit automatický přepis. • Pravidla fonetického přepisu: • Mohou mít regionální charakter (výslovnost na shledanou Cechy vs. Morava). • Obecně přepis nemusí využívat všechny znaky abecedy (y=i,e=je/e, u=u, ...) • Zohledňuje koartikulaci (spodobu znělosti na rozhraní znělé a neznělé souhlásky). Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Syntéza v časové oblasti • Cíl - převod obecného textu na mluvenou řeč. • Postavena na spojovaní segmentů řeči. • Využívají se různé délky základních segmentů: • Nejpoužívanější typy segmentů - alofóny, difóny, trifóny, slabičné segmenty ... • Delší segmenty: • lepší možnost modelování prozodických jevů (větné, slovní prízvuky, větná melodie, ...) • větší pamětové nároky - potenciálně až mn segmentů (n -délka segmentu, m - počet segmentů) • příklady segmentů - slova, části vět, věty, ... • Kratší segmenty: • horší možnost modelování prozódie • menší pamětové nároky - méně segmentů. Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Používané rečové segmenty Nelze použít přímo fonémy - koartikulace. Alofóny - poziční varianta segmentu • obsahuje foném a okolí ovlivněné koartikulací (a?3 alofónů, kde n je počet fonémů). Difóny - začínají uprostřed jednoho fonému a končí uprostřed následujícího (r?2 difónů). • často používané pro syntézu i pro rozpoznávání (např. syntetizér MBrola) Trifóny - začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního fonému. (r?3 trifónů). • Často používané pro rozpoznávania syntézu řeči. Slabičné segmenty - umělá obdoba slabik. • Jaké je struktura slabiky? • Délka 1-3 fonémy. • Využívají se např. v TTS Demosthenes. Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Ukázka vlivu koartikulace • Slovo pá -!-j-j-j-j-1-1_ mi y í llJli^l^IllňlIlňlliíllW^i^iiiA,^ A A A A A A A A A A