Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti SIN04: Řečová interakce a sociální sítě Luděk Bártek Fakulta Informatiky Masarykova Univerzita podzim 2013 Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Q| Syntéza řeči Q Syntéza v časové oblasti Q Syntéza ve frekvenční oblasti Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti • Cíle: • Převod textu na mluvenou řeč. • Výsledek by měl znít co nejpřirozeněji. • Přirozená řeč by měla obsahovat: • správnou výslovnost (spodoba znělosti, koartikulace, ...) • správnou intonaci: • správná větná melodie • správné časování • správné umístění a intenzita prízvuku (větných, slovních). Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Druhy syntézy řeč • Syntéza v časové oblasti: • Založena na spojovaní segmentu řeči do větších celků. • Zvláštní druhy: • korpusová syntéza • problémově orientovaná syntéza. • Syntéza ve frekvenční oblasti: • simuluje chovaní řečového ústrojí. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Fáze syntézy řeči O Fonetický přepis syntetizovaného textu - zahrnuje: • spodobu znělosti - dochází k ní na hranici mezi znělou a neznělou souhláskou a na hranici mezi souhláskou a samohláskou. • přepis čísel • přepis cizích slov • přepis zkratek • ... Q Syntéza foneticky přepsaného textu. O Případný postprocessing - doplnění intonace, prízvuku, ... Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Fonetický přepis textu • Psaná a mluvená podoba textu nejsou shodné. • Slouží k přesnému a jednoznačnému zápisu syntetizované promluvy. • Využívá fonetickou abecedu: • mezinárodní fonetická abeceda IPA (součást standardu UNICODE) • SAMPA - ľbitový přepis IPA, který se využívá v různých syntetizérech. • Ukázka zápisu pomocí SAMPA: • tSeScina je kra:sni: jazik • Stejná promluva pomocí IPA: • tf'ejcina je kr'a:sni: j'azik Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Fonetický přepis textu (pokračovaní) • Nelze si pamatovat přepisy všech promluv - nutno zabezpečit automatický přepis. • Pravidla fonetického přepisu: • Mohou mít regionální charakter (výslovnost na shledanou Cechy vs. Morava). • Obecně přepis nemusí využívat všechny znaky abecedy (y=i,ě=je/e, ů=ú, ...) • Zohledňuje koartikulaci (spodobu znělosti na rozhraní znělé a neznělé souhlásky). Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Syntéza v časové oblasti • Cíl - převod obecného textu na mluvenou řeč. • Postavena na spojovaní segmentu řeči. • Využívají se různé délky základních segmentů: • Nejpoužívanější typy segmentů - alofóny, difóny, trifóny, slabičné segmenty, ... • Delší segmenty: o lepší možnost modelování prozodických jevů (větné, slovní prízvuky, větná melodie, ...) • větší pamětové nároky - potenciálně až m" segmentů (n -délka segmentu, m - počet segmentů) příklady segmentů - slova, části vět, věty, ... • Kratší segmenty: • horší možnost modelování prozódie • menší pamětové nároky - méně segmentů. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Používané řečové segmenty • Nelze použít přímo fonémy - koartikulace. • Alofóny - poziční varianta segmentu • obsahuje foném a okolí ovlivněné koartikulací (n3 alofónů, kde n je počet fonémů). • Difóny - začínají uprostřed jednoho fonému a končí uprostřed následujícího (n2 difónů). • často používané pro syntézu i pro rozpoznávání (např. syntetizér MBrola) • Trifóny - začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního fonému. (n3 trifónů). • Často používané pro rozpoznávání a syntézu řeči. • Slabičné segmenty - umělá obdoba slabik. • Jaké je struktura slabiky? • Délka 1-3 fonémy. • Využívají se např. v TTS Demosthenes. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Slabičné segmenty • Definovány uměle - řešení nejednoznačnosti hranice slabiky. • Frekventované slabičné typy: • V (samohláska/dvojhláska) • KV (souhláska - samohláska) • KVK • KK • KKV • KKVK • Tyto segmenty tvoří 95 % slabik. • Umožňují automatickou segmentaci textu. • Využívá např. syntetizér Demosthenes. Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Průběh syntézy v časové oblasti O Fonetický přepis textu. O Segmentace textu podle délky použitých segmentu. 0 Výběr odpovídacích akustických segmentu. • odpovídá textu • pokud možno spojitě a hladce navazuje na předchozí segment • ... O Spojení segmentu • Nutné pokud možno spojité hladké navázání segmentu. • Vhodné zohlednit při výběru segmentu. Q Postprocessing • Doplnění prozódie. Luděk Bártek SIN04: Řečová interakce a sociáli i í sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Další typy syntézy v časové oblasti • Korpusová syntéza. • Jako databázi segmentu využívá řečový korpus. • Označkovaná rozsáhlá db mluvené řeči. • Značkování obsahuje - fonetický přepis dané řeči, hranice řečových segmentů, průběh Fq a příp. dalších formantů. • Umožňuje přesnější výběr řečových segmentů - nižší náročnost spojování segmentů. • Syntéza na bázi rámců - problémově orientovaná syntéza. • Využívá: • rámce - neměnící se části vět • sloty - měnící se části promluvy. • Využití - hlášení nádražního rozhlasu, automatické telefonní systémy např. telekomunikačních operátorů, ... Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Ukázky syntézy řeči v časové oblasti dostupné na webu • AT&T Labs Natural Voices Text-to-Speech Demo • Free demo to create avatars using Text-to-Speech (TTS) by SitePal • Cepstral Text-to-Speech • Festival Online Demo • SpeechTech Demo TTS • MBrola Home Page a MBrola Christmas song Luděk Bártek SIN04: Řečová interakce a sociáli i í sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Syntéza řeči ve frekvenční oblasti • Simuluje tvorbu hlasu v řečových orgánech. • Uchovává se: • frekvenční charakteristika hlasu použitého pro syntézu • parametry buzení • Princip: • Emulace hlasových orgánů s využitím: • frekvenčních generátorů • generátorů šumu • filtrů • zesilovače • Komponenty jsou ovládány parametry modelu. • Využívají se dva typy kódování zdroje: • řečová syntéza formantového typu • LPC řečová syntéza. Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Řečová syntéza formantového typu • Rekonstruuje formanty hlasového traktu pomoci spojení několika rezonančních obvodu. • Jejich frekvence a šířky pásma jsou ovládány elektronicky. • Parametry syntetizéru: • Fo - základní frekvence o F; - formanty a F/v - nazální formant • B; - pásmové filtry pro formanty Fi • G; - parametry řízení zisku (zesílení) • Kj - formanty pro konsonanty. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Schéma syntetizéru formantového typu Počítač 'Ä Generátor pulsů Řízení úrovně Nazální formant Rezonanční filtr Řízení úrovně Mixér Reč \ A, 4 Generátor bílého šumu -*■ Formanty konsonantů - Řízení úrovně Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti LPC syntetizér • Charakteristiky pro LPC syntetizér: • perioda základního hlasivkového tónu TO • charakteristika hlásky - znělé/neznělé • amplituda budícího signálu G • koeficienty číslicového filtru. • Způsob získaní koeficientu číslicového filtru: • vrcholy v LPC spektrální obálce analyzovaného mikrosegmentu • kořeny charakteristické rovnice zdrojového filtru • reflexní koeficienty. Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Schéma LPC syntetizéru Počítač Generátor pulsů Prepínač Zesilovač T Číslicový filtr Převod Řeč na spojitý -*■ tvar Generátor bílého šumu Luděk Bártek SIN04: Řečová interakce a sociáli ií sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Shrnutí • Výhody syntézy ve frekvenční oblasti: • malé pamětové nárok - model mluvčího • syntézu lze realizovat hardwarově. • Nevýhody: • Hlas bývá méně přirozený oproti syntéze v časové oblasti. • Problém přesnosti matematického modelu. • Softwarová syntéza ve frekvenční oblasti bývá výpočetně náročnější než syntéza v časové oblasti. • Obvyklé využití: • doplnění syntézy v časové oblasti o prozodické faktory. • občas pro syntézu na zařízeních, která nedisponují dostatečnou kapacitou paměti (mobilní telefony, PDA, ..) Luděk Bártek SIN04: Řečová interakce a sociáli lí sítě