Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti SIN04: Řečová interakce a sociální sítě Syntéza řeči Luděk Bártek Fakulta Informatiky Masarykova Univerzita podzim 2018 Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti 0 bsaf Q Syntéza řeči Q Syntéza v časové oblasti Q Syntéza ve frekvenční oblasti Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti • Cíle: • Převod textu na mluvenou řeč. • Výsledek by měl znít co nejpřirozeněji. • Přirozená řeč by měla obsahovat: • správnou výslovnost (spodoba znělosti, koartikulace, ...) • správnou intonaci: • správná větná melodie • správné časování • správné umístění a intenzita přízvuků (větných, slovních). Luděk Bártek SIN04: Řečová interakce a sociální sítě D Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti • Syntéza ve frekvenční oblasti (starší): • simuluje chování řečového ústrojí. • Syntéza v časové oblasti: o Založena na spojování segmentů řeči do větších celků. • Zvláštní druhy: • korpusová syntéza • problémově orientovaná syntéza. Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Fá ze syi n tézy i 1/ V 1 reci O Fonetický přepis syntetizovaného textu - zahrnuje: • spodobu znělosti - dochází k ní na hranici mezi znělou a neznělou souhláskou a na hranici mezi souhláskou a samohláskou. o přepis čísel o přepis cizích slov • přepis zkratek 9 ... O Syntéza foneticky přepsaného textu. Q Případný postprocessing - doplnění intonace, prízvuku, ... Luděk Bártek SIN04: Řečová interakce a sociální sítě F Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti • Psaná a mluvená podoba textu nejsou shodné. • Slouží k přesnému a jednoznačnému zápisu syntetizované promluvy. • Využívá fonetickou abecedu: * mezinárodní fonetická abeceda IPA (součást standardu UNICODE) o SAMPA - ľbitový přepis IPA, který se využívá v různých syntetizérech. o Ukázka přepisu věty „Čeština je krásný jazyk": o SAMPA: tSeScina je kra:sni: jazik o IPA: tfejcina je kr'aisni: j'azik Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti kračování) Nelze si pamatovat přepisy všech promluv - nutno zabezpečit automatický přepis. Pravidla fonetického přepisu: o Mohou mít regionální charakter (výslovnost na shledanou Čechy vs. Morava). • Obecně přepis nemusí využívat všechny znaky abecedy (y=i3ě=je/e, ů=ú, ...) © Zohledňuje koartikulaci (spodobu znělosti na rozhraní znělé a neznělé souhlásky). Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Cíl - převod obecného textu na mluvenou řeč. Postavena na spojování segmentů řeči. Využívají se různé délky základních segmentů: • Nejpoužívanější typy segmentů - alofóny difóny tritony slabičné segmenty ... • Delší segmenty: • lepší možnost modelování prozodických jevů (větné, slovní prízvuky, větná melodie,...) • větší pamětové nároky - potenciálně až mn segmentů (n -délka segmentu, m - počet segmentů) • příklady segmentů - slova, části vět, věty, ... • Kratší segmenty: • horší možnost modelování prozódie • menší pamětové nároky - méně segmentů. Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Používané řečové segmen ty • Nelze použít přímo fonémy - koartikulace. • Alofóny - poziční varianta segmentu • obsahuje foném a okolí ovlivněné koartikulací (a?3 alofónů, kde n je počet fonémů). • Difóny - začínají uprostřed jednoho fonému a končí uprostřed následujícího (n2 difónů). 9 často používané pro syntézu i pro rozpoznávání (např. syntetizér MBrola) • Trifóny - začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního fonému. (n3 trifónů). • Často používané pro rozpoznávání a syntézu řeči. • Slabičné segmenty - umělá obdoba slabik. • Jaké je struktura slabiky? o Délka 1 - 3 fonémy. • Využívají se např. v TTS Demosthenes. Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti • Spojení fonémů "p" a "á" Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti SI la bi i v icr íé segi m lei n ty a Definovány uměle - řešení nejednoznačnosti hranice slabiky. • Frekventované slabičné typy: • V (samohláska/dvojhláska) o KV (souhláska - samohláska) • KVK • KK • KKV • KKVK • Tyto segmenty tvoří 95 % slabik. • Umožňují automatickou segmentaci textu. • Využívá např. syntetizér Demosthenes. Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Průběh syntézy v časové oblasti O Fonetický přepis textu. O Segmentace textu podle délky použitých segmentů. O Výběr odpovídacích akustických segmentů. • segment odpovídá textu • segment pokud možno spojitě a hladce navazuje na předchozí segment • ... O Spojení segmentů • Možno spojité hladké navázání segmentů, o Vhodné zohlednit při výběru segmentů. 0 Postprocessing • Doplnění prozódie. Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Další typy syntézy v časov é oblasti • Korpusová syntéza. • Jako databázi segmentů využívá řečový korpus. • Označkovaná rozsáhlá databáze mluvené řeči. • Značkování obsahuje - fonetický přepis dané řeči, hranice řečových segmentů, průběh F0 a příp. dalších formantů. • Umožňuje přesnější výběr řečových segmentů - nižší náročnost spojování segmentů. • Syntéza na bázi rámců - problémově orientovaná syntéza. • Využívá: 9 rámce - neměnící se části vět • sloty - měnící se části promluvy. 9 Využití - hlášení nádražního rozhlasu, automatické telefonní systémy např. telekomunikačních operátorů, ... Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Ukázky syntézy řeči v čase webu >vé oblasti dostupné na • AT&T Labs Natural Voices Text-to-Speech Demo at Wizzard Software • Free demo to create avatars using Text-to-Speech (TTS) by SitePal • Cepstral Text-to-Speech • Festival Online Demo • SpeechTech Demo TTS • MBrola Home Page a MBrola Christmas song Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Syntéza řeči ve frekvenční oblasti • Simuluje tvorbu hlasu v řečových orgánech. • Uchovává se: • frekvenční charakteristika hlasu použitého pro syntézu • parametry buzení • Princip: • Emulace hlasových orgánů s využitím: • frekvenčních generátorů generátorů šumu • filtrů 9 zesilovače(ů) • Komponenty jsou ovládány parametry modelu. • Využívají se tyto typy kódování zdroje: • řečová syntéza formantového typu • LPC řečová syntéza • Skryté Markovovy modely (HMM) «... Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti ého typu Rekonstruuje formanty hlasového traktu pomoci spojení několika rezonančních obvodů. Jejich frekvence a šířky pásma jsou ovládány elektronicky. Parametry syntetizéru: • F0 - základní frekvence • Fj - formanty • FN - nazální formant • Bj - pásmové filtry pro formanty F, • Gj - parametry řízení zisku (zesílení) • Kj - formanty pro konsonanty. Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Schéma syntetizéru formantového typu Počítač Generátor Řízení pulsů úrovně Li Nazální formant K. Generátor bílého šumu B B B. t t t t t t Rezonanční filtr 1 Řízení úrovně Mixér í Formanty konsonantů Řízení úrovně Reč Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti • Charakteristiky pro LPC syntetizér: • perioda základního hlasivkového tónu 70 o charakteristika hlásky - znělé/neznělé o amplituda budícího signálu G • koeficienty číslicového filtru. • Způsob získání koeficientu číslicového filtru: o vrcholy v LPC spektrální obálce analyzovaného mikrosegmentu o kořeny charakteristické rovnice zdrojového filtru • reflexní koeficienty. Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti Počítač ► 1 Generátor pulsů Prepínač i Generátor bílého šumu k T Zesilovač T Číslicový filtr Převod Řeč na spojitý tvar Luděk Bártek SIN04: Řečová interakce a sociální sítě Syntéza řeči Syntéza v časové oblasti Syntéza ve frekvenční oblasti S hi rn ul tí • Výhody syntézy ve frekvenční oblasti: o malé pamětové nárok - model mluvčího • syntézu lze realizovat hardwarově. a Nevýhody: • Hlas bývá méně přirozený oproti syntéze v časové oblasti. • Problém přesnosti matematického modelu. 9 Softwarová syntéza ve frekvenční oblasti bývá výpočetně náročnější než syntéza v časové oblasti. o Obvyklé využití: • doplnění syntézy v časové oblasti o prozodické faktory. • občas pro syntézu na zařízeních, která nedisponují dostatečnou kapacitou paměti (mobilní telefony PDA, ..) Luděk Bártek SIN04: Řečová interakce a sociální sítě