Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Úvod do počítačového zpracování řeči Luděk Bártek Fakulta informatiky Masarykova univerzita podzim 2022 Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Q Syntéza reci Q Syntéza ve frekvenční oblasti • Syntéza formantového typu • LPC Syntéza O Syntéza řeči v časové oblasti Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti • Úkol: o Převod psaného textu na mluvenou řeč. • Co nejpřirozenější řeč - ideálně k nerozeznání od člověka: správná intonace 9 správné umístění přízvuků • správná koartikulace • správný rytmus Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Druhy syntézy řeči • ve frekvenční oblasti • v časové oblasti korpusová • problémově orientovaná syntéza (hlásení nádražního rozhlasu, automatizované linky telefonické podpory) - často syntéza postavená na rámcích. Luděk Bártek Úvod do počítačového zpracování řeči O Fonetický přepis. O Syntéza fonetické transkripce O Případný postprocessing: • intonace o správné časování - modifikace délky fonémů, ... • větné přizvuky Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Fonetický přepis • Slouží k přesnému, jednoznačnému zápisu mluvené řeči. • Využívá fonetickou abecedu: • mezinárodní fonetická abeceda - IPA (součást standardu UNICODE): ma:J se ďobr.e • ľbitový přepis IPA pomoci ASCII - SAMPA/Česká SAMPA: ma:S se dobr'e / ma:S se dobRe • Syntetizéry/hlasy v syntetizérech mohou používat modifikace. • Nelze si pamatovat fonetický přepis každé promluvy -nutno zabezpečit automatický přepis: • fenologická pravidla • Při transkripci češtiny se některé české znaky nevyužívají: 9 ch - x • w - v • y/ý - i/í o q - kv • Koartikulace Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti su češtiny • ch -> x • ů -> ú • w —>► v • q -> kv • y -> i • ý -> í • ě je /po b,p,f,v • dě5 tě, ně, mě • dě ďe tě ťe • ně —>► ňe • mě ^ mňe Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti su češtiny , ni di -> ďi ti -> ťi ni —>► ňi x ks | začátek slova před samohláskou, mezi samohláskami nebo před neznělou souhláskou a nebo na konci slova, s výjimkou ex egz x gz | před znělou souhláskou Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Z měny na při spojování so ilásek • Dochází k nim při spojování souhlásek. • Způsobeny přenastavováním mluvidel. • 2 druhy: • spodoba znělosti - změna znělosti párových souhlásek • ZPS^~ZPS • NPS^~NPS • dub dup • zpěv spjef sběr zbjer když gdiš • spodoba artikulační - při spojení dvou souhlásek s různou artikulací • banka, tango 9 tramvaj, nymfa • punťa, pindík 9 odpovědně, sto dní, vodní • ts c, tš č • ds c, dš č Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti On-line přístupné ukázky syntézy řeči • AT&T Labs Natural Voices© Text-To-Speech demo at NetUp technologies • IBM Watson Text to Speech Voices • Free demo to create avatars using TTS by SitePal • Cepstral Text-to-Speech • Festival Online Demo • Speechtech s.r.o. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Syntéza ve frekvenční obla isti • Emulace funkce hlasového ústrojí pomocí FM syntezátoru. a Nutno uchovávat: • frekvenční charakteristika použitého hlasu • parametry buzení. • Využívá: • systém frekvenčních generátorů - simulují hlasivky • filtry a zesilovače - simulace rezonance v dutinách • Tyto komponenty ovládány parametry modelu. • Nejběžněji použité způsoby kódování zdroje: • Řečová syntéza formantového typu - uchovávají se parametry průběhu jednotlivých formantů a buzení. • LPC řečová syntéza - uchovávají se F0, příznak znělosti, amplituda budícího signálu G a koeficienty LPC, • syntéze postavená na H MM, Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Syntéza ve frekvenční obla isti • Výhody • menší paměťové nároky - uchovávají se pouze parametry modelu. • Nevýhody: • oproti syntéze v časové oblasti může být výsledek méně přirozený - „robotické" hlasy • Softwarová - výpočetně relativně náročné - lze implementovat přímo na úrovni HW 9 skládání jednotlivých frekvencí, které tvoří příslušné fonémy 9 řešení koartikulace • ... o Neexistuje dostatečně přesný matematický model Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Využití syntézy ve frekveni ční oblasti • Využití dříve: * malé paměťové nároky • domáci počítače (Amiga, Atari, ...) o syntéza realizována většinou hardwarově • Dnes: o Syntéza na zařízeních s nedostatkem paměti. • Syntéza realizovaná hardwarově pomocí zákaznických obvodů. • Doplnění syntézy v časové oblasti o prozodické jevy: * Větná intonace 9 ... o Realizováno programově pomocí modifikace F0 a formantů. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Způsoby kódování parametrů syntezátoru ve frekvenční oblasti • Způsoby kódování parametrů syntetizéru ve frekvenční oblasti: • syntéza formantového typu • LPC syntéza • a další - např. HMM Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Syntéza formantového typu • Parametry modelu: • jednotlivé formanty, jejich intenzity a šírky pásem 9 formanty - F0, , F2, F3, F/v, Ko, Ky, K2 • intenzity - parametry zesílení - G^, G2, G3 • Průběh syntézy: o Samohlásky - generátor pulzu vygeneruje F0, signál je následně zesílen a je přidán nazální formát, v rezonančním filtru jsou přidány formanty, řízení úrovně zesílí signál s nazálním formantem. o Souhlásky - základem je bílý šum, který je obohacen o formanty konsonant a zesílen. • Dojde k smísení těchto tří signálů a výsledkem je odpovídající hláska,... Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Schéma syntetizéru formantového typu Počítač Generátor Řízení pulsů úrovně Nazální formant K. K Generátor bílého šumu B B B. t t t t t t Rezonanční filtr 1 Řízení úrovně Mixér T" Formanty konsonantů Řízení úrovně Reč Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti • Parametry syntetizéru - získány pomocí LPA: • příznak znélosti hlásky - ovládá přepínač mezi generátorem pulsů a generátorem bílého šumu • parametr buzení pro generátor pulsů pro generátor pulsů • parametr G - zesílení signálu • parametry spektrální obálky k, • Vlastní syntéza O vygenerován základní signál hlásky O znělé hlásky - generátor pulsů vygeneruje budící signál O neznělé hlásky - jako základní signál je použit bílý šum O signál z předchozího kroku je zesílen v zesilovači - ovládán parametrem G O doplnění vyšších harmonických frekvencí v číslicovém filtru - ovládán parametry k, O výsledná posloupnost vzorků je převedena na spojitý signál. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Počítač Generátor bílého šumu k T Zesilovač T Číslicový filtr Převod Řeč na spojitý tvar Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti • Princip o spojování navzorkovaných řečových segmentů uložených v databázi. • Využívají se různé typy základních segmentů: • vetsi • lépe se modelují některé další charakteristiky jako intonace, prízvuky, ... • větší nároky na paměť - větší množství segmentů (potenciálně až 2n, kde n je délka segmentu) • příklady - slova, části vět, ... • menší o menší paměťové nároky - menší množství segmentů 9 horší možnost modelování větné intonace, přízvuků,... (viz oblasti spektrální stacionarity řeči). Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti ty • Alofóny • poziční varianty fonémů - obsahuje i části okolních fonémů o počet a?3 (n - počet fonémů) • Difóny • začínají uprostřed jednoho fonému a končí uprostřed následujícího • počet n2 • často využívané pro syntézu i rozpoznávání: MBrola (http: //tets.fpms.ac.be/synthesis/mbrola.html) Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Používané řečové segmenty Pokračování • Trifóny o začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního • počet a?3 • často využívané pro rozpoznávání a syntézu o Slabičné segmenty. • Segmenty proměnné délky získané z korpusu. • Rámce Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Slabika Slabikovat se učí už děti v první třídě, o Nejmenší jednotka organizační jednotka řeči. o Nelze odvodit strukturu slabik - nejednoznačnost dělení některých slov na slabiky 9 funk-ční vs funkč-ní. • Počet slabik - uvádí se cca 10000. • Struktura slabiky 9 preatura (onset) 9 nukleus (vokalické jádro) - bývá to samohláska, příp. dvojhláska, sonora - např. krk, frikativa - např. pst, nazála - např. sedm o koda - nemusí se vyskytovat 9 nukleus + koda jsou považovány za základ slabiky « svahy - preatura a koda; jedná se většinou o jednu nebo více souhlásek. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Slabičné segmenty • Definovány uměle o Řešení nejednoznačnosti hranice slabiky. • Frekventované slabičné typy: • V (samohláska/dvojhláska) - ú - kol • KV (souhláska - samohláska) - vo - da • KVK - jed-not-ka • KK-tr-sy • KKV-dna • KKVK-dmout • Tvoří vice než 95 % slabik • Umožňují automatickou segmentaci textu. • Používají se např. v syntetizéru Demosthénes (doc. Kopeček LAF (LSD) Fl) Luděk Bártek Úvod do počítačového zpracování řeči