Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Úvod do počítačového zpracování řeči Luděk Bártek Fakulta informatiky Masarykova univerzita podzim 2021 Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti 0 bsaf O Syntéza řeči O Syntéza ve frekvenční oblasti • Syntéza formantového typu • LPC Syntéza Q Syntéza řeči v časové oblasti Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti o Úkol: o Převod psaného textu na mluvenou řeč. • Co nejpřirozenější řeč - ideálně k nerozeznání od člověka: správná intonace • správné umístění přízvuků • správná koartikulace • správný rytmus • ... Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Druhy syntézy řeči • ve frekvenční oblasti • v časové oblasti korpusová • problémově orientovaná syntéza (hlásení nádražního rozhlasu, automatizované linky telefonické podpory) - často syntéza postavená na rámcích. Luděk Bártek Úvod do počítačového zpracování řeči O Fonetický přepis. Q Syntéza fonetické transkripce O Případný postprocessing: • intonace o správné časování - modifikace délky fonémů, ... • větné přizvuky Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Slouží k přesnému, jednoznačnému zápisu mluvené řeči. Využívá fonetickou abecedu: • mezinárodní fonetická abeceda - IPA (součást standardu UNICODE): ma:J se ďobr.e • ľbitový přepis IPA pomoci ASCII - SAMPA/Česká SAMPA ma:S se dobr'e / ma:S se dobRe • Syntetizéry/hlasy v syntetizérech mohou používat modifikace. Nelze si pamatovat fonetický přepis každé promluvy -nutno zabezpečit automatický přepis: • fenologická pravidla Při transkripci češtiny se některé české znaky nevyužívají © ch - x • w - v • y/ý - i/í o q - kv Koartikulace Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti su češtiny ch -> x o r U -> u w —>► v q kv y ^ i y ->' ě ^ je /po b,p,f,v dě5 tě, ně, mě • dě ďe tě ťe 9 ně —>► ňe • mě mňe Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti su češtiny , ni di -> ďi ti -> ťi ni —>► ňi x ks | začátek slova před samohláskou, mezi samohláskami nebo před neznělou souhláskou a nebo na konci slova, s výjimkou ex egz x gz | před znělou souhláskou Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Změny na při spojování so uhlásek • Dochází k nim při spojování souhlásek. • Způsobeny přenastavováním mluvidel. • 2 druhy: • spodoba znělosti - změna znělosti párových souhlásek • ZPS^~ZPS • NPS^~NPS • dub dup • zpěv spjef sběr zbjer když gdiš • spodoba artikulační - při spojení dvou souhlásek s různou artikulací • banka, tango « tramvaj, nymfa • punťa, pindík o odpovědně, sto dní, vodní • ts c, tš č • ds c, dš č Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti On-line přístupné ukázky syntézy řeči • AT&T Labs Natural Voices© Text-To-Speech • IBM Watson Text to Speech Voices • Free demo to create avatars using TTS by SitePal • Cepstral Text-to-Speech • Festival Online Demo • Speechtech s.r.o. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Syntéza ve frekvenční obla isti • Emulace funkce hlasového ústrojí pomocí FM syntezátoru. • Nutno uchovávat: • frekvenční charakteristika použitého hlasu • parametry buzení. • Využívá: • systém frekvenčních generátorů - simulují hlasivky • filtry a zesilovače - simulace rezonance v dutinách • Tyto komponenty ovládány parametry modelu. • Nejběžněji použité způsoby kódování zdroje: 9 Řečová syntéza formantového typu - uchovávají se parametry průběhu jednotlivých formantů a buzení. • LPC řečová syntéza - uchovávají se F0, příznak znělosti, amplituda budícího signálu G a koeficienty LPC, • syntéze postavená na H MM, Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti sti • Výhody • menší paměťové nároky - uchovávají se pouze parametry modelu. « Nevýhody: • oproti syntéze v časové oblasti může být výsledek méně přirozený - „robotické" hlasy • Softwarová - výpočetně relativně náročné - lze implementovat přímo na úrovni HW • skládání jednotlivých frekvencí, které tvoří příslušné fonémy • řešení koartikulace • ... • Neexistuje dostatečně přesný matematický model Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Využití syntézy ve frekveni ční oblasti • Využití dříve: o malé paměťové nároky • domáci počítače (Amiga, Atari, ...) o syntéza realizována většinou hardwarově • Dnes: o Syntéza na zařízeních s nedostatkem paměti. • Syntéza realizovaná hardwarově pomocí zákaznických obvodů. • Doplnění syntézy v časové oblasti o prozodické jevy: • Větná intonace • ... o Realizováno programově pomocí modifikace F0 a formantů. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti trů syntezátoru ve • Způsoby kódování parametrů syntetizéru ve frekvenční oblasti: • syntéza formantového typu • LPC syntéza • a další - např. HMM Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Syntéza formantového ty pu • Parametry modelu: • jednotlivé formanty, jejich intenzity a šírky pásem a formanty - F0, , F2, F3, F/v, Ko, Kí, K2 • intenzity - parametry zesílení - G^, G2, G3 • Průběh syntézy: o Samohlásky - generátor pulzu vygeneruje F0, signál je následně zesílen a je přidán nazální formát, v rezonančním filtru jsou přidány formanty, řízení úrovně zesílí signál s nazálním formantem. o Souhlásky - základem je bílý šum, který je obohacen o formanty konsonant a zesílen. • Dojde k smísení těchto tří signálů a výsledkem je odpovídající hláska,... Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Schéma syntetizéru formantového typu Počítač Generátor Řízení pulsů úrovně Nazální formant B B B. t t t t t t Rezonanční filtr 1 Řízení úrovně Mixér g4 Generátor bílého šumu — Formanty konsonantů — Řízení úrovně Reč Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti L PC Syi n téza B • Parametry syntetizéru - získány pomocí LPA: • příznak znělosti hlásky - ovládá přepínač mezi generátorem pulsů a generátorem bílého šumu • parametr buzení pro generátor pulsů pro generátor pulsů • parametr G - zesílení signálu • parametry spektrální obálky k, • Vlastní syntéza O vygenerován základní signál hlásky O znělé hlásky - generátor pulsů vygeneruje budící signál Q neznělé hlásky - jako základní signál je použit bílý šum O signál z předchozího kroku je zesílen v zesilovači - ovládán parametrem G 0 doplnění vyšších harmonických frekvencí v číslicovém filtru - ovládán parametry k, O výsledná posloupnost vzorků je převedena na spojitý signál. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Počítač > * Generátor pulsů Prepínač i Generátor bílého šumu T Zesilovač T Číslicový filtr Převod Řeč na spojitý tvar Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti • Princip o spojování navzorkovaných řečových segmentů uložených v databázi. • Využívají se různé typy základních segmentů: • vetsi • lépe se modelují některé další charakteristiky jako intonace, prízvuky, ... • větší nároky na paměť - větší množství segmentů (potenciálně až 2n, kde n je délka segmentu) • příklady - slova, části vět, ... • menší o menší paměťové nároky - menší množství segmentů 9 horší možnost modelování větné intonace, přízvuků,... (viz oblasti spektrální stacionarity řeči). Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti ty • Alofóny • poziční varianty fonémů - obsahuje i části okolních fonémů • počet a?3 (n - počet fonémů) • Difóny • začínají uprostřed jednoho fonému a končí uprostřed následujícího • počet n2 • často využívané pro syntézu i rozpoznávání: MBrola (http: //tets.fpms.ac.be/synthesis/mbrola.html) Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Používané řečové segmenty Pokračování • Trifóny o začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního • počet a?3 • často využívané pro rozpoznávání a syntézu o Slabičné segmenty. • Segmenty proměnné délky získané z korpusu. • Rámce Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti Slabika Slabikovat se učí už děti v první třídě, o Nejmenší jednotka organizační jednotka řeči. o Nelze odvodit strukturu slabik - nejednoznačnost dělení některých slov na slabiky • funk-ční vs funkč-ní. • Počet slabik - uvádí se cca 10000. • Struktura slabiky • preatura (onset) 9 nukleus (vokalické jádro) - bývá to samohláska, příp. dvojhláska, sonora - např. krk, frikativa - např. pst, nazála - např. sedm o koda - nemusí se vyskytovat a nukleus + koda jsou považovány za základ slabiky • svahy - preatura a koda; jedná se většinou o jednu nebo více souhlásek. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči Syntéza ve frekvenční oblasti Syntéza řeči v časové oblasti SI la bi i v icr íé segi m lei n ty • Definovány uměle o Řešení nejednoznačnosti hranice slabiky. • Frekventované slabičné typy: • V (samohláska/dvojhláska) - ú - kol • KV (souhláska - samohláska) - vo - da o KVK - jed-not-ka o KK-tr-sy • KKV-dna • KKVK-dmout • Tvoří vice než 95 % slabik • Umožňují automatickou segmentaci textu. • Používají se např. v syntetizéru Demosthénes (doc. Kopeček LAF (LSD) Fl) Luděk Bártek Úvod do počítačového zpracování řeči