Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2022 Syntéza řeči Dialogové systémy Luděk Bártek Syntéza řeči ■ Cíl - převod psaného textu na mluvenou řeč. Fonetický přepis Syntéza řeči ve frekvenční oblasti ■ Výsledná řeč by měla znít co nejpřirozeněji. Syntéza řeči v časové oblasti ■ Přirozená řeč by měla obsahovat: ■ správnou intonaci ■ správné umístění přízvuků ■ slovní ■ větný ■ korektní koartikulaci ■ správný rytmus (časování) ■ . . . 1 <\(y Druhy syntézy řeči Dialogové systémy Luděk Bártek ■ Syntéza ve frekvenční oblasti - simuluje chování řečového Syntéza řeči ústrojí. Fonetický přepis Syntéza řeči ve ■ Syntéza v časové oblasti - spojování řečových segmentů frekvenční oblasti Syntéza řeči v časové oblasti do větších celků (věta, promluva, ...) ■ Korpusová - varianta syntézy v časové oblasti - jako databáze řečových segmentů slouží řečový korpus. ■ Problémově orientovaná syntéza: ■ varianta syntézy v časové oblasti ■ využívá větší celky - věty . . . ■ příklady: ■ hlášení nádražního rozhlasu ■ automatizované linky telefonické podpory ■ . .. Fáze syntézy řeči Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Fonetický přepis textu. Syntéza foneticky přepsaného textu: ■ Syntéza ve frekvenční oblasti - volba průběhu parametrů syntézy (Fo/generátor šumu, vyšší harmonické frekvence, jejich intenzita, .. .) ■ Syntéza v časové oblasti - výběr vhodných segmentů a jejich spojení. Případný postprocessing: ■ doplnění intonace ■ doplnění přízvuků Fonetický přepis Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Slouží k přesnému, jednoznačnému zápisu mluvené řeči. Využívá fonetickou abecedu: ■ mezinárodní fonetická abeceda (IPA) - součást standardu UNICODE ■ SAMPA (Speech Assessment Method Phonetic Alphabet) ■ sedmibitový přepis IPA ■ navržena v 80. letech ■ používá se v různých TTS ■ příklad: tSeSTina je kra:sni: jazik Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti CŮNSONANTS (PULMÚNIC) ih.hih, 1--: il il .\ľ.- ■■! .i ľalaľň alveol iť FhIhII-hI l:1i.-r yii^i-.jl ĽpJ giottal ■r.IcrttŕiL Nasal in n P N ťlů5ÍYř P t t d ti q o ■f ? 1 Fricnřii* t P f v S Z J3 í i Af prwiimartl U \ J _Ly_ B ] T TrilJ B r R Tapt Fla|.-- V r i íricalive Lal pral 1 L Á. L LUteťal flap J where jyratwls ihmät ili pJirs. tht oiw to íhe rijcht reprwntt a nwdůlly voiocdíonwniw. *x«pt for ■urrnurrJ Ä. :-ilu :I-hiI .irnaa iln-ul f ar1u=ula£iuna j u Jf # ■ L ľ-j- I** i i i i | ■ ■ i -■ -■ i I ■ I ■-- Fonetický přepis Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Nelze si pamatovat fonetické přepisy všech promluv: ■ Nutno zabezpečit automatický přepis. Pravidla fonetického přepisu: ■ mohou mít regionální charakter. ■ Příklad - výslovnost na shledanou v CR: ■ Cechy - naschledanou ■ Morava - nazhledanou. ■ Obě varianty jsou spisovné. ■ Obecně přepis nemusí používat všechny znaky dané abecedy (i/y = i, c = ts, . ..) Zohledňuje koartikulaci (spodobu znělosti). Pravidla fonetického přepisu češtiny Dialogové systémy Luděk Bártek ■ ch —>► x , ů —> ú, w —>► v, q —>► kv, y —>► i, ý —>► í Syntéza řeči ■ e: Fonetický přepis Syntéza řeči ve ■ bě —)► bje, pě —)► pje, fě —)íje, vě —)► vje frekvenční oblasti Syntéza řeči v časové ■ dě—ďe, tě—)- ťe, ně—ňe, mě—mňe oblasti ■ i/í: ■ d i/í—)- d'i/í, ti/í—)► ťi/í, n i/í—)- ňi/í ■ X: ■ x —)> ks — začátek slova před samohláskou, mezi samohláskami nebo před neznělou souhláskou a nebo na konci slova. ■ x -» gz: ■ exsamoh láska ■ před znělou souhláskou Změny při spojování souhlásek Dialogové systémy ■ Dochází k nim při spojování souhlásek. Luděk Bártek ■ Způsobeny přenastavováním mluvidel. Syntéza řeči Fonetický přepis ■ Dva druhy: Syntéza řeči ve frekvenční oblasti ■ spodoba znělosti - změna znělosti párových souhlásek: Syntéza řeči v časové oblasti ■ ZPS —>> -i ZPS: dub —>> dup, zpěv —spjev ■ NPS —>► -i NPS: sběr —>► zbjer, když —>► gdiš ■ spodoba artikulační - při spojení dvou souhlásek s různou artikulací: ■ nk/ng - banka, tango ■ mv/mf - tramvaj, nymfa ■ nť/nd - punťa, pindík ■ d ň - odpovědně, sto dní, vodní ■ ts —)► c ■ ts —)► C ■ ds —>► c i v v ■ ds —>► c Syntéza řeči ve frekvenční oblasti Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Simuluje tvorbu hlasu v řečových orgánech. Uchovává se: ■ frekvenční charakteristika hlasu použitého pro syntézu ■ parametry buzení Princip: ■ Emulace hlasových orgánů s využitím: ■ frekvenčních generátorů ■ filtrů ■ zesilovače (zesilovačů). ■ Tyto komponenty jsou ovládány parametry modelu. Využívají se následující způsoby kódování zdroje: ■ řečová syntéza formantového typu ■ L PC řečová syntéza ■ syntéza postavená na H M M Rečová syntéza formantového typu Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Rekonstruuje formanty hlasového traktu pomocí sériových a paralelních spojení několika rezonančních obvodů. Jejich frekvence a šířky pásma jsou ovládány elektronicky. Parametry syntetizéru: m Fq - základní frekvence ■ F; - formanty ■ F/v - nazální formant ■ B i - pásmové filtry pro F\ ■ G-, - parametry řízení zisku/zesílení ■ K; - formanty pro konsonanty Schéma sériového formantového syntetizéru Dialogové systémy Luděk Bártek Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Počítač Řízení úrovně ĽÄ Nazální formant K. K B, B, B, t t t t t t Rezonanční filtr 1 Řízení úrovně Mixér Generátor bílého šumu Formanty konsonantů Řízení úrovně Reč Obrázek: Blokové schéma sériového formantového syntetizéru LPC syntetizér Dialogové systémy Luděk Bártek Syntéza řeči ■ Charakteristiky pro LPC syntetizér: Fonetický přepis Syntéza řeči ve ■ perioda základního hlasivkového tónu Tq frekvenční oblasti Syntéza řeči v časové ■ charakteristika hlásky - znělá/neznělá oblasti ■ amplituda budícího signálu G ■ koeficienty číslicového filtru. ■ Způsob získání koeficientu číslicového filtru: ■ vrcholy v LPC spektrální obálce analyzovaného mikrosegmentu ■ kořeny charakteristické rovnice zdrojového filtru ■ reflexní koeficienty. 1 <\(y Schéma LPC syntetizéru Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Počítač Generátor bílého šumu k Číslicový filtr Převod na spojitý tvar Řeč Obrázek: Blokové schéma LPC syntetizéru Syntéza ve frekvenční oblasti Shrnutí Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Výhody a nevýhody syntézy ve frekvenční oblasti: + Malé paměťové nároky - model použitého mluvčího. + Syntézu lze realizovat hardwarově. - Hlas bývá méně přirozený oproti syntéze v časové oblasti. ■ Problém přesnosti matematického modelu. - Softwarová syntéza ve frekvenční oblasti bývá výpočetně náročnější než syntéza v časové oblasti. Obvyklé využití: ■ doplnění syntézy v časové oblasti o: ■ větnou intonaci ■ větný a slovní přízvuk ■ další prozodické faktory. ■ Občas pro syntézu na zařízeních, která nedisponují dostatečnou kapacitou paměti (mobilní telefony PDA, ■ ■■)■ ■ Občas pro multiliguální syntézu. Více viz např. J. Psutka - Komunikace s počítačem mluvenou řečí. Syntéza v časové oblasti Dialogové systémy Luděk Bártek ■ Cíl - převod obecného textu na řeč. Syntéza řeči Fonetický přepis ■ Postavena na spojování segmentů řeči. Syntéza řeči ve frekvenční oblasti ■ Využívají se různé délky základních segmentů: Syntéza řeči v časové oblasti ■ Větší: ■ lze lépe modelovat prozodické charakteristiky řeči ■ větší paměťové nároky - větší množství segmentů (potenciálně až 2n, kde n je délka segmentu). ■ příklady segmentů - slova, části vět, věty, ... ■ Menší: ■ horší možnost modelování prozodických jevů (větná intonace, prízvuky, . ..) ■ menší paměťové nároky - menší množství menších segmentů. Používané řečové segmenty Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Alofóny: ■ poziční varianty fonémů - obsahují ■ foném ■ okolí ovlivněné koartikulací. ■ počet alofónů - n3 (n - počet fonémů). Difóny: ■ začínají uprostřed jednoho fonému a končí uprostřed následujícího fonému ■ počet difónů - n2 ■ často využívané pro syntézu i pro rozpoznávání (např. syntetizér MBrola) Používané řečové segmenty Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Trifóny: ■ Začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního fonému. ■ Počet - A73. ■ Často používané pro rozpoznávání a syntézu řeči. Slabičné segmenty: ■ Snaha, aby co nejvíce odpovídaly slabikám. ■ Délka - 1 — 3 fonémy. ■ Využívá se např. v TTS systému Demosthenes. Syntéza v časové oblasti Slabika Dialogové systémy Luděk Bártek Syntéza řeči Fonetický přepis Slabika Slabikovat se učí už děti v první třídě. Nejmenší organizační jednotka řeči. Nelze odvodit strukturu slabik - nejednoznačnost dělení některých slov na slabiky: ■ funk-ční vs. funkč-ní ■ Počet slabik - uvádí se cca 10 000. Syntéza v časové oblasti Struktura slabiky Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Struktura slabiky: ■ preatura (onset) ■ nukleus (vokalické jádro slabiky) - bývá to: ■ samohláska resp. dvojhláska ■ sonora - např. krk ■ frikativa - např. pst ■ nasála - např. seóm m koda - nemusí se vyskytovat ■ nukleus + koda jsou považovány za základ slabiky ■ svahy: ■ preatura a koda ■ jedná se většinou o jednu nebo více souhlásek. Syntéza v časovém pásmu Slabičné segmenty Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Definovány uměle: ■ řešení nejednoznačnosti hranice slabiky Frekventované slabičné typy: ■ V (samohláska/dvojhláska) - ú - kol ■ KV (souhláska-samohláska) - vo - da ■ KVK - jed-not-ka ■ K K - tr-sy ■ KKV-tma ■ KKVK-dmout Tyto segmenty tvoří více než 95 % slabik. Umožňují automatickou segmentaci textu. Používají se např. v syntetizéru Demosthénes (doc. Kopeček, LSD Fl) Vlastní syntéza Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Fonetický přepis. Segmentace textu dle použitých řečových segmentů. Výběr odpovídajících akustických segmentů z db segmentů. Spojení segmentů ■ Nutné, aby bylo možné spojité hladké navázání segmentů: ■ shodné nebo velmi blízké hodnoty konce a začátku po sobě jdoucích segmentů ■ shodné nebo velmi blízké hodnoty 1. derivace navazujících konců obou segmentů. Případný postprocessing ■ doplnění prozódie. Syntéza v časové oblasti Korpusová syntéza Dialogové systémy Luděk Bártek ■ Konkatenativní syntéza v časové oblasti. Syntéza řeči ■ Jako databázi segmentů využívá řečový korpus. Fonetický přepis ■ Obsahuje označkovanou mluvenou řeč. Syntéza řeči ve frekvenční oblasti ■ Značkování obsahuje: Syntéza řeči v časové oblasti ■ fonetický přepis dané řeči ■ hranice řečových segmentů ■ průběh Fo a případně i dalších formantů. ■ Umožňuje přesnější výběr řečových segmentů: ■ snižuje výpočetní složitost spojování a postprocessingu. ■ Algoritmus výběru segmentů: Q Výběr odpovídajícího segmentu podle požadovaného obsahu. B Pokud je segmentů více zvolí se z nich ten, který nejlépe navazuje. Syntéza v časové oblasti Syntéza na bázi rámců Dialogové systémy Luděk Bártek Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Většinou se jedná o problémově orientovanou syntézu. Syntéza se skládá z: ■ rámců - neměnící se části vět ■ slotů - měnící se částí promluvy. Výhody: ■ Rámce jsou dopředu namluveny a mohou obsahovat intonaci. ■ Syntetizuje se pouze obsah slotů: ■ velmi dobře specifikovaná množina slov ■ lze použít celá slova. Příklad: lášení nádražního rozhlasu: Osobní vlak číslo číslo vlaku ze směru stanice přijede k číslo nástupiště nástupišti v čas.