Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Úvod do počítačového zpracování řeči
Luděk Bártek
Fakulta informatiky
Masarykova univerzita
podzim 2015
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Obsah
1 Syntéza řeči
2 Syntéza ve frekvenční oblasti
3 Syntéza řeči v časové oblasti
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Úvod
Úkol:
Převod psaného textu na mluvenou řeč.
Co nejpřirozenější řeč - ideálně k nerozeznání od člověka:
správná intonace
správné umístění přízvuků
správná koartikulace
správný rytmus
...
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Druhy syntézy řeči
Druhy syntézy řeči
ve frekvenční oblasti
v časové oblasti
korpusová
problémově orientovaná syntéza (hlášení nádražního rozhlasu,
automatizované linky telefonické podpory) – často syntéza
postavená na rámcích.
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Fáze syntézy řeči
1 Fonetický přepis.
2 Syntéza fonetické transkripce
3 Případný postprocessing:
intonace
správné časování - modiﬁkace délky fonémů, ...
větné přízvuky
...
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Fonetický přepis
Slouží k přesnému, jednoznačnému zápisu mluvené řeči.
Využívá fonetickou abecedu:
mezinárodní fonetická abeceda - IPA (součást standardu
UNICODE): ma:S se d"obr e
7bitový přepis IPA pomocí ASCII - SAMPA/Česká SAMPA:
ma:S se dobr’e / ma:S se dobRe
Syntetizéry/hlasy v syntetizérech mohou používat modiﬁkace.
Nelze si pamatovat fonetický přepis každé promluvy - nutno
zabezpečit automatický přepis:
fonologická pravidla
Při transkripci češtiny se některé české znaky nevyužívají:
ch - x
w - v
y/ý - i/í
q - kv
Koartikulace
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Pravidla fonetického přepisu češtiny
ch → x
ů → ú
w → v
q → kv
y → i
ý → í
ě → je /po b,p,f,v
dě, tě, ně, mě
dě → ďe
tě → ťe
ně → ňe
mě → mňe
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Pravidla fonetického přepisu češtiny
di, ti, ni
di → ďi
ti → ťi
ni → ňi
X:
x → ks | začátek slova před samohláskou, mezi samohláskami
nebo před neznělou souhláskou a nebo na konci slova, s
výjimkou ex<samohláska> → egz
x → gz | před znělou souhláskou
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Změny na při spojování souhlásek
Dochází k nim při spojování souhlásek.
Způsobeny přenastavováním mluvidel.
2 druhy:
spodoba znělosti - změna znělosti párových souhlásek
ZPS → ˜ ZPS
NPS → ˜ NPS
dub → dup
zpěv → spjef
sběr → zbjer
když → gdiš
spodoba artikulační - při spojení dvou souhlásek s různou
artikulací
banka, tango
tramvaj, nymfa
punťa, pindík
odpovědně, sto dní, vodní
ts → c, tš → č
ds → c, dš → č
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
On-line přístupné ukázky syntézy řeči
AT&T Labs Natural Voices c Text-To-Speech
Free demo to create avatars using TTS by SitePal
Cepstral Text-to-Speech
Festival Online Demo
Speechtech s.r.o.
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Syntéza ve frekvenční oblasti
Emulace funkce hlasového ústrojí pomocí FM syntezátoru.
Nutno uchovávat:
frekvenční charakteristika použitého hlasu
parametry buzení.
Využívá:
systém frekvenčních generátorů - simulují hlasivky
ﬁltry a zesilovače - simulace rezonance v dutinách
Tyto komponenty ovládány parametry modelu.
Nejběžněji použité způsoby kódování zdroje:
Řečová syntéza formantového typu - uchovávají se parametry
průběhu jednotlivých formantů a buzení.
LPC řečová syntéza - uchovávají se F0, příznak znělosti,
amplituda budícího signálu G a koeﬁcienty LPC,
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Syntéza ve frekvenční oblasti
Výhody
menší paměťové nároky - uchovávají se pouze parametry
modelu.
Nevýhody:
oproti syntéze v časové oblasti může být výsledek méně
přirozený - „robotické“ hlasy
Softwarová - výpočetně relativně náročné - lze implementovat
přímo na úrovni HW
skládání jednotlivých frekvencí, které tvoří příslušné fonémy
řešení koartikulace
...
Neexistuje dostatečně přesný matematický model
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Využití syntézy ve frekvenční oblasti
Využití dříve:
malé paměťové nároky
domácí počítače (Amiga, Atari, ...)
syntéza realizována většinou hardwarově
Dnes:
Syntéza na zařízeních s nedostatkem paměti.
Syntéza realizovaná hardwarově pomocí zákaznických obvodů.
Doplnění syntézy v časové oblasti o prozodické jevy:
Větná intonace
...
Realizováno programově pomocí modiﬁkace F0 a formantů.
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Schéma syntetizéru formantového typu
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Schéma LPC syntetizéru
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Syntéza v časové oblasti
Princip
spojování navzorkovaných řečových segmentů uložených
v databázi.
Využívají se různé typy základních segmentů:
větší
lépe se modelují některé další charakteristiky jako intonace,
přízvuky, . . .
větší nároky na paměť - větší množství segmentů (potenciálně
až 2n
, kde n je délka segmentu)
příklady – slova, části vět, . . .
menší
menší paměťové nároky - menší množství segmentů
horší možnost modelování větné intonace, přízvuků, ... (viz
oblasti spektrální stacionarity řeči).
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Používané řečové segmenty
Alofóny
poziční varianty fonémů - obsahuje i části okolních fonémů
počet n3
(n - počet fonémů)
Difóny
začínají uprostřed jednoho fonému a končí uprostřed
následujícího
počet n2
často využívané pro syntézu i rozpoznávání:
MBrola
(http://tcts.fpms.ac.be/synthesis/mbrola.html)
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Používané řečové segmenty
Pokračování
Trifóny
začínají uprostřed levého sousedního fonému a končí uprostřed
pravého sousedního
počet n3
často využívané pro rozpoznávání a syntézu
Slabičné segmenty.
Segmenty proměnné délky získané z korpusu.
Rámce
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Slabiky
Slabika
Slabikovat se učí už děti v první třídě.
Nejmenší jednotka organizační jednotka řeči.
Nelze odvodit strukturu slabik - nejednoznačnost dělení
některých slov na slabiky
funk-ční vs funkč-ní.
Počet slabik - uvádí se cca 10000.
Struktura slabiky
preatura (onset)
nukleus (vokalické jádro) - bývá to samohláska, příp.
dvojhláska, sonora - např. krk, frikativa - např. pst, nazála např.
sedm
koda - nemusí se vyskytovat
nukleus + koda jsou považovány za základ slabiky
svahy – preatura a koda; jedná se většinou o jednu nebo více
souhlásek.
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči
Syntéza ve frekvenční oblasti
Syntéza řeči v časové oblasti
Slabičné segmenty
Deﬁnovány uměle
Řešení nejednoznačnosti hranice slabiky.
Frekventované slabičné typy:
V (samohláska/dvojhláska) - ú - kol
KV (souhláska - samohláska) - vo - da
KVK - jed-not-ka
KK - tr-sy
KKV - dna
KKVK - dmout
Tvoří vice než 95 % slabik
Umožňují automatickou segmentaci textu.
Používají se např. v syntetizéru Demosthénes (doc. Kopeček
LAF (LSD) FI)
Luděk Bártek Úvod do počítačového zpracování řeči