Syntéza řeči v časové oblasti
Uvod do počítačového zpracování řeči
Luděk Bártek
Fakulta infromatiky Masarykova univerzita
podzim 2016
Luděk Bártek
Úvod do počítačového zpracování řeči
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči v časové oblasti
a Princip
• spojovaní na vzorkovaných řečových segmentů uložených v databázi.
• Využívají se různé typy základních segmentů:
• vetsi
• lépe se modelují některé další charakteristiky jako intonace, prízvuky
• větší nároky na pamět - větší množství segmentů (potenciálně až 2n, kde n je délka segmentu)
• příklady - slova, části vět
o menší
9 menší pamětové nároky - menší množství segmentů
• horší možnost modelování větné intonace, přízvuků, ... (viz oblasti spektrální stacionarity řeči).
Luděk Bártek
Úvod do počítačového zpracování řeči
• Alofóny
• poziční varianty fonémů - obsahuje i části okolních fonémů 9 počet n3 (n - počet fonémů)
• Difóny
začínají uprostřed jednoho fonému a končí uprostřed následujícího
• počet n2
9 často využívané pro syntézu i rozpoznávání: • MBrola, ...
• Trifóny
• začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního
• počet A73
• často využívané pro rozpoznávání a syntézu 9 Slabičné segmenty.
• Segmenty proměnné délky získané z korpusu.
• Rámce
Luděk Bártek
Úvod do počítačového zpracování řeči
o Slabika
• Slabikovat se učí už děti v první třídě.
• Nejmenší jednotka organizační jednotka řeči.
• Nelze odvodit strukturu slabik - nejednoznačnost dělení některých slov na slabiky
• funk-ční vs funkč-ní.
• Počet slabik - uvádí se cca 10000.
• Struktura slabiky
• preatura (onset)
• nukleus (vokalické jádro) - bývá to samohláska, příp. dvojhláska, sonora - např. krk, frikativa - např. pst, nazála -např. sedm
• koda - nemusí se vyskytovat
• nukleus + koda jsou považovány za základ slabiky
• svahy - preatura a kodajedná se většinou o jednu nebo více souhlásek
Luděk Bártek
Úvod do počítačového zpracování řeči
• Definovány uměle
• Řešení nejednoznačnosti hranice slabiky, o Frekventované slabičné typy:
• V (samohláska/dvojhláska) - ú - kol
• KV (souhláska - samohláska) - vo - da
• KVK - jed-not-ka
• K K - tr-sy
• KKV-dna
• K KVK - dmout
• Tvoří vice než 95
• Umožňují automatickou segmentaci textu.
• Používají se např. v syntetizéru Demosthénes (doc. Kopeček LAF (LSD) Fl)
Luděk Bártek
Úvod do počítačového zpracování řeči
O Fonetický přepis.
Q Segmentace dle použitých řečových segmentů. O Výběr odpovídajících akustických segmentů
• databáze segmentů.
O Spojení segmentů
• nutné, aby odpovídala Fq - jinak se vyskytují různé ruchy (lupnutí, ...)
• vhodné řešit už při vytváření db segmentů.
O Případný postprocessing
Luděk Bártek
Úvod do počítačového zpracování řeči
• Konkatenativní syntéza v časové oblasti.
9 Jako db segmentů využívá řečový korpus, o Nutno doplnit značky pro syntézu:
• fonetický přepis
9 hranice řečových segmentů
• průběh Fo
• ...
• Umožňuje přesnější výběr segmentů
• snižuje výpočetní složitost spojování a postprocessingu.
• Příklad - viz dizertační práce dr. Batůška v knihovně Fl.
Luděk Bártek
Úvod do počítačového zpracování řeči
• Většinou se jedná o problémově orientovanou syntézu.
• Syntéza se skládá z:
• rámců - neměnící se části vět
• slotů - měnící se části promluvy
• Výhoda:
9 rámce jsem dopředu namluveny a mohou obsahovat intonaci
• syntetizuje se pouze obsah slotů
o omezená množina o lze použít celá slova
• Příklady:
• hlášení nádražního rozhlasu:
•   Osobní vlak číslo <číslo_vlaku> ze směru <seznam_stanic> přijede
k <číslo_nástupiště>. nástupišti v <čas>.
Luděk Bártek
Úvod do počítačového zpracování řeči