Syntéza řeči v časové oblasti Uvod do počítačového zpracování řeči Luděk Bártek Fakulta infromatiky Masarykova univerzita podzim 2014 Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči v časové oblasti Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči v časové oblasti časové oblasti • Princip • spojovaní navzorkovaných řečových segmentu uložených v databázi. • Využívají se různé typy základních segmentů: • větší • lépe se modelují některé další charakteristiky jako intonace, prízvuky • větší nároky na pamět - větší množství segmentů (potenciálně až 2", kde n je délka segmentu) • příklady - slova, části vět • menší • menší pamětové nároky - menší množství segmentů • horší možnost modelování větné intonace, přízvuků, ... (viz oblasti spektrální stacionarity řeči). Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči v časové oblasti Používané řečové segmenty • Alofóny • poziční varianty fonémů - obsahuje i části okolních fonémů • počet n3 (n - počet fonémů) • Difóny • začínají uprostřed jednoho fonému a končí uprostřed následujícího o počet n2 • často využívané pro syntézu i rozpoznávání: o MBrola, . . . • Trifóny • začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního • počet n3 • často využívané pro rozpoznávání a syntézu • Slabičné segmenty. • Segmenty proměnné délky získané z korpusu. • Rámce Luděk Bártek Uvod do počítačového zpracování řeči Slabiky Syntéza řeči v časové oblasti • Slabikovat se učí už děti v první třídě. • Nejmenší jednotka organizační jednotka řeči. • Nelze odvodit strukturu slabik - nejednoznačnost dělení některých slov na slabiky • funk-ční vs funkč-ní. • Počet slabik - uvádí se cca 10000. • Struktura slabiky • preatura (onset) • nukleus (vokalické jádro) - bývá to samohláska, příp. dvojhláska, sonora - např. krk, frikativa - např. pst, nazála -např. sedm o koda - nemusí se vyskytovat • nukleus + koda jsou považovány za základ slabiky • svahy - preatura a koda;jedná se většinou o jednu nebo více souhlásek Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči v časové oblasti Slabičné segmenty • Definovány uměle • Řešení nejednoznačnosti hranice slabiky. • Frekventované slabičné typy: • V (samohláska/dvojhláska) - ú - kol • KV (souhláska - samohláska) - vo - da • KVK - jed-not-ka • K K - tr-sy • KKV-dna • KKVK-dmout • Tvoří vice než 95 • Umožňují automatickou segmentaci textu. • Používají se např. v syntetizéru Demosthénes (doc. Kopeček LAF (LSD) Fl) Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči v časové oblasti m O Fonetický přepis. O Segmentace dle použitých řečových segmentu. O Výběr odpovídajících akustických segmentu • databáze segmentu. O Spojení segmentu • nutné, aby odpovídala Fo - jinak se vyskytují různé ruchy (lupnutí, ...) • vhodné řešit už při vytváření db segmentů. O Případný postprocessing Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči v časové oblasti Korpusová syntéza • Konkatenativní syntéza v časové oblasti. • Jako db segmentů využívá řečový korpus. • Nutno doplnit značky pro syntézu: • fonetický přepis • hranice řečových segmentů • průběh Fq • ... • Umožňuje přesnější výběr segmentů • snižuje výpočetní složitost spojování a postprocessingu. • Příklad - viz dizertační práce dr. Batůška v knihovně Fl. Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči v časové oblasti bázi rámců • Většinou se jedná o problémově orientovanou syntézu. • Syntéza se skládá z: • rámců - neměnící se části vět o slotů - měnící se části promluvy • Výhoda: • rámce jsem dopředu namluveny a mohou obsahovat intonaci o syntetizuje se pouze obsah slotů • omezená množina • lze použít celá slova • Příklady: • hlášení nádražního rozhlasu: • Osobní vlak číslo <číslo_vlaku> ze směru přijede k <číslo_nástupiště>. nástupišti v <čas>. Luděk Bártek Uvod do počítačového zpracování řeči