Syntéza řeči v časové oblasti Uvod do počítačového zpracování řeči Luděk Bártek Fakulta infromatiky Masarykova univerzita podzim 2015 Luděk Bártek Úvod do počítačového zpracování řeči Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči v časové oblasti Princip • spojovaní navzorkovaných řečových segmentů uložených v databázi. Využívají se různé typy základních segmentů: • vetsi • lépe se modelují některé další charakteristiky jako intonace, prízvuky • větší nároky na pamět - větší množství segmentů (potenciálně až 2", kde n je délka segmentu) • příklady - slova, části vět o menší • menší pamětové nároky - menší množství segmentů • horší možnost modelování větné intonace, přízvuků, ... (viz oblasti spektrální stacionarity řeči). Luděk Bártek Úvod do počítačového zpracování řeči • Alofóny • poziční varianty fonémů - obsahuje i části okolních fonémů • počet a?3 (n - počet fonémů) • Difóny • začínají uprostřed jednoho fonému a končí uprostřed následujícího • počet n2 • často využívané pro syntézu i rozpoznávání: • MBrola, ... • Trifóny • začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního • počet a?3 • často využívané pro rozpoznávání a syntézu • Slabičné segmenty. • Segmenty proměnné délky získané z korpusu. • Rámce Luděk Bártek Úvod do počítačového zpracování řeči • Slabika • Slabikovat se učí už děti v první třídě. • Nejmenší jednotka organizační jednotka řeči. • Nelze odvodit strukturu slabik - nejednoznačnost dělení některých slov na slabiky • funk-ční vs funkč-ní. • Počet slabik - uvádí se cca 10000. • Struktura slabiky • preatura (onset) • nukleus (vokalické jádro) - bývá to samohláska, příp. dvojhláska, sonora - např. krk, frikativa - např. pst, nazála -např. sedm • koda - nemusí se vyskytovat • nukleus + koda jsou považovány za základ slabiky • svahy - preatura a kodajedná se většinou o jednu nebo více souhlásek Luděk Bártek Úvod do počítačového zpracování řeči • Definovány uměle • Řešení nejednoznačnosti hranice slabiky. • Frekventované slabičné typy: • V (samohláska/dvojhláska) - ú - kol • KV (souhláska - samohláska) - vo - da • KVK - jed-not-ka • K K - tr-sy • KKV-dna • KKVK-dmout • Tvoří vice než 95 • Umožňují automatickou segmentaci textu. • Používají se např. v syntetizéru Demosthénes (doc. Kopeček LAF (LSD) Fl) Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči v časové oblasti za O Fonetický přepis. 0 Segmentace dle použitých řečových segmentů. O Výběr odpovídajících akustických segmentů • databáze segmentů. Q Spojení segmentů • nutné, aby odpovídala Fo - jinak se vyskytují různé ruchy (lupnutí, ...) • vhodné řešit už při vytváření db segmentů. O Případný postprocessing Luděk Bártek Úvod do počítačového zpracování řeči • Konkatenativní syntéza v časové oblasti. • Jako db segmentů využívá řečový korpus. • Nutno doplnit značky pro syntézu: • fonetický přepis • hranice řečových segmentů • průběh Fo • ... • Umožňuje přesnější výběr segmentů • snižuje výpočetní složitost spojování a postprocessingu. • Příklad - viz dizertační práce dr. Batůška v knihovně Fl. Luděk Bártek Úvod do počítačového zpracování řeči • Většinou se jedná o problémově orientovanou syntézu. • Syntéza se skládá z: • rámců - neměnící se části vět • slotů - měnící se části promluvy • Výhoda: • rámce jsem dopředu namluveny a mohou obsahovat intonaci • syntetizuje se pouze obsah slotů • omezená množina o lze použít celá slova • Příklady: • hlášení nádražního rozhlasu: • Osobní vlak číslo <číslo_vlaku> ze směru přijede k <číslo_nástupiště>. nástupišti v <čas>. Luděk Bártek Úvod do počítačového zpracování řeči