Syntéza řeči v časové oblasti Úvod do počítačového zpracování řeči Luděk Bártek Fakulta infromatiky Masarykova univerzita podzim 2019 Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči v časové oblasti Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči v časové oblasti • Princip o spojování navzorkovaných řečových segmentů uložených v databázi. • Využívají se různé typy základních segmentů: • vetsi • lépe se modelují některé další charakteristiky jako intonace, prízvuky • větší nároky na pamět - větší množství segmentů (potenciálně až 2n, kde n je délka segmentu) • příklady - slova, části vět • menší • menší pamětové nároky - menší množství segmentů 9 horší možnost modelování větné intonace, přízvuků,... (viz oblasti spektrální stacionarity řeči). Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči v časové oblasti Používané řečové segmenty • Alofóny • poziční varianty fonémů - obsahuje i části okolních fonémů • počet a?3 (n - počet fonémů) • Difóny • začínají uprostřed jednoho fonému a končí uprostřed následujícího • počet n2 • často využívané pro syntézu i rozpoznávání: • MBrola, ... • Trifóny o začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního a počet a?3 • často využívané pro rozpoznávání a syntézu o Slabičné segmenty. • Segmenty proměnné délky získané z korpusu. • Rámce Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči v časové oblasti • Slabika Slabikovat se učí už děti v první třídě. • Nejmenší jednotka organizační jednotka řeči. • Nelze odvodit strukturu slabik - nejednoznačnost dělení některých slov na slabiky • funk-ční vs funkč-ní. • Počet slabik - uvádí se cca 10000. • Struktura slabiky • preatura (onset) o nukleus (vokalické jádro) - bývá to samohláska, příp. dvojhláska, sonora - např. krk, frikativa - např. pst, nazála -např. sedm • koda - nemusí se vyskytovat a nukleus + koda jsou považovány za základ slabiky • svahy - preatura a koda;jedná se většinou o jednu nebo více souhlásek Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči v časové oblasti • Definovány uměle o Řešení nejednoznačnosti hranice slabiky. • Frekventované slabičné typy: • V (samohláska/dvojhláska) - ú - kol • KV (souhláska-samohláska)-vo-da • KVK - jed-not-ka 9 KK-tr-sy o KKV-dna o KKVK-dmout • Tvoří vice než 95 • Umožňují automatickou segmentaci textu. • Používají se např. v syntetizéru Demosthénes (doc. Kopeček LAF (LSD) Fl) Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči v časové oblasti O Fonetický přepis. O Segmentace dle použitých řečových segmentů. O Výběr odpovídajících akustických segmentů • databáze segmentů. O Spojení segmentů 9 nutné, aby odpovídala F0 - jinak se vyskytují různé ruchy (lupnutí, ...) • vhodné řešit už při vytváření db segmentů. 0 Případný postprocessing Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči v časové oblasti • Konkatenativní syntéza v časové oblasti. • Jako db segmentů využívá řečový korpus, a Nutno doplnit značky pro syntézu: o fonetický přepis o hranice řečových segmentů 9 průběh F0 9 ... • Umožňuje přesnější výběr segmentů • snižuje výpočetní složitost spojování a postprocessingu. o Příklad - viz dizertační práce dr. Batůška v knihovně Fl. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči v časové oblasti Většinou se jedná o problémově orientovanou syntézu. Syntéza se skládá z: • rámců - neměnící se části vět • slotů - měnící se části promluvy Výhoda: o rámce jsem dopředu namluveny a mohou obsahovat intonaci • syntetizuje se pouze obsah slotů • omezená množina • lze použít celá slova Příklady: • hlášení nádražního rozhlasu: • Osobní vlak číslo <číslo_vlaku> ze směru přijede k <číslo_nástupiště>. nástupišti v <čas> Luděk Bártek Úvod do počítačového zpracování řeči