Dialogové systémy
Fonetický pří Syntéza řeči
Luděk Bártek
Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity,
Brno
jaro 2013
Generovaní promluv dialogovým systémem
Dialogové systémy
Generátor promluv získá od dialogového manažeru informace, které mají být sděleny uživateli.
■ Dvojice atribut — hodnota (viz Pavlakův IS).
Generátor promluv musí vytvořit korektní větu v jazyce, který je použit pro komunikaci s uživatelem:
■ doplnění prezentovaných informací do předem připravených rámcových promluv
■ vygenerováním promluv ze sémantické reprezentace promluvy.
Problémy:
■ skloňování
■ časování
■ nepravidlenosti.
Týkají se především morfologicky bohatých jazyků.
Generovaní promluv
Řešení problémů
Generování promluv dialogovým systémem
Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční
Syntéza řeči v
Skloňování/časování:
■ vhodný výběr rámců a hodnot slotů
■ hodnota rámce gramaticky odpovídá očekávaným hodnotám slotů.
■ použití lemat + pravidel pro skloňování a časování - nutno řešit nepravidelnosti v jazyce.
Syntéza řeči
Generování promluv dialogovým systémem
Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční
Syntéza řeči v
■ Cíl - převod psaného textu na mluvenou řeč.
■ Výsledná řeč by měla znít co nejpřirozeněji.
■ Přirozená řeč by měla obsahovat:
■ správnou intonaci
■ správné umístění prízvuku
■ slovní
■ větný
■ korektní koartikulaci
■ správný rytmus (časování)
Druhy syntézy řeči
Dialogové systémy
Syntéza ve frekvenční oblasti - simuluje chovaní řečového ústrojí.
Syntéza v časové oblasti - spojovaní řečových segmentu do větších celků (věta, promluva, .. .)
Korpusová - varianta syntézy v časové oblasti - jako databáze řečových segmentů slouží řečový korpus. Problémově orientovaná syntéza:
■ varianta syntézy v časové oblasti
■ využívá větší celky - věty, . . .
■ příklady:
■ hlášení nádražního rozhlasu
■ automatizované linky telefonické podpory
Fáze syntézy řeči
Dialogové systémy
Fonetický přepis textu.
Syntéza foneticky přepsaného textu:
■ Syntéza ve frekvenční oblasti - volba průběhu parametrů syntézy (FO/generátor šumu, vyšší harmonické frekvence, jejich intenzita, . ..)
■ Syntéza v časové oblasti - výběr vhodných segmentů a jejich spojení.
Případný postprocessing:
■ doplnění intonace
■ doplnění přízvuků
	Fonetický přepis
Dialogové	
systémy	
Luděk Bártek	
	■ Slouží k přesnému, jednoznačnému zápisu mluvené řeči.
Generování promluv	■ Využívá fonetickou abecedu:
dialogovým systémem	■ mezinárodní fonetická abeceda (IPA) - součást standardu
Syntéza řeči	UNICODE
Fonetický přepis Syntéza řeči ve	■ SAMPA (Speech Assessment Method Phonetic Alphabet)
frekvenční	■ sedmibitový přepis IPA
Syntéza řeči v	■ navržena v 80. letech
	■ používá se v různých TTS
	■ příklad:
	tSeSTina je kra:sni: jazik ■ . . .
	
IPA
Ukázka
Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční
Syntéza řeči v
CONSOMANTS (PULMOMIC)
							DOKU.						
	F l.„ .1	Lk.ic	wntal	Nwl*		T!rt ťfjflť-íf	Pňlťifťil	V:-I.n			Fh^l^f^l		íldML
Nasal	Dl	"íl	n			a	/>	1	H		1		
ľl-.....-	pb		t d			u	í j		q			,_ í	
Fricativr	t P	f v					ť J	k Y	x	k	h ;		h ň
Appniximart		U					j						
Trill	B		r					mm				M	
Tap. Fl.p		V	r			r							
													
Lat.nl ■pcwaaidint			l			l		L					
. , v.,1 :l.i|			J										
	whrr* lymboli m*) ■■lu.i-.l ii.-j■ ,Ľ .-i, ,			ÚV D Bi 13 judnd	ihe rifilii nf|irfy-iii" a Ich* imuunihla . irh: irn In					J.™	eptfw nmim	mnít	
Fonetický přepis
Dialogové systémy
Nelze si pamatovat fonetické přepisy všech promluv:
■ Nutno zabezpečit automatický přepis. Pravidla fonetického přepisu:
■ mohou mít regionální charakter.
■ Příklad - výslovnost na shledanou v ČR:
■ Čechy - naschledanou
■ Morava - nazhledanou.
■ Obě varianty jsou spisovné.
■ Obecně přepis nemusí používat všechny znaky dané abecedy (i/y — i, c — ts, .. .)
Zohledňuje koartikulaci (spodobu znělosti).
	Pravidla fonetického přepisu češtiny	
Dialogové systémy		
Luděk Bártek	■ ch -	-> x , ů —> ú, w —> v, q —> kv, y —> i, ý —> í
Generování	■ ě:	
promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční	■ ■ . i/í: ■	bě —> bje, pě —> pje, fě —>fje, vě —> vje dě^ ďe, tě—> ťe, ně^ ňe, mě^ mňe d i / f > ďi/í, ti/í—> ťi/í, n i / ľ > ňi/í
Syntéza řeči v	■ X:	
	■	x —> ks — začátek slova před samohláskou, mezi samohláskami nebo před neznělou souhláskou a nebo na konci slova.
	■	x -> gz: ■ exsamohláska ■ před znělou souhláskou
Změny při spojování souhlásek
Generování promluv dialogovým systémem
Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční
Syntéza řeči v
■ Dochází k nim při spojování souhlásek.
■ Způsobeny přenastavováním mluvidel.
■ Dva druhy:
■ spodoba znělosti - změna znělosti párových souhlásek:
■ ZPS —> -i ZPS: dub —> dup, zpěv —> spjev
■ N PS -> -. N PS: sběr -> zbjer, když -> gdiš
■ spodoba artikulační - při spojení dvou souhlásek s různou artikulací:
■ nk/ng - banka, tango
■ mv/mf - tramvaj, nymfa
■ nť/nd - punťa, pindík
■ dň - odpovědně, sto dní, vodní
■ ts —> c
■ tš —> č
■ ds —> c
■ dš —> č
Syntéza řeči ve frekvenční oblasti
Dialogové systémy
Simuluje tvorbu hlasu v řečových orgánech. Uchovává se:
■ frekvenční charakteristika hlasu použitého pro syntézu
■ parametry buzení
Princip:
■ Emulace hlasových orgánů s využitím:
■ frekvenčních generátorů
■ filtrů
■ zesilovače (zesilovačů).
■ Tyto komponenty jsou ovládány parametry modelu. Využívají se dva způsoby kódování zdroje:
■ řečová syntéza formantového typu
■ LPC řečová syntéza.
Řečová syntéza formantového typu
Dialogové systémy
Rekonstruuje formanty hlasového traktu pomocí sériových a paralelních spojení několika rezonančních obvodů.
Jejich frekvence a šířky pásma jsou ovládány elektronicky. Parametry syntetizéru:
■ Fq - základní frekvence
■ F; - formanty
■ F/v - nazální formant
■ B; - pásmové filtry pro F-,
■ G; - parametry řízení zisku/zesílení
■ Kj - formanty pro konsonanty
Schéma sériového formantového syntetizéru
Generování promluv dialogovým systémem
Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční
Syntéza řeči v
Počítač
Generátor pulsů			Řízení úrovně
			
Nazální formant
Rezonanční filtr
Řízení úrovně
Generátor		Formanty konsonantů		Řízení
bílého šumu				úrovně
Mixér
Reč
Obrázek: Blokové schéma sériového formantového syntetizéru
LPC syntetizér
Dialogové systémy
Charakteristiky pro LPC syntetizér:
■ perioda základního hlasivkového tónu 7~o
■ charakteristika hlásky - znělá/neznělá
■ amplituda budícího signálu G
■ koeficienty číslicového filtru.
Způsob získání koeficientu číslicového filtru:
■ vrcholy v LPC spektrální obálce analyzovaného mikrosegmentu
■ kořeny charakteristické rovnice zdrojového filtru
■ reflexní koeficienty.
4Ľ3k4l3*4 = k4 = *      -š -O^O
Schéma LPC syntetizéru
Generování promluv dialogovým systémem
Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční
Syntéza řeči v
Počítač
Zesilovač		T Číslicový
		filtr
Převod na spojitý tvar
Generátor bílého šumu
Obrázek: Blokové schéma LPC syntetizéru
Syntéza ve frekvenční oblasti
Shrnutí
Výhody a nevýhody syntézy ve frekvenční oblasti: + Malé paměťové nároky - model použitého mluvčího. + Syntézu lze realizovat hardwarově.
- Hlas bývá méně přirozený oproti syntéze v časové oblasti.
■ Problém přesnosti matematického modelu.
- Softwarová syntéza ve frekvenční oblasti bývá výpočetně náročnější než syntéza v časové oblasti.
Obvyklé využití:
■ doplnění syntézy v časové oblasti o:
■ větnou intonaci
■ větný a slovní přízvuk
■ další prozodické faktory.
■ Občas pro syntézu na zařízeních, která nedisponují dostatečnou kapacitou paměti (mobilní telefony, PDA, ...).
■ Občas pro multiliguální syntézu.
Více viz např. J. Psutka - Komunikace s počítačem mluvenou řečí.
4 □ ►   43 ►
1 -00.0
Syntéza v časové oblasti
Generování promluv dialogovým systémem
Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční
Syntéza řeči v
■ Cíl - převod obecného textu na řeč.
■ Postavena na spojování segmentů řeči.
■ Využívají se různé délky základních segmentů:
■ Větší:
■ lze lépe modelovat prozodické charakteristiky řeči
■ větší paměťové nároky - větší množství segmentů (potenciálně až 2", kde n je délka segmentu).
■ příklady segmentů - slova, části vět, věty, . . .
■ Menší:
■ horší možnost modelování prozodických jevů (větná intonace, prízvuky, . . .)
■ menší paměťové nároky - menší množství menších segmentů.
Používané řečové segmenty
Dialogové systémy
Alofóny:
■ poziční varianty fonémů - obsahují
■ foném
■ okolí ovlivněné koartikulací.
■ počet alofónů - n3 (n - počet fonémů). Difóny:
■ začínají uprostřed jednoho fonému a končí uprostřed následujícího fonému
■ počet difónů - n2
m často využívané pro syntézu i pro rozpoznávání (např. syntetizér MBrola)
Používané řečové segmenty
Dialogové systémy
Trifóny:
■ Začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního fonému.
■ Počet - n3.
■ Často používané pro rozpoznávání a syntézu řeči. Slabičné segmenty:
■ Snaha, aby co nejvíce odpovídaly slabikám.
■ Délka - 1 — 3 fonémy.
■ Využívá se např. v TTS systému Demosthenes.
	Syntéza v časové oblasti
	Slabika
Dialogové systémy	
Luděk Bártek	
Generování	
promluv dialogovým systémem Syntéza řeči	■ Slabika: ■ Slabikovat se učí už děti v první třídě.
Fonetický přepis Syntéza řeči ve frekvenční	■ Nejmenší organizační jednotka řeči. ■ Nelze odvodit strukturu slabik - nejednoznačnost dělení
Syntéza řeči v	některých slov na slabiky: ■ funk-ční vs. funkč-ní ■ Počet slabik - uvádí se cca 10 000.
Syntéza v časové oblasti
Struktura slabiky
Generování promluv dialogovým systémem
Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční
Syntéza řeči v
■ Struktura slabiky:
■ preatura (onset)
■ nukleus (vokalické jádro slabiky) - bývá to:
■ samohláska resp. dvojhláska
■ sonora - např. krk
■ frikativa - např. pst
■ nasála - např. sedm
■ koda - nemusí se vyskytovat
■ nukleus + koda jsou považovány za základ slabiky
■ svahy:
■ preatura a koda
■ jedná se většinou o jednu nebo více souhlásek.
Syntéza v časovém pásmu
Slabičné segmenty
Dialogové systémy
Definovány uměle:
■ řešení nejednoznačnosti hranice slabiky. Frekventované slabičné typy:
■ V (samohláska/dvojhláska) - ú - kol
■ KV (souhláska-samohláska) - vo - da
■ KVK - jed-not-ka
■ K K - tr-sy
■ KKV-tma
■ KKVK-dmout
Tyto segmenty tvoří více než 95 % slabik.
Umožňují automatickou segmentaci textu.
Používají se např. v syntetizéru Demosthénes (doc. Kopeček, LSD Fl)
Vlastní syntéza
Dialogové systémy
Fonetický přepis.
Segmentace textu dle použitých řečových segmentu.
Výběr odpovídajících akustických segmentu z db
segmentu.
Spojení segmentu
■ Nutné, aby bylo možné spojité hladké navázání segmentu:
■ shodné nebo velmi blízké hodnoty konce a začátku po sobě jdoucích segmentu
■ shodné nebo velmi blízké hodnoty 1. derivace navazujících konců obou segmentů.
Případný postprocessing
doplnění prozódie.
Syntéza v časové oblasti
Korpusová analýza
Dialogové systémy
Konkatenativní syntéza v časové oblasti.
Jako databázi segmentu využíva řečový korpus.
■ Obsahuje označkovanou mluvenou řeč.
■ Značkovaní obsahuje:
■ fonetický přepis dané řeči
■ hranice řečových segmentu
■ průběh Fo a případně i dalších formantu.
■ Umožňuje presnejší výběr řečových segmentu:
■ snižuje výpočetní složitost spojování a postprocessingu.
Algoritmus výběru segmentů:
Q Výběr odpovídajícího segmentu podle požadovaného obsahu.
Q Pokud je segmentů více zvolí se z nich ten, který nejlépe navazuje.
Syntéza v časové oblasti
Syntéza na bázi rámců
Generování promluv dialogovým systémem
Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční
Syntéza řeči v
■ Většinou se jedná o problémově orientovanou syntézu.
■ Syntéza se skládá z:
■ rámců - neměnící se části vět
■ slotů - měnící se částí promluvy.
■ Výhody:
■ Rámce jsou dopředu namluveny a mohou obsahovat intonaci.
■ Syntetizuje se pouze obsah slotů:
■ velmi dobře specifikovaná množina slov
■ lze použít celá slova.
■ Příklad:
■ hlášení nádražního rozhlasu:
Osobní vlak číslo číslo vlaku ze směru stanice přijede k číslo nástupiště nástupišti v čas.