Dialogové systémy Fonetický pří Syntéza řeči Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2014 Generovaní promluv dialogovým systémem Dialogové systémy Generátor promluv získá od dialogového manažeru informace, které mají být sděleny uživateli. ■ Dvojice atribut — hodnota (viz Pavlakův IS). Generátor promluv musí vytvořit korektní větu v jazyce, který je použit pro komunikaci s uživatelem: ■ doplnění prezentovaných informací do předem připravených rámcových promluv ■ vygenerováním promluv ze sémantické reprezentace promluvy. Problémy: ■ skloňování ■ časování ■ nepravidlenosti. Týkají se především morfologicky bohatých jazyků. Generovaní promluv Řešení problémů Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v Skloňování/časování: ■ vhodný výběr rámců a hodnot slotů ■ hodnota rámce gramaticky odpovídá očekávaným hodnotám slotů. ■ použití lemat + pravidel pro skloňování a časování - nutno řešit nepravidelnosti v jazyce. Syntéza řeči Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v ■ Cíl - převod psaného textu na mluvenou řeč. ■ Výsledná řeč by měla znít co nejpřirozeněji. ■ Přirozená řeč by měla obsahovat: ■ správnou intonaci ■ správné umístění prízvuku ■ slovní ■ větný ■ korektní koartikulaci ■ správný rytmus (časování) Druhy syntézy řeči Dialogové systémy Syntéza ve frekvenční oblasti - simuluje chovaní řečového ústrojí. Syntéza v časové oblasti - spojovaní řečových segmentu do větších celků (věta, promluva, .. .) Korpusová - varianta syntézy v časové oblasti - jako databáze řečových segmentů slouží řečový korpus. Problémově orientovaná syntéza: ■ varianta syntézy v časové oblasti ■ využívá větší celky - věty, . . . ■ příklady: ■ hlášení nádražního rozhlasu ■ automatizované linky telefonické podpory Fáze syntézy řeči Dialogové systémy Luděk Bártek Generování O Fonetický přepis textu. promluv dialogovým Q Syntéza foneticky přepsaného textu: systémem ■ Syntéza ve frekvenční oblasti - volba průběhu parametrů Syntéza řeči Fonetický přepis syntézy (Fo/generátor šumu, vyšší harmonické frekvence, Syntéza řeči ve frekvenční jejich intenzita, . ..) Syntéza řeči v ■ Syntéza v časové oblasti - výběr vhodných segmentů a jejich spojení. B Případný postprocessing: ■ doplnění intonace ■ doplnění přízvuků ■ .. . Fonetický přepis Dialogové systémy Luděk Bártek ■ Slouží k přesnému, jednoznačnému zápisu mluvené řeči. Generování promluv ■ Využívá fonetickou abecedu: dialogovým systémem ■ mezinárodní fonetická abeceda (IPA) - součást standardu Syntéza řeči UNICODE Fonetický přepis Syntéza řeči ve ■ SAMPA (Speech Assessment Method Phonetic Alphabet) frekvenční ■ sedmibitový přepis IPA Syntéza řeči v ■ navržena v 80. letech ■ používá se v různých TTS ■ příklad: tSeSTina je kra:sni: jazik ■ . . . IPA Ukázka Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v CONSOMANTS (PULMOMIC) DOKU. F l.„ .1 Lk.ic wntal Nwl* T!rt ťfjflť-íf Pňlťifťil V:-I.n Fh^l^f^l íldML Nasal Dl "íl n a /> 1 H 1 ľl-.....- pb t d u í j q ,_ í Fricativr t P f v ť J k Y x k h ; h ň Appniximart U j Trill B r mm M Tap. Fl.p V r r Lat.nl ■pcwaaidint l l L . , v.,1 :l.i| J whrr* lymboli m*) ■■lu.i-.l ii.-j■ ,Ľ .-i, , ÚV D Bi 13 judnd ihe rifilii nf|irfy-iii" a Ich* imuunihla . irh: irn In J.™ eptfw nmim mnít Fonetický přepis Dialogové systémy Nelze si pamatovat fonetické přepisy všech promluv: ■ Nutno zabezpečit automatický přepis. Pravidla fonetického přepisu: ■ mohou mít regionální charakter. ■ Příklad - výslovnost na shledanou v ČR: ■ Čechy - naschledanou ■ Morava - nazhledanou. ■ Obě varianty jsou spisovné. ■ Obecně přepis nemusí používat všechny znaky dané abecedy (i/y — i, c — ts, .. .) Zohledňuje koartikulaci (spodobu znělosti). Pravidla fonetického přepisu češtiny Dialogové systémy Luděk Bártek ■ ch - -> x , ů —> ú, w —> v, q —> kv, y —> i, ý —> í Generování ■ ě: promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční ■ ■ . i/í: ■ bě —> bje, pě —> pje, fě —>fje, vě —> vje dě^ ďe, tě—> ťe, ně^ ňe, mě^ mňe d i / f > ďi/í, ti/í—> ťi/í, n i / ľ > ňi/í Syntéza řeči v ■ X: ■ x —> ks — začátek slova před samohláskou, mezi samohláskami nebo před neznělou souhláskou a nebo na konci slova. ■ x -> gz: ■ exsamohláska ■ před znělou souhláskou Změny při spojování souhlásek Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v ■ Dochází k nim při spojování souhlásek. ■ Způsobeny přenastavováním mluvidel. ■ Dva druhy: ■ spodoba znělosti - změna znělosti párových souhlásek: ■ ZPS —> -i ZPS: dub —> dup, zpěv —> spjev ■ N PS -> -. N PS: sběr -> zbjer, když -> gdiš ■ spodoba artikulační - při spojení dvou souhlásek s různou artikulací: ■ nk/ng - banka, tango ■ mv/mf - tramvaj, nymfa ■ nť/nd - punťa, pindík ■ dň - odpovědně, sto dní, vodní ■ ts —> c ■ tš —> č ■ ds —> c ■ dš —> č Syntéza řeči ve frekvenční oblasti Dialogové systémy Simuluje tvorbu hlasu v řečových orgánech. Uchovává se: ■ frekvenční charakteristika hlasu použitého pro syntézu ■ parametry buzení Princip: ■ Emulace hlasových orgánů s využitím: ■ frekvenčních generátorů ■ filtrů ■ zesilovače (zesilovačů). ■ Tyto komponenty jsou ovládány parametry modelu. Využívají se dva způsoby kódování zdroje: ■ řečová syntéza formantového typu ■ LPC řečová syntéza. Řečová syntéza formantového typu Dialogové systémy Rekonstruuje formanty hlasového traktu pomocí sériových a paralelních spojení několika rezonančních obvodů. Jejich frekvence a šířky pásma jsou ovládány elektronicky. Parametry syntetizéru: ■ Fq - základní frekvence ■ F; - formanty ■ F/v - nazální formant ■ B; - pásmové filtry pro F-, ■ G; - parametry řízení zisku/zesílení ■ Kj - formanty pro konsonanty Schéma sériového formantového syntetizéru Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v Počítač Generátor pulsů Řízení úrovně Nazální formant Rezonanční filtr Řízení úrovně Generátor Formanty konsonantů Řízení bílého šumu úrovně Mixér Reč Obrázek: Blokové schéma sériového formantového syntetizéru LPC syntetizér Dialogové systémy Charakteristiky pro LPC syntetizér: ■ perioda základního hlasivkového tónu 7~o ■ charakteristika hlásky - znělá/neznělá ■ amplituda budícího signálu G ■ koeficienty číslicového filtru. Způsob získání koeficientu číslicového filtru: ■ vrcholy v LPC spektrální obálce analyzovaného mikrosegmentu ■ kořeny charakteristické rovnice zdrojového filtru ■ reflexní koeficienty. Schéma LPC syntetizéru Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v Počítač Zesilovač T Číslicový filtr Převod na spojitý tvar Generátor bílého šumu Obrázek: Blokové schéma LPC syntetizéru Syntéza ve frekvenční oblasti Shrnutí Výhody a nevýhody syntézy ve frekvenční oblasti: + Malé paměťové nároky - model použitého mluvčího. + Syntézu lze realizovat hardwarově. - Hlas bývá méně přirozený oproti syntéze v časové oblasti. ■ Problém přesnosti matematického modelu. - Softwarová syntéza ve frekvenční oblasti bývá výpočetně náročnější než syntéza v časové oblasti. Obvyklé využití: ■ doplnění syntézy v časové oblasti o: ■ větnou intonaci ■ větný a slovní přízvuk ■ další prozodické faktory. ■ Občas pro syntézu na zařízeních, která nedisponují dostatečnou kapacitou paměti (mobilní telefony, PDA, ...). ■ Občas pro multiliguální syntézu. Více viz např. J. Psutka - Komunikace s počítačem mluvenou řečí. 4 □ ►