Dialogové systémy Fonetický pří Syntéza řeči Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2014 Generovaní promluv dialogovým systémem Dialogové systémy Generátor promluv získá od dialogového manažeru informace, které mají být sděleny uživateli. ■ Dvojice atribut — hodnota (viz Pavlakův IS). Generátor promluv musí vytvořit korektní větu v jazyce, který je použit pro komunikaci s uživatelem: ■ doplnění prezentovaných informací do předem připravených rámcových promluv ■ vygenerováním promluv ze sémantické reprezentace promluvy. Problémy: ■ skloňování ■ časování ■ nepravidlenosti. Týkají se především morfologicky bohatých jazyků. Generovaní promluv Řešení problémů Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v Skloňování/časování: ■ vhodný výběr rámců a hodnot slotů ■ hodnota rámce gramaticky odpovídá očekávaným hodnotám slotů. ■ použití lemat + pravidel pro skloňování a časování - nutno řešit nepravidelnosti v jazyce. Syntéza řeči Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v ■ Cíl - převod psaného textu na mluvenou řeč. ■ Výsledná řeč by měla znít co nejpřirozeněji. ■ Přirozená řeč by měla obsahovat: ■ správnou intonaci ■ správné umístění prízvuku ■ slovní ■ větný ■ korektní koartikulaci ■ správný rytmus (časování) Druhy syntézy řeči Dialogové systémy Syntéza ve frekvenční oblasti - simuluje chovaní řečového ústrojí. Syntéza v časové oblasti - spojovaní řečových segmentu do větších celků (věta, promluva, .. .) Korpusová - varianta syntézy v časové oblasti - jako databáze řečových segmentů slouží řečový korpus. Problémově orientovaná syntéza: ■ varianta syntézy v časové oblasti ■ využívá větší celky - věty, . . . ■ příklady: ■ hlášení nádražního rozhlasu ■ automatizované linky telefonické podpory Fáze syntézy řeči Dialogové systémy Luděk Bártek Generování O Fonetický přepis textu. promluv dialogovým Q Syntéza foneticky přepsaného textu: systémem ■ Syntéza ve frekvenční oblasti - volba průběhu parametrů Syntéza řeči Fonetický přepis syntézy (Fo/generátor šumu, vyšší harmonické frekvence, Syntéza řeči ve frekvenční jejich intenzita, . ..) Syntéza řeči v ■ Syntéza v časové oblasti - výběr vhodných segmentů a jejich spojení. B Případný postprocessing: ■ doplnění intonace ■ doplnění přízvuků ■ .. . Fonetický přepis Dialogové systémy Luděk Bártek ■ Slouží k přesnému, jednoznačnému zápisu mluvené řeči. Generování promluv ■ Využívá fonetickou abecedu: dialogovým systémem ■ mezinárodní fonetická abeceda (IPA) - součást standardu Syntéza řeči UNICODE Fonetický přepis Syntéza řeči ve ■ SAMPA (Speech Assessment Method Phonetic Alphabet) frekvenční ■ sedmibitový přepis IPA Syntéza řeči v ■ navržena v 80. letech ■ používá se v různých TTS ■ příklad: tSeSTina je kra:sni: jazik ■ . . . Fonetický přepis Dialogové systémy Nelze si pamatovat fonetické přepisy všech promluv: ■ Nutno zabezpečit automatický přepis. Pravidla fonetického přepisu: ■ mohou mít regionální charakter. ■ Příklad - výslovnost na shledanou v ČR: ■ Čechy - naschledanou ■ Morava - nazhledanou. ■ Obě varianty jsou spisovné. ■ Obecně přepis nemusí používat všechny znaky dané abecedy (i/y — i, c — ts, .. .) Zohledňuje koartikulaci (spodobu znělosti). Pravidla fonetického přepisu češtiny Dialogové systémy Luděk Bártek ■ ch —> x , ů —> ú, w —> v, q —> kv, y —> i, ý —> í Generování ■ ě: promluv dialogovým ■ bě —>• bje, pě —>• pje, fě —>-fje, vě —>• vje systémem ■ dě^ ďe, tě—>• ťe, ně^ ňe, mě^ mňe Syntéza řeči Fonetický přepis ■ 1/1: Syntéza řeči ve frekvenční ■ di/í—>• ďi/í, ti/í—>• ťi/í, ni/í—>• ňi/í Syntéza řeči v ■ X: ■ x —>• ks — začátek slova před samohláskou, mezi samohláskami nebo před neznělou souhláskou a nebo na konci slova. ■ x ->• gz: ■ exsamohláska ■ před znělou souhláskou Změny při spojování souhlásek Dialogové systémy ■ Dochází k nim při spojování souhlásek. Luděk Bártek ■ Způsobeny přenastavováním mluvidel. Generování promluv ■ Dva druhy: dialogovým systémem ■ spodoba znělosti - změna znělosti párových souhlásek: Syntéza řeči ■ ZPS —> -i ZPS: dub —> dup, zpěv —> spjev Fonetický přepis Syntéza řeči ve ■ N PS -. N PS: sběr zbjer, když gdiš frekvenční ■ spodoba artikulační - při spojení dvou souhlásek s různou Syntéza řeči v artikulací: ■ nk/ng - banka, tango ■ mv/mf - tramvaj, nymfa ■ nť/nd - punťa, pindík ■ dň - odpovědně, sto dní, vodní ■ ts —>• c ■ tš —>• č ■ ds —>• c ■ dš —>• č Syntéza řeči ve frekvenční oblasti Dialogové systémy Simuluje tvorbu hlasu v řečových orgánech. Uchovává se: ■ frekvenční charakteristika hlasu použitého pro syntézu ■ parametry buzení Princip: ■ Emulace hlasových orgánů s využitím: ■ frekvenčních generátorů ■ filtrů ■ zesilovače (zesilovačů). ■ Tyto komponenty jsou ovládány parametry modelu. Využívají se dva způsoby kódování zdroje: ■ řečová syntéza formantového typu ■ LPC řečová syntéza. Řečová syntéza formantového typu Dialogové systémy Rekonstruuje formanty hlasového traktu pomocí sériových a paralelních spojení několika rezonančních obvodů. Jejich frekvence a šířky pásma jsou ovládány elektronicky. Parametry syntetizéru: ■ Fq - základní frekvence ■ F; - formanty ■ F/y - nazální formant ■ B; - pásmové filtry pro F-, ■ G; - parametry řízení zisku/zesílení ■ Kj - formanty pro konsonanty Schéma sériového formantového syntetizéru Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v Počítač Generátor pulsů Řízení úrovně Nazální formant Rezonanční filtr Řízení úrovně Generátor Formanty konsonantů Řízení bílého šumu úrovně Mixér Reč Obrázek: Blokové schéma sériového formantového syntetizéru LPC syntetizér Dialogové systémy Charakteristiky pro LPC syntetizér: ■ perioda základního hlasivkového tónu 7~o ■ charakteristika hlásky - znělá/neznělá ■ amplituda budícího signálu G ■ koeficienty číslicového filtru. Způsob získání koeficientu číslicového filtru: ■ vrcholy v LPC spektrální obálce analyzovaného mikrosegmentu ■ kořeny charakteristické rovnice zdrojového filtru ■ reflexní koeficienty. Schéma LPC syntetizéru Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v Počítač Zesilovač T Číslicový filtr Převod na spojitý tvar Generátor bílého šumu Obrázek: Blokové schéma LPC syntetizéru Syntéza ve frekvenční oblasti Shrnutí Výhody a nevýhody syntézy ve frekvenční oblasti: + Malé paměťové nároky - model použitého mluvčího. + Syntézu lze realizovat hardwarově. - Hlas bývá méně přirozený oproti syntéze v časové oblasti. ■ Problém přesnosti matematického modelu. - Softwarová syntéza ve frekvenční oblasti bývá výpočetně náročnější než syntéza v časové oblasti. Obvyklé využití: ■ doplnění syntézy v časové oblasti o: ■ větnou intonaci ■ větný a slovní přízvuk ■ další prozodické faktory. ■ Občas pro syntézu na zařízeních, která nedisponují dostatečnou kapacitou paměti (mobilní telefony, PDA, ...). ■ Občas pro multiliguální syntézu. Více viz např. J. Psutka - Komunikace s počítačem mluvenou řečí. 4 □ ►