Dialogové systémy Fonetický pří Syntéza řeči Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2012 Generování promluv dialogovým systémem Dialogové systémy Luděk Bártek ■ Generátor promluv získá od dialogového manažeru informace, které mají být sděleny uživateli. Generování promluv ■ Dvojice atribut — hodnota (viz Pavlakův IS). dialogovým systémem Syntéza řeči ■ Generátor promluv musí vytvoří korektní větu v jazyce, který je použit pro komunikaci s uživatelem: Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v ■ doplnění prezentovaných informací do předem připravených rámcových promluv ■ vygenerováním promluv ze sémantické reprezentace promluvy. ■ Problémy: ■ skloňování ■ časování ■ nepravidlenosti. ■ Týkají se především morfologicky bohatých jazyků. Generovaní promluv Řešení problémů Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v Skloňování/časování: ■ vhodný výběr rámců a hodnot slotů ■ hodnota rámec gramaticky odpovídá očekávaným hodnotám slotů. ■ použití lemat + pravidel pro skloňování a časování - nutno řešit nepravidelnosti v jazyce. Syntéza řeči Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v ■ Cíl - převod psaného textu na mluvenou řeč. ■ Výsledná řeč by měla znít co nejpřirozeněji. ■ Přirozená řeč by měla obsahovat: ■ správnou intonaci ■ správné umístění prízvuku ■ slovní ■ větný ■ korektní koartikulaci ■ správný rytmus (časování) Druhy syntézy řeči Dialogové systémy Syntéza ve frekvenční oblasti - simuluje chovaní řečového ústrojí. Syntéza v časové oblasti - spojovaní řečových segmentu do větších celků (věta, promluva, .. .) Korpusová - varianta syntézy v časové oblasti - jako databáze řečových segmentů slouží řečový korpus. Problémově orientovaná syntéza: ■ varianta syntézy v časové oblasti ■ využívá větší celky - věty, . . . ■ příklady: ■ hlášení nádražního rozhlasu ■ automatizované linky telefonické podpory Fáze syntézy řeči Dialogové systémy Fonetický přepis textu. Syntéza foneticky přepsaného textu: ■ Syntéza ve frekvenční oblasti - volba průběhu parametrů syntézy (FO/generátor šumu, vyšší harmonické frekvence, jejich intenzita, . ..) ■ Syntéza v časové oblasti - výběr vhodných segmentů a jejich spojení. Případný postprocessing: ■ doplnění intonace ■ doplnění přízvuků Fonetický přepis Dialogové systémy Luděk Bártek ■ Slouží k přesnému, jednoznačnému zápisu mluvené řeči. Generování promluv ■ Využívá fonetickou abecedu: dialogovým systémem ■ mezinárodní fonetická abeceda (IPA) - součást standardu Syntéza řeči UNICODE Fonetický přepis Syntéza řeči ve ■ SAMPA (Speech Assessment Method Phonetic Alphabet) frekvenční ■ sedmibitový přepis IPA Syntéza řeči v ■ navržena v 80. letech ■ používá se v různých TTS ■ příklad: tSeSTina je kra:sni: jazik ■ . . . IPA Ukázka Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v CONSOMANTS (PULMOMIC) DOKU. F l.„ .1 Lk.ic wntal Nwl* T!rt ťfjflť-íf Pňlťifťil V:-I.n Fh^l^f^l íldML Nasal Dl "íl n a /> 1 H 1 ľl-.....- pb t d u í J q ,_ í Fricativr t P f v ť J k Y x k h ; h ň Appniximart U j Trill B r mm M Tap. Fl.p V r r Lat.nl ■pcwaaidint l l L . , v.,1 :l.i| j whrr* lymboli m*) ■■lu.i-.l ii.-j■ ,Ľ .-i, , ÚV D Bi 13 judnd ihe rifilii nf|irfy-iii" a Ich* imuunihla . irh: irn In J.™ eptfw nmim mnít Fonetický přepis Dialogové systémy Nelze si pamatovat fonetické přepisy všech promluv: ■ Nutno zabezpečit automatický přepis. Pravidla fonetického přepisu: ■ mohou mít regionální charakter. ■ Příklad - výslovnost na shledanou v ČR: ■ Čechy - naschledanou ■ Morava - nazhledanou. ■ Obě varianty jsou spisovné. ■ Obecně přepis nemusí používat všechny znaky dané abecedy (i/y — i, c — ts, .. .) Zohledňuje koartikulaci (spodobu znělosti). Pravidla fonetického přepisu češtiny Dialogové systémy Luděk Bártek ■ ch - -> x , ů —> ú, w —> v, q —> kv, y —> i, ý —> í Generování ■ ě: promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční ■ ■ . i/í: ■ bě —> bje, pě —> pje, fě —>fje, vě —> vje dě^ ďe, tě—> ťe, ně^ ňe, mě^ mňe d i / f > ďi/í, ti/í—> ťi/í, n i / ľ > ňi/í Syntéza řeči v ■ X: ■ x —> ks — začátek slova před samohláskou, mezi samohláskami nebo před neznělou souhláskou a nebo na konci slova. ■ x -> gz: ■ exsamohláska ■ před znělou souhláskou Změny při spojování souhlásek Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v ■ Dochází k nim při spojování souhlásek. ■ Způsobeny přenastavováním mluvidel. ■ Dva druhy: ■ spodoba znělosti - změna znělosti párových souhlásek: ■ ZPS —> -i ZPS: dub —> dup, zpěv —> spjev ■ N PS -> -. N PS: sběr -> zbjer, když -> gdiš ■ spodoba artikulační - při spojení dvou souhlásek s různou artikulací: ■ nk/ng - banka, tango ■ mv/mf - tramvaj, nymfa ■ nť/nd - punťa, pindík ■ dň - odpovědně, sto dní, vodní ■ ts —> c ■ tš —> č ■ ds —> c ■ dš —> č Syntéza řeči ve frekvenční oblasti Dialogové systémy Simuluje tvorbu hlasu v řečových orgánech. Uchovává se: ■ frekvenční charakteristika hlasu použitého pro syntézu ■ parametry buzení Princip: ■ Emulace hlasových orgánů s využitím: ■ frekvenčních generátorů ■ filtrů ■ zesilovače (zesilovačů). ■ Tyto komponenty jsou ovládány parametry modelu. Využívají se dva způsoby kódování zdroje: ■ řečová syntéza formantového typu ■ LPC řečová syntéza. Řečová syntéza formantového typu Dialogové systémy Rekonstruuje formanty hlasového traktu pomocí sériových a paralelních spojení několika rezonančních obvodů. Jejich frekvence a šířky pásma jsou ovládány elektronicky. Parametry syntetizéru: ■ Fq - základní frekvence ■ F; - formanty ■ F/v - nazální formant ■ B; - pásmové filtry pro F-, ■ G; - parametry řízení zisku/zesílení ■ Kj - formanty pro konsonanty Schéma sériového formantového syntetizéru Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v Počítač Generátor pulsů Řízení úrovně Nazální formant Rezonanční filtr Řízení úrovně Generátor Formanty konsonantů Řízení bílého šumu úrovně Mixér Reč Obrázek: Blokové schéma sériového formantového syntetizéru LPC syntetizér Dialogové systémy Charakteristiky pro LPC syntetizér: ■ perioda základního hlasivkového tónu 7~o ■ charakteristika hlásky - znělá/neznělá ■ amplituda budícího signálu G ■ koeficienty číslicového filtru. Způsob získání koeficientu číslicového filtru: ■ vrcholy v LPC spektrální obálce analyzovaného mikrosegmentu ■ kořeny charakteristické rovnice zdrojového filtru ■ reflexní koeficienty. Schéma LPC syntetizéru Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v Počítač Zesilovač T Číslicový filtr Převod na spojitý tvar Generátor bílého šumu Obrázek: Blokové schéma LPC syntetizéru Syntéza ve frekvenční oblasti Shrnutí Výhody a nevýhody syntézy ve frekvenční oblasti: + Malé paměťové nároky - model použitého mluvčího. + Syntézu lze realizovat hardwarově. - Hlas bývá méně přirozený oproti syntéze v časové oblasti. ■ Problém přesnosti matematického modelu. - Softwarová syntéza ve frekvenční oblasti bývá výpočetně náročnější než syntéza v časové oblasti. Obvyklé využití: ■ doplnění syntézy v časové oblasti o: ■ větnou intonaci ■ větný a slovní přízvuk ■ další prozodické faktory. ■ Občas pro syntézu na zařízeních, která nedisponují dostatečnou kapacitou paměti (mobilní telefony, PDA, ...). Více viz např. J. Psutka - Komunikace s počítačem mluvenou řečí. 4 □ ► 4 S ► 4 1 -00.0 Syntéza v časové oblasti Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v ■ Cíl - převod obecného textu na řeč. ■ Postavena na spojování segmentů řeči. ■ Využívají se různé délky základních segmentů: ■ Větší: ■ lze lépe modelovat prozodické charakteristiky řeči ■ větší paměťové nároky - větší množství segmentů (potenciálně až 2", kde n je délka segmentu). ■ příklady segmentů - slova, části vět, věty, . . . ■ Menší: ■ horší možnost modelování prozodických jevů (větná intonace, prízvuky, . . .) ■ menší paměťové nároky - menší množství menších segmentů. Používané řečové segmenty Dialogové systémy Alofóny: ■ poziční varianty fonémů - obsahují ■ foném ■ okolí ovlivněné koartikulací. ■ počet alofónů - n3 (n - počet fonémů). Difóny: ■ začínají uprostřed jednoho fonému a končí uprostřed následujícího fonému ■ počet difónů - n2 m často využívané pro syntézu i pro rozpoznávání (např. syntetizér MBrola) Používané řečové segmenty Dialogové systémy Trifóny: ■ Začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního fonému. ■ Počet - n3. ■ Často používané pro rozpoznávání a syntézu řeči. Slabičné segmenty: ■ Snaha, aby co nejvíce odpovídaly slabikám. ■ Délka - 1 — 3 fonémy. ■ Využívá se např. v TTS systému Demosthenes. Syntéza v časové oblasti Slabika Dialogové systémy Luděk Bártek Generování promluv dialogovým systémem Syntéza řeči ■ Slabika: ■ Slabikovat se učí už děti v první třídě. Fonetický přepis Syntéza řeči ve frekvenční ■ Nejmenší organizační jednotka řeči. ■ Nelze odvodit strukturu slabik - nejednoznačnost dělení Syntéza řeči v některých slov na slabiky: ■ funk-ční vs. funkč-ní ■ Počet slabik - uvádí se cca 10 000. Syntéza v časové oblasti Struktura slabiky Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v ■ Struktura slabiky: ■ preatura (onset) ■ nukleus (vokalické jádro slabiky) - bývá to: ■ samohláska resp. dvojhláska ■ sonora - např. krk ■ frikativa - např. pst ■ nasála - např. sedm ■ koda - nemusí se vyskytovat ■ nukleus + koda jsou považovány za základ slabiky ■ svahy: ■ preatura a koda ■ jedná se většinou o jednu nebo více souhlásek. Syntéza v časovém pásmu Slabičné segmenty Dialogové systémy Definovány uměle: ■ řešení nejednoznačnosti hranice slabiky. Frekventované slabičné typy: ■ V (samohláska/dvojhláska) - ú - kol ■ KV (souhláska-samohláska) - vo - da ■ KVK - jed-not-ka ■ K K - tr-sy ■ KKV-tma ■ KKVK-dmout Tyto segmenty tvoří více než 95 % slabik. Umožňují automatickou segmentaci textu. Používají se např. v syntetizéru Demosthénes (doc. Kopeček, LSD Fl) Vlastní syntéza Dialogové systémy Fonetický přepis. Segmentace textu dle použitých řečových segmentu. Výběr odpovídajících akustických segmentu z db segmentu. Spojení segmentu ■ Nutné, aby bylo možné spojité hladké navázání segmentu: ■ shodné nebo velmi blízké hodnoty konce a začátku po sobě jdoucích segmentu ■ shodné nebo velmi blízké hodnoty 1. derivace navazujících konců obou segmentů. Případný postprocessing doplnění prozódie. Syntéza v časové oblasti Korpusová analýza Dialogové systémy Konkatenativní syntéza v časové oblasti. Jako databázi segmentu využíva řečový korpus. ■ Obsahuje označkovanou mluvenou řeč. ■ Značkovaní obsahuje: ■ fonetický přepis dané řeči ■ hranice řečových segmentu ■ průběh Fo a případně i dalších formantu. ■ Umožňuje presnejší výběr řečových segmentu: ■ snižuje výpočetní složitost spojování a postprocessingu. Algoritmus výběru segmentů: Q Výběr odpovídajícího segmentu podle požadovaného obsahu. Q Pokud je segmentů více zvolí se z nich ten, který nejlépe navazuje. Syntéza v časové oblasti Syntéza na bázi rámců Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční Syntéza řeči v ■ Většinou se jedná o problémově orientovanou syntézu. ■ Syntéza se skládá z: ■ rámců - neměnící se části vět ■ slotů - měnící se částí promluvy. ■ Výhody: ■ Rámce jsou dopředu namluveny a mohou obsahovat intonaci. ■ Syntetizuje se pouze obsah slotů: ■ velmi dobře specifikovaná množina slov ■ lze použít celá slova. ■ Příklad: ■ hlášení nádražního rozhlasu: Osobní vlak číslo číslo vlaku ze směru stanice přijede k číslo nástupiště nástupišti v čas.