Dialogové systémy Luděk Bártek Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2018 >0 0,0 Generovaní promluv dialogovým systémem Dialogové systémy Luděk Bártek Generování Syntéza řeči v časové oblasti Generátor promluv získá od dialogového manažeru informace, které mají být sděleny uživateli. ■ Dvojice atribut — hodnota (viz Pavlakův IS). Generátor promluv musí vytvořit korektní větu v jazyce, který je použit pro komunikaci s uživatelem: ■ doplnění prezentovaných informací do předem připravených rámcových promluv ■ vygenerováním promluv ze sémantické reprezentace promluvy Problémy: ■ skloňování ■ časování ■ nepravidlenosti. Týkají se především morfologicky bohatých jazyků. Generovaní promluv Řešení problémů Dialogové systémy Luděk Bártek Generování Syntéza řeči v časové oblasti Sklonová n í/časová n í: ■ vhodný výběr rámců a hodnot slotů ■ hodnota rámce gramaticky odpovídá očekávaným hodnotám slotů. ■ použití lemat + pravidel pro skloňování a časování - nutno řešit nepravidelnosti v jazyce. Syntéza řeči Dialogové systémy Luděk Bártek Generování Syntéza řeči v časové oblasti Cíl - převod psaného textu na mluvenou řeč. ■ Výsledná řeč by měla znít co nejpřirozeněji. Přirozená řeč by měla obsahovat: ■ správnou intonaci ■ správné umístění přízvuků ■ slovní ■ větný ■ korektní koartikulaci ■ správný rytmus (časování) Druhy syntézy řeči Dialogové systémy Luděk Bártek Generovaní Syntéza řeči v časové oblasti Syntéza ve frekvenční oblasti - simuluje chovaní řečovéh ústroji. Syntéza v časové oblasti - spojovaní řečových segmentů do větších celků (věta, promluva, ...) Korpusová - varianta syntézy v časové oblasti - jako databáze řečových segmentů slouží řečový korpus. Problémově orientovaná syntéza: ■ varianta syntézy v časové oblasti ■ využívá větší celky - věty . . . ■ příklady: ■ hlášení nádražního rozhlasu ■ automatizované linky telefonické podpory Fáze syntézy řeči Dialogové systémy Luděk Bártek Generování Syntéza řeči v časové oblasti Fonetický přepis textu. Syntéza foneticky přepsaného textu: ■ Syntéza ve frekvenční oblasti - volba průběhu parametrů syntézy (Fo/generátor šumu, vyšší harmonické frekvence, jejich intenzita, .. .) ■ Syntéza v časové oblasti - výběr vhodných segmentů a jejich spojení. Případný postprocessing: ■ doplnění intonace ■ doplnění přízvuků Fonetický přepis Dialogové systémy Luděk Bártek Generování Syntéza řeči v časové oblasti Slouží k přesnému, jednoznačnému zápisu mluvené řeči. Využívá fonetickou abecedu: ■ mezinárodní fonetická abeceda (IPA) - součást standardu UNICODE ■ SAMPA (Speech Assessment Method Phonetic Alphabet) ■ sedmibitový přepis IPA ■ navržena v 80. letech ■ používá se v různých TTS ■ příklad: tSeSTina je kra:sni: jazik IPA Ukázka Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti CŮNSŮMANTS (iHJLMÚNIC) i.-.ifci:HH,L ■ i«TH-Jŕl| EUlňh^l dentjl 1 ..ii.-■il wol iť Fd|dtd| 1 1. t '.■■ivj-.il 1 PJ ^.■-1.-:■ .■: in "P n a P M qp db t d ti kg q ú ■f ? | Frkativí ♦ p f v Ô 5 S Z r 3 1 x k H n Af pr Ort i m a ni ■J j. \ j b Ir.II B r Tapr Flap V ť r ŕrirarive i. ■ť _ Lalrrjl ^i|WWu iln-ul f iriifulif min |u:lpyiLľo If ■ ■ 111 - ■ - -■ 11 ■ I ■ - Fonetický přepis Dialogové systémy Luděk Bártek Generování promluv dialogovým systémem ■ Nelze si pamatovat fonetické přepisy všech promluv: ■ Nutno zabezpečit automatický přepis. ■ Pravidla fonetického přepisu: Syntéza řeči Fonetický přepis Syntéza řeči ve f rpk\/pnčn í ■ mohou mít regionální charakter. ■ Příklad - výslovnost na shledanou v ČR: 11 crwciiLi 11 oblasti Syntéza řeči v časové oblasti ■ Cechy - naschledanou ■ Morava - nazhledanou. ■ Obě varianty jsou spisovné. ■ Obecně přepis nemusí používat všechny znaky dané abecedy (i/y = i, c = ts, . ..) ■ Zohledňuje koartikulaci (spodobu znělosti). Pravidla fonetického prepisu češtiny ■ ch —> x , ů —> ú, w —> v, q —> kv, y —> i, ý —> í ■ x —>> ks — začátek slova před samohláskou, mezi samohláskami nebo před neznělou souhláskou a nebo na konci slova. ■ x -» gz: ■ exsamoh láska ■ před znělou souhláskou ■ bě —)► bje, pě —>► pje, fě —Mje, vě —)► vje ■ dě—ďe, tě—)- ťe, ně—^ ňe, mě—mňe Změny při spojování souhlásek Dialogové systémy Luděk Bártek Generování Syntéza řeči v časové oblasti Dochází k nim při spojování souhlásek. Způsobeny pře n a stavová ním mluvidel. Dva druhy: ■ spodoba znělosti - změna znělosti párových souhlásek: ■ ZPS —>• -i ZPS: dub —>• dup, zpěv —>• spjev ■ NPS -. NPS: sběr zbjer, když gdiš ■ spodoba artikulační- při spojení dvou souhlásek s různou artikulací: ■ nk/ng - banka, tango ■ mv/mf - tramvaj, nymfa ■ nť/nd - punťa, pindík ■ d ň - odpovědně, sto dní, vodní ■ ts —>► c ■ tS —>• C ■ ds —>• c ■ dš c □ ^ > 4 ^ >■ 4 .= Syntéza řeči ve frekvenční oblasti Dialogové systémy Luděk Bártek Generování Syntéza řeči v časové oblasti Simuluje tvorbu hlasu v řečových orgánech. Uchovává se: ■ frekvenční charakteristika hlasu použitého pro syntézu ■ parametry buzení Princip: ■ Emulace hlasových orgánů s využitím: ■ frekvenčních generátorů ■ filtrů ■ zesilovače (zesilovačů). ■ Tyto komponenty jsou ovládány parametry modelu. Využívají se následující způsoby kódování zdroje: ■ řečová syntéza formantového typu ■ L PC řečová syntéza ■ syntéza postavená na H M M Řečová syntéza formantového typu Dialogové systémy Luděk Bártek Generování Syntéza řeči v časové oblasti Rekonstruuje formanty hlasového traktu pomocí sériových a paralelních spojení několika rezonančních obvodů. Jejich frekvence a šírky pásma jsou ovládány elektronicky. Parametry syntetizéru: m Fq - základní frekvence ■ Fj - formanty ■ F/v - nazální formant ■ B i - pásmové filtry pro F\ ■ G; - parametry řízení zisku/zesílení ■ K j - formanty pro konsonanty Schéma sériového formantového syntetizéru Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Počítač Generátor pulsů Řízení úrovně Nazální formant B. B. t t t t t t Rezonanční filtr Řízení úrovně Mixér Generátor bílého šumu Formanty konsonantů Řízení úrovně Reč Obrázek: Blokové schéma sériového formantového syntetizéru LPC syntetizér Dialogové systémy Luděk Bártek Generování Syntéza řeči v časové oblasti Charakteristiky pro LPC syntetizér: ■ perioda základního hlasivkového tónu 7~o ■ charakteristika hlásky - znělá/neznělá ■ amplituda budícího signálu G ■ koeficienty číslicového filtru. Způsob získání koeficientu číslicového filtru: ■ vrcholy v LPC spektrální obálce analyzovaného mikrosegmentu ■ kořeny charakteristické rovnice zdrojového filtru ■ reflexní koeficienty. Schéma LPC syntetizéru Dialogové systémy Luděk Bártek Počítač Generování promluv dialogovým systémem Syntéza řeči Fonetický přepis Syntéza řeči ve frekvenční oblasti Syntéza řeči v časové oblasti Číslicový filtr Převod na spojitý tvar Generátor bílého šumu Obrázek: Blokové schéma LPC syntetizéru Syntéza ve frekvenční oblasti Shrnutí Dialogové systémy Luděk Bártek Generovaní Syntéza řeči v časové oblasti Výhody a nevýhody syntézy ve frekvenční oblasti: + Malé paměťové nároky - model použitého mluvčího. + Syntézu lze realizovat hardwarově. - Hlas bývá méně přirozený oproti syntéze v časové oblasti ■ Problém přesnosti matematického modelu. - Softwarová syntéza ve frekvenční oblasti bývá výpočetně náročnější než syntéza v časové oblasti. Obvyklé využití: ■ doplnění syntézy v časové oblasti o: ■ větnou intonaci ■ větný a slovní přízvuk ■ další prozodické faktory. ■ Občas pro syntézu na zařízeních, která nedisponují dostatečnou kapacitou paměti (mobilní telefony PDA, • ••)• ■ Občas pro multiliguální syntézu. Více viz např. J. Psutka - Komunikace s počítačem mluvenou řečí. n , Syntéza v časové oblasti Dialogové systémy Luděk Bártek Generovaní Syntéza řeči v časové oblasti Cíl - převod obecného textu na řeč. Postavena na spojovaní segmentů řeči. Využívají se různé délky základních segmentů: ■ Větší: ■ lze lépe modelovat prozodické charakteristiky řeči ■ větší paměťové nároky - větší množství segmentů (potenciálně až 2n, kde n je délka segmentu). ■ příklady segmentů - slova, části vět, věty, ... ■ Menší: ■ horší možnost modelování prozodických jevů (větná intonace, prízvuky, . ..) ■ menší paměťové nároky - menší množství menších segmentů. Používané řečové segmenty Dialogové systémy Luděk Bártek Generování Syntéza řeči v časové oblasti Alofóny: ■ poziční varianty fonémů - obsahují ■ foném ■ okolí ovlivněné koartikulací. ■ počet alofónů - n3 (n - počet fonémů). Difóny: ■ začínají uprostřed jednoho foném u a končí uprostřed následujícího fonému ■ počet difónů - n2 ■ často využívané pro syntézu i pro rozpoznávání (např. syntetizér MBrola) Používané řečové segmenty Dialogové systémy Luděk Bártek Generovaní Syntéza řeči v časové oblasti Trifóny: ■ Začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního fonému. ■ Počet - A73. ■ Často používané pro rozpoznávania syntézu řeči. Slabičné segmenty: ■ Snaha, aby co nejvíce odpovídaly slabikám. ■ Délka - 1 — 3 fonémy. ■ Využívá se např. v TTS systému Demosthenes. Syntéza v časové oblasti Slabika Dialogové systémy Luděk Bártek Generovaní Syntéza řeči v časové oblasti Slabika Slabikovat se učí už děti v první třídě. Nejmenší organizační jednotka řeči. Nelze odvodit strukturu slabik - nejednoznačnost dělení některých slov na slabiky: ■ funk-čnívs. funkč-ní Počet slabik - uvádí se cca 10 000. Syntéza v časové oblasti Struktura slabiky Dialogové systémy Luděk Bártek Generovaní Syntéza řeči v časové oblasti Struktura slabiky: ■ preatura (onset) ■ nukleus (vokalické jádro slabiky) - bývá to: ■ samohláska resp. dvojhláska ■ sonora - napr. krk ■ frikativa - napr. pst ■ nasála - např. sedm m koda - nemusí se vyskytovat ■ nukleus + koda jsou považovány za základ slabiky ■ svahy: ■ preatura a koda ■ jedná se většinou o jednu nebo více souhlásek. Syntéza v časovém pásmu Slabičné segmenty Dialogové systémy Luděk Bártek Generovaní Syntéza řeči v časové oblasti Definovány uměle: ■ řešení nejednoznačnosti hranice slabiky Frekventované slabičné typy: ■ V (samohláska/dvojhláska) - ú - kol ■ KV (souhláska-samohláska) - vo - da ■ KVK - jed-not-ka ■ K K - tr-sy ■ KKV-tma ■ KKVK-dmout Tyto segmenty tvoří více než 95 % slabik. Umožňují automatickou segmentaci textu. Používají se např. v syntetizéru Demosthénes (doc. Kopeček, LSD Fl) Vlastní syntéza Dialogové systémy Luděk Bártek Generování Syntéza řeči v časové oblasti Fonetický přepis. Segmentace textu dle použitých řečových segmentů. Výběr odpovídajících akustických segmentů z db segmentů. Spojení segmentů ■ Nutné, aby bylo možné spojité hladké navázání segmentů: ■ shodné nebo velmi blízké hodnoty konce a začátku po sobě jdoucích segmentů ■ shodné nebo velmi blízké hodnoty 1. derivace navazujících konců obou segmentů. Případný postprocessing ■ doplnění prozódie. Syntéza v časové oblasti Korpusová syntéza Dialogové systémy Luděk Bártek ■ Konkatenativní syntéza v časové oblasti. Generování ■ Jako databázi segmentů využívá řečový korpus. promluv dialogovým ■ Obsahuje označkovanou mluvenou řeč. O J systémem ■ Značkování obsahuje: Syntéza řeči ■ fonetický přepis dané řeči Fonetický přepis Syntéza řeči ve ■ hranice řečových segmentů frekvenční oblasti ■ průběh Fo a případně i dalších formantů. Syntéza řeči v časové oblasti ■ Umožňuje přesnější výběr řečových segmentů: ■ snižuje výpočetní složitost spojování a postprocessingu. ■ Algoritmus výběru segmentů: O Výběr odpovídajícího segmentu podle požadovaného obsahu. B Pokud je segmentů více zvolí se z nich ten, který nejlépe navazuje. < n ► < r5? ► < ^ ► < ^ > Ě O Q, O Syntéza v časové oblasti Syntéza na bázi rámců Dialogové systémy Luděk Bártek Generovaní Syntéza řeči v časové oblasti Většinou se jedná o problémově orientovanou syntézu Syntéza se skládá z: rámců - neměnící se části vět ■ slotů - měnící se částí promluvy Výhody: ■ Rámce jsou dopředu namluveny a mohou obsahovat intonaci. ■ Syntetizuje se pouze obsah slotů: ■ velmi dobře specifikovaná množina slov ■ lze použít celá slova. Příklad: lášení nádražního rozhlasu: Osobní vlak číslo číslo vlaku ze směru stanice přijede k číslo nástupiště nástupišti v čas.