Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2014 Syntéza řeči - postprocessing Dialogové systémy Cíle dodatečného zpracování - obohatit syntetizovanou řeč o: ■ intonaci ■ přízvuky (větný, slovní) ■ důrazy ■ přestávky. Prostředky - modifikace: ■ Fq, případně dalších formantů ■ lokální modifikace větné melodie ■ intenzity - amplitudy. Prozódie Úvod Dialogové systémy Luděk Bártek ■ Výstup syntézy je monotónní řeč bez intonace a prízvuku Postprocessing Prozódie - zní nepřirozeně. ■ Náprava - doplnění prozódie. Standardy pro syntézu řeči SABLE SSML ■ Základní prozodické prvky: ■ výška řeči ■ hlasitost ■ doba trvání. ■ Základním nositelem prozódie v běžné řeči je slabika. ■ Prozódie závisí na typu věty: ■ oznamovací, tázací zjišťovací, rozkazovací - klesající intonace ■ otázka doplňovací (odpověď ano/ne) - rostoucí intonace. ■ Modelování prozódie - modulace Fq. Ukázky větné intonace Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro syntézu řeči SABLE SSML ■ Originální promluva bez intonace ■ Oznamovací věta ■ Otázka zjišťovací 1 -00.0 Výška základního tónu Dialogové systémy Luděk Bártek ■ Výška základního hlasivkového tónu odpovídá formantu Postprocessing Fo- Standardy pro syntézu řeči SABLE ■ Průběh Fo na vokalickém jádru bývá nelineární. ■ Změna intonace není pouhou změnou Fo - nutno SSML modifikovat i vyšší formanty. ■ Na základě důležitosti Fo se jazyky dělí na: ■ tónové (čínština, vietnamština, .. .) - čínské slovo -ma- v závislosti na průběhu Fo může znamenat: ■ konopí ■ kůň ■ jazyky s melodickým přízvukem (srbština, slovinština, litevština, norština, švédština, .. .) Prozódie Další prozodické vlastnosti Dialogové systémy Luděk Bártek ■ Intenzita (hlasitost): Postprocessing Prozódie ■ fyzikální pohled - intenzita signálu v daném časovém Standardy pro okamžiku syntézu řeči SABLE ■ fyziologický pohled - reakce vnitřního ucha (coortiho SSML ústrojí) na vnímaný zvuk ■ tato hlediska se různí: ■ subjektivní vnímání zvuku neodpovídá ani v prvním přiblížení fyzikální intenzitě signálu. ■ Doba trvání: ■ Slabika může mít různou délku trvání v různém kontextu. ■ Drobné odchylky mohou být i ve stejném kontextu. ■ Typická doba trvání slabiky - 50 — 200 milisekund. Prozódie Další prozodické vlastnosti Dialogové systémy Kvalita hlasu ■ chvění hlasu (jitter) ■ nepravidelné výchylky v amplitudě Fo (shimmer) ■ zbarvení tónu ■ ochraptělost ■ míra znělosti Rychlost řeči ■ Lze chápat jako převrácenou hodnotu průměrné délky slabiky. ■ Lze měřit i jinými způsoby: ■ počtem vyslovených textových znaků za jednotku času (vyhodnocování syntetizérů řeči). Prozódie Další prozodické vlastnosti ■ Pauza ■ tichá ■ vyplněná - obsahuje nějaký charakteristický zvuk: ■ Zaváhání ■ Přímo vypovídá o pragmatice projevu. Důležitý např. pro modifikaci dialogové strategie u dialogových systémů. ■ Typický případ informace obsažené zejména v prozodické vrstvě jazyka. ■ eeh ■ aa ■ ee ► ■0 0.0 Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek ■ Rytmus Postprocessing ■ prozodický prvek odvozený z dob trvání Prozódie ■ slabik Standardy pro syntézu řeči pauz v daném časovém úseku SABLE SSML ■ Slovní přízvuk ■ odvozen ze všech základních atributů ■ je výrazně jazykově závislý: ■ umístění prízvuku ve slově/přízvučné jednotce ■ míra použití prozodických prostředků k jeho vytváření - zejména použití hlasitosti oproti výšce. ■ Větný přízvuk (intonační centrum) ■ zjednodušeně jde o prozodické zvýraznění jádra výpovědi věty. Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Intonace ■ nejobecněji časový průběh časového spektra hlasu za určující pro melodii se považuje základní hlasová frekvence ■ časová závislost základní hlasové frekvence ■ lze zobrazit grafem v závislosti na čase související terminologie: ■ melodie - průběh Fq ■ kadence - určena např. důrazem, . . . ■ intonační kadence ■ melodém - základní melodického průběhu určený na základě jeho gramatické funkce. ■ průběh Fq Prozódie ■ Emotivní zabarvení hlasu ■ Projevuje se rychlými změnami hlasitosti a základní frekvence. ■ Jeho detekce u DS umožňuje zvolit vhodnou dialogovou strategii. ■ Emfatický přízvuk ■ Vytvářen emotivním zbarvením hlasu. ■ Vyskytuje se např. ve větách pronesených v situacích s výrazným emocionálním kontextem: ■ Často přesahují hranici věty. To je tedy opravdu neslýchané. Bolí to jak čert. ► ■0 0.0 Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro syntézu řeči SABLE ■ Kontrastní přízvuk - snaha o zdůraznění slova nebo SSML slabiky v kontrastu s jiným slovem nebo slabikou: „Řekl jsem do Šakvic ne Rakvic." ,,Byte ne bit." i -00.0 Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Opakovaní ■ Prozodický atribut silně svázaný s mluvčím. ■ Opakovaní bývá často variantou výplňkových částí promluvy ■ mluvčí si ji často ani neuvědomuje ■ nezaměňovat s koktáním - porucha řeči. Výplňkové části ■ Kromě výplňkové funkce mohou charakterizovat: ■ styl mluvčího: „Byl jsi včera na akci, viď?" ■ nářečí resp. slang: ,,Vole, ta včerejší spářka byla ale hustá, co vole?" Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie ■ Přerušení Standardy pro ■ častý jev v mluvené řeči na úrovni: syntézu řeči SABLE ■ vyšších celků (výpověď/promluva, věta, prozodická fráze, SSML ...) ■ uvnitř slov. ■ Mívá návaznost na další prozodické prvky: ■ zaváhání ■ opakování ■ vyplněnou pauzu ■ . . . Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro ■ Korekce částí promluvy syntézu řeči SABLE ■ častý jev a to vzhledem k různým částem. SSML ■ Příčiny vzniku: ■ důsledek přeřeknutí ■ upřesnění části promluvy ■ oprava předchozí části promluvy. ■ Často následuje přerušení nebo další prozodické jevy. Prozódie Prozodické segmenty mluvené řeči Dialogové systémy Promluva. Prozodická fráze ■ Skupina slov vytvářející jednotný intonační celek. ■ Představuje základní, z prozodického hlediska kompaktní, strukturu. ■ Členení do prozodických frází souvisí ve velké míre se syntaktickou strukturou odpovídající věty. Přizvukový takt ■ Skupina slabik podřízená jednomu slovnímu prízvuku. ■ V češtině typicky slovo nebo slovo a jednoslabičné slovo. Slabika. Standardy pro syntézu řeči Dialogové systémy Snaha sjednotit jazyky pro popis promluvy pro řečové syntetizéry. Definují značkování postihující: ■ prozódii - rychlost řeči, Fo, zdůraznění části promluvy, pauzu, hlasitost, . .. ■ mluvčího - pohlaví, věk, . .. Používané standardy: ■ SABLE ■ SSML SABLE Dialogové systémy Luděk Bártek Postprocessing ■ Otevřený standard pro prozodické značkování textu. Prozódie Standardy pro ■ Vývoj započat v 2. polovině 90. let syntézu řeči SABLE ■ aplikace XML/SGML SSML ■ snaha o zkombinování 3. značkovacích jazyků pro syntézu řeči: ■ SSML - Speech Synthesis Markup Language (W3C, 1999). ■ STML - Spoken Text Markup Language(CSTR Edinburgh University, Lucent Technologies, 1997) ■ JSML - Java Synthesis Markup Language (Sun Microsystems, 2000) SABLE Základní značky SABLE - kořenová značka DIV ■ Slouží k členění dokumentu na odstavce a věty. ■ Typ části dokumentu určuje atribut type.