Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro syntézu řeči SABLE SSML Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2016 >0 0,0 Syntéza řeči - postprocessing Dialogové systémy Luděk Bártek Postprocessing ■ Cíle dodatečného zpracování - obohatit syntetizovanou řeč Prozódie o: Standardy pro syntézu řeči ■ intonaci SABLE SSML ■ přizvuky (větný, slovní) ■ důrazy ■ přestávky ■ Prostředky - modifikace: ■ Fo, případně dalších formantů ■ lokální modifikace větné melodie ■ intenzity - amplitudy Prozódie Úvod Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE SSML Výstup syntézy je monotónní řeč bez intonace a prízvuku - zní nepřirozeně. Náprava - doplnění prozódie. Základní prozodické prvky: ■ výska reci ■ hlasitost ■ doba trvaní. Základním nositelem prozódie v běžné řeči je slabika. Prozódie závisí na typu věty: ■ oznamovací, tázací zjišťovací, rozkazovací - klesající intonace ■ otázka doplňovací (odpověď ano/ne) - rostoucí intonace. Modelování prozódie - modulace Fq. Ukázky větné intonace Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro syntézu řeči SABLE SSML Originální promluva bez intonace Oznamovací věta Otázka zjišťovací Výška základního tónu Dialogové systémy Luděk Bártek ■ Výška základního hlasivkového tónu odpovídá formantu Postprocessing F0. Prozódie Standardy pro ■ Průběh Fq na vokalickém jádru bývá nelineární. J i syntézu řeči SABLE ■ Změna intonace není pouhou změnou Fq - nutno SSML modifikovat i vyšší formanty. ■ Na základě důležitosti Fq se jazyky dělí na: ■ tónové (čínština, vietnamština, . ..) - čínské slovo -ma- v závislosti na průběhu Fq může znamenat: ■ konopí (M) ■ kůň (5/) ■ máma {MM) ■ jazyky s melodickým přízvukem (srbština, slovinština, litevština, norština, švédština, ...) Prozódie Další prozodické vlastnosti Dialogové systémy Luděk Bártek ■ Intenzita (hlasitost): Postprocessing Prozódie ■ fyzikální pohled - intenzita signálu v daném časovém Standardy pro okamžiku syntézu řeči SABLE ■ fyziologický pohled - reakce vnitřního ucha (coortiho SSML ústrojí) na vnímaný zvuk ■ tato hlediska se různí: ■ subjektivní vnímání zvuku neodpovídá ani v prvním přiblížení fyzikální intenzitě signálu. ■ Doba trvání: ■ Slabika může mít různou délku trvání v různém kontextu. ■ Drobné odchylky mohou být i ve stejném kontextu. ■ Typická doba trvání slabiky - 50 — 200 milisekund. Prozódie Další prozodické vlastnosti Dialogové systémy Luděk Bártek ■ Kvalita hlasu Postprocessing Prozódie Standardy pro syntézu řeči SABLE SSML ■ ■ ■ ■ ■ chvění hlasu (jitter) nepravidelné výchylky v amplitudě Fq (shimmer) zbarvení tónu ochraptělost míra znělosti ■ Rycí ilost řeči ■ ■ Lze chápat jako převrácenou hodnotu průměrné délky slabiky Lze měřit i jinými způsoby: ■ počtem vyslovených textových znaků za jednotku času (vyhodnocování syntetizérů řeči). Prozódie Další prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE SSML Pauza ■ tichá ■ vyplněná - obsahuje nějaký charakteristický zvuk: ■ eeh ■ áá ■ éé Zaváhání ■ Přímo vypovídá o pragmatice projevu. ■ Důležitý např. pro modifikaci dialogové strategie u dialogových systémů. ■ Typický případ informace obsažené zejména v prozodické vrstvě jazyka. Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE SSML Rytmus ■ prozodický prvek odvozený z dob trvaní ■ slabik ■ pauz v daném časovém úseku Slovní prízvuk ■ odvozen ze všech základních atributů ■ je výrazně jazykově závislý: ■ umístění prízvuku ve slově/přízvučné jednotce ■ míra použití prozodických prostředků k jeho vytváření -zejména použití hlasitosti oproti výšce. Větný prízvuk (intonační centrum) ■ zjednodušeně jde o prozodické zvýraznění jádra výpovědi věty Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE SSML Intonace nejobecněji - časový průběh časového spektra hlasu za určující pro melodii se považuje základní hlasová frekvence ■ časová závislost základní hlasové frekvence ■ lze zobrazit grafem v závislosti na čase související terminologie: ■ melodie - průběh Fo ■ kadence - určena např. důrazem, ... ■ intonační kadence ■ melodém - základní melodického průběhu určený na základě jeho gramatické funkce. ■ průběh Fo Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE SSML Emotivní zabarvení hlasu ■ Projevuje se rychlými změnami hlasitosti a základní frekvence. ■ Často přesahují hranici věty ■ Jeho detekce u DS umožňuje zvolit vhodnou dialogovou strategii. Emfatický přízvuk ■ Vytvářen emotivním zbarvením hlasu. ■ Vyskytuje se např. ve větách pronesených v situacích s výrazným emocionálním kontextem: To je tedy opravdu neslýchané. Bolí to jak čert. Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro syntézu řeči CARI C ■ Kontrastní prízvuk - snaha o zdůraznění slova nebo jMDLt SSML slabiky v kontrastu s jiným slovem nebo slabikou: ,, Rekl jsem do Sakvic ne Rakvic.11 ,,Byte ne bit." Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE SSML Opakování ■ Prozodický atribut silně svázaný s mluvčím. ■ Opakování bývá často variantou výplňkových částí promluvy ■ mluvčí si ji často ani neuvědomuje ■ nezaměňovat s koktáním - porucha řeči. Výplň kove části ■ Kromě výplňkové funkce mohou charakterizovat: ■ styl mluvčího: „Byl jsi včera na akci, vidi" ■ nářečí resp. slang: ,,Vb/e, ta včerejší spářka byla ale hustá, co volel" Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE SSML Přerušení ■ častý jev v mluvené řeči na úrovni: ■ vyšších celků (výpověď/promluva, věta, prozodická fráze, ■ ■■) ■ uvnitř slov. ■ Mívá návaznost na další prozodické prvky: ■ zaváhání ■ opakování ■ vyplněnou pauzu Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro syntézu řeči SABLE SSML ■ Korekce částí promluvy ■ častý jev a to vzhledem k různým částem. ■ Příčiny vzniku: ■ důsledek přeřeknutí ■ upřesnění části promluvy ■ oprava předchozí části promluvy. ■ Často následuje přerušení nebo další prozodické jevy. >0 Q,o Prozódie Prozodické segmenty mluvené řeči Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE SSML Promluva. Prozodická fráze ■ Skupina slov vytvářející jednotný intonační celek. ■ Představuje základní, z prozodického hlediska kompaktní, strukturu. ■ Členění do prozodických frází souvisí ve velké míře se syntaktickou strukturou odpovídající věty. Přizvukový takt ■ Skupina slabik podřízená jednomu slovnímu prízvuku. ■ V češtině typicky slovo nebo slovo a jednoslabičné slovo. Slabika. Standardy pro syntézu řeči Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE SSML Snaha sjednotit jazyky pro popis promluvy pro řečové syntetizéry. Definují značkování postihující: ■ prozódii - rychlost řeči, Fq, zdůraznění části promluvy, pauzu, hlasitost, . .. ■ mluvčího - pohlaví, věk, . . . Používané standardy: ■ SABLE ■ SSML SABLE Dialogové systémy Luděk Bártek Postprocessing ■ Otevřený standard pro prozodické značkování textu. Prozódie Standardy pro ■ Vývoj započat v 2. polovině 90. let syntézu řeči SABLE ■ aplikace XML/SGML SSML ■ snaha o zkombinování 3. značkovacích jazyků pro syntézu reci: ■ SSML - Speech Synthesis Markup Language (W3C, 1999). ■ STML - Spoken Text Markup Language(CSTR Edinburgh University Lucent Technologies, 1997) ■ JSML - Java Synthesis Markup Language (Sun Microsystems, 2000) SABLE Základní značky Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE SSML SABLE - kořenová značka DIV ■ Slouží k členění dokumentu na odstavce a věty. ■ Typ části dokumentu určuje atribut type.