Dialogové systémy Dialogové systémy SABLE SSML Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2022 Syntéza řeči - postprocessing Dialogové systémy Luděk Bártek Postprocessing ■ Cíle dodatečného zpracování - obohatit syntetizovanou Prozódie rec o: Standardy pro syntézu řeči ■ intonaci SABLE SSML ■ přizvuky (větný, slovní) ■ důrazy ■ přestávky ■ Prostředky - modifikace: ■ Fq, případně dalších formantů ■ lokální modifikace větné melodie ■ intenzity - amplitudy Prozódie Úvod Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE Výstup syntézy je monotónní řeč bez intonace a prízvuku - zní nepřirozeně. Náprava - doplnění prozódie. Základní prozodické prvky: ■ výska reci ■ hlasitost ■ doba trvaní. Základním nositelem prozódie v běžné řeči je slabika. Prozódie závisí na typu věty: ■ oznamovací, tázací zjišťovací, rozkazovací - klesající intonace ■ otázka doplňovací (odpověď ano/ne) - rostoucí intonace. Modelování prozódie - modulace Fq. Ukázky větné intonace Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro syntézu řeči SABLE ■ Originální promluva bez intonace SSML ■ Oznamovací věta ■ Otázka zjišťovací Výška základního tónu Dialogové systémy Luděk Bártek ■ Výška základního hlasivkového tónu odpovídá formantu Postprocessing Fo- Prozódie ■ Průběh Fq na vokalickém jádru bývá nelineární. Standardy pro syntézu řeči ■ Změna intonace není pouhou změnou Fq - nutno SABLE SSML modifikovat i vyšší formanty. ■ Na základě důležitosti Fq se jazyky dělí na: ■ tónové (čínština, vietnamština, . ..) - čínské slovo -ma- v závislosti na průběhu Fq může znamenat: ■ konopí (M) ■ kůň (5/) ■ máma (®®) ■ jazyky s melodickým přízvukem (srbština, slovinština, litevština, norština, švédština, ...) Prozódie Další prozodické vlastnosti Dialogové systémy Luděk Bártek ■ Intenzita (hlasitost): Postprocessing Prozódie ■ fyzikální pohled - intenzita signálu v daném časovém Standardy pro okamžiku syntézu řeči ■ fyziologický pohled - reakce vnitřního ucha (coortiho SABLE SSML ústrojí) na vnímaný zvuk ■ tato hlediska se různí: ■ subjektivní vnímání zvuku neodpovídá ani v prvním přiblížení fyzikální intenzitě signálu. ■ Doba trvání: ■ Slabika může mít různou délku trvání v různém kontextu. ■ Drobné odchylky mohou být i ve stejném kontextu. ■ Typická doba trvání slabiky - 50 — 200 milisekund. Prozódie Další prozodické vlastnosti Dialogové systémy Luděk Bártek ■ Kvalita hlasu Postprocessing ■ chvění hlasu (jitter) Prozódie ■ nepravidelné výchylky v amplitudě Fq (shimmer) Standardy pro syntézu řeči ■ zbarvení tónu SABLE ■ ochraptělost SSML ■ míra znělosti ■ Rycí ilost řeči ■ Lze chápat jako převrácenou hodnotu průměrné délky slabiky ■ Lze měřit i jinými způsoby: ■ počtem vyslovených textových znaků za jednotku času (vyhodnocování syntetizérů řeči). Prozódie Další prozodické vlastnosti Dialogové systémy Luděk Bártek ■ Pauza Postprocessing Prozódie Standardy pro syntézu řeči SABLE ■ tichá ■ vyplněná - obsahuje nějaký charakteristický zvuk: ■ eeh ■ áá SSML ■ éé ■ ... ■ Zaváhání ■ Přímo vypovídá o pragmatice projevu. ■ Důležitý např. pro modifikaci dialogové strategie u dialogových systémů. ■ Typický případ informace obsažené zejména v prozodické vrstvě jazyka. Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek ■ Rytmus Postprocessing ■ prozodický prvek odvozený z dob trvání Prozódie ■ slabik Standardy pro syntézu řeči SABLE SSML ■ pauz v daném časovém úseku ■ Slovní prízvuk ■ odvozen ze všech základních atributů ■ je výrazně jazykově závislý: ■ umístění prízvuku ve slově/přízvučné jednotce ■ míra použití prozodických prostředků k jeho vytváření -zejména použití hlasitosti oproti výšce. ■ Větný prízvuk (intonační centrum) ■ zjednodušeně jde o prozodické zvýraznění jádra výpovědi věty Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE Intonace ■ nejobecněji - časový průběh časového spektra hlasu ■ za určující pro melodii se považuje základní hlasová frekvence časová závislost základní hlasové frekvence ■ lze zobrazit grafem v závislosti na čase ■ související terminologie: ■ melodie - průběh Fo ■ kadence - určena např. důrazem, ... ■ intonační kadence ■ melodém - základní melodického průběhu určený na základě jeho gramatické funkce. ■ průběh Fo Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE Emotivní zabarvení hlasu ■ Projevuje se rychlými změnami hlasitosti a základní frekvence. ■ Často přesahují hranici věty ■ Jeho detekce u DS umožňuje zvolit vhodnou dialogovou strategii. Emfatický prízvuk ■ Vytvářen emotivním zbarvením hlasu. ■ Vyskytuje se např. ve větách pronesených v situacích s výrazným emocionálním kontextem: To je tedy opravdu neslýchané. Bolí to jak čert. Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro syntézu řeči C A D 1 [Z ■ Kontrastní prízvuk - snaha o zdůraznění slova nebo bABLb SSML slabiky v kontrastu s jiným slovem nebo slabikou: ,, Rekl jsem do Sakvic ne Rakvic.11 ,,Byte ne bit." Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE Opakování ■ Prozodický atribut silně svázaný s mluvčím. ■ Opakování bývá často variantou výplňkových částí promluvy ■ mluvčí si ji často ani neuvědomuje ■ nezaměňovat s koktáním - porucha řeči. Výplň kove části ■ Kromě výplňkové funkce mohou charakterizovat: ■ styl mluvčího: „Byl jsi včera na akci, vidi" ■ nářečí resp. slang: ,,Vb/e, ta včerejší spářka byla ale hustá, co volel" Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE Přerušení ■ častý jev v mluvené řeči na úrovni: ■ vyšších celků (výpověď/promluva, věta, prozodická fráze, ■ ■■) ■ uvnitř slov. ■ Mívá návaznost na další prozodické prvky: ■ zaváhání ■ opakování ■ vyplněnou pauzu Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro ■ Korekce částí promluvy syntézu řeči SABLE ■ častý jev a to vzhledem k různým částem. SSML ■ Příčiny vzniku: ■ důsledek přeřeknutí ■ upřesnění části promluvy ■ oprava předchozí části promluvy. ■ Často následuje přerušení nebo další prozodické jevy. Prozódie Prozodické segmenty mluvené řeči Dialogové systémy Luděk Bártek ■ Promluva. Postprocessing Prozódie ■ Prozodická fráze Standardy pro syntézu řeči ■ Skupina slov vytvářející jednotný intonační celek. SABLE ■ Představuje základní, z prozodického hlediska kompaktní, SSML strukturu. ■ Členění do prozodických frází souvisí ve velké míře se syntaktickou strukturou odpovídající věty. ■ Přizvukový takt ■ Skupina slabik podřízená jednomu slovnímu prízvuku. ■ V češtině typicky slovo nebo slovo a jednoslabičné slovo. ■ Slabika. Standardy pro syntézu řeči Dialogové systémy Luděk Bártek Postprocessing Prozódie ■ Snaha sjednotit jazyky pro popis promluvy pro řečové Standardy pro syntetizéry. syntézu řeči SABLE ■ Definují značkování postihující: SSML ■ prozódii - rychlost řeči, Fq, zdůraznění části promluvy, pauzu, hlasitost, . .. ■ mluvčího - pohlaví, věk, . . . ■ Používané standardy: ■ SABLE ■ SSML SABLE Dialogové systémy Luděk Bártek Postprocessing ■ Otevřený standard pro prozodické značkování textu. Prozódie Standardy pro ■ Vývoj započat v 2. polovině 90. let syntézu řeči SABLE ■ aplikace XML/SGML SSML ■ snaha o zkombinování 3. značkovacích jazyků pro syntézu reci: ■ SSML - Speech Synthesis Markup Language (W3C, 1999). ■ STML - Spoken Text Markup Language(CSTR Edinburgh University Lucent Technologies, 1997) ■ JSML - Java Synthesis Markup Language (Sun Microsystems, 2000) SABLE Základní značky Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE SABLE - kořenová značka DIV ■ Slouží k členění dokumentu na odstavce a věty. ■ Typ části dokumentu určuje atribut type.
...
■ prozodické značky: ■ EMPH - zdůraznění části promluvy ■ PITCH - výška promluvy ■ VOLUME - úroveň hlasitosti ■ RATE - rychlost ■ BREAK - pauza SABLE Základní značky Dialogové systémy Luděk Bártek Postprocessing Prozódie SABLE Popis mluvčího: ■ element SPEAKER: ■ AGE - věk mluvčího (older, middle, younger, teen, child) ■ GENDER - pohlaví (male, female) ■ NAME - jméno mluvčího, závislé na TTS - TTS musí daného mluvčího znát. Fonetické: ■ PRON - foneticky přepsaná promluva, lze použít IPA. ■ SAYAS - způsob fonetického přepisu (datum, telefon, url, poštovní adresa,. ..) ■ LANGUAGE - jazyk promluvy. SABLE Ukázka Dialogové systémy Luděk Bártek Postprocessing Prozódie
Standardy pro Šepot syntézu řeči <íARI F Rychlá věta.

I don;t speak Japanese.