Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2015 Syntéza řeči - postprocessing Dialogové systémy Cíle dodatečného zpracování - obohatit syntetizovanou řeč o: ■ intonaci ■ přízvuky (větný, slovní) ■ důrazy ■ přestávky. Prostředky - modifikace: ■ Fq, případně dalších formantů ■ lokální modifikace větné melodie ■ intenzity - amplitudy. Prozódie Úvod Dialogové systémy Luděk Bártek ■ Výstup syntézy je monotónní řeč bez intonace a prízvuku Postprocessing Prozódie - zní nepřirozeně. ■ Náprava - doplnění prozódie. Standardy pro syntézu řeči SABLE SSML ■ Základní prozodické prvky: ■ výška řeči ■ hlasitost ■ doba trvání. ■ Základním nositelem prozódie v běžné řeči je slabika. ■ Prozódie závisí na typu věty: ■ oznamovací, tázací zjišťovací, rozkazovací - klesající intonace ■ otázka doplňovací (odpověď ano/ne) - rostoucí intonace. ■ Modelování prozódie - modulace Fq. Ukázky větné intonace Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro syntézu řeči SABLE SSML ■ Originální promluva bez intonace ■ Oznamovací věta ■ Otázka zjišťovací 1 -00.0 Výška základního tónu Dialogové systémy Luděk Bártek ■ Výška základního hlasivkového tónu odpovídá formantu Postprocessing Fq. Prozódie ■ Průběh Fq na vokalickém jádru bývá nelineární. Standardy pro syntézu řeči SABLE ■ Změna intonace není pouhou změnou Fq - nutno SSML modifikovat i vyšší formanty. ■ Na základě důležitosti Fq se jazyky dělí na: ■ tónové (čínština, vietnamština, .. .) - čínské slovo -ma- v závislosti na průběhu Fo může znamenat: ■ konopí (JS) ■ kůň (S,) ■ máma (MM) ■ jazyky s melodickým přízvukem (srbština, slovinština, litevština, norština, švédština, .. .) Prozódie Další prozodické vlastnosti Dialogové systémy Luděk Bártek ■ Intenzita (hlasitost): Postprocessing Prozódie ■ fyzikální pohled - intenzita signálu v daném časovém Standardy pro okamžiku syntézu řeči SABLE ■ fyziologický pohled - reakce vnitřního ucha (coortiho SSML ústrojí) na vnímaný zvuk ■ tato hlediska se různí: ■ subjektivní vnímání zvuku neodpovídá ani v prvním přiblížení fyzikální intenzitě signálu. ■ Doba trvání: ■ Slabika může mít různou délku trvání v různém kontextu. ■ Drobné odchylky mohou být i ve stejném kontextu. ■ Typická doba trvání slabiky - 50 — 200 milisekund. Prozódie Další prozodické vlastnosti Dialogové systémy Kvalita hlasu ■ chvění hlasu (jitter) ■ nepravidelné výchylky v amplitudě Fo (shimmer) ■ zbarvení tónu ■ ochraptělost ■ míra znělosti Rychlost řeči ■ Lze chápat jako převrácenou hodnotu průměrné délky slabiky. ■ Lze měřit i jinými způsoby: ■ počtem vyslovených textových znaků za jednotku času (vyhodnocování syntetizérů řeči). Prozódie Další prozodické vlastnosti ■ Pauza ■ tichá ■ vyplněná - obsahuje nějaký charakteristický zvuk: ■ Zaváhání ■ Přímo vypovídá o pragmatice projevu. Důležitý např. pro modifikaci dialogové strategie u dialogových systémů. ■ Typický případ informace obsažené zejména v prozodické vrstvě jazyka. ■ eeh ■ aa ■ ee ► ■0 0.0 Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek ■ Rytmus Postprocessing ■ prozodický prvek odvozený z dob trvání Prozódie ■ slabik Standardy pro syntézu řeči pauz v daném časovém úseku SABLE SSML ■ Slovní přízvuk ■ odvozen ze všech základních atributů ■ je výrazně jazykově závislý: ■ umístění prízvuku ve slově/přízvučné jednotce ■ míra použití prozodických prostředků k jeho vytváření - zejména použití hlasitosti oproti výšce. ■ Větný přízvuk (intonační centrum) ■ zjednodušeně jde o prozodické zvýraznění jádra výpovědi věty. Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Intonace ■ nejobecněji časový průběh časového spektra hlasu za určující pro melodii se považuje základní hlasová frekvence ■ časová závislost základní hlasové frekvence ■ lze zobrazit grafem v závislosti na čase související terminologie: ■ melodie - průběh Fq ■ kadence - určena např. důrazem, . . . ■ intonační kadence ■ melodém - základní melodického průběhu určený na základě jeho gramatické funkce. ■ průběh Fq Prozódie ■ Emotivní zabarvení hlasu ■ Projevuje se rychlými změnami hlasitosti a základní frekvence. ■ Jeho detekce u DS umožňuje zvolit vhodnou dialogovou strategii. ■ Emfatický přízvuk ■ Vytvářen emotivním zbarvením hlasu. ■ Vyskytuje se např. ve větách pronesených v situacích s výrazným emocionálním kontextem: ■ Často přesahují hranici věty. To je tedy opravdu neslýchané. Bolí to jak čert. 4 S ► 4 = ► ■0 0.0 Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro syntézu řeči SABLE ■ Kontrastní přízvuk - snaha o zdůraznění slova nebo SSML slabiky v kontrastu s jiným slovem nebo slabikou: „Řekl jsem do Šakvic ne Rakvic." ,,Byte ne bit." i -00.0 Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Opakovaní ■ Prozodický atribut silně svázaný s mluvčím. ■ Opakování bývá často variantou výplňkových částí promluvy ■ mluvčí si ji často ani neuvědomuje ■ nezaměňovat s koktáním - porucha řeči. Výplňkové části ■ Kromě výplňkové funkce mohou charakterizovat: ■ styl mluvčího: „Byl jsi včera na akci, viď?" ■ nářečí resp. slang: ,,Vole, ta včerejší spářka byla ale hustá, co vole?" Prozódie Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie ■ Přerušení Standardy pro ■ častý jev v mluvené řeči na úrovni: syntézu řeči SABLE ■ vyšších celků (výpověď/promluva, věta, prozodická fráze, SSML ...) ■ uvnitř slov. ■ Mívá návaznost na další prozodické prvky: ■ zaváhání ■ opakování ■ vyplněnou pauzu ■ . . . Základní odvozené prozodické vlastnosti Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro ■ Korekce částí promluvy syntézu řeči SABLE ■ častý jev a to vzhledem k různým částem. SSML ■ Příčiny vzniku: ■ důsledek přeřeknutí ■ upřesnění části promluvy ■ oprava předchozí části promluvy. ■ Často následuje přerušení nebo další prozodické jevy. Prozódie Prozodické segmenty mluvené řeči Dialogové systémy Promluva. Prozodická fráze ■ Skupina slov vytvářející jednotný intonační celek. ■ Představuje základní, z prozodického hlediska kompaktní, strukturu. ■ Členení do prozodických frází souvisí ve velké míre se syntaktickou strukturou odpovídající věty. Přizvukový takt ■ Skupina slabik podřízená jednomu slovnímu prízvuku. ■ V češtině typicky slovo nebo slovo a jednoslabičné slovo. Slabika. Standardy pro syntézu řeči Dialogové systémy Snaha sjednotit jazyky pro popis promluvy pro řečové syntetizéry. Definují značkování postihující: ■ prozódii - rychlost řeči, Fo, zdůraznění části promluvy, pauzu, hlasitost, . .. ■ mluvčího - pohlaví, věk, . .. Používané standardy: ■ SABLE ■ SSML SABLE Dialogové systémy Luděk Bártek Postprocessing ■ Otevřený standard pro prozodické značkování textu. Prozódie Standardy pro ■ Vývoj započat v 2. polovině 90. let syntézu řeči SABLE ■ aplikace XML/SGML SSML ■ snaha o zkombinování 3. značkovacích jazyků pro syntézu řeči: ■ SSML - Speech Synthesis Markup Language (W3C, 1999). ■ STML - Spoken Text Markup Language(CSTR Edinburgh University, Lucent Technologies, 1997) ■ JSML - Java Synthesis Markup Language (Sun Microsystems, 2000) SABLE Základní značky SABLE - kořenová značka DIV ■ Slouží k členění dokumentu na odstavce a věty. ■ Typ části dokumentu určuje atribut type.
...
■ prozodické značky: ■ EMPH - zdůraznění části promluvy ■ PITCH - výška promluvy ■ VOLUME - úroveň hlasitosti ■ RATE - rychlost ■ BREAK - pauza SABLE Základní značky Dialogové systémy Popis mluvčího: ■ element SPEAKER: ■ AGE - věk mluvčího (older, middle, younger, teen, child) ■ GENDER - pohlaví (male, female) ■ NAME - jméno mluvčího, závislé na TTS - TTS musí daného mluvčího znát. Fonetické: ■ PRON - foneticky přepsaná promluva, lze použít IPA. ■ SAYAS - způsob fonetického přepisu (datum, telefon, url, poštovní adresa,. ..) ■ LANGUAGE - jazyk promluvy. SABLE Ukázka Dialogové systémy Luděk Bártek Postprocessing Standardy pro
Sepot syntézu řeči SABLE Rychlá věta. Vysoko posazená věta
SSML Dialogové systémy Luděk Bártek Postprocessing Prozódie Standardy pro syntézu řeči SABLE SSML ■ Otevřený standard W3C ■ Vývoj započat koncem 90. let. ■ Aplikace XML. ■ Součást rodiny W3C Voice Browser Activity ■ Aktuální verze 1.0 (září 2004) syntézu řeči SABLE SSML

I don)t speak Japanese.

<|> = i -O^O