Syntéza řeči - postprocessing Značkování prozódie U vod do počítačového zpracování řeči Luděk Bártek Fakulta infromatiky Masarykova univerzita podzim 2014 Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Obsah Q Syntéza řeči - postprocessing Q Značkovaní prozódie Luděk Bártek Uvod do počítačového zpracování řeči Prozódie Syntéza řeči - postprocessing Značkovaní prozódie • Výstupem syntézy je monotóní hlas bez intonace a prízvuku -zní nepřirozeně • Doplnění prozódie • základní prozodické prvky: • výška a hlasitost • doba trvaní • nositelem je slabika • Větná intonace (prozódie) - závisí na typu věty: • otázky zjištovací (odpověď ano/ne) - rostoucí oznamovací, tázací doplňovací, rozkazovací - klesající • řeší se modulací Fq • Doplnění přízvuku/důrazu • modifikace Fq a intenzity • lokální modifikace větné melodie Luděk Bártek Uvod do počítačového zpracování řeči Syntéza reči - postprocessing I Značkovaní prozódie I Prozódie - ukážky vetné intonace • Originální promluva (data/masse .wav) • Oznamovací věta (data/masse-ozn.wav) • Otázka zjištovací (dat a/masse-dotaz .wav) Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Výška základního tónu • Výška základního tónu odpovídá formantu Fq. • Průběh Fq na vokalickém jádru bývá nelineární. • Změna intonace není pouhou změnou Fq » nutno modifikovat i vyšší formanty. • Na základě důležitosti Fq se jazyky dělí na: • tónové (čínština, vietnamština, ...) • čínské slovo -ma- v závislosti na průběhu Fq může znamenat matka, konopí, kůň, nadávat • jazyky s melodickým přízvukem (srbštína, slovinština, litevština, norština, švédština, ...) Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Další prozodické vlastnosti • Intenzita (hlasitost): • fyzikální pohled - intenzita signálu v daném časovém okamžiku • fyziologický pohled - reakce vnitřního ucha (cortiho ústrojí) na vnímaný zvuk. • Tato hlediska se různí. • Subjektivní vnímání zvuku neodpovídá ani v prvním přiblížení fyzikální intenzitě signálu. • Doba trvání: • Slabika může mít různou dobu trvání v různém kontextu. • Drobné odchylky mohou být i ve stejném kontextu. • Typická doba trvání slabiky 50 — 200 milisekund. Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Další prozodické vlastnosti • Kvalita hlasu • chvění hlasu (jitter) • nepravidelné výchylky v amplitudě Fo (shimmer) • zbarvení tónu • ochraptělost • níra znělosti a ... • Rychlost řeči • Lze chápat jako převrácenou hodnotu průměrné délky slabiky Lze měřit i jinými způsoby: o počtem vyslovených textových znaků za jednotku času (vyhodnocování syntetizérů řeči). Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Další prozodické vlastnosti Pokračování • tichá • vyplněná - obsahuje nějaký charakteristický zvuk (např. eeh) • ztížená detekce - hlavní formát je blízký formantům samohlásek "a" , "e" . • Zaváhání • Přímo vypovídá o pragmatice projevu. » Důležitý např. pro modifikaci dialogové strategie u dialogových systémů. • Typický případ informace obsažené zejména v prozodické vrstvě jazyka. Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Základní odvozené prozodické vlastnosti • Rytmus (časovaní): • Prozodický prvek odvozený z dob trvaní • slabik • pauz v daném časovém úseku. • Slovní prízvuk • Je odvozen ze všech základních atributů. • Je výrazně jazykově závislý: • umístění prízvuku ve slově/přízvučné jednotce • míra použití prozodických prostředků k jeho vyjádření zejména použití hlasitosti oproti výšce. • Větný přístup (intonační centrum): • zjednudešeně jde o prozodické zvýraznění jádra výpovědi věty Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing I Značkování prozódie I Základní odvozené prozodické vlastnosti (2.) • Intonace • nejobecněji - časový průběh zvukového spektra hlasu o za určující pro melodii se obvykle považuje základní hlasová frekvence - lze zobrazit grafem v závislosti na čase • časová závislost základní hlasové frekvence • související terminologie: • melodie • kadence • intonační kadence • melodém • průběh Fo • Emotivní zabarvení hlasu • projevuje se: • rychlými změnami hlasitosti a základní frekvence • Často přesahují hranici věty. • Detekce je důležitá např. pro dialogové systémy - umožňuje zvolit vhodnou dialogovou strategii. Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Základní odvozené prozodické vlastnosti (3.) • Emfatický prízvuk • Vytvářen emotivním zbarvením hlasu. o Vyskytuje se např. ve větách pronesených v situacích s výrazným emocionálním kontextem, např. • To je tedy opravdu neslýchané. • Bolí to jak čert. • Kontrastní prízvuk • snaha o zdůraznění slova nebo slabiky v kontrastu s jiným slovem nebo slabikou během promluvy nebo dialogu: • "řekl jsem do Šakvic ne Rakvic" • "byte ne bit" Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Základní odvozené prozodické vlastnosti (4.) • Opakování • prozodický atribut silně svázaný s mluvčím. • Opakování bývá často variantou výplňkových částí promluvy -mluvčí si ji často ani neuvědomuje (nezaměňovat s koktáním -porucha řeči). o Může se jedna o formu zdůraznění - v krajním případ může být považováno za vadu řeči. • Výplňkové části • kromě výplňkové funkce mohou charakterizovat • styl mluvčího: „Byl jsi včera na akci, viď?" • nářečí resp. slang: ,,Vole, ta včerejší spářka byla hustá, že vole?" Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing I Značkování prozódie I Základní odvozené prozodické vlastnosti (5.) • Přerušení: • častý jev v mluvené řeči na úrovní: • vyšších celků (výpověď/promluva, věta, prozodická fráze, ...) • uvnitř slov. • Mívá návaznost na další prosodické prvky: o zaváhání • opakování • vyplněnou pauzu • ... • Zvyšuje obtížnost rozpoznávání mluvené řeči - nutno s ním počítat. • Korekce částí promluvy: • Častý jev a to vzhledem k rozdílným částem. • Příčiny vzniku: • důsledek přeřeknutí, • upřesnění předchozí části promluvy, • oprava předchozí části promluvy. • Často následuje přerušení nebo další prozodické jevy. Syntéza řeči - postprocessing Značkování prozódie Prozodické segmenty mluvené řeči • Prozodické segmenty mluvené řeči: • Promluva. • Prozodická fráze • Skupina slov vytvářející jednotný intonační celek. • Představuje základní, z prozodického hlediska kompaktní strukturu. • Členení do prozodických frází ve velké míře souvisí se syntaktickou strukturou odpovídající věty. • Přizvukový takt a skupina slabik podřízená jednomu slovnímu prízvuku. • V češtině typicky slovo nebo slovo a jednoslabičné slovo. • Slabika Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Standardy pro syntézu řeči Snaha sjednotit jazyky pro popis promluvy pro řečové syntetizéry. Definují značkování postihující: • prozódii • rychlost řeči • F0 • zdůraznění části promluvy • pauzu • hlasitost • ... • mluvčího • pohlaví • věk • ... • ... Používané standardy: • SABLE • SSML Luděk Bártek Uvod do počítačového zpracování řeči SABLE Syntéza řeči - postprocessing Značkování prozódie • Vývoj započat v 2. polovině 90. let • aplikace XML/SGML • snaha o zkombinování 3 značkovacích jazyků pro syntézu řeči: • SSML - Speech Synthesis Markup Language (W3C, 1999) • STML - Spoken Text Markup Language (CSTR Edinburgh University, Lucent Technologies, 1997) • JSML - Java Synthesis Markup Language (Sun Microsystems, 2000) • SABLE Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie SABLE Základní značky • SABLE - kořenová značka • div - slouží k logickému členění dokumentu (odstavec, věta) • prozodické: • EMPH - zdůraznění části promluvy » PITCH - výška promluvy • VOLUME - úroveň hlasitosti • RATE - rychlost • BREAK - pauza • popis hlasu: • SPEAKER - popisuje pohlaví a věk mluvčího • fonetické • PRON - výslovnost - fonetický přepis • SAYAS - způsob fonetického přepisu (datum, telefon, url, poštovní adresa, ...) • LANGUAGE - jazyk promluvy Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie SABLE - ukázka
Sepot. Rychlá věta. Vysoko posazená věta
Luděk Bártek Úvod do počítačového zpracování řeči • Vývoj započat v koncem 90. let • součást W3C Voice Browser Activity • Aktuální verze 1.0 (září 2004) Luděk Bártek Uvod do počítačového zpracování řeči Syntéza řeči - postprocessing 1 Značkování prozódie 1 SSML Základní značky • kořenový element - speak • strukturní elementy • p - odstavec • s - věta • fonetické: • say-as - způsob fonetického přepisu (výslovnosti, datum, telefon, url, číslo, ...) • phoneme - fonetický přepis dané promluvy • sub - substituce (např. přepis zkratek, ...) • popis hlasu: • voice - popis hlasu, kterým se má text přečíst (pohlaví, věk, ...) • prozódie: • emphasis - zdůraznění částí promluvy • break - pauza • prosody - ovlivňuje prozodické jevy: výšku, průběh základní frekvence, rychlost, item délka trvání promluvy, hlasitost. Syntéza řeči - postprocessing 1 Značkování prozódie 1 SSML Ukázka Female voice. Male voice. Soft emphasis

Speech with 5 seconds break.

Speech at double volume. Speech at half volume.
Luděk Bártek Uvod do počítačového zpracování řeči