Syntéza řeči - postprocessing Značkování prozódie Uvod do počítačového zpracování řeči Luděk Bártek Fakulta informatiky Masarykova univerzita podzim 2019 Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie h Q Syntéza řeči - postprocessing Q Značkovaní prozódie Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie • Výstupem syntézy je monotóní hlas bez intonace a prízvuku -zní nepřirozeně 9 Doplnění prozódie • základní prozodické prvky: • výška • hlasitost • doba trvaní • nositelem je slabika • Větná intonace (prozódie) - závisí na typu věty: • otázky zjišťovací (odpověď ano/ne) - rostoucí • oznamovací, tázací doplňovací, rozkazovací - klesající • řeší se modulací Fo • Doplnění přizvu ku/důrazu • modifikace Fo a intenzity • lokální modifikace větné melodie Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Prozódie - ukázky větné intonace a Originální promluva (data/masse .wav) • Oznamovací věta (data/masse-ozn.wav) • Otázka zjištovací (data/masse-dotaz. wav) Luděk Bártek Úvod do počítačového zpracování řeči • Výška základního tónu odpovídá formantu Fq. • Průběh Fq na vokalickém jádru bývá nelineární. 9 Změna intonace není pouhou změnou Fq • nutno modifikovat i vyšší formanty. • Na základě důležitosti Fq se jazyky dělí na: • tónové (čínština, vietnamština, ...) • čínské slovo -ma- v závislosti na průběhu Fo může znamenat máma, konopí, kůň, nadávat • jazyky s melodickým přízvukem (srbština, slovinština, litevština, norština, švédština, ...) Luděk Bártek Úvod do počítačového zpracování řeči • Intenzita (hlasitost): • fyzikální pohled - intenzita signálu v daném časovém okamžiku o fyziologický pohled - reakce vnitřního ucha (cortiho ústrojí) na vnímaný zvuk. • Tato hlediska se různí. • Subjektivní vnímání zvuku neodpovídá ani v prvním přiblížení fyzikální intenzitě signálu. • Doba trvání: • Slabika může mít různou dobu trvání v různém kontextu. • Drobné odchylky mohou být i ve stejném kontextu. • Typická doba trvání slabiky 50 — 200 milisekund. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Další prozodické vlastnosti Kvalita hlasu • chvění hlasu (jitter) • nepravidelné výchylky v amplitudě Fq (shimmer) • zbarvení tónu • ochraptělost • míra znělosti Rychlost řeči • Lze chápat jako převrácenou hodnotu průměrné délky slabiky Lze měřit i jinými způsoby: • počtem vyslovených textových znaků za jednotku času (vyhodnocování syntetizérů řeči). Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Další prozodické vlastnosti Pokračování • Pauza • tichá • vyplněná - obsahuje nějaký charakteristický zvuk (napr. eeh) • ztížená detekce - hlavní formant je blízký formantům samohlásek a , e . o Zaváhaní • Přímo vypovídá o pragmatice projevu. • Důležitý např. pro modifikaci dialogové strategie u dialogových systémů. • Typický případ informace obsažené zejména v prozodické vrstvě jazyka. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie é vlastnosti • Rytmus (časovaní): • Prozodický prvek odvozený z dob trvaní • slabik • pauz v daném časovém úseku. • Slovní prízvuk • Je odvozen ze všech základních atributů. • Je výrazně jazykově závislý: • umístění prízvuku ve slově/prízvučné jednotce • míra použití prozodických prostředků k jeho vyjádření zejména použití hlasitosti oproti výšce. • Větný přízvuk (intonační centrum): • zjednodušeně jde o prozodické zvýraznění jádra výpovědi věty Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie :é vlastnosti (2.) • Intonace • nejobecněji - časový průběh zvukového spektra hlasu • za určující pro melodii se obvykle považuje základní hlasová frekvence - lze zobrazit grafem v závislosti na čase o časová závislost základní hlasové frekvence • související terminologie: • melodie • kadence • intonační kadence • melodém • průběh Fo • Emotivní zabarvení hlasu o projevuje se: • rychlými změnami hlasitosti a základní frekvence • Často přesahují hranici věty • Detekce je důležitá např. pro dialogové systémy - umožňuje zvolit vhodnou dialogovou strategii. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie é vlastnosti (3.) Emfatický prízvuk o Vytvářen emotivním zbarvením hlasu. • Vyskytuje se např. ve větách pronesených v situacích s výrazným emocionálním kontextem, např. • To je tedy opravdu neslýchané. • Bolí to jak čert. Kontrastní prízvuk • snaha o zdůraznění slova nebo slabiky v kontrastu s jiným slovem nebo slabikou během promluvy nebo dialogu: • "řekl jsem do Šakvic ne Rakvic" • " byte ne bit" Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie é vlastnosti (4.) • Opakování • prozodický atribut silně svázaný s mluvčím. • Opakování bývá často variantou výplňkových částí promluvy -mluvčí si ji často ani neuvědomuje (nezaměňovat s koktáním -porucha řeči). • Může se jedna o formu zdůraznění - v krajním případ může být považováno za vadu řeči. • Výplň kove části • kromě výplňkové funkce mohou charakterizovat styl mluvčího: „Byl jsi včera na akci, viď?" • nářečí resp. slang: „Vole, ta včerejší spářka byla hustá, že vole?" Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie :é vlastnosti (5.) 9 Přerušení: • častý jev v mluvené řeči na úrovní: • vyšších celků (výpověď/promluva, věta, prozodická fráze, ...) o uvnitř slov. • Mívá návaznost na další prozodické prvky: • zaváhání • opakování • vyplněnou pauzu • ... • Zvyšuje obtížnost rozpoznávání mluvené řeči - nutno s ním počítat. • Korekce částí promluvy: • Častý jev a to vzhledem k rozdílným částem. • Příčiny vzniku: důsledek přeřeknutí, • upřesnění předchozí části promluvy, • oprava předchozí části promluvy. • Často následuje přerušení nebo další prozodické jevy. Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie ne reci Prozodické segmenty mluvené řeči: o Promluva. • Prozodická fráze • Skupina slov vytvářející jednotný intonační celek. • Představuje základní, z prozodického hlediska kompaktní strukturu. • Členení do prozodických frází ve velké míře souvisí se syntaktickou strukturou odpovídající věty. • Přizvukový takt • skupina slabik podřízená jednomu slovnímu prízvuku. • V češtině typicky slovo nebo slovo a jednoslabičné slovo. • Slabika Luděk Bártek Úvod do počítačového zpracování řeči Snaha sjednotit jazyky pro popis promluvy pro řečové syntetizéry. Definují značkování postihující: 9 prozódii • rychlost řeči • F0 • zdůraznění části promluvy • pauzu • hlasitost • ... • mluvčího • pohlaví • věk • ... • ... Používané standardy: • SABLE • SSML Luděk Bártek Úvod do počítačového zpracování řeči • Vývoj započat v 2. polovině 90. let • aplikace XML/SGML • snaha o zkombinování 3 značkovacích jazyků pro syntézu řeči • SSML - Speech Synthesis Markup Language (W3C, 1999) • STML - Spoken Text Markup Language (CSTR Edinburgh University, Lucent Technologies, 1997) • JSML - Java Synthesis Markup Language (Sun Microsystems, 2000) o SABLE Luděk Bártek Úvod do počítačového zpracování řeči 9 SABLE - kořenová značka 9 div - slouží k logickému členění dokumentu (odstavec, věta) * prozodické: • EMPH - zdůraznění části promluvy • PITCH - výška promluvy • VOLUME - úroveň hlasitosti • RATE - rychlost • BREAK - pauza • popis hlasu: • SPEAKER - popisuje pohlaví a věk mluvčího 9 fonetické • PRON - výslovnost - fonetický přepis • SAYAS - způsob fonetického přepisu (datum, telefon, url, poštovní adresa, ...) 9 LANGUAGE - jazyk promluvy Luděk Bártek Úvod do počítačového zpracování řeči
Šepot. Vysoko posazená věta
Luděk Bártek Úvod do počítačového zpracování řeči • Vývoj započat v koncem 90. let • součást W3C Voice Browser Activity • Aktuální verze 1.0 (září 2004) Luděk Bártek Úvod do počítačového zpracování řeči • kořenový element - speak 9 strukturní elementy • p - odstavec s - věta • fonetické: • say-as - způsob fonetického přepisu (výslovnosti, datum, telefon, url, číslo, ...) • phoneme - fonetický přepis dané promluvy • sub - substituce (např. přepis zkratek, ...) • popis hlasu: • voice - popis hlasu, kterým se má text přečíst (pohlaví, věk, ...) 9 prozódie: • emphasis - zdůraznění částí promluvy • break - pauza • prosody - ovlivňuje prozodické jevy: výšku, průběh základní frekvence, rychlost, item délka trvání promluvy, hlasitost. Luděk Bártek Úvod do počítačového zpracování řeči Female voice. Male voice. Soft emphasis

Speech with 5 seconds break.

Speech at double volume. Speech at half volume.
Luděk Bártek Úvod do počítačového zpracování řeči