Syntéza řeči - postprocessing Značkování prozódie Uvod do počítačového zpracování řeči Luděk Bártek Fakulta informatiky Masarykova univerzita podzim 2022 Luděk Bártek Uvod do počítačového zpracování řeči Q Syntéza řeči - postprocessing Q Značkování prozódie Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie P rozód ie • Výstupem syntézy je monotóní hlas bez intonace a prízvuku -zní nepřirozeně 9 Doplnění prozódie • základní prozodické prvky: • výška • hlasitost • doba trvání • nositelem je slabika o Větná intonace (prozódie) - závisí na typu věty: • otázky zjištovací (odpověd ano/ne) - rostoucí • oznamovací, tázací doplňovací, rozkazovací - klesající • řeší se modulací Fo • Doplnění přizvu ku/důrazu • modifikace Fo a intenzity • lokální modifikace větné melodie Luděk Bártek U vod do počítačového zpracování řeči o Originální promluva (data/masse.wav) • Oznamovací věta (data/masse-ozn.wav) • Otázka zjištovací (data/masse-dotaz.wav) Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Výška základní 9 Výška základního tónu odpovídá formantu Fq. • Průběh Fq na vokalickém jádru bývá nelineární. • Změna intonace není pouhou změnou Fq 9 nutno modifikovat i vyšší formanty. 9 Na základě důležitosti Fq se jazyky dělí na: • tónové (čínština, vietnamština, ...) • čínské slovo -ma- v závislosti na průběhu Fo může znamenat máma, konopí, kůň, nadávat • jazyky s melodickým přízvukem (srbština, slovinština, litevština, norština, švédština, ...) Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie mm i 9 Intenzita (hlasitost): • fyzikální pohled - intenzita signálu v daném časovém okamžiku o fyziologický pohled - reakce vnitřního ucha (cortiho ústrojí) na vnímaný zvuk. • Tato hlediska se různí. • Subjektivní vnímání zvuku neodpovídá ani v prvním přiblížení fyzikální intenzitě signálu. • Doba trvání: • Slabika může mít různou dobu trvání v různém kontextu. • Drobné odchylky mohou být i ve stejném kontextu. • Typická doba trvání slabiky 50 — 200 milisekund. Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie ESU mm i o Kvalita hlasu • chvění hlasu (jitter) • nepravidelné výchylky v amplitudě Fq (shimmer) • zbarvení tónu • ochraptělost • míra znělosti • ... o Rychlost řeči • Lze chápat jako převrácenou hodnotu průměrné délky slabiky Lze měřit i jinými způsoby: • počtem vyslovených textových znaků za jednotku času (vyhodnocování syntetizérů řeči). Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie i Další prozod Pokračování ické vlastnosti • Pauza 9 tichá • vyplněná - obsahuje nějaký charakteristický zvuk (např. eeh) • ztížená detekce - hlavní formant je blízký formantům samohlásek "a", "e". o Zaváhání • Přímo vypovídá o pragmatice projevu. • Důležitý např. pro modifikaci dialogové strategie u dialogových systémů. • Typický případ informace obsažené zejména v prozodické vrstvě jazyka. Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Základní od\ vozené prozodi( :ké vlastnosti • Rytmus (časovaní): • Prozodický prvek odvozený z dob trvání 9 slabik • pauz v daném časovém úseku. • Slovní prízvuk • Je odvozen ze všech základních atributů. • Je výrazně jazykově závislý: • umístění prízvuku ve slově/přízvučné jednotce • míra použití prozodických prostředků k jeho vyjádření zejména použití hlasitosti oproti výšce. • Větný prízvuk (intonační centrum): • zjednodušeně jde o prozodické zvýraznění jádra výpovědi věty Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Základní od\ vozené prozódií :k é vlastnosti (2.) • Intonace • nejobecněji - časový průběh zvukového spektra hlasu • za určující pro melodii se obvykle považuje základní hlasová frekvence - lze zobrazit grafem v závislosti na čase o časová závislost základní hlasové frekvence • související terminologie: • melodie • kadence • intonační kadence • melodém • průběh Fo • Emotivní zabarvení hlasu o projevuje se: • rychlými změnami hlasitosti a základní frekvence • Často přesahují hranici věty. • Detekce je důležitá např. pro dialogové systémy - umožňuje zvolit vhodnou dialogovou strategii. Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Základní odvozené prozodické vlastnosti (3.) Emfatický prízvuk 9 Vytvářen emotivním zbarvením hlasu. • Vyskytuje se např. ve větách pronesených v situacích s výrazným emocionálním kontextem, např. • To je tedy opravdu neslýchané. • Bolí to jak čert. Kontrastní prízvuk • snaha o zdůraznění slova nebo slabiky v kontrastu s jiným slovem nebo slabikou během promluvy nebo dialogu: • "řekl jsem do Sakvic ne Rakvic" • " byte ne bit" Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie ké vlastnosti (4.) • Opakování • prozodický atribut silně svázaný s mluvčím. • Opakování bývá často variantou výplňkových částí promluvy -mluvčí si ji často ani neuvědomuje (nezaměňovat s koktáním -porucha řeči). • Může se jedna o formu zdůraznění - v krajním případ může být považováno za vadu řeči. • Výplňkové části • kromě výplňkové funkce mohou charakterizovat styl mluvčího: „Byl jsi včera na akci, vid?" • nářečí resp. slang: „Vole, ta včerejší spářka byla hustá, že vole?" Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Základní od\ vozené prozódií :k é vlastnosti (5.) • Přerušení: • častý jev v mluvené řeči na úrovní: • vyšších celků (výpověd/promluva, věta, prozodická fráze, ...) o uvnitř slov. • Mívá návaznost na další prozodické prvky: • zaváhání • opakování • vyplněnou pauzu • ... • Zvyšuje obtížnost rozpoznávaní mluvené reci - nutno s nim počítat. • Korekce částí promluvy: • Častý jev a to vzhledem k rozdílným částem. ricmy vzniku: důsledek přeřeknutí, • upřesnění předchozí části promluvy, • oprava předchozí části promluvy. • Často následuje přerušení nebo další prozodické jevy. Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Prozodické segmenty mluvené řeči • Prozodické segmenty mluvené řeči: Promluva. • Prozodická fráze • Skupina slov vytvářející jednotný intonační celek. • Představuje základní, z prozodického hlediska kompaktní strukturu. • Členění do prozodických frází ve velké míře souvisí se syntaktickou strukturou odpovídající věty. • Přizvukový takt • skupina slabik podřízená jednomu slovnímu prízvuku. o V češtině typicky slovo nebo slovo a jednoslabičné slovo. • Slabika Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie Standardy pro syntézu řeči o Snaha sjednotit jazyky pro popis promluvy pro řečové syntetizéry. 9 Definují značkování postihující: • prozódii • rychlost řeči • Fo • zdůraznění části promluvy • pauzu • hlasitost • ... • mluvčího • pohlaví • věk • Používané standardy: • SABLE • SSML Luděk Bártek U vod do počítačového zpracování řeči • Vývoj započat v 2. polovině 90. let • aplikace XML/SGML • snaha o zkombinování 3 značkovacích jazyků pro syntézu řeči 9 SSML - Speech Synthesis Markup Language (W3C, 1999) • STML - Spoken Text Markup Language (CSTR Edinburgh University, Lucent Technologies, 1997) • JSML - Java Synthesis Markup Language (Sun Microsystems, 2000) • SABLE Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - cess Značí rozó 9 SABLE - kořenová značka • div - slouží k logickému členění dokumentu (odstavec, věta) • prozodické: • EMPH - zdůraznění části promluvy • PITCH - výška promluvy • VOLUME - úroveň hlasitosti • RATE - rychlost « BREAK - pauza • popis hlasu: • SPEAKER - popisuje pohlaví a věk mluvčího 9 fonetické • P RON - výslovnost - fonetický přepis • SAYAS - způsob fonetického přepisu (datum, telefon, url, poštovní adresa, ...) • LANGUAGE - jazyk promluvy Luděk Bártek Úvod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie _ABLE - ukázka
Šepot. Rychlá věta. Vysoko posazená věta
Luděk Bártek U vod do počítačového zpracování řeči Syntéza řeči - postprocessing Značkování prozódie • Vývoj započat v koncem 90. let • součást W3C Voice Browser Activity • Aktuální verze 1.0 (září 2004) Luděk Bártek U vod do počítačového zpracování řeči • kořenový element - speak • strukturní elementy • p - odstavec s - věta 9 fonetické: • say-as - způsob fonetického přepisu (výslovnosti, datum, telefon, url, číslo, ...) • phoneme - fonetický přepis dané promluvy • sub - substituce (např. přepis zkratek, ...) • popis hlasu: • voice - popis hlasu, kterým se má text přečíst (pohlaví, věk, ...) 9 prozódie: • emphasis - zdůraznění částí promluvy • break - pauza • prosody - ovlivňuje prozodické jevy: výšku, průběh základní frekvence, rychlost, item délka trvání promluvy, hlasitost. Luděk Bártek U vod do počítačového zpracování řeči Female voice. Male voice. Soft emphasis

Speech with 5 seconds Speech at double volume.