Syntéza řeči - postprocessing Značkování prozódie
Uvod do počítačového zpracování řeči
Luděk Bártek
Fakulta informatiky Masarykova univerzita
podzim 2022
Luděk Bártek
Uvod do počítačového zpracování řeči
Q Syntéza řeči - postprocessing
Q Značkování prozódie
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
P rozód ie
• Výstupem syntézy je monotóní hlas bez intonace a prízvuku -zní nepřirozeně
9 Doplnění prozódie
• základní prozodické prvky:
• výška
• hlasitost
• doba trvání
• nositelem je slabika
o Větná intonace (prozódie) - závisí na typu věty:
• otázky zjištovací (odpověd ano/ne) - rostoucí
• oznamovací, tázací doplňovací, rozkazovací - klesající
• řeší se modulací Fo
• Doplnění přizvu ku/důrazu
• modifikace Fo a intenzity
• lokální modifikace větné melodie
Luděk Bártek
U vod do počítačového zpracování řeči
o Originální promluva (data/masse.wav)
• Oznamovací věta (data/masse-ozn.wav)
• Otázka zjištovací (data/masse-dotaz.wav)
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Výška základní
9 Výška základního tónu odpovídá formantu Fq.
• Průběh Fq na vokalickém jádru bývá nelineární.
• Změna intonace není pouhou změnou Fq
9 nutno modifikovat i vyšší formanty.
9 Na základě důležitosti Fq se jazyky dělí na:
• tónové (čínština, vietnamština, ...)
• čínské slovo -ma- v závislosti na průběhu Fo může znamenat máma, konopí, kůň, nadávat
• jazyky s melodickým přízvukem (srbština, slovinština, litevština, norština, švédština, ...)
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
mm i
9 Intenzita (hlasitost):
• fyzikální pohled - intenzita signálu v daném časovém okamžiku o fyziologický pohled - reakce vnitřního ucha (cortiho ústrojí) na
vnímaný zvuk.
• Tato hlediska se různí.
• Subjektivní vnímání zvuku neodpovídá ani v prvním přiblížení fyzikální intenzitě signálu.
• Doba trvání:
• Slabika může mít různou dobu trvání v různém kontextu.
• Drobné odchylky mohou být i ve stejném kontextu.
• Typická doba trvání slabiky 50 — 200 milisekund.
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
ESU mm i
o Kvalita hlasu
• chvění hlasu (jitter)
• nepravidelné výchylky v amplitudě Fq (shimmer)
• zbarvení tónu
• ochraptělost
• míra znělosti
• ...
o Rychlost řeči
• Lze chápat jako převrácenou hodnotu průměrné délky slabiky Lze měřit i jinými způsoby:
• počtem vyslovených textových znaků za jednotku času (vyhodnocování syntetizérů řeči).
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
i Další prozod Pokračování ické vlastnosti
• Pauza 9 tichá
• vyplněná - obsahuje nějaký charakteristický zvuk (např. eeh)
• ztížená detekce - hlavní formant je blízký formantům samohlásek "a", "e".
o Zaváhání
• Přímo vypovídá o pragmatice projevu.
• Důležitý např. pro modifikaci dialogové strategie u dialogových systémů.
• Typický případ informace obsažené zejména v prozodické vrstvě jazyka.
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Základní od\ vozené prozodi( :ké vlastnosti
• Rytmus (časovaní):
• Prozodický prvek odvozený z dob trvání
9 slabik
• pauz v daném časovém úseku.
• Slovní prízvuk
• Je odvozen ze všech základních atributů.
• Je výrazně jazykově závislý:
• umístění prízvuku ve slově/přízvučné jednotce
• míra použití prozodických prostředků k jeho vyjádření zejména použití hlasitosti oproti výšce.
• Větný prízvuk (intonační centrum):
• zjednodušeně jde o prozodické zvýraznění jádra výpovědi věty
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Základní od\ vozené prozódií :k é vlastnosti (2.)
• Intonace
• nejobecněji - časový průběh zvukového spektra hlasu
• za určující pro melodii se obvykle považuje základní hlasová frekvence - lze zobrazit grafem v závislosti na čase
o časová závislost základní hlasové frekvence
• související terminologie:
• melodie
• kadence
• intonační kadence
• melodém
• průběh Fo
• Emotivní zabarvení hlasu
o projevuje se:
• rychlými změnami hlasitosti a základní frekvence
• Často přesahují hranici věty.
• Detekce je důležitá např. pro dialogové systémy - umožňuje zvolit vhodnou dialogovou strategii.
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Základní odvozené prozodické vlastnosti (3.)
Emfatický prízvuk
9 Vytvářen emotivním zbarvením hlasu.
• Vyskytuje se např. ve větách pronesených v situacích s výrazným emocionálním kontextem, např.
• To je tedy opravdu neslýchané.
• Bolí to jak čert.
Kontrastní prízvuk
• snaha o zdůraznění slova nebo slabiky v kontrastu s jiným slovem nebo slabikou během promluvy nebo dialogu:
• "řekl jsem do Sakvic ne Rakvic"
• " byte ne bit"
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
ké vlastnosti (4.)
• Opakování
• prozodický atribut silně svázaný s mluvčím.
• Opakování bývá často variantou výplňkových částí promluvy -mluvčí si ji často ani neuvědomuje (nezaměňovat s koktáním -porucha řeči).
• Může se jedna o formu zdůraznění - v krajním případ může být považováno za vadu řeči.
• Výplňkové části
• kromě výplňkové funkce mohou charakterizovat
styl mluvčího: „Byl jsi včera na akci, vid?"
• nářečí resp. slang: „Vole, ta včerejší spářka byla hustá, že vole?"
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Základní od\ vozené prozódií :k é vlastnosti (5.)
• Přerušení:
• častý jev v mluvené řeči na úrovní:
• vyšších celků (výpověd/promluva, věta, prozodická fráze, ...) o uvnitř slov.
• Mívá návaznost na další prozodické prvky:
• zaváhání
• opakování
• vyplněnou pauzu
• ...
• Zvyšuje obtížnost rozpoznávaní mluvené reci - nutno s nim počítat.
• Korekce částí promluvy:
• Častý jev a to vzhledem k rozdílným částem.
ricmy vzniku:
důsledek přeřeknutí,
• upřesnění předchozí části promluvy,
• oprava předchozí části promluvy.
• Často následuje přerušení nebo další prozodické jevy.
Luděk Bártek U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Prozodické segmenty mluvené řeči
• Prozodické segmenty mluvené řeči:
Promluva.
• Prozodická fráze
• Skupina slov vytvářející jednotný intonační celek.
• Představuje základní, z prozodického hlediska kompaktní strukturu.
• Členění do prozodických frází ve velké míře souvisí se syntaktickou strukturou odpovídající věty.
• Přizvukový takt
• skupina slabik podřízená jednomu slovnímu prízvuku.
o V češtině typicky slovo nebo slovo a jednoslabičné slovo.
• Slabika
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Standardy pro syntézu řeči
o Snaha sjednotit jazyky pro popis promluvy pro řečové syntetizéry.
9 Definují značkování postihující:
• prozódii
• rychlost řeči
• Fo
• zdůraznění části promluvy
• pauzu
• hlasitost
• ...
• mluvčího
• pohlaví
• věk
• Používané standardy:
• SABLE
• SSML
Luděk Bártek
U vod do počítačového zpracování řeči
• Vývoj započat v 2. polovině 90. let
• aplikace XML/SGML
• snaha o zkombinování 3 značkovacích jazyků pro syntézu řeči
9 SSML - Speech Synthesis Markup Language (W3C, 1999)
• STML - Spoken Text Markup Language (CSTR Edinburgh University, Lucent Technologies, 1997)
• JSML - Java Synthesis Markup Language (Sun Microsystems, 2000)
• SABLE
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - cess
Značí rozó
9 SABLE - kořenová značka
• div - slouží k logickému členění dokumentu (odstavec, věta)
• prozodické:
• EMPH - zdůraznění části promluvy
• PITCH - výška promluvy
• VOLUME - úroveň hlasitosti
• RATE - rychlost « BREAK - pauza
• popis hlasu:
• SPEAKER - popisuje pohlaví a věk mluvčího 9 fonetické
• P RON - výslovnost - fonetický přepis
• SAYAS - způsob fonetického přepisu (datum, telefon, url, poštovní adresa, ...)
• LANGUAGE - jazyk promluvy
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
_ABLE - ukázka
Šepot.Rychlá věta.Vysoko posazená věta
Luděk Bártek
U vod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
• Vývoj započat v koncem 90. let
• součást W3C Voice Browser Activity
• Aktuální verze 1.0 (září 2004)
Luděk Bártek
U vod do počítačového zpracování řeči
• kořenový element - speak
• strukturní elementy
• p - odstavec s - věta
9 fonetické:
• say-as - způsob fonetického přepisu (výslovnosti, datum, telefon, url, číslo, ...)
• phoneme - fonetický přepis dané promluvy
• sub - substituce (např. přepis zkratek, ...)
• popis hlasu:
• voice - popis hlasu, kterým se má text přečíst (pohlaví, věk, ...) 9 prozódie:
• emphasis - zdůraznění částí promluvy
• break - pauza
• prosody - ovlivňuje prozodické jevy: výšku, průběh základní frekvence, rychlost, item délka trvání promluvy, hlasitost.
Luděk Bártek U vod do počítačového zpracování řeči
Female voice.Male voice.Soft emphasis