Syntéza řeči - postprocessing Značkování prozódie
U vod do počítačového zpracování řeči
Luděk Bártek
Fakulta infromatiky Masarykova univerzita
podzim 2014
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Obsah
Q Syntéza řeči - postprocessing
Q Značkovaní prozódie
Luděk Bártek Uvod do počítačového zpracování řeči
Prozódie
Syntéza řeči - postprocessing Značkovaní prozódie
• Výstupem syntézy je monotóní hlas bez intonace a prízvuku -zní nepřirozeně
• Doplnění prozódie
• základní prozodické prvky:
• výška
a hlasitost
• doba trvaní
• nositelem je slabika
• Větná intonace (prozódie) - závisí na typu věty:
• otázky zjištovací (odpověď ano/ne) - rostoucí oznamovací, tázací doplňovací, rozkazovací - klesající
• řeší se modulací Fq
• Doplnění přízvuku/důrazu
• modifikace Fq a intenzity
• lokální modifikace větné melodie
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza reči - postprocessing I Značkovaní prozódie I
Prozódie - ukážky vetné intonace
• Originální promluva (data/masse .wav)
• Oznamovací věta (data/masse-ozn.wav)
• Otázka zjištovací (dat a/masse-dotaz .wav)
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Výška základního tónu
• Výška základního tónu odpovídá formantu Fq.
• Průběh Fq na vokalickém jádru bývá nelineární.
• Změna intonace není pouhou změnou Fq
» nutno modifikovat i vyšší formanty.
• Na základě důležitosti Fq se jazyky dělí na:
• tónové (čínština, vietnamština, ...)
• čínské slovo -ma- v závislosti na průběhu Fq může znamenat matka, konopí, kůň, nadávat
• jazyky s melodickým přízvukem (srbštína, slovinština, litevština, norština, švédština, ...)
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Další prozodické vlastnosti
• Intenzita (hlasitost):
• fyzikální pohled - intenzita signálu v daném časovém okamžiku
• fyziologický pohled - reakce vnitřního ucha (cortiho ústrojí) na vnímaný zvuk.
• Tato hlediska se různí.
• Subjektivní vnímání zvuku neodpovídá ani v prvním přiblížení fyzikální intenzitě signálu.
• Doba trvání:
• Slabika může mít různou dobu trvání v různém kontextu.
• Drobné odchylky mohou být i ve stejném kontextu.
• Typická doba trvání slabiky 50 — 200 milisekund.
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Další prozodické vlastnosti
• Kvalita hlasu
• chvění hlasu (jitter)
• nepravidelné výchylky v amplitudě Fo (shimmer)
• zbarvení tónu
• ochraptělost
• níra znělosti a ...
• Rychlost řeči
• Lze chápat jako převrácenou hodnotu průměrné délky slabiky Lze měřit i jinými způsoby:
o počtem vyslovených textových znaků za jednotku času (vyhodnocování syntetizérů řeči).
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Další prozodické vlastnosti
Pokračování
• tichá
• vyplněná - obsahuje nějaký charakteristický zvuk (např. eeh)
• ztížená detekce - hlavní formát je blízký formantům samohlásek "a" , "e" .
• Zaváhání
• Přímo vypovídá o pragmatice projevu.
» Důležitý např. pro modifikaci dialogové strategie u dialogových systémů.
• Typický případ informace obsažené zejména v prozodické vrstvě jazyka.
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Základní odvozené prozodické vlastnosti
• Rytmus (časovaní):
• Prozodický prvek odvozený z dob trvaní
• slabik
• pauz v daném časovém úseku.
• Slovní prízvuk
• Je odvozen ze všech základních atributů.
• Je výrazně jazykově závislý:
• umístění prízvuku ve slově/přízvučné jednotce
• míra použití prozodických prostředků k jeho vyjádření zejména použití hlasitosti oproti výšce.
• Větný přístup (intonační centrum):
• zjednudešeně jde o prozodické zvýraznění jádra výpovědi věty
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing I Značkování prozódie I
Základní odvozené prozodické vlastnosti (2.)
• Intonace
• nejobecněji - časový průběh zvukového spektra hlasu
o za určující pro melodii se obvykle považuje základní hlasová frekvence - lze zobrazit grafem v závislosti na čase
• časová závislost základní hlasové frekvence
• související terminologie:
• melodie
• kadence
• intonační kadence
• melodém
• průběh Fo
• Emotivní zabarvení hlasu
• projevuje se:
• rychlými změnami hlasitosti a základní frekvence
• Často přesahují hranici věty.
• Detekce je důležitá např. pro dialogové systémy - umožňuje zvolit vhodnou dialogovou strategii.
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Základní odvozené prozodické vlastnosti (3.)
• Emfatický prízvuk
• Vytvářen emotivním zbarvením hlasu.
o Vyskytuje se např. ve větách pronesených v situacích s výrazným emocionálním kontextem, např.
• To je tedy opravdu neslýchané.
• Bolí to jak čert.
• Kontrastní prízvuk
• snaha o zdůraznění slova nebo slabiky v kontrastu s jiným slovem nebo slabikou během promluvy nebo dialogu:
• "řekl jsem do Šakvic ne Rakvic"
• "byte ne bit"
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Základní odvozené prozodické vlastnosti (4.)
• Opakování
• prozodický atribut silně svázaný s mluvčím.
• Opakování bývá často variantou výplňkových částí promluvy -mluvčí si ji často ani neuvědomuje (nezaměňovat s koktáním -porucha řeči).
o Může se jedna o formu zdůraznění - v krajním případ může být považováno za vadu řeči.
• Výplňkové části
• kromě výplňkové funkce mohou charakterizovat
• styl mluvčího: „Byl jsi včera na akci, viď?"
• nářečí resp. slang: ,,Vole, ta včerejší spářka byla hustá, že vole?"
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing I Značkování prozódie I
Základní odvozené prozodické vlastnosti (5.)
• Přerušení:
• častý jev v mluvené řeči na úrovní:
• vyšších celků (výpověď/promluva, věta, prozodická fráze, ...)
• uvnitř slov.
• Mívá návaznost na další prosodické prvky:
o zaváhání
• opakování
• vyplněnou pauzu
• ...
• Zvyšuje obtížnost rozpoznávání mluvené řeči - nutno s ním počítat.
• Korekce částí promluvy:
• Častý jev a to vzhledem k rozdílným částem.
• Příčiny vzniku:
• důsledek přeřeknutí,
• upřesnění předchozí části promluvy,
• oprava předchozí části promluvy.
• Často následuje přerušení nebo další prozodické jevy.
Syntéza řeči - postprocessing Značkování prozódie
Prozodické segmenty mluvené řeči
• Prozodické segmenty mluvené řeči:
• Promluva.
• Prozodická fráze
• Skupina slov vytvářející jednotný intonační celek.
• Představuje základní, z prozodického hlediska kompaktní strukturu.
• Členení do prozodických frází ve velké míře souvisí se syntaktickou strukturou odpovídající věty.
• Přizvukový takt
a skupina slabik podřízená jednomu slovnímu prízvuku.
• V češtině typicky slovo nebo slovo a jednoslabičné slovo.
• Slabika
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Standardy pro syntézu řeči
Snaha sjednotit jazyky pro popis promluvy pro řečové syntetizéry.
Definují značkování postihující:
• prozódii
• rychlost řeči
• F0
• zdůraznění části promluvy
• pauzu
• hlasitost
• ...
• mluvčího
• pohlaví
• věk
• ...
• ...
Používané standardy:
• SABLE
• SSML
Luděk Bártek Uvod do počítačového zpracování řeči
SABLE
Syntéza řeči - postprocessing Značkování prozódie
• Vývoj započat v 2. polovině 90. let
• aplikace XML/SGML
• snaha o zkombinování 3 značkovacích jazyků pro syntézu řeči:
• SSML - Speech Synthesis Markup Language (W3C, 1999)
• STML - Spoken Text Markup Language (CSTR Edinburgh University, Lucent Technologies, 1997)
• JSML - Java Synthesis Markup Language (Sun Microsystems, 2000)
• SABLE
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
SABLE
Základní značky
• SABLE - kořenová značka
• div - slouží k logickému členění dokumentu (odstavec, věta)
• prozodické:
• EMPH - zdůraznění části promluvy » PITCH - výška promluvy
• VOLUME - úroveň hlasitosti
• RATE - rychlost
• BREAK - pauza
• popis hlasu:
• SPEAKER - popisuje pohlaví a věk mluvčího
• fonetické
• PRON - výslovnost - fonetický přepis
• SAYAS - způsob fonetického přepisu (datum, telefon, url, poštovní adresa, ...)
• LANGUAGE - jazyk promluvy
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
SABLE - ukázka
Sepot. Rychlá věta.Vysoko posazená věta
Luděk Bártek Úvod do počítačového zpracování řeči
• Vývoj započat v koncem 90. let
• součást W3C Voice Browser Activity
• Aktuální verze 1.0 (září 2004)
Luděk Bártek Uvod do počítačového zpracování řeči
Syntéza řeči - postprocessing 1
Značkování prozódie 1
SSML
Základní značky
• kořenový element - speak
• strukturní elementy
• p - odstavec
• s - věta
• fonetické:
• say-as - způsob fonetického přepisu (výslovnosti, datum, telefon, url, číslo, ...)
• phoneme - fonetický přepis dané promluvy
• sub - substituce (např. přepis zkratek, ...)
• popis hlasu:
• voice - popis hlasu, kterým se má text přečíst (pohlaví, věk, ...)
• prozódie:
• emphasis - zdůraznění částí promluvy
• break - pauza
• prosody - ovlivňuje prozodické jevy: výšku, průběh základní frekvence, rychlost, item délka trvání promluvy, hlasitost.
Syntéza řeči - postprocessing 1
Značkování prozódie 1
SSML
Ukázka
Female voice.Male voice.Soft emphasis
Speech with 5 seconds break.
Speech at double volume.Speech at half volume.
Luděk Bártek Uvod do počítačového zpracování řeči