Syntéza řeči - postprocessing Značkování prozódie
Uvod do počítačového zpracování řeči
Luděk Bártek
Fakulta informatiky Masarykova univerzita
podzim 2020
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
h
Q Syntéza řeči - postprocessing
Q Značkovaní prozódie
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
• Výstupem syntézy je monotóní hlas bez intonace a prízvuku -zní nepřirozeně
• Doplnění prozódie
• základní prozodické prvky:
• výška
• hlasitost
• doba trvaní
• nositelem je slabika
9 Větná intonace (prozódie) - závisí na typu věty:
• otázky zjištovací (odpověď ano/ne) - rostoucí
• oznamovací, tázací doplňovací, rozkazovací - klesající
• řeší se modulací Fo
• Doplnění přizvu ku/důrazu
• modifikace Fo a intenzity
• lokální modifikace větné melodie
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Prozódie - ukázky větné intonace
o Originální promluva (data/masse. wav)
• Oznamovací věta (data/masse-ozn.wav)
• Otázka zjištovací (data/masse-dotaz. wav)
Luděk Bártek
Úvod do počítačového zpracování řeči
9 Výška základního tónu odpovídá formantu Fq.
• Průběh Fq na vokalickém jádru bývá nelineární.
• Změna intonace není pouhou změnou Fq
• nutno modifikovat i vyšší formanty.
• Na základě důležitosti Fq se jazyky dělí na:
• tónové (čínština, vietnamština, ...)
• čínské slovo -ma- v závislosti na průběhu Fo může znamenat máma, konopí, kůň, nadávat
• jazyky s melodickým přízvukem (srbština, slovinština, litevština, norština, švédština, ...)
Luděk Bártek
Úvod do počítačového zpracování řeči
• Intenzita (hlasitost):
• fyzikální pohled - intenzita signálu v daném časovém okamžiku o fyziologický pohled - reakce vnitřního ucha (cortiho ústrojí) na
vnímaný zvuk.
• Tato hlediska se různí.
• Subjektivní vnímání zvuku neodpovídá ani v prvním přiblížení fyzikální intenzitě signálu.
• Doba trvání:
• Slabika může mít různou dobu trvání v různém kontextu.
• Drobné odchylky mohou být i ve stejném kontextu.
• Typická doba trvání slabiky 50 — 200 milisekund.
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Další prozodické vlastnosti
Kvalita hlasu
• chvění hlasu (jitter)
• nepravidelné výchylky v amplitudě Fq (shimmer)
• zbarvení tónu
• ochraptělost
• míra znělosti
Rychlost řeči
• Lze chápat jako převrácenou hodnotu průměrné délky slabiky Lze měřit i jinými způsoby:
• počtem vyslovených textových znaků za jednotku času (vyhodnocování syntetizérů řeči).
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Další prozodické vlastnosti
Pokračování
Pauza
• tichá
• vyplněná - obsahuje nějaký charakteristický zvuk (napr. eeh)
• ztížená detekce - hlavní formant je blízký formantům
Nf I íl íl I! I!
asek a , e .
Zaváhání
• Přímo vypovídá o pragmatice projevu.
• Důležitý např. pro modifikaci dialogové strategie u dialogových systémů.
• Typický případ informace obsažené zejména v prozodické vrstvě jazyka.
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
é vlastnosti
9 Rytmus (časovaní):
• Prozodický prvek odvozený z dob trvaní
• slabik
• pauz v daném časovém úseku.
• Slovní prízvuk
• Je odvozen ze všech základních atributů.
• Je výrazně jazykově závislý:
• umístění prízvuku ve slově/prízvučné jednotce
• míra použití prozodických prostředků k jeho vyjádření zejména použití hlasitosti oproti výšce.
• Větný prízvuk (intonační centrum):
• zjednodušeně jde o prozodické zvýraznění jádra výpovědi věty
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
:é vlastnosti (2.)
• Intonace
• nejobecněji - časový průběh zvukového spektra hlasu
• za určující pro melodii se obvykle považuje základní hlasová frekvence - lze zobrazit grafem v závislosti na čase
o časová závislost základní hlasové frekvence
• související terminologie:
• melodie
• kadence
9 intonační kadence
• melodém
• průběh Fo
• Emotivní zabarvení hlasu
o projevuje se:
• rychlými změnami hlasitosti a základní frekvence
• Často přesahují hranici věty.
• Detekce je důležitá např. pro dialogové systémy - umožňuje zvolit vhodnou dialogovou strategii.
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
é vlastnosti (3.)
Emfatický prízvuk
o Vytvářen emotivním zbarvením hlasu.
• Vyskytuje se např. ve větách pronesených v situacích s výrazným emocionálním kontextem, např.
• To je tedy opravdu neslýchané.
• Bolí to jak čert.
Kontrastní prízvuk
• snaha o zdůraznění slova nebo slabiky v kontrastu s jiným slovem nebo slabikou během promluvy nebo dialogu:
• "řekl jsem do Šakvic ne Rakvic"
• " byte ne bit"
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
é vlastnosti (4.)
• Opakování
• prozodický atribut silně svázaný s mluvčím.
• Opakování bývá často variantou výplňkových částí promluvy -mluvčí si ji často ani neuvědomuje (nezaměňovat s koktáním -porucha řeči).
• Může se jedna o formu zdůraznění - v krajním případ může být považováno za vadu řeči.
• Výplň kove části
• kromě výplňkové funkce mohou charakterizovat
styl mluvčího: „Byl jsi včera na akci, viď?"
9 nářečí resp. slang: „Vole, ta včerejší spářka byla hustá, že vole?"
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
ké vlastnosti (5.)
Přerušení:
• častý jev v mluvené řeči na úrovní:
9 vyšších celků (výpověď/promluva, věta, prozodická fráze, ., o uvnitř slov.
• Mívá návaznost na další prozodické prvky:
• zaváhání
• opakování
• vyplněnou pauzu
• ...
• Zvyšuje obtížnost rozpoznávání mluvené řeči - nutno s ním počítat.
Korekce částí promluvy:
• Častý jev a to vzhledem k rozdílným částem.
• Příčiny vzniku:
důsledek přeřeknutí,
• upřesnění předchozí části promluvy,
• oprava předchozí části promluvy.
• Často následuje přerušení nebo další prozodické jevy.
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
ne reci
Prozodické segmenty mluvené řeči:
o Promluva.
• Prozodická fráze
• Skupina slov vytvářející jednotný intonační celek.
• Představuje základní, z prozodického hlediska kompaktní strukturu.
• Členení do prozodických frází ve velké míře souvisí se syntaktickou strukturou odpovídající věty.
• Přizvukový takt
• skupina slabik podřízená jednomu slovnímu prízvuku.
9 V češtině typicky slovo nebo slovo a jednoslabičné slovo.
• Slabika
Luděk Bártek
Úvod do počítačového zpracování řeči
Snaha sjednotit jazyky pro popis promluvy pro řečové syntetizéry.
Definují značkování postihující:
• prozódii
• rychlost řeči
• F0
• zdůraznění části promluvy
• pauzu
• hlasitost
• ...
• mluvčího
• pohlaví
• věk
• ...
• ...
Používané standardy: » SABLE
• SSML
Luděk Bártek Úvod do počítačového zpracování řeči
• Vývoj započat v 2. polovině 90. let
• aplikace XML/SGML
• snaha o zkombinování 3 značkovacích jazyků pro syntézu řeči
• SSML - Speech Synthesis Markup Language (W3C, 1999)
• STML - Spoken Text Markup Language (CSTR Edinburgh University Lucent Technologies, 1997)
• JSML - Java Synthesis Markup Language (Sun Microsystems, 2000)
• SABLE
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - post p rocess ing
Znač ková n í prozó m
9 SABLE - kořenová značka
• div - slouží k logickému členění dokumentu (odstavec, věta)
o prozodické:
• EMPH - zdůraznění části promluvy
• PITCH - výška promluvy
• VOLUME - úroveň hlasitosti
• RATE - rychlost
• BREAK - pauza
• popis hlasu:
• SPEAKER - popisuje pohlaví a věk mluvčího
• fonetické
• P RON - výslovnost - fonetický přepis
• SAYAS - způsob fonetického přepisu (datum, telefon, url, poštovní adresa, ...)
• LANGUAGE - jazyk promluvy
Luděk Bártek
Úvod do počítačového zpracování řeči
Šepot.Rychlá věta.Vysoko posazená věta
Luděk Bártek
Úvod do počítačového zpracování řeči
• Vývoj započat v koncem 90. let
• součást W3C Voice Browser Activity
• Aktuální verze 1.0 (září 2004)
Luděk Bártek
Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Základní značky
• kořenový element - speak
• strukturní elementy
• p - odstavec s - věta
• fonetické:
• say-as - způsob fonetického přepisu (výslovnosti, datum, telefon, url, číslo, ...)
• phoneme - fonetický přepis dané promluvy
• sub - substituce (např. přepis zkratek, ...)
• popis hlasu:
• voice - popis hlasu, kterým se má text přečíst (pohlaví, věk, ...)
• prozódie:
• emphasis - zdůraznění částí promluvy
• break - pauza
• prosody - ovlivňuje prozodické jevy: výšku, průběh základní frekvence, rychlost, item délka trvání promluvy, hlasitost.
Luděk Bártek Úvod do počítačového zpracování řeči
Syntéza řeči - postprocessing Značkování prozódie
Ukázka
Female voice.Male voice.Soft emphasis
Speech with 5 seconds break.
Speech at double volume.Speech at half volume.
Luděk Bártek
Úvod do počítačového zpracování řeči