Základy fonetiky Digitaliza ce akustického signálu Počítačové zpracování řeči Luděk Bártek Fakulta Informatiky Masarykova Univerzita Brno podzim 2013 Základy fonetiky Digitalizace akustického signálu Obsah Q Základy fonetiky Q Digitalizace akustického signálu Fonetika Základy fonetiky Digitalizace akustického signálu • Přírodní věda na pomezí lingvistiky, anatomie, fyziologie a fyziky (akustiky) • Zkoumá zvukovou stánku jazyka z různých aspektů jazyka:. • fyziologickou činnost mluvidel • akustickou podstatu zvuků. • Dělení fonetiky: • artikulační- tvorba fónů ve zvukovém ústrojí • akustická - přenos zvuků prostředím, jejich frekvence, ... • percepční - jak jsou zvuky přijímány, Základy fonetiky Digitalizace akustického signálu Základy fonetiky • Foném - elementární zvukový segment, který je schopný diferencovat vyšší znakové jednotky jazykového systému (morfémy). • Fonémy: • samohlásky: • základní frekvence • formanty • samohlásky: • znělé - na vzniku se spolupodílí hlasivky • neznělé. • Koartikulace - vzniká změnou parametrů řečového ústrojí při přechodu z jedné hlásky na druhou • další řečové jednotky: • alofón • difón • trifón • Fonetický přepis - Jednoznačný a přesný zápis mluvené řeči. Psaná a mluvená forma téže promluvy se mohou lišit. Základy fonetiky Digitalizace akustického signálu Fonetický přepis • Přesný a jednoznačný zápis mluvené řeči. • IPA- International Phonetic Alphabet • součást standardu UNICODE. • Národní fonetické abecedy. • TTS - většinou využívají ľbitový ASCII přepis znaků z IPA (SAMPA - Speech Assessment Methods Phonetic Alphabet)např. DITe • pravidla pro přepis: • změna znělosti na hranici znělá souhláska - neznělá souhláska • měkčení souhlásek, pokud následuje /, ě • ... • Občas může být přepis regionálně závislý: • sh: • Čechy - sch • Morava - zh Základy fonetiky Podrobnosti viz stránky International Phonetic Association (http://www.langsci.ucl.ac.uk/ipa/) Základy fonetiky Digitalizace akustického signálu Česká fonetická abeceda • Krátké samohlásky: • a a pata, ee led, li lid, o/do rod, uu ruka • Dlouhé samohlásky: • a: a:, á pátá; e: e:, é léto; i: i:, í lípa; o:/d: o:, ó tón; u: u:, ú úkol • Dvojhlásky: • au au, au auto: eu eu, eu euforie- ou/du ou ou houba • Souhlásky: • m m matka- rrj rrj, tramvaj- n n nos p ň kůň rj rj banka a p p pes; b b babička; 11 táta; d d dům; c t tapka; k k kost; g g gram » ts c co- dz 3, dz- leckdo- ffč čáp- CÍ5, dž džem • f f fuj- v v voda- s s sen- z z zub- J š šíp- 3Ž žena- x x, ch chléb-YYabych byl- R In hra • r r rak- r ř řeka- r ř, ř rybář • j j já; I I les • r r krk- I I vlk- m m rožmberk Základy fonetiky Digitalizace akustického signálu Ukázka textu v abecedě SAMPA spolu s výsledkem. • Fonetický přepis věty "Čeština je krásná řeč" • tSeSTina je kra:sna: r/etS • Syntetizovaná věta "Čeština je krásná řeč." (data/cestina.wav) Základy fonetiky Digitalizace akustického signálu Fonetika - samohlásky » Krátké samohlásky - a, e, i, o, u • Dlouhá samohlásky - á, é, í, (ó), ú • Dvojhlásky - (eu), (au), ou • Samohlásky: • základní hlasivkový tón - 100 - 400 Hz • formanty - rezonancí v dutinách hlasového traktu zesílené části akustického spektra Základy fonetiky Digitalizace akustického signálu Formanty • Určující pro rozpoznávání samohlásek • Formant F\ vzniká rezonancí v dutině ústní • Formant F2 vzniká rezonancí v dutině hrdelní • Hlavní formanty - spektrální poloha a intenzita může být dána: • muž • žena • dítě • individuálně • Vyšší formanty F3 - • výskyt bývá individuální Základy fonetiky Digitalizace akustického signálu Formanty Fl a F2 pro české samohlásky hláska Fl [Hz] F2 [Hz] a 750 - 1100 1100 - 1500 e 500 - 700 1500 - 2000 i 300 - 500 2000 - 3000 o 500 - 700 900 - 1200 u 300 - 500 600 - 1000 Základy fonetiky Digitalizace akustického signálu Četnost výskytu samohlásek • e - 10 % • a, o, i - 6 — 7 % • í - 4 % • další jen s nepatrnou frekvencí: • á, u, é, ou, ú • ó, au, eu Základy fonetiky Základy fonetiky Základy fonetiky Základy fonetiky Základy fonetiky Základy fonetiky Základy fonetiky Základy fonetiky Digitalizace akustického signálu Souhlásky (konsonanty) • Zvukově dynamické děje. • Pojem formantu ztrácí význam • tónový charakter mají pouze části některých souhlásek. • Klasifikace: • znělé (sonorní) • neznělé (šumové) • fonetikové dále podle místa a způsobu artikulace na: • retné - m, b, p, w, v, f • zubní - n, d, t, dh, th • dásňové - c, z, s, dz • patrové - ň, d, t, ž, š • závěrové (okluzívy, ražené, explozívy) - b, d, d, g, p, t • úžinové - v, z, ž, f, th, s, š, ... Základy fonetiky Digitalizace akustického signálu Znělé a neznělé souhlásky • Znělé souhlásky • charakteristické přítomností základního tónu • na vytváření se aktivně podílejí hlasivky. • Neznělé souhlásky • hlasivky jsou pasivní (otevřené) • Párové • neliší se artikulací, pouze znělostí • např. b-p, d-t. z-s, ... Základy fonetiky Základy fonetiky Digitalizace akustického signálu Podle způsobu tvorby • Okluzívy • závěrové souhlásky • vytvořena překážka výdechovému proudu vzduchu: • jazyk • zuby • rty • (p, b), (t, d), (t, ď), (k, g), m, n, ň • Frikativy • úžinové • zúžení výdechové cesty při artikulaci • (s, z), (š, ž), (f, v), (ch, h), I, j, r, ř • Semiokluzívy • polouzávěrové • vytváří se jak překážkou, tak zúžením výdechové cesty • c, č Základy fonetiky Základy fonetiky Základy fonetiky Základy fonetiky Digitalizace akustického signálu Koartikulace • Modifikace fonému v řečovém kontextu. • Nutnost přenastavit řečový trakt na další foném. • Způsobuje problémy při: • syntéze řeči • rozpoznávání řeči. Základy fonetiky Základy fonetiky Základy fonetiky Digitalizace akustického signálu Digitalizace zvuku • Cíl - převod spojitého signálu na posloupnost digitálních hodnot vhodných pro uchování v počítači. • Postup digitalizace: O Vzorkování - převod reálných vstupních hodnot na posloupnost diskrétních reálných čísel. O Kvantizace - převod posloupnosti reálných čísel na posloupnost celých čísel. 0 Kódování - způsob uložení a kódování posloupnosti celočíselných hodnot získaných v kroku 2. Základy fonetiky Digitalizace akustického signálu Vzorkování • Transformace spojitého časové závislého signálu s(t) na časově diskrétní posloupnost s„(7~) = 0, 1, 2, ... • T - perioda vzorkování. • Pokud nemá dojít ke ztrátě informace, musí být vzorkovací frekvence aspoň dvojnásobkem nejvyšší frekvence, která je signálu obsažena. • Po čase T je sejmuta a dána na výstup (ke kvantizaci) hodnota ze vstupního snímače. • většinou okamžitá úroveň napětí nebo proudu na vstupu. • Oblasti použití • digitální zpracování zvuku • audio CD • mp3 - navíc použita ztrátová komprese • miniDisc - navíc použita ztrátová komprese ATRAC • DAT • ... • digitální zpracování signálu obecně (digitalizace dat z různých analogových měřících zařízení, digitální zpracování obrazu, . ..) Základy fonetiky Digitalizace akustického signálu • Analogový signál s(t) lze rekonstruovat z hodnot vzorků s„(7~) následovně: právě tehdy když je vzorkovací frekvence alespoň dvojnásobkem nejvyšší frekvence obsažené ve vstupním signálu. • Důsledky: • Vzorkovací frekvence by měla být alespoň dvojnásobkem nejvyšší frekvence vstupního signálu. • Je-li menší dochází ke zkreslení složek vyšších frekvencí. • Spor příznivců a odpůrců audio CD - je 44kHz dostačující vzorkovací frekvence pro hudbu? n) n)) Základy fonetiky Digitalizace akustického signálu Kvantizace • Převod reálných navzorkovaných hodnot na celočíselné hodnoty. • Počet celočíselných hodnot = počet úrovní kvantování • 256 • 65 536 • 16 777 216 » Kvantizační krok - reálný interval přiřazený kvantizované jednotce. • Na vstupu je signál s amplitudou 128 mA (-128 - 127 mA). • 8bitová kvantizace - 256 kvantizačních úrovní • kvantizační krok — 25(^A^ — í[mA\. 9 Běžně používané kvantizace - 8, 16, 24 bitů. • Realizováno pomocí A/D převodníků • součást zvukových karet • mobilních telefonů a ... Základy fonetiky Digitalizace akustického signálu Běžně používané parametry digitalizace zvuku • Vzorkovací frekvence: • 8 kHz - telefonní kvalita • 16 kHz - běžná řeč • 22 kHz - rozhlasová kvalita • 44 kHz - audio CD • 48 kHz - DVD • Kvantizace: • 8 bitů • 16 bitů • 24 bitů • Počet audio kanálů » 1 • 2 • 4 • 6 (5.1, 5 směrových kanálů + basy) Základy fonetiky Digitalizace akustického signálu Způsoby kódování signálu • PCM - přímé ukládání hodnot získaných kvantizací. • Výhody - jednoduché na zpracování, nedochází k další ztrátě informací. • Nevýhody: • často malé rozdíly mezi hodnotami sousedních vzorků -značná redundance dat, • konstantní hodnota kvantizačního kroku (závisí na parametrech AD převodníku) - v případě malé amplitudy vstupního signálu - ztráta informace (signál nepřekročí kvantizační krok), v případě velké amplitudy - hodnota překročí rozsah - zkreslení signálu. Oba případy brání kvalitní rekonstrukci původního signálu. Základy fonetiky 1 Digitalizace akustického signálu 1 Kódování průběhu vlny Řešení nevýhod PCM • Diferenční PCM • Uchovávání rozdílů sousedních vzorků místo uchovávání jej i hodnot. • Hodnota rozdílu bývá podstatně menší než hodnota vzorku lze uchovat pomocí méně bitů. • Adaptivní PCM o Kvantizační krok se určuje na základě amplitudy vstupního signálu.