Dialogové systémy Luděk Bártek Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2016 >0 0,0 Základy fonetiky Dialogové systémy Luděk Bártek Zkoumá zvukovou stránku jazyka z různých aspektů. Základní pojmy, které souvisejí se zpracováním řeči a dialogovými systémy: ■ foném ■ samohlásky - formanty ■ souhlásky - znělost/neznělost souhlásek ■ koartikulace ■ spodoba znělosti Fonémy a fonetická transkripce Dialogové systémy Luděk Bártek Foném - elementární zvukový segment, který je vymezen na základě své schopnosti diferencovat vyšší, znakové jednotky jazykového systému (morfémy). Fonetická transkripce (přepis) - převod psaného textu do odpovídající fonetické podoby: na shledanou —> na zhledanou | na schledanou Fonetická abeceda - slouží k zápisu fonetického přepisu ■ Mezinárodní fonetická abeceda (IPA) - součástí standardu UNICODE ■ Fonetická abeceda pro metody zpracování řeči (Speech Assessment Methods Phonetic Alphabet - SAMPA) -sedmibitový přepis fonetické abecedy, využívá se při automatizovaném zpracování (např. řečový syntetizér MBrola, ...).. Samohlásky Dialogové systémy Luděk Bártek Samohláska - samostatně tvoří slabiku Rozdělení samohlásek: ■ krátké: a, e, i, o, u ■ dlouhé: á, é, í, ó, ú ■ dvojhlásky: eu, au, ou Obsahují: ■ základní hlasivkový tón - frekvence kmitání hlasivek (100 — 400 Hz) ■ formanty - frekvence vzniklé a zesílené rezonancí v asových dutinách. □ ť5P - 1 O Q.O Formanty Dialogové systémy Luděk Bártek Frekvence vzniklé a zesílené rezonancí v hlasových dutinách ■ Fi - vzniká rezonancí v dutině ústní. ■ F2 - vzniká rezonancí v dutině hrdelní. Existují i vyšší formanty (F3, . ..) - výskyt je často individuálni. Výskyt a intenzita formantů se může lišit v závislosti na: ■ pohlaví - muž/žena ■ věku - dětství/dospívání/dospělost/seniorský věk ■ zdravotním stavu - např. nachlazení, ochraptělost, nemoci lasivek a hrtanu, . .. Formanty F\ a F2 pro české samohlásky Dialogové systémy Luděk Bártek Samohláska Formant F± Formant F2 a 700 1100 Hz 1100 1500 Hz e 500 700 Hz 1500 2000 Hz i 300 500 Hz 2000 3000 Hz 0 500 700 Hz 900 1200 Hz u 300 500 Hz 600 1000 Hz Tabulka: Formanty F\ a F2 u samohlásek Četnost výskytu samohlásek Dialogové systémy Luděk Bártek Základy fonetiky Úvod do počítačového zpracování zvuku Komunikace uživatel — dialogový systém VolP SIP Samohláska(y) Relativní četnost [e] 10 % [a]. M. N 6 7 % M 4% [á], [u], [é], [ou], [ú] < 4 % [ó], [au], [eu] pouze nepatrná frekvence Souhlásky Dialogové systémy Luděk Bártek Na rozdíl od samohlásek jsou souhlásky dynamické děje. Silně závisí na kontextu, ve kterém se nacházejí. Tónový charakter mají pouze části některých souhlásek: Dělí se podle: ■ znělé - vznikají v hltanu, obsahují základní hlasivkový tón. ■ neznělé - vznikají v řečových dutinách (nosohltanové, ústní, .. .), mohou mít charakter šumu (např. sykavky): ■ problematická detekce začátku promluvy při zašuměném zdroji. ■ Znělé a neznělé samohlásky se mohou vyskytovat v párech (párové souhlásky) např.: ■ r/l ■ b/p ■ d/t Digitalizace zvuku Dialogové systémy Luděk Bártek Kroky digitalizace zvuku: vzorkování - snímání aktuální hodnoty signálu s danou frekvencí (vzorkovací frekvence) kvantizace - převod reálných hodnot na celočíselné kódování průběhu vlny - způsob ukládání informací o průběhu zvuku. Vzorkovaní Dialogové systémy Luděk Bártek Snímání aktuální hodnoty signálu - snímání se opakuje s určitou frekvencí (vzorkovací frekvence). Vzorkovací frekvence - měla by být minimálně dvojnásobkem nejvyšší frekvence, která je v signálu přítomna, aby bylo možné původní signál bez ztráty informace zrekonstruovat (Shannonův vzorkovací teorém) Získané hodnoty musí být následně kvantizovány a vhodným způsobem uloženy. Nejpoužívanější vzorkovací frekvence: ■ 8 kHz - telefonní kvalita ■ 16 kHz ■ 22050 Hz - rozhlasová kvalita ■ 44100 Hz - CD kvalita ■ 48 kHz - DVD kvalita Kvantizace Dialogové systémy Luděk Bártek Metoda převodu spojitých hodnot na diskrétní. Princip: ■ Pokud hodnota signálu překročí n. násobek kvantizačního kroku je jí přiřazena hodnota n. ■ kvantizační krok = rozsah hodnot měřené veličiny/počet diskrétních hodnot ■ kvantizační chyba - zaokrouhlovací chyba způsobená velikostí kvantizačního kroku, přímo úměrná velikosti kvantizačního kroku. Běžně používané kvantizace: ■ zpracování zvuku: ■ 28 ■ 216 ■ 224 ■ zpracování obrazu, .. . navíc ■ 232 Způsoby kódování průběhu vlny Dialogové systémy Luděk Bártek Přímé ukládání hodnot získaných kvantizací- kódování PCM (Pulse-Code Modulation). ■ relativně pomalé změny průběhu zvukového signálu - malé rozdíly mezi sousedními vzorky. ■ Velká redundance dat. ■ Problém v případě příliš velkého rozptylu amplitud v signálu (příliš velký kvantizační krok - příliš velká kvantizační chyba, příliš malý kvantizační krok - přetečení v okamžiku zvětšení amplitudy signálu). Diferenční PCM - ukládá se rozdíl mezi sousedními vzorky Adaptivní PCM — PCM s proměnou velikostí kvantizačního kroku - kvantizační krok se uzpůsobí velikosti amplitudy signálu. Diferenční pulsní kódová modulace Dialogové systémy Luděk Bártek Vychází z předpokladů: ■ Rozdíl dvou po sobě jdoucích vzorků je podstatně menší hodnota než hodnota vzorku. ■ Následující vzorek lze poměrně přesně odhadnout jako lineární kombinaci předchozích vzorků. Blokové schéma kódování signálu pomoci DPCM Komunikace uživatel — dialogový systém SUD &&ntizér s"