Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2011 Základy fonetiky Dialogové systémy Luděk Bártek ■ Zkoumá zvukovou stránku jazyka z různých aspektů. ■ Základní pojmy, které souvisejí s dialogovými systémy: ■ foném ■ samohlásky - formanty ■ souhlásky - znělost/neznělost souhlásek ■ koartikulace ■ spodoba znělosti Fonémy a fonetická transkripce Dialogové systémy ■ Foném - elementární zvukový segment, který je vymezen na základě své schopnosti diferencovat vyšší, znakové jednotky jazykového systému (morfémy). ■ Fonetická transkripce (přepis) - převod psaného textu do odpovídající fonetické podoby: na shledanou —> na zhledanou | na schledanou ■ Fonetická abeceda - slouží k zápisu fonetického přepisu ■ Mezinárodní fonetická abeceda (IPA) - součástí standardu UNICODE ■ Řečové vyhodnocení metod fonetické abecedy (SAMPA) -sedmibitový přepis fonetické abecedy, využívá se při automatizovaném zpracování (např. řečový syntetizér MBrola, ...).. Samohlásky Dialogové systémy ■ Samohláska - samostatně tvoří slabiku ■ Rozdělení samohlásek: ■ krátké: a, e, i, o, u ■ dlouhé: á, é, í, ó, ú ■ dvojhlásky: eu, au, ou ■ Obsahují: ■ základní hlasivkový tón - frekvence kmitání hlasivek (100 — 400 Hz) ■ formanty - frekvence vzniklé a zesílené rezonancí v hlasových dutinách. Formanty Dialogové systémy ■ Frekvence vzniklé a zesílené rezonancí v hlasových dutinách ■ Fl - vzniká rezonancí v dutině ústní. ■ F2 - vzniká rezonancí v dutině hrdelní. ■ Existují i vyšší formanty (F3, ...) - výskyt je často individuálni. ■ Výskyt a intenzita formantu se může lišit v závislosti na: ■ pohlaví - muž/žena ■ věku - dětství/dospívání/dospělost/seniorský věk ■ zdravotním stavu - např. nachlazení, ochraptělost, nemoci hlasivek a hrtanu, . .. Formanty Fl a F2 pro české samohlásky Dialogové systémy Luděk Bártek Samohláska Formant Fl Formant F2 a 700 — 1100 Hz 1100 — 1500 Hz e 500 — 700 Hz 1500 — 2000 Hz i 300 — 500 Hz 2000 — 3000 Hz o 500 — 700 Hz 900 — 1200 Hz u 300 — 500 Hz 600 — 1000 Hz Tabulka: Formanty Fl a F2 u samohlásek Četnost výskytu samohlásek Dialogové systémy Luděk Bártek Samohláska(y) Relativní četnost [e] 10 % [a]. M, H 6 — 7 % [í] 4 % [á], [u], [é], [ou], [ú] < 4 % [ó], [au], [eu] pouze nepatrná frekvence Souhlásky Dialogové systémy ■ Na rozdíl od samohlásek jsou souhlásky dynamické děje. ■ Silně závisí na kontextu, ve kterém se nacházejí. ■ Tónový charakter mají pouze části některých souhlásek: ■ Dělí se podle: ■ znělé - vznikají v hltanu, obsahují základní hlasivkový tón. ■ neznělé - vznikají v řečových dutinách (nosohltanové, ústní, .. .), mohou mít charakter šumu (např. sykavky): ■ problematická detekce začátku promluvy při zašuměném zdroji. ■ Znělé a neznělé samohlásky se mohou vyskytovat v párech (párové souhlásky) např.: ■ r/l ■ b/p ■ d/t Kroky digitalizace zvuku: Q vzorkování - snímání aktuální hodnoty signálu s danou frekvencí (vzorkovací frekvence) Q kvantizace - převod reálných hodnot na celočíselné Q kódování průběhu vlny - způsob ukládání informací o průběhu zvuku. Vzorkovaní ■ Snímání aktuální hodnoty signálu s danou frekvencí -vzorkovací frekvence. ■ Vzorkovací frekvence - měla by být minimálně dvojnásobkem nejvyšší frekvence, která je v signálu přítomna, aby bylo možné původní signál bez ztráty informace zrekonstruovat (Shannonův vzorkovací teorém). ■ Získané hodnoty musí být následně kvantizovány a vhodným způsobem uloženy. ■ Nej používanější vzorkovací frekvence: ■ 8 kHz - telefonní kvalita ■ 16 kHz ■ 22050 Hz - rozhlasová kvalita ■ 44100 Hz - CD kvalita ■ 48 kHz - DVD kvalita Kvantizace ■ Metoda převodu spojitých hodnot na diskrétní. ■ Princip: ■ Pokud hodnota signálu překročí n. násobek kvantizačního kroku je jí přiřazena hodnota n. ■ kvantizační krok — rozsah hodnot měřené veličiny/počet diskrétních hodnot ■ kvantizační chyba - zaokrouhlován chyba způsobená velikostí kvantizačního kroku, přímo úměrná velikosti kvantizačního kroku. ■ Běžně používané kvantizace: ■ zpracování zvuku: ■ 28 ■ 216 ■ 224 ■ zpracování obrazu, .. . navíc ■ 232