Dialogové systémy Dialogové systémy zpracování zvuku Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2018 Základy fonetiky Dialogové systémy Luděk Bártek Zkoumá zvukovou stránku jazyka z různých aspektů. Základní pojmy, které souvisejí se zpracováním řeči a dialogovými systémy: ■ foném ■ samohlásky - formanty ■ souhlásky - znělost/neznělost souhlásek ■ koartikulace ■ spodoba znělosti Fonémy a fonetická transkripce Dialogové systémy Luděk Bártek Foném - elementární zvukový segment, který je vymezen na základě své schopnosti diferencovat vyšší, znakové jednotky jazykového systému (morfémy). Fonetická transkripce (přepis) - převod psaného textu do odpovídající fonetické podoby: na shledanou —>► na zhledanou | na schledanou Fonetická abeceda - slouží k zápisu fonetického přepisu ■ Mezinárodní fonetická abeceda (IPA) - součástí standardu UNICODE ■ Fonetická abeceda pro metody zpracování řeči (Speech Assessment Methods Phonetic Alphabet - SAMPA) -sedmibitový přepis fonetické abecedy, využívá se při automatizovaném zpracování (např. řečový syntetizér MBrola, ...).. Ukázky fonetických přepisů Dialogové systémy Luděk Bártek Fonetický přepis věty:„Ukázka fonetických transkripcí" IPA: 'uka:ska f'onet,itski:x tr'anskriptsi: SAMPA: ukAska foneticklH transkripcsl Samohlásky Dialogové systémy Luděk Bártek Samohláska - samostatně tvoří slabiku Rozdělení samohlásek: ■ krátké: a, e, i, o, u ■ dlouhé: á, é, í, ó, ú ■ dvojhlásky: eu, au, ou Obsahují: ■ základní hlasivkový tón - frekvence kmitání hlasivek (100 — 400 Hz) ■ formanty - frekvence vzniklé a zesílené rezonancí v hlasových dutinách. □ s Formanty Dialogové systémy Luděk Bártek Frekvence vzniklé a zesílené rezonancí v hlasových dutinách ■ Fi - vzniká rezonancí v dutině ústní. ■ F2 - vzniká rezonancí v dutině hrdelní. Existují i vyšší formanty (F3, . ..) - výskyt je často individuálni. Výskyt a intenzita formantů se může lišit v závislosti na: ■ pohlaví - muž/žena ■ věku - dětství/dospívání/dospělost/seniorský věk ■ zdravotním stavu - např. nachlazení, ochraptělost, nemoci lasivek a hrtanu, . .. Formanty F\ a F2 pro české samohlásky Dialogové systémy Luděk Bártek Samohláska Formant F± Formant F2 a 700 1100 Hz 1100 1500 Hz e 500 700 Hz 1500 2000 Hz i 300 500 Hz 2000 3000 Hz 0 500 700 Hz 900 1200 Hz u 300 500 Hz 600 1000 Hz Tabulka: Formanty F\ a F2 u samohlásek Četnost výskytu samohlásek Dialogové systémy Luděk Bártek Základy fonetiky Úvod do počítačového zpracování zvuku Komunikace uživatel — dialogový systém VolP SIP Samohláska(y) Relativní četnost [e] 10 % [a], [o], [i] 6 7 % P] 4% [á], [u], [é], [ou], [ú] < 4 % [ó], [au], [eu] pouze nepatrná frekvence Souhlásky Dialogové systémy Luděk Bártek Na rozdíl od samohlásek jsou souhlásky dynamické děje. Silně závisí na kontextu, ve kterém se nacházejí. Tónový charakter mají pouze části některých souhlásek: Dělí se podle: ■ znělé - vznikají v hrtanu, obsahují základní hlasivkový tón. ■ neznělé - vznikají v řečových dutinách (nosohltanové, ústní, .. .), mohou mít charakter šumu (např. sykavky): ■ problematická detekce začátku promluvy při zašuměném zdroji. ■ Znělé a neznělé samohlásky se mohou vyskytovat v párech (párové souhlásky) např.: ■ r/l ■ b/p ■ d/t Digitalizace zvuku Dialogové systémy Luděk Bártek Kroky digitalizace zvuku: vzorkování - snímání aktuální hodnoty signálu s danou frekvencí (vzorkovací frekvence) kvantizace - převod reálných hodnot na celočíselné kódování průběhu vlny - způsob ukládání informací o průběhu zvuku. Vzorkovaní Dialogové systémy Luděk Bártek Snímání aktuální hodnoty signálu - snímání se opakuje s určitou frekvencí (vzorkovací frekvence). Vzorkovací frekvence - měla by být minimálně dvojnásobkem nejvyšší frekvence, která je v signálu přítomna, aby bylo možné původní signál bez ztráty informace zrekonstruovat (Shannonův vzorkovací teorém) Získané hodnoty musí být následně kvantizovány a vhodným způsobem uloženy. Nej používanější vzorkovací frekvence: ■ 8 kHz - telefonní kvalita ■ 16 kHz ■ 22050 Hz - rozhlasová kvalita ■ 44100 Hz - CD kvalita ■ 48 kHz - DVD kvalita Kvantizace Dialogové systémy Luděk Bártek Metoda převodu spojitých hodnot na diskrétní. Princip: ■ Pokud hodnota signálu překročí n. násobek kvantizačního kroku její přiřazena hodnota n. ■ kvantizační krok = rozsah hodnot měřené veličiny/počet diskrétních hodnot ■ kvantizační chyba - zaokrouhlovací chyba způsobená velikostí kvantizačního kroku, přímo úměrná velikosti kvantizačního kroku. Běžně používané kvantizace: ■ zpracování zvuku: ■ 28 ■ 216 ■ 224 ■ zpracování obrazu, .. . navíc ■ 232 >0 0,0 Způsoby kódování průběhu vlny Dialogové systémy Luděk Bártek Přímé ukládání hodnot získaných kvantizací - kódování PCM (Pulse-Code Modulation). ■ relativně pomalé změny průběhu zvukového signálu - malé rozdíly mezi sousedními vzorky ■ Velká redundance dat. ■ Problém v případě příliš velkého rozptylu amplitud v signálu (příliš velký kvantizační krok - příliš velká kvantizační chyba, příliš malý kvantizační krok - přetečení v okamžiku zvětšení amplitudy signálu). Diferenční PCM - ukládá se rozdíl mezi sousedními vzorky Adaptivní PCM — PCM s proměnou velikostí kvantizačního kroku - kvantizační krok se uzpůsobí velikosti amplitudy signálu. Diferenční pulsní kódová modulace Dialogové systémy Luděk Bártek Vychází z předpokladů: ■ Rozdíl dvou po sobě jdoucích vzorků je podstatně menší hodnota než hodnota vzorku. ■ Následující vzorek lze poměrně přesně odhadnout jako lineární kombinaci předchozích vzorků. Blokové schéma kódování signálu pomoci DPCM Komunikace uživatel — dialogový systém SUD &&ntizér s"IP ■ Výhoda - nízká režie přenosu dat. vuir SIP ■ Nevýhody - možná ztráta dat a možnost velkých rozdílů v rychlosti doručení jednotlivých paketů ■ RTP (relační vrstva): ■ Využívá se pro přenos multimediálních dat. ■ Zajišťuje doručení paketů. ■ Umožňuje řízení parametrů přenosu - zajistí malé rozdíly v rychlosti doručení paketů. IP telefonie Používané protokoly Dialogové systémy Luděk Bártek VolP - řada implementací. Lisí se: ■ použitými standardy ■ H.323 (na ústupu, standard ITU, komplexní, relativně komplikovaný) ■ SIP (jednodušší náhrada H.323, v současnosti velmi rozšírený) ■ firemní - Skinny (Cisco), HFA (Siemens), ... ■ službami - telefonie, TV (DVB), fax, zasílání zpráv, ... ■ signalizací - závisí na zvoleném standardu a použitých protokolech. Session Initiation Protocol (SIP) Dialogové systémy Luděk Bártek Protokol pro řízení signalizace pro Vol P na aplikační vrstvě OSI modelu. Textový protokol pracující v režimu klient-server, poskytující mechanismy pro: ■ přesměrování hovoru ■ číselnou identifikaci volajícího a volaného ■ osobní mobilitu ■ autentizaci volajícího a volaného ■ podporu konferenčních hovorů prostřednictvím vícesměrového zasílání dat (multicast). SIP - pokračovaní Dialogové systémy Luděk Bártek Identifikace účastníka - URI ve tvaru s/p; číslo Qadresa-počíta č e m číslo - číslo pridelené uživateli na daném stroji (VolP ústredné) ■ adresa počítače - adresa (FQDN/IP) ústředny, na které je uživatel registrován. SIP relace může být: ■ přímá - navázána přímo komunikujícími stranami ■ s použitím SIP proxy serveru/ů - tyto slouží jako registrátoři účastníků. Činnosti protokolu SIP Dialogové systémy Luděk Bártek Lokalizace účastníka - pomocí identifikace Zjištění stavu účastníka - připravenost k přijetí hovoru vs. obsazeno/přesměrováno Zjištění možností účastníka - dostupné kodeky, dostupná šířka pásma, podpora audia/videa, ... Vlastní navázání spojení - využívá se protokol SDP ■ popisuje navazované spojení, ■ odkazuje na RTP/UDP datový tok, který je využit pro komunikaci účastníků. Řízeni průběhu spojení pomocí protokolu SIP Dialogové systémy Luděk Bártek telefon Alice SIP proxy Atlanta SIP proxy Biloxi telefon Boba t *-2ÓÓOK~ 4 2íxfč5í<~ ACK 2uu Ur* multimediální relace --—* ■4---- rYE 100 OK "--► Zvoní Zvednul Zavěsil Obrázek: Obrázek převzat z Wikipedie >0 0,0