Dialogové systémy Luděk Bártek Laboratoř vyhledávání a dialogu, Fakulta Informatiky Masarykovy Univerzity, Brno jaro 2015 Základy fonetiky Dialogové systémy Luděk Bártek Základy fonetiky ■ Zkoumá zvukovou stránku jazyka z různých aspektů. Úvod do počítačového ■ Základní pojmy, které souvisejí se zpracováním řeči a zpracování zvuku dialogovými systémy: Komunikace ■ foném uživatel -dialogový ■ samohlásky - formanty systém ■ souhlásky - znělost/neznělost souhlásek Vol P SIP ■ koartikulace ■ spodoba znělosti Fonémy a fonetická transkripce Dialogové systémy Foném - elementární zvukový segment, který je vymezen na základě své schopnosti diferencovat vyšší, znakové jednotky jazykového systému (morfémy). Fonetická transkripce (přepis) - převod psaného textu do odpovídající fonetické podoby: na shledanou —> na zhledanou | na schledanou Fonetická abeceda - slouží k zápisu fonetického přepisu ■ Mezinárodní fonetická abeceda (IPA) - součástí standardu UNICODE ■ Fonetická abeceda pro metody zpracování řeči (Speech Assessment Methods Phonetic Alphabet - SAMPA) -sedmibitový přepis fonetické abecedy, využívá se při automatizovaném zpracování (např. řečový syntetizér MBrola, ...).. < □ ► 4 (5? ► < 1 -o^o Samohlásky Dialogové systémy Samohláska - samostatně tvoří slabiku Rozdělení samohlásek: ■ krátké: a, e, i, o, u ■ dlouhé: á, é, í, ó, ú ■ dvojhlásky: eu, au, ou Obsahují: ■ základní hlasivkový tón - frekvence kmitání hlasivek (100 — 400 Hz) ■ formanty - frekvence vzniklé a zesílené rezonancí v hlasových dutinách. Formanty Dialogové systémy Frekvence vzniklé a zesílené rezonancí v hlasových dutinách ■ F\ - vzniká rezonancí v dutině ústní. ■ F2 - vzniká rezonancí v dutině hrdelní. Existují i vyšší formanty (F3, ...) - výskyt je často individuálni. Výskyt a intenzita formantu se může lišit v závislosti na: ■ pohlaví - muž/žena ■ věku - dětství/dospívání/dospělost/seniorský věk ■ zdravotním stavu - např. nachlazení, ochraptělost, nemoci hlasivek a hrtanu, . .. Formanty F\ a F2 pro české samohlásky Dialogové systémy Samohláska Formant F\ Formant F2 a 700 — 1100 Hz 1100 — 1500 Hz e 500 — 700 Hz 1500 — 2000 Hz i 300 — 500 Hz 2000 — 3000 Hz 0 500 — 700 Hz 900 — 1200 Hz u 300 — 500 Hz 600 — 1000 Hz Tabulka: Formanty F\ a F2 u samohlásek Četnost výskytu samohlásek Dialogové systémy Luděk Bártek Úvod do počítačového Komunikac uživatel -dialogový systém Vol P SIP Samohláska(y) Relativní četnost [e] 10 % [a]. M, H 6 — 7 % [í] 4 % [á], [u], [é], [ou], [ú] < 4 % [ó], [au], [eu] pouze nepatrná frekvence Souhlásky Dialogové systémy Na rozdíl od samohlásek jsou souhlásky dynamické děje. Silně závisí na kontextu, ve kterém se nacházejí. Tónový charakter mají pouze části některých souhlásek: Dělí se podle: ■ znělé - vznikají v hltanu, obsahují základní hlasivkový tón. ■ neznělé - vznikají v řečových dutinách (nosohltanové, ústní, .. .), mohou mít charakter šumu (např. sykavky): ■ problematická detekce začátku promluvy při zašuměném zdroji. ■ Znělé a neznělé samohlásky se mohou vyskytovat v párech (párové souhlásky) např.: ■ r/l ■ b/p ■ d/t Kroky digitalizace zvuku: q vzorkování - snímání aktuální hodnoty signálu s danou frekvencí (vzorkovací frekvence) q kvantizace - převod reálných hodnot na celočíselné q kódování průběhu vlny - způsob ukládání informací o průběhu zvuku. Vzorkovaní Dialogové systémy Snímání aktuální hodnoty signálu - snímání se opakuje s učitou frekvencí (vzorkovací frekvence). Vzorkovací frekvence - měla by být minimálně dvojnásobkem nejvyšší frekvence, která je v signálu přítomna, aby bylo možné původní signál bez ztráty informace zrekonstruovat (Shannonův vzorkovací teorém). Získané hodnoty musí být následně kvantizovány a vhodným způsobem uloženy. Nej používanější vzorkovací frekvence: ■ 8 kHz - telefonní kvalita ■ 16 kHz ■ 22050 Hz - rozhlasová kvalita ■ 44100 Hz - CD kvalita ■ 48 kHz - DVD kvalita Metoda převodu spojitých hodnot na diskrétní. Princip: ■ Pokud hodnota signálu překročí n. násobek kvantizačního kroku je jí přiřazena hodnota n. ■ kvantizační krok — rozsah hodnot měřené veličiny/počet diskrétních hodnot ■ kvantizační chyba - zaokrouhlován chyba způsobená velikostí kvantizačního kroku, přímo úměrná velikosti kvantizačního kroku. Běžně používané kvantizace: ■ zpracování zvuku: ■ 28 ■ 216 ■ 224 ■ zpracování obrazu, .. . navíc ■ 232 Způsoby kódování průběhu vlny Dialogové systémy Přímé ukládání hodnot získaných kvantizací- kódování PCM (Pulse-Code Modulation). ■ relativně pomalé změny průběhu zvukového signálu - malé rozdíly mezi sousedními vzorky. ■ Velká redundance dat. ■ Problém v případě příliš velkého rozptylu amplitud v signálu (příliš velký kvantizační krok - příliš velká kvantizační chyba, příliš malý kvantizační krok - přetečení v okamžiku zvětšení amplitudy signálu). Diferenční PCM - ukládá se rozdíl mezi sousedními vzorky Adaptivní PCM — PCM s proměnou velikostí kvantizačního kroku - kvantizační krok se uzpůsobí velikosti amplitudy signálu. 4Ľ3k4l3*4 = k4 = * -š -O^O Luděk Bártek Základy fonetiky Komunikace uživatel -dialogový systém Vol P SIP Vychází z předpokladů: Rozdíl dvou po sobě jdoucích vzorků je podstatně menší hodnota než hodnota vzorku. Následující vzorek lze poměrně přesně odhadnout jako lineární kombinaci předchozích vzorků. Blokové schém ■ c i crn 3 DPCM s"(n) - odhad hodnoty řečového vzorku s'(n) - rekonstruovaný signál, získaný jako součet kvantizovaného signálu S'(n) a s"(n) S(n) = s(n) - s"{n) Adaptivní pulsní kódová modulace Možné velké změny amplitudy signálu: ■ Nepřesné zachycení slabého signálu - amplituda je příliš malá, srovnatelná s kvantizačním krokem (příliš velký kvantizační krok). ■ Zkreslení (ořezání) silného signálu - dojde k přetečení rozsahu hodnot určených pro zakódování signálu (příliš malý kvantizační krok). Řešení: přizpůsobení kvantizačního kroku amplitudě signálu. Dialogové systémy Způsoby komunikace uživatele s dialogovým systémem Dialogové systémy Hlasová: ■ komunikace většinou prostřednictvím telefonní sítě (PSTN, VolP). ■ Digitalizace hlasu probíhá: ■ Na straně uživatele - komunikace pomocí VolP. ■ Na straně telefonní ústředny - DS používá VolP, uživatel používá PSTN. ■ Na straně DS - uživatel i DS používají PSTN. ■ Rozpoznávání řeči probíhá většinou na straně DS. ■ Kdy je vhodné rozpoznávání řeči na straně klienta? ■ Jaké mohou být výhody rozpoznávání řeči na straně klienta? Způsoby komunikace uživatele s dialogovým systémem Dialogové systémy textová: ■ uživatel komunikuje s DS buď pomocí specializovaného klienta nebo pomocí běžných protokolů z rodiny TCP/IP. ■ Odpadá nutnost rozpoznávání řeči. ■ Využívá se hlavně pro vývoj a ladění. hlasová+textová: ■ komunikace s DS ■ VolP - text pomocí DTMF (alá SMS). ■ specializovaný klient. IP Telefonie Používané protokoly Dialogové systémy ■ VolP - rodina protokolů pro řízení průběhu hlasové Luděk Bártek komunikace a přenos hlasu přes internet (síť na bázi IP). Základy fonetiky ■ Využívá se pro IP telefonii. Úvod do ■ Využívá protokoly: počítačového zpracování ■ UDP (transportní vrstva): zvuku ■ Stará se o přenos paketů přes počítačovou síť mezi dvěma Komunikace uživatel - body. dialogový ■ Není zajištěno doručení paketů ani jejich pořadí. systém Vol P ■ Výhoda - nízká režie přenosu dat. SIP ■ Nevýhody - možná ztráta dat a možnost velkých rozdílů v rychlosti doručení jednotlivých paketů ■ RTP (relační vrstva): ■ Využívá se pro přenos multimediálních dat. ■ Zajišťuje doručení paketů. ■ Umožňuje řízení parametrů přenosu - zajistí malé rozdíly v rychlosti doručení paketů. IP telefonie Používané protokoly Dialogové systémy VolP - řada implementací. Liší se: ■ použitými standardy ■ H.323 (na ústupu, standard ITU, komplexní, relativně komplikovaný) ■ SIP (jednodušší náhrada H.323, v současnosti velmi rozšířený) ■ firemní - Skinny (Cisco), HFA (Siemens), . . . ■ službami - telefonie, TV (DVB), fax, zasílání zpráv, .. . ■ signalizací - závisí na zvoleném standardu a použitých protokolech. Session Initiation Protocol (SIP) Dialogové systémy Luděk Bártek Základy ■ Protokol pro řízení signalizace pro VolP na aplikační vrstvě fonetiky OSI modelu. Úvod do počítačového ■ Textový protokol pracující v režimu klient-server, zpracování zvuku poskytující mechanismy pro: Komunikace ■ přesměrování hovoru uživatel -dialogový ■ číselnou identifikaci volajícího a volaného systém ■ osobní mobilitu Vol P SIP ■ autentizaci volajícího a volaného ■ podporu konferenčních hovorů prostřednictvím vícesměrového zasílání dat (multicast). ■ .. . SIP - pokračovaní Dialogové systémy Identifikace účastníka - URI ve tvaru sip:číslo@adresa_počítače m číslo - číslo pridelené uživateli na daném stroji (VolP ústředně) ■ adresa počítače - adresa (FQDN/IP) ústředny, na které je uživatel registrován. SIP relace může být: ■ přímá - navázána přímo komunikujícími stranami ■ s použitím SIP proxy serveru/ů - tyto slouží jako registrátoři účastníků. Činnosti protokolu SIP Dialogové systémy Lokalizace účastníka - pomocí identifikace Zjištění stavu účastníka - připravenost k přijetí hovoru vs. obsazeno/přesměrováno Zjištění možností účastníka - dostupné kodeky, dostupná šířka pásma, podpora audia/videa, ... Vlastní navázání spojení - využívá se protokol SDP ■ popisuje navazované spojení, ■ odkazuje na RTP/UDP datový tok, který je využit pro komunikaci účastníků. Řízeni průběhu spojení pomocí protokolu SIP telefon Alice SIP proxy Atlanta SIP proxy Biloxi telefon Boba invite *—íbó^řw^ « 2óôôk 200 ok ack ^—2ÓToi< multimediální relace bve 100 ok ■--> h Zavěsil Obrázek: Obrázek převzat z Wikipedie