PV158 Zpracování řečových signálů

Fakulta informatiky
podzim 2002
Rozsah
2/1. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
prof. Dr. Ing. Jan Černocký (přednášející), doc. RNDr. Ivan Kopeček, CSc. (zástupce)
Garance
prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Ivan Kopeček, CSc.
Rozvrh
Čt 10:00–11:50 B007 a každý lichý čtvrtek 12:00–13:50 B117
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM,
Osnova
  • Informační obsah psané a mluvené formy řeči.
  • Techniky zpracování používané ve zpracování řeči.
  • Fourierova transformace, z-transformace, lineární filtrace.
  • Chování lineárních systémů v časové a frekvenční oblasti.
  • Signálový model tvorby řeči: buzení a filtr.
  • Určení parametrů pomocí lineární predikce.
  • LPC koeficienty a odvozené parametry (PARCOR, LAR, ...)
  • Analýza řeči pomocí krátkodobé Fourierovy transformace (STFT): interpretace jako banka filtrů, výpočet pomocí rychlé Fourierovy transformace (FFT).
  • Kepstrální analýza.
  • Parametrisace s perceptuálně upravenou frekvenční osou.
  • Určování základního tónu.
  • Příznaky pro zpracování řeči, kritéria jejich výběru.
  • Měření podobnosti mezi řečovými rámci.
  • Kódování řeči: kódování tvaru vlny a parametrické kodéry.
  • Modelování buzení. Fonetické vokodéry.
  • Rozpoznávání řeči: Skryté Markovovy modely (HMM).
  • Rozšíření HMM pro rozpoznávání souvislé řeči.
  • Statistické jazykové modely.
  • Probrané metody jsou experimentálně procvičeny v počítačových laboratořích (Matlab).
Literatura
  • PSUTKA, Josef. Komunikace s počítačem mluvenou řečí. Praha: Academia, 1995, 287 s. ISBN 8020002030. info
  • RABINER, Lawrence R. a Biing-Hwang JUANG. Fundamentals of speech recognition. Englewood Cliffs: Prentice Hall PTR, 1993, xxxv, 507. ISBN 0-13-015157-2. info
Metody hodnocení
tydne 2h prednaska. 2h pocitacovych cviceni 1x za 14 dni. Maly domaci projekt, presentace na posledni prednasce. Test v poc. laboratorich, pisemna zkouska.
Informace učitele
http://www.fee.vutbr.cz/~cernocky/Students.html
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2003, podzim 2004, podzim 2005, jaro 2007, jaro 2008.