Rozpoznávání a syntéza řeči
PLIN059
Mgr. Dana Hlaváčková, Ph.D.
Rozpoznávání řeči
● Automatic Speech Recognition (ASR)
● Speech-To-Text (STT)
● odlišit od – rozpoznávání hlasu – identifikace mluvčího
(verifikace, bezpečnostní systémy)
● převod zvukového signálu na text
● bigramy, n-gramy, pravděpodobnost výskytu slov na základě
předchozího kontextu, neuronové sítě
● velikost slovníku, korpusy
● vliv intonace, výslovnosti, přízvuku a okolního šumu
● komplikovanější pro flektivní jazyky
Rozpoznávání řeči
● rozpoznávání izolovaných slov
● hlasové povely – hlasové ovládání počítače, hry, automobilu
● rozpoznávání spojité řeči
● jeden mluvčí – Speaker Dependent
● více mluvčích – Speaker Independent (možnost adaptace)
● meze:
● mikrofon + eliminace šumu
● zřetelná výslovnost
● doménově specializovaná oblast
– omezená slovní zásoba (právo, medicína)
● natrénováno na jednoho mluvčího
Rozpoznávání řeči
● ověřování hlasem
● diktovací systémy
● transkripce audio nahrávek
● přepisy záznamu televizních a rozhlasových pořadů
● titulkovací systémy
● pomoc handicapovaným osobám (hlasové ovládání)
● dialogové systémy, automatická spojovatelka
● mobilní aplikace
Pracoviště v ČR
● ZČU Plzeň – Katedra kybernetiky Fakulty aplikovaných věd,
Oddělení umělé inteligence, http://www.kky.zcu.cz/cs
● akustické rozpoznávání řeči
● audiovizuální rozpoznávání řeči
● rozpoznávání znakové řeči
● titulkovací systémy
● původně spin-off SpeechTech (https://www.speechtech.cz)
● diktovací systém NovaVoice (technologie MegaWord), se
společností Consulting Company Novasoft
(https://ccnovasoft.cz)
Pracoviště v ČR
● TU Liberec – Ústav informačních technologií a elektroniky
Fakulty mechatroniky, informatiky a mezioborových studií
● Laboratoř počítačového zpracování řeči SpeechLab
(http://speechlab.tul.cz/index.html)
● diktovací systém NewtonDictate, s firmou Newton
Technologies (https://www.newtontech.net/cs/)
● VUT Brno – Fakulta informačních technologií
● Ústav počítačové grafiky a multimédií
● Speech@FIT – výzkum zaměřený na verifikaci hlasu
● původně spin-off Phonexia (http://www.phonexia.com/)
Ukázky
Katedra kybernetiky
https://www.youtube.com/channel/UCgLPJ6VT9rmwQ3GuZBajZ2
w
NewtonDictate
● http://www.youtube.com/watch?v=W0BT6DKzF3s
● a další videa na YouTube…
pro pobavení:
● Windows Vista Speech Recognition
http://www.youtube.com/watch?v=kX8oYoYy2Gc
Syntéza řeči
● Speech Synthesis
● Text-To-Speech (TTS)
● subslovní řečové segmenty, konkatenace (řetězení)
● difóny (jednotka od poloviny jedné hlásky do poloviny druhé)
● trifóny (kontext hlásky)
● modelování prozodických charakteristik řeči (melodie, tempo,
hlasitost)
● mluvené (řečové) korpusy
● kvalita posuzována podle podobnosti lidskému hlasu
Syntéza řeči
● služby telefonních systémů
● software pro zrakově postižené osoby – odečítače obrazovky
(screenreader, pristupnost.cz/screen-readery)
● ZČU http://www.kky.zcu.cz/cs
● spojení s vizualizací (audiovizuální syntéza řeči)
● SpeechTech https://www.speechtech.cz
● Acapela (https://www.acapela-group.com/)
● Google WaveNet – neuronové sítě,
https://cloud.google.com/text-to-speech
Dialogové systémy
● Google Assistant https://assistant.google.com/
● Amazon Alexa https://cs.wikipedia.org/wiki/Amazon_Alexa
● ELIZA computer therapist https://cs.wikipedia.org/wiki/ELIZA
● Talk to Poppy – terapie https://www.talktopoppy.com/
● https://promethist.ai/
● iPhone – asistentka Siri, rozumí a odpovídá
http://www.youtube.com/watch?v=TLtPMggOzD0