Rozpoznávání a syntéza řeči PLIN059 Mgr. Dana Hlaváčková, Ph.D. Rozpoznávání a syntéza řeči . další z úkolů NLP • analýza textu . znaky a řetězce znaků . rozpoznání i produkce (strojový překlad, automatické generování textů) • analýza řeči . zvukový signál . převod signálu na text (znaky) . převod textu na zvukový signál (co nejvíce podobný lidské řeči) Rozpoznávání řeči . Speech-To-Text (STT), Automatic Speech Recognition (ASR) • rozpoznávání hlasu . identifikace mluvčího (Speaker Identification) . rozpoznání věku a pohlaví . odlišení mluvčího od ostatních hlasů (Speaker Diarization) . verifikace, bezpečnostní systémy, Voice Biometrics Technologies, napr. Phonexia • hlasové povely . hlasové ovládání počítače, hry, mobilu, domácnosti, automobilu... . Voice Assistant - Google, Siri, Alexa, chatbots - Gemini . rozpoznávání izolovaných slov nebo spojité řeči Rozpoznávání řeči • převod zvukového signálu na text • pravidlové systémy - HMM (Hidden Markov Model) . stavy a přechody mezi stavy . bigramy, n-gramy, pravděpodobnost výskytu slov na základě předchozího kontextu . velikost slovníku, vliv intonace, výslovnosti, přízvuku a okolního šumu, komplikovanější pro flektivní jazyky . neuronové sítě - transformery . úspěšnější v rozpoznávání i syntéze . náročné na množství dat, dlouhý čas trénování, black box Rozpoznávání řeči . jeden mluvčí - Speaker Dependent (SD) . více mluvčích - Speaker Independent (SI) . možnost adaptace . meze: . mikrofon + eliminace šumu, zřetelná výslovnost . doménově specializovaná oblast - omezená slovní zásoba (právo, medicína) . možnosti . běžně mluvený jazyk, dialekty, prízvuky . rozpoznávání a syntéza emocí . komplexní systémy pro více jazyků Rozpoznávání řeči - uplatnění . ověřování hlasem, hlasové povely . pomoc handicapovaným osobám (hlasové ovládání) . diktovací systémy . transkripce audio nahrávek . přepisy záznamu televizních a rozhlasových pořadů . titulkovací systémy, automatické titulky (v reálném čase) . analýza sentimentu . překlad v reálném čase . hlasoví asistenti Syntéza řeči . Text-To-Speech (TTS), Automatic Speech Synthesis (ASS) . modelování zvukového signálu do podoby lidské řeči . konkatenační syntéza (řetězení) . subslovní řečové segmenty, difóny (jednotka od poloviny jedné hlásky do poloviny druhé) . trifóny (kontext hlásky) . modelování prozodických charakteristik řeči (melodie, tempo, hlasitost) . neuronové sítě, Deep Learning Synthesis, Deep Neural Networks (DNN) . přirozeně znějící hlasy . syntéza přízvuků, emocí, stylu mluveného projevu Syntéza řeči - uplatnění . služby telefonních systémů . hlášení na nádraží, v hasičském sboru apod. . software pro zrakově postižené osoby - odečítače obrazovky . spojení s vizualizací (audiovizuální syntéza řeči) . předabování videí . využití hlasů u podcastů, dokumentů, zpráv, sociálních sítích apod. . audio deepfakes Pracoviště v ČR . ZČU Plzeň - Katedra kybernetiky Fakulty aplikovaných věd, Výzkumné centrum NTIS, http://www. kkv.zcu.cz/cs . firma SpeechTech (https://www. speechtech. cz) . diktovací systém MegaWord, syntéza řeči . TU Liberec - Ústav informačních technologií a elektroniky Fakulty mechatroniky, informatiky a mezioborových studií . Laboratoř umělé inteligence (https://ailab.ite.tul.cz/) . diktovací systém Newton D ictate, s firmou Newton Technologies (https://www. newtontech. net/cs/) . Beey- platforma pro titulkování v 18 jazycích Pracoviště v ČR . VUT Brno - Fakulta informačních technologií • Ústav počítačové grafiky a multimédií (https://speech.fit.vut.cz/) . Speech@FIT - výzkum zaměřený na verifikaci hlasu a identifikaci mluvčího . Phonexia (http://www.phonexia.com/) Ukázky . Využití v psychoterapii . ELIZA computer therapist https://cs.wikipedia.org/wiki/ELIZA . elysai - Promethist https://promethist.ai/ . Google Cloud - https://cloud.qooqle.com . https://revoicer.com/ . https://elevenlabs.io/