Rozpoznávání řeči    Úvod  Automatické rozpoznávání řeči ­ ASR (Automatic  Speech Recognition)  Snaží pracovat podobně jako lidský mozek  Dnes již umí řeč převést do textu, ale stále  nerozumí obsahu  Nejpoužívanější ­ statistický přístup    Historie  ASR existují již od počátků počítačů  První systémy – jen několik slov, porovnávaly proti  nahrávkám, zavislé na řečníkovi (nižší úspěšnost)  S růstem paměťové a výkonové kapacity rostla i  míra schopnosti rozpoznávat řeč  Dnešní ASR systémy rozpoznají až milióny slov     Zvuk a řeč  Řeč je ve své fyzikální podobě spojitá funkce  změny akustického tlaku  Člověk, ale zvuk slyší jako tóny – slyší jejich  frekvenci      Fonémy  Nejmenší lingvistická jednotka schopná rozlišovat  významové jednotky  Princip minimálních párových slov (liší se jedním  fonémem)  [a] – [á] hrábě ­ hrabě, [t] – [d] ten – den  Ale [n] a [ŋ] nemění význam – nejsou 2 odlišné  fonémy    Princip rozpoznávání  Akustický model  Jazykový model  Výslovnostní slovník     Akustický model  Amplituda akustického vlnění je snímána v  pravidelných intervalech a uložena ve formě  celého čísla (digitalizace a vzorkování signálu) –  příznaky pro každý interval – vstupem  akustického modelu  Anotovaná řečová data ­ jak který foném zní. (jak  vypadá jeho sekvence příznaků)   Sada možných fonémů  Vytvořen statistický model – ukazuje, jak vypadá  matice příznaků jednotlivých fonémů    Jazykový model  Každý jazyk má svá pravidla – gramatiku  Posbírají se statistiky výskytů dvojic nebo trojic  slov   vytvoří se jazykový model, který → modeluje pravděpodobnost výskytu posloupnosti  slov.    Výslovnostní slovník  Přiřadí každému slovu výslovnost (posloupnost  fonémů) a propojí tak jazykový model s  akustickým modelem.  Z akustického, jazykového modelu a slovníku se  vytvoří rozpoznávací síť na jejímž základě je řeč  rozpoznávána    Zajímavosti  Anglické rozpoznávače obsahují kolem 50 000 slov  České mají 500 000 – 1 000 000 slov, klidně i 4  000 000    Ovládání hlasem  Ovládání počítače hlasem – hlavní operační  systémy již začaly tyto funkce podporovat  Dragon Naturally Speaking, Simon, MyVoice  (Liberec)  Ovládání mobilů – Apple, Android...  Ovládání inteligentích systémů domu  Bezdrátové hlasové ovládání domácích zařízení –  SmartRoom (Liberec)    Ovládání hlasem  Ovládání invalidního vozíku hlasem  Ovládání nastavení postele u lidí trvale  připoutaných na lůžko    Diktování, řeč na text  Přímé zapisování mluvené řeči – odpadá nutnost  přepisování/zapisování – soudy, kanceláře,  medicínské využití, zápis přednášek na  univerzitách  Psaní (diktování) textů na počítači – MS Word  Sphinx4, Voice to Text (FIT VUT Brno),  MyDictate, Dragon Naturally Speaking       Další využití  Textové vyhledávání ve videu (VUT), automatické  otitulkování videa (youtube.com)  Kombinace s dialogovým systémem, kdy vstupem  je naše řeč  Rozpoznávání mluvčího – kdo, mluví  Jedna z možností autentizace – voice recognition    Závěr  Uspěšnost současných ASR se pohybuje nad kolem  94%  Už si lépe poradí s šumem a ruchem, nezávislé na  mluvčím  Vědci odhadují, že srovnatelné s člověkem budou  nejdříve za 20 let  Přesto jsou dnes velmi užitečnými pomocníky a  hendikepovaným umožňují vykonávat činnosti,  které by dříve dělat nemohli    Videoukázky  FIT VUT – vyhledávání v řeči   http://www.prednasky.com/  Dragon Naturally Speaking – ovládání počítače  hlasem a diktování ­  http://www.youtube.com/watch?v=ZZ0N3WpmZho  MyVoice, MyDictate – TU Liberec  http://www.fugasoft.cz/index.php?cont=myvoice&sub  Pro pobavení – prezentace MS VISTA ­  http://www.youtube.com/watch?v=kX8oYoYy2Gc    Zdroje  PSUTKA, Josef. Mluvíme s počítačem česky. Vyd.  1. Praha : Academia, 2006. 746 s. ISBN  8020013091.  http://www.osel.cz/index.php?clanek=5152  http://www.fugasoft.cz/index.php    Děkuji za pozornost.