PB095 - U vod do počítačového zpracování reci Luděk Bártek Fakulta informatiky Masarykova univerzita podzim 2023 Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Obsah Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Dotazovací systémy (Chat Bots) • Dotazovací systém - konverzační software určený k rozmluvě s uživatelem. • Druh dialogových systémů. • Téměř neomezené oblasti použití: • automatizované systémy telefonické podpory dotazování nad strukturovanými daty (db) o výukové účely - jazyky soft skills • hry zábava • ... Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Artificial Inteligence Markup Language • Jazyk na bázi XML • Autor návrhu Dr. Richard Wallace • vyvíjen komunitou v letech 1995 — 2002 o stal se základem pro rozšíření chatbota Eliza zvaného A.L.I.C.E. o Artificial Linguistic Internet Computer Entity • popisuje znalostní bázi pro dotazovací systémy, a Více viz úvod do problematiky na Pandorabots. Luděk Bártek PB095 - Úvod do počítačového zpracování řeči AI ML - základní jednotky znalostní databáze • AIML popisuje třídy objektů dat a částečně popisuje chování programů, které je zpracovávají. • AIML objekty dat se skládají z jednotek zvaných témata (topics) a kategorie (categories) • obsahují buď strukturované nebo nestrukturovaná data • strukturovaná data obsahují buď textová data nebo AIML elementy 9 AIML elementy obsahují znalost ve formě dvojic stimul -odpověď Luděk Bártek PB095 - Úvod do počítačového zpracování řeči AI ML - použití pro tvorbu dotazovacích systémů • Pro tvorbu dotazovacích systému se využívají klíčová slova Keywords • Struktura: • kategorie (category) o obsahuj vzor (pattern) dotazu a šablonu odpovědi (template) o viz ukázky v adresáři data/aiml/ • Jedná se o značkovací jazyk - nutnost interpretace. a Platforma Pandorabots o seznam otevřených interpretů na GitHub.com o seznam otevřených interpretů na sourceforge.net • Platforma Bot Libre Luděk Bártek PB095 - Úvod do počítačového zpracování řeči AIML Kategorie • Základni jednotka uchování znalostí v AIML. • Každá kategorie se skládá z: « vstupního dotazu • výstupní odpovědi - nazývá se vzor (template) • volitelného kontextu Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Zpracování o Dokument je zpracováván rekurzivně. • Využívají se následující způsoby rekurze: • symbolická redukce - zjednodušuje komplexní gramatické zápisy • rozděl a panuj - rozdělí vstup do dvou a více části a zkombinuje odpovědi na ně, • synonyma - umožňuje různé způsoby řečení dané odpovědi, • gramatické zpracování-kontrola vstupu resp. gramatické opravy, • podmínečné zpracování - může být implementováno s elementem , nebezpečí nekonečné rekurze, 9 kombinace předchozích. Luděk Bártek PB095 - Úvod do počítačového zpracování řeči Ukázky Viz adresář data/aiml/ ve studijních materiálech z přednášky. Luděk Bártek PB095 - Úvod do počítačového zpracování řeči