Dasher - Character LM PA154 Jazykové modelování (4) Pavel Rychlý pary@fi.muni.cz March 16, 2017 Dasher ■ autoři: David MacKay, David Ward ■ Cambridge University; freeware ■ podpora pro vysoce efektivní textový vstup za použití jiných prostředků než standardní počítačové klávesnice ■ zadávání textu na obrazovce pomocí polohovacího zařízení (myš, joystick...) ■ používá pravděpodobnostní prediktivní jazykový model ■ stále se ladí (technologie zůstává stejná) PA154 Jazykové modelování (4) Dasher - Character LM 2/28 O Dasheru ■ Dasher je zdarma ■ open-source software ■ podléhá požadavkům GNU Generel Public License ■ abeceda pro více než 150 jazyků ■ možnost nastavení barvy písma ■ systém se učí a nabízí kombinace písmen, které jsou užívanější PA154 Jazykové modelování (4) Dasher - Character LM 3/28 Oblasti využití asistivní technologie (postižení - bez rukou, s jednou rukou...) PDA a mobilní telefony složité jazyky (např. japonština) PA154 Jazykové modelování (4) Dasher - Character LM 4/28 Princip File Edit Options Control Prediction Help n g a nne □ t O □ be To be or not to be □ □th&tP I em 1 ost BS t písmena v abecedním pořadí, každé písmeno je v obdélníku obdélník s vybraným písmenem obsahuje opět úplnou abecedu, ze které lze vybrat 2.symbol atd. základní myšlenka: písmena s větší pravděpodobností jsou ve větším obdélníku o konkrétním rozložení se rozhoduje na základě jazykového modelu PA154 Jazykové modelování (4) Dasher - Character LM 5/28 "Inverznľaritmetické kódování ■ aritmetické kódování (komprese textu): kódové slovo je číslo z intervalu (0,1), postupným kódováním symbolů se intervaly zjemňují v poměru pravděpodobnosti výskytu znaku ■ v Dasheru reprezentuje ypsilonová souřadnice celý interval (0,1), kde každý symbol abecedy má přiřazen segment délky odpovídající pravděpodobnosti jeho výskytu v daném kontextu PA154 Jazykové modelování (4) Dasher - Character LM 6/28 Jazykový model ■ jazykové modely aproximující přirozený jazyk využívají statistické metody a jsou založeny na odhadech frekvence výskytu sekvencí slov ■ nejpoužívanější jsou n-gramové modely (bigramy, trigramy), které určují pravděpodobnost výskytu určitého slova se znalostí n-1 okolních slov ■ n-gramové modely je potřeba natrénovat z korpusu PA154 Jazykové modelování (4) Dasher - Character LM 7/28 PPM (Prediction by Partial Match) ■ jazykový model použitý v Dasheru se neomezuje jen na koncept slov ■ spojuje informace o n-gramech s pravděpodobnostmi výskytu jednotlivých symbolů ze slovníku ■ kontext 4-5 symbolů PA154 Jazykové modelování (4) Dasher - Character LM 8/28 PPM - 3 módy Standard letter-based PPM (podle částečné shody počítá pravděpodobnost) Word-based model (slovník s četností slov) Mixture model (PPM/dictionary) PA154 Jazykové modelování (4) Dasher - Character LM 9/28 Jazykový model (3) ■ jazykový model se učí v čase (učí se nové uživatelovy výrazy a obraty) ■ vše, co napíšeme, se automaticky ukládá do souboru jako další trénovací data PA154 Jazykové modelování (4) Dasher - Character LM 10/28 Další vlastnosti ■ import trénovacích dat jednoduše načtením souboru ■ zdroj dat pro češtinu: Ústav Českého národního korpusu FF UK ■ jakékoliv abecedy: např. i LaTeX, C, IPA ■ ostatní software - 2 módy: běžné psaní a doplňování slov (uživatel mezi nimi musí přepínat) ■ Dasher tyto režimy nerozlišuje PA154 Jazykové modelování (4) Dasher - Character LM 11/28 Druhy vstupních metod počítačová myš touchpad touchscreen eyetracker headmouse dech tlačítka PA154 Jazykové modelování (4) Dasher - Character LM 12/28 Myš, touchpad, touchscreen File Edít Options Help Dasher is great ■ Rychlost vstupu s použitím myši: po 10 minutách tréninku 5-15 slov/min., po hodině 15-25 slov/min., zkušení uživatelé 40 slov za minutu ■ ukázka Dasheru ■ video: ipaq Sneed 2.1 PA154 Jazykové modelování (4) Dasher - Character LM 13/28 Eyetracker ■ kamera + senzory snímající, na které místo na obrazovce zaměřuje uživatel pohled ■ cena: 3000 USD PA154 Jazykové modelování (4) Dasher - Character LM 14/28 Eye Dasher rychlost vstupu: po deseti minutách tréninku 7 slov/min., po hodině 20 slov/min., zkušení uživatelé 30 slov za minutu eyetracking bez Dasheru, jen s virtuální (on-screen) klávesnicí: 15 slov/min., error-rate 5x vyšší poslední položka. PA154 Jazykové modelování (4) Dasher - Character LM 15/28 Eye Dasher - Uživatelská přívětivost vstup za pomoci virtuální (on-screen) klávesnice je diskrétní (čekání na vypršení časovače, popř.mrknutí) Dasher poskytuje spojitý vstup video: eye_dasher PA154 Jazykové modelování (4) Dasher - Character LM 16/28 Headmouse IR kamera reflexivní body cena: 150-300 USD PA154 Jazykové modelování (4) Dasher - Character LM 17/28 Breath Dasher príma úměra mezi objemem plic a hodnotou ypsilonové souřadnice jednodimenzionální (nelze zpět) proto: Control mode Control area (Stop, Pause, Move, Delete) video: breath_dasher PA154 Jazykové modelování (4) Dasher - Character LM 18/28 Button Dasher 3 smery ■ dopredu nahoru ■ dopredu dolü ■ zpet PA154 Jazykove modeloväni (4) Dasher - Character LM 19/28 Dasher vs. rozpoznávání řeči ■ nepoužitelnost systémů pro automatické rozpoznávání řeči v hlučném prostředí ■ i u nejlepších rozpoznávačů asi 5 % chyb (náročná editace chyb) PA154 Jazykové modelování (4) Dasher - Character LM 20/28 Speech Dasher ■ 1. krok: standardní rozpoznávání řeči ■ 2. krok: kontrola a oprava rozpoznané promluvy pomocí Dasheru ■ rychlejší než oprava s použitím samostatného rozpoznávání řeči (speciální příkazy) ■ rychlejší než samostatný Dasher ■ video: speech_dasher PA154 Jazykové modelování (4) Dasher - Character LM 21/28 Další možnosti - Swype vyvinuto společností Nuance Communications psaní nepřerušovaným tahem na klávesách QWERTY odhadování slov pomocí prediktivního slovníku (můžeme doplňovat i vlastní slova) větší přesnost pro delší slova (krátká obvykle více možností interpretace tahu na obrazovce) zápis bez diakritiky, nabízené varianty s diakritikou PA154 Jazykové modelování (4) Dasher - Character LM 22/28 Swype (2) ■ zvládá i jednoduchou interpunkci (i smajlíky) ■ aplikace je schopna učit se z Facebooku, Gmailu, Twitteru... ■ dostupný i v češtině ■ možnost diktování v angličtině pomocí modulu Dragon Dictation ■ video http : //www. youtube . com/watch?v=S J-RAef CG_c PA154 Jazykové modelování (4) Dasher - Character LM 23/28 Další možnosti -SwiftKey ■ zdarma pro Android (pro iOS pouze v angličtině) ■ učí se pomocí předchozí textové komunikace (SMS, Gmail, texty v RSS, přizpůsobuje se i písmenům, která opakovaně mačkáte mírně mimo) ■ více jazyků (i více zároveň) ■ oprava překlepů ■ predikce příštího slova (nabízí nepravděpodobnější varianty následujících slov) PA154 Jazykové modelování (4) Dasher - Character LM 24/28 SwiftKey (2) ■ kvalitní slovníky (odpovídají trendům v komunikaci) ■ lze psát ve stylu Swype (tažením) - pod funkcí Flow ■ lze zapnout funkce diktování v angličtině ■ video: http : / /www. youtube . com/watch?v=kA5Horw_SOE PA154 Jazykové modelování (4) Dasher - Character LM 25/28 Další možnosti -SlidelT ■ podobné klávesnici Swype - psaní tažením mezi znaky ■ nižší požadavky na přesnost psaní ■ kvalitní slovníky (možnost doinstalovat další) ■ dopočítává varianty slov, které chtěl uživatel napsat ■ automatické doplňování mezer a velkých písmen (bohužel chybové) ■ video: http : / /www. youtube . com/watch?v=Tp_7bWuvQwQ PA154 Jazykové modelování (4) Dasher - Character LM 26/28 Další možnosti -GO Keyboard ■ predikce v mnoha jazycích ■ možnost změny skinů a pozadí ■ možnost importu jmen a SMS do slovníku ■ podpora zadávání textu Swype stylem ■ video: http : / /www. youtube . com/watch?v=XQRRvSwpmWc PA154 Jazykové modelování (4) Dasher - Character LM 27/28 Další možnosti ■ Perfect keyboard ■ Touch Pal keyboard ■ Google keyboard ■ Siine Shortcut keyboard