Dasher - Character LM PA154 Jazykové modelování (4) Pavel Rychlý pary@fi.muni.cz March 9, 2020 Dasher ■ autoři: David MacKay, David Ward ■ Cambridge University; freeware ■ podpora pro vysoce efektivní textový vstup za použití jiných prostředků než standardní počítačové klávesnice ■ alternativa pro tisíce lidí s různým fyzickým postižením ■ zadávání textu na obrazovce pomocí polohovacího zařízení (myš, Joystick...) ■ používá pravděpodobnostní prediktivní jazykový model ■ stále se ladí (technologie zůstává stejná) PA154 Jazykové modelování (4) Dasher - Character LM 2/32 O Dasheru ■ Dasher je zdarma ■ open-source software ■ podléhá požadavkům GNU Generel Public License ■ abeceda pro více než 150 jazyků ■ možnost nastavení barvy písma ■ systém se učí a nabízí kombinace písmen, které jsou užívanější PA154 Jazykové modelování (4) Dasher - Character LM 3/32 Oblasti využití ■ asistivní technologie (postižení - bez rukou, s jednou rukou...) ■ Pocket PC, iOS, Android, Linux, macOS, Microsoft Windows ■ složité jazyky (např. japonština) ■ poslední verze 5.0.0 (beta) z 8. dubna 2016 PA154 Jazykové modelování (4) Dasher - Character LM 4/32 Princip File Edit Options Control Prediction Help n g a nne □ t O □ be To be or not to be □ □th&tP I em 1 ost BS t písmena v abecedním pořadí, každé písmeno je v obdélníku obdélník s vybraným písmenem obsahuje opět úplnou abecedu, ze které lze vybrat 2.symbol atd. základní myšlenka: písmena s větší pravděpodobností jsou ve větším obdélníku o konkrétním rozložení se rozhoduje na základě jazykového modelu PA154 Jazykové modelování (4) Dasher - Character LM 5/32 "Inverznľaritmetické kódování ■ aritmetické kódování (komprese textu): kódové slovo je číslo z intervalu (0,1), postupným kódováním symbolů se intervaly zjemňují v poměru pravděpodobnosti výskytu znaku ■ metoda bezztrátové komprese dat ■ v Dasheru reprezentuje ypsilonová souřadnice celý interval (0,1), kde každý symbol abecedy má přiřazen segment délky odpovídající pravděpodobnosti jeho výskytu v daném kontextu PA154 Jazykové modelování (4) Dasher - Character LM 6/32 Aritmetické kódování - příklad pro čtyřsymbolový model kódové slovo je číslo z intervalu [0,1) 60 % pro symbol NEUTRAL; interval je [0, 0.6) 20 % pro symbol POSITIVE; interval je [0.6, 0.8) 10 % pro symbol NEGATIVE; interval je [0.8, 0.9) 10 % pro symbol END-OF-DATA; interval je [0.9, 1) symbol v sekci END-OF-DATA znamená, že dekódování je kompletní PA154 Jazykové modelování (4) Dasher - Character LM 7/32 Aritmetické dekódování o 0.48 0.36 0.8 0.9 1 0.48 0.54 0.6 0.516 0.528 0.534 0.54 -1-—I-\-9-1 zpráva je zakódovaná do čísla 0.538 kodér s intervalem [0,1) se rozdělí na čtyři podintervaly; zpráva je v sekci NEUTRAL interval [0, 0.06) se rozdělí na čtyři podintervaly; zpráva je v sekci NEGATIVE interval [0.48, 0.54) se rozdělí na čtyři podintervaly; zpráva je v sekci END-OF-DATA PA154 Jazykové modelování (4) Dasher - Character LM 8/32 Zakódování zprávy "WIKľaritmetickým kódováním ■ každý symbol má svoji pravděpodobnost v intervalu [0, 1) ■ musí být znám počet symbolů zprávy nebo terminálni symbol ■ interval je znázorněn v binární soustavě PA154 Jazykové modelování (4) Dasher - Character LM 9/32 Zakódování zprávy "WIKľaritmetickým kódováním pokračování i. 2. W 3. I .0001— * I mu- *0 .0011 .01 11-L ,11. K 1—■— 1 Wl 'WK 4 K 0001- J00011-J0O1O1 .001 r .01- .11- _WIW Wll "WIK 5. I 0001- .roioi i .0011 .01- .11- 6. [.0010101, .0010111) - .001011 WIKW 1','IKI II I interval "W"je [0, 0.01) interval "ľ'je [0.01, 0.11) interval "K"je [0.11,1) PA154 Jazykové modelování (4) Dasher - Character LM 10/32 Zakódování zprávy "WIKI"aritmetickým kódováním pokračování i. W: :1 2. W .11. K 3. I .0001— p mu" O .0011 .01- .11- Wl W 4 K 0001- J00011-J0O1Q1 J0011" .01- .11- .WIW ■/■/II WIK 5. I J0001- J00O11 ■ m J001O111_ 0011 .01- ,11- 6. [.0010101, .0010111) - .001011 WIKW WIKI WIKK nejdříve kódujeme "W"[0, 0.1) následně "l"[0.001, 0.0011) po té "K"je [0.00101, 0.0011) a nakonec "l"[0.0010101, 0.0010111) výsledek je číslo z finálního intervalu PA154 Jazykové modelování (4) Dasher - Character LM 11/32 PPM (Prediction by Partial Match) ■ jazykový model použitý v Dasheru se neomezuje jen na koncept slov ■ spojuje informace o n-gramech s pravděpodobnostmi výskytu jednotlivých symbolů ze slovníku ■ kontext 4-5 symbolů PA154 Jazykové modelování (4) Dasher - Character LM 12/32 PPM - 3 módy Standard letter-based PPM (podle částečné shody počítá pravděpodobnost) Word-based model (slovník s četností slov) Mixture model (PPM/dictionary) PA154 Jazykové modelování (4) Dasher - Character LM 13/32 Jazykový model (3) ■ jazykový model se učí v čase (učí se nové uživatelovy výrazy a obraty) ■ vše, co napíšeme, se automaticky ukládá do souboru jako další trénovací data PA154 Jazykové modelování (4) Dasher - Character LM 14/32 Další vlastnosti ■ import trénovacích dat jednoduše načtením souboru ■ zdroj dat pro češtinu: Ústav Českého národního korpusu FF UK ■ jakékoliv abecedy: např. i LaTeX, C, IPA ■ ostatní software - 2 módy: běžné psaní a doplňování slov (uživatel mezi nimi musí přepínat) ■ Dasher tyto režimy nerozlišuje PA154 Jazykové modelování (4) Dasher - Character LM 15/32 Druhy vstupních metod počítačová myš touchpad touchscreen eyetracker headmouse trackball trackpad dech tlačítka snímače náklonu PA154 Jazykové modelování (4) Dasher - Character LM 16/32 Myš, touchpad, touchscreen File Edit Options Help Dasher is great d e a] i ] Sneed 2.1 :■:■:■:■: Rychlost vstupu s použitím myši: po 10 minutách tréninku 5-15 slov/min., po hodině 15-25 slov/min., zkušení uživatelé 40 slov za minutu (stejně rychlé jako psaní rukama pomocí klávesnice) ukázka Dasheru video: ipaq PA154 Jazykové modelování (4) Dasher - Character LM 17/32 Eyetracker ■ kamera + senzory snímající, na které místo na obrazovce zaměřuje uživatel pohled ■ cena: 2000 - 4000 USD PA154 Jazykové modelování (4) Dasher - Character LM 18/32 Eye Dasher rychlost vstupu: po deseti minutách tréninku 7 slov/min., po hodině 20 slov/min., zkušení uživatelé 30 slov za minutu eyetracking bez Dasheru, jen s virtuální (on-screen) klávesnicí: 15 slov/min., error-rate 5x vyšší poslední položka. PA154 Jazykové modelování (4) Dasher - Character LM 19/32 Eye Dasher - Uživatelská přívětivost vstup za pomoci virtuální (on-screen) klávesnice je diskrétní (čekání na vypršení časovače, popř.mrknutí) Dasher poskytuje spojitý vstup video: eye_dasher PA154 Jazykové modelování (4) Dasher - Character LM 20/32 Headmouse IR kamera reflexivní body cena: 500-1500 USD PA154 Jazykové modelování (4) Dasher - Character LM 21/32 Breath Dasher príma úměra mezi objemem plic a hodnotou ypsilonové souřadnice jednodimenzionální (nelze zpět) proto: Control mode Control area (Stop, Pause, Move, Delete) video: breath_dasher PA154 Jazykové modelování (4) Dasher - Character LM 22/32 Button Dasher 3 smery ■ dopredu nahoru ■ dopredu dolü ■ zpet PA154 Jazykove modeloväni (4) Dasher - Character LM 23/32 Dasher vs. rozpoznávání řeči ■ nepoužitelnost systémů pro automatické rozpoznávání řeči v hlučném prostředí ■ i u nejlepších rozpoznávačů asi 5 % chyb (náročná editace chyb) PA154 Jazykové modelování (4) Dasher - Character LM 24/32 Speech Dasher: Efficient speech recognition correction ■ 1. krok: zadání textu pomocí kombinace řeči a navigace přes ukazovací zařízení (myš) ■ 2. krok: řečový rozpoznávač provede počáteční odhad textu, uživatel upraví nebo potvrdí výstup ■ počáteční chybovost 22 %, uživatelé většinou vše opraví ■ rychlejší než oprava s použitím samostatného rozpoznávání řeči (speciální příkazy) ■ rychlejší než samostatný Dasher ■ video: speech_dasher PA154 Jazykové modelování (4) Dasher - Character LM 25/32 Další možnosti - Swype virtuální klávesnice pro dotykové chytré telefony a tablety vyvinuto společností Nuance Communications psaní nepřerušovaným tahem na klávesách QWERTY/QWERTZ/AZERTY/National odhadování slov pomocí prediktivního slovníku (můžeme doplňovat i vlastní slova) větší přesnost pro delší slova (krátká obvykle více možností interpretace tahu na obrazovce) zápis bez diakritiky, nabízené varianty s diakritikou PA154 Jazykové modelování (4) Dasher - Character LM 26/32 Swype (2) ■ rychlost psaní až přes 50 slov/min. ■ zvládá i jednoduchou interpunkci (i smajlíky) ■ aplikace je schopna učit se z Facebooku, Gmailu, Twitteru... ■ dostupný i v češtině ■ možnost diktování v různých jazycích pomocí modulu Dragon Dictation (i v češtině) ■ video http : //www. youtube . com/watch?v=S J-RAef CG_c PA154 Jazykové modelování (4) Dasher - Character LM 27/32 Další možnosti -SwiftKey ■ zdarma pro Android, iOS, iPhone ■ učí se pomocí předchozí textové komunikace (SMS, Gmail, texty v RSS, přizpůsobuje se i písmenům, která opakovaně mačkáte mírně mimo) ■ více jazyků (až 5 zároveň) ■ oprava překlepů ■ predikce příštího slova (nabízí nepravděpodobnější varianty následujících slov) ■ 800 emoji ■ Emoji Prediction feature - učí se predikovat relevantní emoji PA154 Jazykové modelování (4) Dasher - Character LM 28/32 SwiftKey (2) ■ kvalitní slovníky (odpovídají trendům v komunikaci) ■ lze psát ve stylu Swype (tažením) - pod funkcí Flow ■ lze zapnout funkce diktování v angličtině ■ červen 2012 vydaní verze SwiftKey Healthcare; predikce na základě reálných klinických dat ■ duben 2016 vydaní verze ShakeSpeak; emulování řeči W. Shakespeara k oslavě 400. výročí jeho smrti ■ rok 2016 odkoupení SwiftKey společností Microsoft ■ video: http : / /www. youtube . com/watch?v=kA5Horw_SOE PA154 Jazykové modelování (4) Dasher - Character LM 29/32 Další možnosti - SlidelT ■ podobné klávesnici Swype - psaní tažením mezi znaky ■ nižší požadavky na přesnost psaní ■ kvalitní slovníky (možnost doinstalovat další vč. češtiny) ■ více než 70 jazykových sad ■ možnost přizpůsobení klávesnice ■ dopočítává varianty slov, které chtěl uživatel napsat ■ automatické doplňování mezer a velkých písmen (bohužel chybové) ■ video: http : / /www. youtube . com/watch?v=Tp_7bWuvQwQ PA154 Jazykové modelování (4) Dasher - Character LM 30/32 Další možnosti - GO Keyboard ■ predikce v mnoha jazycích ■ možnost změny skinů a pozadí ■ možnost importu jmen a SMS do slovníku ■ podpora zadávání textu Swype stylem ■ v roce 2017 zjištěn bezpečnostní problém; aplikace zasílala informace o uživatelích zpět do Číny (informace o jazyku, lokaci, typu sítě, ...), ovlivněno více než 200 milionů uživatelů ■ video: http : / /www. youtube . com/watch?v=XQRRvSwpmWc PA154 Jazykové modelování (4) Dasher - Character LM 31/32 Další možnosti Perfect keyboard Touch Pal keyboard Google keyboard Siine Shortcut keyboard Adaptxt keyboard ShapeWriter keyboard PA154 Jazykové modelování (4) Dasher - Character LM 32/32