q odvozovat z nich závory. Tato publikace by měla posloužit k tomu, aby cesta dalších výzkumníků za výsledky byla pohodlnější, rychlejší a méně trnitá. První kapitola popisuje, jak technologie eye-tracking funguje. Ve druhé kapitole je stručně shrnuto využití eye-trackingu v různých oblastech lidské činosti. Tretí kapitola popisuje kognitivní kartografii. Čtvrtá kapitola je zaměřena více prakticky. Jsou v ní popsány tři eye-tracking systémy - SMI RED 250, Gazepoint a EyeTribe v kombinaci s aplikací OGAMA. Po přečtení této kapitoly by měl být čtenář schopen tato zařízení zapojit a nastavit tak, tiby mohl začít nahrávat data. Před vlastním záznamem pohybu očí je však důležité rozmyslet si design experimentu a to, jak budou stimuly respondentům prezentovány. Tomu se věnuje pátá kapitola. Šestá kapitola je pak zaměřena na pre-processing dat, který obsahuje identifikaci fixací a sakád [» také čištění dat a hledání chyb v datech. Poslední, sedmá kapitola popisuje několik metod analýzy a vizualizace eye-tracking dat, a to včetně statistické analýzy a doporučení pro výběr vhodné metody. Přestože se v názvu knihy objevuje kognitivní kartografie, lze většinu rad Q doporučení v této knize obsažených využít i v jiných oblastech výzkumu. Standa Popelka 1 eye-tracking Pl'0 sledování pohybu očí neboli eye-tracking je nutné nejprve znát několik informací o tom, jak vlastně lidský zrak funguje a jaké pohyby oči vykonávají. 1.1 Charakteristika lidského oka Zrak je u lidí nejsilnější a nejvíce využívaný smysl. Obě oči poskytují zhruba eliptický obraz prostoru o úhlovém rozpětí přibližně 2000 na šířku a 1300 na výšku (Biedert a kol., 2010). Struktura lidského oka j e uzpůsobena potřebě promítnout paprsek světla na sítnici. Oko propouští světlo skrz zornici, následně je obraz převrácen a zaostřen na zadní stranu oční bulvy - sítnici. Světlo dopadající na sítnici pak způsobuje chemické přeměny ve světločivých buňkách. Těmi jsou tyčinky a čípky, které přemění dopadající světlo v elektrické impulzy, které jsou pomocí očního nervu přeneseny do mozku. Oční bulbus má přibližně kulovitý tvar o průměru asi 23 mm. V oční štěrbině mezi otevřenými víčky je viditelný pouze menší, přední úsek oční koule, zatímco větší, zadní část je uložena v hloubi očnice. Oční koule obsahuje přední pól, který odpovídá vrcholu rohovky, a zadní pól. Oba póly spojuje oční (geometrická) Osa. Tato geometrická osa není totožná se zornou (vizuální) osou oka spojující optický střed oka se žlutou skvrnou. Geometrická a vizuální osa spolu svírají úhel asi 50. Oční koule je tvořena stěnou oční koule a obsahem oční koule. Stěna oční koule se skládá ze zevní vazivové vrstvy (bělima a rohovka), prostřední vrstvy (cévnaťka, řasnaté tělísko, duhovka) a vnitřní vrstvy (sítnice). Obsah oční koule představují průhledné a čiré struktury, které propouštějí světelné paprsky a soustřeďují je flámou) tak, že dopadají na sítnici. Jsou to optická prostředí oka a tvoří je čočka, sklivec a přední a zadní oční komora (Synek a Skorovská, 2014). Struktura lidského oka je znázorněna na obrázku 1. Na následujících stranách budou popsány jednotlivé části oka a jejich význam při eye-trackingu. 7 prední ofinf komorsu rohovka \ komorová voda \ \ zadní ofinl komora zonule clliá'mív beilma siřsdnivratva zornice YoCnlkoulo T duhovka \ fasnaté 1 tělisko -Vcévnatka V cévy prokrvující sítnici M ft...-'"- .I?^s. tcrfse žlutá skvrna, / fbvea // Obr. i Struktura lidského oka" Bélima (sclera) je pevná, tuhá vazivová blána, která zaujímá zadních pôt Šestin oční koule. Je ochranným obalem pro hlubší oddíly oční koule a představuje pevnou oporu pro připojující se šlachy okohybných svalů. Na přední straně bělimy je velký otvor (o průměru asi 12 mm), do jehož okraje (limbus sclerae) je vsazen lehce zkosený okraj rohovky (limbus corneae) (Synek a Skorovská, 2014). Rohovka (cornea) překlenuje a uzavírá kruhový otvor o průměru asi 12 mm v předním okraji bělimy. Má tvar segmentu koule, který se vyklenuje dopředu. Rohovka představuje vstupní oddíl optického prostředí oka a z hlediska indexu lomivosti světla je jeho nejvýznamnější součástí (Synek a Skorovská, 2014). Cévnatka (choroidea) představuje nejrozsáhlejší část prostřední vrstvy ítěny oční koule, protože zaujímá její zadní dvě třetiny. Má podobu tenké černohnědé blány bohaté na cévy, která se povrchovou stranou přikládá c bělimě. Dutinová strana cévnatky je hladká a naléhá na ni sítnice. Cévnatka ak představuje tmavou komoru pro optickou vrstvu sítnice a navíc jsou í kapilární sítě vyživovány pigmentové buňky sítnice, tedy čípky a tyčinky, ''zadu v cévnatce je otvor, kterým prostupují vlákna zrakového nervu, sítni-ová tepna a žíla (Synek a Skorovská, 2014). llttl)s://commons.wikimedia.org/w/index.php?cUrid=72i9i5i Řasnaté těleso (corpus ciliare) má tvar zřaseného prstence, který je přiložen na vnitřní stranu bělimy. Na řezu má tvar trojúhelníku. Zadní okraj řasnatého tělesa se ztenčuje a plynule přechází do cévnatky. Směrem dopředu se řasnaté těleso ztlušťuje a spojuje se s duhovkou. Podkladem řasnatého tělesa je vazivové stroma, v němž jsou uloženy četné hladké svalové buňky tvořící musculus ciliaris. Musculus ciliaris tvoří prstenčitý evěrač, který svou kontrakcí uvolňuje závěsný aparát čočky. Ta svou pružností mění tvar a optickou mohutnost, a tím umožňuje akomodaci čočky (Synek a Skorovská, 2014). Duhovka (iris) tvoří nejvíce dopředu vysunutou část prostřední vrstvy oční stěny. Má tvar mezikruží s centrálně uloženým otvorem zvaným zornice neboli panenka (pupilla). Přední plocha duhovky je podle množství pigmentu individuálně různě zbarvená a podmiňuje barvu očí. Duhovka plní V oku úlohu světelné clony. Podle momentálního množství světla si sítnice prostřednictvím pupilárního reflexu mění své osvětlení tak, aby dosahovalo optimálních hodnot (Synek a Skorovská, 2014). Sítnice (retina) tvoří vnitřní vrstvu oka a je dělena na dva stavebně i funkčně odlišné oddíly - optickou a slepou část sítnice. Optická část sítnice je funkčně nejvýznamnější vrstvou stěny oční koule. Na očním pozadí se rozlišuje několik útvarů. U zadního pólu oka leží žlutá skvrna kruhovitého až eliptického tvaru o průměru asi 3 mm. V jejím středu je prohlubeň, která se nazývá fovea centralis. Toto místo leží ve vrcholu optické osy oka a představuje místo nejostřejšího vidění, protože se do něj promítá centrální paprsek. V oblasti žluté skvrny jsou nakupeny jen čípky, které zde mají největší hustotu. Ve vzdálenosti asi čtyř milimetrů od žluté skvrny se vyklenuje bělavé políčko, kterým odstupuje z oční koule zrakový nerv. Toto políčko má tvar kruhu o průměru asi 1,5 mm a neobsahuje žádné světločivé elementy. Představuje tedy fyziologickou slepou skvrnu. Zevní vrstva sítnice spolu s pigmentovou vrstvou cévnatky působí jako světelná izolační vrstva, která pohlcuje dopadající světelné paprsky a zabraňuje jejich odrazu uvnitř oka („černá komora"). Vnitřní vrstva obsahuje vlastní primární smyslové buňky (fotoreceptory) a neurony, které sbírají informace z fotoreceptorů a odvádějí je prostřednictvím zrakového nervu z oka do mozku. Smyslové buňky se v sítnici vyskytují ve dvojí podobě: tyčinky (bacilli) a čípky (coni). Tyčinky registrují množství dopadajícího světla a představují většinu smyslových buněk sítnice - jejich celkový počet je asi 130 milionů. Čípky slouží k vnímání barev a je jich jen okolo sedmi milionů (Synek a Skorovská, 2014). Čípky jsou hojně zastoupeny především v oblasti fovey, která nepokrývá ani 2 % zorného pole. Z toho důvodu lidské oko vidí ostře pouze velmi malou část zorného pole. Hustota fotoreceptorů (tyčinek a čípků) na sítnici je znázorněna na obrázku 2. 9 81) 60 40 20 0 20 40 60 80 Vizuální úhel (stupňů od fovey) Obr. 2 Hustota tyčinek a čípků na sítnici lidského oka (upraveno dle Snowden a kol., 2012) Fovea je ohraničena parafoveálním pásem a vnější perifoveální oblastí (Iwasaki a Inomata, 1986). Vnímání obrazu těmito částmi sítnice se nazývá periferní vidění, které je v porovnání s foveálním viděním rozmazané. Obsah oční koule tvoří čočka, sklivec a obsah přední a zadní oční komory vyplněné komorovým mokem. Čočka (lens) má tvar bikonvexní spojné čočky o průměru mezi 9 a 10 mm. Na čočku jsou připojena vlákna závěsného aparátu, kterými se na čočku přenášejí účinky ciliárního svalu. Při pohledu do dálky jsou vlákna řasna-tého tělíska napjatá, díky čemuž je čočka zploštělá a má nízkou optickou mohutnost. Při pohledu na blízko se stáhnou ciliární svaly, ciliární aparát se poněkud posune a ochabí svůj tah na čočku. Tím se čočka vyklene (akomo-duje) a zvýší svou optickou mohutnost (Synek a Skorovská, 2014). Sklivec (corpus vitreum) je měkká huspeninová a průhledná hmota vyplňující sklivcovou komoru. Na přední ploše sklivce je prohloubená jamka, do které je vsazena zadní plocha čočky. Během vývoje probíhá sklivcem k vyvíjející se čočce větev tepny, která však ještě před narozením mizí a ve sldivci po ní zůstává sklovitý kanál nebo jeho úseky (Synek a Skorovská, 2014). Oční komory (camerae bulbi) jsou dva štěrbinové otvory mezi zadní plochou rohovky a přední plochou čočky, jejím závěsným aparátem a řasnatým tělesem. Obě komory jsou vyplněné komorovým mokem, který ze zadní komory proniká přes zornici do přední, odkud je dále odváděn do tzv. Schlemmova kanálu. Při poruše odtoku komorového moku do žilního systému se zvyšuje nitrooční tlak a vzniká tzv, zelený zákal (Synek a Skorovská, 2014). Pro sledování pohybu očí je klíčové, žo víco než 40 % lidského mozku zpracovává informace z oblasti pokrývající móiič než g % zorného pole (Hoffman, 2000; Ware, 2010). Z toho důvodu so oči neustále pohybují tak, aby předměty zájmu byly zobrazeny v oblasti nejvStšího vizuálního rozlišení, tedy fovey. Oční pohyby jsou detailné popsány v následujícící kapitole. 1.2 Pohyby očí - fixace a sakády Jeden z nej důležitějších pohybů očí není ve své podstatě pohyb. Jedná se spíše o schopnost udržet oko zaměřené na určitý bod. Tento pohyb oka se označuje jako fixace a dle Holmqvista a kol. (2011) trvá od několika desítek milisekund až po několik sekund. Vizuální vjem se skládá z řady fixací zaměřených na jednotiivé prvky sledované scény. Označení „fixace" však není úplně přesné, protože oko nikdy není úplně pevně fixováno. Během fixací provádí tři druhy takzvaných mikropohybů. Těmi jsou tremor, mikrosakády a drift (obr. 3). Mlkrosakáda Drift Tremor Obr. 3 Mikropohyby probíhající během fixací (Martinez-Conde a Macknik, 2008) Tremor neboli třes je drobný pohyb s frekvencí okolo 90 Hz, jehož přesný funkční význam není dosud znám. Je však možné, že je způsoben nepřesnou kontrolou okohýbných svalů. Jako drift jsou označovány pomalé klouzavé pohyby, které posouvají oko mimo střed fixace. Za 200 ms se osa pohledu může vychýlit až o 6 úhlových minut, a tím pádem se obraz na sítnici posune v rozsahu 10-15 čípků (Synek a Skorovská, 2014). Role mikrosakád spočívá ve vrácení oka zpět do středu fixace. Funkcí těchto pohybů je zabránit efektu saturace receptoru na sítnici, který by vedl ke slábnutí vidění. Lidé si těchto drobných pohybů nejsou vědomi (Biedert a kol., 2010). Mikropohyby probíhající během fixací je možné zaznamenat pouze s využitím vysokofrekvenčních eye-trackerů a jejich studiem se zabývá neurologie. Lze je využít například v klinických studiích zabývajících se autismem (van der Geest a kol., 2001). Pro kartografický výzkum však jejich studium nemá žádný význam, proto jsou analyzovány pouze fixace jako celek. Pro přesun z jedné fixace na další provádějí oči rychlé balistické pohyby označované jako sakády. Sakády představují nejrychlejší pohyb části lidského těla. Rotační rychlost velkých sakád dosahuje až 500°/s a dle Holmqvista a kol. (2011) je božná délka sakácl 30-80 ms. Bohom sakád lidský mozek nevnímá téměř žádné vizuální vjemy. Tento fakt není způsoben pouze rozmazáním vnímaného obrazu, ale také nervovým procesem označovaným jako sakadické potlačení neboli saccadic suppression (Hammoud a Mulligan, 2008). Díky tomu napříldad není možné vidět pohyb vlastních očí v zrcadle. Sakády jsou běžně znázorňovány jako přímé spojnice mezi fixacemi (viz obr. 4). Jen zřídka je však průběh sakád opravdu přímý. Ve skutečnosti mohou sakády nabývat mnoha různých tvarů a zakřivení. Velká část sakád navíc neskončí přesně v cíli (ve středu následující fixace), ale pohyb oka se před zastavením rozkolísá. Tento postsakadický pohyb bývá označován jako glisáda. Běžně oko provede 3-4 sakády za sekundu, což znamená, že za den jich vykoná 200 000. Člověk, který se dožije 80 let, tedy za svůj život vykoná téměř šest miionů sakád (Bojko, 2013). Obr. 4 Znázornění nejdůležitějších pohybů oka - fixací a sakád. Fixace jsou zobrazeny jako kruhy, jejichž velikost odpovídá délce fixace. Linie reprezentují sakády. Mezi další pohyby oka patří například smooth pursuit neboli sledovací pohyb, což je pohyb, který oči vykonávají při sledování pomalu se pohybujícího objektu. Příkladem může být například pozorování letadla letícího na obloze. Jestliže se předmět pohybuje rychlostí menší než 20~30°/s, dokáže jej fovea přesně sledovat. Začátek pohybuje opožděn asi o 150 ms. Opoždění za pohybujícím se předmětem je vyrovnáváno korekčními sakádami (Synek a Skorovská, 2014). Sakády a smooth pursuit jsou zcela rozdílné pohyby a řídí je rozdílné části mozku. Na rozdíl od sakád vyžaduje smooth pursuit objekt ke sledování a nelze jej vykonávat ve tmě či před holou zdí. Tabulka l znázorňuje typické hodnoty délky trvání, amplitudy a rychlosti nejběžněj-ších pohybů oka. Hodnoty jsou převzaty z publikace Holmqvista a kol. (2011) a mohou se lišit od hodnot udávaných jinými autory. Například Duchowski (2007) uvádí délku sakád 10-100 ms. Tab. 1 Typické parametry vybraných pohybu očí (upraveno dlo Holmqvist a kol, 2011) Bl#IMfflMI Fixace 200-300 - - Sakáda 30-80 4-20° 30-500°/s Glisáda IO-40 0,5-2° 20-140°/S Smooth pursuit - - io-30°/s Mikrosakáda 10-30 10-40° i5-50°/s Tremor - f^ Obr. 28 Prototyp aplikace iDict (Hyrskykari a kol., 2000) Na Katedře obecné lingvistiky Filozofické fakulty Univerzity Palackého v Olomouci se pracovníci věnují eye-tracking výzkumu zaměřenému na pacienty s agramatickou afázií a jejich vnímání pasivních vět. Velmi obsáhlou rešerši, ve které je komplexně shrnut eye-tracking výzkum v oblasti čtení, publikoval Rayner (1998). 2.2.8 Využití v marketingu a reklamě První známou studií využívající sledování pohybu očí v marketingu a reklamě je studie Nixona (1924), jenž pozoroval oči spotřebitelů, kteří si prohlíželi časopis obsahující tištěné reklamy, přičemž sám autor byl schovaný za závěsem. O několik let později využil Karslake (1940) eye-tracking zařízení s názvem Purdue Eye Camera pro hodnocení reklam v novinách Saturday Evening Post. Klíčovým byl článek Russa (1978) s názvem „Eye-Fixations Can Save the World", ve kterém nabádal k využívání eye-trackingu pro hodnocení efektivity marketingu a ke studiu rozhodovacích procesů spotřebitele. Po publikování tohoto, článku prudce narostl počet aplikací sledování pohybu očí v mnoha oblastech vizuálního marketingu. Na počátku devadesátých let dvacátého století bylo ročně publikováno jen asi deset článků o vizuálním vyhledávání v reklamě. O dekádu později to už bylo více než 200 článků (Wedel a Pieters, 2008). Dnes je možné eye-tracking v marketingu rozdělit do několika oblastí. Využívá se pro analýzu chování spotřebitelů při výběru konkrétního zboží, 34 35 v tištěných i televizních reklamách, v politickém marketingu, designu etiket a brandmgu a v současné době především v hodnocení webových stránek. Obsáhlou rešerši na toto téma vypracovali Wedel a Pietcrs (2008). Hodnocení webových stránek je dnes nejčaStějším polem, na němž jsou eye-trackery v komerční sféře využívány. V Česku se komerčním využitím eye-traekingu zabývá mnoho společností. Namátkou lze zmínit například UXFocus,ls sledujemeoci.cz,20 nebo Constat.21 Z webových stránek těchto společností je patrné, že komerčně nabízené výstupy jsou ve většině případů omezené na obrázky attention map, Gridded AOI či průběhu scanpath (obrázek 29). -í< baa'- Es*if jef. ^salami,- Obr. 29 Výstupy hodnocení stimulů z oblasti reklamy a marketingu22 Ě.2.Q Využitípro hodnocení použitelnosti Výše popsané použití eye-traekingu v reklamě a marketingu lze považovat za součást hodnocení použitelnosti obecně. Nicméně marketingové využití eye-traekingu je natolik široké a časté, že bylo vyčleněno do samostatné kapitoly. Historický přehled 21 studií využívajících eye-tracking pro hodnocení použitelnosti publikovali Jacob a Kam (2003). Autoři uvádějí, že první takovou studií v historii bylo už výše zmíněné testování armádních pilotů při přistávání (Fitts a kol., 1950). I další popisované studie byly zaměřeny na testování pilotů či řidičů, viz kapitola 2.2.5. Je tedy patrné, že eye-traeking výzkum je silně provázán, a striktní dělení tedy nelze vytvořit. Valná většina novějších studií popsaných v článku Jacoba a Karna (2003) je zaměřena na testování počítačových aplikací či webových stránek. Právě testování webových stránek je v současnosti nejčastější oblastí hodnocení použitelnosti, kde je eye-traeking využíván. Velmi důležitou součástí webových stránek jsou různé formuláře. Jejich design je klíčový 19 http://www.uxfocus.cz ~ 20 http://www.sledujemeoci.cz 21 http://www.constat.cz 22 http://www.constat.cz l/i 'iiilil vye-tivckliitfii a eye-traeking může pomoci s odhalením případných problémů. Jarret a Berstrom (2014) na základě několika případových studií uvádějí, že uživatelé prakticky nikdy nečtou instrukce, a proto je nezbytné vytvořit formulář co nejjednodušší tak, aby se v něm bez problémů zorientoval i laik. Zásadní je rovněž umístění tlačítek v designu stránky. To se prokázalo například ve studii Brychtové a kol. (2013), která hodnotila formulář pro zadání události do Krizové mapy Česka vytvořené Českou televizí. Cílem studie měla být evaluace vlastního formuláře. Jak se ale na základě naměřených eye-traeking dat ukázalo, respondenti měli největší problém s nalezením tlačítka pro zobrazení formuláře. Přestože toto tlačítko bylo velké a výrazné, respondenti si jej v layoutu stránky nevšimli. Bylo to způsobeno jeho umístěním v tmavém pruhu, který respondentům evokoval reklamu, a vůbec se do něj tedy nedívali. Attention mapa na obrázku 30 ukazuje rozložení fixací na analyzované stránce. Nejpomalejšímu z 15 testovaných respondentů trvalo 73 sekund, než si velkého žlutého tlačítka „Reportuj teď" všiml. Obr. 30 Ukázka nevhodně umístěného tlačítka pro reportování události v Krizové mapě Česka (Brychtová a kol., 2013) Další velmi často testovanou oblastí jsou sociální sítě. Ty využívají miliony uživatelů a každé drobné vylepšení jejich použitelnosti má obrovský dosah. Burridge (2014) uvádí, že pro většinu sociálních sítí jsou klíčové obrázky. Jejich vhodným umístěním v layoutu stránky lze zvýšit její uživatelskou přívětivost. Burridge dále zmiňuje, že zajímavé by bylo porovnání trajektorií pohledu očí uživatelů sociálních sítí Twitter a Pinterest, protože Pinterest obsahuje především obrázky, zatímco Twitter je z velké části omezen na textové příspěvky. S nárůstem počtu mobilních zařízení, jako jsou chytré telefony a tablety, vzrostl i zájem o hodnocení jejich použitelnosti. He a kol. (2014) uvádějí, 36 37 že nejprve se eye-tracking hodnocení mobilních /nříiíonl omezovalo na simulaci interface na monitoru běžného zařízení, Výrobci ale poté eye--trackery upravili tak, že umožňovaly nahrávat data i z těchto zařízení. Posledním typem eye-trackerů využívaných v této oblasti výzkumu jsou mobilní brýle či headsety. Zajímavostí je, že i běžná kamera integrovaná v chytrém telefonu může být použita jako eye-tracker (Krafka a kol., 2016). Velmi aktuální oblastí hodnocení použitelnosti pomocí eye-traekingu jsou počítačové hry. Kromě toho, že může být pohled použit k ovládání hry (viz kapitola 2.1), lze eye-tracking uplatnit i při hodnocení interface počítačových her či hledání rozdílů mezi zkušenými hráči a nováčky. Na Katedře geoinformatiky Univerzity Palackého v Olomouci proběhlo v rámci popularizace testování profesionálního hráče hry Counter Strike (obr. 31). Zajímavým zjištěním bylo, že hráč vůbec nesleduje zaměřovači kříž, ale soustředí se asi 3 cm nad něj. Z následného rozhovoru vyplynulo, že zkušený hráč přesně ví, kde je střed obrazovky, a tedy i zaměřovači kříž, a stačí mu vidět jej periferně. Obr. 31 Testování profesionálního hráče hry Counter Strike Oblastí hodnocení použitelnosti, kde lze eye-tracking využít, je mnohem více. Může se jednat například o hodnocení počítačových programů, diagramů, grafů, ale také map. A právě na hodnocení map jako součásti kognitivní kartografie je zaměřena následující kapitola. 3 kognitivní kartografie 3.1 Východiska kognitivní kartografie Díky masivnímu nárůstu produkce map během posledních let je stále důležitější zaměřit se na výzkum užití map. Na základě výsledků tohoto výzkumu lze mapy upravit tak, aby lépe sloužily uživatelům. Elzaker (2004) rozlišuje dva základní typy testování v kartografii - funkční a kognitivní. Funkční testování užití map je založeno na předpokladu, že každá mapa je vytvořena pro určitý účel, a je proto důležité zjistit, zda a do jaké míry tento účel splňuje. V percepčním a kognitivním výzkumu užití map je častěji brán jako výchozí bod individuální uživatel s cílem zjistit, „jak mapy fungují". Kognitivní výzkum užití map tak odpovídá na otázku, „proč" mapy a kartografické vyjadřovací prostředky pracují efektivně (Kubíček, 2011). Důležité je rozlišovat mezi percepcí a kognicí. Percepci (vnímání) lze definovat jako organizaci a interpretaci senzorických informací. V kartografii percepce souvisí s primární reakcí uživatele na mapové vyjadřovací prostředky. Kognice však nezahrnuje pouze percepci, ale také proces myšlení, předchozí zkušenost a paměť. Dle slovníku cizích slov je kognice souhrn operací a pochodů, jejichž prostřednictvím si člověk uvědomuje a poznává svět i sebe samého. Výsledek těchto procesuje to, co člověk poznal prostřednictvím vnímání (percepce), učení, paměti, myšlení, uvažování, rozhodování, znalostí a komunikace (Montello, 2002). Těmito procesy probíhajícími při čtení mapy se zabývá kognitivní kartografie. Kognitivní kartografii je možné členit do tří základních výzkumných směrů (Montello, 2002): • Map-design research - jeho cílem je vylepšit mapy; • Map-psychology research - jeho cílem je pochopit lidskou percepci a kognici; • Map-education research - jeho cílem je vylepšit výuku s mapami a o mapách. 38 39 ijiLvniui 1i r,u;j i ty/1-11/ v nufiiillivm IUII 111,^1 íflll •10080.00-(10-Í0 O JO 10 00 flOlOO 22 px 16 px 17 px 32 px 16 px 12 px 18 px 21 px 5 px 7 px 10 px 16 px 1» 'i ----- • - jí 16 px " ?px 10 px 51 px 14 px 32 px 4px - - ■ ■ •/ i ' '- í 55 px 10 px 26 px , i v........| I; \-i-r :;:rrrj i; r:r 100 px " , 54jii 31 px r. i..... .' Epx 21 px 23 px . Obr. 68 Srovnám pozic fixací ve stimulu Slide2 pro čtrnáct účastníků. Vzdálenost od středu obrázku ukazuje fixační odchylku v pixelech. Data EyeTribe jsou zobrazena jako modré tečky, SMI data jako červené tečky. príprava experimentu a záznam dat Eye-tracking pro hodnocení použitelnosti produktů (map) lze využít dvěma způsoby. Jedná se o formativní (kvalitativní) a sumativní (kvantitativní) výzkum (Bojko, 2013). Jak uvádí Hendl (2008), někteří metodologové chápou kvalitativní výzkum jako pouhý doplněk kvantitativních výzkumných strategií, jiní jako protipól nebo vyhraněnou výzkumnou pozici ve vztahu k jednotné, na přírodovědných základech postavené vědě. V typickém případě kvalitativní výzkumník vybírá na začátku téma a určí základní výzkumné otázky. Ty však může modifikovat nebo doplňovat v průběhu výzkumu, během sběru a analýzy dat. V průběhu kvalitativního výzkumu nevznikají pouze nové výzkumné otázky, ale také nové hypotézy a nové modifikace výzkumného plánu. Výzkumník vyhledává a analyzuje jakékoli informace, které přispívají k osvětlení výzkumných otázek, a provádí deduktivní a induktivní závěry. Často se stává, že své závěry probírá s účastníky výzkumu (respondenty) a jejich názory zohledňuje ve svých výsledcích. Pro pružný charakter kvalitativního výzkumu lze jeho výsledky jen těžko replikovat. Ve srovnání se statistickou analýzou se kvalitativní analýza nedá formali-zovat (Hendl, 2008). V kvalitativním (formativním) výzkumu je cílem výzkumníka nalezení oblastí, ve kterých by bylo možné daný produkt vylepšit. Příkladem může být hodnocení komplexní webové aplikace, kdy vývojář prezentuje hotovou verzi mapy skupině respondentů. Ti v aplikaci řeší zadané úkoly a na základě videozáznamu obrazovky a pohybu očí může vývojář zjistit, ve kterých úkolech respondenti chybovali, jestli se dívali na Míčové prvky aplikace, zda se vyznali v menu atd. Výzkumné otázky ve formativním výzkumu mohou znít například: „Všimnou si respondenti odkazu?", „Budou se orientovat v menu?" atd. Druhým způsobem j e sumativní neboli kvantitativní výzkum. Kvantitativní výzkumy v sociálních vědách v mnohém napodobují metodologii přírodních 99 věd. Kvantitativní výzkum používá náhodné výbory, experimenty a silně stulcturovaný sběr dat. Získaná data jsou analyzována statistickými metodami s cílem je explorovat, popisovat, případně ověřovat pravdivost představ o vztahu mezi sledovanými proměnnými (Hendl, 2008). Během kvantitativního (sumativního) výzkumu dochází k porovnání několika variant vytvořeného produktu. Příkladem může být opět hodnocení webové mapy. V tomto případě ale vývojář připraví dvě (nebo více) verzí mapy a následně testuje, která z nich je pro respondenty vhodnější, U které z nich vyřeší zadaný úkol rychleji, správněji atd. Výzkumné otázky v sumativním výzkumu mohou znít například: „Která varianta je vhodnější pi'0 řešení úkolu?", „Ve které variantě se respondenti rychleji orientují" atd. Základní vlastností kvantitativních experimentů je to, že výzkumník aktivně a úmyslně přivodí změnu určité situace (nebo hodnoceného produktu) a pak sleduje změnu chování respondentů. Vyjádřeno v jazyce kvantitativního výzkumu, výzkumník manipuluje s nezávislými proměnnými a měří změnu zvolených závislých proměnných. Tato problematika je popsána v následující kapitole. 5.1 Typy proměnných Ke zjišťování kauzálních vztahů mezi proměnnými slouží experiment. Kauzální vztah znamená to, že změny v proměnné A jsou příčinami změn v proměnné B (Martin, 2007). Aby bylo možné říct, že je mezi dvěma (nebo více) proměnnými kauzální vztah, musí být podle Campbella (1980) splněny přinejmenším tři základní podmínky: 1) To, co je považováno za příčku, musí časově předcházet předpokládanému efektu nebo následku. 2) Předpokládaná příčina i její efekt spolu musí kovariovat. Kovariance znamená společné změny. Jak se mění jeden znak (A), tak se zároveň v souladu s těmito změnami mění druhý znak (B). 3) Kromě vysvětlení změn jevu B proměnnou A nesmí existovat žádné jiné vysvětlení změn jinou proměnnou (např. C). Splnění těchto tří podmínek zvyšuje hodnověrnost potenciálních závěrů o existenci nebo neexistenci kauzálních vztahů mezi proměnnými. Experiment, který tyto podmínky splňuje, bývá označován jako vnitřně validní. Zabezpečení maximální možné vnitřní validity je tedy základním požadavkem a závazkem pro každého výzkumníka (Punch, 2008). Základními znaky vnitřně validního experimentu jsou tedy dle Ferjenčíka (2000): 1) manipulace s nezávisle proměnnou - předpokládanou příčinou; 2) měření závisle proměnné - předpokládaného efektu či důsledku; 3) kontrola všech jiných (vnějších) proměnných, které by mohly alternativně vysvětlovat změny závislé proměnné. V příkladu z oblasti kartografie může být nezávislou proměnnou, se kterou je manipulováno, například stínování v mapě. Cílem výzkumníka je tedy zjistit, zda bude mít stínování vliv na měření závislé proměnné. Tou může být například doba řešení úkolu, správnost odpovědi nebo počet fixací na mapě. Intervenující proměnnou v tomto příkladu může být kvalita skenu u jednoho z typů hodnocených map. Výsledná zjištění, tedy například to, že na stínovaných mapách bylo zaznamenáno více fixací, tak mohou být způsobena nižší kvalitou skeňu, nikoli použitím stínování, což chtěl výzkumník zjistit. ( Vnější (intervenující) f~^~\ \~r, pro/jjěnné (Typ vizualizace Správnost PtívRluQst ) W refienf 1 mydiloutruBfliilJ Závislá proměnná A Dependent variable J Obr. 69 Typy proměnných při tvorbě experimentu Manipulace s nezávislou proměnnou je většinou jednoduchá. V kartografii se ve většině případů bude jednat o použití několika variant mapy lišící se v jedné - hodnocené - proměnné. Tedy například v tom, zdaje legenda strukturovaná, či nikoliv, v použití různých barevných stupnic atd. Měření závisle proměnné je také jednoduché. Měřit lze například rychlost odpovědi, správnost řešení, případně širokou škálu eye-tracking metrik, jako je například počet fixací, průměrná délka fixace či délka scanpath. Největším a rozhodujícím problémem je kontrola nežádoucích (vnějších/ intervenujících proměnných). Ferjenčík (2000) ve své publikaci uvádí typologii vnějších proměnných. 100 101 Jako první typ vnějSí proměnno uvádí historii, tedy události a skutečnosti, kterými jsou respondenti ovlivněni paralelne s působením nezávisle proměnné. Ferjenčík popisuje, že pro eliminaci této proměnné je vhodné měřit závislou proměnnou bezprostředně po působení nezávislé proměnné. V oblasti eye-trackingu by s tímto neměl být problém, protože závisle proměnné (počet fixací atd.) jsou ze své podstaty měřeny ihned při pozorování stimulů. Ani další typ vnější proměnné se eye-tracking výzkumu v kartografii příliš netýká. Touto proměnnou je zrání a přirozený vývoj. Pokud by byl například sledován vliv určité metody výuky po dobu několika let, je potřeba počítat s tím, že kromě této výuky na respondenty během oněch několika let působily i další vlivy. Platí to i pro další typ vnější proměnné - reaktivitu pokusných osob - se zřejmě kartografických eye-tracking experimentů rovněž netýká. Efekt, kdy změna v závisle proměnné nastane spíše v důsledku očekávání než díky působení nezávisle proměnné, se nazývá placebo efekt. Podobným typem vnější proměnné je očekávání ze strany experimentátora, kdy může experimentátor jakkoli nechtěně a nevědomky navádět subjekt 1c určitému chování. To může být problémem i u eye-tracking testování. K eliminaci této proměnné je vhodné, aby respondent na experimentátora neviděl, případně aby experimentátor vůbec nebyl ve stejné místnosti, což je však technicky komplikované. Úspěch eye-tracking experimentu může zhatit i efekt měření, který se projeví u opakovaného testování stejného respondenta. Respondent může při druhém testování dosahovat lepších výsledků, avšak nikoliv proto, že jsou lepší prezentované stimuly, ale proto, že už ví, jakým způsobem bude test probíhat. S opakovaným měřením souvisí i další z vnějších proměnných, a to experimentální mortalita. Takto bývá označován nechtěný úbytek respondentů v průběhu experimentu. Respondenti mohli testování vzdát například proto, že jim experiment přišel příliš složitý. Ve výsledku tak budou v experimentu pouze ti, pro které byl test jednoduchý. Dalším, a nyní opravdu velmi významným, typem vnější proměnné je neekvivalentnost skupin. Pokud testování probíhá tak, že jsou využívány dvě skupiny respondentů (between-subject design), je třeba zajistit ekvivalenci obou skupin, což není jednoduché. Tento výčet intervenujících proměnných rozhodně není kompletní. Intervenující proměnnou je cokoliv, kromě nezávisle proměnné, co může respondenta ovlivnit, a mít tak vliv na měření závisle proměnné. Existuje několik přístupů, pomocí nichž je možné se vyhnout problémům s intervenujícími proměnnými. Nejj ednoduším přístupem j e prostá eliminace dané proměnné. Pokud by například byli respondenti během experimentu vyrušováni zvukem či světlem, je nejjednodušším řešením zatemnění oken 102 a odhlučnění místnosti, ve které experiment probíhá. Ferjenčík (2000) jako vzor uvádí I. P, Pavlova, jenž své pokusy dělal v laboratoři zvané věž mlčení, která byla téměř dokonalo Izolována od vnějšího světa. Tuto jednoduchou metodu bohužel není možné použít vždy. Těžko jde například eliminovat proměnné, jako jsou zkušenosti či motivace. Druhým přístupem je stabilizace a zkonstantnění. Když není možné vnější proměnnou vyloučit, lze její hodnotu alespoň udržet na stejné úrovni během celého experimentu. Příkladem může být nastavení konstantního osvětlení v laboratoři. Ve skutečnosti působí současně desítky až stovky různých faktorů (proměnných) a je technicky velmi obtížné je eliminovat či zkonstantnit. V případě, že by se to povedlo, však dochází k dalšímu problému, a tím je nedostatečná externí validita. Měřítkem externí validity je možnost a spolehlivost zevšeobecnění závěrů (Martin, 2007). V případě, že bychom eliminovali všechny intervenující proměnné, byly by výsledky experimentů příliš „uměíé" a jejich závěry by nebylo možné aplikovat do reálných situací. Jak bylo zmíněno výše, jednou z nejproblematičtějších vnějších proměnných jsou interindividuální rozdíly. Pokud jsou v experimentu porovnávány dvě skupiny respondentů, může se stát, že naměřené rozdíly mezi oběma skupinami nebudou způsobené nezávisle proměnnou, ale budou výsledkem toho, že členové jedné skupiny se ve svých charakteristikách významně lišili od členů skupiny druhé. Pro kontrolu interindividuálních rozdílů lze využít metodu vyrovnávání. Jejím cílem je vytvoření skupin, které budou rovnocené nebo ekvivalentní. Vyrovnání není možné dosáhnout u všech vnějších proměnných. Proto je důležité zaměřit se na určité vytipované proměnné, které by mohly potenciálně kontaminovat vztah mezi závisle a nezávisle proměnnou. Přesto se však může stát, že výzkumník na nějakou klíčovou charakteristiku zapomene, nevyrovná ji, a ona pak ovlivní výsledky experimentu. Zároveň je velmi obtížné nalézt například dvacet respondentů, kteří se budou shodovat ve třech, čtyřech, či dokonce deseti vlastnostech (Ferjenčík, 2000). Díky těmto nedostatkům se málokdy metoda vyrovnávání používá samostatně. Mnohem častěji se aplikuje metoda znáhodnování. Její podstata vychází z teorie pravděpodobnosti. Pokud se podaří zajistit, že každý subjekt bude mít stejnou pravděpodobnost, že se dostane do kterékoliv pokusné skupiny, bude dosaženo maximální pravděpodobnosti, že všechny zkoumané skupiny budou z hlediska všech možných vlastností subjektů rovnocenné. Je důležité mít na paměti, že znáhodnování nezabezpečuje rovnocennost skupin. Zvláště při malém počtu pokusných osob ve skupinách se může stát, že tyto skupiny ekvivalentní nebudou. Poslední metodou odstranění problémů s vnějšími proměnnými je jejich transformace na nezávisle proměnné. Tím pádem dojde k vytvoření multivariančního experimentu, protože ten bude obsahovat více nezávisle 103 proměnných. Takovýto experiment buclo reálnejší a bude mít vyšší externí validitu. Bude však mnohem náročnější na organizaci, přípravu výzkumného plánu a množství pokusných osob. Při rozšíření o druhou nezávisle proměnnou bude například nutné vytvořit čtyři skupiny respondentů. 5.2 Design experimentu Jak bylo uvedeno v předchozí kapitole, podstatu experimentu tvoří tři podmínky: manipulace s nezávisle proměnnou, měření závisle proměnné a kontrola vnějších proměnných. Tím, jak splnit všechny tři podmínky, se zabývají plány experimentální plány či design experimentu. Cílem je vytvořit externě i interně validní a zároveň co nejefektivnější experiment. Efektivitou se rozumí úspora času, počtu respondentů a s tím související pracnosti. Dle Ferjenčíka (2000) musí plánování experimentu začínat otázkou „co": Co bude nezávisle proměnnou - proměnnou, s níž bude manipulováno a o které výzkumník předpokládá, že bude příčinou nějakého jevu. V kartografii to může být například ověření nutnosti strukturování legendy a následná tvorba dvou (či více) variant mapy lišící se právě v použité legendě (např. strukturované a nestrukturované). Co bude závisle proměnnou - proměnnou, u které se předpokládá, žo se bude měnit v důsledku změn nezávisle proměnné. Ve výše uvedeném příkladu to může být rychlost nalezení určitého znaku v legendě či délka trajektorie pohybu oka zaznamenaná při tomto hledání. Co bude vnějšími proměnnými - tedy, co ještě může vysvětlit změny v závisle proměnné. Zde se může jednat například o interindividuální rozdíly či rozdíly v zobrazovaných mapách. Pokud by například strukturovaná legenda v mapě byla psána jiným fontem či velikostí písma, nelze rozhodnout, zda na rychlost nalezení mapového znaku mělo vliv strukturování legendy či jiné písmo. Bez ujasnění těchto tří „co" nelze v tvorbě experimentu pokračovat. Klíčovou roli při tvorbě designu experimentu hraje počet nezávisle proměnných, se kterými bude manipulováno. Ujednoduchých plánů experimentu dochází k manipulaci pouze jedné nezávisle proměnné. Opakem jsou tzv. multivariační plány experimentů (též multifaktorové či komplexní). Jednoduché plány experimentů jsou, jak už název napovídá, jednodušší, transparentnější a zpravidla méně náročné na organizaci a vztah mezi závislou a nezávislou proměnnou je možné snáze interpretovat. Tyto plány jsou však vzdálenější realitě, kde souvisí všechno se vším (Ferjenčík, 2000). Ve své nejprostší variantě pracuje jednoduchý plán experimentu pouze se dvěma úrovněmi nezávisle proměnné (strukturovaná/nestrukturovaná legenda). Ve složitějších verzích může nezávisle proměnná nabývat více úrovní (stupnice s 5, 6, 7, 8 kategoriemi). Mnohem důležitější rozhodnuli, než kolik úrovní bude mít nezávislá proměnná, je ale rozhodnutí o tom, jak přiřadit respondenty k různým úrovním nezávisle proměnno. V případě, že je každý subjekt podroben působení pouze jedné úrovně nezávisle proměnné, se jedná o mezisubjektovýplán experimentu (between--subject experiment). Tam, kde každý subjekt „přijme" (v oblasti eye-trackingu tedy „vidí") všechny úrovně nezávisle proměnné, se jedná o vnitrosubjektový plán experimentu (within-subject experiment). 5.2.1 Between-subject experiment Na následujícím příkladu je popsán jednoduchý kartografický between--subject experiment zkoumající vliv strukturování legendy na délku trajektorie pohybu oka. Nezávisle proměnná tedy odpovídá typu legendy a bude dále označována jako X. Jelikož má dvě úrovně, bude varianta bez strukturovaní označena jako Xt a strukturovaná varianta jako X2. Měření délky trajektorie oka je označeno jako Y. Plán experimentu tedy bude vypadat následovně: první skupina respondentů Xx Y druhá skupina respondentů X2 Y Vliv strukturování legendy na délku scanpath bude zjištěn porovnáním délky scanpath u první a druhé skupiny respondentů. První dva znaky experimentu tedy byly naplněny. Byla změněna úroveň nezávisle proměnné a byla změřena úroveň závisle proměnné. Zbývá tedy třetí podmínka - a to kontrola nežádoucích proměnných. Kromě typu použité legendy mohou mít na délku scanpath vliv i další faktory. Nej významnější m z nich jsou interindividuální rozdíly mezi subjekty. Samozřejmě se mohou vyskytnout i další problémy, například že první skupina byla testovaná ráno a druhá odpoledne, že se změnil experimentátor (případně jeho nálada) a mnohé další. Většinu těchto faktorů je možné odstranit standardizací podmínek. Zbývá tedy zajistit, aby si obě skupiny byly rovnocenné. Zlatým pravidlem při sestavování between-subject experimentu je přiřazování respondentů do skupin na základě náhodného výběru. Metod, jak náhodně přiřadit respondenty, je mnoho - hod mincí, tabulka náhodných čísel, hod kostkou atd. (Ferjenčík, 2000). Znáhodňování (randomizace) bývá ve schématech označováno jako R. Schéma popisovaného experimentu tedy vypadá následovně: Takovýto plán experimentu již splňuje všechna tři základní pravidla tvorby experimentu. Znáhodněním R totiž kontroluje explicitně nejvýznam-nější vnější proměnnou, tedy interindividuální rozdíly. Popsané schéma 104 105 však není jediné možné, Ferjenčík (2000) nu podobnom příkladu uvádí, že lze znáhodnění zkombinovat s vyrovnáním (V), Obe" skupiny mohou být vyrovnány na základě nějaké důležité vnější proměnné - například úrovně kartografických znalostí. Na základě kartografického testu se vytvoří páry lidí s přibližně stejným počtem bodů, čímž dojde k vyrovnání obou skupin vzhledem k jejich kartografickým znalostem. Následně bude zavedeno zná-hodnění. V každé dvojici bude losem rozhodnuto, do které skupiny budou respondenti přiřazeni. Schéma takového experimentu vypadá následovně: V R V některých případech je výhodné provést před vlastním testováním takzvaný pretest - tedy měření závisle proměnné před experimentálním působením. V popisovaném příkladu by se tedy před vlastní tvorbou experimentu respondentům ukázal stimulus obsahující legendu mapy (jinou, než bude použita v experimentu). V této legendě by respondenti měli za úkol nalézt konkrétní symbol. Na základě délky trajektorie pohledu oka by došlo k vyrovnání skupin a až po tomto vyrovnání by byli respondenti náhodně rozděleni do dvou skupin. U tohoto postupuje třeba dávat pozor na to, aby pretest nezpůsobil efekt učení, a neovlivnil tak respondenty při vlastním experimentu. U eye-tracking testování by navíc bylo nutné, aby respondenti přišli na testování dvakrát - poprvé na pretest a pak na vlastní experiment, COŽ z časových a organizačních důvodů není vhodné. Pro statistické zpracování naměřených výsledků je vhodné, aby skupiny obsahovaly stejný počet respondentů. K tomu se může použít takzvané blokové znáhodňování (bloková randomizace). Při této technice nejsou respondenti vybíráni do skupin po jednom, ale po skupinkách odpovídajících počtu úrovní nezávisle proměnné. Pokud jsou tedy v experimentu pouze dvě úrovně (strukturovaná a nestrukturovaná legenda), byli by náhodně vylosováni vždy dva respondenti a u nich se pak losem rozhodlo, do které skupiny budou přiřazeni. Výhodou při between-subject experimentu je to, že každý respondent vidí pouze jednu úroveň nezávisle proměnné (jednu variantu mapy). Tím pádem není negativně ovlivněn učením při vícenásobném opakování experimentu. Dále nedochází k nežádoucímu prohlédnutí záměru experimentátora a rovněž se zmírňuje riziko únavy a nepozornosti respondenta. Zásadní nevýhodou je však vliv interindividuálních rozdílů, který i přes znáhodňování a vyrovnávání nelze vždy odstranit. Zejména v případě malého počtu respondentů či velmi heterogenní skupiny není možné vytvořit rovnocené skupiny. Z povahy eye-traeking experimentů plyne, že není technicky možné testovat velké počty subjektů. V takovýchto případech výzkumníci preferují vnitrosubjektový plán experimentu. 106 5.2.2 Within-subjQQt experiment Při vnitrosubjektovóm plánu experimentu neboli within-subject experimentu, respondent přijímá (vidí) všechny úrovně působení nezávisle proměnné (tedy všechny varianty mapy). Takový design je mnohem ekonomičtější, protože je respondent porovnáván sám se sebou a především naprosto spolehlivě řeší problém neekvivalentnosti skupin. I tento přístup má ale svá omezení a problémy. Mezi nej důležitější z nich patří dle Ferenčíka (2000) transfer, učení a vliv pořadí prezentace stimulů. K nejefektnějším metodám kontroly takovýchto nežádoucích proměnných patří znáhodňování (randomizace) nebo vyvažování, označované také jako protivyvažování neboli counterbalancing (Bojko, 2013). Tím je myšleno uzpůsobení pořadí prezentace jednotlivých úrovní nezávisle proměnné (stimulů) tak, aby toto pořadí negativně neovlivňovalo vnitřní validitu experimentu. Within-subject experimenty se podle způsobu vyvažování dělí na kompletní a nekompletní. V případě kompletního vnitrosubjektového plánu je kontrola pořadí a transferu nejdůslednější. V tomto případě obsahuje plán všechna možná pořadí prezentace stimulů, přičemž každý subjekt absolvuje všechny tyto kombinace („Subject by subject counterbalancing"). Tento přístup bývá označován jako ABBA vyvažování. V nejjednodušší variantě kompletního vnitrosubjektového experimentu (obsahujícího pouze dvě úrovně nezávisle proměnné) by byl respondentovi prezentován nejprve stimulus A, potom B a následně stejné stimuly v obráceném pořadí - tedy nejprve B a potom A. V příldadu se strukturovanou legendou by tedy byla respondentovi nejprve prezentována nestrukturovaná varianta (A), poté strukturovaná varianta (B) a následně ty stejné stimuly znovu, tentokrát ovšem v opačném pořadí (B a poté A). V případě, že by experiment obsahoval více úrovní nezávisle proměnné, stoupala by délka (a náročnost) experimentu geometrickou řadou. Druhou variantou within-subject experimentu je nekompletní vnitrosubjektový plán. V tomto případě vidí každý respondent každou úroveň nezávisle proměnné pouze jednou. Aby se snížilo riziko transferu, učení nebo pořadí, jednotlivým respondentům jsou stimuly prezentovány v různých pořadích (Across-subject counterbalancing). Musí ale platit zásada, že každá podmínka (úroveň nezávisle proměnné) se musí na každém pořadovém místě objevit stejně často. Kvyřešení této podmínky se nejčastěji používá tzv. latinský čtverec. Latinský čtverec je čtvercová tabulka on xn polích, která je vyplněna n různými symboly tak, že v každém řádku i v každém sloupci se každý symbol nachází právě jednou. V tomto případě budou těmito symboly úrovně nezávisle proměnné. Pokud by tedy bylo manipulováno se čtyřmi úrovněmi nezávisle proměnné (čtyřmi variantami mapy), mohl by latinský čtverec vypadat tak, jak je znázorněno na obrázku 70. V tomto konkrétním případě se jedná o vyvážený latinský čtverec, protože všechny úrovně nezávisle proměnné se vzájemně předcházejí a následují za sebou stejně často. 107 A B C D B C A D C D B A D A C B Obr. 70 Ukázka vyváženého latinského čtverce Na obrázku 71 je znázorněn počet kombinací při vyvažování pro různý počet úrovní nezávisle proměnné při within-subject designu experimentu. Při kompletním vnitrosubjektovém plánuje potřeba počítat s tím, že každý respondent uvidí všechny zobrazené kombinace. Pokud by předmětem testování byly například čtyři varianty legendy, musel by každý respondent absolvovat prezentaci 24x4 stimulů. Oproti tomu při vyrovnání pomocí latinského čteverce by byly každému respondentovi prezentovány pouze čtyři varianty (A, B, C a D). Každý respondent by je však viděl v jiném pořadí. Úrovně nezávislé pramenné Kompletní Nekompletní Within-subject counterbalancing Každý subjäWvMÍ VŠECHSf Kombinace AB BA ABC BCA CAB ABCD ABDC ACBD ACDB ADBC ADCB BAOC BAČO BCDA BCAD BDCA B D AC CA8D CAOB CBÄD CBDA CDAB CDBA DACB DABC OBCA DBAC DCBA DCAB iZOvariam Každý subjeM vidí pouzoJEDNU Kombinaci AB BA ABC CBA BCA ACB CAB BAC ABDC BCAD CDBA DACB ABECD DCEBA BCADE EDACB CDBEA AEBCB DECAB BACED AEDBC CBDAE Obr. 71 Kompletní a nekompletní counterbalancing u within-subject experimentů 108 Vyvažování a znáhoclňování jo v oblasti eye-trackingu technicky komplikované. V případě kompletního countorbalancingu by samozřejmě bylo možné vytvořit experiment prezentující stimuly v požadovaném pořadí. To by ale znamenalo, že v případě dvou úrovní působení nezávislé proměnné by byl stimulus prezentován celkem čtyřikrát, v případě čtyř úrovní už 24x4. To by mělo velký obrovský vliv na learning effect. V případě znáhodňování pomocí latinského čtverce by bylo nutné pro každého respondenta vytvořit speciální, předem určené pořadí prezentace stimulů. To v softwarech dodávaných k eye-trackerům není možné, a bylo by tedy nutné použít aplikaci Hypothesis (viz kapitola 3.5.1) nebo nástroje, jako jsou komerční e-Prime52 nebo open-source alternativa PsychoPy.153 Tyto nástroje lze propojit s eye-trackerem a vytvářet v nich složitější a komplexnější experimenty. V případě, že chce výzkumník pro přípravu experimentu použít softwaru dodávaného k eye-trackeru, bude se muset spokojit s prostou randomizací prezentace snímků. Jak bylo uvedeno výše, hlavním problémem between-subject designu experimentu byly interindividuální rozdíly mezi respondenty. Z toho důvodu musí u tohoto typu experimentu docházet k systematickému přiřazování respondentů do skupin, například pomocí náhodného výběru či pomocí vyrovnávání. U within-subject experimentu k tomuto problému nedochází, protože stejní respondenti vidí všechny varianty nezávisle proměnné. Je však třeba vyrovnat se s jiným zásadním problémem, a tím je efekt učení, označovaný také jako carryover nebo learning effect. U některých typů experimentů může k odstranění learning effectu stačit výše popsaný counterballancing nebo randomizace stimulů. Pokud je úkolem respondenta například hledání bodového znaku ve dvou variantách mapy, lze learning effect (alespoň částečně) odstranit prezentací stimulů v náhodném pořadí. Zejména pokud je stimulů vyšší počet. Někdy je ale learning effect natolik zásadní, že toto samotné opatření nestačí. Příkladem může být nalezení státu s nejvyšší hodnotou zobrazovaného jevu. Pokud tento stát respondent nalezne na první variantě stimulu, jeho název si pravděpodobně zapamatuje a při zobrazení další varianty už bude odpověď znát, aniž by se musel dívat na mapu. V tomto případě je možné přistoupit k variantě, kdy zadání úkolu na obou (či více) variantách nebude totožné, ale bude co nejvíce podobné. Například ve studii Popelky (2014a) bylo cílem respondentů nalézt vrchol či obec s konkrétním názvem na stínované a nestínované mapě. Z důvodu eliminace learning effectu respondenti na obou variantách mapy nevyhledávali stejný vrchol, ale vrchol o podobné významnosti, popsaný v mapě stejným fontem a stejnou velikostí písma. Kromě toho bylo dbáno na to, aby bod například neležel přímo ve středu snímku, na jeho okraji apod. 52 https://www.sciencepius.com/e-prime-2-0-pr0fessi0nai 53 http://www.psychopy.org/ IO9 Jiný postup byl zvolen ve studii Popelky n Brychtovo (2013), kdy respondenti řešili úkoly nad fiktivním terénem znázorneným pomocí barevné hypsometric nebo pomocí perspektivní viztializaee. V tomto případě byla jedna mapa ve dvojici otočena o 1800 nebo zrcadlově převrácena. Při následném rozhovoru s respondenty bylo zjištěno, že si během experimentu neuvědomili, že se jedná o stejné území. Dalším řešením efektu učení může být realizace pauzy mezi dvěma testováními. Tento přístup byl využit například ve studii Opacha a kol. (2017), kde respondenti řešili úkoly nad dvěma variantami glyphů. Respondentovi byla náhodně přiřazena jedna varianta glyphů. Následovala pauza v délce alespoň tří dnů a poté respondent přišel na druhé testování, během něhož mu byla prezentována druhá varianta. Úkoly byly postavené tak, aby respondent během třídenní pauzy odpovědi zapomněl, což se opět potvrdilo v následném rozhovoru po testování. V některých případech je ale learning effect tak výrazný, že within-subject design nelze vůbec použít. Bojko (2013) uvádí příklad s testováním dvou variant návodu na výměnu duše u kola. Pokud se respondent z jedné varianty naučí duši vyměnit, je prezentace druhé varianty zbytečná. V kartografii se lze s podobným problémem setkat například u hodnocení interaktivních prvků webové mapy. V tomto případě je tedy nezbytné zvolit between-subject design experimentu. 5.2.3 Volba designu experimentu Volba mezi within-subject a between-subject designem experimentu záleží na výzkumníkovi. Při výběru je nutné brát ohled na specifika daného experimentu. Konkrétně na to, zda v daném experimentu převažují pozitiva či negativa vybraného plánu (obr. 72). Jak už bylo zmíněno v předchozích kapitolách, hlavním problémem u between-subject designu jsou interin-dividuální rozdíly. Naopak u within-subject experimentu je tím hlavním problémem learning effect. Pokud je tedy cílem experimentu například porovnání dvou variant interface webové mapy, je vhodnější zvolit between--subject, neboť poznatky z první varianty by si respondenti zapamatovali a použili je při řešení úkolu nad druhou variantou. Díky tomu, že u within--subject experimentu všichni respondenti vidí všechny stimuly, může být jejich počet nižší. Naopak délka testování bude delší, protože respondenti uvidí minimálně dvakrát tolik stimulů než v případě beween-subject experimentu. Jedním z kritérií výběru plánu experimentu může být i fakt, Že u within-subject experimentu mohou respondenti přímo porovnat obě (nebo více) testovaných variant například pomocí subjektivního dotazníku. 110 Wlthln-aubject »xp»rlm«nt Between-subject experiment Definice Vllchnl roípomJonilvWI vttclmy varianty Každý respondent vidí pouze lednu variantu Hlavni problém Learning elfect Interindividuálni rozdíly PoSet respondentů Nižší všichni jsou v jedné skupině Vyšší potreba více skupin po X respondentech Délka experimentu Delší Kratší Porovnáni variant Respondenti mohou porovná varianty mezi sebou Respondenti nemohou porovnat varianty mezi sebou Obr. 72 Shrnutí vlastností within-subject a between-subject experimentu 5.2.4 Multivarianční experiment Doposud popisované jednoduché plány experimentů situaci svým způsobem zjednodušovaly. Z množství proměnných byla totiž vždy vybrána pouze jedna, která byla považována za příčinu jevu. S touto nezávisle proměnnou bylo manipulováno a bylo zjišťováno, zda (a jak) se mění závisle proměnná. Všechny ostatní proměnné, které mohly zkoumaný jev také ovlivňovat, byly přitom eliminovány, zkonstantněny či zrovnováženy. Takovýto přístup je poměrně jasný, bezpečný a přímočarý. Vyloučení všech dalších proměnných ale vzdaluje experiment od reality. Dobře sestavené a pečlivě realizované jednoduché plány experimentů zaručují poměrně vysokou vnitřní validitu, ale jejich slabinou bývá ekologická validita, tedy platnost výsledků v reálných podmínkách. Ekologické validity experimentu je možné dosáhnout například měřením přímo v terénu, kde bude ale experiment vystaven zvýšenému riziku působení mnoha vnějších proměnných, které není možné efektivně kontrolovat. Druhou možností pro zvýšení ekologické validity experimentuje zvýšení počtu proměnných, se kterými bude manipulováno. Takovéto experimenty bývají nazývány komplexní nebo multivarianční. V komplexním experimentálním plánu jsou úrovně jednotlivých nezávisle proměnných kombinované faktoriálně. To znamená, že každá úroveň nezávisle proměnné je kombinována s každou úrovní ostatních nezávisle proměnných (Ferjenčík, 2000). Na rozdíl od jednoduchých plánů experimentů dovedou multivarianční experimenty zkoumat interakce mezi jednotlivými nezávisle proměnnými. K přesnému matematicko-statistickému určení míry hlavních efektů a míry interakce slouží analýza rozptylu neboli ANOVA. Požadavky na technické 111 provedení a organizační zabezpečení multivarinneníeh experimentů jsou velmi vysoké a zvláště náročné na počet testovaných subjektů. Tento počet by bylo možné snížit pomocí volby nekompletního within-subject experimentu s využitím latinského čtverce. Díky nekompletnímu plánu by ale ztratily hlavní výhodu multivariančních experimentů, totiž získání informace o interakci nezávisle proměnných. U multivariančních experimentů lze rovněž kombinovat within-subject a between-subject design. Takovéto experimenty jsou potom označovány jako smíšené. Bližší informace o designu experimentu, včetně příkladů multivariančních plánů experimentu, lze nalézt napříldad v publikaci Ferjenčíka (2000) nebo Martina (2007). 5.3 Respondenti a jejich počet Po definování hypotéz a sestavení plánu experimentu čeká výzkumníka další nelehký úkol, a tím je vymezení základního souboru. Základním souborem je množina všech prvků patřících do okruhu osob, které mají být v daném experimentu zkoumány (Pelikán, 1998). Základní soubor musí být přesně vymezen. Pokud je cílem výzkumníka například testovat mapovou aplikaci pro studenty střední školy, je třeba si ujasnit, jaký typ středních škol bude uvažován, zda půjde o studenty všech ročníků nebo jen vybraných, ve kterém roce bude výázkum proveden, zda budou testováni studenti z celého světa, pouze z Česka, z vybraného města atd. Základní soubor může ale být velmi rozsáhlý. Bylo by velmi obtížné Otestovat všechny středoškolské studenty. Z toho důvodu se ze základního souboru pořizuje výběr. Výběr neboli vzorek by měl být co nejpřesnější zmenšenou kopií původního souboru (Pelikán, 1998). Co možná největší přiblížení vzorku základnímu souboru je důležité především proto, aby na základě výzkumu uskutečněného na výrazně menším souboru bylo možné dělat obecnější závěry platné pro celý základní soubor. I při sebedokonalejším systému sestavení výběru nelze dosáhnout vnitřní identity vzorku se základním souborem. Pro co největší snížení těchto rozdílů musí být respektovány určité principy tvorby vzorku. Jak uvádí Pelikán (1998), v některých případech se nelze vyhnout tvorbě záměrného výběru. Tím je každý výběr, který výzkumník realizuje na základě svých zkušeností, poznatků a úsudků. V tomto případě výzkumník do vzorku vybírá ty osoby, které považuje za typické, a vpodstatě se jedná o výběr subjektivní. V tomto případě se u seriózního výzkumu očekává, že ve výsledném článku budou použity formulace jako „... na daném vzorku se prokázalo..." a výsledky nebudou vztahovány na celý základní soubor (Pelikán, 1998). Zvláštní variantou záměrného výběru je výzkum dobrovolně přihlášených osob. Rosenthal (1965) uvádí, že se prokázalo, že dobrovolně přihlášení respondenti mojí vyMÍ intelektuální schopnosti, vyšší potřebu po sociálním uznání či nižSÍ konvokfinost. Podobný výběr není možné využít například při standardizaci testů. Rovněž je vhodné ve výsledném článku na tento fakt upozornit. Výrazně průkaznější tvrzení o obecné platnosti pro celý základní soubor lze učinit při zavedení náhodného výběru vzorku ze záldadního souboru. Základním rysem náhodného výběru je zaručení stejné pravděpodobnosti výběru pro každý prvek základního souboru. Kromě jednoduchého náhodného výběru lze využít i vícenásobný náhodný výběr. Ve výše uvedeném příkladu se studenty středních škol by byla nejprve náhodně vybrána střední škola, následně by byla náhodně vybrána jedna třída z dané školy a nakonec opět náhodně by z dané třídy byly vybráni respondenti. Zásadní při přípravě experimentu je velikost vzorku. Tedy počet respondentů, kteří se experimentu zúčastní. Jednoznačné číslo, které by bylo univerzálně platné pro všechny typy experimentů, není možné stanovit. Před rekrutací respondentů je zásadní si nejprve uvědomit, zda se jedná o formativní (kvalitativní) či sumativní (kvantitativní) experiment. 5.3.1 Počet respondentů veformativním výzkumu Jak už bylo uvedeno výše, cílem formativního výzkumu je zjistit problémy, na které respondenti narazí při práci s testovaným produktem. Sauro a Lewis (2016) uvádějí, že výpočet požadovaného vzorku pro formativní výzkum vychází z pravděpodobnostního modelu vyjádřeného rovnicí: P(x > l) = l - (l - p)n pro pravděpodobnost nastoupení jevu alespoň jednou při n náhodných pokusech (například padnutí hlavy při hodu mincí), kde p vyjadřuje pravděpodobnost jevu. Nejedná se tedy o p-value při testování statistických hypotéz. Pokud by například proběhlo pět hodů mincí, pravděpodobnost, že alespoň jednou padne hlava, by byla 0,969. P(x > 1) = 1 - (1 - 0,5)5 = 0,969 Tato rovnice může být převedena na rovnici pro výpočet velikosti vzorku. Protože n je v exponentu, je nutné rovnici logaritmovat: (l-p)n = l-P(x>l) n(ln(l - p)) = ln(l - p(x > 1)) ln(l - P(x > 1)) U ~ ln(l-p) Aby bylo možné tuto rovnici použít, je nezbytné znát hodnoty paPfxzl]. 112 113 NejpraktiätSjäím postupem jo zvolit nejnižaí realisticky očekávané p s ohledem na možné zdroje. Sauro a Lewis (2016) uvádějí jako příldad formativní studii, kde je cílem dosáhnout alespoň 80% pravděpodobnost [P(x ž 1)), že bude minimálně jednou zpozorován problém, jehož pravděpodobnost pozorování je 0,15 (p). Dle výpočtu je nutné pro takovou studii použít alespoň 10 respondentů. ln(i - 0,8) n - ln(l-0,15) _ ln(0,2) 71 ~ ln(0,8S) n = 9,9 Na základě tohoto výpočtu lze tedy vytvořit tabulku (tab. 2), ze které je možné odečíst hodnoty nutného počtu respondentů. Tab. 2 Velikost vzorku nutná pro formativní studii (upraveno dle Sauro a Lewis, 20:16) nrSnndSr° ?01,6) r°!něžrádějí tabulku (tab- 3) obrazující hodnoty EST ?n°? SP°ň Jedn°h0 P°zoroválií P~ jednoho až dvacet lespondentu a ruzne pravděpodobnosti pozorování. Tab. 3 Hodnoty pravdôpodobnofjtl oleBpoň Jednoho pozorování pro různé počty respondentů a různé pravdepodobnosti pozorování T,JH9 CD a B • 9 0,01 0,01 0,02 0,03 0,04 0,05 0,05 0,05 0,1 0,14 0,19 0,23 0,1 0,1 0,19 0,27 0,34 0,41 • °é§ 0,15 0,28 0,39 0,48 0,56 0,25 0,25 0,44 0,58 0,68 0,76 0,5 0,88 0,94 0,97 0,9 0,9 0,99 1 1 1 P 11 =:6 ' n = 7 0,01 0,06 0,07 0,08 0,09 0,1 °,3 0,34 0,37 0,4 0,1 0,47 0,52 0,57 0,61 0,65 0,15 • 0,62 0,68 : 0,73 0,77 0,8 0,25 0,82 0,87 0,9 0,92 0,94 \ . 0,5 0,98 1 i- 1 1 0,9 1 1 , 1 1 1 »=JkM fl = 12 ' *n -13 * 0,01 0,1 0,11 0,12 0,13 0,14 ^ o>og ., °>4ft ■! 0,46' . 0,49 0,51 0,54 0,1 0,69 0,72 0,75 0,77 0,79 • 045 . 0,83 0,86 o:88 0,9 0,91 0,25 0,96 0,97 0,98 0,98 0,99 o55 1 1 1 0,9 l 1 ■l ... 1 1 $Mp « = 17 ^Jp: 18 0,01 0,15 0,16 0,17 0,17 0,18 0,05 0,56 0,58 0,6 0,62 0,64 0,1 0,81 0,83 0,85 0,86 0,88 - . 0,15 ' 0,93 o,94 .0,95 o,9Š 0,96 0,25 0,99 0,99 o,99 1 1 0,5 ' . • :, -- 1... 1 . • $• 1 0,9 1 1 1 1 1 114 Dosazení hodnoty pravděpodobnosti pozorování může probíhat i na sofistikovanější bázi, například na základe předchozích realizovaných studií používajících stejnou metodu a obdobný objekt hodnocení. Sauro a Lewis (2016) na množství studií ukazují, že velikost p se běžně ve výzkumu pohybuje od 0,03 do 0,46. Další možností je realizace pilotní studie, což představuje příklad hypotetické studie od Saura a Lewise (2016), kde bylo pozorováno 10 problémů s testovaným produktem a které se zúčastnilo 10 respondentů. Písmeno X V následující tabulce 4 označuje situaci, kdy konkrétní respondent pozoroval konkrétní problém. Tab. 4 Výsledky hypotetické studie dle Saura a Lewise (2016) piol >t st'< ■ mm iníi *mf ■■■■ Z3& " 3 -.4 6 . 7 . 8 10 Pox X X X X x X - 6 0,6 P02 x X S; X X —- ■5 0,5 P03 x x x X x 5 0,5 P04 x x x x :íĚL 0,4 P05 x x X x x ■ X 6 0,6 P06 x x Xj ; X 0,4 P07 x x x X 4 0,4 P08 x x Xj X x 5 , °-5 Poo x x x x X 5 0,5 PlO x x x x W X x 0,0 iíľ^O1 s ee " 6, *ŕ ;§ " a* .'- r j. y HIL -ľ* ■ /i • lq-8 ■.m 0,5 0,5 o,5- oj pfplii Souhrnná pravděpodobnost pozorování problému (p) v této studii byla 0,5. V případě, že by byla před vlastním experimentem realizována pilotní studie na čtyřech respondentech, jejím výstupem by byla tabulka 5. Tab. 5 Výsledky pivních čtyř respondentů hypotetické studie cue Saura a Lowise (2016) Z této tabulky je možné vyčíst, že čtyři respondenti odhalili pouze sedm problémů testovaného produktu. Hodnota pest pro tyto čtyři participanty je tedy 0,71. Pro odhad výsledné hodnoty p je nutné nejprve vypočítat tzv. deflated adjustment. ^ = [(^-3(1-3] Pde/ = [(0,71-i)(l-i)] Pdef = 0,345 Dalším krokem je výpočet tzv. Good-Turing adjustment na záldadě počtu objevených problémů a počtu problémů, které byly objeveny pouze jedním respondentem. Pest pgt 0,71 pgt —' VI) pgt = 0/621 Posledním krokem je průměrování hodnot pdef a p Pad] ar 0,345 + 0,621 Pad] , = 0,48 Výsledekvýpočtuupravenéhodnotyp jevelmipodobnýhodnotěp1 pokud by byla vypočítána na podkladě dat všech deseti respondentu z tabulky 4. 116 117 f^i í,-ti ui ŕw/f,i.; i m/LU/ v nutfitfu \m nnnnsľ(fHl Výpočtem lze rovněž odhadnout, kolik problému dosud nebylo respondenty objeveno. Pdiseoverysofar 83 1 — (1 — Padj)n ^discovery so far - * — (1 ~ 0,48)'' ^discovery so far ~ 0,927 Tímto odhadem se zjistilo, že již bylo objeveno 92,7 % problémů testovaného produktu, přičemž u prvních čtyř účastníků bylo zjištěno osm problémů. "problems available for discovery ' 0,927 = 7,6 Odhadovaný počet dostupných problémů je po zaokrouhlení osm. První čtyři respondenti odhalili sedm z nich, měl by tedy zbývat jeden problém, který dosud objeven nebyl. Z tabulky 4 je patrné, že vhypotetické studii bylo ve skutečnosti zjištěno deset problémů. Výsledek se tedy o dva problémy liší. Je nutné pamatovat na to, že tyto výpočty jsou pravděpodobnostní, nikoliv deterministické, a že je nutné počítat s určitou chybou či nepřesností. Dalším nutným krokem je zvolení vhodné hodnoty P(x > 1), tedy pravděpodobnost alespoň jednoho pozorování problému neboli Problém Discovery Goal. Sauro a Lewis uvádějí, že z historických důvodů je zvykem volit tuto pravděpodobnost v rozmezí mezi 80-85 %• Velmi známou poučkou je tzv. „Magie Number 5", tedy tvrzení, že k odhalení 85 % problémů stačí pět respondentů. Autorem tohoto tvrzení je Nielsen,54 který vycházel ze studie Nielsena a Landauera (1993), kde se průměrná hodnota p pohybovala okolo 0,31. Při dosazení této hodnoty do rovnice P(x > 1) = 1 - (1 - pf je skutečně výsledkem číslo 0,8436. Nielsen však nikdy neřekl, že by formativní studie měly být prováděny pouze na pěti respondentech. Jeho tvrzení spíše směřovalo k tomu, že je vhodné provádět iterativní testování. Mezi jednotlivými iteracemi je vhodné provést změny testovaného produktu, ideálně odstranění již objevených problémů (Sauro a Lewis, 2016). U studií, které počítají s iterativním testováním, lze tedy výsledný počet nezbytných respondentů podělit počtem iterací. Sauro a Lewis (2016) opět uvádějí příklad hypotetické studie, ve které je cílem výzkumníků objevit 90 % problémů s pravděpodobností pozorování p=0,15. Na základě dat v tabulce 2 je patrné, že by k tomu mělo stačit 15 respondentů. Výpočet lze provést rovněž prostřednictvím online kalkulátoru.55 Výsledek tohoto výpočtu vypadá tak, jak je znázorněno na obrázku 73. 54 https://wvw.nngr0up.com/articies/why-you-0niy-need-to-test-with-5-users/ 55 https://measuringu.com/problem_discovery/ ll8 Input Results Discover \qo%»[of all Problems, You would need to test on average 14-17 users to discover 90% of Ul problems given the occurrence of a problem is 15%. Problem Occurrence .15 (values between 0 and 1) Calculate Obr. 73 Výstup z online kalkulačky pro výpočet nutného počtu respondentů ve formativním výzkumu V plánu této hypotetické studie se rovněž počítá s třemi iteracemi. Výzkumníci se tedy rozhodli použít nejprve tři respondenty, v druhé iteraci čtyři a v poslední zbývajících osm. Při použití tři respondentů lze objevit 39 % problémů (tab. 3), což je velmi daleko od požadovaných 90 %. Nicméně již tato první iterace s pouhými třemi respondenty může odhalit 58 % problémů s p = 0,25, a 88 % problémů s p = 0,5 a 100 % problémů s p = 0,9. Náprava těchto problémů může pomoci při další iteraci. Na konci druhé iterace, které se zúčastní čtyři respondenti, již bude celkový počet respondentů 7 (3 + 4), a lze tedy předpokládat, že bude objeveno 69 % problémů s p - 0,15. Po této iteraci může opět dojít k opravě chyb testovaného produktu. Po poslední iteraci bude tedy odhaleno všech 90 % problémů s p = 0,15. Příkladem použití tohoto výpočtu může být studie zaměřená na hodnocení mapové aplikace, která proběhla na KGI UP v prosinci 2017. Během této studie bylo otestováno 15 respondentů. Následně bylo ověřeno, zda je tento počet dostatečný pomocí výše uvedených výpočtů. V tabulce 6 je znázorněno, které ze sedmi zaznamenaných problémů byly pozorovány u některého z 15 respondentů. Celkem bylo zaznamenáno 28 problémů z celkového počtu 105 (7 problémů x 15 respondentů), což je 27 %. Hodnota pravděpodobnosti pozorování problému je tedy p = 0,27. Při zvolení pravděpodobnosti alespoň jednoho pozorování problému (Problém Discovery Goal) P(xžl) = 0,95 odpovídá nezbytný počet respondentů číslu 14. K tomuto číslu lze dojít dosazením do výše uvedených vzorců, případně použitím online kalkulátoru.56 Při prostém dosazení hodnot p a P(xž 1) je výsledkem kalkulátoru počet 10 respondentů. Při zadání celé matice (tab. 6) je upravená hodnota podJ = 0,2 a hodnota nezbytného počtu respondentů je 14. Tato změna je způsobena tím, že dva problémy byly zaznamenány pouze u jednoho respondenta. Výstup kalkulátoru při zadání celé matice vypadá tak, jak je znázorněno na obrázku 74. 56 https://measuringu.com/problem_discovery/ 119 >»■-» uminft viyiKW MIKIHIIYIII lUlllll^ltflll Tab. 6 Výsledky respondentů vo studii zamířeno na hodnoceni mapového portálu ťOSpÍMH^S WM Kil El Hi Poi X X 2 0,29 P02 X X 2 0,29 P03 X X X 3 0,43 P04 X 1 0,14 P05 X X 2 0,29 POO x 1 P07 X i 0,14 P08 X : X 3 0 \í P09 X X X 3 0,43 PlO X x X 3 ..í i Pil X X X 3 0,43 Pl2 X X 2 0,29 Pl3 0 0,00 Pl4 X 1 0,14 Pl5 X 1 0,14 Součet * "MĚ 3., lilii fetiš fiPHfií proporce 0,20 0,20 0.20 ■ 3. ' 0r27 Input Discoverl 95% * |of all Problems, Total participants 3roblems Discovered: 7 i Build Maifix Results Given 28 total problems and 2 unique problem(s), the adjusted problem accurrence is 0,2. Which is the avg of Normalization: 0.18 and GT: 0.2 For the goal of discovering 95% of all problems available for discovery, the -ecommended sample size is 14 participants. !f a user encountered the problem enter i otherwise enter 0 or leave the field blank. Calculate Prob.Prob.Prob.Prob.Prob.Prob.Prob. CountP Usei Userj 2' '■ 3 4 5 6 7 D □ □ □ □ □ Ľ □ □□□□□□ * o,aa 2 0.286 Obr. 74 Výstup online kalkulátoru při zadání celé matice pozorovaných problémů Výsledkem tohoto výpočtu je tedy to, že pro odhalení alespoň 95 % problémů s danou pravděpodobností pozorování je nezbytné otestovat alespoň 14 respondentů. Jak již bylo uvedeno, studie se zúčastnilo celkem 15 respondentů. Tento počet je tedy dostatečný a výsledky studie mohou být považovány za reprezentativní. 5.3.2 Počet respondentů v sumativním výzkumu Obecně lze říci, že v sumativním výzkumu je potřebný větší vzorek respondentů, což se projeví na ceně a zejména v případě eye-traeking testování i na čase nezbytném pro testování. Tradiční odhad velikosti vzorku využívá odhad rozptylu měřené veličiny a posouzení, jak přesné musí měření být. Tato přesnost zahrnuje velikost kritického rozdílu a požadovanou úroveň statistické spolehlivosti (Walpole, 1976). Pokud jsou tyto informace dostupné, jedná se již jen o matematickou mechaniku. Sumativní výzkum je možné rozdělit do několika oblastí. V první z nich je cílem výzkumu odhadnout určitou hodnotu (estimate value), například jak dlouho bude respondentům trvat řešení úkolu nad mapou. Druhou oblastí je porovnání naměřených hodnot s určitou, předem danou hodnotou (compare with a benchmark). Tedy zjištění, zda délka řešení odpovídá například 15 sekundám. Poslední a nejvýznamnější oblastí je porovnávání alternativ (compare with alternative). V tomto případě budou porovnávány různé varianty, například různé typy map, a to pomocí within-subject nebo between-subject experimentů. Rovněž je rozdíl, zda jsou výstupem experimentu binární nebo nebinární data. Jelikož eye-traeking metriky nejsou binární, bude tato kapitola zaměřena pouze na výpočet potřebného počtu respondentů z nebinárních dat. Sauro a Lewis (2016) odvodili základní vztah pro výpočet potřebného počtu participantů při odhadu hodnoty (estimate value): n = kde t je kritická hodnota úrovně statistické spolehlivosti, s2 je rozptyl dat a d je kritický rozdíl. Odhad rozptylu s2 lze určit například na základě předchozích studií či pomocí pilotního experimentu. Jako d je označen kritický rozdíl, jenž je cílem detekce, tedy nejmenší rozdíl mezi hodnotou naměřenou v experimentu a očekávanou hodnotou měřené veličiny. Neexistuje žádný matematický postup k určení příslušné hodnoty d. Určení této hodnoty je tedy záležitost úsudku, a to buď na základě zkušenosti výzkumníka, nebo pomocí přístupu „co kdyby". Tento přístup spočívá v tom, že si výzkumník řekne, co by se stalo, kdyby byl rozdíl naměřené 120 121 a očekávané hodnoty i %. Takovýto rozdíl obvykle neovlivní výsledky studie. Pokud je tedy tento rozdíl nevýznamný, co by se stalo, kdyby byl rozdíl 5 %? Stejně lze postupovat až do doby, kdy si výzkumník řekne, že by zvolený kritický rozdíl negativně ovlivnil výsledky studie. Odhady kritického rozdílu mohou rovněž pocházet z předchozích studií používajících stejnou metodu a podobný typ stimulů. Pokud žádné takové studie nejsou k dispozici, lze provést pilotní studii na několika málo respondentech. Pokud ani pilotní studie není možná, lze dle Diamonda (2001) definovat kritický rozdíl odvozením od směrodatné odchylky dle vztahu: d e = — s kde e je effect size (Cohen, 1977). Effect size (velikost efektu e) se typicky používá jako standardní měřítko velikosti výsledku, vypočtené vydělením kritického rozdílu (ď) směrodatnou odchylkou (s). Motivací pro zavedení velikosti efektu bylo definovat určitý ukazatel, který je na rozdíl od hladiny Statistické významnosti nezávislý na velikosti vzorku (Minium, 1970). Jako ŕ je označena kritická hodnota požadované hladiny statistické významnosti. Určení této hodnoty je opět otázkou úsudku výzkumníka. Hladina statistické významnosti se obvykle stanovuje v rozmezí 80 % a 99 %, nejčastěji je však udávaná hodnota 90 % nebo 95 %. Kritická hodnota je závislá na počtu stupňů volnosti a právě hladině statistické významnosti. K určení kritické hodnoty (t) lze využít například online kalkulátor.57 Použití t v tomto procesu však představuje komplikaci. Jak už bylo zmíněno, kritická hodnota t rozdělení (t), na rozdíl od kvantilu normálního rozdělení (z-score), závisí na počtu stupňů volnosti (df), který závisí na velikosti vzorku, což je veličina, která má být vypočítána. Pro jednovýběrový Mest je počet stupňů volnosti dán vztahem: df = n-í Diamond (2001) nabízí řešení s využitím iterací. Iterace je možné představit na příldadu inspirovaném publikací Saura a Lewise (2016). Cílem hypotetické studie je zjistit, jak dlouho bude trvat řešení úlohy nad mapou. Výzkumník očekává, že řešení úlohy bude respondentům trvat 15 s, a rozhodne se Stanovit kritický rozdíl na 10 % neboli 1,5 s. Po provedení pilotní studie na pěti respondentech bylo zjištěno, že řešení trvalo 12,14,12, 20 a 16 sekund. Rozptyl s2 těchto pěti hodnot je 11,2. Výzkumník se rovněž rozhodne pro a = 0,05 hladinu statistické významnosti. Výzkumník chce tedy shromáždit dostatek údajů, aby si mohl být na 95 % jist, že výsledný odhad délky řešeni úkolu se bude lišit maximálně o 1,5 s od očekávané doby řešení (15 s). Nyní má výzkumník informace o rozptylu (s2 = 11,2), a kritickém rozdílu d = 1,5 a potřebuje zjistit kritickou hodnota úrovně statistické spolehlivosti (t). 57 http://stattrek.com/online-calculator/t-distribution.aspx Prvním krokem je využití kvantilu 1 - y normálního rozdělení (z-seore) namísto í. Pro hladinu významnosti 5 % je to z = 1,96. Tento výpočet lze provést například pomocí online kalkulátoru.58 V tomto případě je v kalkulátoru nutné vybrat možnost „Two-sided". Následuje výpočet vztahu: "~ d2 Výsledek této rovnice je 19,6, což se zaokrouhlí na 20 respondentů. V následujícím kroku bude odhad upraven tak, že z-score bude nahrazeno t-scorem pro n = 20. Pro tento odhad bude použito n - 1 (tedy 19 stupňů volnosti df). Hodnota t v další iteraci bude 2,093, což lze vypočítat například pomocí online kalkulátoru.59 Opět dojde k výpočtu n dle vztahu: t2s2 Jako ŕ bude n3>ní dosazena hodnota 2,093. Výsledek výpočtu je 21,8, COŽ po zaokrouhlení znamená n=22. Do výpočtu t bude nyní dosazeno 21 stupňů volnosti {df= 22 - i), a hodnota ř tedy bude 2,08. Opětovným výpočtem bude dosaženo výsledku n = 21,5, což po zaokrouhlení vede ke stejnému počtu respondentů jako vpředchozí iteraci (n = 22). Jelikož dvě po sobě jdoucí iterace vedly ke stejnému výsledku, je hodnota 22 respondentů finálním výsledkem. V případě, že data vykazují pozitivní šikmost, což je obvyklé například u času dokončení, který prakticky nemůže být v řádu zlomku sekundy, ale může být libovolně dlouhý, je vhodné použít pro výpočet velikosti vzorku geometrický průměr a přirozený logaritmus naměřených hodnot. Hodnota rozptylu bude vypočítána z přirozených logaritmů naměřených hodnot. Hodnota d musí být v tomto případě vyjádřena vztahem: dln = ln(x + d) - ln(x) Čím mají data větší šikmost, tím větší bude rozdíl v potřebném počtu respondentů. Využitím přirozeného logaritmu je obvykle dosaženo nižšího počtu potřebných respondentů (Sauro a Lewis, 2016). V případě, že nechce výzkumník pouze odhadovat určitou hodnotu, ale porovnávat naměřená data s předem danou hodnotou (benchmar-kem), je potřeba do vztahu zahrnout i chybu 2. druhu (viz kapitola 7.8). Výsledný vztah tedy bude vypadat následovně: (tg + tpfs* n =-ďí- Stejně jako v předchozím případě budou kritické hodnoty t nejprve nahrazeny kritickou hodnotou normálního rozdělení (z-score). Při těchto 58 https://measuringu.com/zcalcp/ 59 http://stattrek.com/online-calculator/t-distribution.aspx jtiufr inými ť niiffllim'ltl KlllWHI'tflll výpočtech výzkumník nejprve použije hodnotu hladiny statistické významnosti (i - a) (např. 0,95) pro oboustranný test (Two-aided) a následně určí hodnotu pro jednostranný test (One-sided) pro sílu testu neboli power (/?). Ktěmto výpočtům je opět možné využít online kalkulátor.60 Síla testu (power) je důležitá zejména tehdy, když nedojde k zamítnutí nulové hypotézy. Pokud je síla testu malá, je oprávněné zamítnutí nulové hypotézy málo pravděpodobné, a je tedy velice malá šance na přijetí platné alternativní hypotézy. Doporučovaná minimální hodnota pro sílu testu je 0,7 (chyba druhého druhu má tak pravděpodobnost maximálně 30 %).M Třetí oblastí sumativního výzkumu je porovnání alternativ. Tato problematika je v oblasti eye-trackingu nejrozšířenější, protože ve valné většině případů dochází k porovnávání několika variant stimulů, například map. Jak bylo popsáno v kapitole 5.2, existují dva základní způsoby designu experimentu - within-subject a between-subject. Z podstaty rozdílného designu experimentu plyne i různý počet respondentů, kteří by se měli testování účastnit. V případě within-subject experimentu vidí všichni respondenti všechny Stimuly. V tomto případě je vztah pro výpočet počtu potřebných respondentů Stejný jako v případě porovnávání s benchmarkem. Jedná se tedy o vztah: _{ta + tpfs2 n~ d2 Between-subject experimentu se účastní (alespoň) dvě skupiny respondentů. Pro takový typ experimentu je tedy logicky nutné zajistit vyšší počet respondentů. Vztah pro výpočet tohoto počtu je opět velmi podobný předchozímu, pouze je doplněn o multiplikátor odpovídající počtu testovaných skupin. V nejčastějším případě se jedná o dvě skupiny (multiplikátor = 2), v případě, že by šlo o multivarianční experiment a testování by se zúčastnily například čtyři skupiny respondentů, měl by multiplikátor hodnotu 4. Rovněž je žádoucí, aby byly skupiny respondentů stejně velké. Výsledný vztah pro dvě skupiny respondentů je tedy: 2(ta + tp)2sz n =-¥- Obrázek 75 shrnuje všechny důležité vztahy popsané v této kapitole. Je důležité pamatovat na to, že se jedná pouze o vztahy pro výpočet počtu respondentů u experimentů, jejichž výstupem jsou nebinární data. 60 https://measuringu.com/zcalcp/ 61 ht[p://www.statsoft.cz/filei/PDF/newsletter/20i4_o4_29_StatSoft_Sila_testu.pdf I24 cilom experimentu Jo: Odhod hotlnoiy Porovnáni b bonchmarkom a ..a Porovnáni alternativ Within-subject ťs (*« + fy) s2 fa + tp) s2 d2 Wilcoxon signed-rank test (matched pairs) Between-subject d2 Wilcoxon-Mann-Whitney test (two groups) Obr. 75 Přehled vztahů pro výpočet potřebného počtu respondentů Dalším problémem je to, že všechny tyto vztahy jsou určeny pro data s normálním rozdělením. Hodnoty eye-tracking metrik naměřených během experimentu ale ve většině případů normální rozdělení nemají. Pro výpočet počtu potřebných respondentů u neparametrických testů je však možné použít například nástroj G*Power62 (Faul a kol., 2007). Modře zvýrazněné oblasti obrázku 75 popisují odpovídající volbu v programu G*Power. G*Power 3 je nástroj pro výpočet síly mnoha statistických testů. Mezi ně patří F-test, t-test, x-test, z-test a další. Pro eye-tracking výzkum jsou důležité zejména dva testy z rodiny t-testů, a to Wilcoxon signed-rank test (matched pairs) pro within-subject experimenty a Wilcoxon-Mann-Whitney test (two groups) pro between-subject experimenty. Nástroj rovněž umožňuje několik typů analýz. Klíčové jsou opět dvě z nich, a to A priori a Post hoc. U A priori analýzy je výsledkem potřebný počet respondentů, který je vypočítán z velikosti efektu, hladiny statistické významnosti a síly testu. A priori analýzu je tedy vhodné provádět před vlastním experimentem. Hladinu statistické významnosti (např. a = 0,05) i sílu testu (např. /? = 0,7) si výzkumník stanoví na základě svých zkušeností a požadavků. Klíčovou veličinou je tedy síla efektu. Cohen (1988) navrhl použití hodnot 0,2, 0,5 a 0,8 pro malé, střední a velké efekty. S rostoucí hodnotou síly efektu klesá počet požadovaných respondentů. Příkladem může být výpočet požadovaného počtu respondentů pro Wilcoxonův test při within-subject experimentu s nastavením pravděpodobnosti chyb 1. a 2. druhu dle obrázku 76. 62 http://www.gpower.hhu.de/ 125 i t>-n UiiHH^JJJSľ-Jl''"'s"'111 "I "I" "W tf/ff i iMii - Maaiis: wilcoxon iigni(l»r«nk left (mticlud pairs) T«ll(t) « Oiu, P*r«m tflitrlbintm » Normal. k orr prob « 0.03. Power (l=|) «rr prob) « 0,C3 Obr. 76 Výstup programu G*Power pro Wilcoxonův test při within-subject experimentu Při malé velikostí efektu (0,2) bude třeba otestovat 285 respondentů, při Střední velikosti efektu (0,5) se jedná o 47 respondentů a při velké velikosti efektu (0,8) je třeba otestovat pouhých 20 respondentů. fln CPower 3.1.9.2 Fila Edit View Tests Calculator Help Ccniralnnd noncentral distributions proiocolof poiveranaltses Test family Statistical «st ■ -, |lt«ls v [Means: Wikoxo:) shniii-rjřik isst imatcüed pairs) Type ofpawtr ariř.I/sií ■ .. ....... '„J „',. i A priori: Conputsrequifedíampiesbe- given «, siver. antieffecísizí Input Parameters : Output Paiiriicttrs Tai!(s) TWO: ■V .Jioncentrality.paratrítttfí 2.511576-1 Parent distribution Normal Critical 1 1.9851309- [Determine -> j Effect size dz 0.2557408 Of awrprob 0.05 Total sample she 101 Power (l-p errprob) 0.7 Actual.power 0.7006552 Options i ^ X-Y p!« tat a range of values ~ G ^h^ffiHeMaces Mean of difference ! SD of difference \ ® From group parameters ■ Mean group 1 Mean group 2 i SD group) j 50 group 2 Correlation between groups Effect i-lletfi 0.2557408 ■Calculate and transfer to main wlnflov/ Obr. 77 Výsledek A priori analýzy v programu G*Power. Hladina statistické významnosti byla stanovena na a = 0,05, síla testu na /? = 0,7 a velikost efektu byla odvozena od již proběhlé eye-traeking studie. Dle výsledku se mělo experimentu zúčastnit alespoň 101 respondentů. I I IjlllIVÍl í.\/'t7 IHlUin II LI wUmlIUflI LIU( Kromě prosté volby na zaklátili Gohenova doporučeni je možné velikost efektu odvodit například ss výsledků podobno studie či pilotního experimentu. K tomu je nutné znát pro obě testované alternativy (například stínovaná a nestínovaná mapa) průměr a směrodatnou odchylku naměřených hodnot a také korelaci mezi oběma alternativami. Po zadání těchto informací do okna G*'Power se vypočítá velikost efektu a následně i potřebný počet respondentů. V případě vysokých hodnot směrodatných odchylek je hodnota velikosti efektu nízká a následně je třeba vysoký počet respondentů. Příkladem může být ukázka na obrázku 77, kdy byla velikost efektu vypočítána na základě již proběhlého eye-traeking experimentu, jehož se zúčastnilo 26 respondentů. Jak je z obrázku patrné, hodnoty směrodatných odchylek pro obě skupiny jsou vysoké, takže výsledná velikost efektu je pouze 0,26. Výsledkem A priori analýzy je tedy počet 101 potřebných respondentů, což představuje téměř čtyřnásobek skutečného počtu. Druhým typem vhodné analýzy je Post hoc, tedy zpětný výpočet síly testu na základě použitého počtu respondentů, hladiny statistické významnosti a velikosti efektu. Po zadání všech hodnot (velikost efektu 0,257; hladina statistické významnosti «=0,05 a počet respondentů 26) dojde program k výsledku, že síla tohoto konkrétního testu byla 0,231. G*Power umožňuje vykreslit graf, ve kterém je znázorněna síla testu v závislosti na počtu respondentů (obr. 78). I tests - Means: Wilcoxon signed-rank test (matched pairs) Tail(s) = Tvro, Parent distribution = Normal, Effect size dz = 0.255741, a err prob = 0.05 -1-'-1— SO 60 Total sample size Obr. 78 Graf znázorňující sílu testu v závislosti na počtu respondentů V případě between-subject experimentu by byl potřebný počet respondentů ještě vyšší, protože je třeba otestovat dvě skupiny respondentů. Ve většině experimentuje rovněž testováno více eye-traeking metrik. V tomto případě je vhodné vypočítat sílu testu pro všechny z nich a nejvyšší počet respondentů považovat za doporučený. 126 127 • „", \ Si i|e (|e * * O Ěl A Group! (I0.W I j H Ouik.1 (IDO) j i ď KHakl (IDiD ■ Saj M«al (IDä) ô-.-5s6fom>2 (IO:10) 1 |-H Olaika2 (10:3) Udj Kniek2 (ID:4) i-,oj Mspa2 (ID:5) B-jš Group3 (10:11) j-g Oi»ika3 (10:6) ■ ■? Kizek3 (!D:7) ;? Mapa3 (10:8) wmi BI vt\ í IE:! Groupl Group2 jía Group3 Obr. 83 Vzorový experiment vytvořený v aplikaci OGAMA U vlastních obrázků map je nastaveno, že prezentace stimulu bude ukončena kliknutím levého tlačítka myši. Zde je velká výhoda OGAMA oproti např. SMI Experiment Center, neboť lze pro posun na další slide nastavit prakticky libovolnou akci - kliknutí myší, stisk klávesy, zobrazení po určitý časový interval. Tyto akce je navíc možné kombinovat, takže lze například nastavit, že prezentace stimulu bude ukončena po stisknutí pravé či levé šipky na klávesnici. Tyto akce jsou logovány, takže kromě vlastního posunu na další slide bude zaznamenána informace, kterou klávesu uživatel stiskl, čehož lze využít například pro vyjádření preference mezi dvěma obrázky. Informace o tom, kam uživatel v rámci stimulu klikl, je možné zjistit pomocí předem definované „oblasti zájmu", označené zde jako „Target". Kliknutí do určité části stimulu či stisk určité klávesy lze rovněž využit pro přesměrování na další slide. Uživatel by si například na prvním stimulu zvolil, který typ map se mu více líbí, klikl by na něj a následovaly by už pouze stimuly v tomto stylu. U jednotlivých stimulů lze rovněž detailně nastavit pozadí. Kromě barvy to může být také obrázek či zvuk. Pro nastavení náhodného pořadí stimulů bylo nutné nejprve vytvořit složky pro každou otázku (na obr. 83) označené jako Group 1-3. Pomocí navigačních tlačítek (vedle ikony pro novou složku) do nich byly následně umístěny stimuly. V dalším kroku byly vždy stimuly obsažené v jedné složce označeny (pomocí shift) a po stisku pravého tlačítka myši byla zvolena možnost „combine selected slides into one trial". V posledním kroku stačí na složce Slideshow stisknout pravé tlačítko a zvolit „Shuffle subitems of selected item". Zajímavá je možnost specifikovat, kolik stimulů bude 134 135 / 'fifiruvu iwftuniiiunuí u mU-uuui uuj zobrazeno. Vzorový test obsahuje tři otázky, bylo by vSak možné nastavit že budou zobrazeny například pouze dvě, To by mohlo být užitečné například pro zkrácení celkové doby experimentu. 5.6 Záznam dat Po dokončení tvorby experimentu může začít vlastní eye-tracking testování. Přesto je vhodné, aby každému „ostrému" testování předcházelo pilotní testování na několika málo respondentech. Během něj lze odhadnout čas testování, zjistit nedostatky použitého experiment-designu a také zkontrolovat, zda se všechna data zaznamenávají. Rovněž je vhodné otestovat metody analýzy a vizualizace, které budou pro finální hodnocení naměřených dat použity. Obvyklá délka testování na katedře geoinformatiky nepřesahuje 15-20 minut. Ze zkušenosti bylo zjištěno, že při delších experimentech respondent neudrží pozornost. Přesto jsou pracoviště, kde eye-tracking testování trvá i více než dvě hodiny (např. Department of Teacher Education, University of Turku, Finsko). Pokud je taková délka experimentu nezbytná, je vhodné po určitém čase (např. 20 minut) zopakovat kalibraci. Kalibrace je nezbytnou součástí každého experimentu. Ještě před spuštěním kalibrace je ale vhodné umístit respondenta před monitor tak, aby byl zaznamenávaný signál co nejlepší. Většina aplikací je k tomuto uzpůsobená, takže například SMI iViewX ukazuje kvalitu signálu pomocí barevného pruhu. Pokud je tento pruh zelený, sedí respondent správně a eye-tracker detekuje jeho oči. SMI iView X rovněž pomocí grafiky ukazuje, kterým směremby se měl respondent posunout (přiblížit, oddálit), aby byl signál ještě lepší. s # ů, • * ■ 0 VI :«wnSK«r. m^tt^K ''Cl I j 1 ! j j, I i i ■ j j 1 \ Obr. 84 Prostředí SMI iViewX zobrazující kvalitu signálu eye-trackeru Na obrázku 84 je zobrazeno prostředí aplikace SMI iViewX. Dle barevného indikátoru (pruhu) je signál dostatečný (zelená barva), nicméně grafika na pravé straně ukazuje, že by se respondent měl posunout blíže k monitoru a doprava. Hlava reepondontuje totiž umfetfina u okraje tzv. bounding boxu, a pokud by se v průbfihu experimentu posunul ještě více doleva, mohlo by dojít ke ztrátě signálu. Každý software obsahuje různé volby a možnosti kalibrace, přesto je tento proces ve všech případech velmi podobný. Úkolem respondenta je sledovat pohybující se tečku na monitoru. Počet míst, na kterých se tečka zastaví, neboli počet kalibračních bodů lze většinou v nastavení experimentu specifikovat. Ve většině aplikací je výstupem odchylka bodů, na které se respondent díval, od bodů, na které se měl dívat. Například v případě aplikace SMI Experiment Center lze zobrazit výsledek validace (validation), který ukazuje odchylku ve stupních. Je na výzkumníkovi, jak vysokou odchylku bude akceptovat, ale běžně se tolerují odchylky do 0,5° či 1° (Holmqvist a kol., 2011). K problémům při kalibraci i záznamu dat může docházet kvůli různým vadám očí, jako je například astigmatismus, ale také kvůli brýlím s antireflexní vrstvou či díky řasence. Eye-tracker totiž detekuje zornici jako tmavý kruh a v některých případech se stává, že místo zornice detekuje řasenku. Dalším problémem mohou být povislá víčka u starších respondentů či obecně úzké oči. Na obrázku 85 je ukázka chybějícího korneálního odrazu u levého oka respondenta, tedy v pravé části obrázku. Obecně se udává, že 5-10 % respondentů není možné z různých důvodů korektně zkalibrovat. S tímto faktem je třeba počítat před vlastní realizací eye-tracking experimentu a otestovat vyšší počet respondentů. Obr. 85 Ukázka chybějící detekce korneálního odrazu u levého oka (v pravé části obrázku) Po dokončení pilotního experimentu, ověření designu a srozumitelnosti pokládaných otázek může výzkumník přistoupit k vlastnímu průběhu experimentu a záznamu eye-tracking dat. Je vhodné, aby testování prováděl stále stejný výzkumník a aby všichni respondenti obdrželi stejné instrukce. Po dokončení testování je nezbytné nastavit parametry pro detekci fixací, ověřit kvalitu naměřených dat a případně data konvertovat do různých analytických nástrojů. Všechny uvedené procedury jsou popsány v následující kapitole. 136 137 7 zpracování dat V této kapitole je popsáno několik metod užívaných pro zpracování eye--tracking dat. Vybrány byly metody vhodné pro použití v kartografických experimentech.' Obecně existuje pro analýzu eye-tracking dat mnohem více metod, ty však uplatnění v kartografických experimentech nenajdou. Může se jednat například o analýzu regresí v experimentech zaměřených na čtení či analýzu průběhu sakád v klinických experimentech. Vybrané metody slouží k vizualizaci či analýze eye-tracking dat. Hranice mezi těmito dvěma pojmy není ostrá, a proto se tyto pojmy mohou se prolínat. Jak uvádějí Andrienko a kol. (2012), při analýze pohybu očí jsou velmi často využívány metody tzv. vizuální analýzy (visual analytics) odvozené ze statistiky, strojového učení a dalších analytických disciplín. Tyto metody jsou speciálně navrženy pro použití lidskými analytiky. Hlavním cílem metod vizuální analýzy je pochopení pohybů očí a s tím související vhled do základních kognitivních procesů. Některé z níže popsaných metod mohou být zařazeny do kategorie prostého zobrazení naměřených dat, tedy vizualizace. Na záldadě vizuální analýzy tohoto výstupu však výzkumník může analyzovat chování respondenta, a dozvědět se tak něco o kognitivních procesech, které při Čtení stimulu u respondenta probíhaly. 7.1 Vizualizace trajektorií Mezi nejjednodušší metody vizuální analýzy patří prosté vykreslení trajektorie oka nad studovaným stimulem. K tomu se nejčastěji používají dvě metody. První z nich je GazeReplay, kdyje trajektorie oka zobrazena formou animace a je zobrazena pouze několikavteřinová část trajektorie. Druhou metodou je scanpath, někdy též označovaný jako GazePlot. V tomto případě je výstupem statický obrázek zobrazující trajektorii oka za celou dobu trvání trialu (pozorování jednoho stimulu uživatelem). 161 GazeReplay je metoda vizualizaco oye-tmeklng dat, kdy jsou informace o fixacích a sakádách zobrazovány dynamicky nad sledovaným obrazem měnícím se v čase. GazeReplay lze využít při kvalitativním vyhodnocení uživatelské percepce studovaného stimulu, GazeReplay je nejpřesnější metodou pro analýzu eye-tracking dat, protože nedochází k žádné interpolaci ani generalizaci (Nielsen a Pernice, 2010). GazeReplay ukazuje přesně pozici, kam se uživatel díval. Analýza těchto výsledků je ale velice složitá. Pomocí GazeReplayje možné přehrát videozáznam práce uživatele s dokumentem, přičemž součástí obrazu je bod, na který se uživatel v průběhu videozáznamu soustředil. Vhodné je tento přístup zkombinovat s metodou think-aloud, což umožní analyzovat pohyby uživatelových očí v souvislosti s konkrétní činností. Velmi cennou metodou pro zobrazování dat z eye-trackingu je tzv. seanpath. Podle Holmqvista (2011) byl tento termín poprvé použit v 70. letech 20. století. Seanpath bývá také označován jako GazePlot, Fixation Track nebo Eye-Movement Pattern. Jedná se o trajektorie sakád spojující pozice fixací, zobrazené přes studovaný obraz, který slouží jako podklad. Seanpath zobrazuje fixace jako kruhy (případně kříže) o různé velikosti (jejich poloměr odpovídá délce fixací) a sakády jako linie, které tyto kruhy spojují (Raiha a kol., 2005). Omezení této metody nastává v případě zobrazování většího množství dat, kdy díky překryvům jednotlivých fixací není možné vizuálně poznat jejich počet. Seanpath lze, podobně jako výše zmíněný GazeReplay, využít zejména při kvalitativním hodnocení eye-tracking experimentu. Vizuálním hodnocením seanpath se zabýval například Buswell (1935), který hodnotil uživatelské vnímání obrazů na základě pořadí a pozice jednotlivých fixací a vyhodnocením míst, na která se uživatel díval (fixoval) a na která ne. Seanpath je možné využít také při ověření kvality naměřených dat, získání představy o rozmístění fixací nebo jako ilustrační obrázek popisující chování uživatele v rámci stimulu. V obou případech je možné zobrazit jak původní naměřená data, tak i z nich odvozené fixace a sakády. Postup tohoto odvození je popsán v předchozí kapitole. Zobrazení fixací a sakád na místo původních naměřených (raw) dat je výhodné ze dvou důvodů. Prvním z nich je větší přehlednost celé vizu-alizace, druhým pak filtrace chyb měření. K těm může docházet v případě, že zařízení ztratí na několik málo milisekund signál. V tomto případě se pak místo skutečné souřadnice pohledu oka zapíše hodnota (o;o). Při zobrazení surových dat se pak části trajektorie oka zobrazují v levém horním rohu stimulu, jak je to patrné z obrázku 106. 162 Obr. 106 Zobrazení naměřených (raw) dat (vlevo) a vizualizace fixací a sakád formou seanpath (vpravo) Při zobrazení seanpath v prostředí SMI BeGaze může uživatel specifikovat barvu (pomocí záložky Dashboard) trajektorií jednotlivých respondentů. Dále je možné nastavit, zda budou fixace zobrazeny jako kruhy či kříže (crosshair), zda budou všechny fixace stejně velké či bude velikost kruhu (kříže) odpovídat délce fixace. Zobrazit lze také čísla označující pořadí fixací. Zajímavou možností je barevné rozdělení seanpath dle Časových intervalů. Bohužel je ale možné zadat pouze dva lomové body. Možnosti vizualizace seanpath v OGAMA jsou velmi podobné. Na rozdíl od SMI BeGaze ale OGAMA v rámci seanpath modulu umožňuje vygenerovat sekvenci navštívených oblastí zájmu. Tato data lze poté použít pro exaktní výpočet podobnosti trajektorií pohybu očí několika respondentů pomocí nástroje ScanGraph, který je detailně popsán v kapitole 7.4. Obr. 107 Koncept Space-Time-Cube 163 Eye-tracking data lze zobrazit v prostoru pomocí tzv. Space-Time-Cube (Hägerstraand, 1970). Scanpath je v tomto případě zobrazen uvnitř krychle, přičemž základna krychle (osa X a Y) slouží k zobrazení stimulu a ve směru osy Z je zobrazen čas. Hlavní předností této vizualizace je zobrazení prostorové i časové složky najednou. Jak je patrné z obrázku 107, pokud v čase nedochází ke změně polohy pohledu, je linie kolmá k záldadně krychle. Čím pozvolnější je linie mezi dvěma lomovými body, tím rychleji došlo ke změně polohy pohledu. Vizualizací eye-tracking dat pomocí Space-Time-Cube se ve své disertační práci zabývala Kveladze (2015), která využívala nástroj ILWIS. Pomocí Space-Time-Cube lze eye-tracking data zobrazit i v aplikaci V-Analytics. Tento postup je popsán v kapitole 7.5. 7.2 Attention mapy Attention mapy jsou nástrojem k vizualizaci kvantitativních charakteristik pohledu uživatele. Attention mapy bývají často označovány jako heat mapy, což však není nejvhodnější, a to zejména v kontextu kartografie, kde je heat mapa považována za teplotní mapu, tedy mapu teploty. Z attention map je patrné, které oblasti sledovaného obrazu uživatel zkoumá pohledem více a kterým naopak nevěnuje pozornost. Attention mapy jsou v eye-trackingu velice výhodné pro vytvoření rychlého přehledu, na které části dokumentu se uživatelé soustředí a které je vhodné hlouběji analyzovat. Attention mapy se vytvářejí dvěma zdánlivě rozdílnými, ale přesto velice podobnými principy (Holmqvist a kol., 2011). Jedná se o tzv. Gridded AOI a topologicky (gaussovský) povrch. Oba druhy attention map je možné vytvářet z prvotních (raw) i klasifikovaných dat (fixací). První zmíněná metoda rozdělí prostor (stimulus) na pravoúhlou síť oblastí zájmu (AOI). Zapsáním hodnoty určité eye-tracking metriky (Dwell Time, Fixation Count) a obarvením výsledku dle této hodnoty vzniká attention mapa. Kromě výše zmíněných a velice často využívaných metrik může být vizualizována například metrika Entry time - čas, kdy byla v oblasti poprvé zaznamenána fixace. Takto je možné získat přehled o tom, které části stimulu uživatelé navštívili na začátku trialu a které později. Navzdory této univerzálnosti nejsou attention mapy vytvořené tímto principem těmi nejčastěji využívanými. Podrobněji jsou Gridded AOI popsány v kapitole 7.3. V případě Gridded AOI attention map jsou hranice mezi buňkami ostré. Oproti tomu u Gaussových attention map jsou přechody plynulé. Gaussovy attention mapy jsou vytvářeny postupným přidáváním hodnoty délky fixací k jednotlivým pixelům stimulu. Protože je takto ohodnoceno pouze relativně malé množství pixelů, jsou tato data proložena Gaussovou funkcí. 164 Tato funkce je definovánu jako: 6(x,y)" exp (* - vO* (y - vi) 20-2 kde x. ay. jsou souřadnice středu fixace a hodnoty xay odpovídají rozlišení stimulu. Výsledná attention mapa vzniká aplikací Gaussovy funkce pro každý střed fixace a následným nahrazením všech těchto dílčích funkcí jedinou Gaussovou funkcí (upraveno podle Holmqvista a kol., 2011). Barva attention map ve většině komerčních aplikací reprezentuje čas v milisekundách. Při vytváření Attention map je velice důležité dbát na nastavení hodnoty d (sigma), označované též jako kernel width, která odpovídá velikosti shlazení výsledné funkce. Při nastavení nízkých hodnot bude výsledná mapa pokrývat pouze oblast v bezprostředním okolí středů zaznamenaných fixací. ™™ ™,°,o,-íkí -wtší rr>7.šíření attention mapy. Vvsledná vizualizace puae výraznejší, aie ., —--------- sledovaného jevu budou i v oblasti, kde žádné fixace zaznamenaný nebyly. Vliv rozdílného nastavení hodnoty kernel width v programu OGAMA je znázorněn na obrázku 108. Obr. 108 Vliv nastavení hodnoty kernel width u attention mapy v programu OGAMA, Vlevo je nastavena hodnota 50, uprostřed 100 a vpravo 200. Attention mapy bývají často používány pro srovnání rozdílného chování respondentů nad několika stimuly nebo rozdílného chování skupin respondentů. Závažným problémem je v tomto případě různé nastavení rozsahu dat (data ränge), pro který byla mapa generována. Na základě tohoto rozsahu jo vytvářena barevná stupnice. V případě rozdílného nastavení nej SOU výstupy 16(1 vzájemně porovnatelné. Příkladem může být obrázok 109. První dva obrázky ukazují attention mapu vytvořenou pro skupinu žen (nahoře) a mužů (uprostřed), kdy byly ponechány defaultní hodnoty rozsahu dat z programu SMI BeGaze. Porovnání těchto dvou obrázků by vedlo k závěru, že muži si prohlédli mnohem více míst v mapě. Důležité však je, že defaultní hodnota rozsahu dat je pro obě skupiny respondentů velmi odlišná (i-745 nis pro ženy a 1-322 ms pro muže). Při změně rozsahu dat pro skupinu mužů na stejnou hodnotu, jako měly ženy, se výsledná attention mapa zásadně změní a rozdíl mezi oběma skupinami už není zásadní (obr. 109 dole). Obr. 109 Vliv nastaveni rozsahu dat (data range) na výslednou attention mapu První dva obrázky ukazuji attention mapu vytvořenou s použitím defaultních hodnot rozsahu dat z programu SMI BeGaze. Obrázek dole ukazuje attention mapu pro skupinu mužů s opravenou hodnotou rozsahu dat. 166 y.pnwoYúnl Utti V programu SMI BeCiuzo lze v nastavení nástroje Heat Map kromě hodnoty sigma (Kernel wldth) ú rozsahu dat (Data range) upravit také průhlednost (Opacity). Nevýhodou jsou väak omezené možnosti výběru barevné škály, Vybrat lze ze dvou přednastavených variant (modrá - zelená - červená a zelená - žlutá - červená). Dále si může uživatel vytvořit škálu vlastní, nicméně opět pouze pomocí tří barev (začátek - střed - konec). Výsledné attention mapy jsou však vždy velmi nevýrazné. SMI BeGaze kromě nástroje HeatMap obsahuje také nástroj Focus Map, který funguje tak, že celý stimulus je překryt jednobarevnou vrstvou a transparetní jsou pouze ta místa, na kterých byly zaznamenány fixace, V nastavení lze stejně jako v případě heat map specifikovat kernel width, rozsah dat a průhlednost. V aplikaci OGAMA lze attention mapy vytvářet pomocí Attention map modulu. Výhodou bproti SMI BeGaze je možnost nastavení vlastní barevné stupnice obsahující libovolný počet barev (obr. 110) a také možnost přiřazení vyšší váhy delším fixacím. Zajímavá je také možnost vykreslit attention mapu pouze pro konkrétní (první, druhou, třetí...) fixaci či generování attention mapy na základě pohybu či kliků myši. Zásadním problémem v prostředí OGAMA je však nemožnost definovat vlastní rozsah dat. Attention mapy vytvořené v OGAMA tedy není možné použít pro porovnání různých stimulů či skupin respondentů. Cobr Stops -Color Ü Obr. 110 Nastavení barevné škály attention map v prostředí aplikace OGAMA Holmqvist a kol. (2011) uvádějí několik základních doporučení, na která je důležité při používání attention map pamatovat. • Attention mapy ukazují prostorové rozložení fixací (či raw dat) a nic jiného, nelze z nich tedy usuzovat, proč se na dané místo stimulu respondenti dívali. • Attention mapy zobrazují agregovaná data za celou délku sledování stimulu a za více participantů. • Attention mapy jsou vhodným ilustračním nástrojem, jejich vypovídací hodnota však není vysoká a měly by být publikovány až po důkladném zvážení. • Neexistuje žádné přesné doporučení ohledně nastavení a. Uvádí se, Ž0 hodnota okolo 2° vizuálního úhlu (cca 85 px) přibližně odpovídá oblasti ostrého vidění (světlo dopadající na foveu). • ■ Při tvorbě attention map pro různé skupiny respondentů či stimulů je nezbytné použít vždy stejné nastavení, jinak nebude možné výsledky porovnat. • Při publikování attention map je vždy nezbytné popsat typ eye-trackeru, na kterém byla data měřena, jeho frekvenci, nastavení o, rozsah dat, pro který byla attention mapa vytvářena, a podrobnosti o algoritmu pro detekci fixací. • Při použití fixačního kříže je důležité při interpretaci výsledků attention mapy pamatovat na fakt, že první fixace byla zaznamenána uprostřed obrazovky, případně první fixací odstranit. 73 AOI Další možností analýzy eye-traeking dat je využití oblastí zájmu (Areas of Interest - AOI). Oblasti zájmu jsou regiony vyznačené na stimulu, pro které je zjišťováno, jak respondenta zaujaly, kolik fixací bylo v konkrétních oblastech zájmu zaznamenáno, jaké bylo pořadí navštívených oblastí atd. Oblasti zájmu není nutné definovat před vlastním testováním, protože tvorba AOI probíhá až po vlastním naměření dat. Tvorba AOI v programech SMI BeGaze a OGAMA je velmi podobná, přesto se najdou určité rozdíly. Na základě nich se může uživatel rozhodnout, ve které aplikaci bude data zpracovávat. Obě aplikace umožňují základní kreslení pomocí nástroje obdélník, elipsa a vlastní tvar. Aplikace OGAMA dále umožňuje vytvoření pravidelné mřížky (až po 26x26 buněk). Pokud uživatel zakreslí překrývající se oblasti zájmu, musí počítat s tím, že fixace zaznamenaná v překrývající se oblasti bude zaznamenána k oběma AOI. V aplikaci SMI BeGaze je možné nastavit pořadí oblastí zájmu. Toto je však použito pouze pro metody vizualizace Sequence Chart a Binning Chart (viz dále). Na rozdíl od programu OGAMA umožňuje SMI BeGaze práci s dynamickými AOL Uživatel tak může zakreslovat oblasti zájmu do záznamu obrazovky, videozáznamu či záznamu z eye-traeking brýlí. Tvorba dynamických oblastí zájmu probíhá obdobně jako v případě statických AOL Rozdíl je ten, že se uživatel pohybuje na časové ose a při každé změně polohy sledovaného objektu G [counl/o] 13 Htereion Duration fms) fx} ftsl Ration Duration {its! x] GJsncss Count {xjRtaBonCsutt 1 jxjDwei'Ttme|%| {xj Station Time trasj jxj fixation lime {%] •xj Average Fixation Duration [rr.s] fx] Tmeto Fret Seccaje §nsj Obr. 111 Eye-traeking metriky pro oblasti zájmu v programu SMI BeGflZO 169 V programu OGAMA se eye-tracking metriky pro oblasti zájmu exportují pomocí Statistics modulu - Gaze parameters - AOI parameter. Jak je vidět z obrázku 112, seznam dostupných eye-tracking metrik je kratší než v případě SMI BeGaze, nicméně většina často používaných metrik je zde obsažena. Při exportu statistických dat si uživatel zvolí vybranou eye--tracking metriku a dále vybere, pro kterou AOI či skupinu AOI má být tato metrika vypočítána. Následně svoji volbu potvrdí stiskem tlačítka Add this variable to the list. V případě vyššího počtu oblastí zájmu v experimentu může být tento postup časově náročný. Default parameter; AOI parameter ? Regressions. Gaze ai AOI (predefhed) Gaze at AOI (custom) pi time uráä first ŕÉcation in •—i searchreet area. □ ■time unhlfW fixation iri tangetarea. c—1 time untS second '—' fix^fon in target area. □ completefixation time in taigetarea. O complete fetation time OíimewrÄil jl^ftotion . © number of fixations : O fixation duration mean : O katión duration median O saccade duration O -saccade length O saccade velocity ® inAOlGioup O at sinale AOI AcHWsráôatifetofct... Obr. H2 Eye-tracking metriky pro oblasti zájmu v programu SMI BeGazé Obě popisované aplikace umožňují export tzv. Transition Matrix, tedy matice reprezentující přechod pohledu respondenta mezi jednotlivými oblastmi zájmu. V této matici jsou ve sloupcích i řádcích vypsány oblasti zájmu a hodnota v buňkách matice udává, kolikrát se pohled respondenta přesunul z jedné AOI do druhé. Tato data lze statisticky vyhodnotit nebo vizualizovat. V SMI BeGaze je matice dostupná v nabídce Metrics export - Specialized statistics - Transition Matrix. V programu OGAMA pak ve Statistics modulu - AOI Transitions. Rozdíl mezi oběma aplikacemi ve výsledné matici je minimání. OGAMA v matici uvádí i počet přesunů pohledu v rámci jedné oblasti zájmu, zatímco SMI BeGaze mezi stejnými AOI uvádí nuly. Obě aplikace znázorňují v řádcích oblasti zájmu, ze kterých přesuny vycházejí, a ve sloupcích oblasti, kam míří. Program OGAMA umožňuje znázornit tyto přesuny pohledu pomocí šipek, a to jak v absolutních číslech, tak i relativně. Další zajímavou vizualizační funkcí je zobrazení kruhů reprezentujících počet fixací, celkový čas fixací ci průměrnou délku fixace. Obě tyto metody jsou dostupné přímo v AOI modulu programu OGAMA a lze je zobrazit najednou tak, jak je znázorněno na obrázku 113. Obr. 113 Vizualizace počtu přesunů pohledu mezi oblastmi zájmu a celkového počtu fixací v jednotlivých AOI v prostředí programu OGAMA Příkladem dalších metod vizualizace respondentova chování využívající oblasti zájmu jsou nástroje Sequence Chart a Binning Chart obsažené v.softwaru SMI BeGaze. Sequence Chart zobrazuje časovou posloupnost navštívených oblastí zájmů. Eye-tracking data jednotlivých respondentů jsou znázorněna pomocí barevných pruhů, přičemž barva jednotlivých pruhů reprezentuje jednotlivo oblasti zájmu. Ze Sequence Chartu je tedy patrné, jaké bylo pořadí navštívených oblastí zájmu, jak dlouho v nich respondenti spočinuli pohledem a jestli se do některé AOI dívali opakovaně. Obr 114 Sequence Chart dvou skupin respondentů (kartografove a nekartografovó) pro tři rázné mapové kompozice. Skupina respondentů s kartografickým vzděláním se mnohem déle dívala na oblast zájmu představující titul mapy. 4263 85