Před jakýmkoliv začátkem statistické analýzy dat je potřeba překontrolovat, jestli se někde nestala chyba. Když budete sbírat data v tzv. formě tužka-papír. je dobré zkontrolovat, zda při nahazování dat do excelu nedošlo k chybám. V zásadě zjišťujeme, jestli varianty odpovídají našim variantám v dotazníku, případně jestli u otevřených otázek nedošlo k chybě při přepisování (při otázce na čistý příjem napíšeme místo 23 000,- Kč o jednu nulu více a máme 230 000,- Kč). U on-line sběru dat je také potřeba kontrola dat, zda se nespletli participanti.
Tyto hodnoty mohou mít pak vliv na to, jestli je naše rozdělení normální a jaké operace bychom s daným souborem mohli dělat (mohlo by dojít k např. vychýlení průměru).
Čištění dat
Čištění dat je proces identifikace a opravy (nebo odstranění) chyb a nekonzistencí v datových sadách s cílem zvýšit jejich kvalitu a zajistit, že jsou vhodná pro analýzu. Tento proces je klíčový pro získání přesných a spolehlivých výsledků z jakékoliv analýzy dat.
Pro čištění dat používáme zjišťování četností (frekvencí) proměnné a její maxima a minima.
Zkontrolujeme, zda sedí počet odpovědi s počtem záznamů od participantů - kontrolujeme chybějící data.
Dále si zkontrolujeme minimální (Minimum) a maximální (Maximum) hodnotu. Minimální hodnota označuje nejnižší hodnotu proměnné a maximální hodnota naopak označuje nejvyšší hodnotu proměnné. Obě jsou lépe uplatnitelné u intervalových proměnných, ale pro kontrolu je možné její použití i u jiných proměnných.
Při kontrole dat sledujeme, zda jsou v tabulce zobrazeny jenom ty kategorie hodnot, které by tam měly být. Příkladem mohou být dotazníková data, u kterých víme, že se hodnoty pohybují na škále od 1 po 5 (5 bodová Likertova škála). V řádku minimum se pak nesmí objevit hodnota nižší než 1 a v řádku maximum větší než 5. Jestli nás naše data překvapí, musíme zkontrolovat původní datový soubor a na chybu se podívat.
Četnost je veličina, která udává, kolik hodnot daného znaku se vyskytuje ve statistickém souboru. Můžeme mluvit o absolutní četnosti nebo o relativní četnost. Relativní četnost vyjadřuje procentuální vyjádření absolutní četnosti vůči celkovému počtu (Valid Percent). Existuje také kumulativními četnost (Cumulative Percent). Ta označuje, jaký podíl představují v souboru případy mající vlastnosti s nižší či stejnou hodnotou. Tento druh četností se používá u ordinálních a intervalových proměnných, u nominálních nemá význam (žádná z kategorií neznamená více nebo méně).
Použijeme opět
naši datovou matice Mental ability. Z hlavního panelu analýz vybereme poklikem
ikonku Descriptives.
Otevře se okno pro zobrazení analýz a okno pro zobrazení výsledků.
V analytickém okně vybereme proměnnou, například námi vytvořená nová
proměnná age a přetáhneme ji do okna Variables (Proměnné).
Zobrazí se nám základní okno s daty.

Z tabulky ve výsledkovém okně lze vyčíst, že je v soboru 301
platných řádků s daty (Valid) a v žádném řádku není chybějící
hodnota (Missing). To je první bod, který kontrolujeme. Kdyby některé
hodnoty chyběly, měli bychom je dohledat v původním data setu a
zkontrolovat v dotaznících, proč chybí a zda to dává smysl.
Dále zde vidíme průměrný věk žáka je 161,34 měsíců (Mean) a
standardní odchylku 12,23 měsíců (Std. Deviation). Mírám centrální
tendence se budeme věnovat v následující kapitole.
Dále si zkontrolujeme minimální (Minimum) a maximální (Maximum)
hodnotu. Zde vidíme, že nejmladší dítě mělo 136 měsíců a nejstarší dítě mělo 199 měsíců. Zde bychom mohli přemýšlet nad tím, zda to odpovídá věku dětí od kterých jsme sbírali data a zda se věk dětí skutečně pohybuje v rozmezí od 11 do 17 let. Jelikož se jedná o dětí ze sedmého a osmého ročníku je rozptyl zvláštní a měli bychom zkontrolovat zapsané hodnoty pro věk dětí nebo zkontrolovat přepočet na měsíce.
Vyčistíme si teď okno Variables, abychom tam neměli žádné
proměnné. Proměnnou age odstraníme z výběru tím, že ji chytneme a přesuneme do původního seznamu
proměnných, nebo ji jednoduše označíme myší a tlačítkem se šipkou ji přesuneme
do původního seznamu proměnných.
U nominálních nebo ordinálních proměnných se ke kontrole dat používá četnost
jejich výskytu. Může nás například zajímat kolik žáků máme v jednotlivých
třídách. Budeme se tedy dívat na četnost proměnné grade. Opět proměnnou grade
chytneme a přesuneme do okna Variables. Rozklikneme si rozbalovací
roletku s názvem „Tables“ a tam zaškrtneme políčko „Frequency
tables“. Pod hlavní tabulkou se nám
objeví tabulka četností (Frequency table).

První sloupec s označením grade nám říká, že se jedná o proměnnou třída a jsou zde dva řádky pro sedmou a osmou třídu zvlášť. Následuje sloupec s četností (Frequency). Žáků ve sedmé třídě je 157 a v osmé třídě je 143. Dále zde vidíme že hodnota u jednoho žáka chybí (Missing).
Dále zde vidíme procentuální rozložení dat dle jednotlivých tříd (Percent). V sedmém ročníku je 52,16% dětí z našeho vzorku a v osmém ročníku je 47,51% dětí z našeho vzorku. Jak bylo zmíněno v úvodní části této kapitoly relativní četnost vyjadřuje procentuální vyjádření absolutní četnosti vůči celkovému počtu. V sloupci pro relativní četnost (Valid Percent) proto vidíme přepočteny procenta vzhledem k chybějícím datům (0,33%). V posledním sloupci najdeme kumulativní četnost ((Cumulative Percent).
Kontrola outlierů
Někdy se může stát, že máme v souboru odlehlé hodnoty, tzv. outliery. Jedná se o hodnoty, které jsou abnormálně vzdálené od všech ostatních hodnot v datech. Mohou být způsobené například chybou při přepisu dat (například místo 5 zapíšu 50), nebo chybou při sběru dat (například když se vám zasekne přístroj, ale čas se měří pořád dál).
Jejich hledání je trochu detektivní práce, se kterou nám pomohou krabicové grafy neboli boxploty. Ty nám totiž umožní najít outliery, kteří jsou nad horní hranicí nebo pod spodní hranicí tzv. kvartilů. Kvartily si ukážeme v další kapitole, teď nám bude stačit jenom vědomí o jejich existenci a jejich vizualizace.
V okně pro
zobrazování analýz si rozbalíme roletku s názvem „Customizable plots“,
označíme fajfkou „Boxplot element“ a „Label outliers“. Tímto JASP řekneme, že
od něj chceme, aby nám zobrazil krabicový graf a aby nám označil outliery.
V rámci interaktivního výsledkového okna se nám pod tabulkou zobrazí
krabicový graf a nahoře nad horní hranicí 75% kvartilu, zde vidíme pět outlierů
(čísla od shora dolů: 78, 120, 280, 57, 286).

Přítomnost outlierů nám může ovlivňovat a zkreslovat data, například v našem případě průměrný věk dětí. Extrémní hodnoty, které vstupují do výpočtu průměru tak mohou zvýšit nebo snížit jeho výslednou hodnotu. Detektivní práce nalezením outlierů nekončí.
Co tedy s outliery? Dalším krokem je prohledání datového souboru a prozkoumání dat.
- Můžeme data opravit. Může se stát, že jsme při zapisování dat udělali chybu. V tomto případě chybnou hodnotu přepíšeme na správnou a znovu zkontrolujeme data kvůli outlierům.
- Můžeme se rozhodnout, že si je ponecháme. Ve větších datových souborech s normálním rozložením nemusí nutně zkreslovat data. Je dobré srovnat výsledné hodnoty i s dalšími mírami centrální tendence (modus a medián).
- Můžeme se rozhodnout, že je ze souboru vymažeme (nebo vyfiltrujeme, teď když už víme jak) a nebudeme s nimi v našich analýzách dále počítat.
Jakkoliv se rozhodnete, každé rozhodnutí by mělo být zdokumentováno ve vaší práci jak v části, v které popisujete výzkumný soubor, tak v diskuzi, kde můžete outliery zmínit jako limitaci vašeho výzkumu.