Program JASP
nabízí množství způsobů, jak vizualizovat data, ukážeme si možnosti popisných
statistik.
Histogram
Histogram neboli graf rozložení dané proměnné, patří mezi nejznámější grafy a je součástí každé práce ve které se popisuje výběrový soubor. Je založen na rozdělení dat do frekvenčních intervalů.
Představme si, že máme hromadu dat, například výsledky testu ve třídě, kde každý žák má své skóre. Histogram nám pomůže tyto výsledky zorganizovat a ukázat, jak často se různé výsledky vyskytují. X-ová osa histogramu reprezentuje skóre dosažené v testu, a y-ová osa ukazuje, kolik studentů dosáhlo tohoto skóre. Následně rozdělíme x-ovou osu se skóry na menší úseky (kategorie), třeba od 0 do 10, od 10 do 20, a tak dále. Pro každý takový úsek uděláme sloupeček, který ukáže, kolik studentů mělo skóre v tomto úseku.
Když se podíváme na výsledný histogram, uvidíme různě vysoké sloupečky. Ty vyšší sloupečky znamenají, že se v dané kategorii nachází více studentů, a nižší sloupečky ukazují, že v tomto úseku je méně studentů. Můžeme z toho rychle odvodit, která skóre jsou nejběžnější (nejvyšší) a která jsou spíše výjimečná (nižší). Histogram nám tedy pomáhá lépe pochopit, jak jsou data rozložena a jak často se vyskytují různé hodnoty. Jak již bylo zmíněno, nejvyšší sloupec je modus (nejčastější hodnota souboru dat).
Podíváme se na rozložení dvou různých proměnných, konkrétně proměnné x1
(Vizuální percepce) a proměnné x6 (Význam slov). Ze seznamu proměnných
přesuneme proměnnou x1 a x6 do okna Variables (Proměnné). V
rozbalovací roletcew s názvem Basic plots (Základní grafy) zaklikneme možnost Distribution
plots (Graf rozložení).

Zobrazí se nám
dva histogramy. Na ose x (pojmenované právě názvem proměnné x1 a x2)
máme hodnoty proměnné seskupené do několika kategorií. Na ose y (pojmenované
jako Counts tedy Počty nebo Četnosti) máme četnosti žáků v každé
kategorii. U proměnné x1, vidíme že proměnná je relativně normálně
rozložená. U druhé proměnné x6 dochází k mírnému zešikmení rozložení
směrem doleva. To znamená, že žáci častěji dosahovali nižších hodnot a jenom
pár žáků dosáhlo vyšších hodnot. Je možné, že se u proměnné x6 budou
vyskytovat outlieři nad horní hranicí 75 percentilu.
Zkuste si zadat
v tomto příkladě i hodnoty průměru (M = 2,19), Minima (0,14), Maxima
(6,14) a kvartilů (75 percentil = 2,71). Ty vám ukážou na to, že maximální
počet získaných bodů může být 6 ale 75 procent dětí a méně má podobné výsledky
jako průměrný žák. Tyto hodnoty dohromady ukazují na nerovnoměrné rozložení
proměnné x6.
Mohli bychom
hypoteticky aplikovali příklad proměnné x6 a místo této proměnné si
představit testový skór z matematiky. Z takovéhoto histogramu bychom
odvodili, že náš test z matematiky byl pro žáky příliš těžký. Většina žáků
získala málo bodů (vysoké sloupce v kategoriích s nižšími skóry) a
jenom pár z nich získalo více bodů (nízké sloupce v kategoriích
s vyššími skóry).
Krabicové
grafy
Boxploty (krabicové grafy) se používají pro intervalové proměnné a kombinují několik výše popsaných statistik v jednom obrázku:

- Mediánová hodnota (Median value)
- 25 % a 75 % kvartily (75% a 25% quartile)
- mezikvartilové rozpětí (IQR z anglického Inter Quartile Range), tj. hodnoty 75 % - 25 % kvartilu
- Maximální a minimální hodnoty (Maximum a minimum value) vynesené do grafu s vyloučením odlehlých hodnot
- Odlehlé hodnoty (Outlier) jsou zobrazeny, pokud je to požadováno
Pro tento příklad
můžeme použít proměnnou x8, která říká, jak rychle žáci umí počítat
shluky teček. Vraťme se k rozbalovacímu roletce Statistics
(Statistiky). V sekci Central tendency zaškrtneme políčka Mode, Median a
Mean, v sekci Quantiles zatrhneme políčko Quartiles a
v sekci Dispersion zaškrtneme políčka Minimum a Maximum.
Dále rozbalíme roletku Customizable plots (Přizpůsobitelné grafy) a
zaškrtneme políčko Boxplots a Boxplot element.

Ve výsledkovém
okně se nám zobrazí jednoduchý krabicový graf. Můžete si zkusit srovnat čísla
z tabulky s grafem. Například z tabulky vidíme, že minimální
hodnota proměnné je 3,05. Spodní „vous“ grafu tedy ukazuje mírně nad hodnotu 3
na ose y.
Kdybychom chtěli
dostat do grafu více informací, můžeme zaškrtnout políčko:
- Violin element, které nám přidá do grafu i vyhlazenou křivku
rozložení proměnné otočené o 90°
- Jitter element, které nám přidá datové body konkrétních
participantů
- Label outliers, je nám již známé, a zobrazí nám pozice outlierů
v datovém souboru
- Use color palette, nám umožní dostat do garfu barvu – je potřeba
nastavit Color palette nad zaškrtávacím políčkem Boxplots např na ggplot2
Stejný graf pak
může vypadat takto:
