Seminární cvičení

Popisné grafy - vizualizace dat

Program JASP nabízí množství způsobů, jak vizualizovat data, ukážeme si možnosti popisných statistik.


Histogram

Histogram neboli graf rozložení dané proměnné, patří mezi nejznámější grafy a je součástí každé práce ve které se popisuje výběrový soubor. Je založen na rozdělení dat do frekvenčních intervalů.

Představme si, že máme hromadu dat, například výsledky testu ve třídě, kde každý žák má své skóre. Histogram nám pomůže tyto výsledky zorganizovat a ukázat, jak často se různé výsledky vyskytují. X-ová osa histogramu reprezentuje skóre dosažené v testu, a y-ová osa ukazuje, kolik studentů dosáhlo tohoto skóre. Následně rozdělíme x-ovou osu se skóry na menší úseky (kategorie), třeba od 0 do 10, od 10 do 20, a tak dále. Pro každý takový úsek uděláme sloupeček, který ukáže, kolik studentů mělo skóre v tomto úseku.

Když se podíváme na výsledný histogram, uvidíme různě vysoké sloupečky. Ty vyšší sloupečky znamenají, že se v dané kategorii nachází více studentů, a nižší sloupečky ukazují, že v tomto úseku je méně studentů. Můžeme z toho rychle odvodit, která skóre jsou nejběžnější (nejvyšší) a která jsou spíše výjimečná (nižší). Histogram nám tedy pomáhá lépe pochopit, jak jsou data rozložena a jak často se vyskytují různé hodnoty. Jak již bylo zmíněno, nejvyšší sloupec je modus (nejčastější hodnota souboru dat).

Vyzkoušejte si


Podíváme se na rozložení dvou různých proměnných, konkrétně proměnné x1 (Vizuální percepce) a proměnné x6 (Význam slov). Ze seznamu proměnných přesuneme proměnnou x1 a x6 do okna Variables (Proměnné). V rozbalovací roletcew s názvem Basic plots (Základní grafy) zaklikneme možnost Distribution plots (Graf rozložení). 


Zobrazí se nám dva histogramy. Na ose x (pojmenované právě názvem proměnné x1 a x2) máme hodnoty proměnné seskupené do několika kategorií. Na ose y (pojmenované jako Counts tedy Počty nebo Četnosti) máme četnosti žáků v každé kategorii. U proměnné x1, vidíme že proměnná je relativně normálně rozložená. U druhé proměnné x6 dochází k mírnému zešikmení rozložení směrem doleva. To znamená, že žáci častěji dosahovali nižších hodnot a jenom pár žáků dosáhlo vyšších hodnot. Je možné, že se u proměnné x6 budou vyskytovat outlieři nad horní hranicí 75 percentilu.

Zkuste si zadat v tomto příkladě i hodnoty průměru (M = 2,19), Minima (0,14), Maxima (6,14) a kvartilů (75 percentil = 2,71). Ty vám ukážou na to, že maximální počet získaných bodů může být 6 ale 75 procent dětí a méně má podobné výsledky jako průměrný žák. Tyto hodnoty dohromady ukazují na nerovnoměrné rozložení proměnné x6.   

Mohli bychom hypoteticky aplikovali příklad proměnné x6 a místo této proměnné si představit testový skór z matematiky. Z takovéhoto histogramu bychom odvodili, že náš test z matematiky byl pro žáky příliš těžký. Většina žáků získala málo bodů (vysoké sloupce v kategoriích s nižšími skóry) a jenom pár z nich získalo více bodů (nízké sloupce v kategoriích s vyššími skóry). 


Krabicové grafy

Boxploty (krabicové grafy) se používají pro intervalové proměnné a kombinují několik výše popsaných statistik v jednom obrázku:


  • Mediánová hodnota (Median value)
  • 25 % a 75 % kvartily (75% a 25% quartile)
  • mezikvartilové rozpětí (IQR z anglického Inter Quartile Range), tj. hodnoty 75 % - 25 % kvartilu
  • Maximální a minimální hodnoty (Maximum a minimum value) vynesené do grafu s vyloučením odlehlých hodnot
  • Odlehlé hodnoty (Outlier) jsou zobrazeny, pokud je to požadováno

Vyzkoušejte si


Pro tento příklad můžeme použít proměnnou x8, která říká, jak rychle žáci umí počítat shluky teček. Vraťme se k rozbalovacímu roletce Statistics (Statistiky). V sekci Central tendency zaškrtneme políčka Mode, Median a Mean, v sekci Quantiles zatrhneme políčko Quartiles a v sekci Dispersion zaškrtneme políčka Minimum a Maximum. Dále rozbalíme roletku Customizable plots (Přizpůsobitelné grafy) a zaškrtneme políčko Boxplots a Boxplot element


Ve výsledkovém okně se nám zobrazí jednoduchý krabicový graf. Můžete si zkusit srovnat čísla z tabulky s grafem. Například z tabulky vidíme, že minimální hodnota proměnné je 3,05. Spodní „vous“ grafu tedy ukazuje mírně nad hodnotu 3 na ose y.

Kdybychom chtěli dostat do grafu více informací, můžeme zaškrtnout políčko:

  • Violin element, které nám přidá do grafu i vyhlazenou křivku rozložení proměnné otočené o 90°
  • Jitter element, které nám přidá datové body konkrétních participantů
  • Label outliers, je nám již známé, a zobrazí nám pozice outlierů v datovém souboru
  • Use color palette, nám umožní dostat do garfu barvu – je potřeba nastavit Color palette nad zaškrtávacím políčkem Boxplots např na ggplot2

Stejný graf pak může vypadat takto: