Kapitola 15 Správně formátovaná data a balík tidyr

“It is often said that 80 % of data analysis is spent on the cleaning and preparing data.”

“Tidy datasets are all alike but every messy dataset is messy in its own way.”

– Hadley Wickham

Představte si výzkum vývoje dětí. Z populace si vybereme vzorek dětí, které budeme sledovat a následně u každého z nich každý měsíc naměříme řadu ukazatelů: výšku, váhu, počet červených krvinek, motorické a kognitivní schopnosti, počet prstů, atp.

Získáme tak soubor dat s mnoha pozorováními a mnoha dimenzemi. Jedno pozorování můžeme chápat jako moment měření – definuje ho tedy identita pozorovaného subjektu (průřezová jednotka) a čas pozorování (věk). Každá sledovaná charakteristika potom představuje samostatnou dimenzi.

Množství pozorování a dimenzí umožňuje nejrůznější organizaci naměřených dat. Data jsou typicky organizována do formátu pravoúhlé tabulky, kde jsou data zapsána v buňkách organizovaných v řádcích a sloupcích. Tabulky však mohou být různě vnitřeně organizované. Mohou se lišit v tom, které údaje se zapisují do sloupců, které do řádků a podobně

V této lekci se naučíte:

  • Jak vhodně organizovat data do tabulek – tzv. tidy formát
  • S pomocí nástrojů z balíku tidyr upravovat data do tidy formátu

Balík tidyr je součástí tidyverse a je třeba si ho nejprve načíst do paměti.