Kapitola 15 Správně formátovaná data a balík tidyr
“It is often said that 80 % of data analysis is spent on the cleaning and preparing data.”
“Tidy datasets are all alike but every messy dataset is messy in its own way.”
– Hadley Wickham
Představte si výzkum vývoje dětí. Z populace si vybereme vzorek dětí, které budeme sledovat a následně u každého z nich každý měsíc naměříme řadu ukazatelů: výšku, váhu, počet červených krvinek, motorické a kognitivní schopnosti, počet prstů, atp.
Získáme tak soubor dat s mnoha pozorováními a mnoha dimenzemi. Jedno pozorování můžeme chápat jako moment měření – definuje ho tedy identita pozorovaného subjektu (průřezová jednotka) a čas pozorování (věk). Každá sledovaná charakteristika potom představuje samostatnou dimenzi.
Množství pozorování a dimenzí umožňuje nejrůznější organizaci naměřených dat. Data jsou typicky organizována do formátu pravoúhlé tabulky, kde jsou data zapsána v buňkách organizovaných v řádcích a sloupcích. Tabulky však mohou být různě vnitřeně organizované. Mohou se lišit v tom, které údaje se zapisují do sloupců, které do řádků a podobně
V této lekci se naučíte:
- Jak vhodně organizovat data do tabulek – tzv. tidy formát
- S pomocí nástrojů z balíku tidyr upravovat data do tidy formátu
Balík tidyr je součástí tidyverse a je třeba si ho nejprve načíst do paměti.