15.1 Tidy data
Formát “tidy data” popisuje organizační strukturu dat v tabulkách. Data v tidy formátu splňují následující charakteristiky:
- Každé pozorování je popsáno jedním řádkem
- Každá proměnná je obsažena v jednom sloupci
- Každý typ pozorování má vlastní tabulku
Wickham (2016) ilustruje tidy fromát pomocí následujícího schématu:

Struktura tidy dat (Wickham, 2016)
Uvažujme příklad statistik o trhu práce. Statistický úřad sleduje na roční bázi počet nezaměstnaných a velikost dopělé populace pro obce, okresy a kraje. Pokud by ukládal data v tidy struktuře potom by:
- Data byla skladována ve třech tabulkách – v jedné tabulce by byly údaje pro kraje, v druhé pro okresy a ve třetí pro obce.
- Struktura každé tabulky by byla následující:
## # A tibble: 6 × 4
## area year adult_population unemployment_rate
## <chr> <int> <dbl> <dbl>
## 1 Kostelec 2001 301 8.5
## 2 Kostelec 2002 305 9.2
## 3 Kostelec 2003 295 6.4
## 4 Valtrovice 2001 656 7.2
## 5 Valtrovice 2002 650 6.5
## 6 Valtrovice 2003 660 7.3
Každé pozorování je identifikováno správní jednotkou (area
) a rokem (year
). Každá sledovaná proměnná je potom uložena ve vlastním sloupci.