15.1 Tidy data
Formát “tidy data” popisuje organizační strukturu dat v tabulkách. Data v tidy formátu splňují následující charakteristiky:
- Každé pozorování je popsáno jedním řádkem
- Každá proměnná je obsažena v jednom sloupci
- Každý typ pozorování má vlastní tabulku
Wickham (2016) ilustruje tidy fromát pomocí následujícího schématu:
Uvažujme příklad statistik o trhu práce. Statistický úřad sleduje na roční bázi počet nezaměstnaných a velikost dopělé populace pro obce, okresy a kraje. Pokud by ukládal data v tidy struktuře potom by:
- Data byla skladována ve třech tabulkách – v jedné tabulce by byly údaje pro kraje, v druhé pro okresy a ve třetí pro obce.
- Struktura každé tabulky by byla následující:
## # A tibble: 6 × 4
## area year adult_population unemployment_rate
## <chr> <int> <dbl> <dbl>
## 1 Kostelec 2001 301 7.1
## 2 Kostelec 2002 305 6.7
## 3 Kostelec 2003 295 8.4
## 4 Valtrovice 2001 656 7.1
## 5 Valtrovice 2002 650 8.4
## 6 Valtrovice 2003 660 9.6
Každé pozorování je identifikováno správní jednotkou (area
) a rokem (year
). Každá sledovaná proměnná je potom uložena ve vlastním sloupci.