15.1 Tidy data

Formát “tidy data” popisuje organizační strukturu dat v tabulkách. Data v tidy formátu splňují následující charakteristiky:

  1. Každé pozorování je popsáno jedním řádkem
  2. Každá proměnná je obsažena v jednom sloupci
  3. Každý typ pozorování má vlastní tabulku

Wickham (2016) ilustruje tidy fromát pomocí následujícího schématu:

Struktura tidy dat (Wickham, 2016)

Uvažujme příklad statistik o trhu práce. Statistický úřad sleduje na roční bázi počet nezaměstnaných a velikost dopělé populace pro obce, okresy a kraje. Pokud by ukládal data v tidy struktuře potom by:

  1. Data byla skladována ve třech tabulkách – v jedné tabulce by byly údaje pro kraje, v druhé pro okresy a ve třetí pro obce.
  2. Struktura každé tabulky by byla následující:
## # A tibble: 6 × 4
##   area        year adult_population unemployment_rate
##   <chr>      <int>            <dbl>             <dbl>
## 1 Kostelec    2001              301               7.1
## 2 Kostelec    2002              305               6.7
## 3 Kostelec    2003              295               8.4
## 4 Valtrovice  2001              656               7.1
## 5 Valtrovice  2002              650               8.4
## 6 Valtrovice  2003              660               9.6

Každé pozorování je identifikováno správní jednotkou (area) a rokem (year). Každá sledovaná proměnná je potom uložena ve vlastním sloupci.