4.7 Kontrola načtených dat
Když načtete data, je obvykle moudré zkontrolovat, že se načetla všechna data, že se načetla správně a že znamenají to, co si myslíte. Vyplatí se projít minimálně těchto několik kroků:
zkontrolujte, že má dataset správný počet řádků (
nrow()
) a sloupců (ncol()
), tj. že se načetlo vše a nenačetl se nějaký “odpad” uložený na začátku nebo konci datového souborupodívejte se na začátek (
head()
) a konec (tail()
) datasetu; opět pomůže kontrolovat, zda se nenačetl nějaký zmatek na začátku nebo konci souboru a že vše vypadá tak, jak mázkontrolujte strukturu datasetu (
str()
) – jména sloupců, jejich typy a hodnotypodívejte se na souhrnné statistiky dat (
summary()
): jaké jsou hodnoty proměnných (dávají smysl? jsou správně velké? porovnejte hodnoty s tím, co víte odjinud), kde hodnoty chybí apod.
Další rady se dozvíte v lekci o exploratory data analysis.