4.7 Kontrola načtených dat

Když načtete data, je obvykle moudré zkontrolovat, že se načetla všechna data, že se načetla správně a že znamenají to, co si myslíte. Vyplatí se projít minimálně těchto několik kroků:

  1. zkontrolujte, že má dataset správný počet řádků (nrow()) a sloupců (ncol()), tj. že se načetlo vše a nenačetl se nějaký “odpad” uložený na začátku nebo konci datového souboru

  2. podívejte se na začátek (head()) a konec (tail()) datasetu; opět pomůže kontrolovat, zda se nenačetl nějaký zmatek na začátku nebo konci souboru a že vše vypadá tak, jak má

  3. zkontrolujte strukturu datasetu (str()) – jména sloupců, jejich typy a hodnoty

  4. podívejte se na souhrnné statistiky dat (summary()): jaké jsou hodnoty proměnných (dávají smysl? jsou správně velké? porovnejte hodnoty s tím, co víte odjinud), kde hodnoty chybí apod.

Další rady se dozvíte v lekci o exploratory data analysis.