Informační vzdělávání pro záchranáře a porodní asistentky
Čištění datasetu
Stáhněte si ukázkový soubor lekce1-vzor-dat.xlsx z webu Biostatistička.cz. Tento soubor obsahuje čtyři listy:
- vstupní data (před úpravou)
- opravená (vyčištěná a okódovaná) data
- opravená data s úpravou proměnné laická KPR
- seznam proměnných a hodnot
Pokud si chcete vyzkoušet čištění datasetu, vezměte si první list a pokuste se jej sami opravit, výsledek si pak zkontrolujte proti opraveným datům ve staženém souboru.
Co autorka považovala za nutné opravit?
- formát dat ve sloupci B a C (pro přehlednost, např. seřazení a zejména rozlišení formátu pro Excel),
- zaokrouhlení na celé roky ve sloupci D (aby bylo možné počítat s hodnotami),
- odstranění nevalidní hodnoty ve sloupci F a G (stejný důvod),
- sjednocení hodnot ve sloupci H na ano/ne, posunutí specifikace do nové proměnné (hypertenze.pozn),
- klasifikace dílčích informací ze sloupců J, K a L do osmi nových (rekódovaných) proměnných pro lepší klasifikaci.