Seminární cvičení

Příprava a kontrola datové matice

Před jakýmkoliv začátkem statistické analýzy dat je potřeba překontrolovat, jestli se někde nestala chyba. Když budete sbírat data v tzv. formě tužka-papír. je dobré zkontrolovat, zda při nahazování dat do excelu nedošlo k chybám. V zásadě zjišťujeme, jestli varianty odpovídají našim variantám v dotazníku, případně jestli u otevřených otázek nedošlo k chybě při přepisování (při otázce na čistý příjem napíšeme místo 23 000,- Kč o jednu nulu více a máme 230 000,- Kč). U on-line sběru dat je také potřeba kontrola dat, zda se nespletli participanti. 

Tyto hodnoty mohou mít pak vliv na to, jestli je naše rozdělení normální a jaké operace bychom s daným souborem mohli dělat (mohlo by dojít k např. vychýlení průměru).


Čištění dat

Čištění dat je proces identifikace a opravy (nebo odstranění) chyb a nekonzistencí v datových sadách s cílem zvýšit jejich kvalitu a zajistit, že jsou vhodná pro analýzu. Tento proces je klíčový pro získání přesných a spolehlivých výsledků z jakékoliv analýzy dat. 

Pro čištění dat používáme zjišťování četností (frekvencí) proměnné a její maxima a minima. 

Zkontrolujeme, zda sedí počet odpovědi s počtem záznamů od participantů - kontrolujeme chybějící data. 

Dále si zkontrolujeme minimální (Minimum) a maximální (Maximum) hodnotu. Minimální hodnota označuje nejnižší hodnotu proměnné a maximální hodnota naopak označuje nejvyšší hodnotu proměnné. Obě jsou lépe uplatnitelné u intervalových proměnných, ale pro kontrolu je možné její použití i u jiných proměnných. 

Při kontrole dat sledujeme, zda jsou v tabulce zobrazeny jenom ty kategorie hodnot, které by tam měly být. Příkladem mohou být dotazníková data, u kterých víme, že se hodnoty pohybují na škále od 1 po 5 (5 bodová Likertova škála). V řádku minimum se pak nesmí objevit hodnota nižší než 1 a v řádku maximum větší než 5. Jestli nás naše data překvapí, musíme zkontrolovat původní datový soubor a na chybu se podívat.

Četnost je veličina, která udává, kolik hodnot daného znaku se vyskytuje ve statistickém souboru. Můžeme mluvit o absolutní četnosti nebo o relativní četnost. Relativní četnost vyjadřuje procentuální vyjádření absolutní četnosti vůči celkovému počtu (Valid Percent). Existuje také kumulativními četnost (Cumulative Percent). Ta označuje, jaký podíl představují v souboru případy mající vlastnosti s nižší či stejnou hodnotou. Tento druh četností se používá u ordinálních a intervalových proměnných, u nominálních nemá význam (žádná z kategorií neznamená více nebo méně).

Vyzkoušejte si to


Použijeme opět naši datovou matice Mental ability. Z hlavního panelu analýz vybereme poklikem ikonku Descriptives.

Otevře se okno pro zobrazení analýz a okno pro zobrazení výsledků. V analytickém okně vybereme proměnnou, například námi vytvořená nová proměnná age a přetáhneme ji do okna Variables (Proměnné). Zobrazí se nám základní okno s daty.  

Z tabulky ve výsledkovém okně lze vyčíst, že je v soboru 301 platných řádků s daty (Valid) a v žádném řádku není chybějící hodnota (Missing). To je první bod, který kontrolujeme. Kdyby některé hodnoty chyběly, měli bychom je dohledat v původním data setu a zkontrolovat v dotaznících, proč chybí a zda to dává smysl.

Dále zde vidíme průměrný věk žáka je 161,34 měsíců (Mean) a standardní odchylku 12,23 měsíců (Std. Deviation). Mírám centrální tendence se budeme věnovat v následující kapitole

Dále si zkontrolujeme minimální (Minimum) a maximální (Maximum) hodnotu. Zde vidíme, že nejmladší dítě mělo 136 měsíců a nejstarší dítě mělo 199 měsíců. Zde bychom mohli přemýšlet nad tím, zda to odpovídá věku dětí od kterých jsme sbírali data a zda se věk dětí skutečně pohybuje v rozmezí od 11 do 17 let. Jelikož se jedná o dětí ze sedmého a osmého ročníku je rozptyl zvláštní a měli bychom zkontrolovat zapsané hodnoty pro věk dětí nebo zkontrolovat přepočet na měsíce.

Vyčistíme si teď okno Variables, abychom tam neměli žádné proměnné. Proměnnou age odstraníme z výběru tím, že ji chytneme a přesuneme do původního seznamu proměnných, nebo ji jednoduše označíme myší a tlačítkem se šipkou ji přesuneme do původního seznamu proměnných.

U nominálních nebo ordinálních proměnných se ke kontrole dat používá četnost jejich výskytu. Může nás například zajímat kolik žáků máme v jednotlivých třídách. Budeme se tedy dívat na četnost proměnné grade. Opět proměnnou grade chytneme a přesuneme do okna Variables. Rozklikneme si rozbalovací roletku s názvem „Tables“ a tam zaškrtneme políčko „Frequency tables“.  Pod hlavní tabulkou se nám objeví tabulka četností (Frequency table).


První sloupec s označením grade nám říká, že se jedná o proměnnou třída a jsou zde dva řádky pro sedmou a osmou třídu zvlášť. Následuje sloupec s četností (Frequency). Žáků ve sedmé třídě je 157 a v osmé třídě je 143. Dále zde vidíme že hodnota u jednoho žáka chybí (Missing).

Dále zde vidíme procentuální rozložení dat dle jednotlivých tříd (Percent). V sedmém ročníku je 52,16% dětí z našeho vzorku a v osmém ročníku je 47,51% dětí z našeho vzorku. Jak bylo zmíněno v úvodní části této kapitoly relativní četnost vyjadřuje procentuální vyjádření absolutní četnosti vůči celkovému počtu. V sloupci pro relativní četnost (Valid Percent) proto vidíme přepočteny procenta vzhledem k chybějícím datům (0,33%). V posledním sloupci najdeme kumulativní četnost ((Cumulative Percent).


Kontrola outlierů

Někdy se může stát, že máme v souboru odlehlé hodnoty, tzv. outliery. Jedná se o hodnoty, které jsou abnormálně vzdálené od všech ostatních hodnot v datech. Mohou být způsobené například chybou při přepisu dat (například místo 5 zapíšu 50), nebo chybou při sběru dat (například když se vám zasekne přístroj, ale čas se měří pořád dál).

Jejich hledání je trochu detektivní práce, se kterou nám pomohou krabicové grafy neboli boxploty. Ty nám totiž umožní najít outliery, kteří jsou nad horní hranicí nebo pod spodní hranicí tzv. kvartilů. Kvartily si ukážeme v další kapitole, teď nám bude stačit jenom vědomí o jejich existenci a jejich vizualizace.   

Vyzkoušejte si to


V okně pro zobrazování analýz si rozbalíme roletku s názvem „Customizable plots“, označíme fajfkou „Boxplot element“ a „Label outliers“. Tímto JASP řekneme, že od něj chceme, aby nám zobrazil krabicový graf a aby nám označil outliery. V rámci interaktivního výsledkového okna se nám pod tabulkou zobrazí krabicový graf a nahoře nad horní hranicí 75% kvartilu, zde vidíme pět outlierů (čísla od shora dolů: 78, 120, 280, 57, 286).


Přítomnost outlierů nám může ovlivňovat a zkreslovat data, například v našem případě průměrný věk dětí. Extrémní hodnoty, které vstupují do výpočtu průměru tak mohou zvýšit nebo snížit jeho výslednou hodnotu. Detektivní práce nalezením outlierů nekončí. 

Co tedy s outliery? Dalším krokem je prohledání datového souboru a prozkoumání dat.

  • Můžeme data opravit. Může se stát, že jsme při zapisování dat udělali chybu. V tomto případě chybnou hodnotu přepíšeme na správnou a znovu zkontrolujeme data kvůli outlierům.
  • Můžeme se rozhodnout, že si je ponecháme. Ve větších datových souborech s normálním rozložením nemusí nutně zkreslovat data. Je dobré srovnat výsledné hodnoty i s dalšími mírami centrální tendence (modus a medián).
  • Můžeme se rozhodnout, že je ze souboru vymažeme (nebo vyfiltrujeme, teď když už víme jak) a nebudeme s nimi v našich analýzách dále počítat.

Jakkoliv se rozhodnete, každé rozhodnutí by mělo být zdokumentováno ve vaší práci jak v části, v které popisujete výzkumný soubor, tak v diskuzi, kde můžete outliery zmínit jako limitaci vašeho výzkumu.