SZ6031 Výzkum v pedagogické praxi.

Příprava a kontrola datové matice

Před jakýmkoliv začátkem statistické analýzy dat je potřeba překontrolovat, jestli při tzv. nahazování dat nedošlo k chybám. V zásadě zjišťujeme, jestli varianty odpovídají našim variantám v dotazníku, případně jestli u otevřených otázek nedošlo k chybě při přepisování (při otázce na čistý příjem napíšeme místo 23 000,- Kč o jednu nulu více a máme 230 000,- Kč). Tyto hodnoty mohou mít pak vliv na to, jestli je naše rozdělení normální a jaké operace bychom s daným souborem mohli dělat (mohlo by dojít k např. vychýlení průměru).

 Pro čištění dat používáme zjišťování četností (frekvencí) proměnné a její maxima a minima.

Pro názornost si ukážeme kontrolování procedury v SPSS – jako zdrojový soubor budeme používat PISA studii z roku 2018, její studentskou verzi (ke stažení zde). 

Pro názornost jsme v tomto případě v datech změnili některá data narození. 

 Pro zjištění četností, minima a maxima proměnné klikneme na AnalyzeDescriptive statistics a pak Frequencies.

 Práce v SPSS

Otevře se dialogové okno, v kterém vybereme kontrolovanou proměnnou (v našem případě Rok narození) a klikneme na šipku vpravo. 

Postup při volbě proměnné v části Frequencies

Následně klikneme v dialogovém okně nahoře na Statistics. V menu pak vybereme, že chceme zobrazit i minimum a maximum.

 Menu ve Frequencies-Statistics

Po potvrzení se dostaneme do okna Outputu. v tabulce vidíme, že máme 7019 validních odpovědí (tzn. ve všech případech je vyplněna hodnota). To je první bod, který kontrolujeme. Kdyby nebyly některé hodnoty vyplněny, můžeme je snadno dohledat a následně zkontrolovat v dotaznících, jestli dávají smysl. V druhé tabulce pak vidíme četnosti, kterých tato proměnná nabývá – 1 případ, kde je napsán rok 1990, 7016 případů s rokem 2002, 1 s rokem 2010 a jeden s rokem 20 002. Tyto tři hodnoty budeme muset zkontrolovat. 


Pro kontrolu je potřeba zjistit, kde přesně se případy nacházejí a zkontrolovat je s odpověďmi v dotazníku. Využijeme pro to Data View. v kterém vybereme požadovanou proměnnou (v našem případě rok narození) a pomocí Ctrl+F vyhledáváme ony „zvláštní“ hodnoty. Podle ID respondenta bychom mohli následně zkontrolovat, jestli se jedná pouze o překlep (pravděpodobně u hodnoty 20002), nebo o žert respondenta (pravděpodobně hodnota 1990) – otázkou pak zůstává, jestli brát v potaz respondentovi odpovědi na další otázky. 

Vyhledávání chybných hodnot proměnných