Seminární cvičení

Deskriptivní analýza dat

Důležité pojmy


Modus = hodnota proměnné s největší četností, předpokládá se tedy, že proměnná nabývá různých hodnot znaku (min. 2 - jinak modus nemá význam), její použití je možné u všech typů proměnných (nominální, ordinální, intervalové). Pokud máme v souboru více módů, je třeba uvažovat nad (ne)homogenitou souboru.  

Medián = hodnota, která dělí řadu vzestupně seřazených výsledků na dvě stejné poloviny. Znamená to, že 50 % hodnot je větších nebo rovných mediánu a 50 % hodnot je menších nebo rovných mediánu. U souboru se sudým počtem prvků označujeme za medián aritmetický průměr hodnot na dvou místech kolem středu. Využívá se pro ordinální a intervalové proměnné.

 (Aritmetický) průměr = hodnota, která v jistém smyslu vyjadřuje typickou hodnotu popisující danou proměnnou. Její výpočet je součtem všech hodnot, kterých proměnná nabývá, vydělených počtem prvků. Její použití je vhodné především u přibližně normálního rozdělení (více informací např. ) a intervalových proměnných.

 Směrodatná odchylka (v SPSS označena jako st. dev.) = znamená míru rozptylu sady hodnot z jejich průměru a její hodnota je druhou odmocninou rozptylu. Díky její znalosti můžeme odhadovat, jak daleko je vzdálené různé množství případů (viz normální rozložení).

 Směrodatná chyba (v SPSS označena jako S.E.) = je číslo, které označuje standardní odchylku v různých hodnotách vzorku. Používá se k porovnání mezi vzorkem a populací. Má velkou roli při testování statistických hypotéz, dává představu o přesnosti a spolehlivosti odhadu. Čím menší je chyba, tím více odpovídá výběrový soubor souboru základnímu.  

Četnost = veličina, která udává, kolik hodnot daného znaku se vyskytuje ve statistickém souboru. Můžeme mluvit o absolutní četnosti nebo o relativní četnost. Relativní četnost vyjadřuje procentuální vyjádření absolutní četnosti vůči celkovému počtu.

Osoby

Relativní četnosti

Ženy

122

51 %

Muži

117

49 %

Celkem

239

100 %

V SPSS se můžeme setkat ještě s tzv. kumulativními četnostmi (Cumulative Percent), ta označuje, jaký podíl představují v souboru případy mající vlastnosti s nižší či stejnou hodnotou. Tento druh četností se používá u ordinálních a intervalových proměnných, u nominálních nemá význam (žádná z kategorií neznamená více nebo méně).

 Percentil = označuje relativní umístění vzhledem k ostatním posuzovaným na stupnici od 0 do 100, přičemž 100 je nejvyšší možné umístění

  • v praxi pak používáme několik typů percentilů – nejčastěji decil, kvartil a kvintil
    • decil dělí statistický soubor na desetiny - u prvního decilu platí, že 10 % prvků souboru má hodnoty menší (nebo rovné) hodnotě prvního decilu, 90 % větší (nebo rovné)
    • kvartil dělí statistický soubor na čtvrtiny - u prvního kvartilu platí, že 25 % prvků souboru má hodnoty menší (nebo rovné) hodnotě prvního kvartilu, 75 % větší (nebo rovné)
    • kvintil dělí soubor na pětiny – u prvního kvintilu platí, že 20 % prvků souboru má hodnoty menší (nebo rovné) hodnotě prvního kvintilu, 80 % větší (nebo rovné)

 Minimální hodnota = označuje nejnižší hodnotu proměnné, je užitečnou hodnotou u intervalových proměnných, pro kontrolu je možné její použití i u jiných proměnných

Maximální hodnota = označuje nejvyšší hodnotu proměnné, je užitečnou hodnotou u intervalových proměnných, pro kontrolu je možné její použití i u jiných proměnných

 Typy proměnných = pro různé statistické operace musíme být pozorní, s jakými proměnnými pracujeme, např. různé korelační koeficienty jsou vhodné pro různé proměnné, v zásadě rozdělujeme tři druhy proměnných:

  • nominální proměnné – jsou proměnné, u nichž nejsme schopni nijak odlišit jejich intenzitu, neexistuje více nebo méně. Typickou nominální proměnnou je pohlaví (přestože v datové matici přidělíme např. 1-muž a 2-žena neznamená to, že jedno pohlaví je lepší 😊)
  • ordinální proměnné – jsou proměnné, u nichž jsme schopni odlišit intenzitu, tzn. můžeme odlišit více nebo méně, ale máme pouze menší množství kategorií (typicky 5-10). Typickou ordinální proměnnou může být výše příjmu, která je rozdělena do několika kategorií (do 9 999; 10 000 – 14 999; 15 000 -  19 999; 20 000 – 29 999; 30 000 – 49 999; 50 000 – 99 999; 100 000 a více) 
  • intervalové proměnné = jsou proměnné, u nichž jsme velmi dobře schopni odlišit intenzitu, máme velké množství kategorií. Typickou intervalovou proměnnou může být výše příjmu, kterou respondent vypisuje číslem.


Jak bylo zmíněno ve slovníčku pojmů, liší se to, které popisné statistiky používáme pro různé proměnné. V následujících případech pracujeme s datovým souborem PISA 2018, se studentskými dotazníky (ke stažení ).

Pro nominální proměnné je vhodné používat pouze modus, případně frekvenční tabulky.

V našem případě se dostaneme přes Analyze-Descriptive Statistics-Frequencies do dialogového okna níže – necháme zaškrtnuto, že chceme zobrazit i frekvenční tabulky. V tomto případě budeme pracovat s proměnnou Měsíc narození žáka.

 Vstup do Frequencies

Klikneme na Statistics a vybereme Mode (všimněte si, že se jedná o obdobný postup jako při čištění dat, kde jsme vybírali minimum a maximum proměnné). Po potvrzení bude výstup v Outputu vypadat následujícím způsobem.

Output - četnosti a modus

 V první tabulce vidíme, že bylo jako modus označena hodnota 3 – poměrně jednoduše odvodíme, že v případě měsíců narození se bude jednat o březen (případně bychom se podívali do popis hodnot proměnné ve Variable View). Zároveň je tento modus označen poznámkou, že existuje vícero módů a že byl SPSS označen ten s nejnižší hodnotou. Pohledem do druhé tabulky četností zjistíme, že stejnou četnost má i měsíc květen (oba 677).

Pro ordinální proměnné dává smysl (mimo módu) používat i medián. Příkladem ordinální proměnné může být v našem souboru např.  How much do you agree or disagree? Reading is sone of my favourite hobbies. Postupujeme stejně jako v případě hledání módu, ale v tabulce ve Statistics zaškrtneme i medián. Druhou zajímavou kategorií, kterou automaticky získáme, jsou kumulativní četnosti.

Výstupem z SPSS jsou následující dvě tabulky:

 

Statistics

How much do you agree or disagree? Reading is one of my favourite hobbies.

N

Valid

6793

Missing

226

Median

2,00

Mode

2

 

How much do you agree or disagree? Reading is one of my favourite hobbies.

 

Frequency

Percent

Valid Percent

Cumulative Percent

Valid

Strongly disagree

1814

25,8

26,7

26,7

Disagree

2317

33,0

34,1

60,8

Agree

1717

24,5

25,3

86,1

Strongly agree

945

13,5

13,9

100,0

Total

6793

96,8

100,0

 

Missing

No Response

155

2,2

 

 

System

71

1,0

 

 

Total

226

3,2

 

 

Total

7019

100,0

 

 

 Vidíme, že modus i medián jsou v tomto případě shodné. Většina žáků tedy s danou větou nesouhlasí. Pokud se podíváme na kumulativní četnosti, získáváme ještě zajímavější obrázek – skoro 61 % žáků a žaček nesouhlasí s větou, že čtení je jednou z jejich nejoblíbenějších volnočasových aktivit (všimněte si, že se jedná o součet relativní četnosti u „strongly disagree“ a „disagree“).

 Pro intervalové proměnné mají pak smysl výše zmíněné a využití průměrů, percentilů a směrodatné odchylky. Průměr stejně jako v předchozím případě získáme v Analyze-Descriptive Statistics-Frequencies-Statistics. Stejně tak můžeme zjistit směrodatnou odchylku a různé druhy percentilů (v našem případě kvartily). Použili jsme proměnnou Plausible Value 10 in Mathematics (PV10MATH).

 Menu Statistics pro intervalovou proměnnou

 

 Po potvrzení dostaneme následující výsledky:

 

Statistics

Plausible Value 10 in Mathematics 

N

Valid

7019

Missing

0

Mean

515,54925

Median

519,88000

Mode

346,323a

Std. Deviation

94,707439

Percentiles

25

448,88300

50

519,88000

75

584,54200

a. Multiple modes exist. The smallest value is shown

 Průměr naší proměnné je 515,54 bodů, medián je kousek nad ním 519,88 bodů. V našem případě nemá modus přílišné opodstatnění, protože každá z hodnot se vyskytuje pouze jednou, maximálně dvakrát (jako v případě uvedeného módu 346,32). Směrodatná odchylka je 94, 71 bodů. V tabulce takové vidíme kvartily, kdybychom přidali ještě minimální a maximální hodnotu, získáme poměrně přesnou představu o rozložení bodového hodnocení.

 Dobrou variantou, pokud máme v souboru extrémní hodnoty může být tzv. trimmed mean. Jedná se o očištěný průměr, který zahrnuje 95 % hodnot a který vynechává vliv extrémních hodnot. Tento průměr získáme pomocí Analyze-Descriptive Statistics-Explore. Do Dependent list vložíme námi sledovanou proměnnou Plausible Value 10 in Mathematics.

 

Výstupem je následující tabulka.

 

Descriptives

 

Statistic

Std. Error

Plausible Value 10 in Mathematics

Mean

515,54925

1,130437

95% Confidence Interval for Mean

Lower Bound

513,33325

 

Upper Bound

517,76525

 

5% Trimmed Mean

516,54655

 

Median

519,88000

 

Variance

8969,499

 

Std. Deviation

94,707439

 

Minimum

179,546

 

Maximum

800,564

 

Range

621,018

 

Interquartile Range

135,659

 

Skewness

-,162

,029

Kurtosis

-,353

,058

Zajímavou statistikou v této tabulce pro nás je „5% Trimmed Mean“, jehož výše je 516,55 bodů. V našem případě se trimmed mean příliš neliší od průměru celého souboru, což značí, že nemáme velké množství odlehlých hodnot, které by ovlivňovaly výši průměru. 

Aktivita

Zkuste si vypočítat průměr/medián/modus proměnných ve studii PISA 2018. Dávejte pozor, o jaké proměnné se jedná a berte to v potaz. 


Rozšiřující literatura

Rabušic, L., Soukup, P., & Mareš, P. (2019). Statistická analýza sociálněvědních dat (prostřednictvím SPSS) (2., přepracované vydání). Masarykova univerzita.