Seminární cvičení

Deskriptivní analýza dat

Důležité pojmy

Modus = hodnota proměnné s největší četností, předpokládá se tedy, že proměnná nabývá různých hodnot znaku (min. 2 - jinak modus nemá význam), její použití je možné u všech typů proměnných (nominální, ordinální, intervalové). Pokud máme v souboru více módů, je třeba uvažovat nad (ne)homogenitou souboru.

Medián = hodnota, která dělí řadu vzestupně seřazených výsledků na dvě stejné poloviny. Znamená to, že 50 % hodnot je větších nebo rovných mediánu a 50 % hodnot je menších nebo rovných mediánu. U souboru se sudým počtem prvků označujeme za medián aritmetický průměr hodnot na dvou místech kolem středu. Využívá se pro ordinální a intervalové proměnné.

(Aritmetický) průměr = hodnota, která v jistém smyslu vyjadřuje typickou hodnotu popisující danou proměnnou. Její výpočet je součtem všech hodnot, kterých proměnná nabývá, vydělených počtem prvků. Její použití je vhodné především u přibližně normálního rozdělení (více informací např. zde) a intervalových proměnných.

Směrodatná odchylka (v SPSS označena jako st. dev.) = znamená míru rozptylu sady hodnot z jejich průměru a její hodnota je druhou odmocninou rozptylu. Díky její znalosti můžeme odhadovat, jak daleko je vzdálené různé množství případů (viz normální rozložení).

Směrodatná chyba (v SPSS označena jako S.E.) = je číslo, které označuje standardní odchylku v různých hodnotách vzorku. Používá se k porovnání mezi vzorkem a populací. Má velkou roli při testování statistických hypotéz, dává představu o přesnosti a spolehlivosti odhadu. Čím menší je chyba, tím více odpovídá výběrový soubor souboru základnímu.

Četnost = veličina, která udává, kolik hodnot daného znaku se vyskytuje ve statistickém souboru. Můžeme mluvit o absolutní četnosti nebo o relativní četnost. Relativní četnost vyjadřuje procentuální vyjádření absolutní četnosti vůči celkovému počtu.

Osoby	Absolutní četnosti	Relativní četnosti
Ženy	122	51 %
Muži	117	49 %
Celkem	239	100 %

V SPSS se můžeme setkat ještě s tzv. kumulativními četnostmi (Cumulative Percent), ta označuje, jaký podíl představují v souboru případy mající vlastnosti s nižší či stejnou hodnotou. Tento druh četností se používá u ordinálních a intervalových proměnných, u nominálních nemá význam (žádná z kategorií neznamená více nebo méně).

Percentil = označuje relativní umístění vzhledem k ostatním posuzovaným na stupnici od 0 do 100, přičemž 100 je nejvyšší možné umístění

v praxi pak používáme několik typů percentilů – nejčastěji decil, kvartil a kvintil
- decil dělí statistický soubor na desetiny - u prvního decilu platí, že 10 % prvků souboru má hodnoty menší (nebo rovné) hodnotě prvního decilu, 90 % větší (nebo rovné)
- kvartil dělí statistický soubor na čtvrtiny - u prvního kvartilu platí, že 25 % prvků souboru má hodnoty menší (nebo rovné) hodnotě prvního kvartilu, 75 % větší (nebo rovné)
- kvintil dělí soubor na pětiny – u prvního kvintilu platí, že 20 % prvků souboru má hodnoty menší (nebo rovné) hodnotě prvního kvintilu, 80 % větší (nebo rovné)

Minimální hodnota = označuje nejnižší hodnotu proměnné, je užitečnou hodnotou u intervalových proměnných, pro kontrolu je možné její použití i u jiných proměnných

Maximální hodnota = označuje nejvyšší hodnotu proměnné, je užitečnou hodnotou u intervalových proměnných, pro kontrolu je možné její použití i u jiných proměnných

Typy proměnných = pro různé statistické operace musíme být pozorní, s jakými proměnnými pracujeme, např. různé korelační koeficienty jsou vhodné pro různé proměnné, v zásadě rozdělujeme tři druhy proměnných:

nominální proměnné – jsou proměnné, u nichž nejsme schopni nijak odlišit jejich intenzitu, neexistuje více nebo méně. Typickou nominální proměnnou je pohlaví (přestože v datové matici přidělíme např. 1-muž a 2-žena neznamená to, že jedno pohlaví je lepší 😊)
ordinální proměnné – jsou proměnné, u nichž jsme schopni odlišit intenzitu, tzn. můžeme odlišit více nebo méně, ale máme pouze menší množství kategorií (typicky 5-10). Typickou ordinální proměnnou může být výše příjmu, která je rozdělena do několika kategorií (do 9 999; 10 000 – 14 999; 15 000 - 19 999; 20 000 – 29 999; 30 000 – 49 999; 50 000 – 99 999; 100 000 a více)
intervalové proměnné = jsou proměnné, u nichž jsme velmi dobře schopni odlišit intenzitu, máme velké množství kategorií. Typickou intervalovou proměnnou může být výše příjmu, kterou respondent vypisuje číslem.

Jak bylo zmíněno ve slovníčku pojmů, liší se to, které popisné statistiky používáme pro různé proměnné. V následujících případech pracujeme s datovým souborem PISA 2018, se studentskými dotazníky (ke stažení zde).

Pro nominální proměnné je vhodné používat pouze modus, případně frekvenční tabulky.

V našem případě se dostaneme přes Analyze-Descriptive Statistics-Frequencies do dialogového okna níže – necháme zaškrtnuto, že chceme zobrazit i frekvenční tabulky. V tomto případě budeme pracovat s proměnnou Měsíc narození žáka.

Vstup do Frequencies

Klikneme na Statistics a vybereme Mode (všimněte si, že se jedná o obdobný postup jako při čištění dat, kde jsme vybírali minimum a maximum proměnné). Po potvrzení bude výstup v Outputu vypadat následujícím způsobem.

V první tabulce vidíme, že bylo jako modus označena hodnota 3 – poměrně jednoduše odvodíme, že v případě měsíců narození se bude jednat o březen (případně bychom se podívali do popis hodnot proměnné ve Variable View). Zároveň je tento modus označen poznámkou, že existuje vícero módů a že byl SPSS označen ten s nejnižší hodnotou. Pohledem do druhé tabulky četností zjistíme, že stejnou četnost má i měsíc květen (oba 677).

Pro ordinální proměnné dává smysl (mimo módu) používat i medián. Příkladem ordinální proměnné může být v našem souboru např. How much do you agree or disagree? Reading is sone of my favourite hobbies. Postupujeme stejně jako v případě hledání módu, ale v tabulce ve Statistics zaškrtneme i medián. Druhou zajímavou kategorií, kterou automaticky získáme, jsou kumulativní četnosti.

Výstupem z SPSS jsou následující dvě tabulky:

Statistics
How much do you agree or disagree? Reading is one of my favourite hobbies.
N	Valid	6793
	Missing	226
Median		2,00
Mode		2

How much do you agree or disagree? Reading is one of my favourite hobbies.
		Frequency	Percent	Valid Percent	Cumulative Percent
Valid	Strongly disagree	1814	25,8	26,7	26,7
	Disagree	2317	33,0	34,1	60,8
	Agree	1717	24,5	25,3	86,1
	Strongly agree	945	13,5	13,9	100,0
	Total	6793	96,8	100,0
Missing	No Response	155	2,2
	System	71	1,0
	Total	226	3,2
Total		7019	100,0

Vidíme, že modus i medián jsou v tomto případě shodné. Většina žáků tedy s danou větou nesouhlasí. Pokud se podíváme na kumulativní četnosti, získáváme ještě zajímavější obrázek – skoro 61 % žáků a žaček nesouhlasí s větou, že čtení je jednou z jejich nejoblíbenějších volnočasových aktivit (všimněte si, že se jedná o součet relativní četnosti u „strongly disagree“ a „disagree“).

Pro intervalové proměnné mají pak smysl výše zmíněné a využití průměrů, percentilů a směrodatné odchylky. Průměr stejně jako v předchozím případě získáme v Analyze-Descriptive Statistics-Frequencies-Statistics. Stejně tak můžeme zjistit směrodatnou odchylku a různé druhy percentilů (v našem případě kvartily). Použili jsme proměnnou Plausible Value 10 in Mathematics (PV10MATH).

Menu Statistics pro intervalovou proměnnou

Po potvrzení dostaneme následující výsledky:

Statistics
Plausible Value 10 in Mathematics
N	Valid	7019
	Missing	0
Mean		515,54925
Median		519,88000
Mode		346,323^a
Std. Deviation		94,707439
Percentiles	25	448,88300
	50	519,88000
	75	584,54200
a. Multiple modes exist. The smallest value is shown

Průměr naší proměnné je 515,54 bodů, medián je kousek nad ním 519,88 bodů. V našem případě nemá modus přílišné opodstatnění, protože každá z hodnot se vyskytuje pouze jednou, maximálně dvakrát (jako v případě uvedeného módu 346,32). Směrodatná odchylka je 94, 71 bodů. V tabulce takové vidíme kvartily, kdybychom přidali ještě minimální a maximální hodnotu, získáme poměrně přesnou představu o rozložení bodového hodnocení.

Dobrou variantou, pokud máme v souboru extrémní hodnoty může být tzv. trimmed mean. Jedná se o očištěný průměr, který zahrnuje 95 % hodnot a který vynechává vliv extrémních hodnot. Tento průměr získáme pomocí Analyze-Descriptive Statistics-Explore. Do Dependent list vložíme námi sledovanou proměnnou Plausible Value 10 in Mathematics.

Menu Explore a zjišťování trimmed mean

Výstupem je následující tabulka.

Descriptives
			Statistic	Std. Error
Plausible Value 10 in Mathematics	Mean		515,54925	1,130437
	95% Confidence Interval for Mean	Lower Bound	513,33325
		Upper Bound	517,76525
	5% Trimmed Mean		516,54655
	Median		519,88000
	Variance		8969,499
	Std. Deviation		94,707439
	Minimum		179,546
	Maximum		800,564
	Range		621,018
	Interquartile Range		135,659
	Skewness		-,162	,029
	Kurtosis		-,353	,058

Zajímavou statistikou v této tabulce pro nás je „5% Trimmed Mean“, jehož výše je 516,55 bodů. V našem případě se trimmed mean příliš neliší od průměru celého souboru, což značí, že nemáme velké množství odlehlých hodnot, které by ovlivňovaly výši průměru.

Aktivita

Zkuste si vypočítat průměr/medián/modus proměnných ve studii PISA 2018. Dávejte pozor, o jaké proměnné se jedná a berte to v potaz.

Rozšiřující literatura

Rabušic, L., Soukup, P., & Mareš, P. (2019). Statistická analýza sociálněvědních dat (prostřednictvím SPSS) (2., přepracované vydání). Masarykova univerzita.

Předchozí

Následující

Seminární cvičení
- Nyní studovat
  
  Seminář 1
- Nyní studovat
  
  Seminář 2
- Nyní studovat
  
  Seminář 3
- Nyní studovat
  
  Seminář 4
  - Dotazník
  - Datová matice
- Nyní studovat
  
  Seminář 5

Operace

Prohlédnout vše

Interaktivní osnova

Deskriptivní analýza dat

Operace