SOC108/708 LEKCE 6: SROVNÁVÁNÍ SKUPIN NA ZÁKLADĚ STŘEDNÍCH HODNOT JEJICH KARDINÁLNÍCH CHARAKTERISTIK (c) Petr Mareš a Ladislav Rabušic LEKCE 06 PŘÍKLAD ANOVA -- One-Way Při t testu jsme testovali nulovou hypotézu, že průměry dvou skupin jsou v populaci stejné. Není to příliš obvyklá situace, neboť při srovnávání průměrů máme často skupin více: např. nás zajímá, jak se liší důležitost Boha v životě jedince podle věkových skupin nebo podle vzdělání apod. Proto si nyní ukážeme, jak testovat nulovou hypotézu, že několik průměrů různých skupin jsou v populaci stejné. Procesura, která se k tomu používá, se nazývá analýza rozptylu (analysis of variance), často zkracovaná jako ANOVA. Test analýzy rozptylu získal své jméno od způsobu analýzy, zkoumá totiž variabilitu (rozptyl) v datech výběrového souboru. Sleduje přitom dvojí variabilitu: jednak zkoumá, jak mnoho se liší hodnoty uvnitř jednotlivých skupin (within- groups variability), jednak analyzuje, jak mnoho se liší průměry mezi skupinami (between-groups variability). To, že pro testování rozdílů v populačních průměrech používáme analýzu variability, je naprosto v pořádku, neboť závěry o populačních průměrech se vždy dělají na základě analýzy variability výběrových dat. V daném příkladě jsme použili tu nejjednodušší variantu ANOVY, tzv. jednovýchodnou (one-way analysis of variance), neboť jsme srovnávali, jak se liší hodnoty závisle proměnné u skupin jedné nezávisle proměnné. Této proměnné se říká faktor a z tohoto důvodu se tato technika také někdy nazývá jednofaktorovou analýzou rozptylu. Pokud bychom řešili úlohu, jak se např. liší průměrné postoje k důležitosti Boha pro věkové kategorie a uvnitř nich ještě podle vzdělanostních skupin, museli bychom požít tzv. dvojvýchodnou analýzu rozptylu (two-way analysis of variance), neboť nezávisle proměnné (nebo též faktory) máme dvě, to je věk a vzdělání. Jaké předpoklady musí být splněny, abychom mohli ANOVu použít? 1. Jednotlivá pozorování musí být na sobě nezávislá. Tento předpoklad je v sociologických šetřeních vždy bez problémů, výzkumné designy s opakovaným měřením stejných subjektů (respondentů) nejsou příliš časté. 2. Rozložení v populaci je normální. Tento předpoklad se v praxi často zanedbává, v úvahu musí být brán pouze tehdy, pokud jsou naše data rozložena extrémně nenormálně. 3. Rozptyly v populaci jsou stejné. V praxi je tento předpoklad naplněn tehdy, když jednotlivé skupiny mají přibližně stejný počet jednotek. Jinak je možné tento předpoklad testovat pomocí Levenova testu pro shodnost rozptylů. Pokud data tyto předpoklady nesplňují, je třeba učinit následující kroky. V případě nenormálního rozložení je možno data transformovat (např. logaritmováním nebo druhou odmocninou). Pokud ani tato transformace nepomůže, je třeba použít adekvátní náhrady, jíž je v tomto případě neparametrický test Kruskal-Wallisův. Příklad 7.1: Je v souboru EVS_ČR1999.sav důležitost Boha (q33) vnímána rozdílně různými věkovými skupinami (vek-kat? Řešení Nejdříve se podívejme, jak tyto průměry v těchto skupinách vůbec vypadají. Použijme procedury Means a Graphs --Line -- Simple -- Define -- Other summary function. Rozdíly zde, jak vidíme, skutečně jsou. Jelikož desetibodová měřicí stupnice byla orientována od nedůležitosti k vysoké důležitosti, vidíme, že nejvyšší důležitost přisuzují Bohu nejstarší respondenti, nejméně naopak respondenti mezi 30--39 lety (Naleznete sociologické vysvětlení pro tento výsledek?). Obr. 7.1: Opět pozor, impresivnost rozdílů opět zmizí, když na vertikální osu necháme vynést celou desetibodovou stupnici -- graf tedy musíme ve výstupu z SPSS editovat. Obr. 7.2 Nyní si nechejme udělat graf intervalů spolehlivosti pro jednotlivé skupiny: (Graphs -- Error Bar -- Simple -- Define -- Variable (q33) -- Category Axis (vek-kat -- Confidence intreval for Mean 95 % -- v Options nezapomeňte zrušit kategorii Missing values) Obr. 7.3 Už tento obrázek mnohé naznačuje o signifikanci rozdílů. Průměry těch skupiny, jejichž "vousy" se v grafu nepřekrývají budou statisticky významně odlišné. V našem obrázku to jsou všechny mladší věkové skupiny oproti skupinám nad 60 let. Přesvědčeme se o tom i výpočtem pro analýzu rozptylu (Compare Means -- One-Way Anova). Když si v Options zaškrtnete Descriptives, získáte nejdříve tuto tabulku (viz níže), v níž jsou základní důležité údaje popisné statistiky. Tabulka analýzy rozptylu ANOVA (viz níže) již skýtá nezbytné údaje pro zodpovězení testu, zdali se průměry od sebe statisticky odlišují. Testujme nulovou hypotézu, že rozdíly v průměrech mezi všemi šesti věkovými skupinami budou nulové, že tedy mezi skupinami nebude žádný rozdíl. Alternativní hypotézou je předpoklad, že průměry se liší. Důležitými údaji v tabulce jsou statistika F a její signifikance. Hodnota F vzniká jako podíl variability mezi skupinami a variability uvnitř skupin, konkrétně jejich průměrů součtu druhých mocnin směrodatných odchylek (v tabulce sloupec Mean Square). V našem případě je tedy hodnota F rovna podílu 245,813 / 8,715 = 28,206. Pokud platí nulová hypotéza, že rozdíly mezi průměry jsou nulové, musí být obě průměrné hodnoty druhých mocnin podobné a jejich vzájemný poměr (F) tedy musí být blízko 1. Náš poměr se od jedné hodně liší. Srovnáme-li vypočtenou F hodnotu s F rozložením1 (to dělá samozřejmě SPSS), zjistíme, zdali je možno nulovou hypotézu podržet, či nikoliv. Podíváme-li se na signifikanci tohoto rozdílu, vidíme, že pravděpodobnost podržet nulovou hypotézu je velmi nízká (0,000), takže nulovou hypotézu zamítáme a můžeme si být jisti, že průměry budou v základním souboru nestejné, budou se lišit. Statisticky signifikantní F nám ovšem říká pouze to, že je velmi nepravděpodobné, že populační průměry jsou shodné. To ale není výsledek, který by nás plně uspokojil. Cílem naší analýzy je totiž zjistit, mezi kterými konkrétními skupinami se tento rozdíl objevuje. Možná se odlišuje všech pět skupin navzájem, ale možná také se liší jen některé z nich. Proto v testování pokračujeme dále. A jelikož tento test je aplikován až poté, kdy data už byla částečně analyzována, uplatníme tzv. post-hoc (následnou) proceduru tzv. mnohonásobného srovnání (Post Hoc Multiple Comparison). Zadáme ji tak, že v dialogovém okně ANOVY klikneme myší na tlačítko Post Hoc. Celý postup tedy vypadá takto: Procedura: STATISTICS COMPARE MEANS ONE-WAY ANOVA Dependent list (g33), factor (vek-kat) Post Hoc Bonferroni -- Signifikance level: ,05 (Pozn.: Doporučuje se užívat buď Bonferroniho testu nebo testu Tukeyho. LSD test je příliš liberální a Scheffeho test je naopak příliš konzervativní (přísný).) V tabulce Multiple Comparisons (viz níže) jsou uvedeny výsledky všech kombinací párového srovnání průměrů, na každém řádku jsou vždy porovnávány dvě skupiny. Např. v prvním bloku šesti řádků se srovnávají průměrné hodnoty respondentů ve věku 18-29 let se základním vzděláním se všemi ostatními věkovými kategoriemi. Ze všech údajů, které jsou v tabulce mnohonásobného srovnání uvedeny, jsou pro interpretaci nejdůležitější hodnoty v druhém sloupci (označeném Mean Difference), kde jsou uvedeny rozdíly v jednotlivých dvojicích průměrů. Zajímají nás především ty hodnoty, které jsou označeny hvězdičkou. Ta signalizuje, že daný rozdíl je statisticky významný s 95% pravděpodobností. Dokazuje to sloupec čtvrtý (Sig.), v němž je uvedena přesná hodnota signifikance - všude, kde je druhém sloupci hvězdička, má vypočtená signifikance hodnotu nižší než 0,05. Výsledky analýzy rozptylu tak říkají, že rozdíly v postojích k důležitosti Boha u různých věkových kategorií, který jsme zjistili v datech našeho výběrového souboru, nevznikl díky náhodné výběrové chybě, takže je možné je očekávat i v základním souboru, v daném případě tedy mezi obyvateli ČR, neboť z něj byl vzorek pořízen. Statisticky významné rozdíly však nejsou mezi všemi vzdělanostními kategoriemi navzájem -- signifikantně se odlišují respondenti věkových skupin 60-69 a 70-79 od všech skupin věkově mladších. Lidé těchto starších věkových skupin jsou v průměru více přesvědčeni o důležitosti Boha než lidé mladší. Signifikantně se také odlišují skupina 30-39letá od skupiny 50-59 let. Meritorně se ovšem o příliš výrazné rozdíly nejedná, jak jsme viděli v grafu 7.2. Hodnoty všech skupin jsou totiž umístěny v první polovině stupnice, to je v oblasti, která vnímá Boha spíše jako nedůležitého. Zobecnění postupu jednotlivých kroků v ANOVĚ: 1. Nejdříve zjistíme, zdali jsou v rozptylech signifikantní rozdíly. Není-li F test signifikatní (to když je jeho sig. větší než 0,05), končíme analýzu a dále nepokračujeme. 2. Pokud F signifikantní je (meší než 0,05), provedeme tzv. post hoc srovnání, abychom zjistili, které skupiny (kategorie) se od sebe odlišují z hlediska průměrných hodnot. K tomu využijeme buď testu Bonferroniho nebo Tukeyho. * * * Kruskal-Wallisův test aneb neparametrický bratranec jednovýchodné analýzy rozptylu Pokud jsou předpoklady pro použití ANOVY výrazně porušeny, měli bychom použít neparametrického ekvivalentu ANOVY, jímž je Kruskal-Wallisův test. Ten srovnává ne průměry, nýbrž pořadí (ranks). Procedura: Analyze -- Nonparametric tests -- K Independent Samples -- Test variable List: q33 -- Grouping Variable: vek_kat -- Define Range -- Minimum: 1 -- Maximum: 6 Výstup Kruskal-Wallisova testu I v tomto testu vycházejí rozdíly mezi jednotlivými skupinami jako statisticky vysoce významné (Signifikance, že můžeme podržet nulovou hypotézu je 0,000). Nulovou hypotézu zamítáme a očekáváme rozdíly v průměrech i v základním souboru. Kruskal- Wallisův test bohužel neumí testovat signifikanci rozdílů mezi jednotlivými skupinami nezávisle proměnné. _______________________________ 1 F rozložení je matematický model rozložení. V případě, že pracujeme s rozptyly, nemůžeme při testování hypotéz použít ani modelu normálního rozložení, ani t-rozložení, neboť rozložení rozptylů není normální.