PSY117/454 Statistická analýza dat v psychologii II Seminář 7 - 8 Analýza rozptylu Srovnávání více než dvou průměrů Omezení t-testu ot-test umožňuje srovnání pouze dvou průměrů nVíce skupin ( j ) >> mnoho porovnání: j ( j -1)/2 oVíce srovnání způsobuje strmý růst pravděpodobnosti chyby I. typu nnapř. při a=0,05 a 20 testech p=0,64 (1 nebo více chyb) oaplikace binomického rozložení nPlatí to pro jakýkoli statistický test (zejm. korelace) oJe nevhodné provádět velké množství testů na jedněch datech (cca >5) nZneužití se označuje jako rybaření v datech – capitalizing on chance nLze kompenzovat korekcí hladiny a (Bonferroniho korekce), avšak za cenu značného snížení síly testu (1-b). oMísto a testujeme na hladině a ’=a/N, kde N je počet prováděných testů. AJ: multiple tests, capitalizing on chance, Bonferroni correction, statistical power Řešení = Analýza rozptylu (ANOVA) oTestuje na více skupinách jen jednu hypotézu: oJe někde mezi skupinovými průměry někde rozdíl? nJe rozdíl v životní spokojenosti adolescentů žijících s oběma rodiči (1), pouze matkou (2) a matkou a nevlastním otcem(3)? nH0: m1 = m2 = m3 oJe-li odpověď „ano“ (p a), pak bychom neměli (rybaření) o o AJ: ANalysis Of Variance, post-hoc tests (multiple comparisons) Zde už mluvíme o dichotomickém rozhodování. 1. terminologická vložka - ANOVA oANOVA = ANalysis Of Variance = analýza rozptylu ni přes svůj název jde o srovnávání průměrů oANOVA zjišťuje vztah mezi kategoriální nezávislou a intervalovou závislou. nkategoriální nezávislá = faktor (factor, „-way“) nhodnoty kategoriální nez. = úrovně (level, treatment) oZjištěný rozdíl = efekt, účinek (effect) Anově táhne na stovku a vymyslel ji zemědělský statistik Fisher. Je velmi spojena s experimentálním výzkumem v soc. vědách a má svou vlastní terminologii. Pro porozumění je třeba ji znát. Princip ANOVY 1. ¨ rozptyl = MS = mean square ¨ MSwithin : variabilita uvnitř skupin (MSe, error, R) ¨MSwithin=SSwithin/n – j ¨ MSbetween : s2 spočítaný ze skupinových průměrů, variabilita uvnitř skupiny je ignorována (též MSA, MSM) ¨ MSbetween=SSbetween/j -1 Platí-li H0, jaký čekáme vztah mezi Msbetween a Mswithin ? Princip ANOVY – F -test oČím jsou si průměry podobnější, tím je rozptyl mezi skupinami nižší (MSbetween se blíží 0) oČím nižší je rozptyl uvnitř skupin (MSwithin se blíží 0), tím průkaznější se průměry mezi skupinami zdají být. oDůležitý je poměr těchto dvou odhadů rozptylu: o oČím vyšší je F-poměr, tím průkaznější jsou rozdíly mezi průměry (rozsah je 0 až ∞ ) oF -poměr má jako výběrová statistika F -rozložení o Princip ANOVY – dělení rozptylu. oDělení variability (rozptylu) podle zdrojů jako u lineární regrese oXij =m + aj + eij nXij = skóre jedince (i-tý jedinec v j-té skupině) nm = průměr populace na = vliv příslušnosti ke skupině (vliv úrovně faktoru) neij= chyba (vše, s čím nepočítáme, individuální prom.) oXij – m = (m – mj ) + (Xij – mj ) oodchylka od celkového průměru = odchylka od skupinového průměru + odchylka skupinového průměru od celkového průměru n… odchylky umocněné na druhou = cesta k rozptylu oSSTotal = SSBetween (A,Model) + SSWithin(Error, R) oMSTotal; MSError; MSA Velikost účinku (efektu) oPodobně jako u regrese chceme vědět, jaká část rozptylu závislé je vysvětlená nezávislou oEkvivalentem R 2 je u anovy h2 (eta) nh2=SSBetween/SSTotal nPoněkud přesnější je w2 =(SSM-dfMMSR)/(SST+MSR) oPro konkrétní rozdíl průměrů dCoh = m1-m2/√MSWithin o oVelikost účinku je vždy třeba uvádět Předpoklady použití ANOVY onormální rozložení uvnitř skupin npři nj>30 a n1=n2=…=nj je ANOVA robustní ostejné rozptyly uvnitř skupin: homoskedascita ndo smax/smin<3 je ANOVA robustní, zváště při n1=n2=…=nj onezávislost všech pozorování npři opakovaných měřeních je třeba použít ANOVU pro opakovaná měření o oviz Hendl 343 Dnešní program oOne-way ANOVA nkontrasty a post-hoc testy ONEWAY oFaktoriální (two-way, three-way...) ANOVA ninterakce UNIANOVA oAnalýza kovariance – ANCOVA nkontrola intervenující proměnné oANOVA s více závislými - MANOVA o Životní spokojenost a rodina oDomníváme se, že kompletní rodina je základ životní spokojenosti. nH1: Mkomplet > Mnekomplet oZajímá nás, zda se liší chybění otce a jeho nahražení nevlastním otcem nH2: Mbez otce ≠ Mnevlastní otec n o o Kontrasty oI když můžeme srovnat všechny průměry se všemi ostatními, platíme za to velkou ztrátou síly oŘešením jsou předem plánovaná srovnání – KONTRASTY oLze srovnat kterékoli 2 skupiny nebo skupiny skupin nnapř. 1. skupinu se průměrem všech ostatních, kontrolní skupinu se každou ze zbývajících skupin zvlášť oRealizuje se zvláštním kódováním npři platnosti nulové hypotézy je součet vážených průměrů 0 oH1: 1. vs (2. a 3.) ..... -2 1 1 oH2: 2. vs 3. ..... 0 -1 1 o Post-hoc testy (simultánní porovnávání) oPo (a pouze po) prokázání „nějakých“ rozdílů mezi průměry obvykle chceme vědět, mezi kterými skupinami konkrétně rozdíly jsou: post-hoc testy oSrovnáváme každou skupinu s každou způsobem, který nezpůsobí nárůst a. oJe-li důležité udržet a pod kontrolou, je správnou volbou Scheffeho test nebo Tukeyho HSD – volba pro rybaření oMáte-li stejně velké skupiny (balanced design) - REGWQ oPokud to a kritická a máte-li pár kvazi-hypotéz na mysli, pak je volbou Student-Neuman-Keuls (S-N-K) oExtrémně „dajný“ a nepříliš vhodný pro více než 3 skupiny je LSD a proto se nedoporučuje. oPři nesplnění homoscedascity – Games-Howell oField 339 Faktoriální ANOVA ovíce faktorů ... možnost interakce mezi nimi ofixed vs. random faktory o oLiší se výkonová motivace podle věku a pohlaví? nINT: Jsou případné genderové rozdíly shodné v obou kohortách? oLiší se výkonová motivace mezi školami a podle pohlaví? nINT: Liší se genderové rozdíly škola od školy? o Analýza kovariance oVelká variabilita závislé může zastírat rozdíly. Dokážeme-li část její variability vysvětlit nějakým prediktorem, můžeme hledat rozdíly pouze ve zbývající části rozptylu závislé. ostatistická kontrola – jako parciální korelace a regrese oProměnnou, jejíž vliv chceme kontrolovat, vkládáme jako kovariát MANOVA oMáme-li více závislých oOpatrně. o Shrnutí oANOVA je pro situace s intervalovou závislou a více kategorickými nezávislými – porovnávání mnoha průměrů oFaktory mohou být fixní nebo náhodné oANOVA je podobná regresi – pro interpretaci je dobré si vyžádat „parametry“, tj. regresní váhy oLze testovat konkrétní hypotézy – kontrasty oLze testovat všechny možné rozdíly průměrů – post hoc oLze uvažovat o kombinovaném vlivu faktorů – interakce oLze kontrolovat vliv intervenujících proměnných – kovariáty - ANCOVA oLze mít i více závislých najednou – MANOVA - opatrně