PSY117 Statistická analýza dat v psychologii Přednáška 10 2017 Statistické testování hypotéz II Přehled testů, rozdíly průměrů, velikost účinku, síla testu The great tragedy of Science – the slaying of a beautiful hypothesis by an ugly fact Thomas Huxley o o o Základní výzkumné otázky/hypotézy 1.Stanovení hodnoty parametru v populaci nstanovení intervalu spolehlivosti na m, s, r, b… nsrovnání statistiky s hypotetickou hodnotou – konstantou oKorelace mezi proměnnými okorelace, regrese, chí-kvadrát oH1: r ≠0 … H0: r =0 onapř. Mezi věkem a počtem návštěv lékaře za rok existuje lineární korelace. 2.Rozdíl mezi skupinami/vzorky - populacemi nmezi průměry, korelacemi, rozptyly, pravděpodobnostmi, pořadími…. nlze srovnávat 2 i více skupin-populací nnapř. H1: m1-m2 ≠ 0 … H0: m1-m2=0 nnapř. Muži a ženy se liší v míře úzkostnosti. oRozdíl průměrů lze převést na korelaci a naopak - obecně mluvíme o velikosti efektu/účinku •AJ: difference, association, effect size, two-tailed, one-tailed (directional) JEDNOVÝBĚROVÉ TESTY VÍCEVÝBĚROVÉ TESTY Upozornit, že hypotézy formulujeme vždy v řeči parametrů. Výběrové statistiky nikoho nezajímají. o o Přehledy statistických testů oreceptář Oseckých třídění podle opočtu výběrů(skupin) – 1, 2, nebo více oúrovně měření – alternativní, nominální, pořadová, intervalová otypu procedury – interval spolehlivosti, test hypotézy, velikost potřebného výběru oHendl – kapitola 12 a str. 235 (245 ve 3. vydání) oonline nhttp://www.graphpad.com/www/book/Choose.htm nhttp://www.whichtest.info nhttp://www.socialresearchmethods.net/selstat/ssstart.htm oSheskin, D.J.: Handbook of parametric and nonparametric statistical procedures. CRC press, 2004. oKanji, G.K.: 100 statistical tests. Sage, 2006. Př.: Testy na rozdíly 2 středních hodnot oIntervalová závislá – rozdíly průměrů npárový test: párový t-test nnezávislé skupiny: oznámý rozptyl v populaci: z-test oneznámý rozptyl v populaci: t-test pro nezávislé skupiny nvarianta pro stejné a nestejné rozptyly mezi skupinami oOrdinální závislá – rozdíly mediánů, průměrného pořadí npárový test: binomický znaménkový test, Wilcoxonovo T (int) nnezávislé skupiny: Mann-Whitney U oNominální závislá – shoda rozložení npárový test: McNemarův test (dichotomie), Bowkerův test symetrie nnezávislé skupiny: chí-kvadrát oAJ: sign test, chi-square, Wilcoxon T, Mann-Whitney U, paired(-samples) t-test (dependent, repeated measures), one-sample t-test, independent samples t-test Zde už mluvíme o dichotomickém rozhodování. Nejsou-li splněny předpoklady pro test na vyšší úrovni měření, musíme jít níž. Co je potřeba znát? oTestů v přehledech je mnoho… oPro každý je třeba znát núčel použití, testovaná hypotéza npředpoklady použití (úroveň měření, normalita) ninterpretace výsledků (sjetiny z počítače) oCo je třeba umět (ručně) spočítat? nvšechny varianty t-testu (z-testu) nstatistická významnost Pearsonova korelačního koeficientu nchí-kvadrát testy Srovnání 2 nezávislých průměrů: t -test oPředpoklady použití ... jsou-li výrazně porušeny, volíme raději neparametrický test nintervalová proměnná je v populaci normálně rozložená - neřeší se, je-li n1,n2 >30 nhomogenita rozptylů (homoscedascita), pokud n1 ≠ n2 nřeší modifikace t-testu pro nestejné rozptyly (6.2.3) ntestuje se Levenovým testem (od oka s12/s22<2) nnezávislost pozorování - řeší párový t-test (pro závislé výběry) (6.2.4) oH0: m1 – m2 = 0 (nebo roven konstantě, nebo >/< 0 či c) a zvolíme a = 1%, 5%, nebo 10% oRozdíl průměrů d má o směrodatnou chybu sd= √{[((n1 – 1)s12+(n2 – 1)s22)/(n1+n2 – 2))]*[1/n1+1/n2]} o t-rozložení s n1+n2 – 2 stupni volnosti (n ) oSpočítáme testovou statistiku t = (m1 – m2)/sd = d/sd oZjistíme jaká je p (t ≥ |zjištěná hodnota|) - tabulky, T.DIST(t , n, 1) oJe-li p ≥ a, pak H0 zůstává platná, je-li p < a, H0 zamítáme (a konstatujeme existenci statisticky významného rozdílu). oSpočítáme Cohenovo d a interval spolehlivosti pro rozdíl průměrů. • •s2pooled Příklad: t-test pro nezávislé výběry oH: Lidé s nízkou a vysokou depresivitou se liší v míře úzkostnosti. nH0: d = mN – mV= 0 nnasbíraná data: mN=2; mV = 3; sN=1,5; sV= 1,6; nN= nV = 20 nH0 budeme testovat na 5% hladině statistické významnosti, a = 0,05 oPředpoklady splněny >> provádíme t-test pro nezávislé výběry (6.2.2) orozdíl d = mV – mN = 3 – 2 = 1 osd= √{[((20 – 1)1,52+(20 – 1)1,62)/(20+20 – 2))]*[1/20+1/20]}=0,49 orozdíl má t-rozložení s nN+nV – 2 = 38 stupni volnosti ot = (mV – mN)/sd = 1/0,49 = 2,04 op (t ≥|2,04|) je při n = 38 rovna 0,048 2*(1-T.DIST(2,04;38;1))=0,048 op < a, takže zamítáme H0. Pokud by H0 platila, zjištěný rozdíl by byl nepravděpodobný. o95% interval spolehlivosti: 0,025t(38) = T.INV(0,025;38) = 2,02 n d – 2,02*sd < d < d + 2,02*sd , tj. 0,02 < d < 1,98 oCohenovo d = |1|/1,55 =0,65 , což je středně velký efekt. Srovnání 2 závislých m: párový t -test oPředpoklady použití ... jsou-li výrazně porušeny, volíme raději neparametrický test nintervalová proměnná je v populaci normálně rozložená - neřeší se, je-li N >30 o2 ekvivalentní podoby testu, postupy: a)pro každého člověka spočítat rozdíl di=x1i-x2i a pak udělat jednovýběrový t-test testující H0: d=0 b)Nemáme-li data, je popisné statistiky pro srovnávané skupiny, pak… oH0: m1 – m2 = 0 (nebo roven konstantě, nebo >/< 0 či c) a zvolíme a = 1%, 5%, nebo 10% oRozdíl průměrů d má směrodatnou chybu sd= √((s12+s22 – 2rs1s2)/N) o t-rozložení s N – 1 stupni volnosti (n ) oSpočítáme testovou statistiku t = (m1 – m2)/sd = d/sd oZjistíme jaká je p (t ≥ |zjištěná hodnota|) - tabulky, T.DIST(t , n, 1) oJe-li p ≥ a, pak H0 zůstává platná, je-li p < a, H0 zamítáme (a konstatujeme existenci statisticky významného rozdílu). oSpočítáme Cohenovo d a interval spolehlivosti pro rozdíl průměrů. Příklad: párový t-test oH: Lidé se liší v míře prožívané úzkosti před zkouškou a po zkoušce. nH0: d = mPŘED – mPO= 0 nnasbíraná data: mPŘED=2; mPO = 3; sPŘED=1,5; sPO= 1,6; N = 20; r=0,6 nH0 budeme testovat na 5% hladině statistické významnosti, a = 0,05 oPředpoklady splněny >> provádíme párový t-test (6.2.4) orozdíl d = mPŘED – mPO = 3 – 2 = 1 osd= √(1,52+1,62 – 2*0,6*1,5*1,6)/20=0,31 orozdíl má t-rozložení s N – 1 = 19 stupni volnosti ot = (mPŘED – mPO)/sd = 1/0,31 = 3,23 op (t ≥|3,23|) je při n = 19 rovna 0,004 2*(1-T.DIST(3,23;19;1))=0,0044 op < a, takže zamítáme H0. Pokud by H0 platila, zjištěný rozdíl by byl nepravděpodobný. o95% interval spolehlivosti: 0,025t(19) = T.INV(0,025;19) = 2,09 n d – 2,09*sd < d < d + 2,09*sd , tj. 0,35 < d < 1,65 oCohenovo d = |1|/1,55 =0,65 , což je středně velký efekt. Velikost účinku/efektu oMožnost srovnání mezi studiemi zkoumajícími tutéž výzkumnou otázku pomocí různě operacionalizovaných proměnných oMožnost srovnání velikosti efektu vyjádřeného různými koeficienty oSnadnější interpretace oPro rozdíly středních hodnot oCohenovo d = |m1 – m2|/spooled ; spooled= √[((n1 – 1)s12+(n2 – 1)s22)/(n1+n2 – 2))] ovarianta d’ = |m1 – m2|/scon ; scon= s kontrolní skupiny oPro těsnost vztahu (korelace) or a r2, R2, h2(eta), w2 – podíl vysvětleného rozptylu závislé proměnné oIndikátory velikosti efektu lze mezi sebou navzájem převádět oCohenovo d na r : r = √(d 2/(d 2+ 4)) or na Cohenovo d : d = 2r /√(1 – r 2) o oAJ: effect size, Cohen’s d, strength of association, explained variance ohttps://en.wikipedia.org/wiki/Effect_size Effect sizes for research : a broad practical approach / Robert J. Grissom, John J. Kim. Síla testu oSíla testu (1-b) je pravděpodobnost, že existující rozdíl bude detekován, zjištěn jako statisticky významný. oZáleží na nskutečné velikosti účinku (d , r…) nvariabilitě proměnné(ých) – s,s nvelikosti vzorku n nzvoleném riziku chyby I. typu, a : čím nižší je a tím nižší je síla nzvoleném testu (parametrické mají vyšší sílu) oObvykle toužíme po co nejvyšší síle testu, cca 0,8 a výše. nBojujeme o ni především velikostí vzorku a kontrolou intervenujících proměnných (snižuje s). A priori stanovení N pro dosažení potřebné síly testu oPro každý test hypotézy stanovujeme trochu jinak opř:jednovýběrový t-test: n>(z1-a/2+ z1-b)2(1/d2) oG*Power http://www.gpower.hhu.de/en.html nstanovení potřebné velikosti vzorku pro běžně testované hypotézy nmanuál: http://www.gpower.hhu.de/fileadmin/redaktion/Fakultaeten/Mathematisch-Naturwissenschaftliche_Fakult aet/Psychologie/AAP/gpower/GPowerManual.pdf Příklad na něčem, co známe: muži a ženy se liší výškou (180 vs 167) sd pro jednoduchost 7. Kolik lidí potřebujeme pro něco, co považujeme za zjevné? Publikace výsledků testování hypotéz oPrimárně udáváme velikost efektu, nejlépe i s intervalem spolehlivosti oSekundárně udáváme výsledek statistického testování nudáváme získanou hodnotu p (Sig.) nuvádíme i testovou statistiku (i se stupni volnosti) – r, t(n), F (n1,n2), c2, M-W U… nPř. Průměr spokojenosti mužů je o 10 bodů vyšší než průměr spokojenosti žen, 95% CI (8;12), t(200)=4,8, p<0,001, Cohen d=0,68. oInterpretujeme nejlépe interval spolehlivosti. Výsledek statistického testování interpretujeme vzhledem k použité nulové hypotéze. Testy normality rozložení oKolmogorov-Smirnov s Lillieforsovou korekcí, Shapiro-Wilk, D’Agostino-Pearson a jiné oTestují H0, že rozložení proměnné se neliší od normálního rozložení njsou to jedny z tzv. testů dobré shody (goodness-of-fit tests) ntestovaná H0 je shoda; tj. p 1000) jsou naopak extrémně přísné nt-testy a ANOVA jsou proti narušení normality robustní, takže nám obvykle stačí konstatovat unimodalitu bez extrémního zešikmení npro rozhodování mezi použitím parametrických a neparametrických testů volíme spíše úroveň měření a velikost vzorku o oAJ: tests of (univariate) normality, goodness-of-fit tests oVíce: http://www.psy.surrey.ac.uk/cfs/p8.htm, http://www.graphpad.com/library/BiostatsSpecial/article_197.htm „Test signifikance“ Pearsonova korelačního koeficientu o„Testem signifikance“ se míní test H0: r=0 oPokud H0: r=0, pak oZ=FISHER(r) má normální výběrové rozložení se sZ=1/√(n-3) oz=FISHER(r)/sZ ~ N(0;1) oP(D|H0)=2*(1 − NORM.S.DIST(Z/sZ;1) pro oboustrannou (non-directional) H1 o oPokud H0: r=c, pak oDZ=(FISHER(r)−FISHER(c)) má normální výběrové rozl. se sZ=1/√(n-3) oz=DZ/sZ ~ N(0;1) oP(D|H0)=2*(1 − NORM.S.DIST(DZ/sZ;1) pro oboustrannou H1 o o Příklady na test signifikance r or=0,5; N=20 nsZ=1/√(20-3)=0,24 nz=fisher(0,5)/0,24=0,55/0,24=2,26 nP(z≥2,26|Z=0)=2*(1-NORM.S.DIST(2,26;1))=0,02 or=0,6; N=10 nsZ=1/√(10-3)=0,38 nz=fisher(0,6)/0,38=0,69/0,38=1,83 nP(z≥1,83|Z=0)=2*(1-NORM.S.DIST(1,83;1))=0,07 or=0,4; N=20; H0: r=0,8 nsZ=1/√(20-3)=0,24 nz=(fisher(0,8)−fisher(0,4))/0,24=(1,1-0,42)/0,24=0,67/0,24=2,78 nP(z≥2,78|Z=0)=2*(1-NORM.S.DIST(2,78;1))=0,005 n n