PSY117/454 Statistická analýza dat v psychologii Přednáška 9 Statistické testování hypotéz II Přehled testů, rozdíly průměrů, velikost účinku, síla testu Základní výzkumné otázky/hypotézy 1. Stanovení hodnoty parametru v populaci stanovení intervalu spolehlivosti na , , , b... srovnání statistiky s hypotetickou hodnotou ­ konstantou Korelace mezi proměnnými korelace, regrese, chí-kvadrát H1: <>0 ... H0: =0 např. Mezi věkem a počtem návštěv lékaře za rok existuje lineární korelace. 2. Rozdíl mezi skupinami/vzorky - populacemi mezi průměry, korelacemi, rozptyly, pravděpodobnostmi, pořadími.... lze srovnávat 2 i více skupin-populací např. H1: 1-2<>0 ... H0: 1-2=0 např. Muži a ženy se liší v míře úzkostnosti. Rozdíl průměrů lze převést na korelaci a naopak - obecně mluvíme o velikosti efektu/účinku AJ: difference, association, effect size, two-tailed, one-tailed (directional) Přehledy statistických testů receptář Oseckých třídění podle počtu výběrů(skupin) ­ 1, 2, nebo více úrovně měření ­ alternativní, nominální, pořadová, intervalová typu procedury ­ interval spolehlivosti, test hypotézy, velikost potřebného výběru Hendl ­ kapitola 12 a str. 235 online http://www.graphpad.com/www/book/Choose.htm http://www.whichtest.info http://www.socialresearchmethods.net/selstat/ssstart.htm česky: http://meloun.upce.cz/metody/ Sheskin, D.J.: Handbook of parametric and nonparametric statistical procedures. CRC press, 2004. Kanji, G.K.: 100 statistical tests. Sage, 2006. Co je potřeba znát? Testů v přehledech je mnoho... Pro každý je třeba znát účel použití, testovaná hypotéza předpoklady použití (úroveň měření, normalita) interpretace výsledků (sjetiny z počítače) Co je třeba umět (ručně) spočítat? všechny varianty t-testu (z-testu) statistická významnost Pearsonova korelačního koeficientu chí-kvadrát testy Př.: Testy na rozdíly 2 středních hodnot Intervalová závislá ­ rozdíly průměrů párový test: párový t-test nezávislé skupiny: známý rozptyl v populaci: z-test neznámý rozptyl v populaci: t-test pro nezávislé skupiny varianta pro stejné a nestejné rozptyly mezi skupinami Ordinální závislá ­ rozdíly mediánů, průměrného pořadí párový test: binomický znaménkový test, Wilcoxonovo T (int) nezávislé skupiny: Mann-Whitney U Nominální závislá ­ shoda rozložení párový test: McNemarův test (dichotomie), Bowkerův test symetrie nezávislé skupiny: chí-kvadrát AJ: sign test, chi-square, Wilcoxon T, Mann-Whitney U, paired(-samples) t-test (dependent, repeated measures), one-sample t-test, independent samples t-test Srovnání 2 nezávislých průměrů: t -test Předpoklady použití ... jsou-li výrazně porušeny, volíme raději neparametrický test proměnná je v populaci normálně rozložená - neřeší se, pokud je n1,n2 >30 homogenita rozptylů (homoscedascita), pokud n1 n2 řeší modifikace t-testu pro nestejné rozptyly (6.2.3) testuje se Levenovým testem (od oka s1 2/s2 2<2) nezávislost pozorování - řeší párový t-test (pro závislé výběry) (6.2.4) H0: 1 ­ 2 = 0 (nebo roven konstantě, nebo >/< 0 či c) a zvolíme = 1%, 5%, nebo 10% Rozdíl průměrů d má výběrovou chybu sd= {[((n1 ­ 1)s1 2+(n2 ­ 1)s2 2)/(n1+n2 ­ 2))]*[1/n1+1/n2]} t-rozložení s n1+n2 ­ 2 stupni volnosti ( ) Spočítáme testovou statistiku t = (m1 ­ m2)/sd = d/sd Zjistíme jaká je p (t |zjištěná hodnota|) - tabulky, TDIST(t , ) Je-li p , pak H0 zůstává platná, je-li p < , H0 zamítáme (a konstatujeme existenci statisticky významného rozdílu). Spočítáme Cohenovo d a interval spolehlivosti pro rozdíl průměrů. s2 pooled Příklad: t-test pro nezávislé výběry H: Muži a ženy se liší v míře úzkostnosti. H0: = m ­ ž= 0 nasbíraná data: mm=2; mž = 3; sm=1,5; sž= 1,6; nm= nž = 20 H0 budeme testovat na 5% hladině statistické významnosti, = 0,05 Předpoklady splněny >> provádíme t-test pro nezávislé výběry (6.2.2) d = mž ­ mm = 2 ­ 3 = -1 sd= {[((20­ 1)1,52+(20 ­ 1)1,62)/(20+20 ­ 2))]*[1/20+1/20]}=0,49 rozdíl má t-rozložení s n1+n2 ­ 2 = 38 stupni volnosti t = (m1 ­ m2)/sd = -1/0,49 = -2,04 p (t |-2,02|) je při = 38 rovna 0,048 (TDIST(2,04;38;2)=0,048) p < , takže zamítáme H0. Pokud by H0 platila, zjištěný rozdíl by byl nepravděpodobný. 95% interval spolehlivosti: 0,025t(38) = TINV(0,05;38) = 2,02 d ­ 2,02*sd < < d + 2,02*sd , tj. -1,98 < < - 0,02 Cohenovo d = |-1|/1,55 =0,65 , což je středně velký efekt. Velikost účinku/efektu Možnost srovnání mezi studiemi zkoumajícími tutéž výzkumnou otázku pomocí různě operacionalizovaných proměnných Možnost srovnání velikosti efektu vyjádřeného různými koeficienty Snadnější interpretace Pro rozdíly středních hodnot Cohenovo d = |m1 ­ m2|/spooled ; spooled= [((n1 ­ 1)s1 2+(n2 ­ 1)s2 2)/(n1+n2 ­ 2))] varianta d' = |m1 ­ m2|/scon ; scon= s kontrolní skupiny Pro těsnost vztahu (korelace) r a r2, R2, 2(eta), 2 ­ podíl vysvětleného rozptylu závislé proměnné Indikátory velikosti efektu lze mezi sebou navzájem převádět Cohenovo d na r : r = (d 2/(d 2+ 4)) r na Cohenovo d : d = 2r /(1 ­ r 2) AJ: effect size, Cohen's d, strength of association, explained variance Síla testu Síla testu (1-) je pravděpodobnost, že existující rozdíl bude detekován, zjištěn jako statisticky významný. Záleží na skutečné velikosti účinku ( , ...) variabilitě proměnné(ých) ­ s, velikosti vzorku n zvoleném riziku chyby I. typu, : čím nižší je tím nižší je síla zvoleném testu (parametrické mají vyšší sílu) Obvykle toužíme po co nejvyšší síle testu, cca 0,8 a výše. Bojujeme o ni především velikostí vzorku a kontrolou intervenujících proměnných (snižuje s). Publikace výsledků testování hypotéz Primárně udáváme velikost efektu, nejlépe intervalem spolehlivosti Sekundárně udáváme výsledek statistického testování udáváme získanou hodnotu p (Sig.) uvádíme i testovou statistiku (i se stupni volnosti) ­ r, t(), F (1,2), 2, M-W U... Interpretujeme nejlépe interval spolehlivosti. Výsledek statistického testování interpretujeme vzhledem k použité nulové hypotéze. Testy normality rozložení Kolmogorov-Smirnov s Lillieforsovou korekcí, Shapiro-Wilk, D'Agostino-Pearson a jiné Testují H0, že rozložení proměnné se neliší od normálního rozložení jsou to jedny z tzv. testů dobré shody (goodness-of-fit tests) testovaná H0 je shoda; tj. p< = příliš velká odchylka od normality Jejich užívání je kontroverzní! na malých vzorcích nenormalitu nedetekují (při n=20, 1- < 0,5) na velkých vzorcích (n > 1000) jsou naopak extrémně přísné t-testy a ANOVA jsou proti narušení normality robustní, takže nám obvykle stačí konstatovat unimodalitu bez extrémního zešikmení pro rozhodování mezi použitím parametrických a neparametrických testů volíme spíše úroveň měření a velikost vzorku AJ: tests of (univariate) normality, goodness-of-fit tests Více: http://www.psy.surrey.ac.uk/cfs/p8.htm, http://www.graphpad.com/library/BiostatsSpecial/article_197.htm