PSY117
Statistická analýza dat v psychologii
Přednáška 10 2016
Statistické testování hypotéz II
Přehled testů, rozdíly průměrů, velikost účinku, síla testu
The great tragedy of Science – the slaying of a beautiful hypothesis by an ugly fact
Thomas Huxley

o


o


o


Základní výzkumné otázky/hypotézy
1.Stanovení hodnoty parametru v populaci
nstanovení intervalu spolehlivosti na m, s, r, b…
nsrovnání statistiky s hypotetickou hodnotou – konstantou
oKorelace mezi proměnnými
okorelace, regrese, chí-kvadrát
oH1: r ≠0   … H0: r =0
onapř. Mezi věkem a počtem návštěv lékaře za rok existuje lineární korelace.
2.Rozdíl mezi skupinami/vzorky - populacemi
nmezi průměry, korelacemi, rozptyly, pravděpodobnostmi, pořadími….
nlze srovnávat 2 i více skupin-populací
nnapř. H1: m1-m2 ≠ 0   … H0: m1-m2=0
nnapř. Muži a ženy se liší v míře úzkostnosti.
oRozdíl průměrů lze převést na korelaci a naopak - obecně mluvíme o velikosti efektu/účinku
AJ: difference, association, effect size, two-tailed, one-tailed (directional)
JEDNOVÝBĚROVÉ
TESTY
VÍCEVÝBĚROVÉ
TESTY

Upozornit, že hypotézy formulujeme vždy v řeči parametrů. Výběrové statistiky nikoho nezajímají.


o


o


Přehledy statistických testů
oreceptář Oseckých třídění podle
opočtu výběrů(skupin) – 1, 2, nebo více
oúrovně měření – alternativní, nominální, pořadová, intervalová
otypu procedury – interval spolehlivosti, test hypotézy, velikost potřebného výběru
oHendl – kapitola 12 a str. 235 (245 ve 3. vydání)
oonline
nhttp://www.graphpad.com/www/book/Choose.htm
nhttp://www.whichtest.info
nhttp://www.socialresearchmethods.net/selstat/ssstart.htm
oSheskin, D.J.: Handbook of parametric and nonparametric statistical procedures. CRC press, 2004.
oKanji, G.K.: 100 statistical tests. Sage, 2006.

Př.: Testy na rozdíly 2 středních hodnot
oIntervalová závislá – rozdíly průměrů
npárový test: párový t-test
nnezávislé skupiny:
oznámý rozptyl v populaci: z-test
oneznámý rozptyl v populaci: t-test pro nezávislé skupiny
nvarianta pro stejné a nestejné rozptyly mezi skupinami
oOrdinální závislá – rozdíly mediánů, průměrného pořadí
npárový test: binomický znaménkový test, Wilcoxonovo T (int)
nnezávislé skupiny: Mann-Whitney U
oNominální závislá – shoda rozložení
npárový test: McNemarův test (dichotomie), Bowkerův test symetrie
nnezávislé skupiny: chí-kvadrát
oAJ: sign test, chi-square, Wilcoxon T, Mann-Whitney U, paired(-samples) t-test (dependent,
repeated measures), one-sample t-test, independent samples t-test

Zde už mluvíme o dichotomickém rozhodování.
Nejsou-li splněny předpoklady pro test na vyšší úrovni měření, musíme jít níž.

Co je potřeba znát?
oTestů v přehledech je mnoho…
oPro každý je třeba znát
núčel použití, testovaná hypotéza
npředpoklady použití (úroveň měření, normalita)
ninterpretace výsledků (sjetiny z počítače)
oCo je třeba umět (ručně) spočítat?
nvšechny varianty t-testu (z-testu)
nstatistická významnost Pearsonova korelačního koeficientu
nchí-kvadrát testy

Srovnání 2 nezávislých průměrů: t -test
oPředpoklady použití    ...    jsou-li výrazně porušeny, volíme raději neparametrický test
nintervalová proměnná je v populaci normálně rozložená - neřeší se, je-li n1,n2 >30
nhomogenita rozptylů (homoscedascita), pokud n1 ≠ n2
nřeší modifikace t-testu pro nestejné rozptyly (6.2.3)
ntestuje se Levenovým testem (od oka s12/s22<2)
nnezávislost pozorování - řeší párový t-test  (pro závislé výběry) (6.2.4)
oH0: m1 – m2 = 0 (nebo roven konstantě, nebo >/< 0 či c) a zvolíme a = 1%, 5%, nebo 10%
oRozdíl průměrů d má
o směrodatnou chybu sd= √{[((n1 – 1)s12+(n2 – 1)s22)/(n1+n2 – 2))]*[1/n1+1/n2]}
o t-rozložení s n1+n2 – 2 stupni volnosti (n )
oSpočítáme testovou statistiku t = (m1 – m2)/sd = d/sd
oZjistíme jaká je p (t ≥ |zjištěná hodnota|) - tabulky, T.DIST(t , n, 1)
oJe-li p ≥ a, pak H0 zůstává platná, je-li p < a, H0 zamítáme (a konstatujeme existenci statisticky
významného rozdílu).
oSpočítáme Cohenovo d a interval spolehlivosti pro rozdíl průměrů.
s2pooled

Příklad: t-test pro nezávislé výběry
oH: Lidé s nízkou a vysokou depresivitou se liší v míře úzkostnosti.
nH0: d  = mN – mV= 0
nnasbíraná data: mN=2;  mV = 3; sN=1,5; sV= 1,6; nN= nV = 20
nH0 budeme testovat na 5% hladině statistické významnosti, a = 0,05
oPředpoklady splněny >> provádíme t-test pro nezávislé výběry (6.2.2)
orozdíl d = mV – mN = 3 – 2 = 1
osd= √{[((20 – 1)1,52+(20 – 1)1,62)/(20+20 – 2))]*[1/20+1/20]}=0,49
orozdíl má t-rozložení s nN+nV – 2 = 38 stupni volnosti
ot = (mV – mN)/sd = 1/0,49 = 2,04
op (t ≥|2,04|) je při n = 38 rovna 0,048     2*(1-T.DIST(2,04;38;1))=0,048
op < a, takže zamítáme H0. Pokud by H0 platila, zjištěný rozdíl by byl nepravděpodobný.
o95% interval spolehlivosti: 0,025t(38) = T.INV(0,025;38) = 2,02
n d – 2,02*sd < d < d + 2,02*sd  , tj. 0,02 < d < 1,98
oCohenovo d = |1|/1,55 =0,65  , což je středně velký efekt.

Srovnání 2 závislých m: párový t -test
oPředpoklady použití    ...    jsou-li výrazně porušeny, volíme raději neparametrický test
nintervalová proměnná je v populaci normálně rozložená - neřeší se, je-li N >30
o2 ekvivalentní podoby testu, postupy:
a)pro každého člověka spočítat rozdíl di=x1i-x2i a pak udělat jednovýběrový t-test testující H0:
d=0
b)Nemáme-li data, je popisné statistiky pro srovnávané skupiny, pak…
oH0: m1 – m2 = 0 (nebo roven konstantě, nebo >/< 0 či c) a zvolíme a = 1%, 5%, nebo 10%
oRozdíl průměrů d má směrodatnou chybu sd= √((s12+s22 – 2rs1s2)/N)
o t-rozložení s N – 1 stupni volnosti (n )
oSpočítáme testovou statistiku t = (m1 – m2)/sd = d/sd
oZjistíme jaká je p (t ≥ |zjištěná hodnota|) - tabulky, T.DIST(t , n, 1)
oJe-li p ≥ a, pak H0 zůstává platná, je-li p < a, H0 zamítáme (a konstatujeme existenci statisticky
významného rozdílu).
oSpočítáme Cohenovo d a interval spolehlivosti pro rozdíl průměrů.

Příklad: párový t-test
oH: Lidé se liší v míře prožívané úzkosti před zkouškou a po zkoušce.
nH0: d  = mPŘED – mPO= 0
nnasbíraná data: mPŘED=2;  mPO = 3; sPŘED=1,5; sPO= 1,6; N = 20; r=0,6
nH0 budeme testovat na 5% hladině statistické významnosti, a = 0,05
oPředpoklady splněny >> provádíme párový t-test (6.2.4)
orozdíl d = mPŘED – mPO = 3 – 2 = 1
osd= √(1,52+1,62 – 2*0,6*1,5*1,6)/20=0,31
orozdíl má t-rozložení s N – 1 = 19 stupni volnosti
ot = (mPŘED – mPO)/sd = 1/0,31 = 3,23
op (t ≥|3,23|) je při n = 19 rovna 0,004     2*(1-T.DIST(3,23;19;1))=0,0044
op < a, takže zamítáme H0. Pokud by H0 platila, zjištěný rozdíl by byl nepravděpodobný.
o95% interval spolehlivosti: 0,025t(19) = T.INV(0,025;19) = 2,09
n d – 2,09*sd < d < d + 2,09*sd  , tj. 0,35 < d < 1,65
oCohenovo d = |1|/1,55 =0,65  , což je středně velký efekt.

Velikost účinku/efektu
oMožnost srovnání mezi studiemi zkoumajícími tutéž výzkumnou otázku pomocí různě
operacionalizovaných proměnných
oMožnost srovnání velikosti efektu vyjádřeného různými koeficienty
oSnadnější interpretace
oPro rozdíly středních hodnot
oCohenovo d  = |m1 – m2|/spooled ; spooled= √[((n1 – 1)s12+(n2 – 1)s22)/(n1+n2 – 2))]
ovarianta d’ = |m1 – m2|/scon ; scon= s kontrolní skupiny
oPro těsnost vztahu (korelace)
or a r2, R2, h2(eta), w2 – podíl vysvětleného rozptylu závislé proměnné
oIndikátory velikosti efektu lze mezi sebou navzájem převádět
oCohenovo d  na r :  r = √(d 2/(d 2+ 4))
or  na Cohenovo d :  d = 2r /√(1 – r 2)
o
oAJ: effect size, Cohen’s d, strength of association, explained variance
ohttps://en.wikipedia.org/wiki/Effect_size

Effect sizes for research : a broad practical approach / Robert J. Grissom, John J. Kim.


Síla testu
oSíla testu (1-b) je pravděpodobnost, že existující rozdíl bude detekován, zjištěn jako statisticky
významný.
oZáleží na
nskutečné velikosti účinku (d , r…)
nvariabilitě proměnné(ých) – s,s
nvelikosti vzorku n
nzvoleném riziku chyby I. typu, a : čím nižší je a tím nižší je síla
nzvoleném testu (parametrické mají vyšší sílu)
oObvykle toužíme po co nejvyšší síle testu, cca 0,8 a výše.
nBojujeme o ni především velikostí vzorku a kontrolou intervenujících proměnných (snižuje s).

A priori stanovení N pro dosažení potřebné síly testu
oPro každý test hypotézy stanovujeme trochu jinak
opř:jednovýběrový t-test: n>(z1-a/2+ z1-b)2(1/d2)
oG*Power http://www.gpower.hhu.de/en.html
nstanovení potřebné velikosti vzorku pro běžně testované hypotézy
nmanuál:
http://www.gpower.hhu.de/fileadmin/redaktion/Fakultaeten/Mathematisch-Naturwissenschaftliche_Fakult
aet/Psychologie/AAP/gpower/GPowerManual.pdf

Příklad na něčem, co známe: muži a ženy se liší výškou (180 vs 167) sd pro jednoduchost 7. Kolik
lidí potřebujeme pro něco, co považujeme za zjevné?

Publikace výsledků testování hypotéz
oPrimárně udáváme velikost efektu, nejlépe i s intervalem spolehlivosti
oSekundárně udáváme výsledek statistického testování
nudáváme získanou hodnotu p  (Sig.)
nuvádíme i testovou statistiku (i se stupni volnosti) –  r, t(n), F (n1,n2), c2, M-W U…
nPř. Průměr spokojenosti mužů je o 10 bodů vyšší než průměr spokojenosti žen, 95% CI (8;12),
t(200)=4,8, p<0,001, Cohen d=0,68.
oInterpretujeme nejlépe interval spolehlivosti. Výsledek statistického testování interpretujeme
vzhledem k použité nulové hypotéze.

Testy normality rozložení
oKolmogorov-Smirnov s Lillieforsovou korekcí, Shapiro-Wilk, D’Agostino-Pearson a jiné
oTestují H0, že rozložení proměnné se neliší od normálního rozložení
njsou to jedny z tzv. testů dobré shody (goodness-of-fit tests)
ntestovaná H0 je shoda; tj. p<a  = příliš velká odchylka od normality
oJejich užívání je kontroverzní
nna malých vzorcích nenormalitu nedetekují (při n=20, 1-b < 0,5)
nna velkých vzorcích (n > 1000) jsou naopak extrémně přísné
nt-testy a ANOVA jsou proti narušení normality robustní, takže nám obvykle stačí konstatovat
unimodalitu bez extrémního zešikmení
npro rozhodování mezi použitím parametrických a neparametrických testů volíme spíše úroveň měření a
velikost vzorku
o
oAJ: tests of (univariate) normality, goodness-of-fit tests
oVíce: http://www.psy.surrey.ac.uk/cfs/p8.htm,
http://www.graphpad.com/library/BiostatsSpecial/article_197.htm

„Test signifikance“ Pearsonova korelačního koeficientu
o„Testem signifikance“ se míní test H0: r=0
oPokud H0: r=0, pak
oZ=FISHER(r) má normální výběrové rozložení se sZ=1/√(n-3)
oz=FISHER(r)/sZ ~ N(0;1)
oP(D|H0)=2*(1 − NORM.S.DIST(Z/sZ;1) pro oboustrannou (non-directional) H1
o
oPokud H0: r=c, pak
oDZ=(FISHER(r)−FISHER(c)) má normální výběrové rozl. se sZ=1/√(n-3)
oz=DZ/sZ ~ N(0;1)
oP(D|H0)=2*(1 − NORM.S.DIST(DZ/sZ;1) pro oboustrannou H1
o
o

Příklady na test signifikance r
or=0,5; N=20
nsZ=1/√(20-3)=0,24
nz=fisher(0,5)/0,24=0,55/0,24=2,26
nP(z≥2,26|Z=0)=2*(1-NORM.S.DIST(2,26;1))=0,02
or=0,6; N=10
nsZ=1/√(10-3)=0,38
nz=fisher(0,6)/0,38=0,69/0,38=1,83
nP(z≥1,83|Z=0)=2*(1-NORM.S.DIST(1,83;1))=0,07
or=0,4; N=20; H0: r=0,8
nsZ=1/√(20-3)=0,24
nz=(fisher(0,8)−fisher(0,4))/0,24=(1,1-0,42)/0,24=0,67/0,24=2,78
nP(z≥2,78|Z=0)=2*(1-NORM.S.DIST(2,78;1))=0,005
n
n