PSY117 Statistická analýza dat v psychologii Přednáška 9 2016 Statistické testování hypotéz Země je kulatá (p<0,05). Jacob Cohen Nejtěžší přednáška. Vrchol složitosti v tomto semestru. Zároveň něco, co je používáno velmi problematicky. Od vzorku k populaci a zpět oVzhledem k tomu, jaká nám na vzorku vyšla statistika, jaký je odpovídající populační parametr? o interval spolehlivosti oPokud předpokládáme, že v populaci je hodnota parametru X, co si myslet o své hypotéze poté, co nám na vzorku vyšlo Y? o statistický test hypotézy Hypotézy oPříklady (statistických) hypotéz nH: m = 100 : Populační průměr IQ je roven 100. nH: s = 10 : Populační směrodatná odchylka je 10. nH: m1 – m2 = 0 : Populační průměry m1 (psychotici) a m2 (zdraví) jsou stejné. nH: rxy= 0 : Proměnné X (pití piva) a Y (dominance) spolu nekorelují o oVezměme si tu první hypotézu a konfrontujme ji s daty: nNa vzorku 1000 náhodně vybraných dospělých jsme zjistili průměrné IQ rovné 105 (s =14). AJ: statistical hypotheses testing, hypothesis, hypothesis supported by data Cílem výzkumu je obvykle konfrontovat očekávání vyplývající z teorie s empirickými daty. Upozornit, že hypotézy formulujeme vždy v řeči parametrů. Výběrové statistiky nikoho nezajímají. Namalovat si TO. – rozložení kolem stofky A pak ještě jednou pro n=25. Statistický test hypotézy oStatistické testování založeno na p-nosti nZnáme-li pravděpodobnostní rozložení statistik můžeme usuzovat, jak pravděpodobná je určitá výběrová statistika vzhledem k hypotéze: P (D |H ) oPř. D : m=105 nebo rozdíl mezi statistikou a hypotézou |m– m| = 5 o H : m =100 oP (D |H ) je P (m=105 | m =100 ) resp. P ( |m– m| ≥ 5 | m =100 ) nJe-li P (D |H ) relativně vysoká, je tím hypotéza podpořena. nJe-li P (D |H ) relativně nízká, hypotéza je „činěna méně p-nou“ o oJak relativně „vysokánízká“ je vysokánízká pravděpodobnost, abychom hypotézu podpořilizamítli? Jak vysoká P(D |H ) je nutná k přijetí H? oBayesovský přístup – otázka není relevantní ns H je spojena určitá p-nost a ta se díky P (D |H) zvyšuje či snižuje nBayesův teorém: P (H |D ) = P (H ) * P (D |H ) / P (D ) o oFisher, Pearson, Neyman – otázka je relevantní nFisher (Popper) – princip falzifikace – H nelze potvrdit, pouze vyvrátit nMy ale nechceme své hypotézy vyvracet, spíš potvrzovat nP-N: princip vzájemně se doplňujících konkurenčních hypotéz oVytvořme takovou H, kt. bude negací naší vědecké hypotézy a říkejme jí nulová H. Když se nám podaří nulovou H zamítnout, znamená to podporu pro naší vědeckou hypotézu. nZamítnutí H0: P(D |H0) < 0,05; 0,01; 0,001; 0,0001 podle zvyku n Zde už mluvíme o dichotomickém rozhodování. Dichotomizace výsledků výzkumu oVýsledek výzkumu je testováním zredukován na ano-ne o o o o o o o o o o o oČím nižší je a, tím vyšší je b. Přesná podoba vztahu závisí na použitém testu. a i b mohou být nízké pouze při vysokých n. o oAJ: type-I error, type-II error, (statistical) power H0 podržena P(D|H0)≥a H0 zamítnuta P(D|H0)≥a H0 pravdivá (žádný efekt) OK chyba 1. typu a (její pravděpodobnost) H0 nepravdivá (efekt) chyba 2. typu b OK P: Síla (1-b) a: efekt nalezen, kde žádný není b: existující efekt za takový neodhalen síla: pravděpodobnost odhalení existujícího efektu Terminologická vložka oH0 : nulová (statistická, testová, testovaná) hypotéza nobvykle logická negace (doplněk) vědecké hypotézy oH1 : alternativní (vědecká, výzkumná)hypotéza nta, o kterou nám často primárně jde oP (D |H0), podle které rozhodujeme o zamítnutí H0 nznačí se p, též p-value, p-hodnota (nebo v SPSS Sig., ale to je fuj) np-nost chybného zamítnutí H0 - chyba prvního typu nJe-li stanovena dopředu: úroveň/hladina statistické významnosti (průkaznosti), a, udává se často v procentech: 5%, 1% ochyba, jejíž velikost jsme ochotni tolerovat oJednostranné vs. oboustranné hypotézy njednostranné, směrové: m ≥ 23, m ≤ 0, z různých důvodů se jim vyhýbáme noboustranné: m = 23 o oAJ: null hypothesis, scientific/alternative hypothesis, level of statistical significance, type I error, one-tailed, two-tailed, directional Jednostranné pomluvit a že už se jimi zabývat nebudeme. V mnoha učebnicích je „statistická hypotéza“ nadřazeným pojmem nulové a alternativní. „Statistická“ je pak definovaná jako hypotéza o parametru a nulová a alternativní jsou nerozdělitelnou dvojicí. Postup testování statistické hypotézy 1.Formulujte testovou (nulovou) hypotézu, kterou budete testovat (tj. vyvracet) (př. H0: m = 0, nebo H0: m = 6) 2.Zvolte hladinu statistické významnosti, tj. míru rizika, že dojde k chybě 1. typu (např. a = 0,05) 3.Hledáme p-nost získání naší výběrové statistiky nebo extrémnější hodnoty, za předpokladu, že H0 je pravdivá: P(D|H0), p, Sig. ncesta vede přes znalost výběrového rozložení statistiky nnapř. m = 0,5. P (|m|≥0,5|m=0) nobvykle je nutný přepočet na tzv. testovou statistiku, např. t, z… 4.Vyneseme rozhodnutí o H0: zamítnutí či přijetí nje-li P(D|H0) < a , pak H0 zamítáme nje-li P(D|H0) ≥ a , pak H0 nezamítáme n „D“ znamená „statistika nebo extrémnější“ Příklad – jednovýběrový t-test oTerapie nevhodného chování. nRozdíl před-po: m=2,7; s=3,5; N=10 nH : Terapie má efekt. (m ≠0) – oboustranná hypotéza 1.H0 : Terapie nemá efekt: m = 0 2.V sociálních vědách běžně a=0,05 3.P (|m|≥2,7|m=0) = ? osm=3,5/odm(10)=1,1 ot =(m-m)/sm=2,7/1,1= 2,45 oP (|t |≥2,45 |t =0) = 2*(1–T.DIST(2,45;9;1)) = 0,04 (nebo TDIST(2,45;9;2)) 4.P (|m|≥2,7|m=0) < 0,05 >> zamítáme H0 - rozdíl mezi D a H0 je statisticky významný(průkazný, signifikantní) oProtože při m =2,7 je velmi málo pravděpodobné, že by rozdíl byl 0, tak nalézáme podporu pro přesvědčení, že m >0. Zmínit jednostranné hypotézy. Příklad – jednovýběrový t-test oTerapie nevhodného chování. nRozdíl před-po: m=2,7; s=3,5; N=10 nH : Terapie má efekt. (m >0) – jednostranná hypotéza 1.H0 : Terapie nemá efekt: m = 0 2.V sociálních vědách běžně a=0,05 3.P (m≥2,7|m=0) = ? osm=3,5/odm(10)=1,1 ot =(m-m)/sm=2,7/1,1= 2,45 oP ( t≥2,45 |t =0) = 1–T.DIST(2,45;9;1) = 0,02 (nebo TDIST(2,45;9)) 4.P (m≥2,7|m=0) < 0,05 >> zamítáme H0 - rozdíl mezi D a H0 je statisticky významný(průkazný, signifikantní) oProtože při m =2,7 je velmi málo pravděpodobné, že by rozdíl byl 0 nebo menší, tak nalézáme podporu pro m >0. Zmínit jednostranné hypotézy. Příklad – jednovýběrový t-test oTerapie nevhodného chování. nRozdíl před-po: m=–2,7; s=3,5; N=10 nH : Terapie má efekt. (m >0) – jednostranná hypotéza 1.H0 : Terapie nemá efekt: m = 0 2.V sociálních vědách běžně a=0,05 3.P (m≥–2,7|m=0) = ? osm=3,5/odm(10)=1,1 ot =(m-m)/sm=–2,7/1,1= 2,45 oP ( t≥–2,45 |t =0) = 1–T.DIST(–2,45;9;1) = 0,98 (nebo 1-TDIST(2,45;9;1)) 4.P (m≥–2,7|m=0) < 0,05 >> nezamítáme H0 - rozdíl mezi D a H0 není statisticky významný(průkazný, signifikantní) oProtože při m =–2,7 je pravděpodobnější, že je rozdíl 0, než že je pozitivní, ponecháváme nulovou hypotézu v platnosti. Zmínit jednostranné hypotézy. Jednostranné testy oPoužíváme pouze, pokud rozdíl, který by měl opačné znaménko, než čekáme, je bezvýznamný, neinterpretovatelný. o oObvykle uvažujeme v jednostranných hypotézách, ale testujeme je oboustranně. oOboustranné testování je „bezpečná“ volba. Jednostranné obvykle přitahuje žádost o zdůvodnění. Test signifikance Pearsonova korelačního koeficientu oPokud H0: r=0, pak oZ=FISHER(r) má normální výběrové rozložení se sZ=1/√(n-3) oFISHER(r)/sZ ~ N(0;1) oP(D|H0)=2*(1 − NORMSDIST(Z/sZ) pro oboustrannou (non-directional) H1 o oPokud H0: r=c, pak oDZ=(FISHER(r)−FISHER(c)) má normální výběrové rozl. se sZ=1/√(n-3) oDZ/sZ ~ N(0;1) oP(D|H0)=2*(1 − NORMSDIST(DZ/sZ) pro oboustrannou (non-directional) H1 o o Problémy statistického testování H oDichotomizace rozhodnutí nstejná velikost účinku dává při různých N jiné rozhodnutí o H0 nkomplikuje až znemožňuje kumulativní budování znalostní báze oProblém interpretace np= P(D |H0) a nikoli P(H |D) oProblém nulové hypotézy nTest je smysluplný, jen když je nulová hypotéza smysluplná. n nNejvětší problém je tedy formální, bezmyšlenkovité testování. n oJak z problémů ven? nVŽDY se primárně zajímat o velikost účinku (Cohenovo d, r, R2, h2, w2 ) npoužívat intervalové odhady, kdy to jen lze ntestování hypotéz používat pouze doplňkově Přečíst Cohena. ASA statement 2016: http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108 Doporučené čtení oCohen. oASA statement 2016: http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108 o Shrnutí oStatistické testování hypotéz vychází z konstrukce intervalu spolehlivosti pro hypotetizovaný parametr oMůže znamenat (ne)podporu pro hypotézu, nikoli striktně potvrzení/vyvrácení o o