PSY117 Statistická analýza dat v psychologii Přednáška 9 2017 Statistické testování hypotéz Země je kulatá (p<0,05). Jacob Cohen Nejtěžší přednáška. Vrchol složitosti v tomto semestru. Zároveň něco, co je používáno velmi problematicky. Od vzorku k populaci a zpět oVzhledem k tomu, jaká nám na vzorku vyšla statistika, jaký je odpovídající populační parametr? o interval spolehlivosti oPokud předpokládáme, že v populaci je hodnota parametru X, co si myslet o své hypotéze poté, co nám na vzorku vyšlo Y? o statistický test hypotézy Hypotézy oPříklady (statistických) hypotéz nH: m = 100 : Populační průměr IQ je roven 100. nH: s = 10 : Populační směrodatná odchylka je 10. nH: m1 – m2 = 0 : Populační průměry m1 (psychotici) a m2 (zdraví) jsou stejné. nH: rxy= 0 : Proměnné X (pití piva) a Y (dominance) spolu nekorelují o oVezměme si tu první hypotézu a konfrontujme ji s daty: nNa vzorku 1000 náhodně vybraných dospělých jsme zjistili průměrné IQ rovné 105 (s =14). •AJ: statistical hypotheses testing, hypothesis, hypothesis supported by data Cílem výzkumu je obvykle konfrontovat očekávání vyplývající z teorie s empirickými daty. Upozornit, že hypotézy formulujeme vždy v řeči parametrů. Výběrové statistiky nikoho nezajímají. Namalovat si TO. – rozložení kolem stofky A pak ještě jednou pro n=25. Statistický test hypotézy oStatistické testování založeno na p-nosti nZnáme-li pravděpodobnostní rozložení statistik můžeme usuzovat, jak pravděpodobná je určitá výběrová statistika vzhledem k hypotéze: P (D |H ) oPř. D : m=105 nebo rozdíl mezi statistikou a hypotézou |m– m| = 5 o H : m =100 oP (D |H ) je P (m=105 | m =100 ) resp. P ( |m– m| ≥ 5 | m =100 ) nJe-li P (D |H ) relativně vysoká, je tím hypotéza podpořena. nJe-li P (D |H ) relativně nízká, hypotéza je „činěna méně p-nou“ o oJak relativně „vysokánízká“ je vysokánízká pravděpodobnost, abychom hypotézu podpořilizpochybnili? Jak vysoká P(D |H ) je nutná k podpoře H? oBayesovský přístup – otázka není relevantní ns H je spojena určitá p-nost a ta se díky P (D |H) zvyšuje či snižuje nBayesův teorém: P (H |D ) = P (H ) * P (D |H ) / P (D ) o oFisher – otázka je celkem relevantní nPrincip falzifikace – H nelze potvrdit, pouze vyvrátit nZamítnutí (zpochybnění) H0: P(D |H0) < 0,05; 0,01 podle oborových zvyků nVýsledek: Je-li P(D |H0) nízká, buď jsme měli štěstí/smůlu, nebo není H0 vhodným vysvětlením(modelem) dat. Další výzkum by měl prověřit tyto možnosti. nFlexibilní, dosti subjektivní přístup vhodný pro malé výzkumné programy n Jak vysoká P(D |H ) je nutná k podpoře H? (pokr.) oPearson, Neyman – otázka je naprosto relevantní nFrustrováni subjektivitou Fisherova přístupu nJak často se budem mýlit, když budem při nízké P(D |H0) zamítat? nK odpovědi potřebujeme opevně danou hranici zamítání H0 ohypotézu, kterou budeme považovat za platnou, když zamítneme H0 – alternativní hypotéza opředstavu o velikosti rozdílu mezi nulovou a alternativní hypotézou – velikost účinku ozajistit, aby pravděpodobnost zamítání H, pokud by H skutečně nebyla pravdivá, byla dostatečně vysoká – síla testu nZavedli tedy princip vzájemně se doplňujících konkurenčních H oVytvořme takovou H, kt. bude negací naší vědecké hypotézy a říkejme jí nulová H. Když se nám podaří nulovou H zamítnout, znamená to podporu pro naší vědeckou hypotézu. n Zde už mluvíme o dichotomickém rozhodování. převzato z D. Lakens http://www.educationandlearning.nl/uploads/cfeal/attachments/Presentation%20Daniel%20Lakens%20-%20m orning_0.pdf Dichotomizace výsledků výzkumu oVýsledek výzkumu je v P-N přístupu zredukován na ano-ne o o o o o o o o o o o oČím nižší je a, tím vyšší je b. Přesná podoba vztahu závisí na použitém testu. a i b mohou být nízké pouze při vysokých n. o oAJ: type-I error, type-II error, (statistical) power H0 podržena P(D|H0)≥a H0 zamítnuta P(D|H0)≥a H0 pravdivá (žádný efekt) OK chyba 1. typu a (její pravděpodobnost) H0 nepravdivá (efekt) chyba 2. typu b OK P: Síla (1-b) a: efekt nalezen, kde žádný není b: existující efekt za takový neodhalen síla: pravděpodobnost odhalení existujícího efektu Terminologická vložka oH0 : nulová (statistická, testová, testovaná) hypotéza nobvykle logická negace (doplněk) vědecké hypotézy nve Fisherovském přístupu prostě hypotéza, jejíž testování pokládáme za přínosné oH1 : alternativní (vědecká, výzkumná) hypotéza nN-P (NHST): ta, o kterou nám primárně jde, doplněk nulové oP (D |H0), podle které rozhodujeme o víře v platnost H0 nznačí se p, též p-value, p-hodnota (nebo v SPSS Sig., ale to je fuj) nJe-li stanovena dopředu (N-P): úroveň/hladina statistické významnosti (průkaznosti), a, udává se často v procentech: 5%, 1% op-nost chybného zamítnutí H0 - chyba prvního typu oJednostranné vs. oboustranné hypotézy njednostranné, směrové: H0: m ≥ 23, H1: m < 23, z různých důvodů užíváme zdrženlivě noboustranné: H0: m = 23, H1: m ≠ 23, připouští rozdíl oproti H0 na obě strany o oAJ: null hypothesis, scientific/alternative hypothesis, level of statistical significance, type I error, one-tailed, two-tailed, directional Jednostranné pomluvit a že už se jimi zabývat nebudeme. V mnoha učebnicích je „statistická hypotéza“ nadřazeným pojmem nulové a alternativní. „Statistická“ je pak definovaná jako hypotéza o parametru a nulová a alternativní jsou nerozdělitelnou dvojicí. http://rpsychologist.com/d3/NHST/ o Pravděpodobnosti různých výsledků o o o o o o o o oa = P(zamítnutí H0 | H0 pravdivá) oNepodmíněná P(chyba I. typu)=a.P(H0 pravdivá) o ob = P(nezamítnutí H0 | H0 nepravdivá) oNepodmíněná P(chyba II. typu)=b.P(H0 nepravdivá) o H0 podržena P(D|H0)≥a H0 zamítnuta P(D|H0)≥a H0 pravdivá (žádný efekt) OK chyba 1. typu a (její pravděpodobnost) H0 nepravdivá (efekt) chyba 2. typu b OK P: Síla (1-b) a: efekt nalezen, kde žádný není b: existující efekt za takový neodhalen síla: pravděpodobnost odhalení existujícího efektu Postup testování statistické hypotézy 1.Formulujte testovou (nulovou) hypotézu, kterou budete testovat (tj. vyvracet) (př. H0: m = 0, nebo H0: m = 6) 2.Zvolte hladinu statistické významnosti, tj. míru rizika, že dojde k chybě 1. typu (např. a = 0,05) (pro Fisheriány není nutno) 3.Hledáme p-nost získání naší výběrové statistiky nebo extrémnější hodnoty, za předpokladu, že H0 je pravdivá: P(D|H0), p ncesta vede přes znalost výběrového rozložení statistiky nnapř. m = 0,5. P (|m|≥0,5|m=0) nobvykle je nutný přepočet na tzv. testovou statistiku, např. t, z… 4.Zformulujeme závěr o H0: nje-li P(D|H0) < a , pak H0 zamítáme (P-N), zpochybňujeme (F) nje-li P(D|H0) ≥ a , pak H0 podpoříme n n „D“ znamená „statistika nebo extrémnější“ Příklad – jednovýběrový t-test oTerapie nevhodného chování. nRozdíl před-po: m=2,7; s=3,5; N=10 nH : Terapie má efekt. (m ≠0) – oboustranná hypotéza 1.H0 : Terapie nemá efekt: m = 0 2.V sociálních vědách běžně a=0,05 3.P (|m|≥2,7|m=0) = ? osm=3,5/√10)=1,1 ot =(m-m)/sm=2,7/1,1= 2,45 oP (|t |≥2,45 |t =0) = 2*(1–T.DIST(2,45;9;1)) = 0,04 (nebo TDIST(2,45;9;2)) 4.P (|m|≥2,7|m=0) < 0,05 >> zpochybníme H0 - rozdíl mezi D a H0 je statisticky významný(průkazný, signifikantní) oProtože m =2,7 je velmi málo pravděpodobný, kdyby byl rozdíl byl 0, tak nalézáme nepřímou podporu pro přesvědčení, že m >0. Zmínit jednostranné hypotézy. Příklad – jednovýběrový t-test oTerapie nevhodného chování. nRozdíl před-po: m=2,7; s=3,5; N=10 nH : Terapie má efekt. (m >0) – jednostranná hypotéza 1.H0 : Terapie nemá efekt: m = 0 (Technicky je to m ≤ 0, ale očekávání budujeme od toho =) 2.V sociálních vědách běžně a=0,05 3.P (m≥2,7|m=0) = ? osm=3,5/ √10=1,1 ot =(m-m)/sm=2,7/1,1= 2,45 oP ( t≥2,45 |t =0) = 1–T.DIST(2,45;9;1) = 0,02 (nebo TDIST(2,45;9)) 4.P (m≥2,7|m=0) < 0,05 >> zamítáme H0 - rozdíl mezi D a H0 je statisticky významný(průkazný, signifikantní) oProtože při m =2,7 málo pravděpodobný, kdyby byl rozdíl 0 nebo menší, tak nalézáme nepřímou podporu pro m >0. Zmínit jednostranné hypotézy. Příklad – jednovýběrový t-test oTerapie nevhodného chování. nRozdíl před-po: m=–2,7; s=3,5; N=10 nH : Terapie má efekt. (m >0) – jednostranná hypotéza 1.H0 : Terapie nemá efekt: m = 0 (Technicky je to m ≤ 0, ale očekávání budujeme od toho =) 2.V sociálních vědách běžně a=0,05 3.P (m≥–2,7|m=0) = ? osm=3,5/ √10=1,1 ot =(m-m)/sm=–2,7/1,1= 2,45 oP ( t≥–2,45 |t =0) = 1–T.DIST(–2,45;9;1) = 0,98 (nebo 1-TDIST(2,45;9;1)) 4.P (m≥–2,7|m=0) < 0,05 >> nezamítáme H0 - rozdíl mezi D a H0 není statisticky významný(průkazný, signifikantní) oProtože při m =–2,7 je pravděpodobnější, že je rozdíl 0, než že je pozitivní, ponecháváme nulovou hypotézu v platnosti. Zmínit jednostranné hypotézy. Jednostranné testy oPoužíváme pouze, pokud rozdíl, který by měl opačné znaménko, než čekáme, je bezvýznamný, neinterpretovatelný. nSpecificky se dají využít, když si přejeme nalézt explicitní podporu pro neexistenci rozdílu/korelace – TOST (Two One-Sided Test, test ekvivalence) oObvykle uvažujeme v jednostranných hypotézách, ale testujeme je oboustranně. oOboustranné testování je „bezpečná“ volba. Jednostranné obvykle přitahuje žádost o zdůvodnění. Problémy statistického testování H oDichotomizace rozhodnutí nstejná velikost účinku dává při různých N jiné rozhodnutí o H0 nkomplikuje až znemožňuje kumulativní budování znalostní báze oProblém interpretace np= P(D |H0) a nikoli P(H |D) oProblém nulové hypotézy nTest je smysluplný, jen když je nulová hypotéza smysluplná. n nNejvětší problém je tedy formální, bezmyšlenkovité testování. n oJak z problémů ven? nVŽDY se primárně zajímat o velikost účinku (Cohenovo d, r, R2, h2, w2 ) npoužívat intervalové odhady, kdy to jen lze ntestování hypotéz používat pouze doplňkově Přečíst Cohena. ASA statement 2016: http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108 Doporučené čtení oCohen. oASA statement 2016: http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108 o o oLakensova prezentace pro mírně pokročilé: http://www.educationandlearning.nl/uploads/cfeal/attachments/Presentation%20Daniel%20Lakens%20-%20m orning_0.pdf o Shrnutí oStatistické testování hypotéz vychází z konstrukce intervalu spolehlivosti pro hypotetizovaný parametr oMůže znamenat (ne)podporu pro hypotézu, nikoli striktně potvrzení/vyvrácení o o