Testování hypotéz Matematika IV ­ 14. přednáška Testování hypotéz Michal Bulant Masarykova univerzita Fakulta informatiky 19. 5. 2008 Testování hypotéz Obsah přednášky 1 Testování hypotéz Testování hypotéz Doporučené zdroje Martin Panák, Jan Slovák, Drsná matematika, e-text. Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická statistika, Matfyzpress, 4. vydání, 2006, 230 stran, ISBN 80-867-3271-1. Marie Budíková, Statistika , Masarykova univerzita, ESF, distanční studijní opora, Brno 2004, 176 stran, http: //www.math.muni.cz/~budikova/esf/Statistika.zip Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. Testování hypotéz Motivační úvod Testování hypotéz umožňuje na základě náhodného výběru s danou pravděpodobností ověřovat domněnky o rozdělení, z něhož pochází daný náhodný výběr. Hypotézou budeme rozumět nějaké tvrzení o parametrech tohoto rozdělení. Definice H0 . . . nulová hypotéza (např. = c, kde c vyjadřuje naši domněnku o hodně parametru ) H1 . . . (oboustranná) alternativní hypotéza (obvykle negace nulové) Testováním H0 oproti alternativní hypotéze rozumíme postup založený na náhodném výběru, s jehož pomocí platnost H0 zamítneme nebo nezamítneme (= připouštíme). Chyba 1. druhu . . . H0 platí a my ji zamítneme (závažnější) Chyba 2. druhu . . . H0 neplatí a my ji nezamítneme Pravděpodobnost chyby 1. druhu se nazývá hladina významnosti (, obvykle = 0, 05), pravděpodobnost chyby 2. druhu se značí a číslo 1 - se nazývá síla testu. Testování hypotéz Způsoby testování nulové hypotézy 1 pomocí intervalu spolehlivosti 2 pomocí kritického oboru 3 pomocí tzv. p-hodnoty (p-value) Interval spolehlivosti Na základě realizace náhodného výběru sestrojíme 100(1 - )% interval spolehlivosti pro neznámý parametr a zjistíme, zda c patří do tohoto intervalu. Pokud ano, hypotézu H0 nezamítáme (v opačném případě zamítáme) na hladině významnosti . Kritický obor Stanovení kritického oboru je postup do jisté míry obrácený. Nejprve (i bez náhodného výběru) zvolíme vhodnou statistiku T a množinu hodnot, jichž může T nabývat, rozdělíme na dvě disjunkntí podmnožiny: obor nezamítnutí H0 (značíme V ) a kritický obor W (obor zamítnutí H0). Pokud realizace T padne do W , pak H0 zamítneme, jinak nezamítáme. Testování hypotéz Stanovení kritického oboru na hladině Pro statistiku T (testové kritérium) stanovíme obor nezamítnutí V jako interval, jehož hraniční body tvoří kvantil /2 a 1 - /2, odtud je W = (-, F-1 (/2)) (F-1 (1 - /2), ). Testování hypotéz Způsoby testování nulové hypotézy p-hodnota Testování pomocí p-hodnoty se jednoduchý test, umožněný rozšířením statistických balíků. p-hodnota udává nejnižší možnou hladinu významnosti, při níž H0 zamítáme. Je-li p-hodnota > , hypotézu H0 nezamítáme, pro p-hodnotu menší než , hypotézu zamítneme. p-hodnota se stanoví rovněž se znalostí konkrétní realizace t0 statistiky T náhodného výběru jako p = 2 min{P(T t0), P(T t0)}. Testování hypotéz Testování hypotézy proti jednostranné alternativě Je-li H0 hypotéza = c, pak levostranná alternativní hypotéza je tvrzení < c, pravostranná alternativní hypotéza je tvrzení > c. Volba typu alternativní hypotézy vyplývá z konkretní situace. Příklad V předmětu Matematika 3 psali studenti písemku rozdělení na 2 skupiny. Hypotéza H0 : obě zadání mají stejnou průměrnou obtížnost je testována oproti oboustranné alternativní hypotéze zadání nejsou stejně obtížná. V předmětu Matematika 3 se dříve po studentech nevyžadovalo řešení domácích úloh. Toto bylo nyní nově zavedeno s cílem dosažení lepších výsledků studentů u závěrečné zkoušky. V tomto případě zřejmě použijeme nulovou hypotézu H0 : výsledné bodové hodnocení se nezlepšilo oproti pravostranné alternativní hypotéze H1 : bodový výsledek studentů se zlepšil Testování hypotéz Jednoduchý příklad Příklad Náš protivník hodil 60x kostkou a padla mu 16x šestka. Testujme na hladině významnosti = 0, 05 nulovou hypotézu H0 : kostka není upravená oproti jednostranné alternativní hypotézeH1 : kostka je upravená tak, aby padalo více šestek. Řešení Statistika T (počet šestek) ma rozdělení T Bi(60, 1/6). Kritický obor je dán 95. percentilem tohoto rozdělení. Snadno vypočteme, že P(T > 14) = 0, 065 a P(T > 15) = 0, 034, proto p-hodnota rovna 0,034 (nebo jinými slovy: kritickým oborem na hladině 0,05 je interval 16, ). Hypotézu H0 tedy zamítáme ­ na hladině 0, 05 můžeme tvrdit, že kostka je upravená. Testování hypotéz Jednoduchý příklad ­ pokr. Řešení (pomocí aproximace) Porovnejme předchozí řešení příkladu s řešením, při kterém využijeme aproximaci pomocí de Moive-Laplaceovy věty. Náhodnou veličinu X = T - 10 50/6 lze považovat za veličinu mající normální rozdělení N(, 2) s jednotkovým rozptylem 2 = 1, testovat budeme hypotézu = 0. Kritickým oborem N(0, 1) je interval (1, 65, ) (stále uvažujeme pravostranou alternativu). Přitom pro realizaci statistiky X platí x = (16 - 10)/ 50/6 2, 08 a hypotézu tedy opět zamítáme. Jednostranným intervalem spolehlivosti pro X je ((2, 08 - 1, 65)/ 60, ) a protože do něj nepatří hodnota 0 zamítáme nulovou hypotézu (všimněte si, že v obou případech rozhodlo porovnání 1, 65 < 2, 08). Testování hypotéz Jednoduchý příklad ­ pokr. Řešení (pomocí aproximace a p-hodnoty ) Určeme nejmenší pravděpodobnost p, při níž stále ještě zamítáme nulovou hypotézu = 0 oproti pravostranné hypotéze > 0 (tj. p-hodnotu). Má-li X rozdělení N(0, 1), pak p = P(X 2, 08) = 1 - 0, 981 = 0, 019. Protože je = 0, 05 > 0, 019, opět hypotézu zamítáme. Testování hypotéz Základní testy hypotéz o parametrech normálního rozdělení Podobně jako statistiky při konstrukci intervalů spolehlivosti jsou i základní testy standardizované (není divu, jak jsme viděli, jde o úzce propojené pojmy). z-test Nechť je X1, . . . , Xn náhodný výběr z rozdělení N(, 2) se známým 2 a n 2. Test H0 : = c proti alternativní hypotéze = c se nazývá z-test. jednovýběrový t-test Nechť je X1, . . . , Xn náhodný výběr z rozdělení N(, 2) s neznámým 2 a n 2. Test H0 : = c proti alternativní hypotéze = c se nazývá jednovýběrový t-test. dvouvýběrový t-test Nechť je X11, . . . , Xm1 náhodný výběr z rozdělení N(1, 2) a X12, . . . , Xn2 na něm nezávislý náhodný výběr z rozdělení N(2, 2) s m, n 2 a neznámým 2. Test H0 : 1 - 2 = c proti H1 : 1 - 2 = c se nazývá dvouvýběrový t-test. Testování hypotéz Základní testy hypotéz o parametrech normálním rozdělení párový t-test Nechť je (X1, Y1)T , . . . , (Xn, Yn) výběr z rozdělení N 1 2 , 2 1 12 2 12 2 2 s n 2 a neznámými parametry. Test H0 : 1 - 2 = c oproti H1 : 1 - 2 = c se nazývá párový t-test. F-test Nechť je X11, . . . , Xm1 náhodný výběr z rozdělení N(1, 2 1) a X12, . . . , Xn2 na něm nezávislý náhodný výběr z rozdělení N(2, 2 2) s m, n 2. Test H0 : 2 1/2 2 = 1 proti H1 : 2 1/2 2 = 1 se nazývá F-test. test rozptylu Nechť je X1, . . . , Xn náhodný výběr z N(, 2) s neznámým a n 2. Test H0 : 2 = c proti H1 : 2 = c se nazývá test o rozptylu. Testování hypotéz Kritický obor testů normálního rozdělení z-test |(M - c)/(/ n)| u1-/2 jednovýběrový t-test |(M - c)/(S/ n)| t1-/2(n - 1) dvouvýběrový t-test M1 - M2 - c S 1 m + 1 n t1-/2(m + n - 2) párový t-test sestrojením rozdílu Zi = Xi - Yi a = 1 - 2 úlohu předvedeme na jednovýběrový t- test F-test S2 1 /S2 2 F/2(m - 1, n - 1) nebo S2 1 /S2 2 F1-/2(m - 1, n - 1) test rozptylu (n - 1)S2/c 2 /2(n - 1) nebo (n - 1)S2/c 2 1-/2(n - 1) Testování hypotéz Komplexní příklad na dvouvýběrový t-test Příklad Uvažme bodové výsledky studentů z 2. termínu zkoušky předmětu MB103, přičemž výsledky testů skupiny A a skupiny B považujme za dva nezávislé výběry z normálního rozdělení. Úkolem je zjistit, jestli výsledky některé ze skupin byly statisticky významně horší. Testujme nulovou hypotézu H0 : 1 - 2 = 0 oproti alternativní hypotéze H1 : 1 = 2. Řešení Nejprve pomocí F-testu otestujeme hypotézu o stejných rozptylech, v případě úspěchu poté použijeme dvouvýběrový t-test. Vypočteme základní statistiky: rozsah výb. průměr výb. rozptyl A 65 10,48 22,49 B 64 7,21 29,75 Testování hypotéz Řešení (Komplexní příklad na dvouvýběrový t-test (pokr.)) Dostáváme S2 1 /S2 2 = 0, 76 a protože F(0, 025; 64; 63) = 0, 61, nezamítáme hypotézu o rovnosti rozptylů. O tomtéž se přesvědčíme i vypočtením intervalu spolehlivosti S2 1 /S2 2 F1-/2(m - 1, n - 1) , S2 1 /S2 2 F/2(m - 1, n - 1) (0, 46; 1, 24), v němž leží testovaný podíl rozptylů 1. Budeme tedy dále s výběry pracovat s předpokladem, že mají stejný rozptyl a použijeme dvouvýběrový t-test. Testování hypotéz Řešení (Komplexní příklad na dvouvýběrový t-test (pokr.)) Vypočteme vážený průměr výběrových rozptylů S2 = (m - 1)S2 1 + (n - 1)S2 2 m + n - 2 5, 112 , dále M1 - M2 = 3, 27. V tabulkách najdeme hodnotu t0,975(65 + 64 - 2) = 1, 98, a protože T = M1 - M2 S 1 65 + 1 64 3, 64, docházíme k závěru, že můžeme hypotézu o stejné střední hodnotě obou rozdělení (tj. hypotézu 1 = 2) zamítnout (neboť 3, 64 > 1, 98).Toto opět ověříme výpočtem intervalu spolehlivosti, který má střed v M1 - M2 a velikost rovnou dvojnásobku S 1 m + 1 n t1-/2(m + n - 2) 1, 78, proto je interval spolehlivosti (1, 49; 5, 05).