M5VM05 Statistické modelování 3. Testování statistických hypotéz Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modeloval 1/34 Testování statistických hypotéz Mějme náhodný výběr X = (Xi,... ,Xn)' rozsahu n z rozdělení o distribuční funkci F(x;6), kde d = (6lr...,6my E 0 C W1. Množina 0 nechť je neprázdn a otevřená. Předpokládejme, že o parametru 6 existují dvě konkurující si hypotézy: h0: e e 0O c o ht -. e e ©i = © - ©o nulovou hypotézou, alternativní hypotézou. Tvrzení se nazýva O platnosti této hypotézy se má rozhodnout na základě náhodného výběru /-\t w , „ Z' zamítneme nebo . . X = (Xi,... ,x„) , a to tak, ze x „„„„ň.„„„„ platnost hypotézy Hq. nezamítneme Jan Koláček (PřF MU) M5VM05 Statistické modelováni Testování statistických hypotéz Na testování použijeme statistiku T„ = T(X), kterou nazýváme testovací statistikou. Množinu hodnot, které může testovací statistika nabýt, rozdělíme na dvě disjunktní oblasti. Jednu označíme Wa , a nazveme ji kritickou oblastí (nebo také oblastí zamítnutí hypotézy) a druhá je doplňkovou oblastí (oblast nezamítnutí testované hypotézy). Na základě realizace náhodného výběru x= (xi, ...,x„)' vypočítáme hodnotu testovací statistiky tn = T(x). • Pokud hodnota testovací statistiky t„ nabude hodnoty z kritické oblasti, tj- t„ = T(x) E Wa , pak nulovou hypotézu zamítáme. Pokud hodnota testovací statistiky nabude hodnoty z oblasti nezamítnutí, tj. t„ = T(x) i Wa , tak nulovou hypotézu nezamítáme, což ovšem neznamená že přijímáme alternativu. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Testování statistických hypotéz H0 PLATÍ NEPLATÍ ZAMÍTÁME í„ = T(x) G Wx chyba 1. druhu je hladina testu) «0 = supee0o Pe(T(X) G Wa|H0)o) i {d„{x),h„{x)) tj. realizace x E Wa potom • buď nastal jev, který má pravděpodobnost a (volí se blízká nule), • nebo neplatí nulová hypotéza. Protože při obvyklé volbě a = 0.05 nebo a = 0.01 je tento jev „prakticky nemožný", proto nulovou hypotézu Hq zamítáme ve prospěch alternativy Hi V opačném případě, tj. pokud 7(0O) £ {d„{x),hn{x)) tj. realizace x i Wa nulovou hypotézu Hq nezamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modeloval Vztah mezi testy a intervalovými odhady B Hypotéza Hq : 7(6) = 7(#o) Pr°ti (tzv. jednostranné) alternativě Hx : 7(6) > 7(0O) : V tomto případě využijeme dolní odhad D„(X) parametrické funkce 7(6) o spolehlivosti 1 — cc. Pokud platí nulová hypotéza, pak l-0C=Pg (D„(X) <7(0o)), takže kritický obor tohoto testu má tvar: Wa = {XGR" :D„(X) >7(0o)}- Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Vztah mezi testy a intervalovými odhady C Hypotéza Hq : 7(0) = 7(#o) Prot' (tzv- jednostranné) alternativě Hi : 7(0) < 7(#o) V tomto případě využijeme horní odhad H„(X) parametrické funkce 7(6) o spolehlivosti 1 — cc. Pokud platí nulová hypotéza, pak 1 - a = P„ (7(0O) ^"í-f c2 známé F = Fo F > Fo (X-}i0)^/ň > (TUi_a c2 známé F = Fo F < Fo {X-}lQ)y/ň < -O-Ui-a c2 známé F = Fo F 7^ Fo |X - 1 V« > Sřx_«(n - 1) c2 neznámé F = Fo F > Fo (X-^o)\A > Sři_a(n-1) c2 neznámé F = Fo F < Fo (X - Fo)\/« < -Sh-a(n - 1) c2 neznámé 2 2 °" =t70 "o V 2 2 / ^ neznámé 2 2 °" =t70 í72 >t72 \i neznámé 2 2 °" =t70 í72 136,1 . Rozptyl o2 = 6,42 cm2, zjištěný v roce 1951 (kdy se provádělo rozsáhlé šetření), můžeme považovat za známý, nebot variabilita výšek zůstává (na rozdíl od střední výšky) téměř nezměněná. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 11 / 34 Řešení Řešení (I) Testování nulové hypotézy pomocí pivotové statistiky Uy a kritické hodnoty. Protože kritický obor Wq lze ekvivalentně vyjádřit i takto W0={xeE":í-^Ul_a >Po}-{xeR":% = ^^> «i_a } , počítejme us = 139,133-136,1 = 1/835^ protože Us = 1,835 překračuje kritickou hodnotu «i_a = «o,95 = 1/645, nulovou hypotézu na 5% hladině zamítneme ve prospěch alternativní hypotézy, že se střední výška desetiletých hochů zvětšila. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 12 / 34 Řešení (II) Testování nulové hypotézy 0.25 132 133 134 135 136 137 138 139 140 141 X =139.1333 p-val=0.033206 3mocí p-HODNOTY Dosažená hladina odpovídající testové statistice (tj. tzv. p-hodnota, anglicky P-value, significance value), což je nej-menší hladina testu, při které bychom ještě hypotézu Hq zamítli, je rovna 0,033, takže například při cc = 2,5% by již dosažený výsledek nebyl statisticky významný. Protože p-hodnota je menší než zvolená hladina významnosti cc = 0.05, hypotézu zamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 13 / 34 Řešení (III) Testování nulové hypotézy pomocí intervalu spolehlivosti (D,+oo) Protože jde o jednostranný test, použijeme dolní odhad střední hodnoty \i d = x — -S-«i_a = 139,133 - 4^1,645 = 136,415 V« VÍŠ Protože interval spolehlivosti (136,415,+oo) nepokrývá hodnotu 136,1, proto nulovou hypotézu na hladině významnosti a = 0,05 zamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 14 / 34 Testy dvou nezávislých výběrů • první náhodný výběr JL{Xi,.. .,Xni} ~ N(^i,c2), • druhý náhodný výběr A.{Ylr...,Y„2} ~ N^/cf)' • označme S2 = (Wl-l)Sf+ («2-l)SJ 12 nx + nz - 2 H0 Hi H0 zamítáme, pokud (X',Y')' £ Wa Předpoklady Fi = F2 Fi 7^ F2 |X-Y|>Ul_fy| + | c2, c,2 známé Fi = F2 Fi ŕ F2 |X-Y|>ř1_f(n1+n2-2) S^^gf °i = °2 nezr|ámé 2 2 OJ = of 7^ í72 | i (F«(n1--l,n2--l),Fl_«(n1--l,n2--l)) F1/F2 neznámé Jan KoláCek (PřF MU) M5VM05 Statistické modelování 15 / 34 Příklad Příklad 2 (Dva nezávislé náhodné výběry z normálního rozdělení při neznámých ale stejných rozptylech) Bylo vybráno 13 polí stejné kvality. Na 8 z nich se zkoušel nový způsob hnojení, zbývajících 5 bylo ošetřeno běžným způsobem. Výnosy pšenice uvedené v tunách na hektar jsou označeny X,- u nového a Y i u běžného způsobu hnojení. Je třeba zjistit, zda způsob hnojení má vliv na výnos pšenice. Xj 5,7 5,5 4,3 5,9 5,2 5,6 5,8 5,1 Y: 5,0 4,5 4,2 5,4 4,4 O" o O O 0,05 Protože p-hodnota je výrazně větší než zvolená hladina testu, hypotézu o rovnosti rozptylů proti alternativě nerovnosti nezamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Řešení (c) A naposledy můžeme ještě zkonstruovat 100(1 — a)% interval spolehlivosti o2 pro podíl rozptylů -\ u2 S\__1_ S\ 1 \ Šf Fi_|(ni-l,n2-l)'Šfff «2-1) / ' a zjistit, zda pokrývá hodnotu 1. Protože dostáváme interval (0,1239;6,2088), který pokrývá jedničku, hypotézu nezamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 19 / 34 Řešení (I) Testování pomocí statistiky T a kritické hodnoty Vypočítáme-li hodnotu statistiky Tx-Y — X-Y-(Fl-ii2) nin2 S12 \ n1 + nz a porovnáme s kvantilem Studentova rozdělení, tj. ř2_y = 2.3697 > h_a/2(ll) = 2.201, takže hypotézu H0 : }ii - jii = 0 zamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Řešení (II) Testování pomocí p-hodnoty Vypočítáme-li p-hodnotu a porovnáme se zvolenou hladinou významnosti a = 0.05 p = P(\Tx_?\ >t) = 2(1 -P(|Tx_y| < ŕ)) = 0.037169 < a takže hypotézu Ho ■ Fi - F2 = 0 zamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 21 / 34 Řešení (III) Testování nulové hypotézy pomocí intervalu spolehlivosti x-y±t1_a(v) si2y^f = (0,6875 ± 2,201 -0,5089/1,7541) = (0,048958; 1,326) Protože interval spolehlivosti nepokrývá nulu, na dané hladině významnosti hypotézu zamítáme ve prospěch alternativy. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Příklad Příklad 3 (Párový test) Na sedmi rostlinách byl posuzován vliv fungicidního přípravku podle počtu skvrn na listech před a týden po použití přípravku. Otestujte, zdali má přípravek vliv na počet skvrn na listech. Data udávající počet skvrn na listech před a po použití přípravku: před použitím přípravku X\ 9 17 31 7 8 20 10 po použití přípravku x2 10 11 18 6 7 17 5 Jan KoláCek (PřF MU) M5VM05 Statistické modeloval 23 / 34 Řešení (I) Testování pomocí statistiky T a kritické hodnoty Položme Z — — X2. Vypočítáme-li hodnotu statistiky T=2.273S H0 : ]ix - ji2 = 0 nezamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 24 / 34 Řešení (II) Testování pomocí p-hodnoty Vypočítáme-li p-hodnotu a porovnáme se zvolenou hladinou významnosti a = 0,05 p = P(\T\ >t) = 2(1 -P(\T\ < t)) = 0,06335 > a takže hypotézu Ho ■ Fi - F2 = 0 nezamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 25 / 34 Řešení (III) Testování nulové hypotézy pomocí intervalu spolehlivosti interval spolehlivosti' 0 2 4 6 8 10 12 z±t1_a/1{n-l) -s/a/w = 4±2,4469 -4,6547/2,6458 = [-0,30492;8,3049] Protože interval spolehlivosti pokrývá hodnotu Z = 0, na dané hladině významnosti hypotézu nezamítáme. Shrneme-li předchozí výsledky slovně, pak nulovou hypotézu o tom, že přípravek nemá vliv na počet skvrn na hladině významnosti a = 0,05 nemůžeme zamítnout oproti alternativě o jeho vlivu. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 26 / 34 Asymptotické testy Nechť -U-{Xi,... ,X„} ~ £(}i(9),cr2(9)) s konečnými druhými momenty n (s výběrovým průměrem X = i £ X,- a se S2 = S2(X), což je (slabě) z'=l konzistentní odhad rozptylu c2(0)): H0 til Hq zamítáme, pokud X G Wa Předpoklady F = Fo F 7^ Fo sf'v"^ "i-f 0 < r7-2(0) < 00 F = Fo F 7^ Fo -"-{Xi.....X„} ~Po(F) P = Po P ŕ Po 1X—po > vpo(I-Po) 2 -iL{Xi.....X„} ~A(p) Jan KoláCek (PřF MU) M5VM05 Statistické modeloval 27 / 34 Příklad Příklad 4 Při 40 hodech mincí byl rub zaznamenán 22krát. Je důvod se domnívat, že rub nepadá stejně často jako líc? Řešení Označme X,-, i = 1,.. .,40 náhodnou veličinu nabývající hodnoty 1, pokud padne rub a hodnoty 0, pokud padne líc. Zřejmě X,- ~ A(p). Testujeme hypotézu Hq : p = 0,5 proti alternativní hypotéze Hi : p 7^ 0,5. Vypočteme průměr 1 = |jj = 0,55 a směrodatnou odchylku s= y/x(l — x) = 0,4974. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 28 / 34 Řešení (I) Testování nulové hypotézy pomocí pivotové statistiky 11% a kritické hodnoty. Protože kritický obor Wq lze ekvivalentně vyjádřit i takto i-f}' počítejme ux = °'q-\/4Ô" = 0,6356. Protože ux = 0,6356 nepřekračuje kritickou hodnotu w, a = «0 975 = 1/96, nulovou hypotézu na 5% hladině 1 2 nezamítáme. x £ R" :Ur x—p Jan Koláček (PřF MU) M5VM05 Statistické modeloval 29 / 34 (II) Testování pomocí p-hodnoty Vypočítáme p-hodnotu a porovnáme se zvolenou hladinou významnosti a = 0,05 p=P(\U-x\ > ux) =2(1 -P(\UX\ < ux)) = 0,525 > a takže hypotézu H0 :p = 0,5 nezamítáme. Jan KoláCek (PřF MU) M5VM05 Statistické modelování Řešení (III) Testování nulové hypotézy pomocí intervalu spolehlivosti Interval spolehlivosti pro p: x ± u0/975-fa = 0,55 ± 1,96 ■ ms = (0,396; 0,701). Protože interval spolehlivosti (0,396;0,701) pokrývá hodnotu 0,5, nulovou hypotézu na hladině významnosti a = 0,05 nezamítáme. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 31 / 34 Úlohy k procvičení Příklad 5.1 Spotřeba téhož auta byla testována u 11 řidičů s výsledky 8,8; 8,9; 9,0; 8,7; 9,3; 9,0; 8,7; 8,8; 9,4; 8,6; 8,9 (1/100km). Můžeme na hladině významnosti 0,05 zamítnout hypotézu, že je pravdivá výrobcem udávaná spotřeba 8,8 l/100km? Můžeme na stejné hladině významnosti popřít tvrzení, že rozptyl spotřeby je 0,1? [ne, ne] Příklad 5.2 Na hladině významnosti a = 0,05 testujte hypotézu Hq : (Tq = 300 o směrodatné odchylce normálně rozdělené náhodné veličiny, jestliže je zaznamenáno n = 25, X = 3118, s = 357. [nezamítáme] Příklad 5.3 Denní přírůstky váhy selat (v dkg) byly při krmení směsí A : 62, 54, 55, 60, 53, 58, u směsi B : 52, 56, 50, 49, 51. Je mezi nimi statisticky významný rozdíl? [ano] Jan Koláček (PřF MU) M5VM05 Statistické modelováni Úlohy k procvičení Příklad 5.4 Pro bavlněnou přízi je předepsána horní mez variability pevnosti vlákna: rozptyl pevnosti (která má normální rozdělení) nemá překročit c2 = 0,36. Při zkoušce 16 vzorků byly zjištěny výsledky 2,22, 3,54, 2,37, 1,66, 4,74, 4,82, 3,21, 5,44, 3,23, 4,79, 4,85, 4,05, 3,48, 3,89, 4,90, 5,37. Je důvod k podezření na vyšší nestejnoměrnost než je stanoveno? [ano] ■ Příklad 5.5 Bylo provedeno měření obsahu s1o2 ve strusce dvěma metodami analyticky 20,1 19,6 20,0 19,9 20,1 fotokolorometricky 20,9 20,1 20,6 20,5 20,7 20,5 Je mezi rozptyly výsledků jednotlivých metod podstatný rozdíl? [není] Jan Koláček (PřF MU) M5VM05 Statistické modeloval 33 / 34 Úlohy k procvičení Příklad 5.6 Starosta obdržel při posledních volbách 60% hlasů. Bude stejně úspěšný i při příštích, když ze 100 náhodně vybraných občanů je pro něj 48? [nebude] Příklad 5.7 Na základě testu máme na 5% hladině významnosti rozhodnout, zda produkce vajec plemene kornyšek černých je nižší než plemene leghornek bílých. Náhodně jsme vybrali 50 kornyšek a 40 leghornek, u nichž byla zjištěna roční produkce vajec. Byl vypočten roční průměr produkce na slepici - kornyška 275, leghornka 280. Z dřívějška jsou známy rozptyly a^gr = 48, of = 41. [Hq zamítáme, kornyšky mají horší produkci vajec než leghornky] Jan Koláček (PřF MU) M5VM05 Statistické modeloval 34 / 34