Úvod do testování hypotéz Motivace: Častým úkolem statistika je na základě dat ověřit předpoklady o parametrech nebo typu rozložení, z něhož pochází náhodný výběr. Takovému předpokladu se říká nulová hypotéza. Nulová hypotéza vyjadřuje nějaký teoretický předpoklad, často skeptického rázu a uživatel ji musí stanovit předem, bez přihlédnutí k datovému souboru. Proti nulové hypotéze stavíme alternativní hypotézu, která říká, co platí, když neplatí nulová hypotéza. Alternativní hypotéza je formulována tak, aby mohla platit jenom jedna z těchto dvou hypotéz. Pravdivost alternativní hypotézy by znamenala objevení nějakých nových skutečností, nebo zásadnější změnu v dosavadních představách. Např. výzkumník by chtěl na základě dat prověřit tezi (nový objev), že pasivní kouření škodí zdraví. Jako nulovou hypotézu tedy položí tvrzení, že pasivní kouření neškodí zdraví a proti nulové hypotéze postaví alternativní, že pasivní kouření škodí zdraví. Testováním hypotéz se myslí rozhodovací postup, který je založen na daném náhodném výběru a s jehož pomocí rozhodneme o zamítnutí či nezamítnutí nulové hypotézy. Nulová a alternativní hypotéza Nechť X1, ..., Xn je náhodný výběr z rozložení L(ϑ), kde parametr Ξ∈ϑ neznáme. Nechť h(ϑ) je parametrická funkce a c daná reálná konstanta. a) Oboustranná alternativa: Tvrzení H0: h(ϑ) = c se nazývá jednoduchá nulová hypotéza. Proti nulové hypotéze postavíme složenou oboustrannou alternativní hypotézu H1: h(ϑ) ≠ c. b) Levostranná alternativa: Tvrzení H0: h(ϑ) ≥ c se nazývá složená pravostranná nulová hypotéza. Proti jednoduché nebo složené pravostranné nulové hypotéze postavíme složenou levostrannou alternativní hypotézu H1: h(ϑ) < c. c) Pravostranná alternativa: Tvrzení H0: h(ϑ) ≤ c se nazývá složená levostranná nulová hypotéza. Proti jednoduché nebo složené levostranné nulové hypotéze postavíme složenou pravostrannou alternativní hypotézu H1: h(ϑ) > c. Testováním H0 proti H1 rozumíme rozhodovací postup založený na náhodném výběru X1, ..., Xn, s jehož pomocí zamítneme či nezamítneme platnost nulové hypotézy. Chyba 1. a 2. druhu Při testování H0 proti H1 se můžeme dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H0 zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí. Situaci přehledně znázorňuje tabulka: rozhodnutískutečnost H0 nezamítáme H0 zamítáme H0 platí správné rozhodnutí chyba 1. druhu H0 neplatí chyba 2. druhu správné rozhodnutí Pravděpodobnost chyby 1. druhu se značí α a nazývá se hladina významnosti testu (většinou bývá α = 0,05, méně často 0,1 či 0,01). Pravděpodobnost chyby 2. druhu se značí β. Číslo 1–β se nazývá síla testu a vyjadřuje pravděpodobnost, že bude H0 zamítnuta za předpokladu, že neplatí. Obvykle se snažíme, aby síla testu byla aspoň 0,8. Obě hodnoty, α i 1–β, závisí na velikosti efektu, který se snažíme detekovat. Čím drobnější efekt, tím musí být větší rozsah náhodného výběru. rozhodnutískutečnost zdravý nemocný jsem zdravý zdravý a neléčený zdravý a léčený jsem nemocný nemocný a neléčený nemocný a léčený Testování pomocí kritického oboru Najdeme statistiku T0 = T0(X1, ..., Xn), kterou nazveme testovým kritériem. Množina všech hodnot, jichž může testové kritérium nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). Tyto dva obory jsou odděleny kritickými hodnotami (pro danou hladinu významnosti α je lze najít ve statistických tabulkách). Jestliže číselná realizace t0 testového kritéria T0 padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti α a znamená to skutečné vyvrácení testované hypotézy. Jestliže t0 padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. Pravděpodobnosti chyb 1. a 2. druhu nyní zapíšeme takto: P(T0 ∈ W/H0 platí) = α, P(T0 ∈V /H1 platí) = β. Stanovení kritického oboru pro danou hladinu významnosti α: Označme tmin (resp. tmax) nejmenší (resp. největší) hodnotu testového kritéria. Kritický obor v případě oboustranné alternativy má tvar W = ( )max2/12/min t),T(K)T(K,t α−α ∪ , kde Kα/2(T) a K1-α/2(T) jsou kvantily rozložení, jímž se řídí testové kritérium T0, je-li nulová hypotéza pravdivá. Kritický obor v případě levostranné alternativy má tvar: W = ( )T(K,tmin α . Kritický obor v případě pravostranné alternativy má tvar: W = )max1 t),T(K α− . Testování pomocí intervalu spolehlivosti Sestrojíme 100(1-α)% empirický interval spolehlivosti pro parametrickou funkci h(ϑ). Pokryje-li tento interval hodnotu c, pak H0 nezamítáme na hladině významnosti α, v opačném případě H0 zamítáme na hladině významnosti α. Pro test H0 proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. Pro test H0 proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti. Pro test H0 proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti. Testování pomocí p-hodnoty p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy. Je to riziko, že bude zamítnuta H0 za předpokladu, že platí (riziko planého poplachu). Jestliže p-hodnota ≤ α, pak H0 zamítáme na hladině významnosti α, je-li phodnota > α, pak H0 nezamítáme na hladině významnosti α. Způsob výpočtu p-hodnoty: Pro oboustrannou alternativu p = 2 min{P(T0 ≤ t0), P(T0 ≥ t0)}. Pro levostrannou alternativu p = P(T0 ≤ t0). Pro pravostrannou alternativu p = P(T0 ≥ t0). Ilustrace významu p-hodnoty pro test nulové hypotézy proti oboustranné, levostranné a pravostranné alternativě: (Zvonovitá křivka reprezentuje hustotu rozložení, kterým se řídí testové kritérium, je-li nulová hypotéza pravdivá.) p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace x1, ..., xn náhodného výběru X1, ..., Xn podporují H0, je-li pravdivá. Statistické programové systémy poskytují ve svých výstupech p-hodnotu. Její výpočet vyžaduje znalost distribuční funkce rozložení, kterým se řídí testové kritérium T0, je-li H0 pravdivá. Doporučený postup při testování hypotéz 1. Stanovíme nulovou hypotézu a alternativní hypotézu. Přitom je vhodné zvolit jako alternativní hypotézu ten předpoklad, jehož přijetí znamená závažné opatření a mělo by k němu dojít jen s malým rizikem omylu. 2. Zvolíme hladinu významnosti α. Zpravidla volíme α = 0,05, méně často 0,1 nebo 0,01. 3. Najdeme vhodné testové kritérium a na základě zjištěných dat vypočítáme jeho realizaci. 4. a) Testujeme-li pomocí kritického oboru, pak ho stanovíme. Jestliže realizace testového kritéria padla do kritického oboru, nulovou hypotézu zamítáme na hladině významnosti α a přijímáme alternativní hypotézu. V opačném případě nulovou hypotézu nezamítáme na hladině významnosti α. b) Testujeme-li pomocí intervalu spolehlivosti, vypočteme empirický 100(1-α)% interval spolehlivosti pro parametrickou funkci h(ϑ). Pokud číslo c padne do tohoto intervalu, nulovou hypotézu nezamítáme na hladině významnosti α. V opačném případě nulovou hypotézu zamítáme na hladině významnosti α a přijímáme alternativní hypotézu. c) Testujeme-li pomocí p-hodnoty, vypočteme ji a porovnáme ji s hladinou významnosti α. Jestliže p ≤ α, pak nulovou hypotézu zamítáme na hladině významnosti α a přijímáme alternativní hypotézu. Je-li p > α, pak nulovou hypotézu nezamítáme na hladině významnosti α. 5. Na základě rozhodnutí, které jsme učinili o nulové hypotéze, provedeme nějaké konkrétní opatření, např. seřídíme obráběcí stroj. (Při testování hypotéz musíme mít k dispozici odpovídající nástroje, nejlépe vhodný statistický software. Nemáme-li ho k dispozici, musíme znát příslušné vzorce. Dále potřebujeme statistické tabulky a kalkulačku.) Příklad: 10 x nezávisle na sobě byla změřena jistá konstanta µ. Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1, ..., X10 z rozložení N(µ, 0,04). Nějaká teorie tvrdí, že µ = 1,95. 1. Oboustranná alternativa Proti nulové hypotéze H0: µ = 1,95 postavíme oboustrannou alternativu H1: µ ≠ 1,95. Na hladině významnosti 0,05 testujte H0 proti H1 všemi třemi popsanými způsoby. Řešení: m = )2,2...2( 10 1 ++ = 2,06, σ2 = 0,04, n = 10, α = 0,05, c = 1,95 a) Test provedeme pomocí kritického oboru. Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku U = n M σ µ− ~ N(0, 1). Testové kritérium tedy bude T0 = n cM σ − a bude mít rozložení N(0, 1), pokud je nulová hypotéza pravdivá. Vypočítáme realizaci testového kritéria: t0 = 10 2,0 95,106,2 − =1,74. Stanovíme kritický obor: W = ( )max2/12/min t),T(K)T(K,t α−α ∪ = ( )∞∪∞− α−α ,uu, 2/12/ = ( )∞∪−∞− α−α− ,uu, 2/12/1 = ( )∞∪−∞− ,uu, 975,0975.0 = ( )∞∪−∞− ,96,196,1, . Protože 1,74 ∉ W, H0 nezamítáme na hladině významnosti 0,05. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu µ při známém rozptylu σ2 jsou: (d, h) = (m - n σ u1-α/2, m + n σ u1-α/2). V našem případě dostáváme: d = 2,06 - 10 2,0 u0,975 = 2,06 - 10 2,0 .1,96 = 1,936, h = 2,06 + 10 2,0 u0,975 = 2,06 + 10 2,0 .1,96 = 2,184. Protože 1,95 ∈(1,936; 2,184), H0 nezamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty. Protože proti nulové hypotéze stavíme oboustrannou alternativu, použijeme vzorec p = 2 min{P(T0 ≤ t0), P(T0 ≥ t0)} = 2 min {P(T0 ≤ 1,74), P(T0 ≥ 1,74)} = = 2 min { Φ(1,74), 1 – Φ(1,74) } = 2 min { 0,95907, 1 – 0,95907 } = 0,08186. Jelikož 0,08186 > 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Ilustrace významu p-hodnoty pro oboustranný test 2. Levostranná alternativa Proti nulové hypotéze H0: µ = 1,95 postavíme levostrannou alternativu H1: µ < 1,95. Na hladině významnosti 0,05 testujte H0 proti H1 všemi třemi popsanými způsoby. Řešení: a) Test provedeme pomocí kritického oboru. Na rozdíl od oboustranné alternativy bude mít kritický obor tvar W = )645,1,)u,)u, 05,0 −∞−=∞−=∞− α . Protože 1,74 ∉ W, H0 nezamítáme na hladině významnosti 0,05. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(1-α)% empirického pravostranného intervalu spolehlivosti pro střední hodnotu µ při známém rozptylu σ2 jsou: (-∞, h) = (-∞, m + n σ u1-α). V našem případě dostáváme: h = 2,06 + 10 2,0 u0,95 = 2,06 + 10 2,0 .1,645 = 2,164. Protože 1,95 ∈(-∞; 2,164), H0 nezamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty. Protože proti nulové hypotéze stavíme levostrannou alternativu, použijeme vzorec p = P(T0 ≤ t0) = Φ(1,74) = 0,95907. Jelikož 0,95907 > 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Ilustrace významu p-hodnoty pro levostranný test 3. Pravostranná alternativa Proti nulové hypotéze H0: µ = 1,95 postavíme pravostrannou alternativu H1: µ > 1,95. Na hladině významnosti 0,05 testujte H0 proti H1 všemi třemi popsanými způsoby. Řešení: a) Test provedeme pomocí kritického oboru. Na rozdíl od oboustranné alternativy bude mít kritický obor tvar W = ),645,1),u),u 95,01 ∞=∞=∞α− . Protože 1,74 ∈ W, H0 zamítáme na hladině významnosti 0,05 ve prospěch pravostranné alternativy. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(1-α)% empirického levostranného intervalu spolehlivosti pro střední hodnotu µ při známém rozptylu σ2 jsou: (d, ∞) = (m - n σ u1-α, ∞). V našem případě dostáváme: d = 2,06 - 10 2,0 u0,95 = 2,06 - 10 2,0 .1,645 = 1,956. Protože 1,95 ∉ (1,956, ∞), H0 zamítáme na hladině významnosti 0,05 ve prospěch pravostranné alternativy. c) Test provedeme pomocí p-hodnoty. Protože proti nulové hypotéze stavíme pravostrannou alternativu, použijeme vzorec p = P(T0 ≥ t0) = 1 - Φ(1,74) = 1 - 0,95907 = 0,04093. Jelikož 0,04093 ≤ 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05 ve prospěch pravostranné alternativy. Ilustrace významu p-hodnoty pro pravostranný test Testy normality dat K ověřování normality dat slouží celá řada testů, které jsou podrobně popsány ve statistické literatuře. Zde se omezíme na tři testy, které jsou implementovány v systému STATISTICA, a to Kolmogorovův – Smirnovův test a jeho Lilieforsovu variantu, Shapirův – Wilkův test a Andersonův – Darlingův test. K závěrům těchto testů však přistupujeme s určitou opatrností. Máme-li k dispozici rozsáhlejší datový soubor (orientačně n > 30) a test zamítne na obvyklé hladině významnosti 0,01 nebo 0,05 hypotézu o normalitě, i když vzhled diagnostických grafů svědčí jenom o lehkém porušení normality, nedopustíme se závažné chyby, pokud použijeme statistickou metodu založenou na normalitě dat. Kolmogorovův – Smirnovův test a jeho Lilieforsova varianta Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z normálního rozložení s parametry µ a σ2 . Distribuční funkci tohoto rozložení označme ΦT (x). Nechť Fn(x) je výběrová distribuční funkce. Testovou statistikou je statistika )x()x(FsupD Tn x n Φ−= ∞<<∞− . Nulovou hypotézu zamítáme na hladině významnosti α, když Dn ≥ Dn(α), kde Dn(α) je tabelovaná kritická hodnota. Pro n ≥ 30 lze Dn(α) aproximovat výrazem α 2 ln n2 1 . Upozornění: Nulová hypotéza musí specifikovat distribuční funkci zcela přesně, včetně všech jejích případných parametrů. Např. K-S test lze použít pro testování hypotézy, že náhodný výběr X1, ..., Xn pochází z rozložení Rs(0,1), což se využívá při testování generátorů náhodných čísel. Pokud však parametry distribuční funkce odhadujeme z výběru, změní se rozložení testové statistiky Dn a jde o Lilieforsův test. Příslušné modifikované kvantily byly určeny pomocí simulačních studií. Příklad: Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí K- S testu zjistěte na hladině významnosti 0,05, zda tato data pocházejí z normálního rozložení. Řešení: Odhadem střední hodnoty je výběrový průměr m = 11, odhadem rozptylu je výběrový rozptyl s2 = 10. Uspořádaný náhodný výběr je (8, 9, 10, 12, 16). Vypočteme hodnoty výběrové distribuční funkce: 1)x(F:16x 8,0 5 4 )x(F:16x12 6,0 5 3 )x(F:12x10 4,0 5 2 )x(F:10x9 2,0 5 1 )x(F:9x8 0)x(F:8x 5 5 5 5 5 5 =≥ ==<≤ ==<≤ ==<≤ ==<≤ =< Hodnoty teoretické distribuční funkce ФT(x) v bodech 8, 9, 10, 12, 16: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 94295,058,1 10 1116 16 62552,032,0 10 1112 12 37448,062552,0132,0132,0 10 1110 10 26435,073565,0163,0163,0 10 119 9 17106,082894,0195,0195,0 10 118 8 T T T T T =Φ=      − Φ=Φ =Φ=      − Φ=Φ =−=Φ−=−Φ=      − Φ=Φ =−=Φ−=−Φ=      − Φ=Φ =−=Φ−=−Φ=      − Φ=Φ (Ф je distribuční funkce rozložení N(0,1).) Rozdíly mezi výběrovou distribuční funkcí F5(x) a teoretickou distribuční funkcí ФT(x): d1 = 0,2 – 0,17106 = 0,02894; d2 = 0,4 – 0,26435 = 0,13565; d3 = 0,6 – 0,37448 = 0,22552; d4 = 0,8 – 0,62552 = 0,17448; d5 = 1 – 0,94295 = 0,05705. Testová statistika: D5 = 0,22552, modifikovaná kritická hodnota pro n = 5, α = 0,05 je 0,343. Protože 0,22552 < 0,343, hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Shapirův – Wilkův test Testujeme hypotézu, že náhodný výběr X1, ..., Xn pochází z normálního rozložení N(µ, σ2 ). Testová statistika má tvar: ( ) ( ) ( )[ ] ( )∑ ∑ = = +− − − = m 1i 2 i m 1i 2 i1in n i MX XXa W , kde m = n/2 pro n sudé a m = (n-1)/2 pro n liché. Koeficienty ai (n) jsou tabelovány. Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými pozorováními a jim odpovídajícími kvantily standardizovaného normálního rozložení. V případě, že data vykazují perfektní shodu s normálním rozložením, bude mít W hodnotu 1. Hypotézu o normalitě tedy zamítneme na hladině významnosti α, když se na této hladině neprokáže korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1). Lze také říci, že S – W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné od regresní přímky proložené těmito body. Andersonův – Darlingův test Testujeme hypotézu, že náhodný výběr X1, ..., Xn pochází z normálního rozložení N(µ, σ2 ). Testová statistika má tvar: ( ) ( ) ,n s mx 1ln s mx ln)1i2( n 1 AD n 1i i1ni −                               − Φ−+      − Φ−−= ∑= −+ kde x(i) jsou vzestupně uspořádané realizace náhodného výběru, Φ je distribuční funkce rozložení N(0,1). Hypotéza H0 se zamítá na hladině významnosti α, je-li vypočítaná hodnota testové statistiky AD větší než kritická hodnota D1-α. Pro velký rozsah výběru se přibližná 95% kritická hodnota počítá podle vzorce       −−= 295,0 n 93,0 n 013,1 10348,1D Příklad: Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí Lilieforsova testu, S – W testu a A – D testu testujte na hladině významnosti 0,05 hypotézu, že tato data pocházejí z normálního rozložení. Řešení: Vytvoříme nový datový soubor o jedné proměnné nazvané X a pěti případech. Do proměnné X zapíšeme uvedené hodnoty. Provedení Lilieforsova a S-W testu: V menu vybereme Statistiky – Základní statistiky/tabulky – Tabulky četností – OK, Proměnné X – OK. Na záložce zvolíme Normalita a zaškrtneme Lilieforsův test a Shapiro – Wilkův W test – Testy normality. Testy normality (Tabulka1) Proměnná N max D Lilliefors p W p X 5 0,224085 p > .20 0,912401 0,482151 Vidíme, že testová statistika K-S testu je d = 0,22409, odpovídající Lilieforsova p-hodnota je větší než 0,2, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Testová statistika S-W testu je W = 0,9124, odpovídající p-hodnota je 0,48215, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Provedení A - D testu: Statistiky – Rozdělení & simulace – proložení dat rozděleními – OK – Proměnné Spojité: X – na záložce Spojité proměnné ponecháme zaškrtnuté pouze Normální, na záložce Možnosti vybereme Anderson – Darling – OK – Souhrnné statistiky rozdělení. Souhrn rozdělení for Proměnná: x (Tabulka4) K-S d K-S p-hodn. AD stat. AD p-hodn. Chí-kvadrát Chí-kvadr. p-hodn. Chí-kvadr. SV Posun (práh/poloha) Normální (poloha,měřítko) 0,224085 0,915101 0,295219 0,940172 Testová statistika A – D testu je 0,2952, odpovídající p-hodnota je 0,9402, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Výpočet doplníme NP plotem vytořeným pomocí systému STATISTICA: Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnné X, zrušíme volbu Neurčovat průměrnou pozici svázaných pozorování – OK. Normální p-graf Měření ( 1v*10c) 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 Pozorovaná hodnota -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Očekávanánormálníhodnota Poznámka o dalších testech normality