Úvod do testování hypotéz
Motivace: Častým úkolem statistika je na základě dat ověřit předpoklady o parametrech nebo
typu rozložení, z něhož pochází náhodný výběr. Takovému předpokladu se říká nulová hypotéza.
Nulová hypotéza vyjadřuje nějaký teoretický předpoklad, často skeptického rázu a uživatel ji
musí stanovit předem, bez přihlédnutí k datovému souboru. Proti nulové hypotéze stavíme alternativní
hypotézu, která říká, co platí, když neplatí nulová hypotéza. Alternativní hypotéza je
formulována tak, aby mohla platit jenom jedna z těchto dvou hypotéz. Pravdivost alternativní
hypotézy by znamenala objevení nějakých nových skutečností, nebo zásadnější změnu
v dosavadních představách.
Např. výzkumník by chtěl na základě dat prověřit tezi (nový objev), že pasivní kouření škodí
zdraví. Jako nulovou hypotézu tedy položí tvrzení, že pasivní kouření neškodí zdraví a proti nulové
hypotéze postaví alternativní, že pasivní kouření škodí zdraví.
Testováním hypotéz se myslí rozhodovací postup, který je založen na daném náhodném výběru
a s jehož pomocí rozhodneme o zamítnutí či nezamítnutí nulové hypotézy.
Nulová a alternativní hypotéza
Nechť X1, ..., Xn je náhodný výběr z rozložení L(ϑ), kde parametr Ξ∈ϑ neznáme. Nechť h(ϑ)
je parametrická funkce a c daná reálná konstanta.
a) Oboustranná alternativa: Tvrzení H0: h(ϑ) = c se nazývá jednoduchá nulová hypotéza. Proti
nulové hypotéze postavíme složenou oboustrannou alternativní hypotézu H1: h(ϑ) ≠ c.
b) Levostranná alternativa: Tvrzení H0: h(ϑ) ≥ c se nazývá složená pravostranná nulová
hypotéza. Proti jednoduché nebo složené pravostranné nulové hypotéze postavíme složenou
levostrannou alternativní hypotézu H1: h(ϑ) < c.
c) Pravostranná alternativa: Tvrzení H0: h(ϑ) ≤ c se nazývá složená levostranná nulová
hypotéza. Proti jednoduché nebo složené levostranné nulové hypotéze postavíme složenou
pravostrannou alternativní hypotézu H1: h(ϑ) > c.
Testováním H0 proti H1 rozumíme rozhodovací postup založený na náhodném výběru X1, ..., Xn,
s jehož pomocí zamítneme či nezamítneme platnost nulové hypotézy.
Chyba 1. a 2. druhu
Při testování H0 proti H1 se můžeme dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H0 zamítneme,
ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí.
Situaci přehledně znázorňuje tabulka:
rozhodnutískutečnost
H0 nezamítáme H0 zamítáme
H0 platí správné rozhodnutí chyba 1. druhu
H0 neplatí chyba 2. druhu správné rozhodnutí
Pravděpodobnost chyby 1. druhu se značí α a nazývá se hladina významnosti testu (většinou bývá α = 0,05,
méně často 0,1 či 0,01). Pravděpodobnost chyby 2. druhu se značí β. Číslo 1–β se nazývá síla testu a vyjadřuje
pravděpodobnost, že bude H0 zamítnuta za předpokladu, že neplatí. Obvykle se snažíme, aby síla testu
byla aspoň 0,8. Obě hodnoty, α i 1–β, závisí na velikosti efektu, který se snažíme detekovat. Čím drobnější
efekt, tím musí být větší rozsah náhodného výběru.
rozhodnutískutečnost
zdravý nemocný
jsem zdravý zdravý a neléčený zdravý a léčený
jsem nemocný nemocný a neléčený nemocný a léčený
Testování pomocí kritického oboru
Najdeme statistiku T0 = T0(X1, ..., Xn), kterou nazveme testovým kritériem. Množina všech
hodnot, jichž může testové kritérium nabýt, se rozpadá na obor nezamítnutí nulové hypotézy
(značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). Tyto
dva obory jsou odděleny kritickými hodnotami (pro danou hladinu významnosti α je lze najít ve
statistických tabulkách).
Jestliže číselná realizace t0 testového kritéria T0 padne do kritického oboru W, pak nulovou
hypotézu zamítáme na hladině významnosti α a znamená to skutečné vyvrácení testované
hypotézy. Jestliže t0 padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost
nulové hypotézy jenom připouští.
Pravděpodobnosti chyb 1. a 2. druhu nyní zapíšeme takto:
P(T0 ∈ W/H0 platí) = α, P(T0 ∈V /H1 platí) = β.
Stanovení kritického oboru pro danou hladinu významnosti α:
Označme tmin (resp. tmax) nejmenší (resp. největší) hodnotu testového kritéria.
Kritický obor v případě oboustranné alternativy má tvar
W = ( )max2/12/min t),T(K)T(K,t α−α ∪ , kde Kα/2(T) a K1-α/2(T) jsou kvantily rozložení, jímž se
řídí testové kritérium T0, je-li nulová hypotéza pravdivá.
Kritický obor v případě levostranné alternativy má tvar:
W = ( )T(K,tmin α .
Kritický obor v případě pravostranné alternativy má tvar:
W = )max1 t),T(K α− .
Testování pomocí intervalu spolehlivosti
Sestrojíme 100(1-α)% empirický interval spolehlivosti pro parametrickou funkci h(ϑ). Pokryje-li tento interval hodnotu c,
pak H0 nezamítáme na hladině významnosti α, v opačném případě H0 zamítáme na hladině významnosti α.
Pro test H0 proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti.
Pro test H0 proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti.
Pro test H0 proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti.
Testování pomocí p-hodnoty
p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy. Je to riziko, že bude zamítnuta H0 za
předpokladu, že platí (riziko planého poplachu). Jestliže p-hodnota ≤ α, pak H0 zamítáme na hladině významnosti α, je-li phodnota
> α, pak H0 nezamítáme na hladině významnosti α.
Způsob výpočtu p-hodnoty:
Pro oboustrannou alternativu p = 2 min{P(T0 ≤ t0), P(T0 ≥ t0)}.
Pro levostrannou alternativu p = P(T0 ≤ t0).
Pro pravostrannou alternativu p = P(T0 ≥ t0).
Ilustrace významu p-hodnoty pro test nulové hypotézy proti oboustranné, levostranné a pravostranné alternativě:
(Zvonovitá křivka reprezentuje hustotu rozložení, kterým se řídí testové kritérium, je-li nulová hypotéza pravdivá.)
p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace x1, ..., xn náhodného výběru X1, ..., Xn podporují H0, je-li
pravdivá. Statistické programové systémy poskytují ve svých výstupech p-hodnotu. Její výpočet vyžaduje znalost distribuční
funkce rozložení, kterým se řídí testové kritérium T0, je-li H0 pravdivá.
Doporučený postup při testování hypotéz
1. Stanovíme nulovou hypotézu a alternativní hypotézu. Přitom je vhodné zvolit jako alternativní hypotézu ten předpoklad,
jehož přijetí znamená závažné opatření a mělo by k němu dojít jen s malým rizikem omylu.
2. Zvolíme hladinu významnosti α. Zpravidla volíme α = 0,05, méně často 0,1 nebo 0,01.
3. Najdeme vhodné testové kritérium a na základě zjištěných dat vypočítáme jeho realizaci.
4.
a) Testujeme-li pomocí kritického oboru, pak ho stanovíme. Jestliže realizace testového kritéria padla do kritického oboru,
nulovou hypotézu zamítáme na hladině významnosti α a přijímáme alternativní hypotézu. V opačném případě nulovou
hypotézu nezamítáme na hladině významnosti α.
b) Testujeme-li pomocí intervalu spolehlivosti, vypočteme empirický 100(1-α)% interval spolehlivosti pro parametrickou
funkci h(ϑ). Pokud číslo c padne do tohoto intervalu, nulovou hypotézu nezamítáme na hladině významnosti α. V opačném
případě nulovou hypotézu zamítáme na hladině významnosti α a přijímáme alternativní hypotézu.
c) Testujeme-li pomocí p-hodnoty, vypočteme ji a porovnáme ji s hladinou významnosti α. Jestliže p ≤ α, pak nulovou
hypotézu zamítáme na hladině významnosti α a přijímáme alternativní hypotézu. Je-li p > α, pak nulovou hypotézu
nezamítáme na hladině významnosti α.
5. Na základě rozhodnutí, které jsme učinili o nulové hypotéze, provedeme nějaké konkrétní opatření, např. seřídíme
obráběcí stroj.
(Při testování hypotéz musíme mít k dispozici odpovídající nástroje, nejlépe vhodný statistický software. Nemáme-li ho
k dispozici, musíme znát příslušné vzorce. Dále potřebujeme statistické tabulky a kalkulačku.)
Příklad: 10 x nezávisle na sobě byla změřena jistá konstanta µ. Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3
2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1, ..., X10 z rozložení N(µ, 0,04). Nějaká teorie tvrdí,
že µ = 1,95.
1. Oboustranná alternativa
Proti nulové hypotéze H0: µ = 1,95 postavíme oboustrannou alternativu
H1: µ ≠ 1,95. Na hladině významnosti 0,05 testujte H0 proti H1 všemi třemi popsanými způsoby.
Řešení:
m = )2,2...2(
10
1
++ = 2,06, σ2
= 0,04, n = 10, α = 0,05, c = 1,95
a) Test provedeme pomocí kritického oboru.
Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku U =
n
M
σ
µ−
~ N(0, 1).
Testové kritérium tedy bude
T0 =
n
cM
σ
−
a bude mít rozložení N(0, 1), pokud je nulová hypotéza pravdivá. Vypočítáme realizaci testového kritéria:
t0 =
10
2,0
95,106,2 −
=1,74. Stanovíme kritický obor:
W = ( )max2/12/min t),T(K)T(K,t α−α ∪ = ( )∞∪∞− α−α ,uu, 2/12/ = ( )∞∪−∞− α−α− ,uu, 2/12/1 = ( )∞∪−∞− ,uu, 975,0975.0 =
( )∞∪−∞− ,96,196,1, .
Protože 1,74 ∉ W, H0 nezamítáme na hladině významnosti 0,05.
b) Test provedeme pomocí intervalu spolehlivosti.
Meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu µ při známém rozptylu σ2
jsou:
(d, h) = (m -
n
σ
u1-α/2, m +
n
σ
u1-α/2).
V našem případě dostáváme:
d = 2,06 -
10
2,0
u0,975 = 2,06 -
10
2,0
.1,96 = 1,936,
h = 2,06 +
10
2,0
u0,975 = 2,06 +
10
2,0
.1,96 = 2,184.
Protože 1,95 ∈(1,936; 2,184), H0 nezamítáme na hladině významnosti 0,05.
c) Test provedeme pomocí p-hodnoty.
Protože proti nulové hypotéze stavíme oboustrannou alternativu, použijeme vzorec
p = 2 min{P(T0 ≤ t0), P(T0 ≥ t0)} = 2 min {P(T0 ≤ 1,74), P(T0 ≥ 1,74)} =
= 2 min { Φ(1,74), 1 – Φ(1,74) } = 2 min { 0,95907, 1 – 0,95907 } = 0,08186.
Jelikož 0,08186 > 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05.
Ilustrace významu p-hodnoty pro oboustranný test
2. Levostranná alternativa
Proti nulové hypotéze H0: µ = 1,95 postavíme levostrannou alternativu
H1: µ < 1,95. Na hladině významnosti 0,05 testujte H0 proti H1 všemi třemi popsanými způsoby.
Řešení:
a) Test provedeme pomocí kritického oboru.
Na rozdíl od oboustranné alternativy bude mít kritický obor tvar
W = )645,1,)u,)u, 05,0 −∞−=∞−=∞− α .
Protože 1,74 ∉ W, H0 nezamítáme na hladině významnosti 0,05.
b) Test provedeme pomocí intervalu spolehlivosti.
Meze 100(1-α)% empirického pravostranného intervalu spolehlivosti pro střední hodnotu µ při známém rozptylu σ2
jsou:
(-∞, h) = (-∞, m +
n
σ
u1-α).
V našem případě dostáváme: h = 2,06 +
10
2,0
u0,95 = 2,06 +
10
2,0
.1,645 = 2,164.
Protože 1,95 ∈(-∞; 2,164), H0 nezamítáme na hladině významnosti 0,05.
c) Test provedeme pomocí p-hodnoty.
Protože proti nulové hypotéze stavíme levostrannou alternativu, použijeme vzorec
p = P(T0 ≤ t0) = Φ(1,74) = 0,95907.
Jelikož 0,95907 > 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05.
Ilustrace významu p-hodnoty pro levostranný test
3. Pravostranná alternativa
Proti nulové hypotéze H0: µ = 1,95 postavíme pravostrannou alternativu
H1: µ > 1,95. Na hladině významnosti 0,05 testujte H0 proti H1 všemi třemi popsanými způsoby.
Řešení:
a) Test provedeme pomocí kritického oboru.
Na rozdíl od oboustranné alternativy bude mít kritický obor tvar
W = ),645,1),u),u 95,01 ∞=∞=∞α− .
Protože 1,74 ∈ W, H0 zamítáme na hladině významnosti 0,05 ve prospěch pravostranné alternativy.
b) Test provedeme pomocí intervalu spolehlivosti.
Meze 100(1-α)% empirického levostranného intervalu spolehlivosti pro střední hodnotu µ při známém rozptylu σ2
jsou:
(d, ∞) = (m -
n
σ
u1-α, ∞).
V našem případě dostáváme: d = 2,06 -
10
2,0
u0,95 = 2,06 -
10
2,0
.1,645 = 1,956.
Protože 1,95 ∉ (1,956, ∞), H0 zamítáme na hladině významnosti 0,05 ve prospěch pravostranné alternativy.
c) Test provedeme pomocí p-hodnoty.
Protože proti nulové hypotéze stavíme pravostrannou alternativu, použijeme vzorec
p = P(T0 ≥ t0) = 1 - Φ(1,74) = 1 - 0,95907 = 0,04093.
Jelikož 0,04093 ≤ 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05 ve prospěch pravostranné alternativy.
Ilustrace významu p-hodnoty pro pravostranný test
Testy normality dat
K ověřování normality dat slouží celá řada testů, které jsou podrobně popsány ve statistické
literatuře. Zde se omezíme na tři testy, které jsou implementovány v systému STATISTICA, a to
Kolmogorovův – Smirnovův test a jeho Lilieforsovu variantu, Shapirův – Wilkův test a
Andersonův – Darlingův test.
K závěrům těchto testů však přistupujeme s určitou opatrností. Máme-li k dispozici rozsáhlejší
datový soubor (orientačně n > 30) a test zamítne na obvyklé hladině významnosti 0,01 nebo 0,05
hypotézu o normalitě, i když vzhled diagnostických grafů svědčí jenom o lehkém porušení
normality, nedopustíme se závažné chyby, pokud použijeme statistickou metodu založenou na
normalitě dat.
Kolmogorovův – Smirnovův test a jeho Lilieforsova varianta
Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z normálního rozložení
s parametry µ a σ2
.
Distribuční funkci tohoto rozložení označme ΦT (x).
Nechť Fn(x) je výběrová distribuční funkce.
Testovou statistikou je statistika )x()x(FsupD Tn
x
n Φ−=
∞<<∞−
.
Nulovou hypotézu zamítáme na hladině významnosti α, když Dn ≥ Dn(α), kde Dn(α) je
tabelovaná kritická hodnota.
Pro n ≥ 30 lze Dn(α) aproximovat výrazem α
2
ln
n2
1
.
Upozornění: Nulová hypotéza musí specifikovat distribuční funkci zcela přesně, včetně všech
jejích případných parametrů. Např. K-S test lze použít pro testování hypotézy, že náhodný výběr
X1, ..., Xn pochází z rozložení Rs(0,1), což se využívá při testování generátorů náhodných čísel.
Pokud však parametry distribuční funkce odhadujeme z výběru, změní se rozložení testové
statistiky Dn a jde o Lilieforsův test. Příslušné modifikované kvantily byly určeny pomocí
simulačních studií.
Příklad: Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí K- S testu zjistěte na hladině významnosti
0,05, zda tato data pocházejí z normálního rozložení.
Řešení: Odhadem střední hodnoty je výběrový průměr m = 11, odhadem rozptylu je výběrový
rozptyl s2
= 10. Uspořádaný náhodný výběr je (8, 9, 10, 12, 16). Vypočteme hodnoty výběrové
distribuční funkce:
1)x(F:16x
8,0
5
4
)x(F:16x12
6,0
5
3
)x(F:12x10
4,0
5
2
)x(F:10x9
2,0
5
1
)x(F:9x8
0)x(F:8x
5
5
5
5
5
5
=≥
==<≤
==<≤
==<≤
==<≤
=<
Hodnoty teoretické distribuční funkce ФT(x) v bodech 8, 9, 10, 12, 16:
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( )
( ) ( ) 94295,058,1
10
1116
16
62552,032,0
10
1112
12
37448,062552,0132,0132,0
10
1110
10
26435,073565,0163,0163,0
10
119
9
17106,082894,0195,0195,0
10
118
8
T
T
T
T
T
=Φ=




 −
Φ=Φ
=Φ=




 −
Φ=Φ
=−=Φ−=−Φ=




 −
Φ=Φ
=−=Φ−=−Φ=




 −
Φ=Φ
=−=Φ−=−Φ=




 −
Φ=Φ
(Ф je distribuční funkce rozložení N(0,1).)
Rozdíly mezi výběrovou distribuční funkcí F5(x) a teoretickou distribuční funkcí ФT(x):
d1 = 0,2 – 0,17106 = 0,02894;
d2 = 0,4 – 0,26435 = 0,13565;
d3 = 0,6 – 0,37448 = 0,22552;
d4 = 0,8 – 0,62552 = 0,17448;
d5 = 1 – 0,94295 = 0,05705.
Testová statistika: D5 = 0,22552, modifikovaná kritická hodnota pro n = 5, α = 0,05 je 0,343.
Protože 0,22552 < 0,343, hypotézu o normalitě nezamítáme na hladině významnosti 0,05.
Shapirův – Wilkův test
Testujeme hypotézu, že náhodný výběr X1, ..., Xn pochází z normálního rozložení N(µ, σ2
).
Testová statistika má tvar:
( )
( ) ( )[ ]
( )∑
∑
=
=
+−
−
−
= m
1i
2
i
m
1i
2
i1in
n
i
MX
XXa
W
,
kde m = n/2 pro n sudé a m = (n-1)/2 pro n liché. Koeficienty ai
(n)
jsou tabelovány.
Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými
pozorováními a jim odpovídajícími kvantily standardizovaného normálního rozložení.
V případě, že data vykazují perfektní shodu s normálním rozložením, bude mít W hodnotu 1.
Hypotézu o normalitě tedy zamítneme na hladině významnosti α, když se na této hladině
neprokáže korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1).
Lze také říci, že S – W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné
od regresní přímky proložené těmito body.
Andersonův – Darlingův test
Testujeme hypotézu, že náhodný výběr X1, ..., Xn pochází z normálního rozložení N(µ, σ2
).
Testová statistika má tvar:
( ) ( )
,n
s
mx
1ln
s
mx
ln)1i2(
n
1
AD
n
1i
i1ni
−





























 −
Φ−+




 −
Φ−−= ∑=
−+
kde x(i) jsou vzestupně uspořádané realizace náhodného výběru, Φ je distribuční funkce
rozložení N(0,1).
Hypotéza H0 se zamítá na hladině významnosti α, je-li vypočítaná hodnota testové statistiky AD
větší než kritická hodnota D1-α. Pro velký rozsah výběru se přibližná 95% kritická hodnota
počítá podle vzorce






−−= 295,0
n
93,0
n
013,1
10348,1D
Příklad:
Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí Lilieforsova testu, S – W testu a A – D testu testujte na hladině významnosti
0,05 hypotézu, že tato data pocházejí z normálního rozložení.
Řešení:
Vytvoříme nový datový soubor o jedné proměnné nazvané X a pěti případech. Do proměnné X zapíšeme uvedené hodnoty.
Provedení Lilieforsova a S-W testu:
V menu vybereme Statistiky – Základní statistiky/tabulky – Tabulky četností – OK, Proměnné X – OK. Na záložce zvolíme
Normalita a zaškrtneme Lilieforsův test a Shapiro – Wilkův W test – Testy normality.
Testy normality (Tabulka1)
Proměnná
N max D Lilliefors
p
W p
X 5 0,224085 p > .20 0,912401 0,482151
Vidíme, že testová statistika K-S testu je d = 0,22409, odpovídající Lilieforsova p-hodnota je větší než 0,2, tedy hypotézu o
normalitě nezamítáme na hladině významnosti 0,05.
Testová statistika S-W testu je W = 0,9124, odpovídající p-hodnota je 0,48215, tedy hypotézu o normalitě nezamítáme na
hladině významnosti 0,05.
Provedení A - D testu:
Statistiky – Rozdělení & simulace – proložení dat rozděleními – OK – Proměnné Spojité: X – na záložce Spojité proměnné
ponecháme zaškrtnuté pouze Normální, na záložce Možnosti vybereme Anderson – Darling – OK – Souhrnné statistiky
rozdělení.
Souhrn rozdělení for Proměnná: x (Tabulka4)
K-S d K-S
p-hodn.
AD stat. AD p-hodn. Chí-kvadrát Chí-kvadr.
p-hodn.
Chí-kvadr.
SV
Posun
(práh/poloha)
Normální (poloha,měřítko) 0,224085 0,915101 0,295219 0,940172
Testová statistika A – D testu je 0,2952, odpovídající p-hodnota je 0,9402, tedy hypotézu o normalitě nezamítáme na hladině
významnosti 0,05.
Výpočet doplníme NP plotem vytořeným pomocí systému STATISTICA:
Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnné X, zrušíme volbu
Neurčovat průměrnou pozici svázaných pozorování – OK.
Normální p-graf Měření ( 1v*10c)
1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5
Pozorovaná hodnota
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
Očekávanánormálníhodnota
Poznámka o dalších testech normality