Příklady na testování hypotéz
Příklad 1.: Za 2. světové války byl Londýn bombardován řízenými střelami. Jeho jižní část byla
rozdělena na oblasti o ploše 0,25 km2 a bylo zkoumáno, kolik řízených střel dopadlo na každou z
těchto oblastí.
Počet střel 0 1 2 3 4 a víc
Počet oblastí 229 211 93 35 8
Na asymptotické hladině významnosti testujte hypotézu, že počet řízených střel, které dopadly na
jednu oblast, se řídí Poissonovým rozložením. Úkol vyřešte a) pomocí testu dobré shody, b)
pomocí jednoduchého testu Poissonova rozložení (zde uveďte i odpovídající p-hodnotu).
Upozornění: Jednoduchý test Poissonova (i exponenciálního) rozložení lze provést pomocí
funkce darling.m.
Řešení:
a) Test dobré shody
Odhad parametru  získáme jako vážený průměr m = 0,9271. Vypočteme hodnoty
pravděpodobnostní funkce rozložení Po(0,9271) v bodech 0, 1, 2, 3 a (4) získáme jako
   

3
0x
x14
. Pak vyčíslíme teoretické četnosti npj: 227,9268 211,3071 97,9496 30,2692
8,5473. Všechny teoretické četnosti jsou větší než 5, jsou tedy splněny podmínky dobré
aproximace a lze vypočítat realizaci testové statistiky
 

r
1j j
2
jj
np
npn
K
= 1,0301.
Kritický obor
 ,8147,7W
. Testová statistika se nerealizuje v kritickém oboru, hypotézu o
Poissonově rozložení tedy nezamítáme na asymptotické hladině významnosti 0,05.
Pomocí funkce plot můžeme graficky současně znázornit pozorované relativní četnosti a hodnoty
teoretické pravděpodobnostní funkce: plot(xj,nj./n, 'o', xj,pj,'*')
b) Jednoduchý test Poissonova rozložení
Testovou statistiku K vypočteme podle vzorce
 
M
S1n
K
2


. Kritický obor má tvar:
      ;1n1n;0W 2/1
2
2/
2
.
Realizaci výběrového průměru již známe, m = 0,9271. Vypočítáme realizaci výběrového rozptylu:
s2 = 0,9234. Po dosazení do vzorce pro testovou statistiku dostaneme K = 572,6966. Dále
 ;643,3392510,4485;0W
. Testová statistika se nerealizuje v kritickém oboru, hypotézu
o Poissonově rozložení tedy nezamítáme na asymptotické hladině významnosti 0,05. Odpovídající
p-hodnota je 0,9614.
Doplňkový úkol: odhad parametru  získejte modifikovanou metodou chí-kvadrát minima (viz
funkce poiss_odhad.m, odhad  vyjde 0,93) a s tímto odhadem pak proveďte test dobré shody.
Příklad 2.: Bylo zkoumáno 43 automobilů téže značky a měřena vzdálenost (v tisících km),
kterou ujely, než se vyskytla první vážná porucha:
5 48 7 30 15 18 7 1 15 90 25 17 32
3 2 27 19 16 74 9 8 11 12 21 8 9
58 14 24 12 1 5 13 69 23 4 10 3 2
83 6 10 5
Na asymptotické hladině významnosti testujte hypotézu, že počet km se řídí exponenciálním
rozložením s parametrem  = 0,056 (tzn., že střední hodnota počtu ujetých kilometrů do první
vážné poruchy je 17 857). Úkol vyřešte a) pomocí jednoduchého testu exponenciálního rozložení,
b) pomocí Kolmogorovova - Smirnovova testu.
Řešení:
a) Jednoduchý test exponenciálního rozložení
Testovou statistiku K vypočteme podle vzorce
 
2
2
M
S1n
K


. Kritický obor má tvar:
      ;1n1n;0W 2/1
2
2/
2
. V našem případě m = mean(x) = 20,2558, s2 = var(x)
= 506,4806, K = 51,8457,
,;61,776825,9987;0W 
H0 tedy nezamítáme na asymptotické
hladině významnosti 0,05. Odpovídající p-hodnota je 0,2839.
b) K-S test
K-S test má syntaxi [H,P,KSSTAT,CV] = kstest(X,cdf,alpha,tail)
Význam výstupních parametrů:
Parametr H ... 0, když nulovou hypotézu nezamítáme na hladině významnosti alpha
H ... 1, když nulovou hypotézu zamítáme na hladině významnosti alpha
Parametr P ... odpovídající p-hodnota
Parametr KSSTAT ... realizace testové statistiky K-S testu (tj. absolutní hodnota maximálního
rozdílu mezi distribuční funkcí testovaného spojitého rozložení a výběrovou distribuční funkcí).
Parametr CV ... ta hodnota testové statistiky, pro kterou by se již nulová hypotézy zamítla na
hladině významnosti alpha.
Význam vstupních parametrů:
Parametr X ... vektor s realizacemi náhodného výběru.
Parametr cdf ... matice, která má dva sloupce, v prvním jsou hodnoty X, ve druhém hodnoty
distribuční funkce testovaného spojitého rozložení v bodech X.
Parametr alpha ... zvolená hladina významnosti testu (implicitně 0,05).
Parametr tail ... specifikuje typ testu. Pokud není udán, je implicitně 0 a provede se oboustranný
test. Je-li tail = -1, alternativa tvrdí, že výběrová distribuční funkce je stochasticky menší než
testovaná distribuční funkce a je-li tail = 1, alternativa tvrdí, že výběrová distribuční funkce je
stochasticky větší než testovaná distribuční funkce.
Upozornění: K-S test předpokládá, že testovaná distribuční funkce je plně specifikována včetně
všech případných parametrů. Nejsou-li parametry rozložení předem známy a odhadují se z dat,
musí se použít Lilieforsova varianta K-S testu. MATLAB však má implementovanou Lilieforsovu
variantu pouze pro normální rozložení.
V našem případě zadáme příkaz:
[H,P,KSSTAT,CV] = kstest(x,[x,expcdf(x,1/0.056)])
Dostaneme
H = 0 (tedy nulovou hypotézu nezamítáme na hladině významnosti 0,05),
P = 0,9277 (odpovídající p-hodnota je blízká 1, je podstatně větší než 0,05),
KSSTAT = 0,0814 (naopak testová statistika se realizuje nízkou hodnotou, tedy rozdíl mezi
výběrovou distribuční funkcí a distribuční funkcí rozložení Ex(0,056) je malý),
CV = 0,2028 ( testová statistika by se musela realizovat hodnotou aspoň 0,2028, abychom na
hladině významnosti 0,05 mohli zamítnout hypotézu o rozložení Ex(0,056)).
Graficky můžeme posoudit shodu mezi výběrovou distribuční funkcí a distribuční funkcí rozložení
Ex(0,056) pomocí příkazů:
xx=[0:1:100]';
cdfplot(x)
hold on
plot(xx,expcdf(xx,1/0.056),'r--')
0 10 20 30 40 50 60 70 80 90 100
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
F(x)
Empirical CDF
Příklad 3.: Jsou dány realizace náhodného výběru rozsahu 10 ze spojitého rozložení: 12 7 18 5
11 7 1 7 3 3. Shodu mezi výběrovou distribuční funkcí a distribuční funkcí exponenciálního
rozložení posuďte pomocí pravděpodobnostně - pravděpodobnostního grafu.
Řešení:
Pravděpodobnostně - pravděpodobnostní graf má syntaxi probplot('distname', X), kde
distname je název testovaného rozložení (v našem případe exponential)
0 2 4 6 8 10 12 14 16 18
0.01
0.1
0.25
0.5
0.75
0.9
0.95
Data
Probability
Probability plot for Exponential distribution
Příklad 4.: Byl zjišťován počet poruch určitého zařízení za 100 hodin provozu ve 150
disjunktních 100 h intervalech. Výsledky měření:
Počet poruch za 100 hodin provozu 0 1 2 3 4 a víc
Absolutní četnost 52 48 36 10 4
Na asymptotické hladině významnosti 0,05 testujte hypotézu, že náhodný výběr 1501 X,,X 
pochází z rozložení  2,1Po .
Výsledek: Testová statistika K testu dobré shody nabývá hodnoty 3,053, kritický obor je
        ;488,9,4,1prW 95,0
2¨
1
2¨
, tedy nulovou hypotézu nezamítáme na
asymptotické hladině významnosti 0,05.