1
Statistické metody a zpracování dat
V. Testování statistických hypotéz
Petr Dobrovolný
K čemu to je ? (příklad)
Má smysl se připravovat na písemný test ze statistiky?
Má to smysl!
K čemu to je?
Ověřování domněnek či předpokladů.
Hledání odpovědí na určitým způsobem zformulované
otázky.
Příklady:
* Jak mnoho se liší průměrná míra nezaměstnanosti v
našem okrese od celorepublikového průměru?
* Liší se významně údaje zjištěné dvěma různými
metodami?
* Pochází výběr ze základního souboru, který má určité
teoretické rozdělení?
* Je jedna metoda lepší než druhá?
Obecný postup testování
1. Formulace nulové hypotézy
2. Volba hladiny významnosti
3. Volba vhodného testovacího kritéria
4. Výpočet hodnoty testovacího kritéria z empirických dat
5. Porovnání vypočtené hodnoty s hodnotou kritickou nebo
její převedení do pravděpodobnostní škály
6. Vyslovení závěru o výsledku testu (přijetí či zamítnutí
nulové hypotézy)
Základní pojmy
* Statistická hypotéza ­ předpoklad o neznámé vlastnosti
základního souboru.
* Prověřujeme tzv. nulovou hypotézu (H0). Např. průměry
výběrových souborů se neliší (pocházejí z jednoho
základního souboru).
* Nulová hypotéza je obvykle opakem hypotézy pracovní (je
obvykle opakem toho, co chceme výzkumem prokázat, když
zahajujeme studii a začínáme sbírat data). Obvykle deklaruje
,,žádný rozdíl"
* Alternativní hypotéza (H1) ­ situace, kdy H0 neplatí. Tedy
obvykle vyjadřuje ,,existenci diference" či ,,existenci závislosti"
ˇPlatnost hypotézy se prověřuje testem významnosti.
Základní pojmy
* Hypotéza může být dvoustranná a test dvoustranným
* Existují i jednostranné (pravostranné a levostranné) hypotézy
0 =
0 
0 >
0 <
H0
H1
Jednostranný test
H1
H1
2
Základní pojmy
* Hladina významnosti () ­ pravděpodobnost, že
náhodná odchylka překročí tzv. kritickou hodnotu.
* Volíme  co nejnižší ( = 0,05 či 0,01 tj. 5 % či 1 %).
* Odchylky, které se vyskytují s menší pravděpodobností
než  jsou statisticky významné na zvolené hladině.
Obecný tvar testovacího kritéria:
Testovou statistiku vyhodnotíme tak, že spočteme pravděpodobnost, že
bychom mohli pozorovat námi zjištěnou, nebo ještě extrémnější (tj. méně
pravděpodobnou) hodnotu, pokud by byla nulová hypotéza pravdivá.
Testovací kritérium
* Použité testovací kritérium musí odpovídat povaze
problému.
* Každé testovací kritérium má své teoretické rozdělení.
* Ve statistických tabulkách jsou uvedeny kritické hodnoty
testovacích kritérií pro běžně používané hladiny významnosti
a běžné rozsahy výběrových souborů.
* Tyto rozsahy jsou většinou tabelovány v tzv. stupních
volnosti.
* Pokud nejsou kritické hodnoty tabelovány (pro velká n) lze
vypočítat pomocí SW
Dva způsoby hodnocení vypočteného
testovacího kritéria
1. porovnání vypočtené hodnoty s hodnotou kritickou,
kterou nalezneme v tabulkách
* vypočteme hodnotu testovací statistiky
* v tabulkách nalezneme tzv. kritickou hodnotu
testovací charakteristiky pro zvolené 
* obě hodnoty porovnáme
Hodnocení testovacího kritéria
s využitím statistických tabulek
Výrok o platnosti či neplatnosti nulové hypotézy vyslovujeme na
základě porovnání vypočtené hodnoty testovacího kritéria
s hodnotou kritickou:
I. Vypočtené kritérium je větší než kritická hodnota
* Jedná se o případ, který jsme očekávali s nepatrnou
pravděpodobností
* Takový případ je téměř nemožný.
* Testovaná odchylka tedy nemá náhodný charakter.
* Nulovou hypotézu zamítáme a rozdíl mezi testovanými
charakteristikami je statisticky významný na zvolené hladině 
.
* II. Vypočtené kritérium je menší než kritická hodnota
* Jedná se o případ, který jsme očekávali
s pravděpodobností 1-  ­ tedy velmi vysokou
* Takový případ můžeme považovat za téměř jistý.
* Mezi testovanými charakteristikami není rozdílu.
* Nulovou hypotézu přijímáme a rozdíl mezi testovanými
charakteristikami není statisticky významný na zvolené
hladině .
Hodnocení testovacího kritéria
s využitím statistických tabulek
Dva způsoby hodnocení vypočteného
testovacího kritéria
2. převedení hodnoty testovací statistiky do
pravděpodobnostní škály na tzv. p hodnotu (hodnotu
významnosti)
(tento způsob hodnocení nabízejí počítačové programy)
3
Hodnocení testovacího kritéria výpočet
p hodnoty
p hodnota odpovídá na otázku:
Jestliže H0 platí, jaká je pravděpodobnost, že získáme
právě vypočítanou či ještě neobvyklejší hodnotu testovací
charakteristiky.
Je-li p hodnota malá, máme doklad, že H0 neplatí.
Interpretace p hodnoty
p <=  důkaz pro zamítnutí H0
p >  nemáme důkaz pro zamítnutí H0
Protože má testovací kritérium určité teoretické rozdělení,
každé jeho hodnotě přísluší určitá pravděpodobnost (p
hodnota).
oblast
zamítnutí
 = 0,05
p = 0,0052
z = 1,64 z = 2,56
Interpretace jednostranného testu
oblast
zamítnutí
 = 0,025
p = 0,0052
z = 1,96
z = 2,56
z = -1,96
 = 0,025
oblast
zamítnutí
Interpretace dvoustranného testu Při testování se můžeme dopustit dvou
druhů chyb:
Chyba I. druhu ­ nulová hypotéza platí, ale zamítne se
Chyba II. druhu ­ nulová hypotéza neplatí, ale přijme se
správnýchyba II. druhuH0 neplatí
chyba I. druhusprávnýH0 platíSkutečnost
H0 neplatíH0 platí
Závěr testu
Chyba I. druhu se omezuje volbou . Čím menší hladinu
významnosti zvolíme, tím menší je pravděpodobnost chyby
I. druhu.
Naopak však ale roste pravděpodobnost chyby II. druhu.
Vztahy mezi chybami I. a II. druhu, síla testu:
Pravděpodobnost chyby I. druhu značíme  a lze ji vyjádřit
jako podmíněnou pravděpodobnost:
Pravděpodobnost chyby II. druhu značíme  :
P(chyba I. druhu I H0 platí) = 
P(chyba II. druhu I H0 neplatí) = 
Opačné jevy k chybám I. a II. druhu
Spolehlivost testu: (1- )
Síla testu: (1- )
* Síla testu vyjadřuje, s jakou pravděpodobností zamítneme
nulovou hypotézu, platí-li hypotéza alternativní
* Udává pravděpodobnost, že se nedopustíme chyby II. druhu
Rozdělení testů
Testy parametrické ­ testy o charakteristikách základního
souboru, testy o parametrech rozdělení základního souboru
(testy o průměru, rozptylu, o shodě dvou průměrů, ...). Data
měřena na intervalové či poměrové škále.
Předpokládá se, že rozdělení základního souboru z něhož
pochází výběr, je určité teoretické rozdělení (normální).
Neparametrické testy - nevíme nic o rozdělení základního
souboru. Data měřena na nominální či ordinální škále.
Například ověřujeme předpoklad o normalitě. Patří sem:
Testy dobré shody, testy nezávislosti v kombinační tabulce, ...
Menší síla testů (sociologie, psychologie, ...).
Testy párové a nepárové
n1 = n2 n1 se nerovná n2
4
Příklad Z-testu, oboustranná alternativa
Ve výběru 216 vzorků byl zjišťován obsah rozpuštěných látek:
Průměr: 34,46 g/l
Směrodatná chyba: 0,397 g/l
průměr se neliší od průměru základního souboru (33,5 g/l)
Protože měříme spojitou veličinu a rozsah výběru je velký můžeme
předpokládat normální rozdělení a použít tzv. Z-testu:
0 =
0 
H0
H1
Testová
charakteristika
1
^
^
-
==
n
s
n
x


Příklad Z-testu, oboustranná alternativa
Z1-0,5=1,96
= 0,05
a tedy:
1-0,5=0,9750
Nalezneme kritickou hodnotu Z standardizovaného normálního
rozdělení odpovídající 95% koeficientu spolehlivosti ­ nebo­li 5%
hladině významnosti :
Z1-0,5
Z1-0,5 = 1,960
Protože Z > Z1-0,5 dostáváme na zvolené hladině významnosti
významný výsledek ­ zamítáme H0 ­ Průměr získaný ze vzorků se
liší od průměru populace
Příklad Z-testu, jednostranná alternativa
Ve výběru 216 vzorků byl zjišťován obsah rozpuštěných látek:
Průměr: 34,46 g/l
Směrodatná chyba: 0,397 g/l
průměr je stejný jako průměr základního souboru (33,5 g/l)
0 =
H0
H1
Testová charakteristika Z = 2,418
průměr je větší
0 >
Kritická hodnota Z pro  = 0,05, tedy Z1- = 1,645
Protože Z > Z1- zamítáme H0 ­ Průměr získaný ze vzorků je
významně větší než průměr populace na 5 % hladině významnosti
Příklad Z-testu s jednostrannou alternativou
Test H0 oproti H1: 0 > Test H0 oproti H1: 0 <
F - test
Používá se k testování významnosti rozdílu mezi dvěma rozptyly.
Testovací kritérium je definováno jako poměr odhadů dvou
rozptylů základních souborů
2
2
2
1
^
^


=F
Odhady zjistíme z výběrových rozptylů ze vztahů:
2
1
1
12
1
1
^ s
n
n

=
2
2
2
22
2
1
^ s
n
n

-
=a
5
F - test
Do vzorce s testovacím kritériem F se dosazuje do čitatele
vždy větší hodnota.
Počty stupňů volnosti:
Kritické hodnoty veličiny F jsou tabelovány
Nulová hypotéza:
Předpokladem použití testu je alespoň přibližně normální
rozdělení základních souborů.
122 -= n111 -= n
2
2
2
1
^^  =
F ­ test: obecný postup testování
1. zvolíme hladinu významnosti  = 0,05 či  = 0,01
2. vypočteme odhady rozptylů základních souborů
pomocí rozptylů výběrových souborů
3. vypočítáme hodnotu testovacího kritéria F (F musí
být větší než 1)
4. určíme počty stupňů volnosti a pro daná a
vyhledáme kritickou hodnotu F/2
5. Porovnáme hodnotu F s kritickou hodnotou F/2 a
zhodnotíme výsledek
t - test
* Je vhodný pro testování rozdílů dvou veličin (např.
průměru základního a výběrového souboru).
* Lze ho použít i pro testování rozdílu dvou výběrových
průměrů jestliže F - testem ověříme významnost či
nevýznamnost rozdílu odpovídajících rozptylů.
* Používá se i pro testování rozdílů párovaných hodnot.
* Předpokladem použití testu je alespoň přibližně normální
rozdělení základního souboru a pro malé rozsahy souborů
(n < 30)
Použití t - testu
1. Testování významnosti rozdílu výběrového
průměru a známého průměru základního souboru:
Testovací kritérium:
s
nx
t
1--
=

1-= n
Protože za oblasti zamítnutí považujeme obě strany křivky trozdělení,
je zapotřebí rozdělit zvolenou hladinu
významnosti na poloviny a v tabulkách vyhledat kritické
hodnoty t pro poloviční hodnoty.
Jestliže t > t zamítáme nulovou hypotézu ­ výběrový
průměr se na zvolené hladině  statisticky významně liší od
průměru základního souboru.
2. Testování významnosti rozdílu dvou průměrů pokud Ftestem
nezamítneme hypotézu .
Použití t - testu
221 -+= nn
2
2
2
1 ^^  =
( )
21
2121
2
22
2
11
21 2
nn
nnnn
snsn
xx
t
+
-+

+
-
=
3. Testování významnosti rozdílu dvou průměrů pokud Ftestem
zjistíme, že mezi rozptyly je statisticky významný
rozdíl
Použití t - testu
2
2
2
1
^^  
Kritická hodnota
Testovací kritérium:
11
2
2
1
2
1
21
-
+
-
-
=
nn
s
n
s
xx
t
11
11
2
2
2
1
2
1
2
2
2''
1
2
1'
-
+
-
-
+
-
=+
n
s
n
s
n
s
t
n
s
t
t


+
t
6
Použití t - testu
Hodnota značí kritickou hodnotu t-rozdělení pro
Hodnota kritickou hodnotu pro
Kritické hodnoty lze najít v tabulkách (Brázdil a kol. 1995, příl. VII).
Postup testování je obdobný jako v případě výše
uvedených testů.
Je-li t > nulovou hypotézu zamítáme
Na zvolené  je rozdíl průměrů významný.
111 -= n
122 -= n
'
t
''
t
+
t
Příklad t - test
Statistika Základní
statistiky
T- test, nezávislé,
dle proměnných
Zadání: Existuje statisticky
významný rozdíl mezi
průměrným obsahem Stroncia v
mléce změřeným na farmách v
blízkosti jaderné elektrárny
(XR) a farmách v horských
oblastech (XPG)
Výsledek: Průměry se významně liší na hladině
významnosti p=0,05
Příklad F-test, t - test
(Brázdil a kol. 1995, str. 114, cvičení č. 7.4)
t - test pro párované hodnoty
Používá se v případě, že každý prvek jednoho výběru tvoří pár
s určitým prvkem druhého výběru (např. provádíme dvě měření na
stejném objektu za změněných podmínek).
Máme n párů na sobě závislých měření.
Postup testování: Vypočteme rozdíly di mezi oběma měřeními,
průměr těchto rozdílů a směrodatnou odchylku sd.
Předpokladem použití je opět normální rozdělení.
d
t - test pro párované hodnoty
Nulová hypotéza: 21  =
1-= n
ds
nd
t
1-
=
=
=
n
i
id
n
d
1
1
=
-=
n
i
id dd
n
s
1
21
Počet stupňů volnosti:
Testovací kritérium:
t - test pro párované hodnoty
V případě zamítnutí nulové hypotézy (t > t) lze stanovit
100.(1- )% interval spolehlivosti rozdílu :21  Pokud
n >30, potom lze t-test nahradit tzv. z testem
11
21
-
+-
-
-
n
s
td
n
s
td dd
 
7
Příklad t - test pro párované hodnoty
Statistika - Základní statistiky - T- test, závislé vzorky
Zadání: Existuje
statisticky významný
rozdíl v počtu
bezobratlých
živočichů zjištěných
nad a pod výpustí z
kanalizace (data
zjištěná pro dvojice
na 10 tocích)?
Výsledek:
Významný na
hladině  =0,05
Pro  = 0,01
nevýznamný
z - test
Pokud n >30, potom lze t-test nahradit tzv. z-testem
2
2
2
1
2
1
21
n
s
n
s
xx
z
+
=testovací
kritérium:
Výhody z-testu:
* využití násobků směrodatné odchylky normovaného
normálního rozdělení jako kritických hodnot
* kritické z hodnoty nemají stupně volnosti (normované
rozdělení)
Tedy kritická hodnota 1,96 a menší indikuje pravděpodobnost
větší nebo rovnu 0,05 ­ tedy nevýznamný výsledek
kritická hodnota větší než 2,576 indikuje pravděpodobnost
menší než 0,01 ­ tj. vysoce významný rozdíl mezi testovanými
hodnotami
Neparametrické testy
* Neznáme rozdělení základního souboru a chceme
porovnávat úroveň hodnot v souboru či prokázat nezávislost
znaků.
* Jsou vhodné pro hodnocení ordinálních dat či pro data
intervalová nebo poměrová, která nemají normální rozdělení
Jsou založeny na těchto principech:
* počítáme četnost odchylek kladného a záporného
znaménka od určité meze (znaménkový test)
* počítá se s pořadovými čísly, která jsou vstupním
číselným hodnotám přiřazena po jejich setřídění podle
velikosti (pořadové metody)
Patří sem například testy:
* testy dobré shody (CHI-kvadrát, K-S test)
* testy o shodě úrovně (Mann-Whitneyův test, Wilcoxonův test)
* testy nezávislosti v kombinační tabulce (CHI-kvadrát)
Mann- Whitney U - test
* Neparametrický ekvivalent t-testu. Lze ho využít i pro nenormální, silně
asymetrická rozložení.
* Jako míru centrální tendence využívá ne průměr ale medián a k
výpočtu testovacího kritéria využívá ne původních hodnot, ale
pořadových čísel.
* Může být použit i pro data získaná na ordinální škále
Příklad: Porovnáváme zdravotní kondici stromů
rostoucích v městě (Z ­ znečištěné prostředí) a ve
volné krajině (Č ­ relativně čisté prostředí). Tuto
zdravotní kondici posuzujeme podle stavu (barvy)
olistění v šesti-stupňové škále
Mann- Whitney U test - příklad
6 ­ naprostá většina listů tmavě zelených
5 ­ ....
4 ­ ...
3 ­ některé listy mají světlé skvrny
2 ­ ....
1 ­ podstatná část listoví má nažloutlou barvu
Ordinální škála hodnocení zdravotní kondice stromů
Máme k dispozici deset různých vzorků obou lokalit
Č 4 5 4 4 5 6 6 6 6 3
Z 2 2 2 1 6 4 4 5 4 3
Prvním krokem je přiřazení pořadových čísel jednotlivým měřením.
Pro aplikaci uvedeného testu založeného na pořadí je vhodné, aby byla
data uspořádána do jednoho sloupce s indikací, ke které skupině patří.
Mann- Whitney U test - příklad
 =134Č
R = 76ZR
8
Mann- Whitney U test ­ testovací kritérium
Test je založen na výpočtu testovací statistiky U:
-
+
+= 1
11
211
2
)1(
R
nn
nnU
-
+
+= 2
22
212
2
)1(
R
nn
nnU
kde n1 a n2 jsou počty vzorků v jednotlivých výběrech
Výrazy a značí sumy pořadových čísel pro jednotlivé
výběry.
 1R  2R
Menší z hodnot U1 a U2 se bere jako testovací kritérium a
porovnává se s tabulkovou hodnotou.
Mann- Whitney U test ­ příklad (pokrač.)
V našem příkladě:  = 76ZR =134Č
R
a pro UČ tedy
21134
2
)110(10
1010
2
)1(
=-
+
+=-
+
+=  Č
ČČ
ZČČ
R
nn
nnU
a analogicky pro UZ:
7976
2
)110(10
1010
2
)1(
=-
+
+=-
+
+=  Z
ZZ
ZČZ R
nn
nnU
Menší z hodnot je tedy testovací kritérium U = 21
Mann- Whitney U test
Interpretace a vyslovení
závěru o testování:
Statistický program určí hodnotu
p, která přísluší vypočtené
hodnotě testovacího kritéria a
nebo se pro tuto hodnotu nalezne
kritická hodnota v tabulkách pro
zvolenou hladinu významnosti 
a pro parametry n1 a n2.
Horní čísla v tabulce odpovídají  =0,05, dolní potom  = 0,01. V našem případě
pro n1=10 a n2=10
Pro U test platí, že čím menší hodnota U, tím menší pravděpodobnost interpretace
je tedy opačná jako např. u t-testu
Na hladině významnosti 5% jsme prokázali statisticky významný rozdíl
mezi zdravotní kondicí stromů rostoucích ve znečištěném a relativně
čistém prostředí.
Neparametrické testy v programu Statistika
Statistika ­ Neparametrická statistika ­ Porovnání dvou
nezávislých vzorků (skupiny)
Test
Jedná se o test shody.
Testujeme, do jaké míry se liší rozložení
četností empirického souboru od
rozložení základního souboru.
2

Četnosti zjištěné při statistickém šetření (empirické):
Četnosti získané z teoretického rozložení modelu (očekávané):
Smyslem testu je hodnocení rozdílů v četnostech, tedy:
,,...,, ,1,1, jeee nnn
,,...,, ,1,1, jttt nnn
jtje nn ,, Normální
rozdělení
Chí-kvadrát test = 2,80353, sv = 5 (uprav.) , p = 0,73024
6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0 10,5 11,0 11,5 12,0
t [°C]
0
5
10
15
20
25
30
ni
Test
2

Nulová hypotéza H0: Četnosti ne,j a nt,j se liší pouze náhodně
Testovací kritérium:
( )
=
-
=
k
j jt
jtje
n
nn
1 ,
2
,,2

Ve výraze značí k počet skupin, do kterých je soubor tříděn.
Testovací kritérium má rozdělení s stupni
volnosti.
Kritické hodnoty uvádí tabulky. Velké rozdíly v četnostech
dávají velké hodnoty testovacího kritéria.
1-= k
2

9
Test - podmínky použití
2

Testu by se nemělo použít v případě, je-li a některá teoretická
četnost nt,j je menší než 5.
Při k > 2 nemá být více než 20 % teoretických četností
menších než 5 a žádná menší než 1.
Je možné sloučení některých četností ­ bez narušení smyslu
úlohy.
Kolmogorovův ­ Smirnovův test
Tento test lze použít pro testování významnosti shody
teoretického a empirického rozložení i v případech, kdy nelze
použít CHÍ-kvadrát testu.
K-S test: postup testování I.
1. zvolíme hladinu významnosti 
2. roztřídíme zpracovávaná data do skupin
3. stanovíme příslušné teoretické četnosti
4. vypočítáme kumulativní četnosti empirického rozdělení Ne,j
5. vypočítáme kumulativní četnosti teoretického rozdělení Nt,j
6. stanovíme absolutní hodnoty rozdílů kumulovaných četností
v odpovídajících skupinách
7. vypočteme hodnotu testovacího kritéria D
n
NN
D
jtje ,,max -
=
K-S test: postup testování II
8. Pro zvolenou hladinu významnosti p a dané n vyhledáme
v tabulkách kritickou hodnotu D
9. V případě, že D > D , potom zamítáme nulovou hypotézu a
tvrdíme, že empirické a teoretické rozdělení se statisticky
významně liší.
K-S test lze použít i pro srovnání dvou výběrových souborů.
Potom jako n bereme:
21
21
nn
nn
n
+

=
Statistika ­ Prokládání rozdělení
Zadání: Testujeme, zda lze
výběrový soubor proložit normálním
rozložením (Existuje shoda
empirických a teoretických
četností?)
Výsledek:
Hodnota p je vysoká ­ není důvod
zamítnout nulovou hypotézu.
Empirické a teoretické hodnoty se na
hladině = 5 % významně neliší
Výběrový soubor má normální rozdělení
2
Příklad použití testu a K-S testu