Hodnocení kontingenčních tabulek
Osnova:
- zavedení kontingenční tabulky
- testování hypotézy o nezávislosti a měření síly závislosti
- test homogenity
- analýza čtyřpolních tabulek
Motivace
Při zpracování dat se velmi často setkáme s úkolem zjistit, zda dvě náhodné veličiny nominálního typu jsou stochasticky nezávislé.
Např. nás může zajímat, zda ve sledované populaci je barva očí a barva vlasů nezávislá.
Zpravidla chceme také zjistit intenzitu případné závislosti sledovaných dvou veličin. K tomuto účelu byly zkonstruovány
různé koeficienty, které nabývají hodnot od 0 do 1. Čím je takový koeficient bližší 1, tím je závislost mezi danými dvěma
veličinami silnější a čím je bližší 0, tím je slabší.
Kontingenční tabulky
Nechť X,Y jsou dvě nominální náhodné veličiny (tj. obsahová interpretace je možná jenom u relace rovnosti). Nechť X
nabývá variant x[1], ..., x[r] a Y nabývá variant y[1], ..., y[s].
Označme:
[ ] [ ]( )kjjk yYxXP =∧==π … simultánní pravděpodobnost dvojice variant (x[j], y[k])
[ ]( )j.j xXP ==π … marginální pravděpodobnost varianty x[j]
[ ]( )kk. yYP ==π … marginální pravděpodobnost varianty y[k]
Simultánní a marginální pravděpodobnosti zapíšeme do kontingenční tabulky:
y
x πjk
y[1] ... y[s] πj.
x[1] π11 ... π1s π1.
... ... ... ... ...
x[r] πr1 ... πrs πr.
π.k π.1 ... π.s 1
Pořídíme dvourozměrný náhodný výběr (X1, Y1), ..., (Xn, Yn) rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní
náhodný vektor (X, Y). Zjištěné absolutní simultánní četnosti njk dvojice variant (x[j], y[k]) uspořádáme do kontingenční ta-
bulky:
y
x njk
y[1] ... y[s] nj.
x[1] n11 ... n1s n1.
... ... ... ... ...
x[r] nr1 ... nrs nr.
n.k n.1 ... n.s n
nj. = nj1 + ... + njs je marginální absolutní četnost varianty x[j]
n.k = n1k + ... + nrk je marginální absolutní četnost varianty y[k]
Simultánní pravděpodobnost πjk odhadneme pomocí simultánní relativní četnosti
n
n
p
jk
jk = , marginální pravděpodobnosti πj.
a π.k odhadneme pomocí marginálních relativních četností
n
n
p
.j
.j = a
n
n
p k.
k. = .
Testování hypotézy o nezávislosti
Testujeme nulovou hypotézu H0: X, Y jsou stochasticky nezávislé náhodné veličiny proti alternativě H1: X, Y nejsou
stochasticky nezávislé náhodné veličiny.
Kdyby náhodné veličiny X, Y byly stochasticky nezávislé, pak by platil multiplikativní vztah
r,,1j K=∀ , s,,1k K=∀ : πjk = πj. π.k neboli
n
n
n
n
n
n k..jjk
⋅= , tj.
n
nn
n
k..j
jk = . Číslo
n
nn k..j
se nazývá teoretická četnost dvojice
variant (x[j], y[k]).
Testová statistika: ∑∑= =






−
=
r
1j
s
1k k..j
2
k..j
jk
n
nn
n
nn
n
K .
Platí-li H0, pak K se asymptoticky řídí rozložením χ2
((r-1)(s-1)).
Kritický obor: ( )( )( ) )∞−−χ= α− ,1s1rW 1
2
.
Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti α, když K ≥ χ2
1-α((r-1)(s-1)).
Podmínky dobré aproximace
Rozložení statistiky K lze aproximovat rozložením χ2
((r-1)(s-1)), pokud teoretické četnosti
n
nn k..j
aspoň v 80% případů nabývají
hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Není-li splněna podmínka dobré aproximace, doporučuje
se slučování některých variant.
Měření síly závislosti
Cramérův koeficient:
)1m(n
K
V
−
= , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je k 1, tím je
závislost mezi X a Y těsnější, čím blíže je k 0, tím je tato závislost volnější.
Význam hodnot Cramérova koeficientu:
mezi 0 až 0,1 … zanedbatelná závislost,
mezi 0,1 až 0,3 … slabá závislost,
mezi 0,3 až 0,7 … střední závislost,
mezi 0,7 až 1 … silná závislost.
Carl Harald Cramér (1893 – 1985): Švédský matematik
Příklad
V sociologickém průzkumu byl z uchazečů o studium na vysokých školách pořízen náhodný výběr rozsahu 360. Mimo jiné
se zjišťovala sociální skupina, ze které uchazeč pochází (veličina X) a typ školy, na kterou se hlásí (veličina Y). Výsledky
jsou zaznamenány v kontingenční tabulce:
Typ školySociální skupina
univerzitní technický ekonomický
nj.
I 50 30 10 90
II 30 50 20 100
III 10 20 30 60
IV 50 10 50 110
n.k 140 110 110 360
Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti typu školy a sociální skupiny. Vypočtěte Cramérův
koeficient.
Řešení:
Nejprve vypočteme všech 12 teoretických četností:
Typ školySociální skupina
univerzitní technický ekonomický
nj.
I 50 30 10 90
II 30 50 20 100
III 10 20 30 60
IV 50 10 50 110
n.k 140 110 110 360
,5,27
360
11090
n
nn
,5,27
360
11090
n
nn
,35
360
14090
n
nn 3..12..11..1
=
⋅
==
⋅
==
⋅
=
,6,30
360
110100
n
nn
,6,30
360
110100
n
nn
,9,38
360
140100
n
nn 3..22..21..2
=
⋅
==
⋅
==
⋅
=
,3,18
360
11060
n
nn
,3,18
360
11060
n
nn
,3,23
360
14060
n
nn 3..32..31..3
=
⋅
==
⋅
==
⋅
=
6,33
360
110110
n
nn
,6,33
360
110110
n
nn
,8,42
360
140110
n
nn 3..42..41..4
=
⋅
==
⋅
==
⋅
=
Vidíme, že podmínky dobré aproximace jsou splněny, všechny teoretické četnosti převyšují číslo 5.
Dosadíme do vzorce pro testovou statistiku K:
( ) ( ) ( ) 84,76
6,33
6,3350
5,27
5,2730
35
3550
K
222
=
−
++
−
+
−
= K .
Dále stanovíme kritický obor:
( )( )( ) ) ( )( )( ) ) ( ) ) )∞=∞χ=∞−−χ=∞−−χ= α− ,6,12,6,1314,1s1rW 95,0
2
95,0
2
1
2
Protože K ∈ W, hypotézu o nezávislosti typu školy a sociální skupiny zamítáme na asymptotické hladině významnosti 0,05.
Vypočteme Cramérův koeficient: 3267,0
2360
4,76
V =
⋅
= .
Hodnota Cramérova koeficientu svědčí o tom, že mezi veličinami X a Y existuje středně silná závislost.
Výpočet pomocí systému STATISTICA:
Vytvoříme nový datový soubor o třech proměnných (X - sociální skupina, Y – typ školy, četnost) a 12 případech:
1
X
2
Y
3
četnost
1
2
3
4
5
6
7
8
9
10
11
12
I univerzitní 50
I technický 30
I ekonomický 10
II univerzitní 30
II technický 50
II ekonomický 20
III univerzitní 10
III technický 20
III ekonomický 30
IV univerzitní 50
IV technický 10
IV ekonomický 50
Statistiky – Základní statistiky/tabulky – OK – Specif. Tabulky – List 1 X, List 2 Y – OK, zapneme proměnnou vah četnost
– OK, Výpočet – na záložce Možnosti zaškrtneme Očekávané četnosti. Dostaneme kontingenční tabulku teoretických čet-
ností:
Souhrnná tab.: Očekávané četnosti (typ skoly)
Četnost označených buněk > 10
Pearsonův chí-kv. : 76,8359, sv=6, p=,000000
X Y
univerzitní
Y
technický
Y
ekonomický
Řádk.
součty
I 35,0000 27,5000 27,5000 90,0000
II 38,8889 30,5556 30,5556 100,0000
III 23,3333 18,3333 18,3333 60,0000
IV 42,7778 33,6111 33,6111 110,0000
Vš.skup. 140,0000 110,0000 110,0000 360,0000
Všechny teoretické četnosti jsou větší než 5, podmínky dobré aproximace jsou splněny. V záhlaví tabulky je uvedena hodnota
testové statistiky K = 76,8359, počet stupňů volnosti 6 a odpovídající p-hodnota. Je velmi blízká 0, tedy na asymptotické
hladině významnosti 0,05 zamítáme hypotézu o nezávislosti typu školy a sociální skupiny.
Hodnotu testové statistiky a Cramérův koeficient dostaneme také tak, že na na záložce Možnosti zaškrtneme Pearsonův &
M-V chí kvadrát a Cramérovo V, na záložce Detailní výsledky vybereme Detailní 2 rozm. tabulky.
Statist. Chí-kvadr. sv p
Pearsonův chí-kv.
M-V chí-kvadr.
Fí
Kontingenční koeficient
Cramér. V
76,83589 df=6 p=,00000
84,53528 df=6 p=,00000
,4619881
,4193947
,3266749
Test homogenity v tabulce typu 2 x s
Máme kontingenční tabulku, v níž veličina X má jen dvě varianty a veličina Y s variant:
y
x πjk
y[1] ... y[s] πj.
x[1] π11 ... π1s π1.
x[2] π21 ... π2s π2.
π.k π.1 ... π.s 1
Pořídíme dvourozměrný náhodný výběr (X1, Y1), ..., (Xn, Yn) rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní
náhodný vektor (X, Y). Zjištěné absolutní simultánní četnosti njk dvojice variant (x[j], y[k]) uspořádáme do kontingenční
tabulky:
y
x πjk
y[1] ... y[s] nj.
x[1] n11 ... n1s n1.
x[2] n21 ... n2s n2.
π.k n.1 ... n.s n
Na asymptotické hladině významnosti α testujeme hypotézu H0: π1k = π2k, k = 1, 2, …, s proti alternativě H1: aspoň jedna
dvojice pravděpodobností se liší.
Na problém lze pohlížet tak, že máme s nezávislých náhodných výběrů z alternativních rozložení, přičemž první má rozsah
n1 = n11 + n21 a pochází z rozložení A( 1ϑ ), …. , s-tý má rozsah ns = n1s + n2s a pochází z rozložení A( sϑ ). Testujeme
hypotézu H0: s1 ϑ==ϑ K proti alternativě H1: non H0.
V kapitole o hodnocení náhodných výběrů z alternativních rozložení jsme použili testovou statistiku:
( )
( ) ( )1sMMn
M1M
1
Q 2
s
1j
2
*jj
**
−χ≈−
−
= ∑=
, když H0 platí.
Kritický obor: ( ) )∞−χ= α− ,1sW 1
2
H0 tedy zamítáme na asymptotické hladině významnosti α, když WQ∈ . Přitom
n
Mn
M
s
1j
jj
*
∑=
= je vážený průměr
výběrových průměrů.
Nyní použijeme testovou statistiku ∑∑= =






−
=
2
1j
s
1k k..j
2
k..j
jk
n
nn
n
nn
n
K , stejně jako u testu nezávislosti. Lze dokázat, že při výše
uvedeném označení jsou statistiky Q a K totožné. Tedy test homogenity lze provést stejně jako test nezávislosti.
Tato statistika se v případě platnosti nulové hypotézy asymptoticky řídí rozložením χ2
(s-1). Kritický obor: ( ) )∞−χ= α− ,1sW 1
2
.
Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když K∈W.
Příklad: 104 náhodně vybraných matek bylo dotázáno, zda jejich kojenec dostává dudlík. Zjišťoval se též nejvyšší stupeň
dosaženého vzdělání matky.
Vzdělání matky Počet matek Počet dětí s dudlíkem
ZŠ 39 27
SŠ 47 34
VŠ 18 15
Na asymptotické hladině významnosti 0,05 testujte hypotézu, že používání dudlíku nezávisí na vzdělání matky.
(Jedná se o příklad 8.6.2. ze skript Základní statistické metody. Zde je uvedeno, že testová statistika Q se realizuje hodnotou
1,267, kritický obor je )∞= ,992,5W , tedy nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05.)
Řešení: Data zapíšeme do kontingenční tabulky 2 x 3.
Matka ZŠ Matka SŠ Matka VŠ nj.
Dudlík ano 27 34 15 76
Dudlík ne 12 13 3 28
n.k 39 47 18 104
Ověříme splnění podmínek dobré aproximace:
,15,13
104
1876
n
nn
,35,34
104
4776
n
nn
,5,28
104
3976
n
nn 3..12..11..1
=
⋅
==
⋅
==
⋅
= 85,4
104
1828
n
nn
,65,12
104
4728
n
nn
,5,10
104
3928
n
nn 3..22..21..2
=
⋅
==
⋅
==
⋅
=
Podmínky dobré aproximace jsou splněny, pouze v 1 případě ze 6 je teoretická četnost menší než 5.
Dosadíme do vzorce pro testovou statistiku K:
( ) ( ) ( ) 2686,1
85,4
85,43
35,34
35,3434
5,28
5,2827
K
222
=
−
++
−
+
−
= K
Kritický obor: ( ) ) ( ) ) )∞=∞χ=∞−χ= α− ,992,5,2,1sW 95,0
2
1
2
Na asymptotické hladině významnosti 0,05 se tedy neprokázalo, že používání dudlíku závisí na vzdělání matky.
Čtyřpolní tabulky
Nechť r = s = 2. Pak hovoříme o čtyřpolní kontingenční tabulce a používáme označení: n11 = a, n12 = b, n21 = c, n22 = d.
YX
y[1] y[2]
nj.
x[1] a b a+b
x[2] c d c+d
n.k a+c b+d n
Test nezávislosti ve čtyřpolní tabulce
Testovou statistiku pro čtyřpolní kontingenční tabulku lze zjednodušit do tvaru:
( )
( )( )( )( )dbcadcba
bcadn
K
2
++++
−
= .
Platí-li hypotéza o nezávislosti veličin X, Y, pak K se asymptoticky řídí rozložením χ2
(1).
Kritický obor: ( ) )∞χ= α− ,1W 1
2
Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když K∈W.
Povšimněte si, že za platnosti hypotézy o nezávislosti ad = bc.
Pro čtyřpolní tabulku navrhl R. A. Fisher přesný (exaktní) test nezávislosti známý jako Fisherův faktoriálový test.
Sir Ronald Aylmer Fisher (1890 – 1962): Britský statistik a genetik.
(Fisherův přesný test je popsán např. v knize K. Zvára: Biostatistika, Karolinum, Praha 1998. Princip spočívá v tom, že
pomocí kombinatorických úvah se vypočítají pravděpodobnosti toho, že při daných marginálních četnostech dostaneme
tabulky, které se od nulové hypotézy odchylují aspoň tak, jako daná tabulka.)
Upozornění: STATISTICA poskytuje p-hodnotu pro Fisherův přesný test. Jestliže vyjde p ≤ α, pak hypotézu o nezávislosti
zamítáme na hladině významnosti α.
Příklad: V náhodném výběru 50 obézních dětí ve věku 6 – 14 let byla zjišťována obezita rodičů. Veličina X – obezita matky,
veličina Y – obezita otce. Výsledky průzkumu jsou uvedeny v kontingenční tabulce:
YX
ano ne
nj.
ano 15 9 24
ne 7 19 26
n.k 22 28 50
Pomocí Fisherova exaktního testu ověřte, zda lze na hladině významnosti 0,05 zamítnout hypotézu o nezávislosti náhodných
veličin X a Y.
Výpočet pomocí systému STATISTICA:
Vytvoříme datový soubor o třech proměnných X, Y (varianty 0 – neobézní, 1 – obézní) a četnost a čtyřech případech:
1
X
2
Y
3
četnost
1
2
3
4
obézní obézní 15
obézní neobézní 9
neobézní obézní 7
neobézní neobézní 19
Statistiky – Základní statistiky/tabulky – OK – Specif. Tabulky – List 1 X, List 2 Y – OK, zapneme proměnnou vah četnost
– OK, Výpočet – na záložce Možnosti zaškrtneme Fisher exakt., Yates, McNemar (2x2). Dostaneme výstupní tabulku:
Statist. : X(2) x Y(2) (obezita rodicu)
Statist. Chí-kvadr. sv p
Pearsonův chí-kv.
M-V chí-kvadr.
Yatesův chí-kv.
Fisherův přesný, 1-str.
2-stranný
McNemarův chí-kv. (A/D)
(B/C)
6,410777 df=1 p=,01134
6,548348 df=1 p=,01050
5,048207 df=1 p=,02465
p=,01188
p=,02163
,2647059 df=1 p=,60691
,0625000 df=1 p=,80259
Vidíme, že p-hodnota pro Fisherův exaktní oboustranný test je 0,02163, tedy na hladině významnosti 0,05 zamítáme
hypotézu, že obezita matky a otce spolu nesouvisí.
Test homogenity ve čtyřpolní tabulce
Na asymptotické hladině významnosti α testujeme hypotézu H0: π1k = π2k, k = 1, 2 proti alternativě H1: aspoň jedna dvojice
pravděpodobností se liší. Na problém lze pohlížet tak, že máme dva nezávislé výběry z alternativních rozložení, první má
rozsah n1 = a+c a pochází z rozložení A( 1ϑ ), druhý má rozsah n2 = b+d a pochází z rozložení A( 2ϑ ). Testujeme hypotézu H0:
21 ϑ−ϑ = 0 proti oboustranné alternativě.
V kapitole o hodnocení náhodných výběrů z alternativních rozložení jsme použili testovou statistiku
( ) 





+−
−
=
21
**
21
0
n
1
n
1
M1M
MM
T , která se za platnosti nulové hypotézy asymptoticky řídí rozložením N(0,1). (M* je vážený průměr
výběrových průměrů.)
Nyní použijeme testovou statistiku
( )
( )( )( )( )dbcadcba
bcadn
K
2
++++
−
= , stejně jako u testu nezávislosti. Tato statistika se v případě
platnosti nulové hypotézy asymptoticky řídí rozložením χ2
(1). Kritický obor: ( ) )∞χ= α− ,1W 1
2
. Nulovou hypotézu zamítáme
na asymptotické hladině významnosti α, když K∈W.
Příklad: Očkování proti chřipce se zúčastnilo 460 dospělých, z nichž 240 dostalo očkovací látku proti chřipce a 220 dostalo
placebo. Na konci experimentu onemocnělo 100 lidí chřipkou. 20 z nich bylo z očkované skupiny a 80 z kontrolní skupiny.
Na asymptotické hladině významnosti 0,01 testujte hypotézu, že výskyt chřipky v očkované a kontrolní skupině je shodný.
Řešení:
Údaje uspořádáme do čtyřpolní kontingenční tabulky, kde roli veličiny X hraje onemocnění chřipkou a roli veličiny Y existence
očkování.
Y existence očkováníX
onemocnění chřipkou ano ne
nj.
ano 20 80 100
ne 220 140 360
n.k 240 220 460
Vypočteme sloupcově podmíněné relativní četnosti:
Y existence očkováníX
onemocnění chřipkou ano ne
ano 8,3% 36,4%
ne 91,7% 63,6%
Vidíme, že v očkované skupině onemocnělo chřipkou 8,3% lidí, v kontrolní skupině však 36,4%. Zjistíme, zda takto velký
rozdíl je způsoben pouze náhodnými vlivy.
Ověříme splnění podmínek dobré aproximace, tedy nejprve vypočteme teoretické četnosti:
Y existence očkováníX
onemocnění chřipkou ano ne
nj.
ano 20 80 100
ne 220 140 360
n.k 240 220 460
17,172
460
220360
n
nn
,83,187
460
240360
n
nn
,83,47
460
220100
n
nn
,17,52
460
240100
n
nn
2..21..2
2..11..1
=
⋅
==
⋅
=
=
⋅
==
⋅
=
Všechny teoretické četnosti jsou větší než 5, podmínky dobré aproximace jsou splněny.
Realizace testové statistiky:
( )
( )( )( )( )
( ) 01,53
360100220240
2208014020460
dbcadcba
bcadn
K
22
=
⋅⋅⋅
⋅−⋅
=
++++
−
= .
Kritický obor: ( ) ) ( ) ) )∞=∞χ=∞χ= α− ,635,6,1,1W 99,0
2
1
2
.
Protože K∈W, H0 zamítáme na asymptotické hladině významnosti 0,01. S rizikem omylu nejvýše 0,01 jsme tedy prokázali,
že výskyt chřipky v očkované a kontrolní skupině se liší.
Nyní provedeme výpočet pomocí statistiky
( ) 





+−
−
=
21
**
21
0
n
1
n
1
M1M
MM
T , která se v případě platnosti nulové hypotézy
asymptoticky řídí rozložením N(0,1).
Přitom očkovaných bylo 240, z nich onemocnělo 20, neočkovaných bylo 220, z nich onemocnělo 80.
V našem případě tedy n1 = 240, n2 = 220,
23
5
460
8020
m,
220
80
m,
240
20
m *21 =
+
===
Ověření podmínek n1 1ϑ (1- 1ϑ ) > 9 a n2 2ϑ (1- 2ϑ ) > 9: Parametry 1ϑ a 2ϑ neznáme, nahradíme je odhady m1 a m2, tedy
20.(1-20/240) = 18,333 > 9, 80.(1-80/220) = 50,909 > 9.
Realizace testového kritéria:
( )( ) ( )
2807,7
23
5
1
23
5m1m
mm
t
220
1
240
1
220
80
240
20
n
1
n
1
**
21
0
21
−=
+





−
−
=
+−
−
= .
Kritický obor je )( )( )( ∞∪−∞−=∞∪−∞−=∞∪−∞−= α−α− ,5758,25758,2,,uu,,uu,W 995,0995,102/12/1 . Protože testové kritérium
patří do kritického oboru, H0 zamítáme na asymptotické hladině významnosti 0,05.
Podíl šancí ve čtyřpolní kontingenční tabulce
Ve čtyřpolních tabulkách používáme charakteristiku
bc
ad
OR = , která se nazývá výběrový podíl šancí (odds ratio). Považujeme
ho za odhad neznámého teoretického podílu šancí
1221
2211
ππ
ππ
=ορ . Můžeme si představit, že pokus se provádí za dvojích
různých okolností a může skončit buď úspěchem nebo neúspěchem.
okolnostiVýsledek pokusu
I II
nj.
úspěch a b a+b
neúspěch c d c+d
n.k a+c b+d n
Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za 1. okolností je
c
a
, za druhých okolností je
d
b
. Podíl šancí je tedy
bc
ad
OR = .
Jsou-li veličiny Y,X nezávislé, pak k..jjk ππ=π , tudíž teoretický podíl šancí 1=ορ . Závislost veličin Y,X bude tím silnější,
čím více se ορ bude lišit od 1. Avšak )∞∈ορ ,0 , tedy hodnoty ορ jsou kolem 1 rozmístěny nesymetricky. Z tohoto důvodu
raději používáme logaritmus teoretického či výběrového podílu šancí.
Testování nezávislosti ve čtyřpolních tabulkách pomocí podílu šancí
Na asymptotické hladině významnosti α testujeme hypotézu H0: Y,X jsou stochasticky nezávislé náhodné veličiny (tj.
0ln =ορ ) proti alternativě H1: Y,X nejsou stochasticky nezávislé náhodné veličiny (tj. 0ln ≠ορ ).
Testová statistika
d
1
c
1
b
1
a
1
ORln
T0
+++
= se asymptoticky řídí rozložením ( )1,0N , když nulová hypotéza platí.
Kritický obor: )( ∞∪−∞−= α−α− ,uu,W 2/12/1 .
Nulovou hypotézu tedy zamítáme na asymtotické hladině významnosti α, když se testová statistika realizuje v kritickém
oboru W.
Testování nezávislosti lze provést též pomocí 100(1-α)% asymptotického intervalu spolehlivosti pro logaritmus podílu šancí
ορ , který je dán vzorcem:
( ) 







+++++++−= α−α− 2/12/1 u
d
1
c
1
b
1
a
1
ORln,u
d
1
c
1
b
1
a
1
ORlnh,d
Jestliže interval spolehlivosti neobsahuje 0, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti α.
Příklad (testování nezávislosti pomocí podílu šancí a pomocí statistiky K):
U 125 uchazečů o studium na jistou fakultu byl hodnocen dojem, jakým zapůsobili na komisi u ústní přijímací zkoušky. Na
asymptotické hladině významnosti 0,05 testujte hypotézu, že přijetí na fakultu nezávisí na dojmu u přijímací zkoušky.
dojempřijetí
dobrý špatný
nj.
ano 17 11 28
ne 39 58 97
n.k 56 69 125
Řešení:
a) Testování pomocí podílu šancí:
298,2
3911
5817
bc
ad
OR =
⋅
⋅
== . Podíl šancí nám říká, že uchazeč, který zapůsobil na komisi dobrým dojmem, má asi 2,3 x větší
šanci na přijetí než uchazeč, který zapůsobil špatným dojmem.
Provedeme další pomocné výpočty:
96,1u,439,0
58
1
39
1
11
1
17
1
d
1
c
1
b
1
a
1
0,832,ORln
0,975 ==+++=+++
=
Dosadíme do vzorců pro meze asymptotického intervalu spolehlivosti pro logaritmus podílu šancí:
692,196,1439,0832,0u
d
1
c
1
b
1
a
1
ORlnh,028,096,1439,0832,0u
d
1
c
1
b
1
a
1
ORlnd 2/12/1 =⋅+=++++=−=⋅−=+++−= α−α−
Protože interval (-0,028; 1,692) obsahuje číslo 0, na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti
dojmu u přijímací zkoušky a přijetí na fakultu.
b) Testování pomocí statistiky K:
dojempřijetí
dobrý špatný
nj.
ano 17 11 28
ne 39 58 97
n.k 56 69 125
Ověříme splnění podmínek dobré aproximace:
544,12
125
5628
n
nn 1..1
=
⋅
= , 456,15
125
6928
n
nn 2..1
=
⋅
= ,
456,43
125
5697
n
nn 1..2
=
⋅
= , 544,53
125
6997
n
nn 2..2
=
⋅
=
Podmínky dobré aproximace jsou splněny.
Dosadíme do zjednodušeného vzorce pro testovou statistiku K:
( )
( )( )( )( )
( ) 6953,3
69569728
39115817125
dbcadcba
bcadn
K
22
=
⋅⋅⋅
⋅−⋅⋅
=
++++
−
=
Kritický obor: ( ) ) )∞=∞χ= ,841,3,1W 95,0
2
.
Protože testová statistika se nerealizuje k kritickém oboru, nulovou hypotézu nezamítáme na asymptotické hladině významnosti
0,05.
Vypočteme ještě Cramérův koeficient: 1719,0
)12(125
6953,3
)1m(n
K
V =
−
=
−
=
Vidíme, že mezi dojmem u přijímací zkoušky a přijetím na fakultu je pouze slabá závislost.
Poznámka k jednostranným alternativám:
Nulová hypotéza tvrdí, že podíl šancí je roven 1, tj. H0: oρ = 1.
Pokud víme, že za prvních okolností je šance na úspěch vyšší než za druhých okolností, pak proti nulové hypotéze postavíme
pravostrannou alternativu
H1: oρ > 1.
Nulovou hypotézu zamítáme na asymptotické hladině významnosti α ve prospěch pravostranné alternativy, když 100(1-α)%
empirický asymptotický levostranný interval spolehlivosti pro ln oρ neobsahuje číslo 0.
Pokud víme, že za prvních okolností je šance na úspěch nižší než za druhých okolností, pak proti nulové hypotéze postavíme
levostrannou alternativu
H1: oρ < 1.
Nulovou hypotézu zamítáme na asymptotické hladině významnosti α ve prospěch levostranné alternativy, když 100(1-α)%
empirický asymptotický pravostranný interval spolehlivosti pro ln oρ neobsahuje číslo 0.
Pokud jsou šance na úspěch stejné za prvních i druhých okolností, pak proti nulové hypotéze postavíme oboustrannou alter-
nativu
H1: oρ ≠ 1.
Nulovou hypotézu zamítáme na asymptotické hladině významnosti α ve prospěch oboustranné alternativy, když 100(1-α)%
empirický asymptotický oboustranný interval spolehlivosti pro ln oρ neobsahuje číslo 0.
Příklad: U 24 žáků 6. třídy základní školy bylo zjišťováno, zda jsou úspěšní v matematice (tj. mají na posledním vysvědčení
známku 1 nebo 2 z matematiky) a zda hrají na nějaký hudební nástroj. Z 10 úspěšných matematiků 6 hrálo na nějaký hudební
nástroj, kdežto ve skupině neúspěšných matematiků hrál pouze 1 žák na hudební nástroj. Na asymptotické hladině
významnosti 0,05 testujte hypotézu, že úspěch v matematice a hra na hudební nástroj jsou nezávislé veličiny. Proti nulové
hypotéze postavte
a) oboustrannou alternativu, tj. tvrzení, úspěch v matematice a hra na hudební nástroj spolu souvisí,
b) pravostrannou alternativu, tj. tvrzení, že šance na úspěch v matematice jsou vyšší pro žáky, kteří hrají na nějaký hudební
nástroj,
c) levostrannou alternativu, tj. tvrzení, že šance na úspěch v matematice jsou nižší pro žáky, kteří hrají na nějaký hudební
nástroj.
Řešení:
Máme kontingenční tabulku
hra na hudební nástrojúspěch v M
ano ne
nj.
ano 6 4 10
ne 1 13 14
n.k 7 17 24
Vypočteme podíl šancí: 5,19
2
39
14
136
bd
ac
OR ==
⋅
⋅
== . Podíl šancí nám říká, že žák, který hraje na nějaký hudební nástroj, má
19,5 x větší šanci na úspěch v matematice než žák, který nehraje na žádný hudební nástroj.
Ad a)
Pro testování nulové hypotézy proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti:
Dolní a horní mez intervalu spolehlivosti pro oρ zjistíme pomocí STATISTIKY. Vytvoříme datový soubor o dvou proměnných
DM a HM a jednom případu. Do Dlouhého jména proměnné DM napíšeme vzorec pro dolní mez:
=log(19,5)-sqrt(1/6+1/4+1/1+1/13)*VNormal(0,975;0;1)
a analogicky do Do Dlouhého jména proměnné HM napíšeme vzorec pro horní mez:
=log(19,5)+sqrt(1/6+1/4+1/1+1/13)*VNormal(0,975;0;1)
1
DM
2
HM
1 0,575093 5,365736
Vidíme, že 0,575093 < ln oρ < 5,365736 s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje 0, nulovou hypotézu
zamítáme na asymptotické hladině významnosti 0,05 ve prospěch oboustranné alternativy. S rizikem omylu nejvýše
5% se tedy prokázalo, že úspěch v matematice souvisí s hrou na hudební nástroj.
Ad b)
Pro testování nulové hypotézy proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti:
Do Dlouhého jména proměnné DM napíšeme vzorec pro dolní mez:
=log(19,5)-sqrt(1/6+1/4+1/1+1/13)*VNormal(0,95;0;1)
1
DM
1 0,960198
Protože interval (0,960198; ∞) neobsahuje 0, nulovou hypotézu zamítáme na asymptotické hladině významnosti 0,05 ve
prospěch pravostranné alternativy. S rizikem omylu nejvýše 5% se tedy prokázalo, že žáci, kteří hrají na nějaký hudební nástroj,
mají vyšší šance na úspěch v matematice.
Ad c)
Pro testování nulové hypotézy proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti:
Do Dlouhého jména proměnné HM napíšeme vzorec pro dolní mez:
=log(19,5)+sqrt(1/6+1/4+1/1+1/13)*VNormal(0,95;0;1)
1
HM
1 4,980631
Protože interval (-∞; 4,980631) obsahuje 0, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05 ve
prospěch levostranné alternativy. Neprokázalo se tedy, že žáci, kteří hrají na nějaký hudební nástroj, mají nižší šance na
úspěch v matematice.