Neparametrické testy o mediánech
Motivace: Při aplikaci parametrických metod by měly být splněny určité předpoklady:
- normalita dat (pro výběry větších rozsahů (n ≥ 30) nemá mírné porušení normality závažný dopad na
výsledky)
- homogenita rozptylů
- intervalový či poměrový charakter dat
Pokud nejsou tyto předpoklady splněny, použijeme tzv. neparametrické testy, které nevyžadují předpoklad o
konkrétním typu rozložení (např. normálním), stačí např. předpokládat, že distribuční funkce rozložení,
z něhož náhodný výběr pochází, je spojitá.
Nevýhoda - ve srovnání s klasickými parametrickými testy jsou neparametrické testy slabší, tzn., že
nepravdivou hypotézu zamítají s menší pravděpodobností než testy parametrické.
V této kapitole se omezíme na ty neparametrické testy, které jsou založeny na pořadí a týkají se mediánů.
Nazývají se pořadové testy.
Pojem pořadí a průměrného pořadí
Nechť X1, ..., Xn je náhodný výběr.
Vektor (X(1), ...., X(n)), kde X(1) ≤ ... ≤ X(n) se nazývá uspořádaný náhodný výběr a statistika X(i) se nazývá i-tá pořádková
statistika, i = 1, ..., n.
Pořadím Ri statistiky Xi rozumíme počet těch náhodných veličin X1, ..., Xn, které nabývají hodnoty menší nebo rovné Xi.
V praxi se může stát, že některá pozorování jsou si rovna a vytvářejí skupiny shodných čísel. Pak těmto shodným číslům
přiřadíme průměrné pořadí odpovídající takové skupině.
Příklad: Máme čísla 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Stanovte jejich pořadí.
Řešení:
usp.hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4
pořadí 1 2 3 4 5 6 7 8 9 10
průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10
Jednovýběrový znaménkový test a jeho asymptotická varianta
Nechť X1, ..., Xn je náhodný výběr ze spojitého rozložení se spojitou distribuční funkcí Φ(x). Nechť x0,50 je mediánem
tohoto rozložení, tj. Φ(x0,50) = 0,5. Nechť c je reálná konstanta. Testujeme hypotézu H0: x0,50 = c proti oboustranné
alternativě H1: x0,50 ≠ c (resp. proti levostranné alternativě H1: x0,50 < c resp. proti pravostranné alternativě H1: x0,50 > c).
Postup provedení testu:
a) Utvoříme rozdíly Yi = Xi – c, i = 1, ..., n. (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.)
b) Zavedeme statistiku SZ
+
, která udává počet těch rozdílů, které jsou kladné.
Platí-li H0, pak SZ
+
~ Bi(n,1/2), tedy E(SZ
+
) = n/2, D(SZ
+
) = n/4.
c) Stanovíme kritický obor.
Pro oboustrannou alternativu ho budou tvořit ty hodnoty testové statistiky SZ
+
, které jsou blízké 0 nebo n, tedy
n,kk,0W 21 ∪= , kde nezáporná celá čísla k1, k2, splňují podmínky
( ) 2
kSP 1Z
α
≤≤
+
, ( ) 2
kSP 2Z
α
≤≥
+
Pro levostrannou alternativu: 1k,0W = , kde nezáporné celé číslo k1 splňuje podmínku ( ) α≤≤
+
1Z kSP
Pro pravostrannou alternativu: n,kW 2= , kde nezáporné celé číslo k2 splňuje podmínku ( ) α≤≥
+
2Z kSP
(Čísla k1, k2 pro oboustranný test i pro jednostranné testy lze najít ve statistických tabulkách.)
d) H0 zamítáme na hladině významnosti α, když WSZ ∈
+
.
Asymptotická varianta testu:
Pro velká n (prakticky n > 20) lze využít asymptotické normality statistiky SZ
+
.
Testová statistika
( )
( ) 4
n
2
n
Z
Z
ZZ
0
S
SD
SES
U
−
=
−
=
+
+
++
má za platnosti H0 asymptoticky rozložení N(0,1). Píšeme U0 ≈ N(0,1).
Kritický obor
- pro oboustrannou alternativu: W = ( )∞∪−∞− α−α− ,uu, 2/12/1 ,
- pro levostrannou alternativu: W = ( α−−∞− 1u, ,
- pro pravostrannou alternativu: W = )∞α− ,u1 .
H0 zamítáme na asymptotické hladině významnosti α, když WU0 ∈ .
Aproximace rozložením N(0,1) se zlepší, když použijeme tzv. korekci na nespojitost. Testová statistika pak má
tvar
4
n
2
1
2
n
Z
0
S
U
±−
=
+
, přičemž 1/2 přičteme, když SZ
+
< n/2 a odečteme v opačném případě.
Příklad: U 10 náhodně vybraných vzorků benzínu byly zjištěny následující hodnoty oktanového čísla:
98,2 96,8 96,3 99,8 96,9 98,6 95,6 97,1 97,7 98,0.
Na hladině významnosti 0,05 testujte hypotézu, že medián oktanového čísla je 98 proti oboustranné alternativě.
(Nulová hypotéza říká, že aspoň polovina vzorků benzínu má oktanové číslo nejvýš 98.)
Řešení:
rozdíly xi – 98: 0,2 -1,2 -1,7 1,8 -1,1 0,6 -2,4 -0,9 -0,3 0,0
SZ
+
= 3, nenulových rozdílů je 9. Ve statistických tabulkách najdeme pro n = 9 a α = 0,05 kritické hodnoty k1 = 1, k2 = 8.
Protože kritický obor 9,81,0W ∪= neobsahuje hodnotu 3, nemůžeme H0 zamítnout na hladině významnosti 0,05.
Výpočet pomocí systému STATISTICA:
Vytvoříme nový datový soubor se dvěma proměnnými a 10 případy. Do proměnné X napíšeme hodnoty oktanového čísla a
do proměnné konst uložíme číslo 98.
Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných X, 2. seznam
proměnných konst – OK – Znaménkový test.
Znaménkový test (oktanove cislo)
Označené testy jsou významné na hladině p <,05000
Dvojice proměnných
Počet
různých
procent
v < V
Z Úroveň p
X & konst 9 66,66667 0,666667 0,504985
Vidíme, že nenulových hodnot n = 9. Z nich záporných je 66,7%, tj. 6. Hodnota testové statistiky SZ
+
= 9 – 6 = 3.
Asymptotická testová statistika U0 (zde označená jako Z) se realizuje hodnotou 0,6667. Odpovídající asymptotická phodnota
je 0,505, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu, že medián oktanového čísla je 98.
Upozornění: V tomto případě není splněna podmínka pro využití asymptotické normality statistiky SZ
+
, tj. n > 20. Je tedy
vhodnější najít v tabulkách kritické hodnoty pro znaménkový test. Pro n = 9 a α = 0,05 jsou kritické hodnoty k1 = 1, k2 = 8.
Protože kritický obor 9,81,0W ∪= neobsahuje hodnotu 3, nezamítáme H0
na hladině významnosti 0,05. Dostáváme týž
výsledek jako při použití asymptotického testu.
Párový znaménkový test
Nechť (X1, Y1), ..., (Xn, Yn) je náhodný výběr ze spojitého dvourozměrného rozložení. Testujeme H0: x0,50 - y0,50 = c proti
H1: x0,50 - y0,50 ≠ c (resp. proti jednostranným alternativám). Utvoříme rozdíly Zi = Xi – Yi, i = 1, ..., n a testujeme hypotézu o
mediánu z0,50, tj. H0: z0,50 = c proti H1: z0,50 ≠ c.
Příklad: U 8 osob byl změřen systolický krevní tlak před pokusem a po něm.
č. osoby 1 2 3 4 5 6 7 8
tlak před 130 185 162 136 147 181 138 139
tlak po 139 190 175 135 155 175 158 149
Na hladině významnosti 0,05 testujte hypotézu, že pokus neovlivní systolický krevní tlak.
Řešení:
Testujeme H0: z0,50 = 0 proti oboustranné alternativě H1: z0,50 ≠ 0, kde z0,50 je medián rozložení, z něhož pochází rozdílový
náhodný výběr Z1 = X1 – Y1, …, Z15 = X8 – Y8. Vypočteme rozdíly mezi tlakem před pokusem a po pokusu, čímž úlohu
převedeme na jednovýběrový test.
rozdíly xi – yi: -9 -5 -13 1 -8 6 -20 -10
Testová statistika SZ
+
= 2.Ve statistických tabulkách najdeme pro n = 8 a α = 0,05 kritické hodnoty k1 = 0, k2 = 8. Protože
kritický obor 80W ∪= neobsahuje hodnotu 2, nemůžeme H0
zamítnout na hladině významnosti 0,05. Znamená to, že
zvýšení krevního tlaku je stejně pravděpodobné jako jeho pokles.
Výpočet pomocí systému STATISTICA:
Vytvoříme nový datový soubor se dvěma proměnnými a 8 případy. Do proměnné X napíšeme hodnoty tlaku před pokusem,
do proměnné Y hodnoty tlaku po pokusu.
Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných X, 2. seznam
proměnných Y – OK – Znaménkový test.
Znaménkový test (tlak.sta)
Označené testy jsou významné na hladině p <,05000
Dvojice proměnných
Počet
různých
procent
v < V
Z Úroveň p
X & Y 8 75,00000 1,060660 0,288844
Vidíme, že nenulových hodnot n = 8. Z nich záporných je 75%, tj. 6. Hodnota testové statistiky SZ
+
= 8 – 6 = 2.
Asymptotická testová statistika U0 (zde označená jako Z) se realizuje hodnotou 1,06066. Odpovídající asymptotická phodnota
je 0,2888, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu, že zvýšení krevního tlaku stejně
pravděpodobné jako jeho pokles.
Grafické znázornění výsledků:
Návrat do Porovnání dvou proměnných – Krabicový graf všech proměnných – Proměnné X, Y – OK – ponecháme
implicitní nastavení krabicového diagramu – OK.
Medián
25%-75%
Min-Max
X Y
120
130
140
150
160
170
180
190
200
Vidíme, že hodnoty tlaku před pokusem a po pokusu se poněkud liší v mediánech, variabilita je přibližně stejná. Rozložení
hodnot tlaku před pokusem je nesymetrické, medián je posunut k dolnímu kvartilu.
Jednovýběrový Wilcoxonův test a jeho asymptotická varianta
Frank Wilcoxon (1892 – 1965): Americký statistik a chemik
Nechť X1, ..., Xn je náhodný výběr ze spojitého rozložení s hustotou φ(x), která je symetrická kolem mediánu x0,50, tj.
φ(x0,50 + x) = φ(x0,50 - x). Nechť c je reálná konstanta.
Testujeme hypotézu H0: x0,50 = c
proti oboustranné alternativě H1: x0,50 ≠ c nebo
proti levostranné alternativě H1: x0,50 < c nebo
proti pravostranné alternativě H1: x0,50 > c.
Postup provedení testu:
a) Utvoříme rozdíly Yi = Xi – c, i = 1, ..., n. (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.)
b) Absolutní hodnoty │Yi│uspořádáme vzestupně podle velikosti a spočteme pořadí Ri.
c) Zavedeme statistiky
∑
>
++
=
0Y
iW
i
RS , což je součet pořadí přes kladné hodnoty Yi,
∑
<
−−
=
0Y
iW
i
RS , což je součet pořadí přes záporné hodnoty Yi.
Přitom platí, že součet SW
+
+ SW
=
n(n+1)/2.
Je-li H0 pravdivá, pak E(SW
+
) = n(n+1)/4 a D(SW
+
) = n(n+1)(2n+1)/24.
d) Testová statistika = min(SW
+
, SW
)
pro oboustrannou alternativu,
= SW
+
pro levostrannou alternativu,
= SW
pro
pravostrannou alternativu.
e) H0 zamítáme na hladině významnosti α, když testová statistika je menší nebo rovna tabelované kritické hodnotě.
Asymptotická varianta jednovýběrového Wilcoxonova testu:
Pro n ≥ 30 lze využít asymptotické normality statistiky SW
+
.
Platí-li H0, pak
( )
( ) 24
)1n2)(1n(n
4
)1n(n
W
W
WW
0
S
SD
SES
U
++
++
+
++
−
=
−
= ≈ N(0,1).
Kritický obor:
pro oboustrannou alternativu W = ( )∞∪−∞− α−α− ,uu, 2/12/1 ,
pro levostrannou alternativu W = ( α−−∞− 1u, ,
pro pravostrannou alternativu W = )∞α− ,u1
H0 zamítáme na asymptotické hladině významnosti α, když WU0 ∈ .
Předpoklady použití jednovýběrového Wilcoxonova testu:
- rozložení, z něhož daný náhodný výběr pochází, je spojité
- hustota tohoto rozložení je symetrická kolem mediánu
- sledovaná veličina X má aspoň ordinální charakter
(Není-li splněn předpoklad o symetrii hustoty kolem mediánu, lze použít např. znaménkový test.)
Příklad: U 12 náhodně vybraných zemí bylo zjištěno procento populace starší 60 let:
4,9 6,0 6,9 17,6 4,5 12,3 5,7 5,3 9,6 13,5 15,7 7,7.
Na hladině významnosti 0,05 testujte hypotézu, že medián procenta populace starší 60 let je 12 proti oboustranné alternativě.
(Nulová hypotéza tvrdí, že aspoň polovina zemí má nejvýše 12 % obyvatel nad 60 let.)
Řešení:
Testujeme hypotézu H0: x0,50 = 12 proti oboustranné alternativě H1: x0,50 ≠ 12.
Vypočteme rozdíly pozorovaných hodnot od čísla 12: -7,1 -6,0 -5,1 5,6 -7,5 0,3 -6,3 -6,7 -2,4 1,5 3,7 -4,3.
Absolutní hodnoty těchto rozdílů uspořádáme vzestupně podle velikosti. Kladné rozdíly přitom označíme červeně:
usp. │ xi – 12│ 0,3 1,5 2,4 3,7 4,3 5,1 5,6 6 6,3 6,7 7,1 7,5
pořadí 1 2 3 4 5 6 7 8 9 10 11 12
SW
+
= 1 + 2 + 4 + 7 =14,
SW
=
3 + 5 + 6 + 8 + 9 + 10 + 11 + 12 = 64,
n = 12, α = 0,05, tabelovaná kritická hodnota pro n = 12 a α = 0,05 je 13,
testová statistika = min(SW
+
, SW
)
= min(14,64) = 14.
Protože 14 > 13, H0 nezamítáme na hladině významnosti 0,05.
Výpočet pomocí systému STATISTICA:
Utvoříme nový datový soubor se dvěma proměnnými a 12 případy. Do proměnné procento napíšeme zjištěné hodnoty a do
proměnné konst uložíme číslo 12.
Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných rozdil, Druhý
seznam proměnných konst – OK – Wilcoxonův párový test.
Wilcoxonův párový test (populace_nad_60)
Označené testy jsou významné na hladině p <,05000
Dvojice proměnných
Počet
platných
T Z Úroveň p
procento & konst 12 14,00000 1,961161 0,049861
Výstupní tabulka poskytne hodnotu testové statistiky SW+
(zde označena T), hodnotu asymptotické testové statistiky U0 a phodnotu
pro U0. V tomto případě je p-hodnota 0,049861, tedy nulová hypotéza se zamítá na asymptotické hladině
významnosti 0,05. Tento výsledek je v rozporu s výsledkem, ke kterému jsme dospěli při přesném výpočtu. Je to způsobeno
tím, že není splněna podmínka pro využití asymptotické normality statistiky SW+
, tj. n ≥ 30.
Párový Wilcoxonův test
Nechť (X1, Y1), ..., (Xn, Yn) je náhodný výběr ze spojitého dvourozměrného rozložení.
Testujeme H0: x0,50 - y0,50 = c proti H1: x0,50 - y0,50 ≠ c (resp. proti jednostranným alternativám).
Utvoříme rozdíly Zi = Xi – Yi, i = 1, ..., n a testujeme hypotézu o mediánu z0,50, tj. H0: z0,50 = c proti H1: z0,50 ≠ c.
Příklad: K zjištění cenových rozdílů mezi určitými dvěma druhy zboží bylo náhodně vybráno 15 prodejen a byly zjištěny ceny zboží A a ceny
zboží B: (11,10), (14,11), (11,9), (13,9), (11,9), (10,9), (12,10), (10,8), (12,11), (11,9), (13,10), (14,10), (14,12), (19,15), (14,12). Na hladině
významnosti 0,05 je třeba testovat hypotézu, že medián cenových rozdílů činí 3 Kč.
Řešení:Testujeme H0: z0,50 = 3 proti oboustranné alternativě H1: z0,50 ≠ 3, kde z0,50 je medián rozložení, z něhož pochází rozdílový náhodný výběr
Z1 = X1 – Y1, … Z15 = X15 – Y15.Vypočteme rozdíly mezi cenou zboží A a cenou zboží B, čímž úlohu převedeme na jednovýběrový test.
Výpočty uspořádáme do tabulky:
č. prodejny cena zboží A cena zboží B rozdíl |rozdíl-medián| pořadí
1 11 10 1 2 12
2 14 11 3 0 -
3 11 9 2 1 5,5
4 13 9 4 1 5,5
5 11 9 2 1 5,5
6 10 9 1 2 12
7 12 10 2 1 5,5
8 10 8 2 1 5,5
9 12 11 1 2 12
10 11 9 2 1 5,5
11 13 10 3 0 -
12 14 10 4 1 5,5
13 14 12 2 1 5,5
14 19 15 4 1 5,5
15 14 12 2 1 5,5
(Tučně jsou vytištěna pořadí pro kladné hodnoty rozdíl - medián.)
SW
+
= 5,5 + 5,5 + 5,5 = 16,5,
SW
=
12 + 5,5 + 5,5 + 12 + 5,5 + 5,5 + 12 + 5,5 + 5,5 + 5,5 = 74,5,
n = 13, α = 0,05, tabelovaná kritická hodnota = 17, testová statistika = min(SW
+
, SW
)
= min(16,5; 74,5) = 16,5. Protože 16,5 ≤ 17, H0 zamítáme
na hladině významnosti 0,05.
Výpočet pomocí systému STATISTICA:
Vytvoříme nový datový soubor se čtyřmi proměnnými A, B, rozdíl, konst a 15 případy. Do proměnných A, B napíšeme ceny
zboží A a B, do proměnné rozdíl uložíme rozdíl cen A a B a do proměnné konst uložíme číslo 3.
Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných rozdil, 2. seznam
proměnných konst – OK – Wilcoxonův párový test.
Wilcoxonův párový test (ceny zbozi)
Označené testy jsou významné na hladině p <,05000
Dvojice proměnných
Počet
platných
T Z Úroveň p
rozdil & konst 15 16,50000 2,026684 0,042696
Testová statistika (zde označená jako T) nabývá hodnoty 16,5, asymptotická testová statistika (označená jako Z) nabývá
hodnoty 2,026684, odpovídající asymptotická p-hodnota je 0,042696, tedy na asymptotické hladině významnosti 0,05
nulovou hypotézu zamítáme.
Příklad (na asymptotickou variantu Wilcoxonova testu):
30 náhodně vybraných osob mělo nezávisle na sobě bez předchozího nácviku odhadnout, kdy od daného signálu uplyne
právě 1 minuta. Byly získány následující výsledky (v sekundách):
53 48 45 55 63 51 66 56 50 58 61 51 64 63 59 47 46 58 52 56 61 57 48 62 54 49 51 46 53 58.
Na asymptotické hladině významnosti 0,05 testujte hypotézu, že medián rozložení, z něhož daný náhodný výběr pochází, je
60 sekund proti oboustranné alternativě (nulová hypotéza vlastně tvrdí, že polovina osob délku jedné minuty podhodnotí a
druhá nadhodnotí).
Řešení:
Testujeme H0: x0,50 = 60 proti oboustranné alternativě H1: x0,50 ≠ 60.
Obvyklým způsobem stanovíme statistiku SW
+
= 55.
Asymptotická testová statistika:
( )
( )
65,3
55S
SD
SES
U
24
)130.2)(130(30
4
)130(30
24
)1n2)(1n(n
4
)1n(n
W
W
WW
0 −=
−
=
−
=
−
=
++
+
++
++
+
++
Kritický obor:
W = ( ) ( ) ( )∞∪−∞−=∞∪−∞−=∞∪−∞− α−α− ,96,196,1,,uu,,uu, 975,0975,02/12/1 .
Testová statistika se realizuje v kritickém oboru, tedy H0 zamítáme na asymptotické hladině významnosti 0,05. S rizikem
omylu nejvýše 5% jsme tedy prokázali, že pravděpodobnost nadhodnocení jedné minuty není stejná jako pravděpodobnost
podhodnocení.
Výpočet pomocí systému STATISTICA:
Utvoříme nový datový soubor se dvěma proměnnými a 30 případy. Do proměnné odhad napíšeme zjištěné hodnoty a do
proměnné konst uložíme číslo 60.
Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných odhad, 2. seznam
proměnných konst – OK – Wilcoxonův párový test.
Wilcoxonův párový test (odhad minuty)
Označené testy jsou významné na hladině p <,05000
Dvojice proměnných
Počet
platných
T Z Úroveň p
odhad & konst 30 55,00000 3,650880 0,000261
Testová statistika (zde označená jako T) nabývá hodnoty 55, asymptotická testová statistika (označená jako Z) nabývá
hodnoty 3,65088, odpovídající asymptotická p-hodnota je 0,000261, tedy na asymptotické hladině významnosti 0,05
nulovou hypotézu zamítáme.
Dvouvýběrový Wilcoxonův test a jeho asymptotická varianta
Nechť X1, ..., Xn a Y1, ..., Ym jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se
mohou lišit pouze posunutím. Označme x0,50 medián prvního rozložení a y0,50 medián druhého rozložení. Na hladině
významnosti 0,05 testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné neboli mediány jsou shodné proti
alternativě, že jsou rozdílné, tj.
H0: x0,50 - y0,50 = 0 proti H1: x0,50 - y0,50 ≠ 0.
Postup provedení testu:
a) Všech n + m hodnot X1, ..., Xn a Y1, ..., Ym uspořádáme vzestupně podle velikosti.
b) Zjistíme součet pořadí hodnot X1, ..., Xn a označíme ho T1.
Součet pořadí hodnot Y1, ..., Ym označíme T2.
c) Vypočteme statistiky U1
= mn + n(n+1)/2 – T1 , U2 = mn + m(m+1)/2 - T2
.
Přitom platí U1
+ U2
= mn.
d) Pokud min(U1
,U2
) ≤ tabelovaná kritická hodnota (pro dané rozsahy výběrů m, n a dané α), pak nulovou hypotézu o
totožnosti obou distribučních funkcí zamítáme na hladině významnosti α. V tabulkách: n = min{m,n} a m = max{m,n}.
Asymptotická varianta dvouvýběrového Wilcoxonova testu:
Pro velká n, m (n, m > 30) lze využít asymptotické normality statistiky U1‘.
Platí-li H0, pak
12
)1nm(mn
2
mn
1
0
'U
U
++
−
= ≈ N(0,1), kde U1‘ = min(U1,U2).
Kritický obor:
pro oboustrannou alternativu W = ( )∞∪−∞− α−α− ,uu, 2/12/1 ,
pro levostrannou alternativu W = ( α−−∞− 1u, ,
pro pravostrannou alternativu W = )∞α− ,u1
H0 zamítáme na asymptotické hladině významnosti α, když WU0 ∈ .
Předpoklady použití dvouvýběrového Wilcoxonova testu:
- dané dva náhodné výběry jsou nezávislé
- rozložení, z nichž dané dva náhodné výběry pocházejí, jsou spojitá
- distribuční funkce těchto rozložení se mohou lišit pouze posunutím
- sledovaná veličina má aspoň ordinální charakter
(Není-li splněn předpoklad, že distribuční funkce se mohou lišit pouze posunutím, lze použít např. dvouvýběrový
Kolmogorovův – Smirnovův test.)
Příklad:
Bylo vybráno 10 polí stejné kvality. Na čtyřech z nich se zkoušel nový způsob hnojení, zbylých šest bylo ošetřeno starým
způsobem. Pole byla oseta pšenicí a sledoval se její hektarový výnos. Je třeba zjistit, zda nový způsob hnojení má týž vliv na
průměrné hektarové výnosy pšenice jako starý způsob hnojení.
hektarové výnosy při novém způsobu: 51 52 49 55
hektarové výnosy při starém způsobu: 45 54 48 44 53 50
Test proveďte na hladině významnosti 0,05.
Řešení:
Na hladině významnosti 0,05 testujeme H0: x0,50 - y0,50 = 0 proti oboustranné alternativě H1: x0,50 - y0,50 ≠ 0.
usp. hodnoty 44 45 48 49 50 51 52 53 54 55
pořadí x-ových hodnot 4 6 7 10
pořadí y-ových hodnot 1 2 3 5 8 9
T1 = 4 + 6 + 7 + 10 = 27, T2 = 1 + 2 + 3 + 5 + 8 + 9 = 28
U1 = 4.6 + 4.5/2 - 27 = 7, U2 = 4.6 + 6.7/2 - 28 = 17
Kritická hodnota pro α = 0,05, min(4,6) = 4, max(4,6) = 6 je 2. Protože min(7,17) = 7 > 2, nemůžeme na hladině
významnosti 0,05 zamítnout hypotézu, že nový způsob hnojení má na hektarové výnosy pšenice stejný vliv jako starý
způsob.
Výpočet pomocí systému STATISTICA:
Utvoříme nový datový soubor se dvěma proměnnými a 10 případy. Do proměnné vynos napíšeme zjištěné hodnoty a do
proměnné hnojeni napíšeme 4x číslo 1 pro nový způsob hnojení a 6x číslo 2 pro starý způsob hnojení.
Statistiky – Neparametrická statistika – Porovnání dvou nezávislých vzorků – OK – Proměnné – Seznam závislých
proměnných vynos, Nezáv. (grupov.) proměnná hnojeni – OK – M-W U test.
Upozornění: Ve STATISTICE je dvouvýběrový Wilcoxonův test uveden pod názvem Mannův – Whitneyův test.
Mann-Whitneyův U test (vynos)
Dle proměn. hnojeni
Označené testy jsou významné na hladině p <,05000
Proměnná
Sčt poř.
skup. 1
Sčt poř.
skup. 2
U Z Úroveň p Z
upravené
Úroveň p N platn.
skup. 1
N platn.
skup. 2
2*1str.
přesné p
vynos 27,00000 28,00000 7,000000 1,066004 0,286423 1,066004 0,286423 4 6 0,352381
Ve výstupní tabulce jsou součty pořadí T1, T2, hodnota testové statistiky
min(U1, U2) označená U, hodnota asymptotické testové statistiky U0 (označená Z), asymptotická p-hodnota pro U0 a přesná
p-hodnota (ozn. 2*1str. přesné p – ta se používá pro rozsahy výběrů pod 30). V našem případě přesná p-hodnota = 0,352381,
tedy H0 nezamítáme na hladině významnosti 0,05.
Výpočet je vhodné doplnit krabicovým diagramem.
Krabicový graf dle skupin
Proměnná:vynos
Medián
25%-75%
Min-Max
1 2
hnojeni
42
44
46
48
50
52
54
56
vynos
Je zřejmé, že výnosy při starém způsobu hnojení jsou vesměs nižší než při novém způsobu a také vykazují mnohem větší
variabilitu.
Dvouvýběrový Kolmogorovův - Smirnovův test
Nechť n1 X,,X K a m1 Y,,Y K jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se mohou
lišit nejenom posunutím, ale také tvarem. Testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné, tj., že
všech mn + veličin pochází z téhož rozložení proti alternativě, že distribuční funkce jsou rozdílné.
Nechť )x(F1 je výběrová distribuční funkce 1. výběru a )y(F2 je výběrová distribuční funkce 2. výběru. Jako testová statistika
slouží )x(F)x(FmaxD 21
x
−=
∞<<∞−
. H0 zamítáme na hladině významnosti α, když ( )α≥ m,nDD , kde ( )αm,nD je tabelovaná kritická
hodnota. Pro větší rozsahy m,n lze kritickou hodnotu aproximovat vzorcem
α
+ 2
ln
nm2
mn
.
Příklad: Výrobce určitého výrobku se má rozhodnout mezi dvěma dodavateli polotovarů vyrábějících je různými technologiemi.
Rozhodující je procentní obsah určité látky.
1. technologie: 1,52 1,57 1,71 1,34 1,68
2. technologie: 1,75 1,67 1,56 1,66 1,72 1,79 1,64 1,55
Na hladině významnosti 0,05 posuďte pomocí dvouvýběrového K-S testu, zda je oprávněný předpoklad, že obě technologie
poskytují stejné procento účinné látky.
Výpočet pomocí systému STATISTICA:
Utvoříme nový datový soubor se dvěma proměnnými a 13 případy. Do proměnné X napíšeme zjištěné hodnoty a do proměnné
ID napíšeme 5x číslo 1 pro první technologii a 8x číslo 2 pro starý druhou technologii.
Statistiky – Neparametrická statistika – Porovnání dvou nezávislých vzorků – OK – Proměnné – Seznam závislých proměnných
X, Nezáv. (grupov.) proměnná ID – OK – Kolmogorov-Smirnovův 2-výběrový test.
Proměnná
Max záp
rozdíl
Max klad
rozdíl
Úroveň p Průměr
skup. 1
Průměr
skup. 2
Sm.odch.
skup. 1
Sm.odch.
skup. 2
N platn.
skup. 1
N platn.
skup. 2
obsah -0,400000 0,025000 p > .10 1,564000 1,667500 0,147411 0,085147 5 8
Ve výstupní tabulce pro dvouvýběrový K-S test dostaneme maximální záporný a maximální kladný rozdíl mezi hodnotami
obou výběrových distribučních funkcí, dolní omezení pro p-hodnotu (p > 0,1), průměry, směrodatné odchylky a rozsahy
obou výběrů. Jelikož p-hodnota převyšuje hladinu významnosti 0,05, na této hladině nelze nulovou hypotézu zamítnout.
Kruskalův - Wallisův test
William Kruskal (1919 – 2005):
Americký matematik
Wilson Allen Wallis (1912 – 1988):
Americký matematik
Nechť je dáno r ≥ 3 nezávislých náhodných výběrů o rozsazích n1, ... , nr
. Předpokládáme, že tyto výběry pocházejí ze
spojitých rozložení. Označme n = n1
+ ... + nr
. Na asymptotické hladině významnosti α chceme testovat hypotézu, že
všechny tyto výběry pocházejí z téhož rozložení.
Postup testu:
a) Všech n hodnot seřadíme do rostoucí posloupnosti.
b) Určíme pořadí každé hodnoty v tomto sdruženém výběru.
c) Označme Tj součet pořadí těch hodnot, které patří do j-tého výběru, j = 1, ..., r (kontrola: musí platit T1
+ ... + Tr
=
n(n+1)/2).
d) Testová statistika má tvar: ∑
=
+−
+
=
r
1j j
2
j
)1n(3
n
T
)1n(n
12
Q . Platí-li H0, má statistika Q asymptoticky rozložení χ2
(r-1).
e) Kritický obor: ( ) )∞−χ= α− ,1rW 1
2
.
f) H0
zamítneme na asymptotické hladině významnosti α, když Q ≥ χ1-α
2
(r-1).
Příklad: V roce 1980 byly získány tři nezávislé výběry obsahující údaje o průměrných ročních příjmech (v tisících dolarů)
čtyř sociálních skupin ve třech různých oblastech USA.
jižní oblast: 6 10 15 29
pacifická oblast: 11 13 17 131
severovýchodní oblast: 7 14 28 25
Na hladině významnosti 0,05 testujte hypotézu, že příjmy v těchto oblastech se neliší.
Řešení:
Výpočty uspořádáme do tabulky
Usp. hodnoty 6 7 10 11 13 14 15 17 25 28 29 131
Pořadí 1.výběru 1 3 7 11
Pořadí 2.výběru 4 5 8 12
Pořadí 3.výběru 2 6 9 10
T1 = 1 + 3 + 7 + 11 = 22,
T2 = 4 + 5 + 8 + 12 = 29,
T3 = 2 + 6 + 9 + 10 = 27 ,
∑
=
+−
+
=
r
1j j
2
j
)1n(3
n
T
)1n(n
12
Q 5,0133
4
27
4
29
4
22
1312
12 222
=⋅−





++
⋅
= ,
( ) ) ( ) ) )∞=∞χ=∞−χ= α− ,991,5,2,1rW 95,0
2
1
2
Protože Q < 5,991, H0 nezamítáme na asymptotické hladině významnosti 0,05.
Rozdíly mezi průměrnými ročními příjmy v uvedených třech oblastech se neprokázaly.
Mediánový test
Výchozí situace je stejná jako u K-W testu
Postup testu:
a) Všech n hodnot uspořádáme do rostoucí posloupnosti.
b) Najdeme medián x0,50 těchto n hodnot.
c) Označme Pj počet hodnot v j-tém výběru, které jsou větší nebo rovny mediánu x0,50.
d) Testová statistika má tvar ∑
=
−=
r
1j j
2
j
M n
n
P
4Q . Platí-li H0, má statistika QM asymptoticky rozložení χ2
(r-1).
d) Kritický obor: ( ) )∞−χ= α− ,1rW 1
2
.
e) H0
zamítneme na asymptotické hladině významnosti α, když QM ≥ χ1-α
2
(r-1).
Příklad:
Pro data o průměrných ročních příjmech proveďte mediánový test. Hladinu významnosti volte 0,05.
Řešení:
Usp. hodnoty 6 7 10 11 13 14 15 17 25 28 29 131
Medián je průměr 6. a 7. uspořádané hodnoty: 5,14
2
1514
x 50,0 =
+
= .
V prvním výběru existují 2 hodnoty, které jsou větší nebo rovny 14,5, stejně tak i ve druhém a třetím výběru,
tedy P1 = P2 = P3 = 2.
Testová statistika: ∑
=
−=
r
1j j
2
j
M n
n
P
4Q ( ) 012222
4
1
4 222
=−





++=
Kritický obor: ( ) ) ( ) ) )∞=∞χ=∞−χ= α− ,991,5,2,1rW 95,0
2
1
2
Protože QM < 5,991, H0 nezamítáme na asymptotické hladině významnosti 0,05.
Metody mnohonásobného porovnávání
Zamítneme-li hypotézu, že všechny náhodné výběry pocházejí z téhož rozložení, zajímá nás, které dvojice náhodných
výběrů se liší na zvolené hladině významnosti. Testujeme H0: k-tý a l-tý náhodný výběr pocházejí z téhož rozložení, k, l = 1,
.., r, k ≠ l proti H1: aspoň jedna dvojice výběrů pochází z různých rozložení.
a) Neményiho metoda (Peter Neményi 1927 – 2002: Americký matematik maďarského původu)
- Všechny výběry mají týž rozsah p (třídění je vyvážené).
- Vypočteme │Tl - Tk│.
- V tabulkách najdeme kritickou hodnotu (pro dané p, r, α ).
- Pokud│Tl - Tk│≥ tabelovaná kritická hodnota, pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr
pocházejí z téhož rozložení.
b) Obecná metoda mnohonásobného porovnávání
- Vypočteme
k
k
l
l
n
T
n
T
− .
- Ve speciálních statistických tabulkách najdeme kritickou hodnotu hKW(α ). Při větších rozsazích výběrů je možno ji
nahradit kvantilem χ1-α
2
(r-1).
- Jestliže )(h)1n(n
n
1
n
1
12
1
n
T
n
T
KW
klk
k
l
l
α+





+≥− , pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr
pocházejí z téhož rozložení.
Příklad:
Čtyři laboranti provedli analytické stanovení procenta niklu v oceli. Každý hodnotil pět vzorků.
Laborant A: 4,15 4,26 4,10 4,30 4,25
Laborant B: 4,38 4,40 4,29 4,39 4,45
Laborant C: 4,23 4,16 4,20 4,24 4,27
Laborant D: 4,41 4,31 4,42 4,37 4,43
Na asymptotické hladině významnosti 0,05 testujte hypotézu, že všechny čtyři náhodné výběry pocházejí ze stejného
rozložení. Pokud nulovou hypotézu zamítnete, zjistěte, které dvojice výběrů se liší.
Výpočet pomocí systému STATISTICA:
Vytvoříme nový datový soubor o dvou proměnných a 20 případech. Do proměnné nikl napíšeme změřené hodnoty, do
proměnné laborant napíšeme 5x1 pro 1. laboranta atd. až 5x4 pro 4. laboranta.
Statistiky – Neparametrická statistika – Porovnání více nezávislých vzorků - OK – Seznam závislých proměnných nikl,
Nezáv. (grupovací) proměnná laborant – OK – Summary: Kruskal-Wallis ANOVA & Median test. Ve dvou výstupních
tabulkách se objeví výsledky K-W testu a mediánového testu.
Kruskal-Wallisova ANOVA založ. na poř.; nikl (nikl v oceli)
Nezávislá (grupovací) proměnná :laborant
Kruskal-Wallisův test: H ( 3, N= 20) =13,77714 p =,0032
Závislá:
nikl
Kód Počet
platných
Součet
pořadí
1
2
3
4
1 5 29,00000
2 5 75,00000
3 5 27,00000
4 5 79,00000
Mediánový test, celk. medián = 4,29500; nikl (nikl v oceli)
Nezávislá (grupovací) proměnná : laborant
Chi-Kvadr. = 13,60000 sv = 3 p = ,0035Závislá:
nikl 1 2 3 4 Celkem
<= Medián: pozorov.
očekáv.
poz.-oč.
> Medián: pozorov.
očekáv.
poz.-oč.
Celkem: oček.
4,00000 1,00000 5,00000 0,00000 10,00000
2,50000 2,50000 2,50000 2,50000
1,50000 -1,50000 2,50000 -2,50000
1,00000 4,00000 0,00000 5,00000 10,00000
2,50000 2,50000 2,50000 2,50000
-1,50000 1,50000 -2,50000 2,50000
5,00000 5,00000 5,00000 5,00000 20,00000
Oba testy zamítají hypotézu o shodě mediánů v daných čtyřech skupinách na asymptotické hladině významnosti 0,05.
Nyní provedeme mnohonásobné porovnávání, abychom zjistili, které dvojice laborantů se liší. Zvolíme Vícenás. porovnání
průměrného pořadí pro vš. skupiny.
Vícenásobné porovnání p hodnot (oboustr.);nikl (nikl v oceli)
Nezávislá (grupovací) proměnná :laborant
Kruskal-Wallisův test: H ( 3, N= 20) =13,77714 p =,0032
Závislá:
nikl
1
R:5,8000
2
R:15,000
3
R:5,4000
4
R:15,800
1
2
3
4
0,083641 1,000000 0,045158
0,083641 0,061779 1,000000
1,000000 0,061779 0,032664
0,045158 1,000000 0,032664
Tabulka obsahuje p-hodnoty pro porovnání dvojic skupin. Vidíme, že na hladině významnosti 0,05 se liší laboranti A, D a
laboranti C, D.
Grafické znázornění výsledků
Krabicový graf dle skupin
Proměnná:nikl
Medián
25%-75%
Min-Max
1 2 3 4
laborant
4,05
4,10
4,15
4,20
4,25
4,30
4,35
4,40
4,45
4,50
nikl