MA012 Statistika II 3. Neparametrické metody _i Ondřej Pokora (pokora@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno (podzim 2015) Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 3. Neparametrické metody 1/42 Motivace k neparametrickým metodám Obvyklé podmínky parametrických statistických metod: normalita dat; pro výběry větších rozsahů {n > 30) nemá mírné porušení normality závažný dopad na výsledky homogenita rozptylů náhodných výběrů ■ intervalový či poměrový charakter dat Pokud nejsou tyto předpoklady splněny, používáme tzv. neparametrické metody a testy, které nevyžadují předpoklad o konkrétním typu rozložení. Většina zde uvedených testů navíc patří mezi tzv. pořadové testy, což jsou neparametrické testy založené na pořadích náhodných veličin v uspořádaném náhodném výběru. Nevýhodou je skutečnost, že ve srovnání s klasickými parametrickými testy jsou neparametrické testy slabší, tzn. že nepravdivou hypotézu zamítají s menší pravděpodobností než testy parametrické. MA012 Statistika 11-3. Neparametrické metody 2/42 m Uspořádaný výběr, pořadí a pořádkové statistiky Nechť (Xi,X2, ■ ■ ■ ,Xn) je náhodný výběr rozsahu n. Definice 1 (uspořádaný náhodný výběr) Uspořádaný náhodný výběr je vektor ,X(2),...,X(n)), kde X(!) < X(2) < • • • < X(n), a náhodná veličina X^ se nazývá z-tá pořádková statistika. Definice 2 (pořadí) Pořadím Rj veličiny Xj je myšleno pořadí Xj v uspořádaném náhodném výběru (X(-q,X(2)/... ,X(n)). Pokud se hodnoty neopakují, máme Ri=\{k:Xk x) = -, i = 1,...,n. Chceme testovat hypotézu, že medián rozdělení pravděpodobnosti náhodného vektoru (Xi,... ,Xn) je rovný zvolenému číslu Xq £ ^ Ho : x = Xq Hi : x ^ Xq. Počítáme rozdíly Xj — x0 od testovaného mediánu a označíme počet kladných rozdílů jako S+, ^__S+ = |{t:Xt->s0}|._J Zavedeme indikátorové náhodné veličiny £i,...,£n předpisem ^ = íl, Xř- > Xq, [O, Xz < x0- Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 3. Neparametrické metody 6/42 Znaménkový test (sign test) Potom můžeme psát s+ = £1 + • • • + £n.. Jaké rozdělení pravděpodobnosti má náhodná veličina s+ za Hq Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody Znaménkový test (sign test) Potom můžeme psát S+ = fr+ ••• + £„.. Jaké rozdělení pravděpodobnosti má náhodná veličina S+ za Hq? g+ ^ ^ n, ± J Věta 3 (Znaménkový test pro malá n) Pokud S+ n - ku, zamítneme Hq. Při levostranné, resp. pravostranné, alternativě se použije jen první, resp. jen druhá, podmínka. Hladina významnosti testu je rovna nejvýše oc, Číslo kec Je tabelovaná tzv. kritická hodnota, definovaná jako největší z čísel z množiny {0,pro něž platí j kec p(s+n-K) = - £ n\ oc 2n . ^7 \ij - 2 i=n-koc Při levostranné, resp. pravostranné, alternativě se použije jen první, resp. druhá, podmínka s pravou stranou rovnou oc. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 3. Neparametrické metody 7/42 Znaménkový test (sign test) Jaké střední hodnoty a rozptyly mají náhodné veličiny a S+? _I Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 8/42 Znaménkový test (sign test) Jaké střední hodnoty a rozptyly mají náhodné veličiny a S+? E£ = -, D£ = -, ES+ = -, DS+ = i Podle Moivreovy-Laplaceovy centrální limitní věty dostáváme n —>► oo S+ - ES' 0S. N(0;1) Věta 4 (Znaménkový test (asymptotická varianta)) Při použití testovací statistiky U = 2S+ -n hypotézu Hq zamítneme, pokud U\ > Ui_0Ĺ/2, resp. pokud \ U\ > t*i_a při jednostranné alternativě. Hladina významnosti testu se s rostoucím n blíží k oc, Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 8/42 příklad 2: znaménkový test H0 60, Hi: x ^ 60 i 1 2 3 4 5 6 7 8 9 10 X/ 53 48 45 55 63 51 66 56 50 58 Xi - 60 -7 -12 -15 -5 3 -9 6 -4 -10 -2 n = 10, S+ = 2, U 4-10 VTo — _ 1,897, ^0,05 = 1/ "0,975 = 1/96 Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 9/42 příklad 2: znaménkový test SIGN.test (X, md=60) One-sample Sign-Test data: X s = 2, p-value = 0.1094 alternative hypothesis : true median is not equal to 60 95 percent confidence interval: 48.64889 61.37778 sample estimates: median of x 54 Lower Achieved CI Interpolated CI Upper Achieved CI Conf.Level L.E.pt U.E.pt 0.8906 50.0000 58.0000 0.9500 48.6489 61.3778 0.9785 48.0000 63.0000 Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 10/42 Znaménkový test (sign test) Používáme jej zejména v případě, kdy rozdělení pravděpodobnosti veličin Xj je výrazně sešikmené. T-test vyžadující normalitu náhodného výběru by v takovém případě dával zkreslené závěry. Test má poměrně malou sílu, je žádoucí mít větší rozsah n náhodného výběru. Testování pomocí statistiky U a aproximace normálním rozdělením se v praxi používá pro n > 20. Korekce nespojitosti není povinná, ale jejím použitím urychlujeme konvergenci k normálnímu rozdělení. Pokud jsou některé rozdíly Xj — Xq nulové (což má sice teoreticky nulovou pravděpodobnost, ale v praxi se stát může), pak se tyto složky náhodného výběru vynechají a test se provede jen pro zbylé rozdíly s odpovídajícím sníženým n. Vytvoříme rozdíly Xj = Zj — Y j a na nich provedeme znaménkový test. Pro párový náhodný výběr ((Yi,Zi), spojitého typu testujeme ,(Yn,Zn)) z dvourozměrného rozdělení H0 : z - y = x0 Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody Jednovýběrový Wilcoxonův test (signed-rank test) Předpokládáme, že [X\,...,Xn) je náhodný výběr z rozdělení pravděpodobnosti spojitého typu s hustotou/(x), která je symetrická kolem mediánu x, tj. platí 'x ľ00 1 P(Xj < x) = / f{x) áx I f(x) dx P(Xj > x) = -, i = 1,..., n. 00 J x 2. Chceme testovat hypotézu, že medián rozdělení pravděpodobnosti náhodného vektoru (Xi,... ,Xn) je rovný zvolenému číslu Xq £ IR Hq '. X = Xq H\ : x Xq j Předpokládáme, že žádná ze složek X\,...,Xn není rovna testovanému mediánu Xq, a označíme yz- = Xj — Xq rozdíly od testovaného mediánu. MA012 Statistika 11-3. Neparametrické metody Jednovýběrový Wilcoxonův test (signed-rank test) Veličiny Y\,...,Yn seřadíme do neklesající posloupnosti podle jejich absolutní hodnoty: (d < \y (2) <••• y,->o y,-o y,-► oo ES 0S. N(0;1) Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 15/42 Jednovýběrový Wilcoxonův test (signed-rank test) Věta 8 (Jednovýběrový Wilcoxonův (asymptotická varianta)) S+-ES+ Při použiti asymptotické statistiky U = -. zamítneme Hq, pokud U\ > Ui_0Ĺ/2, resp. pokud \ U\ > při jednostranné alternativě. Hladina významnosti testu se s rostoucím n blíží k oc, Analogicky lze využít standardizaci statistiky S na U. Párový Wilcoxonův test Pro párový náhodný výběr ((Yi,Zi),..., (Yn,Zn)) z dvourozměrného rozdělení spojitého typu vytvoříme rozdíly Xj = Zj — Yj a na nich pomocí jednovýběrového Wilcoxonova testu testujeme hypotézu o náhodné veličině X = Z — Y: Hq '. X = Xq H\ : x 7^ Xq. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 16/42 příklad 2: Wilcoxonův signed-rank test H0 : x = 60, Hi : x / 60 i 1 2 3 4 5 6 7 8 9 10 53 48 45 55 63 51 66 56 50 58 Y = Xi- 60 -7 -12 -15 -5 3 -9 6 -4 -10 -2 K 6 9 10 4 2 7 5 3 8 1 sgnYi -1 -1 -1 -1 1 -1 1 -1 -1 -1 S = - -41, SH " = 7, S~ = 48, n = 10, ^0,05(10) = 8 ES+ -- = 27,5, DS+ = 96,25, U — -2,09, "0,975 = 1,96 MA012 Statistika 11-3. Neparametrické metody 17/42 prfklad 2: Wilcoxonuv signed-rank test H0 : x = 60, Hi : x / 60 i 1 2 3 4 5 6 7 8 9 10 53 48 45 55 63 51 66 56 50 58 Y = X{- 60 -7 -12 -15 -5 3 -9 6 -4 -10 -2 K 6 9 10 4 2 7 5 3 8 1 sgnYi -1 -1 -1 -1 1 -1 1 -1 -1 -1 S = - -41, SH " = 7, S~ = 48, n = 10, ^0,05(10) = 8 ES+ -- = 27,5, DS+ = 96,25, U - -2,09, "0,975 = 1,96 wilcox.test (X, mu=60) Wilcoxon signed rank test data: X V = 7, p-value = 0.03711 alternative hypothesis: true location is not equal to 60 ___A MA012 Statistika 11-3. Neparametricke metody Jednovýběrový Wilcoxonův test (signed-rank test) Wilcoxonův signed-rank test používáme pro testování mediánu rozdělení pravděpodobnosti náhodného výběru, pocházejího ze spojitého rozdělení pravděpodobnosti s hustotou symetrickou kolem mediánu. Sledovaná náhodná veličina musí mít alespoň ordinální charakter. Wilcoxonův test předpokládá symetrii hustoty pravděpodobnosti sledované veličiny kolem mediánu. Při nesymetrii hustoty pravděpodobnosti sledované veličiny může k zamítnutí Hq dojít i tehdy, platí-li x = Xq. V případě nesymetrie hustoty kolem mediánu použijeme např. znaménkový test. Pokud jsou některé rozdíly Xj — Xq nulové (což má sice teoreticky nulovou pravděpodobnost, ale v praxi se stát může), pak se tyto složky náhodného výběru zpravidla vynechají a pořadí se počítají jen pro zbylé rozdíly. ■ Asymptotická varianta testu se obvykle používá pro n > 30. T-test je analogií pro testování střední hodnoty v normálním rozdělení pravděpodobnosti. MA012 Statistika 11-3. Neparametrické metody Příklad Příklad 3 Na celkem 13 polích stejné kvality půdy byly testovány 2 způsoby hnojení. Na 8 polích se zkoušel nový způsob A, zbývajících 5 polí bylo ošetřeno způsobem B. Tabulka uvádí výnosy pšenice (v tunách / hektar) na pokusných polích. hnojení výnosy A (5,7; 5,5; 4,3; 5,9; 5,2; 5,6; 5,8; 5,1) B (5,0; 4,5; 4,2; 5,4; 4,4) Je třeba zjistit, zda způsob hnojení má vliv na výnosy pšenice. MA012 Statistika 11-3. Neparametrické metody 19/42 Dvouvýběrový Wilcoxonův test (rank-sum test) Porovnáváme dva stochasticky nezávislé náhodné výběry (Xi,...,Xm) rozsahu m z rozdělení psti. s distribuční funkcí F(x), (Yi,...,Yn) rozsahu n z rozdělení psti. s distribuční funkcí G(y). Chceme testovat hypotézu rovnosti obou distribučních funkcí H0:F = G Oba výběry umístíme do tzv. sdruženého výběru (Zi,...,Zm+n) = (Xi,...,Xm, Y\,..., Yfi) a ten uspořádáme do neklesající posloupnosti Z(i) < Z(2) < • • • < Z(m+n). ...,Rm, resp. Rm+i, J Pořadí veličin (Xi,...,Xm), resp. (Yi,...,Yn), v takto seřazeném sdruženém výběru označíme J J Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 20/42 Dvouvýběrový Wilcoxonův test (rank-sum test) Označme 7\ a t2 součty pořadí x-ových a y-ových hodnot, m m+n i=l j=m+\ Dále spočítáme statistiky 7T , m(m + l) n(n + l) I L/i = mn-\---- — Ti, lí2 = mn-\—^—- — T2/ podle nichž se test nazývá také Mannův-Whitneyův Lí-test. Spočítejte součty 7\ + t2 a řii + lí2- _1 Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 21/42 Dvouvýběrový Wilcoxonův test (rank-sum test) Označme 7\ a t2 součty pořadí x-ových a y-ových hodnot, m Ti = t2= X] Rj- i=l ;=m+l Dále spočítáme statistiky 7 r , m(m + l) n(n + l) U\ = mn-\--^—-- — Ti, U2 = mn-\—^——- — 12, podle nichž se test nazývá také Mannův-Whitneyův lf-test. Spočítejte součty 7\ + t2 a řii + iz2 ^ ^ (m + n)(m + n + l) Ti + T2 = ^-^--S U1 + U2 = mn Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 21/42 Dvouvýběrový Wilcoxonův test (rank-sum test) Věta 9 Za platnosti Hq je ETi = m{m + n + 1) DTi = mn{m + n + l) 12 Elři = ELÍ2 2 ' DLÍ! = DLÍ2 mn{m + n + l) 12 Standardizací menší ze statistik řii, II2 obdržíme statistiku Umw< n —>► 00 min {řii, ií2} — Eřii 0S. N(0;1) Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 22/42 Dvouvýběrový Wilcoxonův test (rank-sum test) Věta 10 (Mannův-Whitneyův-Wilcoxonův test) Necht m > n. Hypotézu Hq zamítneme, pokud minjřii, ií2} < ií;a(m,n). Číslo o;a(m,tt) je tabelovaná kritická hodnota dvouvýběrového Wilcoxonova testu. Věta 11 (Mannův-Whitneyův-Wilcoxonův test (asymptotická varianta)) Při použití asymptotické statistiky 2min{řii, \l^—mn y/mn(m + n + 1) /3 zamítneme Hq, pokud \Umw\ > u1-cí/2' resP- pokud \ Umw\ > ul-oc při jednostranné alternativě. Hladina významnosti testu se s rostoucím n blíží k oc. MA012 Statistika 11-3. Neparametrické metody 23/42 příklad 3: Dvouvýběrový Wilcoxonův (rank-sum) test H0:FA = Hi: Fa^Fb 4,2 4,3 4,4 4,5 5,0 5,1 5,2 5,4 5,5 5,6 5,7 5,8 5,9 Ri pro A Rj pro B 2 1 3 4 6 5 7 9 8 10 11 12 13 Ti =70 T2 = 21 Ti = 70, Líi = 6, T2 = 21, řl2 = 34, min{řJi, Lí2} = 6, w0/05(8;5) = 6 12-40 LLmw V40 x 14/3 -2,049, u0,975 = 1,96 MA012 Statistika 11-3. Neparametrické metody 24/42 příklad 3: Dvouvýběrový Wilcoxonův (rank-sum) test H0:FA = Hi: Fa^Fb 4,2 4,3 4,4 4,5 5,0 5,1 5,2 5,4 5,5 5,6 5,7 5,8 5,9 Ri pro A Rj pro B 2 1 3 4 6 5 7 9 8 10 11 12 13 Ti =70 T2 = 21 Ti = 70, Líi = 6, T2 = 21, řl2 = 34, min{řJi, lř2} = 6, w0/05(8;5) = 6 12-40 LLmw V40 x 14/3 -2,049, u0,975 = 1,96 wilcox.test (X, Y) Wilcoxon rank sum test data: X and Y W = 34, p-value = 0.04507 alternative hypothesis: true 0 location shift is not equal to Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 24/42 Dvouvýběrový Wilcoxonův test (rank-sum test) ■ Dvouvýběrový Wilcoxonův test = Mannův-Whitneyův lf-test = Mannův-Whitneyův-Wilcoxonův test = Wilcoxon rank-sum test Test předpokládá, že dané dva náhodné výběry jsou stochasticky nezávislé, sledované veličiny mají alespoň ordinální charakter a pochází ze spojitých rozdělení pravděpodobnosti. ■ Asymptotická varianta testu se obvykle používá při m > 10, n > 10. Ačkoliv je test originálně zformulován pro obecnou alternativu nerovnosti distribučních funkcí, je dokázáno, že je citlivý zejména při testování hypotézy H0 : G{x) = F(x) Hx : G(x) = F(x - A), tj. že distribuční funkce, a tedy i mediány, se liší pouze posunutím A. Není-li splněn předpoklad, že distribuční funkce se mohou lišit pouze posunutím, používá se např. dvouvýběrový Kolmogorovův-Smirnovův test. MA012 Statistika 11-3. Neparametrické metody Van der Waerdenův test Porovnáváme dva stochasticky nezávislé náhodné výběry ■ (Xi,...,Xm) rozsahu m z rozdělení s hustotou psti./(x), ■ (Yi,...,Yn) rozsahu n z rozdělení s hustotou psti. g(x) =f(x — A). Testujeme hypotézu, že posun A je nulový, tedy že oba výběry pocháazí ze stejného rozdělení pravděpodobnosti spojitého typu, H0 : A = 0 Hi : A ^ 0. J Postupujeme stejně jako u dvouvýběrového Wilcoxonova testu. Van der Waerdenův test je založen na statistice využívající pořadí X-ového výběru, s = E*_1 i=l m + n + 1 / ' kde O 1 označuje kvantilovou funkci N(0;1) rozdělení. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 26/42 Van der Waerdenův test Věta 12 Za platnosti Hq je rozdělení pravděpodobnosti statistiky s symetrické kolem střední hodnoty ES = O a platí DS m n m+n (m + l)(m + n + 1) 1) 5 i=l n 2 m + n + 1 Pro malá m, n lze testovat pomocí tabulek kritických hodnot, pro větší rozsahy náhodných výběrů využíváme standardizaci a aproximaci normálním rozdělením. Věta 13 (Van der Waerdenův test (asymptotická varianta)) Při použití asymptotické statistiky zamítneme Hq, pokud \UW\ > Hladina významnosti testu se s rostoucím n blíží k oc, řiw — VŤ5Š Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 27/42 Mediánový test Mediánový test používáme k testování stejné hypotézy jako u Van der Waerdenova testu. Testovací statistika c ml™ ( m + n + l\ s= 2+2gsgnr——) je rovna počtu těch veličin z X-ového náhodného výběru, které jsou větší než medián sdruženého výběru; přitom pokud je m + n liché číslo a medián sdruženého výběru patří do X-ového výběru, je tento počet zvýšen o \. Mediánový test je vhodný zejména v případě cenzorovaných výběrů, kdy pro některé extrémně malé či extrémně velké hodnoty víme jen to, že jsou menší či větší než nějaká mez, ale jejich přesné hodnoty přitom neznáme. MA012 Statistika 11-3. Neparametrické metody Mediánový test Věta 14 Za platnosti Hq je rozdělení pravděpodobnosti statistiky s symetrické kolem střední hodnoty m mn ES = — a platí DS = < 4(m + n — 1) mn < 4(m + n)' , pro m + n liché, pro m + n sudé. Pro větší rozsahy náhodných výběrů využíváme standardizaci a aproximaci normálním rozdělením. Věta 15 (Mediánový test (asymptotická varianta)) Při použití asymptotické statistiky Um zamítneme Hq, pokud \UM\ > ul-ix/2-Hladina významnosti testu se s rostoucím n blíží k a. s-es y/ĎŠ Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 29/42 Jednoduché třídění: neparametrický přístup Kruskalův-Wallisův test je neparametrickou analogií analýzy rozptylu jednoduchého třídění a je zobecněním dvouvýběrového Wilcoxonova testu pro porovnání 3 a více výběrů. Místo standardní analýzy rozptylu jej používáme zejména tehdy, jde-li o výběry z rozdělení pravděpodobnosti značně se lišících od normálního. Předpoklady: ■ uvažujeme jeden faktor A s a > 2 úrovněmi, pro každou úroveň i = 1,... ,a faktoru máme náhodný výběr (Y/i,..., Yz-n ) rozsahu tij z rozdělení pravděpodobnosti s distribuční funkcí Fj(x), ■ tyto náhodné výběry jsou vzájemně stochasticky nezávislé. Testujeme hypotézu, že faktor A nemá vliv na rozdělení pravděpodobnosti sledované veličiny Y, tzn. testujeme rovnost distribučních funkcí _fío : Fi = F2 = ■ ■ ■ = Fa,_Hl:3iyé)--FirFj_J MA012 Statistika 11-3. Neparametrické metody Příklad Příklad 4 U čtyř odrůd brambor (označených symboly A, B, C, D) se zjištovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky uvádí tabulka: odrůda hmotnost (v kg) A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. MA012 Statistika 11-3. Neparametrické metody 31/42 Jednoduché třídění: neparametrický přístup Náhodné veličiny zapíšeme ve tvaru tabulky známé z analýzy rozptylu: f a ktor A veličiny 1 (Yn,..., Yini) i (y í i / • • • / y í ni) a Dále se však již postup od analýzy rozptylu liší. Všechny náhodné veličiny Yzy dohromady vytvoří tz v. sdružený náhodný výběr (Y\\,... ,Yaľla) o rozsahu a n = J^tii. i=l Ze sdruženého náhodného výběru vytvoříme uspořádaný náhodný výběr Y(1) < Y(2) < • • • < Y(B)/ Jednoduché třídění: neparametrický přístup Jednotlivá (průměrná) poradiv uspořádaném sdružené výběru zapíšeme do tabulky spolu s řádkovými rozsahy a řádkovými součty pořadí Tli Z l y • • • y ď • Přitom platí faktor A pořadí rozsah pořadí 1 {R\i,. ..,Rini) Ti i (Rii,...,Rini) n{ Ti a na Ta celkem n n(n+l) 2 a i=l n(n +1) MA012 Statistika 11-3. Neparametrické metody Jednoduché třídění: Kruskalův-Wallisův test Kruskalův-Wallisův test je založen na testovací statistice 12 a T? n(n + 1) f-{ ni v ' Věta 16 Strední hodnota testovací statistiky je rovna EQ = a — 1. Věta 17 (Kruskalův-Wallisův test) Hypotézu Hq zamítneme, pokud Q>h*(a-1). Za platnosti Hq má statistika Q asymptoticky x1-rozdělenípravděpodobnosti, n ^oo Q-^2(a-l), a fta(a - 1) w ^_a(« - 1). Číslo /za(fl — 1) je tabelovaná kritická hodnota testu, pro velká n ji aproximujeme kvantily X2(a ~ l)-rozdělení pravděpodobnosti. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 3. Neparametrické metody 34/42 Jednoduché třídění: Kruskalův-Wallisův test Pokud je v souboru více než 25 % shod, obvykle se k testování používá místo statistiky Q její korigovaná varianta q Lmk(ml-1) Qk = 77/ K = 1--—~-——, K n{nz — 1) kde sčítací index k prochází všemi skupinami veličin majících stejnou hodnotu a nik označuje počet shodných pozorování v k-té skupině. MA012 Statistika 11-3. Neparametrické metody příklad 4: Kruskalův-Wallisův test i hmotnost Y;y pořadí Ríj n{ T- 1 0,9 0,8 0,6 0,9 3,5 2,0 1,0 3,5 4 10 2 1,3 1,0 1,3 11 5,5 11 3 27,5 3 1,3 1,5 1,6 1,1 1,5 11 13,5 15 7,5 13,5 5 60,5 4 1,1 1,2 1,0 7,5 9,0 5,5 3 22 E 15 120 Q = 10,523, Qk = 10,676 > 495(3) = 7,815, zamítáme tedy hypotézu o rovnosti distribučních funkcí (oc = 0,05). library (agricolae) KWtest <- with (tabulka, kruskal (hmotnost, odrůda)) KWtest Mtest <- with (tabulka, Median.test (hmotnost, odrůda)) Mtest MA012 Statistika 11-3. Neparametrické metody 36/42 příklad 4: Kruskalův-Wallisův test $ stat i st i cs Chi sq p.chi sq 10.67585 0.01361427 $parameters Df ntr t.value 3 4 2.200985 $ rankMeans odrůda hmotnost r 1 A 2.500000 4 2 B 9.166667 3 3 C 12.100000 5 4 D 7.333333 3 $ groups trt 1 C 2 B 3 D 4 A means M 12.100000 a 9.166667 ab 7.333333 b 2.500000 c co CM CO o c -1—> o E 00 o CD O odrůda Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody příklad 4: Mediánový test $ stat i st i cs Chisq p.chisq Median 6.428571 0.09252244 1.1 $parameters Df ntr 3 4 $Medians trt Median grather le s sEqual 1 A 0.85 0 4 2 B 1 .30 2 1 3 C 1 .50 4 1 4 D 1 . 10 1 2 $ compari son Median Chisq pvalue sig A and B 0 .90 7. 0000000 0 .008150972 * * A and C 1 . 10 5 . 7600000 0 .016395072 * A and D 0 .90 7. 0000000 0 .008150972 * * B and C 1 .30 2 . 8800000 0 .089686022 • B and D 1 . 15 0. 6666667 0 .414216178 C and D 1 . 25 4. 8000000 0 . 028459737 * Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody Kruskalův-Wallisův test: mnohonásobné porovnávání Pokud hypotézu Hq zamítneme, je třeba rozhodnout, které dvojice dvojice výběrů podle úrovně faktoru A, tedy které dvojice distribučních funkcí Fj, Fy, se od sebe významně liší. Dvojice výběrů pro úrovně faktoru A = i a A = j se významně liší, pokud 11 T _ tl ni -(- + 1) II + I ,*.(«_!) Tli Při vyváženém třídění, kdy tij = p pro z = 1,...,0 a n = ap, se z důvodu větší citlivost dává přednost tzv. Neményiově metodě založené na Tukeyově myšlence v analýze rozptylu. Dvojice výběrů se významně liší, pokud \Tj — Tj\ překročí příslušnou tabelovanou kritickou hodnotu. MA012 Statistika 11-3. Neparametrické metody Jednoduché třídění: mediánový test Mediánový test pro jednoduché třídění je založen na testovací statistice kde veličina Aj, i = 1,... ,a, je rovna počtu veličin z-tého výběru (Y/i,..Yzn.) větších než medián Y sdruženého výběru. Navíc, pokud je celkový rozsah n lichý, zvětší se o | to Aj, pro nějž medián Y sdruženého výběru patří do z-tého výběru (Y/i,..Yzn). Věta 18 (Mediánový test) Při min {ni,..., na} —> co hypotézu Hq zamítneme, pokud Qm > xl-Ai-1)- Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-3. Neparametrické metody 40/42 Mediánový test: Neményiova metoda V případě vyváženého třídění lze při zamítnutí hypotézy Hq mediánový test doplnit Neményiovou metodou mnohonásobného porovnávání. Zavedeme indikátorové náhodné veličiny = { t]' > ~ a označíme Zim = - Y]Zr;. 0, Yij