10 Asymptotické neparametrické testy - vzorce, aneb co se do cvičení nevešlo (ani v předchozích letech) 10.1 Wilcoxonův jednovýběrový asymptotický test Pro náhodné výběry o rozsazích n > 30 máme možnost použít k otestování nulové hypotézy asymptotickou variantu testu. Tuto variantu nazýváme Wilcoxonův jednovýběrový asymptotický test o mediánu x. Testovací statistika asymptotického testu má tvar o _ m(m+l) SA = ,E (10.1) m(m+l)(2m+l) 24 kde Se je statistika Wilcoxonova jednovýběrového exaktního testu a m je počet nenulových rozdílů Xi — xq. Za platnosti nulové hypotézy pochází statistika S a ze standardizovaného normálního rozdělení, tj. S p m(m+l) SA = ~" 4 = ~° N(0,1). ' m(m+í)(2m+í) 24 Kritický obor podle zvolené alternativní hypotézy má tvar H n :ž^í0 W = (-oo ; ua/2) U («i_„/2 ; oo) H12 : x, > x0 W = ; oo) His : x < x0 W = (—oo ; ua) kde ua/2, Ui-a/2, ua, «i-a jsou kvantily standardizovaného normálního rozdělení, jejichž hodnoty získáme pomocí 'Síta implementované funkce qnorm(). Interval spolehlivosti má podle zvolené alternativní hypotézy jeden z následujících tvarů Hn:x^ x0 (d, h) = (V^-^ ; V^G"/^) if 12 : í > x0 (d, oo) = (l/(ci--) ; oo) H13 : í < x0 (-oo, h) = (-oo ; V^Ca)) t i ^ m(m+l) m(m+l)(2m+l) ^ m(m+l) m(m+l)(2m+l) ^ m(m+l) kde Oi_„/2 — -4--Ui_a/2y -Ol-, Oa/2 — -J--Ua/2y -Ol-, Oi_„ — --g-- ui_a^/m{m+1^^±^, Ca = - ua^/m{m+1^2m'±^, < ••• < ^(^r12) značí posloupnost vzestupně seřazených T"(™+1) Walshových průměrů (Xl+X^ ; i = 1,...,™, j = l,...,m, j < i a V^k\ značí fc-tý seřazený Walshův průměr. Posloupnost Walshových průměrů získáme příkazem owa z knihovny NSM3. p-hodnota má v závislosti na zvolené alternativní hypotéze jeden z následujících tvarů Hu : ž ^ í0 p-hodnota = 2min{Pr(5/i < sa) , Pr(SA > sa)} = 2min(pnorm(sA), 1 - pnorm(sA)) 7íi2 : x, > xq p-hodnota = Pr(5^ > sa) = 1 - pnorm(sA) His : x, < xq p-hodnota = Pr(5^ < sa) = pnorm(sA) kde S a je náhodná veličina, s a je realizace testovací statistiky S a (viz vzorec 10.1), tedy konkrétní číslo, a Pr(5U < sa) je distribuční funkce standardizovaného normálního rozdělení, jejíž hodnotu získáme pomocí <5íta implementované funkce pnormQ. 1 10.2 Znaménkový jednovýběrový asymptotický test Pro náhodný výběr o rozsahu n > 30 máme možnost použít k otestování nulové hypotézy asymptotickou variantu testu. Tuto variantu nazýváme znaménkovým jedno výběrovým asymptotickým testem. Testovací statistika asymptotického variantu testu má tvar (10.2) kde Se je testovací statistika znaménkového jednovýběrového exaktního testu a m je počet nenulových rozdílů Xi — xq. Za platnosti nulové hypotézy pochází statistika S a ze standardizovaného normálního rozdělení, tj. SA = £° N(0,1). (10.3) V 4 Kritický obor podle zvolené alternativní hypotézy má tvar H n :ž^í0 W = (-oo ; ua/2) U («i_„/2 ; oo) H12 : í > x0 W = (mi_„ ; oo) íři3 : x < Xq W = (—oo ; ua) kde ua/2, Ui-a/2, ua, «i-a jsou kvantily standardizovaného normálního rozdělení, jejichž hodnoty získáme pomocí <5Ěía implementované funkce qnorm(). Interval spolehlivosti má podle zvolené alternativní hypotézy jeden z následujících tvarů Hn:x^ x0 (d, h) = (X^-^ ■ x("+1-Cl—/2)) HV2:x> x0 (d, oo) = [X^1-^ ; oo) Hi3:x sa)} = 2min(pnorm(sA), 1 - pnorm(sA)) Hi2 : x, > xq p-hodnota = Pr(5^ > sa) = 1 - pnorm(sA) His : x, < xq p-hodnota = Pr(5^ < sa) = pnorm(sA) kde Sa je náhodná veličina, sa je realizace testovací statistiky Sa (viz vzorec 10.2), tedy konkrétní číslo, Pr(5^ > s a) = 1 — Pr(5U < s a) = 1 — Pr(5U < s a), což vyplývá z faktu, že náhodná veličina S a pochází z normálního (spojitého) rozdělení (viz kapitola ??), a Pr(5^ < s a) je distribuční funkce standardizovaného normálního rozdělení, jejíž hodnotu získáme pomocí 'Síta implementované funkce pnorm(). Poznámka: Všimněme si, že ve vzorcích intervalu spolehlivosti figuruje rozsah náhodného výběru n, zatímco ve vzorcích testovací statistiky a hranic kritického oboru pracujeme s počtem nenulových rozdílů m. 2 10.3 Znaménkový párový test Nechť (Xi, Yi)T ... (Xn, Yn)T je náhodný výběr z libovolného (ne nutně normálního) dvourozměrného rozdělení Nechť dále Z\,..., Zn, n > 2 je náhodný výběr rozdílů X — Y, tj. Z = (Z\,..., Zn)T, kde Z{ = X{ — Y{, i = 1,..., n, a nechť tento náhodný výběr pochází z libovolného spojitého rozdělení. Konečně, nechť žq je konstanta. Na hladině významnosti a testujeme jednu z následujících tří hypotéz oproti příslušné alternativní hypotéze. kde ž je medián rozdílů Z\,..., Zn a žq je konstanta, jejíž hodnotu nejčastěji volíme jako žq = 0. Tato volba odpovídá hypotéze, že rozdíl mezi mediány náhodných veličin X a Y neexistuje (resp. hypotéze, že medián náhodné veličiny X je menší, resp. větší, než medián náhodné veličiny Y). Vzhledem k tomu, že jde finálně o situaci, kdy medián z porovnáváme s konstantou žoj testujeme hypotézy o rozdílu mediánů X — Y pomocí exaktní nebo asymptotické varianty znaménkového jednovýběrového testu, analogicky jako je uvedeno v sekcích ?? a 10.2. Výše popsaný test, v rámci kterého převádíme problém porovnávání mediánů dvou náhodných veličin X a Y na problém srovnávání mediánu jejich rozdílů Z s konstantou Žq = 0 a následně jej řešíme pomocí exaktní resp. asymptotické varianty znaménkového jednovýběrového testu, nazýváme znaménkový párový test. H01 : ž = ž0 H02 : ž < ž0 H03 : z > ž0 oproti oproti oproti Hu : ž ^ Žq (oboustranná alt.) Hi2 : ž > Žq (pravostranná alt.) His : ž < Žq (levostranná alt.) 3 10.4 Wilcoxonův dvouvýběrový test (Mannův-Whitneyův U test) — asymptotická varianta Pro náhodné výběry o rozsazích ri\ > 30 a ni > 30 máme možnost použít k otestování nulové hypotézy asymptotickou variantu Wilcoxonova dvouvýběrového testu (resp. Mannová-Whitneyova U testu). Testovací statistika O _ 711712 SA = ,E 2 (10.4) '711712("l+"2 + l) 12 kde Se je testovací statistika definovaná vztahem ??, n\ je rozsah prvního náhodného výběru, ni je rozsah druhého náhodného výběru. Za platnosti nulové hypotézy pochází statistika U a ze standardizovaného normálního rozdělení, tj- Q _ n\Ti'2, S a = e 2 -- ~° N(0,1). / 711712("l+"2 + l) 12 Kritický obor podle zvolené alternativní hypotézy má tvar Hn :xi-x2^x0 W = (-oo ; ua/2) U («i_a/2 ; oo) Hn : xi - xi > x0 W = (tii_a ; oo) íři3 : X\ — Xi < Xq W = (—oo ; ua) kde ua/i, Ui_a/i, ua, jsou kvantily standardizovaného normálního rozdělení, jejichž hodnoty získáme pomocí 'Síta implementované funkce qnorm(). Interval spolehlivosti má podle zvolené alternativní hypotézy jeden z následujících tvarů Hn :xi-x2^x0 (d, h) = (f/(ci—n) ; [/(™i™2+i-c1_a/2)) Hn : íi - x-i > x0 (d, oo) = ([/(ci-=) ; oo) H13 :xi-x2 sa)} = 2min(pnorm(sA), 1 - pnorm(sA)) Hn : í\ — íl > xq p-hodnota = Pr(5U > sa) = 1 — Pr(5U < sa) = 1 - pnorm(sA) His : í\ — íl < xq p-hodnota = Pr(5U < sa) = pnorm(sA) kde S a je náhodná veličina, s a je realizace testovací statistiky S a (viz vzorec 10.4), tedy konkrétní číslo, a Pr(5U < sa) je distribuční funkce standardizovaného normálního rozdělení, jejíž hodnotu získáme pomocí Qťa implementované funkce pnorm(). 4