Cvičení 8 – neparametrické testy o mediánech Přehled vzorců pro jednovýběrové testy Popis situace: X1, …, Xn je náhodný výběr ze spojitého rozložení s mediánem x0,50. Na hladině významnosti α testujeme H0: x0,50 = c proti H1: x0,50 ≠ c. Utvoříme rozdíly Yi = Xi – c, i = 1, ..., n. Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot. Postup při párovém testu: přejdeme k rozdílovému náhodnému výběru. Znaménkový test: Zavedeme statistiku SZ + , která udává počet těch rozdílů, které jsou kladné. Kritický obor: n,kk,0W 21 ∪= . Pro n = 6, 7, …, 20 a α = 0,05 či 0,01 jsou tabelované kritické hodnoty k1, k2. Asymptotická varianta testu: Lze použít pro n > 20. Platí-li H0, pak ( ) ( ) 4 n 2 n Z Z ZZ 0 S SD SES U − = − = + + ++ ≈ N(0,1). Kritický obor: W = ( )∞∪−∞− α−α− ,uu, 2/12/1 . Jednovýběrový Wilcoxonův test: Absolutní hodnoty │Yi│uspořádáme vzestupně a spočteme pořadí Ri. Statistika ∑ > ++ = 0Y iW i RS je součet pořadí přes kladné hodnoty Yi, statistika ∑ < −− = 0Y iW i RS je součet pořadí přes záporné hodnoty Yi. Přitom platí, že SW + + SW = n(n+1)/2. Testová statistika = min(SW + , SW ). Kritický obor: k,0W = . Pro n = 6, 7, …, 30 a α = 0,05 či 0,01 jsou tabelované kritické hodnoty k. Asymptotická varianta testu: Lze použít pro n ≥ 30. Platí-li H0, pak ( ) ( ) 24 )1n2)(1n(n 4 )1n(n W W WW 0 S SD SES U ++ ++ + ++ − = − = ≈ N(0,1). Krit. obor: W = ( )∞∪−∞− α−α− ,uu, 2/12/1 . ---------------------------------------------------------------------------------------------------------------- Dvouvýběrový Wilcoxonův test: X1, ..., Xn a Y1, ..., Ym jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení s mediány x0,50 a y0,50. Distribuční funkce se mohou lišit pouze posunutím. Testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné neboli mediány jsou shodné proti alternativě, že jsou rozdílné. Všech n + m hodnot X1, ..., Xn a Y1, ..., Ym uspořádáme vzestupně podle velikosti. Součet pořadí hodnot 1. výběru označíme T1. Součet pořadí hodnot 2. výběru označíme T2. Vypočteme statistiky U1 = mn + n(n+1)/2 – T1 ,U2 = mn + m(m+1)/2 - T2. Platí U1 + U2 = mn. Testová statistika = min(U1,U2), kritický obor k,0W = Kritické hodnoty k jsou tabelované pro n = 1, …, 20, m = 1, …, 30, α. = 0,05. Značení: n = min{m,n} a m = max{m,n}. Asymptotická varianta testu: Lze použít pro n, m > 20. Platí-li H0, pak 12 )1nm(mn 2 mn 1 0 U U ++ − = ≈ N(0,1). Kritický obor: W = ( )∞∪−∞− α−α− ,uu, 2/12/1 . ---------------------------------------------------------------------------------------------------------------- Kruskalův–Wallisův test: Máme r ≥ 3 nezávislých náhodných výběrů o rozsazích n1, ... , nr. Pocházejí ze spojitých rozložení. Označme n = n1 + ... + nr. Chceme testovat hypotézu, že všechny tyto výběry pocházejí z téhož rozložení. Všech n hodnot seřadíme do rostoucí posloupnosti a určíme pořadí každé hodnoty. Označme Tj součet pořadí hodnot z j-tého výběru, j = 1, ..., r (platí T1 + ... + Tr = n(n+1)/2). Platí-li H0, pak ∑ = +− + = r 1j j 2 j )1n(3 n T )1n(n 12 Q ≈ χ2 (r-1). Kritický obor: ( ) )∞−χ= α− ,1rW 1 2 . ---------------------------------------------------------------------------------------------------------------- Metody mnohonásobného porovnávání Zamítneme-li hypotézu, že všechny náhodné výběry pocházejí z téhož rozložení, zajímá nás, které dvojice náhodných výběrů se liší na zvolené hladině významnosti. Testujeme H0: k-tý a l-tý náhodný výběr pocházejí z téhož rozložení, k, l = 1, .., r, k ≠ l proti H1: aspoň jedna dvojice výběrů pochází z různých rozložení. Neményiho metoda: Všechny výběry mají týž rozsah p (třídění je vyvážené). - Vypočteme │Tl - Tk│. - V tabulkách najdeme kritickou hodnotu (pro dané p, r, α ). - Pokud│Tl - Tk│≥ tabelovaná kritická hodnota, pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložení. Obecná metoda mnohonásobného porovnávání - Vypočteme k k l l n T n T − . - Ve speciálních statistických tabulkách najdeme kritickou hodnotu hKW(α ). Při větších rozsazích výběrů je možno ji nahradit kvantilem χ1-α 2 (r-1). - Jestliže )(h)1n(n n 1 n 1 12 1 n T n T KW klk k l l α+      +≥− , pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložení. ---------------------------------------------------------------------------------------------------------------- Příklad 1.: Jsou naměřeny hodnoty 17, 23, 11, 20, 18, 32, 30, 24, 26, 17. Vypočtěte medián těchto 10 hodnot a na hladině významnosti 0,05 ověřte a) znaménkovým, b) jednovýběrovým Wilcoxonovým testem hypotézu, že odchylka vypočteného mediánu od hodnoty 17 je způsobena pouze náhodnými vlivy. Příklad 2.: Skupina 11 studentů absolvovala paměťový test před a po speciálním tréninku paměti. Doby řešení testu před a po (v s): (87, 50), (61, 45), (98, 79), (90, 90), (93, 88), (74, 65), (83, 52), (72, 79), (81, 84), (75, 61), (83, 52). Na hladině významnosti 0,05 testujte hypotézu, že trénink neměl na výkony studentů žádný vliv. Použijte: a) párový t-test, b) párový Wilcoxonův test, c) párový znaménkový test. Příklad 3.: Výkon 18 gymnastek byl ohodnocen stanovením jejich pořadí od nejlepší (pořadí 1) po nejslabší (pořadí 18). V hodnocené skupině bylo 11 žákyň trenérky A a 7 žákyň trenérky B. V tabulce je uvedeno pořadí žákyň obou trenérek: A 1 4 5 7 8 10 11 13 14 16 17 B 2 3 6 9 12 15 18 Na hladině významnosti 0,05 testujte hypotézu, že výukové metody obou trenérek jsou stejně účinné proti oboustranné alternativě. Příklad 4.: (viz př. 9.6.3. ze skript) Výrobce koláčů v prášku má 4 nové recepty a chce zjistit, zda se jejich kvalita liší. Upekl proto 5 koláčů z každého druhu a dal je porotě k ohodnocení. recept A: 72 88 70 87 71, recept B: 85 89 86 82 88, recept C: 94 94 88 87 89, recept D: 91 93 92 95 94. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že recepty se neliší. V případě zamítnutí nulové hypotézy zjistěte, které dvojice receptů se liší na asymptotické hladině významnosti 0,05.