1. Analýza rozptylu jednoduchého třídění (ANOVA) 1.1. Označení 1.2. Testování hypotézy o shodě středních hodnot 1.3. Testování hypotézy o shodě rozptylů 1.4. Metody mnohonásobného porovnávání 1.5. Doporučený postup při ANOVĚ 1.6. Příklad 1.7. Význam předpokladů v ANOVĚ 2. Neparametrické obdoby t-testů a ANOVY 2.1. Přehled parametrických a neparametrických testů 2.2. Pojem pořadí a průměrného pořadí 2.3. Jednovýběrový a párový Wilcoxonův test a jeho asymptotická varianta 2.4. Dvouvýběrový Wilcoxonův test a jeho asymptotická varianta 2.5. Kruskalův – Wallisův test 2.6. Mediánový test 2.7. Metody mnohonásobného porovnávání 2.8. Příklad na K-W test a mediánový test 1. Analýza rozptylu jednoduchého třídění (ANOVA) Motivace: Zajímáme se o problém, zda lze určitým faktorem (tj. nominální náhodnou veličinou A) vysvětlit variabilitu pozorovaných hodnot náhodné veličiny X, která je intervalového či poměrového typu. Např. zkoumáme, zda metoda výuky určitého předmětu (faktor A) ovlivňuje počet bodů dosažených studenty v závěrečném testu (náhodná veličina X). Předpokládáme, že faktor A má r ≥ 3 úrovní a přitom i-té úrovni odpovídá ni pozorování iin1i X,,X K , které tvoří náhodný výběr z rozložení N(µi, σ2 ), i = 1, ..., r a jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy Xij = µi + εij, kde εij jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, σ2 ), i = 1, …, r, j = 1, …, ni. Výsledky lze zapsat do tabulky faktor A výsledky úroveň 1 1n111 X,,X K úroveň 2 2n221 X,,X K … … úroveň r rrn1r X,,X K Ilustrace: Na hladině významnosti α testujeme nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné, tj. H0: µ1 = … = µr proti alternativní hypotéze H1, která tvrdí, že aspoň jedna dvojice středních hodnot se liší. Jedná se tedy o zobecnění dvouvýběrového t-testu a na první pohled se zdá, že stačí utvořit       2 r dvojic náhodných výběrů a na každou dvojici aplikovat dvouvýběrový t-test. Hypotézu o shodě všech středních hodnot bychom pak zamítli, pokud aspoň v jednom případě z       2 r porovnávání se prokáže odlišnost středních hodnot. Odtud je vidět, že k neoprávněnému zamítnutí nulové hypotézy (tj. k chybě 1. druhu) může dojít s pravděpodobností větší než α. Proto ve 30. letech 20. století vytvořil R. A. Fisher metodu ANOVA (analýza rozptylu, v popsané situaci konkrétně analýza rozptylu jednoduchého třídění), která uvedenou podmínku splňuje. Pokud na hladině významnosti α zamítneme nulovou hypotézu, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. 1.1. Označení: V analýze rozptylu jednoduchého třídění se používá tzv. tečková notace. ∑= = r 1i inn … celkový rozsah všech r výběrů ∑= = in 1j ij.i XX … součet hodnot v i-tém výběru .i i .i X n 1 M = … výběrový průměr v i-tém výběru ∑∑= = = r 1i n 1j ij.. i XX … součet hodnot všech výběrů .... X n 1 M = … celkový průměr všech r výběrů Zavedeme součty čtverců ( )∑∑= = −= r 1i n 1j 2 ..ijT i MXS … celkový součet čtverců (charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru), počet stupňů volnosti fT = n – 1, ( )∑= −= r 1i 2 ...iiA MMnS … skupinový součet čtverců (charakterizuje variabilitu mezi jednotlivými náhodnými výběry), počet stupňů volnosti fA = r – 1. ( )∑∑= = −= r 1i n 1j 2 .iijE i MXS … reziduální součet čtverců (charakterizuje variabilitu uvnitř jednotlivých výběrů), počet stupňů volnosti fE = n - r. Lze dokázat, že ST = SA + SE. 1.2.Testování hypotézy o shodě středních hodnot Náhodné veličiny Xij se řídí modelem M0: Xij = µ + αi + εij pro i = 1, …, r, j = 1, …, ni , přičemž εij jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, σ2 ), µ je společná část střední hodnoty závisle proměnné veličiny, αi je efekt faktoru A na úrovni i. Parametry µ, αi neznáme. Požadujeme, aby platila tzv. reparametrizační rovnice: 0n r 1i ii =α∑= . (Pokud je třídění vyvážené, tj. pokud mají všechny výběry stejný rozsah: n1 = n2 = … = nr, pak lze použít zjednodušenou podmínku 0 r 1i i =α∑= .) Kdyby nezáleželo na faktoru A, platila by hypotéza α1 = … = αr = 0 a dostali bychom model M1: Xij = µ + εij. Během analýzy rozptylu tedy zkoumáme, zda výběrové průměry M1, …, Mr se od sebe liší pouze v mezích náhodného kolísání kolem celkového průměru M nebo zda se projevuje vliv faktoru A. Rozdíl mezi modely M0 a M1 ověřujeme pomocí testové statistiky EE AA A f/S f/S F = , která se řídí rozložením F(r-1,n-r), je-li model M1 správný. Hypotézu o nevýznamnosti faktoru A tedy zamítneme na hladině významnosti α, když platí: FA ≥ F1-α(r-1,n-r). Výsledky výpočtů zapisujeme do tabulky analýzy rozptylu jednoduchého třídění. Zdroj variability součet čtverců stupně volnosti podíl FA skupiny SA fA = r - 1 SA/fA EE AA fS fS reziduální SE fE = n - r SE/fE celkový ST fT = n - 1 - Sílu závislosti náhodné veličiny X na faktoru A můžeme měřit pomocí poměru determinace: T A2 S S P = . Nabývá hodnot z intervalu 1,0 . 1.3. Testování hypotézy o shodě rozptylů Před provedením analýzy rozptylu je zapotřebí ověřit předpoklad o shodě rozptylů v daných r výběrech. a) Levenův test: Položme .iijij MXZ −= . Označíme ( ) ( )∑ ∑∑ ∑∑ ∑ = = = = = = −= −= = = r 1i 2 ZZiiZA r 1i n 1j 2 ZiijZE r 1i n 1j ijZ n 1j ij i Zi MMnS ,MZS ,Z n 1 M ,Z n 1 M i i i Platí-li hypotéza o shodě rozptylů, pak statistika ( ) ( )rnS 1rS F ZE ZA ZA − − = ≈ F(r-1, n-r). Hypotézu o shodě rozptylů tedy zamítáme na asymptotické hladině významnosti α, když FZA ≥ F1-α(r-1, n-r). (Levenův test je vlastně založen na analýze rozptylu absolutních hodnot centrovaných pozorování. Vzhledem k tomu, že náhodné veličiny Xij – Mi nejsou stochasticky nezávislé a absolutní hodnoty těchto veličin nemají normální rozložení, je Levenův test pouze aproximativní.) b) Brownův – Forsytheův test je modifikací Levenova testu. Modifikace spočívá v tom, že místo výběrového průměru i-tého výběru se při výpočtu veličiny ijZ používá medián i-tého výběru. c) Bartlettův test: Platí-li hypotéza o shodě rozptylů a rozsahy všech výběrů jsou větší než 6, pak statistika ( ) ( )       −−−= ∑= r 1i 2 ii 2 * Sln1nSlnrn C 1 B se asymptoticky řídí rozložením ( )1r2 −χ . Přitom konstanta ( )       − − −− += ∑= r 1i i rn 1 1n 1 1r3 1 1C a S* 2 je vážený průměr výběrových rozptylů. H0 zamítáme na asymptotické hladině významnosti α, když Bse realizuje v kritickém oboru ( ) )∞−χ= α− ,1rW 1 2 . 1.4. Post – hoc metody mnohonásobného porovnávání Zamítneme-li na hladině významnosti α hypotézu o shodě středních hodnot, chceme zjistit, které dvojice středních hodnot se liší na dané hladině významnosti α, tj. na hladině významnosti α testujeme H0: µl = µk proti H1: µl ≠ µk pro všechna l, k = 1, .., r, l ≠ k. a) Mají-li všechny výběry týž rozsah p (říkáme, že třídění je vyvážené), použijeme Tukeyovu metodu. Testová statistika má tvar p S MM * .l.k − . Rovnost středních hodnot µk a µl zamítneme na hladině významnosti α, když ( )rn,rq p S MM 1 * .l.k −≥ − α− , kde hodnoty q1-α(r, n-r) jsou kvantily studentizovaného rozpětí a najdeme je ve statistických tabulkách. (Studentizované rozpětí je náhodná veličina ( ) ( ) s XX Q 1n − = .) Existuje modifikace Tukeyovy metody pro nestejné rozsahy výběrů, nazývá se Tukeyova HSD metoda. V tomto případě má testová statistika tvar       + − lk * .l.k n 1 n 1 2 1 S MM . Rovnost středních hodnot µk a µl zamítneme na hladině významnosti α, když ( )rn,rq n 1 n 1 2 1 S MM 1 lk * .l.k −≥       + − α− . b) Nemají-li všechny výběry stejný rozsah, použijeme Scheffého metodu: rovnost středních hodnot µk a µl zamítneme na hladině významnosti α, když ( ) ( )rn,1rF n 1 n 1 1rSMM 1 lk *.l.k −−      +−≥− α− . Výhodou Scheffého testu je, že k jeho provedení nepotřebujeme speciální statistické tabulky s hodnotami kvantilů studentizovaného rozpětí, ale stačí běžné statistické tabulky s kvantily Fisherova – Snedecorova rozložení. V případě vyváženého třídění, kdy lze aplikovat Tukeyovu i Scheffého metodu, použijeme tu, která je citlivější. Tukeyova metoda tedy bude výhodnější, když q1-α 2 (r, n-r) < 2(r-1)F1-α(r-1, n-r). Metody mnohonásobného porovnávání mají obecně menší sílu než ANOVA. Může nastat situace, kdy při zamítnutí H0 nenajdeme metodami mnohonásobného porovnávání významný rozdíl u žádné dvojice středních hodnot. K tomu dochází zvláště tehdy, když p-hodnota pro ANOVU je jen o málo nižší než zvolená hladina významnosti. Pak slabší test patřící do skupiny metod mnohonásobného porovnávání nemusí odhalit žádný rozdíl. 1.5. Doporučený postup při provádění analýzy rozptylu: a) Ověření normality daných r náhodných výběrů (grafické metody - NP plot, Q-Q plot, histogram, testy hypotéz o normálním rozložení - Lilieforsova varianta Kolmogorovova – Smirnovova testu nebo Shapirův – Wilkův test). Doporučuje se kombinace obou způsobů. Závěry učiníme až na základě posouzení obou výsledků. Obecně lze říci, že analýza rozptylu není příliš citlivá na porušení předpokladu normality, zvláště při větších rozsazích výběrů (nad 20), což je důsledek působení centrální limitní věty. Mírné porušení normality tedy není na závadu, při větším porušení použijeme např. Kruskalův – Wallisův test jako neparametrickou obdobu analýzy rozptylu jednoduchého třídění. b) Po ověření normality se testuje homogenitu rozptylů, tj. předpoklad, že všechny náhodné výběry pocházejí z normálních rozložení s týmž rozpylem. Graficky ověřujeme shodu rozptylů pomocí krabicových diagramů, kdy sledujeme, zda je šířka krabic stejná. Numericky testujeme homogenitu rozptylů pomocí Levenova testu, Brownova – Forsytheova testu (oba jsou implementovány ve STATISTICE, Brownův – Forsytheův test v MINITABu) či Bartlettova testu (je k dispozici v MINITABu). Slabé porušení homogenity rozptylů nevadí, při větším se doporučuje mediánový test. c) Pokud jsou splněny předpoklady normality a homogenity rozptylů, můžeme přistoupit k testování shody středních hodnot. Předtím je samozřejmě vhodné vypočítat průměry a směrodatné odchylky či rozptyly v jednotlivých skupinách. d) Dojde-li na zvolené hladině významnosti k zamítnutí hypotézy o shodě středních hodnot, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží post-hoc metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. 1.6. Příklad: Máme k dispozici údaje o porodní hmotnosti 98 novorozenců. Kromě porodní hmotnosti je také uveden počet starších sourozenců. Má varianty 0, 1, 2 a víc. Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota porodní hmotnosti nezávisí na počtu starších sourozenců. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice variant počtu starších sourozenců se liší na hladině významnosti 0,05. Řešení pomocí systému STATISTICA Otevřeme datový soubor porodni_hmotnost_sourozenci.sta o dvou proměnných X a ID a 98 případech. V proměnné X jsou uloženy zjištěné hmotnosti, v proměnné ID kódy pro počty starších sourozenců (0 pro prvorozené dítě, 1 pro druhorozené dítě, 2 pro dítě se dvěma a více staršími sourozenci). Ověříme normalitu daných tří náhodných výběrů pomocí N-P plotu a S-W testu: Normální p-graf z X; kategorizovaný ID porodni_hmotnost_sourozenci.sta 2v*98c Pozorovaný kvantil Oček.normál.hodnoty ID: zadny 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 ID: jeden 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 ID: dva a více 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 ID: zadny X: SW-W = 0,9562; p = 0,0818 ID: jeden X: SW-W = 0,953; p = 0,1304 ID: dva a více X: SW-W = 0,891; p = 0,0578 Hypotézu o normalitě nezamítáme na hladině významnosti pro žádnou skupinu novorozenců. Vypočteme výběrové průměry a výběrové směrodatné odchylky: Statistiky – Základní statistiky a tabulky – Rozklad & jednofakt. ANOVA – OK – Proměnné – Závislé – X, Grupovací - ID – OK – Skupiny tabulek - Výpočet. Rozkladová tabulka popisných statistik (porodni_hmotnost_sourozenci.sta) N=98 (V seznamu záv. prom. nejsou ChD) ID X průměr X N X Sm.odch. zadny 3346,087 46 515,9650 jeden 3170,000 36 573,4258 dva a více 2624,375 16 537,5744 Vš.skup. 3163,571 98 592,1205 Nyní ověříme předpoklad shody rozptylů. Aktivujeme Statistiky dle skupin – vybereme záložku Jednotlivé tabulky – OK – vybereme záložku ANOVA & testy Levenův test – Výpočet. Leveneův test homogenity rozpylů (porodni_hmotnost_sourozenci.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p X 107852,4 2 53926,22 8996979 95 94705,04 0,569412 0,567777 Vidíme, že p-hodnota Levenova testu je 0,5678, tedy větší než hladina významnosti 0,05. Hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05. Přistoupíme k testu hypotézy o shodě středních hodnot. Aktivujeme Statistiky dle skupin - Analýza rozptylu – Výpočet. Analýza rozptylu (porodni_hmotnost_sourozenci.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p X 6185561 2 3092780 27823289 95 292876,7 10,56001 0,000072 Jelikož p-hodnota = 0,000072 je menší než hladina významnosti 0,05, hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Výpočet doplníme krabicovými diagramy: Na záložce Základní výsledky vybereme Kategorizovaný krabicový graf Kategoriz. krabicový graf: X: porodni hmotnost Průměr Průměr±SmCh Průměr±1,96*SmCh zadny jeden dva a více ID 2200 2400 2600 2800 3000 3200 3400 3600 X Nyní aplikujeme Scheffého metodu mnohonásobného porovnávání, abychom zjistili, které dvojice variant počtu starších sourozenců se liší na hladině významnosti 0,05. Na záložce Post – hoc zvolíme Schefféův test. Scheffeho test; proměn.:X (porodni_hmotnost_sourozenci.sta) Označ. rozdíly jsou významné na hlad. p < ,05000 ID {1} M=3346,1 {2} M=3170,0 {3} M=2624,4 zadny {1} jeden {2} dva a více {3} 0,347438 0,000072 0,347438 0,004891 0,000072 0,004891 Tabulka obsahuje p-hodnoty pro vzájemné porovnání středních hodnot porodních hmotnosti daných tří skupin novorozenců. Vidíme, že na hladině významnosti 0,05 se neliší pouze prvorození od druhorozených. 1.7. Význam předpokladů v analýze rozptylu a) Nezávislost jednotlivých náhodných výběrů – velmi důležitý předpoklad, musí být splněn, jinak dostaneme nesmyslné výsledky. b) Normalita – ANOVA není příliš citlivá na porušení normality, zvlášť pokud mají všechny výběry rozsah nad 20 (důsledek centrální limitní věty). Při výraznějším porušení normality se doporučuje Kruskalův – Wallisův test. c) Shoda rozptylů – mírné porušení nevadí, při větším se doporučuje mediánový test. Test shody rozptylů má smysl provádět až po ověření předpokladu normality. 2. Neparametrické obdoby t-testů a ANOVY Motivace: Při aplikaci t-testů a ANOVY (tj. parametrických testů) by měly být splněny určité předpoklady: - normalita dat (pro výběry větších rozsahů (n ≥ 30) nemá mírné porušení normality závažný dopad na výsledky) - homogenita rozptylů - intervalový či poměrový charakter dat Pokud nejsou tyto předpoklady splněny, použijeme tzv. neparametrické testy, které nevyžadují předpoklad o normalitě, stačí např. předpokládat, že distribuční funkce rozložení, z něhož náhodný výběr pochází, je spojitá. Nevýhoda - ve srovnání s klasickými parametrickými testy jsou neparametrické testy slabší, tzn., že nepravdivou hypotézu zamítají s menší pravděpodobností než testy parametrické. Uvedeme několik neparametrických testů, které jsou založeny na pořadí a týkají se mediánů. Nazývají se pořadové testy. 2.1. Přehled parametrických a neparametrických testů Situace Parametrický test Neparametrický test Jeden jednorozměrný výběr Jednovýběrový t-test Jednovýběrový Wilcoxonův test Jeden dvourozměrný výběr Párový t-test Párový Wilcoxonův test Dva nezávislé výběry Dvouvýběrový t-test Dvouvýběrový Wilcoxonův test (Mannův – Whitneyův test) Aspoň tři nezávislé výběry Jednofaktorová ANOVA Kruskalův – Wallisův test Mediánový test 2.2. Pojem pořadí a průměrného pořadí Nechť X1, ..., Xn je náhodný výběr. Vektor (X(1), ...., X(n)), kde X(1) ≤ ... ≤ X(n) se nazývá uspořádaný náhodný výběr a statistika X(i) se nazývá i-tá pořádková statistika, i = 1, ..., n. Pořadím Ri statistiky Xi rozumíme počet těch náhodných veličin X1, ..., Xn, které nabývají hodnoty menší nebo rovné Xi. V praxi se může stát, že některá pozorování jsou si rovna a vytvářejí skupiny shodných čísel. Pak těmto shodným číslům přiřadíme průměrné pořadí odpovídající takové skupině. Příklad: Máme čísla 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Stanovte jejich pořadí. Řešení: usp.hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 2.3. Jednovýběrový a párový Wilcoxonův test a jeho asymptotická varianta Frank Wilcoxon (1892 – 1965): Americký statistik a chemik Nechť X1, ..., Xn je náhodný výběr ze spojitého rozložení s hustotou φ(x), která je symetrická kolem mediánu x0,50, tj. φ(x0,50 + x) = φ(x0,50 - x). Nechť c je reálná konstanta. Testujeme hypotézu H0: x0,50 = c proti oboustranné alternativě H1: x0,50 ≠ c nebo proti levostranné alternativě H1: x0,50 < c nebo proti pravostranné alternativě H1: x0,50 > c. Postup provedení testu: a) Utvoříme rozdíly Yi = Xi – c, i = 1, ..., n. (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.) b) Absolutní hodnoty │Yi│uspořádáme vzestupně podle velikosti a spočteme pořadí Ri. c) Zavedeme statistiky ∑ > ++ = 0Y iW i RS , což je součet pořadí přes kladné hodnoty Yi, ∑ < −− = 0Y iW i RS , což je součet pořadí přes záporné hodnoty Yi. Přitom platí, že součet SW + + SW = n(n+1)/2. Je-li H0 pravdivá, pak E(SW + ) = n(n+1)/4 a D(SW + ) = n(n+1)(2n+1)/24. d) Testová statistika = min(SW + , SW ) pro oboustrannou alternativu, = SW + pro levostrannou alternativu, = SW pro pravostrannou alternativu. e) H0 zamítáme na hladině významnosti α, když testová statistika je menší nebo rovna tabelované kritické hodnotě. Asymptotická varianta jednovýběrového Wilcoxonova testu: Pro n ≥ 30 lze využít asymptotické normality statistiky SW + . Platí-li H0, pak ( ) ( ) 24 )1n2)(1n(n 4 )1n(n W W WW 0 S SD SES U ++ ++ + ++ − = − = ≈ N(0,1). Kritický obor: pro oboustrannou alternativu W = ( )∞∪−∞− α−α− ,uu, 2/12/1 , pro levostrannou alternativu W = ( α−−∞− 1u, , pro pravostrannou alternativu W = )∞α− ,u1 H0 zamítáme na asymptotické hladině významnosti α, když WU0 ∈ . Předpoklady použití jednovýběrového Wilcoxonova testu: - rozložení, z něhož daný náhodný výběr pochází, je spojité - hustota tohoto rozložení je symetrická kolem mediánu - sledovaná veličina X má aspoň ordinální charakter (Není-li splněn předpoklad o symetrii hustoty kolem mediánu, lze použít např. znaménkový test.) Příklad na jednovýběrový Wilcoxonův test U 12 náhodně vybraných zemí bylo zjištěno procento populace starší 60 let: 4,9 6,0 6,1 17,6 4,5 12,3 5,7 5,3 9,6 13,5 15,7 7,2. Na hladině významnosti 0,05 testujte hypotézu, že aspoň polovina zemí má 12 % obyvatel nad 60 let. Řešení: Jde o úlohu na jednovýběrový test. Jednovýběrový t-test nelze použít, protože daný náhodný výběr se neřídí normálním rozložením. Použijeme jednovýběrový Wilcoxonův test. Testujeme H0: x0,50 = 12 proti H1: x0,50 ≠ 12. Výpočet pomocí systému STATISTICA: Otevřeme datový soubor populace_nad_60.sta se dvěma proměnnými a 12 případy. Proměnná X obsahuje procento populace starší 60 let a v proměnné konst je číslo 12. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných X, Druhý seznam proměnných konst – OK – Wilcoxonův párový test. Wilcoxonův párový test (populace_nad_60.sta) Označené testy jsou významné na hladině p <,05000 Dvojice proměnných Počet platných T Z p-hodn. X & konst 12 13,00000 2,039608 0,041390 Výstupní tabulka poskytne hodnotu testové statistiky SW+ (zde označena T), hodnotu asymptotické testové statistiky U0 a p-hodnotu pro U0. V tomto případě je p-hodnota 0,04139, tedy nulová hypotéza se zamítá na asymptotické hladině významnosti 0,05. Tento postup však není korektní, protože rozsah výběru je menší než 30. Proto porovnáme testovou statistiku s tabelovanou kritickou hodnotou. Pro n = 12 a hladinu významnosti 0,05 je kritická hodnota 13. Protože 13 ≤ 13, H0 zamítáme na hladině významnosti 0,05. Párový Wilcoxonův test Nechť (X1, Y1), ..., (Xn, Yn) je náhodný výběr ze spojitého dvourozměrného rozložení. Testujeme H0: x0,50 - y0,50 = c proti H1: x0,50 - y0,50 ≠ c (resp. proti jednostranným alternativám). Utvoříme rozdíly Zi = Xi – Yi, i = 1, ..., n a testujeme hypotézu o mediánu z0,50, tj. H0: z0,50 = c proti H1: z0,50 ≠ c. Příklad na párový Wilcoxonův test V rámci psychologického výzkumu se zjišťoval vliv vážné hudby na koncentraci studentů. Každý z devíti náhodně vybraných studentů vyřešil úkol v tichém prostředí a poté jiný, stejně obtížný úkol v prostředí, v němž hrála vážná hudba. Zaznamenával se čas (v s) potřebný k řešení úkolů. Číslo studenta 1 2 3 4 5 6 7 8 9 Ticho 63 52 55 50 70 72 51 74 70 Vážná hudba 104 92 71 88 72 49 86 42 101 Na hladině významnosti 0,05 testujte hypotézu, že poslech vážné hudby neovlivňuje čas potřebný k řešení úkolu. Řešení: Jde o úlohu na párový test. Nelze použít párový t-test, protože je porušena normalita rozdílového náhodného výběru. Přejdeme tedy k párovému Wilcoxonovu test. Testujeme hypotézu H0: z0,50 = 0 proti oboustranné alternativě H1: z0,50 ≠ 0. Výpočet pomocí systému STATISTICA: Otevřeme datový soubor koncentrace_vazna_hudba.sta se dvěma proměnnými X, Y a 9 případy. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných X, 2. seznam proměnných Y – OK – Wilcoxonův párový test. Wilcoxonův párový test (koncentrace_vazna_hudba.sta) Označené testy jsou významné na hladině p <,05000 Dvojice proměnných Počet platných T Z p-hodn. X & Y 9 8,000000 1,717812 0,085832 Testová statistika (zde označená jako T) nabývá hodnoty 8, asymptotická testová statistika (označená jako Z) nabývá hodnoty 1,7178, odpovídající asymptotická p-hodnota je 0,0858, tedy na asymptotické hladině významnosti 0,05 nulovou hypotézu nezamítáme. Nejsou však splněny podmínky pro použití asymptotické varianty testu. Proto porovnáme testovou statistiku s tabelovanou kritickou hodnotou. Pro n = 9 a hladinu významnosti 0,05 je kritická hodnota 5. Protože 8 > 5, nelze H0 zamítnout na hladině významnosti 0,05. Neprokázali jsme tedy, že poslech vážné hudby ovlivňuje koncentraci studentů. Příklad na asymptotickou variantu Wilcoxonova testu: 30 náhodně vybraných osob mělo nezávisle na sobě bez předchozího nácviku odhadnout, kdy od daného signálu uplyne právě 1 minuta. Byly získány následující výsledky (v sekundách): 53 48 45 55 63 51 66 56 50 58 61 51 64 63 59 47 46 58 52 56 61 57 48 62 54 49 51 46 53 58. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že polovina osob délku jedné minuty podhodnotí a druhá nadhodnotí. Řešení: Testujeme H0: x0,50 = 60 proti oboustranné alternativě H1: x0,50 ≠ 60. Výpočet pomocí systému STATISTICA: Otevřeme datový soubor odhad_minuty.sta se dvěma proměnnými a 30 případy. V proměnné odhad jsou zjištěné hodnoty a v proměnné konst je číslo 60. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných odhad, 2. seznam proměnných konst – OK – Wilcoxonův párový test. Wilcoxonův párový test (odhad minuty) Označené testy jsou významné na hladině p <,05000 Dvojice proměnných Počet platných T Z Úroveň p odhad & konst 30 55,00000 3,650880 0,000261 Testová statistika (zde označená jako T) nabývá hodnoty 55, asymptotická testová statistika (označená jako Z) nabývá hodnoty 3,65088, odpovídající asymptotická p-hodnota je 0,000261, tedy na asymptotické hladině významnosti 0,05 nulovou hypotézu zamítáme. S rizikem omylu nejvýše 5% jsme tedy prokázali, že pravděpodobnost nadhodnocení jedné minuty není stejná jako pravděpodobnost podhodnocení. 2.4. Dvouvýběrový Wilcoxonův test a jeho asymptotická varianta Nechť X1, ..., Xn a Y1, ..., Ym jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se mohou lišit pouze posunutím. Označme x0,50 medián prvního rozložení a y0,50 medián druhého rozložení. Na hladině významnosti 0,05 testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné neboli mediány jsou shodné proti alternativě, že jsou rozdílné, tj. H0: x0,50 - y0,50 = 0 proti H1: x0,50 - y0,50 ≠ 0. Postup provedení testu: a) Všech n + m hodnot X1, ..., Xn a Y1, ..., Ym uspořádáme vzestupně podle velikosti. b) Zjistíme součet pořadí hodnot X1, ..., Xn a označíme ho T1. Součet pořadí hodnot Y1, ..., Ym označíme T2. c) Vypočteme statistiky U1 = mn + n(n+1)/2 – T1 , U2 = mn + m(m+1)/2 - T2 . Přitom platí U1 + U2 = mn. d) Pokud min(U1 ,U2 ) ≤ tabelovaná kritická hodnota (pro dané rozsahy výběrů m, n a dané α), pak nulovou hypotézu o totožnosti obou distribučních funkcí zamítáme na hladině významnosti α. V tabulkách: n = min{m,n} a m = max{m,n}. Asymptotická varianta dvouvýběrového Wilcoxonova testu: Pro velká n, m (n, m > 30) lze využít asymptotické normality statistiky U1‘. Platí-li H0, pak 12 )1nm(mn 2 mn 1 0 'U U ++ − = ≈ N(0,1), kde U1‘ = min(U1,U2). Kritický obor: pro oboustrannou alternativu W = ( )∞∪−∞− α−α− ,uu, 2/12/1 , pro levostrannou alternativu W = ( α−−∞− 1u, , pro pravostrannou alternativu W = )∞α− ,u1 H0 zamítáme na asymptotické hladině významnosti α, když WU0 ∈ . Předpoklady použití dvouvýběrového Wilcoxonova testu: - dané dva náhodné výběry jsou nezávislé - rozložení, z nichž dané dva náhodné výběry pocházejí, jsou spojitá - distribuční funkce těchto rozložení se mohou lišit pouze posunutím - sledovaná veličina má aspoň ordinální charakter (Není-li splněn předpoklad, že distribuční funkce se mohou lišit pouze posunutím, lze použít např. dvouvýběrový Kolmogorovův – Smirnovův test.) Příklad na dvouvýběrový Wilcoxonův test: Bylo vybráno 10 polí stejné kvality. Na čtyřech z nich se zkoušel nový způsob hnojení, zbylých šest bylo ošetřeno starým způsobem. Pole byla oseta pšenicí a sledoval se její hektarový výnos. Je třeba zjistit, zda nový způsob hnojení má týž vliv na průměrné hektarové výnosy pšenice jako starý způsob hnojení. hektarové výnosy při novém způsobu: 51 52 49 55 hektarové výnosy při starém způsobu: 45 54 48 44 53 50 Test proveďte na hladině významnosti 0,05. Řešení: Na hladině významnosti 0,05 testujeme H0: x0,50 - y0,50 = 0 proti oboustranné alternativě H1: x0,50 - y0,50 ≠ 0. Kritická hodnota pro α = 0,05, min(4,6) = 4, max(4,6) = 6 je 2. Otevřeme datový soubor hojeni.sta se dvěma proměnnými a 10 případy. V proměnné vynos jsou zjištěné hodnoty a v proměnné hnojeni je 4x číslo 1 pro nový způsob hnojení a 6x číslo 2 pro starý způsob hnojení. Statistiky – Neparametrická statistika – Porovnání dvou nezávislých vzorků – OK – Proměnné – Seznam závislých proměnných vynos, Nezáv. (grupov.) proměnná hnojeni – OK – M-W U test. Upozornění: Ve STATISTICE je dvouvýběrový Wilcoxonův test uveden pod názvem Mannův – Whitneyův test. Mann-Whitneyův U test (vynos) Dle proměn. hnojeni Označené testy jsou významné na hladině p <,05000 Proměnná Sčt poř. skup. 1 Sčt poř. skup. 2 U Z Úroveň p Z upravené Úroveň p N platn. skup. 1 N platn. skup. 2 2*1str. přesné p vynos 27,00000 28,00000 7,000000 1,066004 0,286423 1,066004 0,286423 4 6 0,352381 Ve výstupní tabulce jsou součty pořadí T1, T2, hodnota testové statistiky min(U1, U2) označená U, hodnota asymptotické testové statistiky U0 (označená Z), asymptotická p-hodnota pro U0 a přesná p-hodnota (ozn. 2*1str. přesné p – ta se používá pro rozsahy výběrů pod 30). V našem případě přesná p-hodnota = 0,352381, tedy H0 nezamítáme na hladině významnosti 0,05. Výpočet je vhodné doplnit krabicovým diagramem. Krabicový graf dle skupin Proměnná:vynos Medián 25%-75% Min-Max 1 2 hnojeni 42 44 46 48 50 52 54 56 vynos Je zřejmé, že výnosy při starém způsobu hnojení jsou vesměs nižší než při novém způsobu a také vykazují mnohem větší variabilitu. 2.5. Kruskalův - Wallisův test William Kruskal (1919 – 2005): Americký matematik Wilson Allen Wallis (1912 – 1988): Americký matematik Nechť je dáno r ≥ 3 nezávislých náhodných výběrů o rozsazích n1, ... , nr. Předpokládáme, že tyto výběry pocházejí ze spojitých rozložení. Označme n = n1 + ... + nr. Na asymptotické hladině významnosti α chceme testovat hypotézu, že všechny tyto výběry pocházejí z téhož rozložení. Postup testu: a) Všech n hodnot seřadíme do rostoucí posloupnosti. b) Určíme pořadí každé hodnoty v tomto sdruženém výběru. c) Označme Tj součet pořadí těch hodnot, které patří do j-tého výběru, j = 1, ..., r (kontrola: musí platit T1 + ... + Tr = n(n+1)/2). d) Testová statistika má tvar: ∑ = +− + = r 1j j 2 j )1n(3 n T )1n(n 12 Q . Platí-li H0, má statistika Q asymptoticky rozložení χ2 (r-1). e) Kritický obor: ( ) )∞−χ= α− ,1rW 1 2 . f) H0 zamítneme na asymptotické hladině významnosti α, když Q ≥ χ1-α 2 (r-1). 2.6. Mediánový test Výchozí situace je stejná jako u K-W testu Postup testu: a) Všech n hodnot uspořádáme do rostoucí posloupnosti. b) Najdeme medián x0,50 těchto n hodnot. c) Označme Pj počet hodnot v j-tém výběru, které jsou větší nebo rovny mediánu x0,50. d) Testová statistika má tvar ∑ = −= r 1j j 2 j M n n P 4Q . Platí-li H0, má statistika QM asymptoticky rozložení χ2 (r-1). d) Kritický obor: ( ) )∞−χ= α− ,1rW 1 2 . e) H0 zamítneme na asymptotické hladině významnosti α, když QM ≥ χ1-α 2 (r-1). 2.7. Metody mnohonásobného porovnávání Zamítneme-li hypotézu, že všechny náhodné výběry pocházejí z téhož rozložení, zajímá nás, které dvojice náhodných výběrů se liší na zvolené hladině významnosti. Testujeme H0: k-tý a l-tý náhodný výběr pocházejí z téhož rozložení, k, l = 1, .., r, k ≠ l proti H1: aspoň jedna dvojice výběrů pochází z různých rozložení. a) Neményiho metoda (Peter Neményi 1927 – 2002: Americký matematik maďarského původu) - Všechny výběry mají týž rozsah p (třídění je vyvážené). - Vypočteme │Tl - Tk│. - V tabulkách najdeme kritickou hodnotu (pro dané p, r, α ). - Pokud│Tl - Tk│≥ tabelovaná kritická hodnota, pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložení. b) Obecná metoda mnohonásobného porovnávání - Vypočteme k k l l n T n T − . - Ve speciálních statistických tabulkách najdeme kritickou hodnotu hKW(α ). Při větších rozsazích výběrů je možno ji nahradit kvantilem χ1-α 2 (r-1). - Jestliže )(h)1n(n n 1 n 1 12 1 n T n T KW klk k l l α+      +≥− , pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložení. 2.8. Příklad na Kruskalův – Walisův a mediánový test: Čtyři laboranti provedli analytické stanovení procenta niklu v oceli. Každý hodnotil pět vzorků. Laborant A: 4,15 4,26 4,10 4,30 4,25 Laborant B: 4,38 4,40 4,29 4,39 4,45 Laborant C: 4,23 4,16 4,20 4,24 4,27 Laborant D: 4,41 4,31 4,42 4,37 4,43 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že všechny čtyři náhodné výběry pocházejí ze stejného rozložení. Pokud nulovou hypotézu zamítnete, zjistěte, které dvojice výběrů se liší. Výpočet pomocí systému STATISTICA: Otevřeme datový soubor nikl v oceli.sta o dvou proměnných a 20 případech. V proměnné nikl jsou změřené hodnoty, v proměnné laborant je 5x1 pro 1. laboranta atd. až 5x4 pro 4. laboranta. Statistiky – Neparametrická statistika – Porovnání více nezávislých vzorků - OK – Seznam závislých proměnných nikl, Nezáv. (grupovací) proměnná laborant – OK – Summary: Kruskal-Wallis ANOVA & Median test. Ve dvou výstupních tabulkách se objeví výsledky K-W testu a mediánového testu. Kruskal-Wallisova ANOVA založ. na poř.; nikl (nikl v oceli) Nezávislá (grupovací) proměnná :laborant Kruskal-Wallisův test: H ( 3, N= 20) =13,77714 p =,0032 Závislá: nikl Kód Počet platných Součet pořadí 1 2 3 4 1 5 29,00000 2 5 75,00000 3 5 27,00000 4 5 79,00000 Mediánový test, celk. medián = 4,29500; nikl (nikl v oceli) Nezávislá (grupovací) proměnná : laborant Chi-Kvadr. = 13,60000 sv = 3 p = ,0035Závislá: nikl 1 2 3 4 Celkem <= Medián: pozorov. očekáv. poz.-oč. > Medián: pozorov. očekáv. poz.-oč. Celkem: oček. 4,00000 1,00000 5,00000 0,00000 10,00000 2,50000 2,50000 2,50000 2,50000 1,50000 -1,50000 2,50000 -2,50000 1,00000 4,00000 0,00000 5,00000 10,00000 2,50000 2,50000 2,50000 2,50000 -1,50000 1,50000 -2,50000 2,50000 5,00000 5,00000 5,00000 5,00000 20,00000 Oba testy zamítají hypotézu o shodě mediánů v daných čtyřech skupinách na asymptotické hladině významnosti 0,05. Nyní provedeme mnohonásobné porovnávání, abychom zjistili, které dvojice laborantů se liší. Zvolíme Vícenás. porovnání průměrného pořadí pro vš. skupiny. Vícenásobné porovnání p hodnot (oboustr.);nikl (nikl v oceli) Nezávislá (grupovací) proměnná :laborant Kruskal-Wallisův test: H ( 3, N= 20) =13,77714 p =,0032 Závislá: nikl 1 R:5,8000 2 R:15,000 3 R:5,4000 4 R:15,800 1 2 3 4 0,083641 1,000000 0,045158 0,083641 0,061779 1,000000 1,000000 0,061779 0,032664 0,045158 1,000000 0,032664 Tabulka obsahuje p-hodnoty pro porovnání dvojic skupin. Vidíme, že na hladině významnosti 0,05 se liší laboranti A, D a laboranti C, D. Grafické znázornění výsledků Krabicový graf dle skupin Proměnná:nikl Medián 25%-75% Min-Max 1 2 3 4 laborant 4,05 4,10 4,15 4,20 4,25 4,30 4,35 4,40 4,45 4,50 nikl