Osnova přednášky Úlohy o více nezávislých náhodných výběrech 1. Analýza rozptylu jednoduchého třídění (ANOVA) 1.1. Označení 1.2. Testování hypotézy o shodě středních hodnot 1.3. Testování hypotézy o shodě rozptylů 1.4. Metody mnohonásobného porovnávání 1.5. Doporučený postup při ANOVĚ 1.6. Příklad 1.7. Význam předpokladů v ANOVĚ 2. Neparametrické obdoby ANOVY 2.1. Kruskalův – Wallisův test 2.2. Mediánový test 2.3. Metody mnohonásobného porovnávání 2.4. Příklad 1. Analýza rozptylu jednoduchého třídění Motivace: Zajímáme se o problém, zda lze určitým faktorem (tj. nominální náhodnou veličinou A) vysvětlit variabilitu pozorovaných hodnot náhodné veličiny X, která je intervalového či poměrového typu. Např. zkoumáme, zda metoda výuky určitého předmětu (faktor A) ovlivňuje počet bodů dosažených studenty v závěrečném testu (náhodná veličina X). Předpokládáme, že faktor A má r ≥ 3 úrovní a přitom i-té úrovni odpovídá ni pozorování iin1i X,,X K , které tvoří náhodný výběr z rozložení N(µi, σ2 ), i = 1, ..., r a jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy Xij = µi + εij, kde εij jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, σ2 ), i = 1, …, r, j = 1, …, ni. Výsledky lze zapsat do tabulky faktor A výsledky úroveň 1 1n111 X,,X K úroveň 2 2n221 X,,X K … … úroveň r rrn1r X,,X K Ilustrace: Na hladině významnosti α testujeme nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné, tj. H0: µ1 = … = µr proti alternativní hypotéze H1, která tvrdí, že aspoň jedna dvojice středních hodnot se liší. Jedná se tedy o zobecnění dvouvýběrového t-testu a na první pohled se zdá, že stačí utvořit       2 r dvojic náhodných výběrů a na každou dvojici aplikovat dvouvýběrový t-test. Hypotézu o shodě všech středních hodnot bychom pak zamítli, pokud aspoň v jednom případě z       2 r porovnávání se prokáže odlišnost středních hodnot. Odtud je vidět, že k neoprávněnému zamítnutí nulové hypotézy (tj. k chybě 1. druhu) může dojít s pravděpodobností větší než α. Proto ve 30. letech 20. století vytvořil R. A. Fisher metodu ANOVA (analýza rozptylu, v popsané situaci konkrétně analýza rozptylu jednoduchého třídění), která uvedenou podmínku splňuje. Pokud na hladině významnosti α zamítneme nulovou hypotézu, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. 1.1. Označení: V analýze rozptylu jednoduchého třídění se používá tzv. tečková notace. ∑= = r 1i inn … celkový rozsah všech r výběrů ∑= = in 1j ij.i XX … součet hodnot v i-tém výběru .i i .i X n 1 M = … výběrový průměr v i-tém výběru ∑∑= = = r 1i n 1j ij.. i XX … součet hodnot všech výběrů .... X n 1 M = … celkový průměr všech r výběrů Zavedeme součty čtverců ( )∑∑= = −= r 1i n 1j 2 ..ijT i MXS … celkový součet čtverců (charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru), počet stupňů volnosti fT = n – 1, ( )∑= −= r 1i 2 ...iiA MMnS … skupinový součet čtverců (charakterizuje variabilitu mezi jednotlivými náhodnými výběry), počet stupňů volnosti fA = r – 1. ( )∑∑= = −= r 1i n 1j 2 .iijE i MXS … reziduální součet čtverců (charakterizuje variabilitu uvnitř jednotlivých výběrů), počet stupňů volnosti fE = n - r. Lze dokázat, že ST = SA + SE. 1.2.Testování hypotézy o shodě středních hodnot Náhodné veličiny Xij se řídí modelem M0: Xij = µ + αi + εij pro i = 1, …, r, j = 1, …, ni , přičemž εij jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, σ2 ), µ je společná část střední hodnoty závisle proměnné veličiny, αi je efekt faktoru A na úrovni i. Parametry µ, αi neznáme. Požadujeme, aby platila tzv. reparametrizační rovnice: 0n r 1i ii =α∑= . (Pokud je třídění vyvážené, tj. pokud mají všechny výběry stejný rozsah: n1 = n2 = … = nr, pak lze použít zjednodušenou podmínku 0 r 1i i =α∑= .) Kdyby nezáleželo na faktoru A, platila by hypotéza α1 = … = αr = 0 a dostali bychom model M1: Xij = µ + εij. Během analýzy rozptylu tedy zkoumáme, zda výběrové průměry M1, …, Mr se od sebe liší pouze v mezích náhodného kolísání kolem celkového průměru M nebo zda se projevuje vliv faktoru A. Rozdíl mezi modely M0 a M1 ověřujeme pomocí testové statistiky EE AA A f/S f/S F = , která se řídí rozložením F(r-1,n-r), je-li model M1 správný. Hypotézu o nevýznamnosti faktoru A tedy zamítneme na hladině významnosti α, když platí: FA ≥ F1-α(r-1,n-r). Výsledky výpočtů zapisujeme do tabulky analýzy rozptylu jednoduchého třídění. Zdroj variability součet čtverců stupně volnosti podíl FA skupiny SA fA = r - 1 SA/fA EE AA fS fS reziduální SE fE = n - r SE/fE celkový ST fT = n - 1 - Sílu závislosti náhodné veličiny X na faktoru A můžeme měřit pomocí poměru determinace: T A2 S S P = . Nabývá hodnot z intervalu 1,0 . 1.3. Testování hypotézy o shodě rozptylů Před provedením analýzy rozptylu je zapotřebí ověřit předpoklad o shodě rozptylů v daných r výběrech. a) Levenův test: Položme .iijij MXZ −= . Označíme ( ) ( )∑ ∑∑ ∑∑ ∑ = = = = = = −= −= = = r 1i 2 ZZiiZA r 1i n 1j 2 ZiijZE r 1i n 1j ijZ n 1j ij i Zi MMnS ,MZS ,Z n 1 M ,Z n 1 M i i i Platí-li hypotéza o shodě rozptylů, pak statistika ( ) ( )rnS 1rS F ZE ZA ZA − − = ≈ F(r-1, n-r). Hypotézu o shodě rozptylů tedy zamítáme na asymptotické hladině významnosti α, když FZA ≥ F1-α(r-1, n-r). (Levenův test je vlastně založen na analýze rozptylu absolutních hodnot centrovaných pozorování. Vzhledem k tomu, že náhodné veličiny Xij – Mi nejsou stochasticky nezávislé a absolutní hodnoty těchto veličin nemají normální rozložení, je Levenův test pouze aproximativní.) b) Brownův – Forsytheův test je modifikací Levenova testu. Modifikace spočívá v tom, že místo výběrového průměru i-tého výběru se při výpočtu veličiny ijZ používá medián i-tého výběru. c) Bartlettův test: Platí-li hypotéza o shodě rozptylů a rozsahy všech výběrů jsou větší než 6, pak statistika ( ) ( )       −−−= ∑= r 1i 2 ii 2 * Sln1nSlnrn C 1 B se asymptoticky řídí rozložením ( )1r2 −χ . Přitom konstanta ( )       − − −− += ∑= r 1i i rn 1 1n 1 1r3 1 1C a S* 2 je vážený průměr výběrových rozptylů. H0 zamítáme na asymptotické hladině významnosti α, když B se realizuje v kritickém oboru ( ) )∞−χ= α− ,1rW 1 2 . Poznámka k testům homogenity rozptylů: Ze simulačních studií vyplývá, že pravděpodobnost chyby 1. druhu (tj. pravděpodobnost neoprávněného zamítnutí pravdivé nulové hypotézy) je u Bartlettova testu blízká obyvkle volené hladině významnosti 0,05 pouze pro výběry z normálního rozložení. Pro větší počty výběrů z výrazně nenormálních rozložení (např. výběry z exponenciálního rozložení) výrazně stoupá pravděpodobnost chyby 1. druhu. Naopak Brownův – Forsytheův test udrží nízkou pravděpodobnost chyby 1. druhu i pro velký počet výběrů pocházejících z nenormálních rozložení. 1.4. Post – hoc metody mnohonásobného porovnávání Zamítneme-li na hladině významnosti α hypotézu o shodě středních hodnot, chceme zjistit, které dvojice středních hodnot se liší na dané hladině významnosti α, tj. na hladině významnosti α testujeme H0: µl = µk proti H1: µl ≠ µk pro všechna l, k = 1, .., r, l ≠ k. a) Mají-li všechny výběry týž rozsah p (říkáme, že třídění je vyvážené), použijeme Tukeyovu metodu. Testová statistika má tvar p S MM * .l.k − . Rovnost středních hodnot µk a µl zamítneme na hladině významnosti α, když ( )rn,rq p S MM 1 * .l.k −≥ − α− , kde hodnoty q1-α(r, n-r) jsou kvantily studentizovaného rozpětí a najdeme je ve statistických tabulkách. (Studentizované rozpětí je náhodná veličina ( ) ( ) s XX Q 1n − = .) Existuje modifikace Tukeyovy metody pro nestejné rozsahy výběrů, nazývá se Tukeyova HSD metoda. V tomto případě má testová statistika tvar       + − lk * .l.k n 1 n 1 2 1 S MM . Rovnost středních hodnot µk a µl zamítneme na hladině významnosti α, když ( )rn,rq n 1 n 1 2 1 S MM 1 lk * .l.k −≥       + − α− . b) Nemají-li všechny výběry stejný rozsah, použijeme Scheffého metodu: rovnost středních hodnot µk a µl zamítneme na hladině významnosti α, když ( ) ( )rn,1rF n 1 n 1 1rSMM 1 lk *.l.k −−      +−≥− α− . Výhodou Scheffého testu je, že k jeho provedení nepotřebujeme speciální statistické tabulky s hodnotami kvantilů studentizovaného rozpětí, ale stačí běžné statistické tabulky s kvantily Fisherova – Snedecorova rozložení. V případě vyváženého třídění, kdy lze aplikovat Tukeyovu i Scheffého metodu, použijeme tu, která je citlivější. Tukeyova metoda tedy bude výhodnější, když q1-α 2 (r, n-r) < 2(r-1)F1-α(r-1, n-r). Metody mnohonásobného porovnávání mají obecně menší sílu než ANOVA. Může nastat situace, kdy při zamítnutí H0 nenajdeme metodami mnohonásobného porovnávání významný rozdíl u žádné dvojice středních hodnot. K tomu dochází zvláště tehdy, když p-hodnota pro ANOVU je jen o málo nižší než zvolená hladina významnosti. Pak slabší test patřící do skupiny metod mnohonásobného porovnávání nemusí odhalit žádný rozdíl. 1.5. Doporučený postup při provádění analýzy rozptylu: a) Ověření normality daných r náhodných výběrů (grafické metody - NP plot, Q-Q plot, histogram, testy hypotéz o normálním rozložení - Lilieforsova varianta Kolmogorovova – Smirnovova testu nebo Shapirův – Wilkův test). Doporučuje se kombinace obou způsobů. Závěry učiníme až na základě posouzení obou výsledků. Obecně lze říci, že analýza rozptylu není příliš citlivá na porušení předpokladu normality, zvláště při větších rozsazích výběrů (nad 20), což je důsledek působení centrální limitní věty. Mírné porušení normality tedy není na závadu, při větším porušení použijeme např. Kruskalův – Wallisův test jako neparametrickou obdobu analýzy rozptylu jednoduchého třídění. b) Po ověření normality se testuje homogenitu rozptylů, tj. předpoklad, že všechny náhodné výběry pocházejí z normálních rozložení s týmž rozpylem. Graficky ověřujeme shodu rozptylů pomocí krabicových diagramů, kdy sledujeme, zda je šířka krabic stejná. Numericky testujeme homogenitu rozptylů pomocí Levenova testu, Brownova – Forsytheova testu (oba jsou implementovány ve STATISTICE, Brownův – Forsytheův test v MINITABu) či Bartlettova testu (je k dispozici v MINITABu). Slabé porušení homogenity rozptylů nevadí, při větším se doporučuje mediánový test. c) Pokud jsou splněny předpoklady normality a homogenity rozptylů, můžeme přistoupit k testování shody středních hodnot. Předtím je samozřejmě vhodné vypočítat průměry a směrodatné odchylky či rozptyly v jednotlivých skupinách. d) Dojde-li na zvolené hladině významnosti k zamítnutí hypotézy o shodě středních hodnot, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží post-hoc metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. 1.6. Příklad: U čtyř odrůd brambor (označených symboly A, B, C, D) se zjišťovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky (v kg): odrůda hmotnost A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. Řešení: Data považujeme za realizace čtyř nezávislých náhodných výběrů ze čtyř normálních rozložení se stejným rozptylem. Testujeme hypotézu, že všechny čtyři střední hodnoty jsou stejné. Vypočítáme výběrové průměry v jednotlivých výběrech: M1. = 0,8, M2. = 1,2, M3. = 1,4, M4. = 1,1, celkový průměr: M.. = 1,14, výběrové rozptyly: S1 2 = 0,02, S2 2 = 0,03, S3 2 = 0,04, S4 2 = 0,01, vážený průměr výběrových rozptylů: ( ) 720,0 110 3 11 01,0204,0403,0202,03 rn S1n S r 1i 2 ii 2 * == ⋅+⋅+⋅+⋅ = − − = ∑= , reziduální součet čtverců: ( ) 3,0 110 3 11SrnS 2 *E =⋅=−= , skupinový součet čtverců: ( ) ( ) ( ) ( ) ( ) 816,014,11,1314,14,1514,12.1314,18,04MMnS 2222 r 1i 2 ...iiA =−⋅+−⋅+−⋅+−⋅=−= ∑= celkový součet čtverců: ST = SA + SE = 0,816 + 0,3 = 1,116, testová statistika 11/3,0 3/816,0 f/S f/S F EE AA A == = 9,97, Kritický obor W = ( ) ) )∞=∞ ,59,3,11,3F 95,0 . Protože testová statistika se realizuje v kritickém oboru, H0 zamítáme na hladině významnosti 0,05. Vypočteme poměr determinace: 7312,0 116,1 816,0 S S P T A2 === Výsledky zapíšeme do tabulky ANOVA: Zdroj variability Součet čtverců Stupně volnosti podíl FA skupiny SA = 0,816 3 SA/3 = 0,272 ( ) ( )rnS 1rS E A − − = 9,97 reziduální SE = 0,3 11 SE/11 = 0,02727 celkový ST = 1,116 14 - Nyní pomocí Scheffého metody zjistíme, které dvojice odrůd se liší na hladině významnosti 0,05. Srovnávané odrůdy Rozdíly .l.k MM − Pravá strana vzorce A, B 0,4 0,41 A, C 0,67 0,36 A, D 0,3 0,41 B, C 0,2 0,40 B, D 0,1 0,44 C, D 0,3 0,40 Na hladině významnosti 0,05 se liší odrůdy A a C. Řešení pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných X a odrůda a 15 případech. Do proměnné X zapíšeme zjištěné hmotnosti, do proměnné odrůda kódy pro dané odrůdy (1 pro A, 2 pro B, 3 pro C a 4 pro D). 1 X 2 odruda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0,9 A 0,8 A 0,6 A 0,9 A 1,3 B 1 B 1,3 B 1,3 C 1,5 C 1,6 C 1,1 C 1,5 C 1,1 D 1,2 D 1 D Ověříme normalitu daných čtyř náhodných výběrů pomocí N-P plotu: odruda: A 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Očekávanánormálníhodnota odruda: B 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 odruda: C 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Očekávanánormálníhodnota odruda: D 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 Odchylky od normality jsou jen nepatrné. Vypočteme výběrové průměry a výběrové rozptyly: Statistiky – Základní statistiky a tabulky – Rozklad & jednofakt. ANOVA – OK – Proměnné – Závislé – X, Grupovací odrůda – OK – Skupiny tabulek - zaškrtneme Rozptyly - Výpočet. Rozkladová tabulka popisných statistik (priklad8301) N=15 (V seznamu záv. prom. nejsou ChD) odruda X průměr X N X Sm.odch. X Rozptyl A 0,800000 4 0,141421 0,020000 B 1,200000 3 0,173205 0,030000 C 1,400000 5 0,200000 0,040000 D 1,100000 3 0,100000 0,010000 Vš.skup. 1,140000 15 0,282337 0,079714 Nyní ověříme předpoklad shody rozptylů. Na záložce Skupiny tabulek zaškrtneme Levenův test – Výpočet. Leveneův test homogenity rozpylů (priklad8301) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p X 0,018667 3 0,006222 0,065333 11 0,005939 1,047619 0,410027 Vidíme, že p-hodnota Levenova testu je 0,41, tedy větší než hladina významnosti 0,05. Hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05. Přistoupíme k testu hypotézy o shodě středních hodnot. Na záložce Skupiny tabulek zaškrtneme Analýza rozptylu – Výpočet. Analýza rozptylu (priklad8301) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p X 0,816000 3 0,272000 0,300000 11 0,027273 9,973333 0,001805 Jelikož p-hodnota = 0,001805 je menší než hladina významnosti 0,05, hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Výpočet doplníme krabicovými diagramy: Průměr Průměr±SmCh Průměr±1,96*SmCh A B C D odruda 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 X Nyní aplikujeme Scheffého metodu mnohonásobného porovnávání, abychom zjistili, které dvojice odrůd se liší na hladině významnosti 0,05. Na záložce Post – hoc zvolíme Schefféův test. Scheffeho test; proměn.:X (priklad8301) Označ. rozdíly jsou významné na hlad. p < ,05000 odruda {1} M=,80000 {2} M=1,2000 {3} M=1,4000 {4} M=1,1000 A {1} B {2} C {3} D {4} 0,059165 0,001950 0,190463 0,059165 0,464537 0,905502 0,001950 0,464537 0,163499 0,190463 0,905502 0,163499 Tabulka obsahuje p-hodnoty pro vzájemné porovnání středních hodnot hmotnosti všech čtyř odrůd. Vidíme, že na hladině významnosti 0,05 se liší odrůdy A, C. 1.7. Význam předpokladů v analýze rozptylu a) Nezávislost jednotlivých náhodných výběrů – velmi důležitý předpoklad, musí být splněn, jinak dostaneme nesmyslné výsledky. b) Normalita – ANOVA není příliš citlivá na porušení normality, zvlášť pokud mají všechny výběry rozsah nad 20 (důsledek centrální limitní věty). Při výraznějším porušení normality se doporučuje Kruskalův – Wallisův test. c) Shoda rozptylů – mírné porušení nevadí, při větším se doporučuje mediánový test. Test shody rozptylů má smysl provádět až po ověření předpokladu normality. 2. Neparametrické obdoby ANOVY 2.1. Kruskalův - Wallisův test William Kruskal (1919 – 2005): Americký matematik Wilson Allen Wallis (1912 – 1988): Americký matematik Nechť je dáno r ≥ 3 nezávislých náhodných výběrů o rozsazích n1, ... , nr. Předpokládáme, že tyto výběry pocházejí ze spojitých rozložení. Označme n = n1 + ... + nr. Na asymptotické hladině významnosti α chceme testovat hypotézu, že všechny tyto výběry pocházejí z téhož rozložení. Postup testu: a) Všech n hodnot seřadíme do rostoucí posloupnosti. b) Určíme pořadí každé hodnoty v tomto sdruženém výběru. c) Označme Tj součet pořadí těch hodnot, které patří do j-tého výběru, j = 1, ..., r (kontrola: musí platit T1 + ... + Tr = n(n+1)/2). d) Testová statistika má tvar: ∑ = +− + = r 1j j 2 j )1n(3 n T )1n(n 12 Q . Platí-li H0, má statistika Q asymptoticky rozložení χ2 (r-1). e) Kritický obor: ( ) )∞−χ= α− ,1rW 1 2 . f) H0 zamítneme na asymptotické hladině významnosti α, když Q ≥ χ1-α 2 (r-1). 2.2. Mediánový test Výchozí situace je stejná jako u K-W testu Postup testu: a) Všech n hodnot uspořádáme do rostoucí posloupnosti. b) Najdeme medián x0,50 těchto n hodnot. c) Označme Pj počet hodnot v j-tém výběru, které jsou větší nebo rovny mediánu x0,50. d) Testová statistika má tvar ∑ = −= r 1j j 2 j M n n P 4Q . Platí-li H0, má statistika QM asymptoticky rozložení χ2 (r-1). d) Kritický obor: ( ) )∞−χ= α− ,1rW 1 2 . e) H0 zamítneme na asymptotické hladině významnosti α, když QM ≥ χ1-α 2 (r-1). 2.3. Metody mnohonásobného porovnávání Zamítneme-li hypotézu, že všechny náhodné výběry pocházejí z téhož rozložení, zajímá nás, které dvojice náhodných výběrů se liší na zvolené hladině významnosti. Testujeme H0: k-tý a l-tý náhodný výběr pocházejí z téhož rozložení, k, l = 1, .., r, k ≠ l proti H1: aspoň jedna dvojice výběrů pochází z různých rozložení. a) Neményiho metoda (Peter Neményi 1927 – 2002: Americký matematik maďarského původu) - Všechny výběry mají týž rozsah p (třídění je vyvážené). - Vypočteme │Tl - Tk│. - V tabulkách najdeme kritickou hodnotu (pro dané p, r, α ). - Pokud│Tl - Tk│≥ tabelovaná kritická hodnota, pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložení. b) Obecná metoda mnohonásobného porovnávání - Vypočteme k k l l n T n T − . - Ve speciálních statistických tabulkách najdeme kritickou hodnotu hKW(α ). Při větších rozsazích výběrů je možno ji nahradit kvantilem χ1-α 2 (r-1). - Jestliže )(h)1n(n n 1 n 1 12 1 n T n T KW klk k l l α+      +≥− , pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložení. 2.4. Příklad: Čtyři laboranti provedli analytické stanovení procenta niklu v oceli. Každý hodnotil pět vzorků. Laborant A: 4,15 4,26 4,10 4,30 4,25 Laborant B: 4,38 4,40 4,29 4,39 4,45 Laborant C: 4,23 4,16 4,20 4,24 4,27 Laborant D: 4,41 4,31 4,42 4,37 4,43 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že všechny čtyři náhodné výběry pocházejí ze stejného rozložení. Pokud nulovou hypotézu zamítnete, zjistěte, které dvojice výběrů se liší. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o dvou proměnných a 20 případech. Do proměnné nikl napíšeme změřené hodnoty, do proměnné laborant napíšeme 5x1 pro 1. laboranta atd. až 5x4 pro 4. laboranta. Statistiky – Neparametrická statistika – Porovnání více nezávislých vzorků - OK – Seznam závislých proměnných nikl, Nezáv. (grupovací) proměnná laborant – OK – Summary: Kruskal-Wallis ANOVA & Median test. Ve dvou výstupních tabulkách se objeví výsledky K-W testu a mediánového testu. Kruskal-Wallisova ANOVA založ. na poř.; nikl (nikl v oceli) Nezávislá (grupovací) proměnná :laborant Kruskal-Wallisův test: H ( 3, N= 20) =13,77714 p =,0032 Závislá: nikl Kód Počet platných Součet pořadí 1 2 3 4 1 5 29,00000 2 5 75,00000 3 5 27,00000 4 5 79,00000 Mediánový test, celk. medián = 4,29500; nikl (nikl v oceli) Nezávislá (grupovací) proměnná : laborant Chi-Kvadr. = 13,60000 sv = 3 p = ,0035Závislá: nikl 1 2 3 4 Celkem <= Medián: pozorov. očekáv. poz.-oč. > Medián: pozorov. očekáv. poz.-oč. Celkem: oček. 4,00000 1,00000 5,00000 0,00000 10,00000 2,50000 2,50000 2,50000 2,50000 1,50000 -1,50000 2,50000 -2,50000 1,00000 4,00000 0,00000 5,00000 10,00000 2,50000 2,50000 2,50000 2,50000 -1,50000 1,50000 -2,50000 2,50000 5,00000 5,00000 5,00000 5,00000 20,00000 Oba testy zamítají hypotézu o shodě mediánů v daných čtyřech skupinách na asymptotické hladině významnosti 0,05. Nyní provedeme mnohonásobné porovnávání, abychom zjistili, které dvojice laborantů se liší. Zvolíme Vícenás. porovnání průměrného pořadí pro vš. skupiny. Vícenásobné porovnání p hodnot (oboustr.);nikl (nikl v oceli) Nezávislá (grupovací) proměnná :laborant Kruskal-Wallisův test: H ( 3, N= 20) =13,77714 p =,0032 Závislá: nikl 1 R:5,8000 2 R:15,000 3 R:5,4000 4 R:15,800 1 2 3 4 0,083641 1,000000 0,045158 0,083641 0,061779 1,000000 1,000000 0,061779 0,032664 0,045158 1,000000 0,032664 Tabulka obsahuje p-hodnoty pro porovnání dvojic skupin. Vidíme, že na hladině významnosti 0,05 se liší laboranti A, D a laboranti C, D. Grafické znázornění výsledků Krabicový graf dle skupin Proměnná:nikl Medián 25%-75% Min-Max 1 2 3 4 laborant 4,05 4,10 4,15 4,20 4,25 4,30 4,35 4,40 4,45 4,50 nikl