Cvičení 2.: Úlohy na ANOVU a neparametrické testy Příklad 1: Máme k dispozici kraniometrické údaje o výšce horní části tváře 163 mužů (proměnná X, v mm), což je přímá vzdálenost mezi body nasion a prosthion. Kromě toho je známo, z jaké populace muži pocházejí (proměnná ID, varianty: 1 – německá … 19 mužů, 2 – bantuská … 13 mužů, 3 – malajská … 69 mužů, 4 – čínská … 18 mužů, 5 – peruánská … 44 mužů). Na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty výšky horní tváře mužů jsou ve všech pěti populacích stejné. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice populací se liší. (Data jsou uložena v souboru vysky_tvare.sta.) Řešení: Úloha vede na analýzu rozptylu jednoduchého třídění. Mezi její předpoklady patří nezávislost všech náhodných výběrů (to je splněno), jejich normalita a homogenita rozptylů ve všech náhodných výběrech. Výšku horní tváře německých mužů považujeme za realizace náhodného výběru X1,1, …, X1,19 z rozložení N(µ1,σ1 2 ) atd. až výšku horní tváře peruánských mužů považujeme za realizace náhodného výběru X5,1, …, X5,44 z rozložení N(µ5,σ5 2 ). Ověření normality výšky horní části tváře Hypotézu o normalitě pro všech pět výběrů ověříme pomocí S-W testu a současně vykreslíme N-P plot. Návod: Grafy – 2D Grafy – Normální pravděpodobnostní grafy – zaškrtneme S-W test a odškrtneme Neurčovat průměrnou pozici svázaných pozorování - Proměnné X – OK – na záložce Kategorizovaný vybereme u Kategorie X Zapnuto, zaškrtneme Změnit proměnnou – Proměnná ID - OK – OK. Normální p-graf z X; kategorizovaný ID vyska_tvare.sta 2v*163c Pozorovaný kvantil Oček.normál.hodnoty ID: německá 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 -3 -2 -1 0 1 2 3 ID: bantuská 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 ID: malajská 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 ID: čínská 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 -3 -2 -1 0 1 2 3 ID: peruánská 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 ID: německá X: SW-W = 0,8964; p = 0,0419 ID: bantuská X: SW-W = 0,938; p = 0,4321 ID: malajská X: SW-W = 0,9855; p = 0,6080 ID: čínská X: SW-W = 0,8972; p = 0,0513 ID: peruánská X: SW-W = 0,9847; p = 0,8175 Na hladině významnosti 0,05 hypotézu o normalitě zamítáme pouze pro německou populaci. Odchylky od normality jsou však nepatrné, nadále budeme považovat data za normálně rozložená. Vypočteme výběrové průměry a výběrové rozptyly: Návod: Statistiky – Základní statistiky a tabulky – Rozklad & jednofakt. ANOVA – OK – Proměnné – Závislé – X, Grupovací - ID – OK – Skupiny tabulek - zaškrtneme Rozptyly - Výpočet. Rozkladová tabulka popisných statistik (vyska_tvare.sta) N=163 (V seznamu záv. prom. nejsou ChD) ID X průměr X N X Rozptyl německá 71,89474 19 14,65497 bantuská 70,69231 13 29,06410 malajská 70,13043 69 24,52685 čínská 72,00000 18 20,82353 peruánská 70,61364 44 16,89376 Vš.skup. 70,71779 163 21,24085 Vidíme, že největší průměrnou výšku horní části tváře mají čínští muži, naopak nejmenší malajští muži. Největší variabilitu vykazují bantuští muži, naopak nejmenší němečtí muži. Vykreslíme krabicové grafy. Aktivujeme Statistiky dle skupin – vybereme záložku Jednotlivé tabulky – OK – Kategoriz. krabicový graf. Kategoriz. krabicový graf: X Průměr Průměr±SmCh Průměr±1,96*SmCh německá bantuská malajská čínská peruánská ID 67 68 69 70 71 72 73 74 75 X Nyní ověříme předpoklad shody rozptylů. Na záložce Skupiny tabulek zaškrtneme Levenův test – Výpočet. Leveneův test homogenity rozpylů (vyska_tvare.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p X 28,05679 4 7,014196 1146,488 158 7,256251 0,966642 0,427520 Vidíme, že p-hodnota Levenova testu je 0,4275, tedy větší než hladina významnosti 0,05. Hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05. Přistoupíme k testu hypotézy o shodě středních hodnot. Na záložce Skupiny tabulek zaškrtneme Analýza rozptylu – Výpočet. Analýza rozptylu (vyska_tvare.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p X 80,20180 4 20,05045 3360,817 158 21,27099 0,942619 0,440945 Jelikož p-hodnota = 0,4409 je větší než hladina významnosti 0,05, hypotézu o shodě středních hodnot nezamítáme na hladině významnosti 0,05. Neprokázaly se odlišnosti ve výšce horní části tváře mužů ve sledovaných pěti populacích. ----------------------------------------------------------------------------------------------------------------- Příklad 2.: Jednovýběrový Wilcoxonův test Ve skupině 12 studentů se sledovala srdeční frekvence při změně polohy z lehu do stoje. Získaly se tyto rozdíly počtu tepů srdce za 1 minutu: -2 4 8 25 -5 16 3 1 12 17 20 9. Na hladině významnosti 0,05 testujte hypotézu, že u poloviny studentů se srdeční frekvence zvedne o 15 tepů a u poloviny studentů klesne o 15 tepů. Návod: Testujeme H0: x0,50 = 15 proti oboustranné alternativě H1: x0,50 ≠ 15. Jde o úlohu na jednovýběrový znaménkový či Wilcoxonův test. Postup ve STATISTICE: Načteme datový soubor srdecni_frekvence.sta. V proměnné X jsou zjištěné rozdíly tepových frekvencí, v proměnné konst je číslo 15. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných X, 2. seznam proměnných konst – OK – Wilcoxonův párový test. Wilcoxonův párový test (srdecni_frekvence.sta) Označené testy jsou významné na hladině p <,05000 Dvojice proměnných Počet platných T Z p-hodn. X & konst 12 14,00000 1,961161 0,049861 Výstupní tabulka poskytne hodnotu testové statistiky (ozn. T), hodnotu asymptotické testové statistiky U0 a p-hodnotu pro U0. (STATISTICA tedy nezohledňuje omezení n ≥ 30 pro použití U0.) Vidíme, že p-hodnota 0,0499, tedy nulová hypotéza se zamítá na asymptotické hladině významnosti 0,05. Nejsou však splněny předpoklady pro použití asymptotické varianty testu (příliš malý rozsah výběru). Korektní provedení testu tedy spočívá v porovnání testové statistiky s kritickou hodnotou. Tabelovaná kritická hodnota pro n = 12 a α = 0,05 je 13, testová statistika = 14. Protože 14 > 13, H0 nezamítáme na hladině významnosti 0,05. ----------------------------------------------------------------------------------------------------------------- Příklad 3.: Dvouvýběrový Wilcoxonův test Vědci krmili laboratorní potkany dvěma různými dietami po delší dobu. Bylo vybráno náhodně 10 potkanů, kteří byli krmeni dietou A a deset potkanů, kteří byli krmeni dietou B. Poté byl změřen obsah železa v játrech těchto potkanů. Na hladině významnosti 0,05 testujte hypotézu, že dieta nemá vliv na obsah železa v játrech: Dieta A 2,12 3,98 1,43 4,11 1,08 2,03 3,67 1,11 3,92 4,33 Dieta B 1,33 0,59 1,19 1,65 1,12 0,96 2,17 2,14 1,51 1,08 Návod: Jde o úlohu na dvouvýběrový test. Dvouvýběrový t-test nelze použít, protože je porušena normalita v 1. výběru. Přejdeme tedy k dvouvýběrovému Wilcoxonovu testu a na hladině významnosti 0,05 testujeme H0: x0,50 - y0,50 = 0 proti oboustranné alternativě H1: x0,50 - y0,50 ≠ 0. Postup ve STATISTICE: Načteme datový soubor potkani_diety_A_B.sta. V proměnné X jsou uloženy obsahy železa v játrech potkanů, v proměnné ID je hodnota 1 pro dietu A a hodnota 2 pro dietu B. Statistiky – Neparametrická statistika – Porovnání dvou nezávislých vzorků – OK – Proměnné – Seznam závislých proměnných X, Nezáv. (grupov.) proměnná ID – OK – M-W U test. Mann-Whitneyův U Test (w/ oprava na spojitost) (potkani_diety_A_B.sta) Dle proměn. ID Označené testy jsou významné na hladině p <,05000 Proměnná Sčt poř. skup. 1 Sčt poř. skup. 2 U Z p-hodn. Z upravené p-hodn. N platn. skup. 1 N platn. skup. 2 2*1str. přesné p X 132,5000 77,50000 22,50000 2,041008 0,041251 2,041776 0,041175 10 10 0,035463 Ve výstupní tabulce jsou součty pořadí T1, T2, hodnota testové statistiky min(U1, U2) ozn. U, hodnota asymptotické testové statistiky U0 (ozn. Z), p-hodnota pro U0 a přesná p-hodnota (ozn. 2*1str. přesné p – ta se používá pro rozsahy výběrů pod 30). V našem případě přesná p-hodnota = 0,0355, tedy H0 zamítáme na hladině významnosti 0,05. S rizikem omylu nejvýše 5 % jsme prokázali odlišnost v obsahu železa v játrech dvou skupin potkanů. Výpočet je vhodné doplnit krabicovým diagramem typu Medián/kvartily/rozpětí. Krabicový graf dle skupin Proměnná: X Medián 25%-75% Min-Max 1 2 ID 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 X ----------------------------------------------------------------------------------------------------------------- Příklad 4.: V souboru tri_skupiny_opic.sta jsou data týkající se skupiny opic stejného druhu, které byly náhodně rozděleny do tří experimentálních skupin. Každé opici byla ukázána série předmětů. Úkolem bylo vybrat určitý předmět. Za správnou volbu byla opice odměněna. Pro korektní rozhodnutí bylo v první skupině důležité dobře určit tvar, ve druhé skupině barvu a ve třetí skupině velikost. Na základě počtu pokusů potřebných k úspěšnému výběru chceme s rizikem omylu nejvýše 5 % rozhodnout, zda jsou úlohy založené na rozpoznání tvaru, barvy a velikosti pro konkrétní druh opic stejně obtížné. X ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 6 tvar 11 tvar 12 tvar 20 tvar 24 tvar 21 tvar 18 tvar 15 tvar 14 tvar 10 tvar 8 tvar 14 tvar 31 barva 7 barva 9 barva 11 barva 16 barva 19 barva 17 barva 11 barva 22 barva 23 barva 27 barva 26 barva 13 velikost 32 velikost 31 velikost 30 velikost 28 velikost 29 velikost 25 velikost 26 velikost 26 velikost 27 velikost 26 velikost 19 velikost Návod: V případě, že by se všechny tři výběry řídily normálním rozložením, úloha by vedla na analýzu rozptylu jednoduchého třídění. Načteme datový soubor tri_skupiny_opic.sta (proměnná X udává počty pokusů před prvním úspěchem, proměnná ID nabývá hodnot 1, 2, 3 pro 1., 2. a 3. skupinu opic) a pomocí N-P plotu a S-W testu ověříme normalitu dat: Normální p-graf z X; kategorizovaný ID tri_skupiny_opic.sta 2v*36c Pozorovaný kvantil Oček.normál.hodnoty ID: tvar 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 ID: barva 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 ID: velikost 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 ID: tvar X: SW-W = 0,9754; p = 0,9587 ID: barva X: SW-W = 0,9591; p = 0,7710 ID: velikost X: SW-W = 0,8525; p = 0,0394 Vzhledem k tomu, že u třetí skupiny je normalita porušena, použijeme Kruskalův – Wallisův test. Statistiky – Neparametrická statistika – Porovnání více nezávislých vzorků - OK – Seznam závislých proměnných X, Nezáv. (grupovací) proměnná typ – OK – Shrnutí: KruskalWallisova ANOVA a mediánový test. Ve dvou výstupních tabulkách se objeví výsledky K-W testu a mediánového testu. Kruskal-Wallisova ANOVA založ. na poř.; X (tri_skupiny_opic.sta) Nezávislá (grupovací) proměnná : ID Kruskal-Wallisův test: H ( 2, N= 36) =13,84438 p =,0010 Závislá: X Kód Počet platných Součet pořadí Prům. Pořadí tvar barva velikost 1 12 139,0000 11,58333 2 12 200,0000 16,66667 3 12 327,0000 27,25000 Mediánový test, celk. medián = 19,5000; X (tri_skupiny_opic.sta) Nezávislá (grupovací) proměnná : ID Chi-Kvadr. = 8,666667 sv = 2 p = ,0131Závislá: X tvar barva velikost Celkem <= Medián: pozorov. očekáv. poz.-oč. > Medián: pozorov. očekáv. poz.-oč. Celkem: oček. 9,00000 7,00000 2,00000 18,00000 6,00000 6,00000 6,00000 3,00000 1,00000 -4,00000 3,00000 5,00000 10,00000 18,00000 6,00000 6,00000 6,00000 -3,00000 -1,00000 4,00000 12,00000 12,00000 12,00000 36,00000 Oba testy zamítají hypotézu o shodě mediánů v daných třech skupinách. K-W test má phodnotu 0,001, p-hodnota pro mediánový test je 0,0131. Grafické znázornění výsledků: návrat do Kruskal-Wallisova ANOVA a mediánový test – Krabicový graf – Proměnná X – OK – Typ grafu: Medián/kvartily/Rozpětí – OK. Krabicový graf dle skupin Proměnná: X Medián 25%-75% Min-Max tvar barva velikost ID 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 X Je vidět, že počet pokusů před prvním úspěchem je nevyšší pro skupinu opic, která měla rozeznávat velikost předmětů, zatímco pro skupinu opic, která měla rozeznávat tvar předmětů, je nejnižší. Nyní provedeme mnohonásobné porovnávání, abychom zjistili, které dvojice skupin opic se liší na hladině významnosti 0,05: návrat do Kruskal-Wallisova ANOVA a mediánový test, Vícenás. porovnání průměrného pořadí pro vš. sk. Vícenásobné porovnání p hodnot (oboustr.); X (tri_skupiny_opic.sta) Nezávislá (grupovací) proměnná : ID Kruskal-Wallisův test: H ( 2, N= 36) =13,84438 p =,0010 Závislá: X tvar R:11,583 barva R:16,667 velikost R:27,250 tvar barva velikost 0,711794 0,000810 0,711794 0,041614 0,000810 0,041614 Vidíme, že na hladině významnosti 0,05 se liší skupiny (tvar, velikost) a (barva, velikost).