Cvičení 1 – Analýza rozptylu jednoduchého třídění Vzorový příklad V rámci psychologického výzkumu bylo náhodně vybráno devět dvanáctiletých dětí a to tak, že tři děti měly matku se základním vzděláním, tři se středoškolským a tři s vysokoškolským. Všechny děti byly podrobeny témuž testu. Počty bodů, které děti v testu získaly, jsou uvedeny v tabulce: Vzdělání matky Počet bodů Základní (ZŠ) 20 23 22 Středoškolské (SŠ) 24 26 25 Vysokoškolské (VŠ) 26 27 27 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota počtu bodů v testu nezávisí na vzdělání matky. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice úrovní vzdělání se liší na hladině významnosti 0,05. Vypočtěte též poměr determinace. Úkol řešte nejprve pomocí modulu Základní statistiky/tabulky, poté pomocí modulu ANOVA. Řešení: Otevřeme datový soubor body_v_testu.sta o dvou proměnných vzdelani a Y a 9 případech. V proměnné Y jsou zapsané body získané v testu, v proměnné vzdelani kódy pro nejvyšší dosažené vzdělání matky (1 pro ZŠ, 2 pro SŠ, 3 pro VŠ). Vzhledem k velmi malému počtu pozorování v každé skupině nemá smysl ověřovat normalitu a vzhledem k vyváženému třídění se nemusí ověřovat ani homogenita rozptylů. Využití modulu Základní statistiky/tabulky Vypočteme výběrové průměry a výběrové směrodatné odchylky: Statistiky – Základní statistiky a tabulky – Rozklad & jednofakt. ANOVA – OK – Proměnné – Závislé – Y, Grupovací – vzdelani – OK Popisné statistiky – Výpočet: Tabulka statistik. Rozkladová tabulka popisných statistik (body_v_testu.sta) N=9 (V seznamu záv. prom. nejsou ChD) vzdelani Y průměr Y N Y Sm.odch. ZŠ 21,66667 3 1,527525 SŠ 25,00000 3 1,000000 VŠ 26,66667 3 0,577350 Vš.skup. 24,44444 9 2,403701 Přistoupíme k testu hypotézy o shodě středních hodnot. Na záložce ANOVA & testy zvolíme Analýza rozptylu. Analýza rozptylu (body_v_testu.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p Y 38,88889 2 19,44444 7,333333 6 1,222222 15,90909 0,003993 Jelikož p-hodnota = 0,003993 je menší než hladina významnosti 0,05, hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Vytvoříme krabicové diagramy: záložka Základní výsledky – Kategoriz. krabicový graf Kategoriz. krabicový graf: Y: počet bodů v testu Průměr Průměr±SmCh Průměr±1,96*SmCh ZŠ SŠ VŠ vzdelani 19 20 21 22 23 24 25 26 27 28 Y Nyní aplikujeme Tukeyovu metodu mnohonásobného porovnávání, abychom zjistili, které dvojice úrovní vzdělání matky se liší na hladině významnosti 0,05. Na záložce Post – hoc zvolíme Tukeyův HSD. Tukeyův HSD test; proměn.:Y (body_v_testu.sta) Označ. rozdíly jsou významné na hlad. p < ,05000 vzdelani {1} M=21,667 {2} M=25,000 {3} M=26,667 ZŠ {1} SŠ {2} VŠ {3} 0,023833 0,003676 0,023833 0,234043 0,003676 0,234043 Tabulka obsahuje p-hodnoty pro vzájemné porovnání středních hodnot počtu bodů v testu všech tří úrovní vzdělání matky. Vidíme, že na hladině významnosti 0,05 se liší dvojice (ZŠ, SŠ) a (ZŠ, VŠ). Využití modulu ANOVA Statistiky – ANOVA – Jednofaktorová ANOVA – OK – Proměnné Seznam závislých proměnných: Y, Kategor. nezávislá proměnná (faktor): vzdelani – OK. Další postup se liší podle způsobu kódování indikátorových proměnných. a) Kódování pomocí indikátorů typu dummy Na záložce Možnosti vypneme Sigma – omezená parametrizace – OK. Zvolíme Více výsledků – záložka Předpoklady. Zde můžeme provést test homogenity rozptylů (v našem případě to není zapotřebí, ve všech skupinách je stejný počet pozorování) a orientačně ověřit normalitu dat v jednotlivých skupinách. Vzhledem k velmi malému rozsahu skupin to však pro nás není vhodné. V takovém případě se ověřuje normalita reziduí. Zvolíme záložku Rezidua 1 – Pravděpodobnostní grafy reziduí – Normální. Normální p-graf; Čistá rezidua Závislá proměnná: Y (Analyzovaný vzorek) -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Rezid. -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 Oček.normál.hodnota ,01 ,05 ,15 ,35 ,55 ,75 ,95 ,99 Vypočteme výběrové průměry (s 95% intervaly spolehlivosti) a výběrové směrodatné odchylky: Na záložce Detaily zvolíme Popisné st. buněk: Popisné statistiky (body_v_testu.sta) Efekt Úroveň Faktor N Y Průměr Y Sm.odch. Y Sm.Ch. Y -95,00% Y +95,00% Celkem vzdelani vzdelani vzdelani 9 24,44444 2,403701 0,801234 22,59680 26,29209 ZŠ 3 21,66667 1,527525 0,881917 17,87208 25,46125 SŠ 3 25,00000 1,000000 0,577350 22,51586 27,48414 VŠ 3 26,66667 0,577350 0,333333 25,23245 28,10088 Na záložce Detaily zvolíme Test všech efektů a dostaneme tabulku ANOVA: Jednorozměrné testy významnosti pro Y (body_v_testu.sta) Přeparametrizovaný model Dekompozice typu III Efekt SČ Stupně volnosti PČ F p Abs. člen vzdelani Chyba 5377,778 1 5377,778 4400,000 0,000000 38,889 2 19,444 15,909 0,003993 7,333 6 1,222 Vidíme, že faktor vzdelani je významný na hladině významnosti 0,05. Provedeme mnohonásobné porovnání. Na záložce Post-hoc zvolíme Tukeyův HSD: Tukeyův HSD test; proměnná Y (body_v_testu.sta) Přibližné pravděpodobnosti pro post hoc testy Chyba: meziskup. PČ = 1,2222, sv = 6,0000 Č. buňky vzdelani {1} 21,667 {2} 25,000 {3} 26,667 1 2 3 ZŠ 0,023833 0,003676 SŠ 0,023833 0,234043 VŠ 0,003676 0,234043 Na hladině významnosti 0,05 se liší dvojice skupin (ZŠ, SŠ) a (ZŠ, VŠ). Nyní získáme odhady parametrů v modelu Yij = β0 + β1Z1j + β2Z2j + εij. Na záložce Detaily vybereme Koeficienty: Odhady parametrů (body_v_testu.sta) (*Vynulované prediktory neuspěly při kontrole tolerance) Přeparametrizovaný model Efekt Úroveň Efekt Sloupec Poznámky (V/N/N) Y Param. Y Sm.Ch. Y t Y p -95,00% LmtSpol. +95,00% LmtSpol. Abs. člen vzdelani vzdelani vzdelani 1 26,66667 0,638285 41,77864 0,000000 25,10484 28,22849 ZŠ 2 Vychýl. -5,00000 0,902671 -5,53912 0,001461 -7,20876 -2,79124 SŠ 3 Vychýl. -1,66667 0,902671 -1,84637 0,114364 -3,87542 0,54209 VŠ 4 Nulov.* 0,00000 Ve výstupní tabulce najdeme ve sloupci Y Param. odhady 210 βββ ˆ,ˆ,ˆ , výsledky testů významnosti těchto parametrů a 95% intervaly spolehlivosti. 67,26ˆ 0 =β představuje průměr hodnot v referenční skupině (VŠ), 5ˆ 1 −=β je odchylka průměru 1. skupiny (ZŠ) od průměru referenční skupiny, 67,1ˆ 2 −=β je odchylka průměru 2. skupiny (SŠ) od průměru referenční skupiny. Protože p-hodnota příslušející testu významnosti parametru β2 je 0,1144, což je větší než 0,05, znamená to, že střední hodnota 2. skupiny není významně odlišná od střední hodnoty referenční skupiny. Poměr determinace získáme na záložce Detaily – Celkové R. Ve výstupní tabulce je pod označením Vícenás. R2: Test SČ celého modelu vs. SČ reziduí (body_v_testu.sta) Závislý proměnné Vícenás. R Vícenás. R2 Upravené R2 SČ Model SV Model PČ Model SČ Rezid. SV Rezid. PČ Rezid. F p Y 0,917249 0,841346 0,788462 38,88889 2 19,44444 7,333333 6 1,222222 15,90909 0,003993 Hodnoty předpovědí a reziduí najdeme pomocí záložky Rezidua 1 – Předpovědi a rezidua: Pozorované, předpovězené a reziduální hodnoty Přeparametrizovaný model (Analyzovaný vzorek) Y Pozorov. Y Předpov. Y Rezid. 1 2 3 4 5 6 7 8 9 20,00000 21,66667 -1,66667 23,00000 21,66667 1,33333 22,00000 21,66667 0,33333 24,00000 25,00000 -1,00000 26,00000 25,00000 1,00000 25,00000 25,00000 0,00000 26,00000 26,66667 -0,66667 27,00000 26,66667 0,33333 27,00000 26,66667 0,33333 Ad b) Kódování pomocí indikátorů typu effect Na záložce Možnosti zvolíme Sigma – omezená parametrizace. Postup je stejný jako v případě (a), liší se však tabulka odhadů parametrů: Odhady parametrů (body_v_testu.sta) Sigma-omezená parametrizace Efekt Úroveň Efekt Sloupec Y Param. Y Sm.Ch. Y t Y p -95,00% LmtSpol. +95,00% LmtSpol. Abs. člen vzdelani vzdelani 1 24,44444 0,368514 66,33250 0,000000 23,54272 25,34617 ZŠ 2 -2,77778 0,521157 -5,33002 0,001778 -4,05300 -1,50255 SŠ 3 0,55556 0,521157 1,06600 0,327427 -0,71967 1,83078 44,24ˆ 0 =β představuje průměr všech hodnot veličiny Y, 78,2ˆ 1 −=β je odchylka průměru 1. skupiny (ZŠ) od celkového průměru, 56,0ˆ 2 =β je odchylka průměru 2. skupiny (SŠ) od celkového průměru. Odhad efektu 3. úrovně faktoru A získáme jako 23,244,2467,26MMˆ ...33 =−=−=α . Je to odchylka průměru 3. skupiny (VŠ) od celkového průměru. Vidíme, že p-hodnota příslušející testu významnosti parametru β2 je 0,3274, což je větší než hladina významnosti 0,05. Znamená to, že střední hodnota 2. skupiny (SŠ) není významně odlišná od celkové střední hodnoty všech skupin. Příklad k samostatnému řešení: Popis situace: Výzkumníci řešili problém, zda čas má vliv na pokles hladiny alkoholu v krvi. Za tímto účelem náhodně vybrali 18 dospělých mužů a náhodně je rozdělili do tří skupin označených A, B, C. Jejich rozsahy byly postupně 7, 5 a 6. U mužů skupiny A byla hladina alkoholu v krvi (udaná v promile) změřena po uplynutí 1 h, u skupiny B po 2 h a u skupiny C po 3 h. Výsledky jsou zaznamenány v tabulce: Skupina A 1,1 1,0 0,9 0,9 1,0 1,2 1,1 Skupina B 0,8 0,9 0,7 0,7 0,6 Skupina C 0,7 0,4 0,4 0,4 0,5 0,6 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hladiny alkoholu nezávisí na čase. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice časových kategorií se liší na hladině významnosti 0,05. Vypočtěte též poměr determinace. Úkol řešte nejprve pomocí modulu Základní statistiky/tabulky, poté pomocí modulu ANOVA. Řešení: Otevřeme datový soubor alhohol_v_krvi.sta o dvou proměnných akupina a Y a 18 případech. V proměnné Y jsou zapsané hladiny alkoholu, v proměnné skupina kódy pro jednotlivé skupiny mužů. Ověření normality ve všech střech skupinách: Normální p-graf z Y; kategorizovaný skupina alkohol_v_krvi.sta 2v*18c Pozorovaný kvantil Oček.normál.hodnoty skupina: skupina A 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 -1,4 -1,0 -0,6 -0,2 0,2 0,6 1,0 1,4 skupina: skupina B 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 skupina: skupina C 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 -1,4 -1,0 -0,6 -0,2 0,2 0,6 1,0 1,4 skupina: skupina A Y: SW-W = 0,9216; p = 0,4818 skupina: skupina B Y: SW-W = 0,9609; p = 0,8140 skupina: skupina C Y: SW-W = 0,8311; p = 0,1099 Využití modulu Základní statistiky/tabulky Číselné charakteristiky: Rozkladová tabulka popisných statistik (alkohol_v_krvi.sta) N=18 (V seznamu záv. prom. nejsou ChD) skupina Y průměr Y N Y Sm.odch. skupina A 1,028571 7 0,111270 skupina B 0,740000 5 0,114018 skupina C 0,500000 6 0,126491 Vš.skup. 0,772222 18 0,256230 Krabicové grafy: Kategoriz. krabicový graf: Y: obsah alkoholu v krvi (v %) Průměr Průměr±SmCh Průměr±1,96*SmCh skupina A skupina B skupina C skupina 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 Y Test hypotézy o homogenitě rozptylů: Leveneův test homogenity rozpylů (alkohol_v_krvi.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p Y 0,000489 2 0,000245 0,051123 15 0,003408 0,071772 0,931060 Test hypotézy o shodě středních hodnot: Analýza rozptylu (alkohol_v_krvi.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p Y 0,909825 2 0,454913 0,206286 15 0,013752 33,07883 0,000003 Scheffého metoda mnohonásobného porovnávání: Scheffeho test; proměn.:Y (alkohol_v_krvi.sta) Označ. rozdíly jsou významné na hlad. p < ,05000 skupina {1} M=1,0286 {2} M=,74000 {3} M=,50000 skupina A {1} skupina B {2} skupina C {3} 0,002921 0,000003 0,002921 0,014317 0,000003 0,014317 Využití modulu ANOVA a) Kódování pomocí indikátorů typu dummy Popisné statistiky buněk: Popisné statistiky (alkohol_v_krvi.sta) Efekt Úroveň Faktor N Y Průměr Y Sm.odch. Y Sm.Ch. Y -95,00% Y +95,00% Celkem skupina skupina skupina 18 0,772222 0,256230 0,060394 0,644802 0,899642 skupina A 7 1,028571 0,111270 0,042056 0,925664 1,131479 skupina B 5 0,740000 0,114018 0,050990 0,598429 0,881571 skupina C 6 0,500000 0,126491 0,051640 0,367256 0,632744 Tabulka ANOVA: Jednorozm. výsledky pro každou záv. proměnnou (alkohol_v_krvi.sta) Přeparametrizovaný model Dekompozice typu III Efekt Stupně volnosti Y SČ Y PČ Y F Y p Abs. člen skupina Chyba Celkem 1 10,10044 10,10044 734,4505 0,000000 2 0,90983 0,45491 33,0788 0,000003 15 0,20629 0,01375 17 1,11611 Výsledek Scheffého metody: Scheffeho test; proměnná Y (alkohol_v_krvi.sta) Pravděpodobnosti pro post-hoc testy Chyba: meziskup. PČ = ,01375, sv = 15,000 Č. buňky skupina {1} 1,0286 {2} ,74000 {3} ,50000 1 2 3 skupina A 0,002921 0,000003 skupina B 0,002921 0,014317 skupina C 0,000003 0,014317 Odhady parametrů v modelu Yij = β0 + β1Z1j + β2Z2j + εij: Odhady parametrů (alkohol_v_krvi.sta) (*Vynulované prediktory neuspěly při kontrole tolerance) Přeparametrizovaný model Efekt Úroveň Efekt Sloupec Poznámky (V/N/N) Y Param. Y Sm.Ch. Y t Y p -95,00% LmtSpol. +95,00% LmtSpol. Y Beta (ß) Y Sm.Ch. ß -95,00% LmtSpol. +95,00% LmtSpol. Abs. člen skupina skupina skupina 1 0,500000 0,047875 10,44376 0,000000 0,397956 0,602044 skupina A 2 Vychýl. 0,528571 0,065243 8,10154 0,000001 0,389509 0,667634 1,034806 0,127730 0,762557 1,307055 skupina B 3 Vychýl. 0,240000 0,071011 3,37977 0,004126 0,088644 0,391356 0,431696 0,127730 0,159447 0,703945 skupina C 4 Nulov.* 0,000000 5,0ˆ 0 =β představuje průměr hodnot v referenční skupině C, 5286,0ˆ 1 =β je odchylka průměru skupiny A od průměru referenční skupiny, 24,0ˆ 2 =β je odchylka průměru skupiny B od průměru referenční skupiny. Poměr determinace: Test SČ celého modelu vs. SČ reziduí (alkohol_v_krvi.sta) Závislý proměnné Vícenás. R Vícenás. R2 Upravené R2 SČ Model SV Model PČ Model SČ Rezid. SV Rezid. PČ Rezid. F p Y 0,902870 0,815175 0,790531 0,909825 2 0,454913 0,206286 15 0,013752 33,07883 0,000003 Hodnoty předpovědí a reziduí: Pozorované, předpovězené a reziduální hodnoty Přeparametrizovaný model (Analyzovaný vzorek) Y Pozorov. Y Předpov. Y Rezid. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1,10000 1,02857 0,07143 1,00000 1,02857 -0,02857 0,90000 1,02857 -0,12857 0,90000 1,02857 -0,12857 1,00000 1,02857 -0,02857 1,20000 1,02857 0,17143 1,10000 1,02857 0,07143 0,80000 0,74000 0,06000 0,90000 0,74000 0,16000 0,70000 0,74000 -0,04000 0,70000 0,74000 -0,04000 0,60000 0,74000 -0,14000 0,70000 0,50000 0,20000 0,40000 0,50000 -0,10000 0,40000 0,50000 -0,10000 0,40000 0,50000 -0,10000 0,50000 0,50000 -0,00000 0,60000 0,50000 0,10000 Ověření normality reziduí: Normální p-graf z Y Rezid. Pozorované, předpovězené a reziduální hodnoty v PS1 3v*18c -0,20 -0,15 -0,10 -0,05 0,00 0,05 0,10 0,15 0,20 0,25 Pozorovaný kvantil -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Oček.normál.hodnoty Y Rezid.: SW-W = 0,9213; p = 0,1365 b) Kódování pomocí indikátorů typu effect: Odhady parametrů Odhady parametrů (alkohol_v_krvi.sta) Sigma-omezená parametrizace Efekt Úroveň Efekt Sloupec Y Param. Y Sm.Ch. Y t Y p -95,00% LmtSpol. +95,00% LmtSpol. Y Beta (ß) Y Sm.Ch. ß -95,00% LmtSpol. +95,00% LmtSpol. Abs. člen skupina skupina 1 0,756190 0,027903 27,10075 0,000000 0,696717 0,815664 skupina A 2 0,272381 0,037861 7,19425 0,000003 0,191682 0,353080 0,927609 0,128937 0,652785 1,202432 skupina B 3 -0,016190 0,041175 -0,39321 0,699697 -0,103953 0,071572 -0,050699 0,128937 -0,325523 0,224124 7562,0ˆ 0 =β představuje průměr všech hodnot veličiny Y, 2724,0ˆ 1 =β je odchylka průměru skupiny A od celkového průměru, 0162,0ˆ 2 −=β je odchylka průměru skupiny B od celkového průměru. Odhad efektu 3. úrovně faktoru A získáme jako 2562,07562,05,0MMˆ ...33 −=−=−=α . Je to odchylka průměru skupiny C od celkového průměru.