Osnova přednášky Analýza rozptylu dvojného třídění Motivace Označení Dvojné třídění bez interakcí Součty čtverců Testování hypotézy o ne významnosti sloupcového faktoru Testování hypotézy o ne významnosti řádkového faktoru Scheffého a Tukeyova metoda mnohonásobného porovnávání Příklad Dvojné třídění s interakcemi Možné problémy v analýze rozptylu dvojného třídění s interakcemi Příklad Analýza rozptylu dvojného třídění Motivace: Zkoumáme vliv dvou faktorů A a B na závisle proměnnou veličinu Y. Např. zjišťujeme, zda výnosy určité plodiny (náhodná veličina Y) jsou ovlivněny typem půdy (faktor A) a způsobem hnojení (faktor B). Předpokládáme, že faktor A má a úrovní (tj. počet typů půdy) a faktor B má b úrovní (tj. počet způsobů hnojení). Přitom máme n^ pokusů takových, že na i-tém typu půdy byl použit j-tý způsob hnojení. Výsledky (tzn. výnosy dané plodiny) těchto ny pokusů označíme Omezíme se na případy, kdy počet pozorování n^ = c > 1 (jde o tzv. vyvážené třídění). Výsledky lze zapsat do tabulky: faktor B 1 2 b 1 Yin, v • • • ? A 11c Y121, • • - , Yi2c Yibi, v •• • ? 1 1 bc faktor A 2 Y211, • • • ? Y21C Y22I? Y22c Y2bl? • • • ? Y2bc ... a Yall, v • • • ? A ale V v A a21 •>••••> L a2c Yabl? v • • •1 1 abc Analogicky jako u analýzy rozptylu jednoduchého třídění předpokládáme, že data se řídí normálním rozložením, tj. Yiji.Ypv^Yijc-Nd^^o2), i= 1, a, j = 1, ...,b a jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy kde sljk jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, o2). Zajímá nás, zda všechny střední hodnoty jiy jsou stejné. Přístup k problému se liší podle toho, zda faktory A, B jsou nezávislé (pak se jedná o analýzu rozptylu dvojného třídění bez interakcí) nebo se mohou nějakým způsobem ovlivňovat (jde o analýzu rozptylu dvojného třídění s interakcemi). Označení n = abc, k=l L/ Y, =ZÉY1)k, j=l k=l bc a b c y...= EE5X, 1=1 j=i k=i m = —y n Analogické označení zavedeme i pro jiné kombinace indexů. Dvojné třídění bez interakcí Předpokládáme, že řádkový faktor A a sloupcový faktor B se neovlivňují (např. to znamená, že každý ze čtyř způsobů hnojení působí stejně na každém ze tří druhů půdy). Náhodné veličiny Yyk se řídí modelem M0: Yyk = ji + oii + Pj + Sijk pro i = 1, ..., a, j = 1, ..., b, k = 1, ..., c, přičemž Sijk jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, o2), ji je společná část střední hodnoty závisle proměnné veličiny, oii je efekt faktoru A na úrovni i, Pj je efekt faktoru B na úrovni j. Parametry ji, oii, Pj neznáme. Požadujeme, aby platily tzv. reparametrizační rovnice: Í>,=oÍp.,=<\ 1=1 j=i Součty čtverců Podobně jako v analýze rozptylu jednoduchého třídění se počítají součty čtverců. a b c , . 1=1 j=l k=l .. celkový součet čtverců, počet stupňů volnosti fT = n-l, SA=bcX(ML-Mj2 i=l součet čtverců pro řádkový faktor A, počet stupňů volnosti fA = a- 1, SB=act(M,-M )2_ _ j=l součet čtverců pro sloupcový faktor B, počet stupňů volnosti fB = b-l, a b c , v Sh=SSS(y*-mJ. 1=1 j=i k=i .. reziduálni součet čtverců, počet stupňů volnosti fE = n a b + 1. Lze dokázat, že ST = SA + SB + SE: HiK "M. j2 =bcŽ(Mi.. -M )2 .ucVlM.-M ) +ÍÍÉ(Yäk - Mj i=l j=l k=l i=l j=l i=l j=l k=l Celkový průměr M je bodovým odhadem střední hodnoty ji, rozdíl Mx -M představuje bodový odhad i-té úrovně řádkového faktoru (Xi rozdíl M j _M představuje bodový odhad j-té úrovně sloupcového faktoru Pj. /v Odhad Yijk pozorování Yijk má tedy tvar: SiK - M . (M M ) • (\1 j M ). Testování hypotézy o nevýznamnosti sloupcového faktoru Pokud by nezáleželo na sloupcovém faktoru B, platila by hypotéza Pi = ... = pb = 0 a dostali bychom model Mi: Yijk = ji + cti + sijk Platnost uvedené hypotézy ověřujeme pomocí testové statistiky P _ SB /fB B s /f 9 která se řídí rozložením F(b-l,n-a-b+l), je-li model Mi správný. e e Hypotézu o nevýznamnosti sloupcového faktoru tedy zamítneme na hladině významnosti a, když platí: FB>Fi^(b-l,n-a-bfl). Testování hypotézy o nevyznámnosti řádkového faktoru Kdyby nezáleželo ani na řádkovém faktoru, platila by hypotéza cti = ... = aa = 0 a dostali bychom model M2: Yijk = ji + sijk Rozdíl mezi modely Mi a M2 ověřujeme pomocí testové statistiky p _ Sa / fa A s /f 9 která se řídí rozložením F(a-l,n-a-b+l), je-li model M2 správný. e e Hypotézu o nevýznamnosti řádkového faktoru tedy zamítneme na hladině významnosti a, když platí: FA>Fi_a(a-l,n-a-b+l). Při uvedeném postupu tedy zjišťujeme, zda záleží na sloupcovém efektu B. Pokud ne, platí model Mi a ptáme se, zda záleží na řádkovém efektu A, tj. zda platí model M2. Postup lze samozřejmě provést i v jiném pořadí - nejdřív zkoumáme řádkový efekt A (tj. ověřujeme platnost modelu Mi': Yyk = ji + Pj + Syk) a poté sloupcový efekt B. Lze ukázat, že oba řetězce M0 —► Mi —> M2 a M0 —► Mi'—> M2' dají stejné výsledky. (To platí pouze za předpokladu, že n^ = c pro všechna i, j.) Výsledky výpočtů zapisujeme do tabulky analýzy rozptylu dvojného třídění bez interakcí. Zdroj variability součet čtverců st. vol. podíl S/f F- S/f sE/fE řádkový efekt A SA fA = a-l sA/fA F sA/fA A SE/fE sloupcový efekt B Sb fB = b-l sB/fB F SB/fB B SE/fE reziduálni Se fE = n-a-b+1 Se/Íe - celkem Sj f i = n-1 - - Scheffého a Tukeyova metoda mnohonásobného porovnávání Zjistíme-li, že existují významné rozdíly mezi řádky, můžeme pomocí Scheffého nebo Tukeyovy metody zjistit, které dvojice řádků se významně liší. Určíme tedy, které rozdíly (Xi - Ot jsou nenulové (na dané hladině významnosti). Podle Scheffého metody zamítneme rovnost (Xi = Ot, když M,.-M, > 2(a-l) •^(a-^n-a-b + l) bc n - a - b +1 a podle Tukeyovy metody, když eme v tabulkách kvantilů studentizovaného rozpětí. Jestliže zjistíme významný rozdíl mezi sloupci, určujeme podobně, které dvojice sloupců se mezi sebou liší, tj. které rozdíly Pj - pt jsou nenulové. Podle Scheffého metody zamítneme rovnost Pj = pt, když > ac n - a - b +1 F^b-U-a-b + l) a podle Tukeyovy metody, když M, -Mt > 1 ac n-a-b + 1 qi-a(b?n-a"b + 1) Příklad: Byly zaznamenány tržby za prodej určitého zboží během tří stejně dlouhých časových období. Přitom byl sledován jednak vliv balení zboží (řádkový faktor A, úroveň 1 -balení v sáčku, úroveň 2 - balení v krabičce) a jednak vliv druhu reklamy (sloupcový faktor B, úroveň 1 - bez reklamy, úroveň 2 - reklama v novinách, úroveň 3 - reklama v TV a novinách). Výsledky prodeje (tj. hodnota prodaného zboží v miliónech Kč) jsou zaznamenány v tabulce: B 1-bez reklamy 2-reklama v novinách 3-reklama v TV a novinách A 1-balení v sáčku 1 1 6 2-balení v krabičce 3 4 9 Na hladině významnosti 0,05 je třeba posoudit vliv reklamy i vliv balení zboží na jeho prodej. Řešení: B 1-bez reklamy 2-reklama v novinách 3-reklama v TV a novinách A 1-balení v sáčku 1 1 6 2-balení v krabičce 3 4 9 Data zpracujeme pomocí analýzy rozptylu dvojného třídění bez interakcí. Přitom a = 2, b = 3, c = 1, n = 6. Nejprve provedeme pomocné výpočty: Součet všech hodnot: Y =24 Průměr všech hodnot: M... = 24/6 = 4 Řádkové součty a průměry: Yi = 8, Y2 = 16, Mi = 8/3 = 2,67, M2 = 16/3 = 5,33 Sloupcové součty a průměry: Yi = 4, Y.2. = 5, Y.3. = 15, Mi = 4/2 = 2, M.2. = 5/2 = 2,5, M.3. = 15/2 = 7,5. a = 2, b = 3, c = 1, n = 6, Celkový součet a průměr: Y = 24, M = 24/6 = 4 Radkové součty a průměry: YL = 8, Y2. =16, ML = 8/3, M2. Sloupcové součty a průměry: Y L = 4, Y2. = 5, Y 3 =15, M L = 16/3, 4/2 = 2, M.2. 5/2, M.3. = 15/2. Řádkový součet čtverců: SA=bcX(M, -M )2=3 i=l Sloupcový součet čtverců: SB=acX(M0.-Mj2=2 í8 A 2 + í16 4] 2 — h-J U ) 32 = 10,6 (2-4)2+|^-4 + -4 V = 37 j=i Celkový součet čtverců: Sx = É I Z fejk - M J2 = (1 - 4)2 + (1 - 4)2 + (6 - 4)2 + (3 - 4)2 + (4 - 4)2 + (9 - 4)2 = 48 í=i j=i k=i Reziduálni součet čtverců: SE = ST - SA - SB = 48 -10,6 - 37 = 0,3 . Výsledky zapíšeme do tabulky analýzy rozptylu dvojného třídění bez interakcí. Zdroj variability součet čtverců st. vol. podíl S/f sE/fE způsob balení 10,6 1 10,6 63,99 druh reklamy 37 2 18,5 110,98 reziduálni 0,3 2 0,16 - celkem 48 5 - - Odpovídající kvantily: pro řádkový efekt F0j95(l52) = 18,1, pro sloupcový efekt F0,95(2,2) =19. Protože FA = 63,99 > 18,1, zamítáme na hladině významnosti 0,05 hypotézu, že způsob balení nemá vliv na prodej zboží. Podobně FB = 110,98 > 19, tedy na hladině významnosti 0,05 zamítáme hypotézu, že druh reklamy nemá vliv na prodej zboží. V případě sloupcového faktoru - druh reklamy - lze pomocí Scheffého nebo Tukeyovy metody zjistit, které druhy reklamy se od sebe liší na hladině významnosti 0,05. Nejprve vypočítáme absolutní hodnoty rozdílů sloupcových průměrů: \MA-M2 2-5-2 = 0,5, ML-M3\ = 2- 15 = 5,5, m7 -m. = 515 2 T = 5 Pravá strana Scheffého vzorce je: '2(b-l) Š7 -•F1_a(b-l,n-a-b + l) = ^|.0,16-19 = 2,52 ac n - a - b + Vidíme, že podle Scheffého metody se na hladině významnosti 0,05 liší sloupce 1, 3 (tj. bez reklamy a s reklamou v TV a novinách) a sloupce 2, 3 (tj. s reklamou jen v novinách a reklamou v TV a novinách). Pravá strana Tukeyova vzorce je: 1 ac n-a-b + 1 qi-a(b?n-a"b + 1)= q (3,2) = J^. 8,33 = 2,4 Podle Tukeyovy metody se na hladině významnosti 0,05 také liší sloupce 1,3 a sloupce 2, 3. Výhodnější je hodnota získaná Tukeyovou metodou, protože je menší. Podívejme se ještě na počítačové výstupy. Nejprve ověříme předpoklady metody. Nezávislost: splněno, plyne přímo za způsobu získání dat. Normalita dat: ověříme pomocí N-P grafu a S-W testu aplikovaného na rezidua: Normální p-graf z X Rezid. Pozorované, predpovězené a reziduálni hodnoty v PS1 3v*6c o /- / o -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4 | X Rezid.: SWW= 0,9129; p = 0,4558] Pozorovaný kvantil Na hladině významnosti 0,05 hypotézu o normalitě nezamítáme, p-hodnota S-W testu je 0,4558, což je větší než 0,05. Homogenita rozptylů: nelze ověřit, všech šest výběrů má rozsah 1. Výpočet průměrů: Úroveň N X Efekt Faktor Průměr Celkem 6 4,000000 A sacek 3 2,666667 A krabička 3 5,333333 B bez reklamy 2 2,000000 B reklama v novinách _2 2,500000 B reklama v TV a novinách 2 7,500000 Tabulka dvoufaktorové ANO VY bez interakcí: Jednorozm. výsledky pro každou záv. proměnnou (baleni_a_reklama.sta) Přeparametrizovaný model Dekompozice typu III Efekt Stupně volnosti X SČ X PČ X F X P A 1 10,6667 10,66667 64,0000 0,015268 B 2 37,0000 18,50000 111,0000 0,008929 Chivba 2 0,3333 0,16667 Celkem 6 144,0000 Na hladině významnosti 0,05 zamítáme jak hypotézu o ne významnosti typu balení výrobku tak hypotézu o nevýznamnosti druhu reklamy. Tabulka p-hodnot pro Tukeyovu metodu mnohonásobného porovnávání druhů reklamy: Č. buňky B {1} 2,0000 {2} 2,5000 {3} 7,5000 1 bez reklamy 0,548301 0,010156 2 reklama v novinách 0,548301 0,012218 3 reklama v TV a novinacl 0,010156 0,012218 Na hladině významnosti 0,05 se liší dvojice variant (bez reklamy, reklama v TV a novinách) a dvojice (reklama v novinách, reklamy v TV a novinách). Naopak se neliší dvojice (bez reklamy, reklama v novinách). X 4 2 0 -2 -4 A; Vážené průměry Současný efekt: F(1, 2)=64,000, p=,01527 Dekompozice typu III Vertikální sloupce označuji 0,95 intervaly spolehlivosti B; Vážené průměry Současný efekt: F(2, 2)=111,00, p=,00893 Dekompozice typu III Vertikální sloupce označují 0,95 intervaly spolehlivosti bez reklamy reklama v TV a novinách reklama v novinách B Řešení pomocí systému R Načteme data: > y<-c(1,1,6,3,4,9) > A<-c(l,l,l,2,2,2) > B<-c(l,2,3,1,2,3) > A<-factor(A,íabels=c('sacek1,'krabička')) > B<-factor(B,1abels=c('bez reklamy','reklama v novinách','reklama v TV a novi nach')) ■Vypočteme průměry a směrodatné odchylky v jednotlivých skupinách tříděných podle faktoru A: ■> tapply(Y,A,mean) sacek krabička ■2.666667 5.333333 > tapply(Y,A,sd) sacek krabička ■2.886751 3.214550 tapply(Y,ID,sd) Vypočteme průměry a směrodatné odchylky v jednotlivých skupinách tříděných podle faktoru B: ■> tapply(Y,B,mean) bez reklamy reklama v novinách reklama v TV a novinách 2.0 2.5 7.5 ■> tapply(Y,B,sd) bez reklamy reklama v novinách reklama v TV a novinách 1.414214 2.121320 2.121320 Celkový průměr: > mean(Y) [1] 4 Testujeme hypotézu o ne významnosti faktoru A, B: > vystup<-aov(Y~A+B) > summary(vystup) Df Sum Sq Mean Sq F value Pr(>F) A 1 10.67 10.667 64 0.01527 * B 2 37.00 18.500 111 0.00893 ** Residuals 2 0.33 0.167 Sigm"f. codes: 0 '***' 0.001 '**' 0.01 0.05 '.' 0.1 ' ' 1 Vidíme, že p-hodnota testu o nevýznamnosti způsobu balení 0,01527, což je menší než 0,05, tedy na hladině významnosti 0,05 nulovou hypotézu zamítáme. Rovněž p-hodnota 0,00893 testu p nevýznamnosti druhu reklamy je menší než 0,05, tedy na hladině významnosti 0,05 nulovou hypotézu zamítáme. S rizikem omylu nejvýše 5 % jsme prokázali, že úroveň prodeje daného [druhu zboží závisí na způsobu balení a druhu reklamy. Protože jsme hypotézy o ne významnosti faktorů A, B zamítli na hladině významnosti 0,05. přistoupíme k Tukeyově metodě mnohonásobného porovnání: > TukeyHSD(vystup) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Y ~ A + B) $A diff lwr up r p adj krabicka-sacek 2.666667 1.233682 4.099651 0.015116 |$B diff lwr up r p adj reklama v novinach-bez reklamy 0.5 -1.90489 2.90489 0.5481840 reklama v TV a novinach-bez reklamy 5.5 3.09511 7.90489 0.0099614 reklama v TV a novi nach-reklama v novinách 5.0 2.59511 7.40489 0.0120317 Vidíme, že p-hodnota pro porovnaní úrovně prodeje při použití reklamy v TV a novinách a bez reklamy je 0,0099, tedy na hladině významnosti 0,05 je rozdíl v úrovních prodeje prokázán. Dále, p-hodnota pro porovnání úrovně prodeje při použití reklamy v TV a novinách a reklamy jenom v novinách je 0,012, tedy na hladině významnosti 0,05 je rozdíl v úrovních prodeje prokázán. Nakonec vykreslíme graf závislosti počtu prodaných kusů zboží na druhu reklamy pro různé způsoby balení: > interaction.plot(B,A,Y,mean,"b",col=c("red","blue"),pch=c(17,15)) IZ ■TO ■1) krabička sacek bez reklamy reklama v novinách reklama v TV a novinách B Dvojné třídění s interakcemi Nyní předpokládáme, že faktory A a B se mohou ovlivňovat (např. některý způsob hnojení má zcela specifický vliv na určitý typ půdy). Náhodné veličiny Yyk se řídí modelem M0: Yyk = ji + oii + Pj + yij + Syk pro i = 1, ..., a, j = 1, ..., b, k = 1, ..., c, přičemž Yíj je interakce mezi faktorem A na úrovni i a faktorem B na úrovni j. V této situaci předpokládáme, že c > 2. Parametry ji, aÍ9 Pj neznáme. Požadujeme, aby platily tzv. reparametrizační rovnice: £ai=0,£pj=0,£ys=0,£rij=0. 1=1 j=l 1=1 j=l Nyní můžeme utvořit modely Mi: Yijk = |i + ai + pj + Sijk M2: Yijk = \i + cti + sijk M3: Yijk = |i + sijk (Lze samozřejmě použít i jiný řetězec modelů, kdy postupně klademe rovny nule parametry aÍ9 pÍ9 v jiném pořadí.) Vypočítame součty čtverců: a b c , . celkový ST=SSE(^jk-Mľ?fT = n-l i=l j=l k=l a řádkový sa = bcS(M, -M J , fA = a_ i, i=l sloupcový sb = acZ(M, ~M f , fB = b - 1, j=l reziduálni ^ -Z.Z.Z.l^k~1VV , fE = n-ab 1=1 j=i k=i ' a součet čtverců pro interakce sab = CX X KMy ~ Mi )~ (Mj 1=1 j=i Vliv interakcí je prokázán na hladině významnosti a, když FAB=^f^>F,_a((a-lXb-l),n-ab) e e Výsledky zapisujeme do tabulky analýzy rozptylu dvojného třídění s interakcemi: Zdroj variability součet čtverců st. vol. podíl S/f sE/fE řádkový faktor A SA fA = a-l sA/fA F sA/fA A SE/fE sloupcový faktor B Sb fB = b-l sB/fB F SB/fB B SE/fE interakce A,B Sab fAB = (a-l)(b-l) Sab/Íab S /f p 0AB ' AB AB" SE/fE reziduálni Se fE = n-ab sE/fE - celkem f i = n-1 - - Je třeba si povšimnout, že součet SAb + SE resp. fab + Íe dá hodnotu SE resp. fE v tabulce bez interakcí. Možné problémy v analýze rozptylu dvojného třídění s interakcemi a) Ukáže-li se vliv interakcí nevýznamný, vzniká otázka, zda testovat vliv řádků resp. sloupců pomocí tabulky s interakcemi nebo provést novou analýzu rozptylu, ale tentokrát bez interakcí. Převládá názor, že je zapotřebí dokončit analýzu rozptylu s interakcemi. b) Pokud interakce vyjdou významné a řádky a sloupce rovněž, zpravidla se nedoporučuje provádět mnohonásobné porovnávání, protože by se mohlo stát, že některá interakce by byla mnohem výraznější než příslušný řádkový resp. sloupcový efekt. c) Nejsou-li interakce významné a řádky resp. sloupce ano, pak lze provést mnohonásobné porovnávání zcela analogicky jako v případě třídění bez interakcí, avšak je jiný počet stupňů volnosti fE. Tabulka odhadů různých parametrů a rozptylů těchto odhadů parametr odhad rozptyl odhadu M... o2/n |i + (Xi Mi o2/bc U + Pi M., o2/ac H + cti + Pí + Yíí Hi. o2/c ai ML. - M... o2(a-l)/n ft Mi -M o2(b-l)/n Yii (Mii.-MJ-ÍM.j.-M...) o2(a-l)(b-l)/n Neznámý rozptyl o2 nahradíme jeho odhadem, tj. průměrným reziduálním čtvercem s =—-— n-ab' Příklad: Byly zkoumány výnosy sena (v q/ha) v závislosti na typu půdy (řádkový faktor A, úroveň 1 - normální půda, úroveň 2 - kyselá půda) a na způsobu hnojení (sloupcový faktor B, úroveň 1 - bez hnojení, úroveň 2 - hnojení chlévskou mrvou, úroveň 3 -hnojení vápenatým hnojivem). Každá kombinace faktorů A a B byla realizována čtyřikrát nezávisle na sobě. Výnosy sena jsou uvedeny v tabulce: B 1-bez hnojení 2-chlévská mrva 3-vápenaté hnojivo A 1-normální půda 28 32 30 30 37 36 39 36 34 38 37 36 2-kyselá půda 31 27 30 29 34 34 30 38 42 40 41 39 Na hladině významnosti 0,05 máme posoudit vliv typu půdy a způsobu hnojení (včetně případných interakcí) na výnosy sena. v Řešení: Data zpracujeme pomocí analýzy rozptylu dvojného třídění s interakcemi. Přitom a = 2, b = 3, c = 4, n = abc = 24. Ověření předpokladů: Nezávislost všech šesti výběrů: splněno, plyne přímo ze způsobu získání dat. Normalita dat: ověřeno pomocí N-P grafu a S-W testu aplikovaného na rezidua. Normální p-graf z X Rezid. Pozorované, předpovězené a reziduálni hodnoty v PS1 3v*24c -5 -4 -3 -2 -1 0 1 2 3 4 5 X Rezid.: SW-W= 0,9759; p = 0,8093| Pozorovaný kvantil Příslušná p-hodnota je 0,8093, tedy na hladině významnosti 0,05 hypotézu o normalitě reziduí nezamítáme. Homogenita rozptylů: nemusí se zkoumat, jde o vyvážené třídění. Jinak lze ověřit pomocí Levenova testu. PČ Efekt PČ Chyba F P X 0,600000 1,555556 0,385714 0,852058 Levenův test hypotézu o homogenitě rozptylů nezamítá na hladině významnosti 0,05, protože jeho p-hodnota je 0,852. Průměrné výnosy ve všech šesti skupinách: Č. buňky A B X Průměr N 1 normální bez hnojení 30 4 2 normální chlévská mrvc 37 4 3 normální vápenaté hnojiv( 36,25 4 4 kyselá bez hnojení 29,25 4 5 kyselá chlévská mrva 34 4 6 kyselá vápenaté hnojiv( 40,5 4 Tabulka dvoufaktorové ANO VY s interakcemi: Zdroj variability součet čtverců st. vol. podíl S/f F- S/f sE/fE typ půdy 0,166 1 0,166 0,04 způsob hnojení 318,25 2 159,125 41,81 interakce 55,084 2 27,542 7,24 reziduálni 68,5 18 3,8056 - celkem 442 23 - - Odpovídající kvantily: pro řádkový efekt F0,95(l,18) = 4,41, pro sloupcový efekt F0,95(2,18) = 3,55, pro interakce F0,95(2,18) = 3,55. Protože FA = 0,04 < 4,41, nezamítáme na hladině významnosti 0,05 hypotézu, že typ půdy neovlivňuje výnos sena. Dále FB = 41,81 > 3,55, tedy na hladině významnosti 0,05 se prokázal rozdíl mezi použitými způsoby hnojení. Jelikož Fab = 7,24 > 3,55, zamítáme na hladině významnosti 0,05 hypotézu o nevýznamnosti interakcí (tj. aspoň jeden způsob hnojení působí jinak na půdu normální než kyselou). Počítačový výstup: Efekt Jednorozměrné testy významnosti pro X (seno.sta) Pře parametrizován ý model Dekompozice typu III SČ Stupně volnosti PČ F P A 0,1667 1 0,1667 0,04380 0,836585 B 318,2500 2 159,1250 41,81387 0,000000 A*B 55,0833 2 27,5417 7,23723 0,004938 Chyba 68,5000 18 3,8056 Vidíme, že p-hodnota pro testovou statistiku FB je velmi blízká 0, tedy na hladině významnosti 0,05 zamítáme hypotézu, že způsob hnojení nemá vliv na výnosy sena. Podobně p-hodnota pro testovou statistiku FAB je 0,004938, což znamená, že na hladině významnosti 0,05 zamítáme hypotézu, že způsob hnojení působí na oba typy půd stejně. Graf závislosti průměrného výnosu sena na typu půdy: A*B; Nevážené průměry Současný efekt: F(2, 18)=7,2372, p=,00494 Dekompozice typu III Vertikální sloupce označují 0,95 intervaly spolehlivosti normální kyselá B bez hnojení B chlévská mrva B vápenaté hnojivo Graf závislosti průměrného výnosu sena na způsobu hnojení: A*B; Nevážené průměry Současný efekt: F(2, 18)=7,2372, p=,00494 Dekompozice typu III Vertikální sloupce označují 0,95 intervaly spolehlivosti V obou grafech se objevuje křížení, které je typické pro případ, kdy působí interakce mezi faktory A, B. Řešení pomocí systému R Načteme data: > seno <- read_csv("seno.csv") IZavedeme faktory A, B: > seno$A<-factor(seno$A) > seno$B<-factor(seno$B) IZjistíme počty pozorování v jednotlivých skupinách: 1> table(seno$A,seno$B) bez hnojeni chlevska mrva vápenaté hnojivo kysela 4 4 4 normálni 4 4 4 ■Vypočteme průměry a směr. odchylky výnosu sena ve skupinách tříděných podle faktoru A: > tapply(seno$x,seno$A,mean) kysela normálni ■34.58333 34.41667 > tapply(seno$x,seno$A,sd) kysela normálni ■5.230302 3.579191 ■Vypočteme průměry a směr. odchylky výnosu sena ve skupinách tříděných podle faktoru B: > tapply(seno$x,seno$B,mean) bez hnojeni chlevska mrva vápenaté hnojivo 29.625 35.500 38.375 > tapply(seno$x,seno$B,sd) bez hnojeni chlevska mrva vápenaté hnojivo 1.597990 2.828427 2.669270 Celkový průměr: > mean(seno$x) [1] 34.5 Vykreslíme krabicové diagramy: kysela.bez hnojení kysela.chlevska mrva -1-r kysela.vapenate hnojivo Testujeme hypotézu o ne významnosti faktoru A, B a jejich interakcí: > vystup<-aov(seno$x~seno$A*seno$B) > summary(vystup) Df Sum Sq Mean Sq F value Pr(>F) seno$A 1 0.2 0.17 0.044 0.83658 seno$B 2 318.2 159.12 41.814 1.72e-07 *** seno$A:seno$B 2 55.1 27.54 7.237 0.00494 ** Residuals 18 68.5 3.81 Sigm"f. codes: 0 '***' 0.001 '**' 0.01 0.05 '.' 0.1 ' ' 1 Vidíme, že p-hodnota testu o nevýznamnosti typu půdy je 0,83658, což je větší než 0,05, tedy na hladině významnosti 0,05 nulovou hypotézu nezamítáme. Ovšem p-hodnota l,72*e"7 testu o nevýznamnosti způsobu hnojení je menší než 0,05, tedy na hladině významnosti 0,05 nulovou hypotézu zamítáme. Také p-hodnota 0,00494 testu o nevýznamnosti interakcí mezi typem půdy a způsobem hnojení je menší než 0,05. S rizikem omylu nejvýše 5 % jsme prokázali, že výnos |sena závisí na způsobu hnojení a že různé způsoby hnojení působí jinak na různých typech půdy. | Předpoklady modelu ověříme pomocí diagnostických grafů: > par(mfrow=c(2,2)) > plot(vystup) _ 30 Residuals vs Fitted -O"" —r~ 32 —r~ 34 36 —r~ 38 Fitted values IB ra to 0 « o "O <Ľ o H o TľJ ra TľJ sz ra 40 Normal q-q T ■2 1 0 1 Theoretical Quantiles S- 30 Scale-Location i 32 I 34 I 36 I 33 Fitted values 40 Constant Leverage: Residuals vs Factor Levels -a-- senoSA: kysela I normálni Factor Level Combinations Protože jsme hypotézy o nevýznamnosti faktoru B a nevýznamnosti interakcí zamítli na hladině významnosti 0,05, přistoupíme k Tukeyově metodě mnohonásobného porovnání: > TukeyHSD(vystup) Tukey multiple comparisons of means 95% family-wise confidence level JFit: aov(formula = seno$X ~ seno$A * seno$B) l$~seno$A~ diff lwr upr p adj Inormalni-kysela -0.1666667 -1.839849 1.506516 0.8365845 |$~seno$B~ diff lwr 5.875 3.3856414 upr p adj 8.364359 0.0000307 Ichlevska mrva-bez hnojeni Ivapenate hnojivo-bez hnojeni 8.750 6.2606414 11.239359 0.0000001 Ivapenate hnojivo-chlevska mrva 2.875 0.3856414 5.364359 0.0223215 $~seno$A:seno$B~ Inormalni:bez hnojeni-kysela:bez hnojeni Ikysela:chlevska mrva-kysela:bez hnojeni normál ni:chlevska mrva-kysela:bez hnojeni Ikysela:vápenaté hnojivo-kysela:bez hnojeni Inormalniivapenate hnojivo-kysela:bez hnojeni Ikysela:chlevska mrva-normalni:bez hnojeni Inormalni:chlevska mrva-normalni:bez hnojeni Ikysela:vápenaté hnojivo-normalni:bez hnojeni Inormalniivapenate hnojivo-normalni:bez hnojeni Inormalni:chlevska mrva-kysela:chlevska mrva Ikysela:vápenaté hnojivo-kysela:chlevska mrva Inormalniivapenate hnojivo-kysela:chlevska mrva Ikysela:vápenaté hnojivo-normalniichlevska mrva normál niivapenate hnojivo-normalni:chlevska mrva normál niivapenate hnojivo-kysela:vapenate hnojivo diff lwr upr p adj 0 75 -3 6338199 5 1338199 0 9934178 4 75 0 3661801 9 1338199 0 0293348 7 75 3 3661801 12 1338199 0 0003078 11 25 6 8661801 15 6338199 0 0000025 7 00 2 6161801 11 3838199 0 0009516 4 00 -0 3838199 8 3838199 0 0856265 7 00 2 6161801 11 3838199 0 0009516 10 50 6 1161801 14 8838199 0 0000065 6 25 1 8661801 10 6338199 0 0029984 3 00 -1 3838199 7 3838199 0 2959479 6 50 2 1161801 10 8838199 0 0020426 2 25 -2 1338199 6 6338199 0 5900609 3 50 -0 8838199 7 8838199 0 1649328 -0 75 -5 1338199 3 6338199 0 9934178 -4 25 -8 6338199 0 1338199 0 0604845 Při zkoumání vlivu faktoru B vidíme, že se na hladině významnosti liší všechny tři dvojice způsobu hnojení. Při zkoumání vlivu interakcí na výnosy sena vidíme, že ze zkoumaných 15 dvojic se na hladině významnosti 0,05 liší 8. Nakonec vykreslíme graf závislosti průměrného výnosu sena na způsobu hnojení pro různé typy půdy: > interaction.plot(x.factor = seno$B, + trace.factor = seno$A, + response = seno$x, + fun = mean, + type="b", + col=c("red","blue"), + pch=c(17, 15), + fixed=TRUE, + leg.bty = "o") _ fee bez hnojeni chlevska mrva seno$B vápenaté hnojiva