MA012 Statistika II 2. Dvoufaktorová analýza rozptylu (Two-Way A NOVA) Ondřej Pokora (pokora@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno (podzim 2015) Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 1/49 Motivační příklad Příklad 1 Zkoumají se výnosy sena v tunách na hektar v závislosti na typu půdy a na způsobu hnojení. Každá kombinace byla realizována čtyřikrát, nezávisle na sobě. [t/ha] způsob hnojení (B): bez hnojení chlévská mrva vápenaté hnojivo typ půdy (A) normální kyselá 2,8; 3,2; 3,0; 3,0 3,7; 3,6; 3,9; 3,6 3,4; 3,8; 3,7; 3,6 3,1; 2,7; 3,0; 2,9 3,4; 3,4; 3,0; 3,8 4,2; 4,0; 4,1; 3,9 Na hladině významnosti 0,05 testujte hypotézy ■ Typ půdy nemá vliv na výnosy. ■ Způsob hnojení nemá vliv na výnosy. ■ Typ půdy a způsob hnojení jsou nezávislé, tj. neinteragují. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 2/49 Motivace V některých reálných situacích se celkový soubor sledovaných náhodných veličin rozpadá na dílčí výběry takovým způsobem, že přihlížíme ke dvěma faktorům (třídicím znakům). Podobně jako v jednofaktorové analýze rozptylu (One-Way ANOVA), se zajímáme o statistické posouzení toho, zda lze některým z faktorů, či oběma faktory, vysvětlit variabilitu pozorovaných hodnot. Princip dvoufaktorové analýzy ropztylu (Two-Way ANOVA) je analogický jednofaktorové variantě. Konstruuje se řetězec submodelů a postupně se porovnávají rozptyly, které jednotlivým modelům odpovídají. MA012 Statistika 11-2. Dvoufaktorová ANOVA 3/49 m Předpoklady ■ Uvažujeme dva faktory, A a £>. ■ Faktor A má a > 2 úrovní, faktor B má b > 2 úrovní. Pro každou kombinaci úrovní obou faktorů, tzn. pro (A = i, B =/), máme tli j výsledků (Vzyi,... ,Yijn.^, které tvoří náhodný výběr z rozložení N(iíjj,cr2), i = 1,... ,a, j = 1,... b. ■ V označení první index označuje skupinu podle úrovně faktoru A, druhý index označuje skupinu podle úrovně faktoru £>, třetí index značí pořadí měření v dané skupině. ■ Jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy kde Ejjk jsou stochasticky nezávislé náhodné veličiny s rozložením N(0,cr2), kde i = 1,...,a, j = 1,...,b a k = 1,...Rozptyl náhodných chyb a2 přitom není známý. MA012 Statistika 11-2. Dvoufaktorová ANOVA 4/49 m Dvojné třídění faktor B 1 b 1 (Vin,. • • / ^1 lnu') (Xlblf - - f ^1 briiij) faktor A a O^ijl/ • • • / Yijriij) — /Yalnal) Ofablr- ' ''Yabnah) Příklad 1 [t/ha] způsob hnojení (B): Bez hnojení chlévská Mrva Vápenaté hnojivo typ půdy (A) Normální Kyselá 2,8; 3,2; 3,0; 3,0 3,7; 3,6; 3,9; 3,6 3,4; 3,8; 3,7; 3,6 3,1; 2,7; 3,0; 2,9 3,4; 3,4; 3,0; 3,8 4,2; 4,0; 4,1; 3,9 Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 5/49 Součty a rozsahy výběrů ti{j součty ve skupinách: Yjja = ^ ^i]k k=l b nij a nij součty v řádcích: Yjuu = ^ ^ součty ve sloupcích: Ymjm — YLYL^^ j=l k=l i=l k=l a b nij celkový součet: X.. = £^£ Yijk z=l;=l fc=l & & počet měření pro A = z: U{m — Y^nij/ počet měření pro B = z: n.y = y^n 0 & íz & celkový rozsah souboru: /z = ^ YLnií YLni- YLn-í i=\j=\ i=l j=l Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 6/49 Průměry výběrů _ i Híj průměry ve skupinách: Yjja = — ^ Yijk Uii k=l _ j b nij _ -y a nij v řádcích: Yimm = ~YLYL Y*7*' ve slouPcích: Y./. = ~YLYL Yi)k ni- j=lk=l -i i=lk=l _ ^ a b nij celkový průměr: Y... = - ^ ^ ^ Y^ n z=l;=l]t=l MA012 Statistika 11-2. Dvoufaktorová ANOVA 7/49 m Počty a průměry ve skupinách faktor B 1 j b v řádcích 1 tí\\ ľi\j faktor A i tijj "i. a naj • nah na. ve sloupcích n i n faktor B 1 j v řádcích 1 Yi. fa ktor A i Vil •• y.. y i. a yai - 1 aj • ň* Y a■ ve sloupcích y . • Yub Y... Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 2. Dvoufaktorová ANOVA 8/49 Průměry a boxploty Příklad 1 y.. typ půdy (A) Normální Kyselá způsob hnojení (B): Bez hnojení chlévská Mrva Vápenaté hnojivo průměry Yi. 3,00 3,70 3,63 2,93 3,40 4,05 3,44 3,46 průměry Yaj 2,96 3,55 3,84 Y.. = 3,45 nij = p = 4/ nia = 12, naj = 8, CD Nor.V - O cz -C Nor.M - -Q O W —\ Nor.B - —1 cl N CO Kys.V - Kys.M - Q. Q. Kys.B - n = 24 3.0 3.5 4.0 Ondřej Pokora, PřF MU (2015) vynos MA012 Statistika 11-2. Dvoufaktorová ANOVA 9/49 Boxploty pro řádky a sloupce Příklad 1 O CO O C > CO o co Kys Nor o co o c > 00 o 00 typ pudy způsob hnojeni Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 10/49 Hypotézy Stanovíme hypotézy, které na hladině významnosti oc chceme testovat. H^q: všechny střednMiodnot^ j oproti alternativní hypotéze H^: některá(é) dvojice středních hodnot v řádcích se liší, tzn. faktor A má vliv j fígp: všechny střední hodnoty ve sloupcích jsou stejné, tzn. faktor fí nemá vliv j oproti alternativní hypotéze fígi: některá(é) dvojice středních hodnot ve sloupcích se liší, tzn. faktor fí má vliv j MA012 Statistika 11-2. Dvoufaktorová ANOVA Základní model M Definice 1 (model M) Náhodné veličiny Y^ se řídí modelem M, pokud Yijk = ľ + <*i + Pj + £ijk pro i = 1,...,a, i = _/,...,b a k = 1,...přičemž jsou stochasticky nezávislé náhodné veličiny s rozložením e^^ ~ N(0,cr2). Interpretace neznámých parametrů: ■ ]í je společná část střední hodnoty sledované veličiny • Jsou efekty faktoru A, odchylky od ]i způsobené vlivem A Pí/ - — /Pb Jsou e^kty faktoru £>, odchylky od ]i způsobené vlivem B ■ cr2 je rozptyl náhodných chyb MA012 Statistika 11-2. Dvoufaktorová ANOVA 12/49 M jako lineární regresní model MA012 Statistika 11-2. Dvoufaktorová ANOVA Model M Jaké rozměry a jakou hodnost má matice plánu X? Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA Model M Jaké rozměry a jakou hodnost má matice plánu X? X : n x (1 + a + b), h{X) =a + b-l Matice plánu tedy není plné hodnosti. Odhad vektoru parametrů 6 se proto počítá pomocí pseudoinverzní matice e = (x/x)-x/y/ anebo se přidávají tzv. reparametrizační rovnice (proč dvě a co vyjadřují?) f> = o, Eft = °- i=l j=l MA012 Statistika 11-2. Dvoufaktorová ANOVA Odhady parametrů v modelu M Věta 2 (odhady parametrů modelu M) Odhady parametru modelu M : Yijk = }i + oci + fy + eijk metodou nejmenších čtverců jsou rovny h = r..., Pj = Y.j.-Y.... Odhad střední hodnoty měření ve skupině (A = i, B = j) modelu M je rovný Tvrzení se dokazuje přímým výpočtem maticové rovnice pro odhad parametrů v lineárním regresním modelu. Porovnejte s odvozením v přednášce k jednofaktorové analýze rozptylu. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 15/49 Model MB Při zkoumání vlivu faktoru B testujeme v modelu M hypotézu HB0 : h = ■ ■ ■ = h = 0, HB1: 3 i e {!,...,&}: j8f-/ 0. Definice 3 (model Mg) i Náhodné veličiny se řídí modelem Mg, pokud + £ijk pro z = 1,...,a, i = j,...,b a k = 1,...,nzy , přičemž £z-y^ jsou stochasticky nezávislé náhodné veličiny s rozložením ~N(0,rr2). Interpretace neznámých parametrů: ■ ]i je společná část střední hodnoty sledované veličiny • Jsou efekty faktoru A, odchylky od ^ způsobené vlivem A ■ cr2 je rozptyl náhodných chyb MA012 Statistika 11-2. Dvoufaktorová ANOVA Mb jako lineární regresní model / Vin \ \^abnab/ Y = X 0L\ B tj. r = x B Jak vypadá matice plánu X# odpovídající modelu Mg? Jaké má rozměry a hodnost? Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA Mg jako lineární regresní model / Vin \ \*abnab/ —— V = x B tj. Y = xBeB Jak vypadá matice plánu Xg odpovídající modelu Mg? Jaké má rozměry a hodnost? X# získáme vynecháním posledních b sloupců z matice X. XB : n x (1 + a), /*(XB) = a Matice plánu tedy opět není plné hodnosti. Odhad vektoru parametrů dg se proto počítá pomocí pseudoinverzní matice @B = (XřBXB) ~X'BY, anebo se přidá reparametrizační rovnice Yli=i &i — 0- Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 17/49 Odhady parametrů v modelu Mg Řešením maticové rovnice pro linerání regresní model Mg lze spočítat: Věta 4 (odhady parametrů modelu Mg) Odhady parametrů modelu MB: Yijk = ií + oci +eijk metodou nejmenších čtverců jsou rovny ]i = Y..., Odhad střední hodnoty měření ve skupině (A — i, B = j) modelu Mg je rovný MA012 Statistika 11-2. Dvoufaktorová ANOVA 18/49 Model MA Při zkoumání vlivu faktoru A testujeme v modelu M hypotézu HA0 : oí\ = • • • = Ota = 0, HAi : 3 i E {!,...,a} : cíj^O. Definice 5 (model MA) Náhodné veličiny se řídí modelem MA, pokud pro i = 1,...,a, i = ],...,b a k = 1,...přičemž jsou stochasticky nezávislé náhodné veličiny s rozložením e^^ ~ N(0,cr2). Interpretace neznámých parametrů: ■ ]i je společná část střední hodnoty sledované veličiny i^i/• • jsou efekty faktoru £>, odchylky od ]i způsobené vlivem B ■ cr2 je rozptyl náhodných chyb Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 2. Dvoufaktorová ANOVA 19/49 Ma jako lineární regresní model, odhady parametrů Jak vypadá matice plánu pro model M^? Jaké má rozměry a hodnost? MA012 Statistika 11-2. Dvoufaktorová ANOVA M\ jako lineární regresní model, odhady parametrů Jak vypadá matice plánu X^ pro model MA? Jaké má rozměry a hodnost? Xa získáme vynecháním 2. až (fl+l)-ního sloupce z matice X. XA:nx(l + b), h(XA) = b Věta 6 (odhady parametrů modelu M^) Odhady parametrů modelu metodou nejmenších čtverců jsou rovny Pj = Y.j.-Y.... Odhad střední hodnoty měření ve skupině (A = i, B = j) modelu Ma je rovný Haj j k — Y-j-- Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 20/49 Minimální model Mq Při zkoumání vlivu obou faktorů vyjdeme testujeme v modelu Mg hypotézu HA0 : oí\ = • • • = oca = 0, HAi : 3 i E {!,...,a} : cíj^O. Definice 7 (model Mq) Náhodné veličiny se řídí modelem Mq, pokud pro i = 1,...,a, i = _/,...,b a = 1,...přičemž jsou stochasticky nezávislé náhodné veličiny s rozložením e^^ ~ N(0,cr2). Interpretace neznámých parametrů: ]i je střední hodnota sledované veličiny bez ohledu na kategorizaci dle faktorů ■ cr2 je rozptyl náhodných chyb MA012 Statistika 11-2. Dvoufaktorová ANOVA 21/49 Mo jako lineární regresní model, odhad // Y = X0Íi Jak vypadá matice plánu Xq pro model Mq? Jaké má rozměry a hodnost? MA012 Statistika 11-2. Dvoufaktorová ANOVA Mq jako lineární regresní model, odhad // Y = Xoli Jak vypadá matice plánu Xq pro model Mq? Jaké má rozměry a hodnost? X0 = \n, XA:nx 1, h{XA) = 1 Matice je v tomto modelu plné hodnosti a odhad parametru ]i počítáme klasicky: Věta 8 (odhady parametrů modelu Mq) V modelu : Yijk = H + eijk je odhad parametru ]i metodou nejmenších čtverců rovný FAjjk — (xoxo) Xf0Y — Y.„. MA012 Statistika 11-2. Dvoufaktorová ANOVA 22/49 Shrnutí: modely a submodely M : ^ijk = }i + oci + fy + eijk mb : ^ i] k = }í + cíj +£ijk ^ i] k = f +Pj + £ijk M0: ^ijk = v + Zijk Jaké řetězce submodelů lze vytvořit? Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA Shrnutí: modely a submodely M : Y i j k = }i + oci + fy + eijk MB : Y i j k = }í + cíj +£ijk Y i j k = F +Pj + £ijk M0: Yijk = V + Zijk Jaké řetězce submodelů lze vytvořit? Pro postupné testování hypotéz v analýze rozptylu se volí vždy jeden z řetězců submodelů, v praxi obvykle M —> Mg —> Mq. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 23/49 Praxe V praxi volí většina statistických softwarů (mj. i R) odlišnou stavbu modelů s *i = 0, j8i = 0, kdy se neuvažují reparametrizační rovnice. Tato odlišná parametrizace nemá vliv na vlastní výpočet, pouze parametry modelů mají odlišnou interpretaci. První úrovně faktorů A a B jsou tedy stanoveny jako referenční. Parametr ji zde interpretujeme jako střední hodnotu kategorie (A = 1, B = 1), a efekty 0L2,...,0La, resp. /32, ...,j6fr, vyjadřují odchylky vlivem faktoru A, resp. B, od této střední hodnoty. Definice 9 (vyvážené třídění) O vyváženém třídění hovoříme, pokud je počet ve všech kategoriích stejný, Při vyváženém třídění dostáváme n = abp, tijt = fcp, ntj = ap. 24/49 Součty čtverců Skupinový součet čtverců Sg charakterizuje variabilitu mezi jednotlivými náhodnými výběry ve skupinách faktoru £>, Jde tedy o součet čtverců rozdílů odhadů mezi modely M a Mg: sb = E E E (&■;■* - fru;*) = E E nij (y.j. - Y-) = av E y?/. -n y- i=lj=lk=l i=\j=\ j=l Podobně SA charakterizuje variabilitu mezi jednotlivými náhodnými výběry ve skupinách faktoru A. Musíme však dodržet pořadí submodelů v řetězci, počítáme proto součet čtverců rozdílů odhadů mezi modely Mg a Mo: Sa = E E E {pB.ijk - Fo,ijk) = E Enij (yi- - Y-) =bp'ĽYl.-nY- i=lj=lk=l i=\j=\ j=l Celkový součet čtverců charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru, bez ohledu na faktory. Jde tedy o součet čtverců rozdílů odhadů mezi pozorovanými veličinami a modelem Mq: st = E E E (V - mu) = E E E - Y-) = LLLYh~n Y- i=lj=lk=l z=l/=lfc=l z=l/=lfc=l Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 25/49 Součty čtverců Reziduálni součet čtverců charakterizuje varibilitu nevysvětlenou modelem M: Analýza rozptylu dvojného třídění je založena na porovnání podílů roztpylů Sg/Se a S^/Se vážených odpovídajícími stupni volnosti. MA012 Statistika 11-2. Dvoufaktorová ANOVA ANOVA tabulka dvojného třídění bez interakcí Předcházející pojmy se shrnují v tzv. tabulce analýzy rozptylu dvojného třídění: Zdroj variability Součet čtverců SS Stupně volnosti df Podíl MS = f F=MS sz p-hodnota řádky (A) Sa ms* - k P _ MSA rA - MSe P(F > Fa) sloupce (B) Sb dfB = b-l MSB = SJ ° dfB r MS b B = MSe P(F > Fb) reziduálni Se dfe = n — a- b + l MSe = S/f e dfe — — celkový St dfj = n — 1 - — — MA012 Statistika 11-2. Dvoufaktorová ANOVA Testovací statistiky Věta 11 Rozdíl mezi modely M a Mg ověřujeme pomocí testové statistiky Fb = SB/dfi b Se/dfe ' která má za platnosti Hbq rozdělení pravděpodobnosti FB~F(dfB,dfe) =F(b-l,n-a-b + l). Rozdíl mezi modely MB a Mq ověřujeme pomocí testové statistiky FA = SA/dfÁ A Se/dfe ' která má za platnosti H^q rozdělení pravděpodobnosti FA ~ F(dfA/dfe) F (a — l,n — a — & + 1). Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 28/49 Výsledek testování Věta 12 Porovnáváme modely M a Mg. Pokud FB = ^^>F1_Ä(6-l/n-fl-6 + l)/ zamítneme na hladině významnosti oc nulovou hypotézu H^, tzn. statisticky prokážeme vliv faktoru B (sloupce). Pokračujeme porovnáním modelů Mg a Mq. Pokud FA = ^^>F1_K(a-lrn-a-b + l)r zamítneme navíc na hladině významnosti oc nulovou hypotézu H^q, tzn. statisticky prokážeme také vliv faktoru a (řádky). MA012 Statistika 11-2. Dvoufaktorová ANOVA 29/49 Postup testování ve dvojném třídění 1. M Pomocí Fg testujeme rozdíly mezi sloupci (faktor B) a přitom přihlížíme k eventuálním řádkovým efektům. 2. MB M0 Pomocí FA testujeme rozdíly mezi řádky (faktor A), nebereme však v úvahu případný vliv sloupcových efektů. MA012 Statistika 11-2. Dvoufaktorová ANOVA Postup testování ve dvojném třídění 1. M Pomocí Fg testujeme rozdíly mezi sloupci (faktor B) a přitom přihlížíme k eventuálním řádkovým efektům. 2. MB —> M0 Pomocí FA testujeme rozdíly mezi řádky (faktor A), nebereme však v úvahu případný vliv sloupcových efektů. jiný postup: M —> Ma —> M0 Analýzu rozptylu můžeme ale provést také v řetězci M —> Ma —> Mq, čímž dokážeme testovat rozdíly mezi řádky (faktor A) při přihlédnutí k eventuálním sloupcovým efektům. V případě vyváženého designu vyjdou analýzy obou řetězců stejně. Pro nevyvážený design mohou analýzy obou řetězců vyjít odlišné. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 30/49 I Mnohonásobné porovnávání Zjistíme-li významný rozdíl mezi řádky (faktor A), zjišťujeme dále, které řádky (úrovně faktoru A) se od sebe signifikantně liší. K ověření máme opět Scheffého metodu a Tukeyovu metodu, z nichž v praxi vybíráme tu, která je citlivější. Využíváme přitom následující tvrzení: Věta 13 Za platnosti M jsou veličiny {Y\ Y a..) stochasticky nezávislé a platí b p[n' bp I ' Z l y • • • y ď • Zjistíme-li významný rozdíl mezi sloupci (faktor B), analogicky zjišťujeme, které sloupce (úrovně faktoru B) se od sebe signifikantně liší. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 31/49 Porovnání řádků (faktor A) Porovnávání řádků (A = u) a (A = v) odpovídá porovnávání efektů au a av Věta 14 (Scheffého metoda) Hypotézu o rovnosti ocu = ocv zamítáme, pokud 2(a - l)Se —--t——t Fi_a (a - 1, n - a - & + 1) bp (n — a — b + 1) Věta 15 (Tukeyova metoda) Hypotézu o rovnosti ocu = ocv zamítáme, pokud —(-6 u , ^ qi-cc(a,n -a-b + 1) bp{n — a — b + 1) MA012 Statistika 11-2. Dvoufaktorová ANOVA 32/49 Porovnání sloupců (faktor B) Porovnávání řádků (B = u) a (B = v) odpovídá porovnávání efektů jSM a jS Věta 16 (Scheffého metoda) Hypotézu o rovnosti fiu = fiv zamítáme, pokud V' 2(6-l)Sť ap (n — a — b + 1) Fi-ol(P - l,n -a - b + 1) Věta 17 (Tukeyova metoda) Hypotézu o rovnosti fiu = fiv zamítáme, pokud y.u.-y.v.\ > \ —t- u , ^ qi-oc(b,n-a-b + l) y ap{n — a — b + 1) MA012 Statistika 11-2. Dvoufaktorová ANOVA 33/49 Dvojné třídění s interakcemi (vyvážené) U dvojného třídění se často stává, že se řádkové a sloupcové efekty jen prostě nesčítají, jak to předpokládá náš model M. V takových situacích uvažujeme následující komplexnější model. Definice 18 (model M*) Náhodné veličiny se řídí modelem M*, pokud Yijk = }i + 0Ci + Pj + K] + Zijk pro i = 1,...,a, i = ],...,b a k = 1,...,p, přičemž £z-y^ jsou stochasticky nezávislé náhodné veličiny s rozložením e^^ ~ N(0,cr2). Interpretace neznámých parametrů: ■ ]i je společná část střední hodnoty sledované veličiny ■ oí\, ... ,oca jsou efekty faktoru A, ■ j6i,..., jSfr jsou efekty faktoru B, ■ Azy [i = 1,..., a, _/ = 1,..., b) jsou tzv. interakce, ■ cr2 je rozptyl náhodných chyb Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 2. Dvoufaktorová ANOVA 34/49 Model M Zapíšeme M* jako lineární regresní model: V = X* (ji, oi\,..., oia, j6i,..., j6&, Ai i,..., v-v--- vektor parametrů 0* Jaké rozměry a jakou hodnost má matice plánu X*? Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA Model M Zapíšeme M* jako lineární regresní model: vektor parametrů 0* Jaké rozměry a jakou hodnost má matice plánu X*? X* : n x (1 + a + b + ab), /z(X*) = a b Matice plánu není plné hodnosti. Model se obvykle řeší přidáním reparametrizačních rovnic a b a b i=l i=l Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 35/49 Odhady parametrů v modelu M Věta 19 (odhady parametrů modelu M*) Odhady parametru modelu M* : ji + 0Ĺj + fy + Aj j + Ejjk metodou nejmenších čtverců jsou rovny h = r..., <*í = y í..-y..., Pj = Ymj.-Ym, ^ij ^ij. Y Í.. Y'j- Y'"' Odhad strední hodnoty měření ve skupině (A = i, B = j) modelu M* je rovný F*ijk ~ ^ i j.' Porovnejte s odhady pro model M. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 36/49 Součty čtverců Věta 20 Při vyváženém dvojném třídění s interakcemi platí: SB = apY^Y2:-nY.„, SA = bp^Ylm-nY..., a b níj i=lj=lk=l a b nij a b l=l;=ljt=l 1=1 ;=1 Sab — St — Sa — Sb — Se. Porovnejte se součty čtverců pro model M. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA ANOVA tabulka dvojného třídění s interakcemi Tabulka analýzy rozptylu dvojného třídění s interakcemi: Zdroj variability Součet čtverců SS Stupně volnosti df Podíl MS = f f=ms sz p-hodnota řádky (a) Sa ú/a — a ~ 1 MSa - li r msa ra - mse P(F > Fa) sloupce (B) Sb dfB = b-l P msb b ~ mse P(F > Fb) interakce Sab dfAB = (a-l)(b-l) MSAB = rAn _ msab řab ~ mse P(F > FAB) reziduální Se dfe = n — ab — — celkový St dfj = n — 1 — — — MA012 Statistika 11-2. Dvoufaktorová ANOVA Testování v modelu s interakcemi Testování ve dvojném třídění s interakcemi probíhá obvykle v řetězci submodelů M* —> M —> MB —> M0. Při vyváženém třídění lze řetězec submodelů libovolně měnit bez změny výsledku Věta 21 Porovnáváme modely M* a M. Pokud Fab = > Fi-a ((« -l)(b-l),n-ab), zamítneme na hladině významnosti oc nulovou hypotézu rf*o • Azy = 0, x: = 1,..., u, j = 1,..., b, tzn. statisticky prokážeme vliv interakcí řádků a sloupců. Porovnávání dvojic řádků a dvojic sloupců se dále provádí podle Vět 14-17, v nichž se upraví počet stupňů volnosti dfe tak, že (n — a — b + 1) nahradíme (n — ab). Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 39/49 I Shrnutí k čemu se používá jednoduché a dvojné třídění (s interakcemi) testy ověření podmínek - normalita dat, homogenita rozptylů lineární regresní modely, význam parametrů, řetězec submodelů hypotézy a jejich souvislost s testováním submodelů testovací statistiky v analýze rozptylu založené na součtech čtverců ■ interpretace výsledků v ANOVA tabulce ■ výpočet efektů a interakcí a jejich interpretace výpočet středních hodnot ve skupinách ■ metody mnohonásobného porovnávání Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 40 ANOVA v R Funkce pro analýzu rozptylu: model <- aov (formule, data) Zápis formule: # jednoduché trideni Y ~ faktorA # dvojné trideni bez interakci Y ~ faktorA + faktorB # dvojné trideni s inter akcemi Y ~ faktorA + faktorB + faktorA:faktorB # dvojné trideni s inter akcemi Y ~ faktorA * faktorB Porovnání regresních modelů: modeli <- lm (formulel, data) model2 <- lm (formule2, data) model <- anova (modeli, model2) Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA Příklad Příklad 1 Zkoumají se výnosy sena v tunách na hektar v závislosti na typu půdy a na způsobu hnojení Každá kombinace byla realizována čtyřikrát, nezávisle na sobě. [t/ha] způsob hnojení (B): Bez hnojení chlévská Mrva Vápenaté hnojivo typ půdy (A) Normální Kyselá 2,8; 3,2; 3,0; 3,0 3,7; 3,6; 3,9; 3,6 3,4; 3,8; 3,7; 3,6 3,1; 2,7; 3,0; 2,9 3,4; 3,4; 3,0; 3,8 4,2; 4,0; 4,1; 3,9 o .c -Q O W Q. N CC "D Q. Q. Nor.V -Nor.M -Nor.B -Kys.V -Kys.M -Kys.B - 3.0 3.5 4.0 MA012 Statistika 11-2. Dvoufaktorová ANOVA ANOVA tabulka dvojného třídění ^ Df Sum Sq Mean Sq F value Pr(>F) puda 1 0.002 0. 0017 0.027 0.871 hnoj eni 2 3.182 1. 5912 25.752 2.93e-06 ** Residuals 20 1.236 0. 0618 Tables of means Tables of effects Grand mean puda 3.45 puda puda Kys Nor puda 0.008333 -0.008333 Kys Nor hnoj eni 3.458 3.442 hnoj eni hnoj eni B M V hnoj eni -0.4875 0.1000 0.3875 B M V 2.963 3.550 3.838 MA012 Statistika 11-2. Dvoufaktorová ANOVA 43/49 (Intercept) pudaNor hnojeniM hnojeniV 2.97083333 -0.01666667 0.58750000 0.87500000 Scheffe (typ pudy) trt means M 1 Kys 3.458333 a 2 Nor 3.441667 a 95% family-wise confidence level Scheffé (způsob hnojení) trt means M 1 V 3.8375 a 2 M 3.5500 a 3 B 2.9625 b )5% family-wi ifidence N or-Kys -0.2 -0.1 0.0 0.1 0.2 M-B V-B V-M 0.0 0.2 0.4 0.6 0.8 1.0 1.2 _ Differences in mean levels of puda Differences in mean levels of hnojenj_ Ondrei Pokora. PrF ML) (2015) MA012 Statistika II - 2. Dvoufaktorova ANOVA 44/49 ANOVA tabulka dvojného třídění s interakcemi Df Sum Sq Mean Sq F value puda 1 0.002 0.0017 0.044 hnojeni 2 3.182 1.5912 41.814 puda:hnojeni 2 0.551 0.2754 7.237 Residuals 18 0.685 0.0381 Pr(>F) 0.83658 1.72e-07 *** 0.00494 ** parametry (nahoře efekty, dole interakce) (Intercept) pudaNor hnojeniM hnojeniV 2.925 0.075 0.475 1.125 pudaNor:hnoj eniM pudaNor:hnoj eniV 0.225 -0.500 Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 45/49 Tables of effects puda puda Kys Nor 0.008333 -0.008333 hnoj eni hnoj eni B M V -0.4875 0.1000 0.3875 puda:hnoj eni hnoj eni puda B M V Kys -0.04583 -0.15833 0.20417 Nor 0.04583 0.15833 -0.20417 t Tables of means Grand mean 3.45 puda puda Kys Nor 3.458 3.442 hnoj eni hnoj eni B M V 2.963 3.550 3.838 puda:hnoj eni hnoj eni puda B M V Kys 2.925 3.400 4.050 Nor 3.000 3.700 3.625 MA012 Statistika 11-2. Dvoufaktorová ANOVA 46/49 Scheffé (typ půdy) trt means M 1 Kys 3.458333 a 2 Nor 3.441667 a 95% family-wise confidence level Scheffé (způsob hnojení) trt means M 1 V 3.8375 a 2 M 3 . 5500 b 3 B 2 . 9625 c 95% family-wise confidence level 95% family-wise confidence level Nor-Kys - —i-r -0.15 -0.05 —i-1-r 0.05 0.15 M-B V-B - V-M - — — Differences in mean levels of puda 0.0 0.2 0.4 0.6 0.8 1.0 Differences in mean levels of hnojeni Nor:B-Kys:M-Nor:M-Kys:V-Nor:V-Kys:M-Nor:M-Kys:V-Nor:V-Nor:M-Kys:V-Nor:V-Kys:V-Nor:V-Nor:V- -Kys:B -Kys:B -Kys:B -Kys:B -Kys:B -Nor:B -Nor:B -Nor:B -Nor:B Kys: M Kys: M Kys: M Nor:M Nor:M -Kys:V -i —i-1-1-1-r -0.5 0.0 0.5 1.0 1.5 Differences in mean levels of puda:hnojeni MA012 Statistika 11-2. Dvoufaktorová ANOVA 47/49 ANOVA tabulka jednoduchého třídění Df Sum Sq Mean Sq F value Pr(>F) group 5 3.735 0.7470 19.63 1.02e-06 *** Residuals 18 0.685 0.0381 parametry (Intercept) 2 . 925 groupKys.M groupKys.V groupNor.B groupNor.M groupNor.V 0.475 1.125 0.075 0.775 0.700 Tables of means Grand mean 3.45 group group Kys.B Kys.M Kys.V Nor.B Nor.M Nor.V 2.925 3.400 4.050 3.000 3.700 3.625 Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 48/49 Tables of effects group group Kys.B Kys.M Kys.V Nor.B Nor.M Nor.V -0.525 -0.050 0.600 -0.450 0.250 0.175 95% family-wise confidence level Scheffé (půda.hnojení) trt means M 1 Kys.V 4.050 a 2 Nor.M 3.700 ab 3 Nor.V 3.625 ab 4 Kys.M 3.400 be 5 Nor.B 3.000 c 6 Kys.B 2.925 c Kys.M-Kys.V-Nor.B-Nor.M-Nor.V-Kys.V-Nor.B-Nor.M-Nor.V-Nor.B-Nor.M-Nor.V-Nor.M-Nor.V-Nor.V- -Kys.B -Kys.B -Kys.B -Kys.B -Kys.B Kys.M Kys.M Kys.M Kys.M -Kys.V -Kys.V -Kys.V -Nor. B -Nor.B Nor.M -1.5 -0.5 0.5 1.5 Differences in mean levels of group Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-2. Dvoufaktorová ANOVA 49/49