Osnova přednášky Analýza rozptylu jednoduchého třídění Motivace Označení Součty čtverců Testování hypotézy o shodě středních hodnot Testování hypotézy o shodě rozptylů Post - hoc metody mnohonásobného porovnávání Doporučený postup při provádění analýzy rozptylu Příklad ANOVA jako speciální případ obecného lineárního modelu Kódování úrovní faktoru pomocí indikátorových proměnných Odhady parametrů modelu Analýza rozptylu jednoduchého třídění (jednofaktorová ANO V A) Motivace: ANOVA je statistická metoda, která slouží k porovnání úrovně sledované náhodné veličiny Y intervalového či poměrového typu v několika populacích. Tyto populace jsou vymezeny variantami třídicího faktoru A, což je veličina nominálního nebo ordinálního typu. Počet variant faktoru A bývá poměrně malý - do 10. Jednotlivým variantám faktoru A se říká úrovně. Prostřednictvím náhodných výběrů z jednotlivých populací zkoumáme, zda faktor A má vliv na variabilitu hodnoty veličiny Y. Příklady použití ANO VY: sledovaná veličina Y třídicí faktor A hmotnostní přírůstek selat druh krmiva čas dopravy do zaměstnání druh dopravy koncentrace ozónu v ovzduší lokalita počet bodů v závěrečném testu výuková metoda směnový výkon dělníků druh osvětlení pracoviště Na hladině významnosti a testujeme nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné, tj. Ho- [i\ ... poprou alternativní hypotéze Hi: aspoň jedna dvojice středních hodnot se liší. Jedná se tedy o zobecnění dvouvýběrového t-testu a na první pohled se zdá, že stačí utvořit Q dvojic náhodných výběrů a na každou dvojici aplikovat dvouvýběrový t-test. Hypotézu o shodě všech středních hodnot bychom pak zamítli, pokud aspoň v jednom případě z írl porovnávání se prokáže odlišnost středních hodnot. Odtud je vidět, že v2/ k neoprávněnému zamítnutí nulové hypotézy (tj. k chybě 1. druhu) může dojít s pravděpodobností větší než a. Tato pravděpodobnost je shora omezena číslem 1- (1- a)r. Např. pro a = 0,05 a r = 3 je tato pravděpodobnost 0,1426, pro r = 4 je 0,1855 a pro r = 5 dokonce 0,2262. Proto ve 30. letech 20. století vytvořil R. A. Fisher metodu ANOVA (analýza rozptylu, v popsané situaci konkrétně analýza rozptylu jednoduchého třídění), která uvedenou podmínku splňuje. Pokud na hladině významnosti a zamítneme nulovou hypotézu, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. Ilustrace: Hn nezamítáme DATA ANOVA STOP provést mnohonásobné porovnávání Ho zamítáme Předpokládáme, že faktor A má r > 3 úrovní a přitom i-té úrovni odpovídá ni > 2 pozorování Yil5..., Y^. ? které tvoří náhodný výběr z rozložení N(uj, o2), i = 1, r a jednotlivé náhodné výběry jsou stochasticky nezávislé. j-té pozorování v i-tém výběru lze zapsat ve tvaru Yy = Uj + Sy, kde sy jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, o2), i = 1, ..., r, j = 1, ..., n^ Výsledky lze zapsat do tabulky faktor A výsledky úroveň 1 Y Y 1 li'-"' 1ln1 úroveň 2 Y Y í 2i,..., i2n2 • • • • • • úroveň r Y Y 1 rl>""> xnir Ilustrace: -1-1-1-> 1. úroveň 2. ú roveň 3. úroveň úrovně faktoru A Označení: r n = X ni... celkový rozsah všech r výběrů i=l n. Y. .=XY«... součet hodnot v i-tém výběru Mi = ~Yi ... výběrový průměr v i-tém výběru Si = n _1Ž(yíj ~Miy ... výběrový rozptyl i-tého výběru — ... vážený průměr výběrových rozptylů q 2 _ 1=1_ n - r r lij součet hodnot všech výběrů 1=1 j=i M.. = ~Y ... celkový průměr všech r výběrů Součty čtverců: r n; celkový součet čtverců (charakterizuje variabilitu jednotlivých i=l j=l pozorování kolem celkového průměru), počet stupňů volnosti fT = n - 1, r sa = X ni (Mi ~ M ) ... skupinový součet čtverců (charakterizuje variabilitu mezi i=l jednotlivými náhodnými výběry), počet stupňů volnosti fA = r - 1. Sa _ SA Podíl f _ i se nazývá průměrný skupinový čtverec nebo též rozptyl vysvětlený faktorem A či meziskupinový rozptyl. r lij . reziduálni součet čtverců (charakterizuje variabilitu 1=1 j=i uvnitř jednotlivých výběrů), počet stupňů volnosti fE = n - r. SE _ SE Podíl "JT" ~ se nazývá průměrný reziduálni čtverec nebo též rozptyl nevysvětlený faktorem A či vnitroskupinový rozptyl. Lze dokázat, že ST = SA + SE. Celková variabilita sledované veličiny Y se rozkládá na variabilitu mezi výběry a variabilitu uvnitř výběrů. Za splnění podmínky homoskedasticity (tzn., že všech r náhodných výběrů pochází 2 ^E z rozložení se stejným rozptylem o ) je průměrný reziduálni čtverec nestranným odhadem neznámého rozptylu o2. SA Za platnosti hypotézy o shodě středních hodnot je průměrný skupinový čtverec ^ také nestranným odhadem neznámého rozptylu o2. Testování hypotézy o shodě středních hodnot Náhodné veličiny Yy se řídí modelem M0: Yij = jLti + Sij = ji + oii + Sij pro i = 1, ..., r, j = 1, ..., nÍ9 přičemž Sij jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, o2), ji je společná část střední hodnoty závisle proměnné veličiny, oii je efekt faktoru A na úrovni i. Parametry ji, oii neznáme. r Požadujeme, aby platila tzv. reparametrizační rovnice: Xniai = 0. i=l (Pokud je třídění vyvážené, tj. všechny výběry mají stejný rozsah: ni = n2 = ... = r pak lze použít zjednodušenou podmínku Xai = 0.) Pokud by nezáleželo na faktoru A, platila by hypotéza ai = ... = ar = 0 a dostali bychom model Mi: Yij = n + ey. Během analýzy rozptylu tedy zkoumáme, zda výběrové průměry ML, ..., Mr se od sebe liší pouze v mezích náhodného kolísání kolem celkového průměru M nebo zda se projevuje vliv faktoru A. Pokud převažuje vliv vnitroskupinové variability nad meziskupinovou variabilitou, vliv faktoru A je nevýznamný. V opačném případě je významný a hypotéza o shodě středních hodnot bude zamítnuta. p _ Sa / fa Rozdíl mezi modely M0 a Mi ověřujeme pomocí testové statistiky A s /f 9 která se E E řídí rozložením F(fA, fs), je-li model Mi správný. Hypotézu o nevýznamnosti faktoru A tedy zamítneme na hladině významnosti a, když platí: FA> Fi_a(fA, fs). Vidíme, že test hypotézy o shodě r středních hodnot byl převeden na ekvivalentní test hypotézy o podílu dvou rozptylů (meziskupinového a vnitroskupinového). Proto uvedená metoda nese název analýza rozptylu. Výsledky výpočtů zapisujeme do tabulky analýzy rozptylu jednoduchého třídění. Zdroj variability součet čtverců stupně volnosti podíl FA skupiny SA fA = r-l sA/fA SA/f a sE/fE reziduálni SE fE = n - r sE/fE - celkový Sx f i = n - 1 - - Silu závislosti náhodné veličiny Y na faktoru A můžeme měřit pomocí poměru determinace: c . Nabývá hodnot z intervalu . Testování hypotézy o shodě rozptylů Před provedením analýzy rozptyluje zapotřebí ověřit předpoklad o shodě rozptylů v daných r výběrech. a) Levenův test: Položme Zy = Yl} -Ml | m Označíme Mzi=-Žzij MZ=IXŽZÍJ SzE^ZZta-M^)2 S^Jn^-Mj nx j=i ' n 1=1 j=i ' 1=1 j=i ' 1=1 Platí-li hypotéza o shodě rozptylů, pak statistika _SZA/(r-l) ^ SzE/(n_r)-F(r-l,n-r). Hypotézu o shodě rozptylů tedy zamítáme na asymptotické hladině významnosti a, když FZA > Fi_a(r - 1, n - r). (Levenův test je vlastně založen na analýze rozptylu absolutních hodnot centrovaných pozorování. Vzhledem k tomu, že náhodné veličiny Xy- - Mi nejsou stochasticky nezávislé a absolutní hodnoty těchto veličin nemají normální rozložení, je Levenův test pouze aproximativní.) b) Brownův - Forsytheův test je modifikací Levenova testu. Modifikace spočívá v tom, že místo výběrového průměru i-tého výběru se při výpočtu veličiny zs používá medián i-tého výběru. c) Bartlettův test: Platí-li hypotéza o shodě rozptylů a rozsahy všech výběrů jsou větší než 6, pak statistika B = I C (n-rJlnS^-^íiii-lJlnS/ i=l se asymptoticky řídí rozložením %2 (r -1). Přitom ( konstanta C 1 + 3(r -1) ^ n -1 n - r a S*2 je vážený průměr výběrových rozptylů. H0 zamítáme na asymptotické hladině významnosti a, když statistika B se realizuje v kritickém oboru W = (x2i-a (r -1), oo) _ Poznámka k testům homogenity rozptylů: Ze simulačních studií vyplývá, že pravděpodobnost chyby 1. druhu (tj. pravděpodobnost neoprávněného zamítnutí pravdivé nulové hypotézy) je u Bartlettova testu blízká obvykle volené hladině významnosti 0,05 pouze pro výběry z normálního rozložení. Pro větší počty výběrů z výrazně nenormálních rozložení (např. výběry z exponenciálního rozložení) výrazně stoupá pravděpodobnost chyby 1. druhu. Naopak Brownův - Forsytheův test udrží nízkou pravděpodobnost chyby 1. druhu i pro velký počet výběrů pocházejících z nenormálních rozložení. Post - hoc metody mnohonásobného porovnávání Zamítneme-li na hladině významnosti a hypotézu o shodě středních hodnot, chceme zjistit, které dvojice středních hodnot se liší na dané hladině významnosti a, tj. na hladině významnosti a testujeme H0: \i\ = |ik proti Hi: \i\ ^ |ik pro všechna 1, k = 1,.., r, l^k. a) Mají-li všechny výběry týž rozsah p (říkáme, že třídění je vyvážené), použijeme Tukeyovu metodu. Mk -ML Testová statistika má tvar . Rovnost středních hodnot |ik a Uj zamítneme na Vp Mk.-ML hladině významnosti a, když , kde hodnoty qi.a(r, n-r) jsou Vp kvantily studentizovaného rozpětí a najdeme je ve statistických tabulkách. n _ Y(n) ~ Y(l) (Studentizované rozpětí je náhodná veličina ^ ~ .) Existuje modifikace Tukeyovy metody pro nestejné rozsahy výběrů, nazývá se Tukeyova HSD metoda. Mk.-ML V tomto případě má testová statistika tvar 1 1 —+ — Vnk niy Rovnost středních hodnot Mk.-ML jik a jiti zamítneme na hladině významnosti a, když 1 1 —+ — ^qi-a(r?n-r) vnk niy b) Nemají-li všechny výběry stejný rozsah, použijeme Scheffého metodu: rovnost středních hodnot |ik a Ui zamítneme na hladině významnosti a, když Výhodou Scheffého testuje, že k jeho provedení nepotřebujeme speciální statistické tabulky s hodnotami kvantilů studentizovaného rozpětí, ale stačí běžné statistické tabulky s kvantily Fisherova - Snedecorova rozložení. V případě vyváženého třídění, kdy lze aplikovat Tukeyovu i Scheffého metodu, použijeme tu, která je citlivější. Tukeyova metoda tedy bude výhodnější, když Metody mnohonásobného porovnávání mají obecně menší sílu než ANOVA. Může nastat situace, kdy při zamítnutí H0 nenajdeme metodami mnohonásobného porovnávání významný rozdíl u žádné dvojice středních hodnot. K tomu dochází zvláště tehdy, když p-hodnota pro ANOVU je jen o málo nižší než zvolená hladina významnosti. Pak slabší test patřící do skupiny metod mnohonásobného porovnávání nemusí odhalit žádný rozdíl. qi_a2(r, n-r) < 2(r-l)Fi_a(r-l, n-r). Doporučený postup při provádění analýzy rozptylu: a) Ověření normality daných r náhodných výběrů (grafické metody - NP plot, Q-Q plot, histogram, testy hypotéz o normálním rozložení - Lilieforsova varianta Kolmogorovova - Smirnovova testu, Shapirův - Wilkův test, Andersonův - Darlingův test). Doporučuje se kombinace obou způsobů. Závěry učiníme až na základě posouzení obou výsledků. Upozornění: Při malých rozsazích výběrů se nedoporučuje zkoumat normalitu jednotlivých náhodných výběrů, ale normalitu reziduí Yy - Mi.. Obecně lze říci, že analýza rozptylu není příliš citlivá na porušení předpokladu normality, zvláště při větších rozsazích výběrů (nad 20), což je důsledek působení centrální limitní věty. Mírné porušení normality tedy není na závadu, při větším porušení použijeme např. Kruskalův - Wallisův test jako neparametrickou obdobu analýzy rozptylu jednoduchého třídění. b) Po ověření normality se testuje homogenita rozptylů, tj. předpoklad, že všechny náhodné výběry pocházejí z normálních rozložení s týmž rozptylem. Graficky ověřujeme shodu rozptylů pomocí krabicových diagramů, kdy sledujeme, zdaje šířka krabic stejná. Numericky testujeme homogenitu rozptylů pomocí Levenova testu, Brownova - Forsytheova testu (oba jsou implementovány ve STATISTICE, Brownův - Forsytheův test v MINITABu) či Bartlettova testu (jek dispozici v MINITABu). Lze rovněž vytvořit graf závislosti reziduí Yy - Mi na variantách faktoru A. Měl by to být náhodný mrak bodů. Při vyváženém třídění se nemusí zkoumat homogenita rozptylů. Slabé porušení homogenity rozptylů nevadí, při větším se doporučuje použít v ANO VE Welchovu aproximaci nebo z neparametrických metod mediánový test. c) Pokud jsou splněny předpoklady normality a homogenity rozptylů, můžeme přistoupit k testování shody středních hodnot. Předtím je samozřejmě vhodné vypočítat průměry a směrodatné odchylky či rozptyly v jednotlivých skupinách. d) Dojde-li na zvolené hladině významnosti k zamítnutí hypotézy o shodě středních hodnot, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží post-hoc metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. Příklad: V rámci psychologického výzkumu bylo náhodně vybráno devět dvanáctiletých dětí a to tak, že tři děti měly matku se základním vzděláním, tři se středoškolským a tři s vysokoškolským. Všechny děti byly podrobeny témuž testu. Počty bodů, které děti v testu získaly, jsou uvedeny v tabulce: Vzdělání matky Počet bodů Základní (ZŠ) 20 23 22 Středoškolské (SŠ) 24 26 25 Vysokoškolské (VS) 26 27 27 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota počtu bodů v testu nezávisí na vzdělání matky. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice úrovní vzdělání se liší na hladině významnosti 0,05. Vypočtěte též poměr determinace. Řešení: Data považujeme za realizace tří nezávislých náhodných výběrů ze tří normálních rozložení se stejným rozptylem. Testujeme hypotézu, že všechny tři střední hodnoty j sou stejné. Výběrové průměry v jednotlivých výběrech: ML = 21,67, M2. = 25, M3 = 26,67, celkový průměr: M = 24,44, výběrové rozptyly: Si2 = 2,33, S22 = 1, S32 = 0,33, r 2 vážený průměr výběrových rozptylů: S* - 1 - -1,22 2 _ tT _ 2-2,33 + 2-l + 2-0,33 n-r 9-3 reziduálni součet čtverců: SE = (n - r)s*2 = 6 • 1,22 = 7,33 ? skupinový součet čtverců: SA = £ ni(ML - M f = 3 • (21,67 - 24,44)2 + 3 • (25 - 24,44)2 + 3 • (26,67 - 24,44)2 = 38,89 i=l celkový součet čtverců: ST = SA + SE = 38,89 + 7,33 = 46,22, T7 — ^A ^ _ 38,89/ 2 _ . _ q/^qi testová statistika ^ - - 7?33/6 " kritický obor W = (Fo^fe6)'00)^ (5,1433,oo)^ Protože testová statistika se realizuje v kritickém oboru, H0 zamítáme na hladině významnosti 0,05. SA 38,89 Vypočteme poměr determinace: p s 46 22 Výsledky zapíšeme do tabulky ANOVA: Zdroj variability Součet čtverců Stupně volnosti podíl FA skupiny SA = 38,89 2 SA/2 = 19,44 sA/(r-i) = 15 9091 SE/(n-r) reziduálni SE = 7,33 6 SE/6 = 1,22 - celkový ST = 46,22 8 - - Nyní pomocí Tukeyovy metody zjistíme, které dvojice úrovní vzdělání se liší na hladině významnosti 0,05: rovnost středních hodnot |ik a Ui zamítneme na hladině Mk -ML významnosti a, když s* ^qi-a(r?n-r) neboli Mk."ML >^Lqi_a(r,n-r) Vp Vp V našem případě S* = ^1,22 = 1,105 9 p = 39 q0 95(3,6) = 4,34, tedy S* qi_a(r,n-r) = ^4,34 = 2,77 Vp Srovnávané dvojice Rozdíly Mk.-ML Pravá strana vzorce (ZS, SS) ML-M2 — 21,67-25 = 3,33 2,77 (ZŠ, VŠ) ML-M3 — 21,67-26,67 =5 2,77 (SŠ, VŠ) M2 - M3 — 25-26,67 = 1,67 2,77 v v _ v v Na hladině významnosti 0,05 se liší dvojice (ZS, SS) a (ZS, VS). Řešení pomocí systému R Načteme data: Y<-c(20, 23, 22, 24, 26, 25, 26, 27, 27) ID<-c(l,l,l,2,2,2,3,3,3) iD<-factor(iD,labels=c(,zs','SS','VS')) Vypočteme průměry v jednotlivých skupinách: tapply(Y,ID,mean) zs SS vs 21.66667 25.00000 26.66667 Vypočteme směrodatné odchylky v jednotlivých skupinách: tapply(Y,id,sd) zs ss vs |l.5275252 1.0000000 0.5773503 Testujeme hypotézu o shodě středních hodnot: vystup<-aov(Y~iD) summary(vystup) Df Sum Sq Mean Sq F value Pr(>F) ID 2 38.89 19.444 15.91 0.00399 ** Residuals 6 7.33 1.222 Signif. codes: 0 '***' 0.001 '**' 0.01 0.05 '.' 0.1 ' ' 1 Vidíme, že p-hodnota testu o shodě středních hodnot je 0,00399, což je menší než 0,05, tedy na hladině významnosti 0,05 nulovou hypotézu zamítáme. S rizikem omylu nejvýše 5 % jsme prokázali, že výsledky testu se v daných třech skupinách dětí roztříděných podle vzdělání matky se lisí. Vykreslíme krabicové diagramy: boxplot(Y-iD) Provedeme Tukeyovu metodu mnohonásobného porovnávání. Nejprve načteme knihovnu DescTools: 1 i brary(dgsctooI s) Použijeme funkci PostHocTestPostHocTest(vystup,method=c(' hsď )) iPosthoc multiple comparisons of means : Tukey HSD 95% family-wise confidence level I$ID lss-zs vs-zs vs-ss 3 5 1 diff 333333 000000 666667 0 2 -1 lwr. ci 5636912 2303579 1029755 6 7 4 up r.ci 102975 769642 436309 0 0 0 pval 0237 0035 2339 Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 Na hladine významnosti 0,05 se liší dvojice (SS, ZS) a (VS, ZS). ANOVA jako speciální případ obecného lineárního modelu Na analýzu rozptylu lze pohlížet jako na speciální případ obecného lineárního modelu. To nám umožní nejenom odhalit případný statisticky významný vliv faktoru A na variabilitu hodnot veličiny Y, ale také interpretovat odhady parametrů modelu a predikovat hodnoty veličiny Y pomocí úrovní faktoru A. Kódování úrovní faktoru pomocí indikátorových proměnných Abychom mohli použít tento přístup, musíme si ukázat, jak se kódují jednotlivé úrovně faktoru A. Jednotlivé úrovně (je jich r > 3) vlastně představují klasifikaci objektů do skupin. Příslušnost objektů ke skupinám se vyjadřuje pomocí umělých proměnných, tzv. indikátorů. Používá se několik typů kódování. Způsob kódování vysvětlíme na příkladu faktoru se třemi úrovněmi. Zkoumanou veličinou Y je počet bodů, které dítě získalo v testu a faktorem A je v v v nejvyšší dosažené vzdělání matky (ZS, SS, VS). a) Kódování přeparametrizovaného modelu Zavedeme r závislých indikátorů Zb ..Zr tak, že každý z nich vyjadřuje vždy jednu úroveň faktoru A hodnotou 1 a všechny ostatní hodnotou 0. V našem případě zavedeme tři indikátory Zb Z2, Z3 takto: flproZŠ flproSŠ flproVŠ 1 i 2 i ^3 | lOjinak ' lOjinak ' 10jinak • Vyjádřeno tabulkou: r Úroveň faktoru indikátory Zi z2 z3 ZS 1 0 0 ss 0 1 0 •v vs 0 0 1 Součet v každém sloupci tabulky je 1. Každý indikátor je možno vyjádřit jako lineární kombinaci ostatních indikátorů. Tato vlastnost je pro mnohé statistické postupy nežádoucí, proto budeme uvažovat o jeden indikátor méně. Vynechaná úroveň faktoru bude sloužit jako referenční. Referenční úroveň volíme tak, aby to bylo výhodné z interpretačního hlediska. b) Kódování typu dummy Zavedeme r-1 nezávislých indikátorů Zi? Zr_i, které jsou definovány takto: Zi = 1 pro 1. úroveň faktoru A, Zi = 0 jinak, Z2 = 1 pro 2. úroveň faktoru A, Z2 = 0 jinak, Zr_i = 1 pro (r-1). úroveň faktoru A, Zr_i = 0 jinak. Pro r-tou úroveň faktoru A nabývají všechny indikátory typu dummy Zi. indikuj í j ej í výskyt. V našem případě máme dva indikátory: lproZŠ _ JlproSŠ Oj inak ' 2 ~~ 10j inak • Vynechaná úroveň VŠ je referenční. Vyjádřeno tabulkou: r Úroveň faktoru indikátory Zi z2 ZS 1 0 ss 0 1 vs 0 0 Zr_i hodnoty 0 a tím Součet v každém sloupci tabulky je 1. Při interpretaci výsledků analýz s indikátory typu dummy konfrontujeme jednotlivé úrovně faktoru A s referenční úrovní. c) Kódování typu effect Zavedeme r-1 nezávislých indikátorů Z1; ..., Zr.1; které jsou definovány takto: Zi = 1 pro 1. úroveň faktoru A, Zx = -1 pro r-tou úroveň faktoru A, Zx = 0 jinak, Z2 = 1 pro 2. úroveň faktoru A, Z2 = -1 pro r-tou úroveň faktoru A, Z2 = 0 jinak, Zr_i = 1 pro (r-1). úroveň faktoru A, Zr_i = -1 pro r-tou úroveň faktoru A, Zr_i = 0 jinak, Pro r-tou úroveň faktoru A nabývají všechny indikátory typu effect Z1; ..., Zr4 hodnoty - la tím indikují její výskyt. V našem případě máme dva indikátory: 1 pro ZŠ Z^-lproVŠ Z2 Oj inak Vyjádřeno tabulkou: lproSŠ -1 pro VŠ Oj inak Vynechaná úroveň VS je referenční. r Úroveň faktoru indikátory Zi z2 ZS 1 0 ss 0 1 VS -1 -1 Součet v každém sloupci tabulky je 0. Hovoříme o sigma omezené parametrizaci. Při interpretaci výsledků analýz s indikátory typu effect konfrontujeme jednotlivé úrovně faktoru A s celkovým průměrem veličiny Y. Odhady parametrů modelu Model Yij = jii + 8y = ji + ax + Bij lze vyjádřit jako Yij = po + PiZij + p2Z2j + 8y. Ad a) Odhady při kódování pomocí indikátorů typu dummy: Po=M,., p, = M, -M3, p2=M2-M3 V našem případě: p0 =M3 =26,67, =ML-M3 =21,67-26,67 = -5 ? p2 = M2 - M3 = 25-26,67 =-1,67 /v Interpretace Pi: Bude-li mít matka ZS vzdělání, tak výsledek dítěte v testu bude v průměru horší o 5 bodů oproti potomkovi matky s VS vzděláním. /v Interpretace P2: Bude-li mít matka S S vzdělání, tak výsledek dítěte v testu bude v průměru horší o 1,67 bodů oproti potomkovi matky s VS vzděláním. Ad b) Odhady při kódování pomocí indikátorů typu effect: p0 = M 9 pj = á, = ML - M 9 p2 = á2 = M2 - M . Odhad efektu 3. úrovně faktoru A získáme jako á3 =M3 - M . V našem případě: po = M = 24,44 9 pj = ML - M = 21,67 - 24,44 = -2,77 ? p2 = M2 - M =25- 24,44 = -0,56 ? á3 = M3 - M = 26,67 - 24,44 = 2,23 /v Interpretace Pi = oc1: Bude-li mít matka ZS vzdělání, tak výsledek dítěte v testu bude v průměru horší o 2,77 bodů oproti průměrnému výsledku všech dětí. /v Interpretace P2 = ai: Bude-li mít matka S S vzdělání, tak výsledek dítěte v testu bude v průměru horší o 0,56 bodů oproti průměrnému výsledku všech dětí. /v \/ Interpretace u3: Bude-li mít matka VS vzdělání, tak výsledek dítěte v testu bude v průměru lepší o 2,23 bodů oproti průměrnému výsledku všech dětí. Upozornění: Kromě uvedených bodových odhadů parametrů pJ? j = 0, 1, r-1 lze získat také 100 (l-a)% intervaly spolehlivosti pro tyto parametry a lze vypočítat predikované hodnoty veličiny Y. Predikovaná hodnota Y v i-té skupině se nahradí skupinovým průměrem Mi.. V našem případě uvedeme meze 95% intervalů spolehlivosti pro p0, Pi, p2- a) při kódování pomocí indikátorů typu dummy: 25,10 < po < 28,23; -7,21 < p! < -2,79; -3,88 < p2 < 0,54 b) při kódování pomocí indikátorů typu effect: 23,54 < po < 25,35; -4,05 < p! < -1,50; -0,72 < p2 < 1,83. Dále uvedeme predikované hodnoty počtu bodů v testu: Ýu = Ý12 = Ý13 = M, =21,67 Ý21 = Ý22 = Ý23 = M, = 25 %i = %2 = %3 = M3 = 26,67