11 Analýza rozptylu jednoduchého třídění, ANOVA, Jed-nofaktorová analýza rozptylu Testování normality • Normalita = první předpoklad k provedení ANOVY • testy normality — Shapirův-Wilkův ... shapiro.test() — Lillie-Forsův ... Iillie.test() — Anderson-Darlingův test ... ad.test(), Testování homogenity rozptylů u r náhodných výběrů • homogenita = stejnorodost rozptylů • druhý předpoklad k provedení ANOVY • máme r > 2 náhodných výběrů • testujeme H0 : o\ = o\ = ■ ■ ■ = of = a2 oproti H\ : alespoň jedna dvojice rozptylů se liší 1. Levenův test — testovací statistika založena na odhadech středních hodnot — Ievene.test(y, group, location='mean') knihovna lawstat * y ... vektor dat * group ... typ skupiny * location='mean' 2. Brownův-Forsytův test — je modifikací Levenova testu — testovací statistika založena na mediánech — —> při větších rozsazích náhodných výběrů (rii > 20) jej lze použít i na data, která nejsou z normálního rozdělení — Ievene.test(y, group, location='median') z knihovny lawstat * y ... vektor dat * group ... typ skupiny * location='median' 3. Bartlettův test — bartlett.test(y, g) knihovna stat — používáme, pouze pokud jsou rozsahy všech výběrů > 6 1 ANOVA - Jednofaktorová analýza rozptylu • zkoumá závislost intervalové proměnné X na nominální proměnné A • A... faktor, varianty A... úrovně faktoru • motivační příklady — má metoda výuky (A) vliv na počet bodů (X) v závěrečném testu? — má typ potravy pračlověka (A) vliv na šířku stoliček (X)? • trocha matematiky — předpokládáme, že faktor A má r > 2 úrovní A1}... Ar, přičemž i-té úrovni odpovídá n,i pozorování Xil}... Xin.. Každý výběr A,i ~ N (fa, a2). — Celkový počet pozorování je n = Yľi=i ní- — Tečková anotace * součet hodnot v i-tém výběru * výběrový průměr v i-tém výběru Mi. = -XL Tli - klasický aritmetický průměr dat z -i-té skupiny * součet hodnot všech výběrů i=i j=i * celkový průměr všech r výběrů M = —X n - klasický aritmetický průměr všech dat * celkový součet čtverců i=l j=l - charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru - počet stupňů volnosti: f t = n — 1 * skupinový součet čtverců r SA = YJ^(Mt.-M.f í=i - charakterizuje variabilitu mezi jednotlivými náhodnými výběry - počet stupňů volnosti: f a = r — 1 2 * reziduálni součet čtverců r rii se = J2J2^-m^2 i=l j=l - charakterizuje variabilitu uvnitř jednotlivých výběrů - počet stupňů volnosti: f e = n — r * St = Sa + Se- Testování hypotéz o shodě středních hodnot • Hq : fii = ■ ■ ■ = fir; střední hodnoty všech výběrů jsou stejné • Hi : fií ý f^j Pro nějaké alespoň jedna dvojice středních hodnot se liší. • Testovací statistika má tvar t-, S a ]ra j-,/ 1 \ fa = c ~F(r- l,n-r). je/je • Fa G (Fi-a(r — l,n — r), oo) —> Hq zamítáme na hl. význ. a • nebo: p-hodnota< a —> Hq zamítáme na hl. význ. a • přehledná tabulka výpočtů: Zdroj variability součet čtverců stupně volnosti průměrný čtverec Fa skupiny SA f a = r - 1 Sa/Ía Sa/Ía Se/f e reziduálni Se fE = n-r Se/ f e - celkový St fT = n-l - - Post-hoc metody mnohonásobného porovnávání • zamítneme-li nulovou hypotézu o shodě středních hodnot, chceme zjistit, která dvojice středních hodnot se od sebe významně liší • Scheffého metoda — vhodná i v případě, že rozsahy všech výběrů nejsou stejné — rovnost středních hodnot a /// zamítneme na hladině významnosti a, když \Mk. - ML\ > sJ(r - 1) (— + -)F1_a(r-l,n-r). y \nk nij _ e2 _ SE b* ~ ÍE — funkce Scheffe(X, group, names, alpha) z RSkriptu AS-funkce.R. — metody mnohonásobného porovnávání jsou slabší, než ANOVA, proto se může stát, že ANOVOU zamítneme H0 o shodě středních hodnot ale metody mnohonásobného porovnávání u žádné dvojice významný rozdíl nenajdou. 3 • POSTUP TESTOVÁNÍ ANOVY: 1. ověření normality 2. ověření rozptylu 3. testování shody středních hodnot 4. dojde-li k zamítnutí H0 o shodě středních hodnot, použijeme post-hoc metody • Poznámka: Mírné porušení normality nebo shody rozptylů ANOVE zas tak moc nevadí 4