MA012 Statistika II 1. Analýza rozptylu (ANOVA) a lineární regresní model Ondřej Pokora (pokora@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno (podzim 2015) Ondřej Pokora, PřF MU (2015) Motivační příklad U čtyř odrůd brambor (označených symboly A, B, C, D) se zjišťovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky uvádí tabulka: odrůda hmotnost (v kg) A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM Motivace Zajímáme se o problém, zda lze určitým faktorem (tj. nominální, kvalitativní, náhodnou veličinou A) vysvětlit variabilitu pozorovaných hodnot náhodné veličiny Y, která je intervalového či poměrového typu (kvantitativní). Např. zkoumáme, zda metoda výuky určitého předmětu (faktor A) ovlivňuje počet bodů dosažených studenty v závěrečném testu (náhodná veličina Y). Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM Obecný popis a předpoklady Faktor A má a > 3 úrovní. ■ z-té úrovni odpovídá n,- výsledku Y(1/..., Y(-„., které tvoří náhodný výběr z rozložení N(^,-, c2), i = l,...,a. ■ První index označuje skupinu podle úrovně faktoru, druhý index značí pořadí měření v dané skupině. ■ Jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy kde £ij jsou stochasticky nezávislé náhodné veličiny s rozložením N(0,c2), kde í = 1,... ,a a / = 1,... Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM Graficky • J/n i •J/«2 • Vlni •2/2n2 •J/23 y uó 9 • ' 3/13 •J/21 * 3/12 Val 'J/22 • ' Varia Úroveň: 1 2 ... a Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM Obecný popis Na hladině významnosti a testujeme nulovou hypotézu Hq: všechny střední hodnoty jsou stejné, oproti alternativní hypotéze Hi: alespoň jedna dvojice středních hodnot se liší. Jedná se tedy o zobecnění dvouvýběrového t-testu a na první pohled se zdá, že stačí utvořit r(r — l)/2 dvojic náhodných výběrů a na každou dvojici aplikovat dvouvýběrový t-test. Tento postup však nelze použít, neboť nezaručuje splnění podmínky, že pravděpodobnost chyby 1. druhu je a. Proto ve 30. letech 20. století vytvořil R. A. Fisher metodu ANOVA (ANalysis Of VAriance), která uvedenou podmínku splňuje. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM Obecný popis Pokud na hladině významnosti a zamítneme nulovou hypotézu Hq, zajíma nás, které dvojice středních hodnot, tedy kategorie podle úrovní faktoru a, se odlišují. K řešení tohoto problému slouží metody tzv. mnohonásobného porovnávání, konkrétně např. Scheffého nebo Tukeyova metoda. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM Označení Výsledky pokusu popíšeme pomoci spojité náhodné veličiny Y a to tak, že sledujeme výsledky tohoto pokusu při všech úrovních faktoru A. Zjištěné hodnoty Y= (Yi,... ,Yn)' roztřídíme do a skupin podle úrovní do následující tabulky: Úroveň Počet Naměřené Součet Průměr Rozdělení faktoru pozorovaní hodnoty úrovne úrovně úrovně 1. "1 Yi = (Yn,. Yi "i = Ľ YU ;=i Yi. = Yu 2. "2 Y2 = On,. Y2 »2 = Ľ Y2i 1=1 Y2. = iYi. Y2i a-tá na Y„ = (Yal,- Ya = Ľ Yai ;=i Y — —Y 1 a. — M 1 a. Yai Součet n y.. a = Ľ Ľ Yy; ;=1 ;=i Y. = \Y.. Všimněte si způsobu indexace výběrových průměrů pomocí tzv. tečkové notace. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 8/40 Základní model Definice 1 (model M) Náhodné veličiny Y, y se řídí modelem M: Y + a, + £;/, pro f = 1,... ,a a j = 1,... ,tii, přičemž e,-y jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, c2), ji je společná část střední hodnoty proměnné veličiny, a, je efekt faktoru A na úrovni i. Při zkoumání vlivu jednoho faktoru A testujeme hypotézu H0 : cli = ■ ■ ■ = dla = 0 proti alternativní hypotéze Hi : 3 f e {!,...,«} : a,- 7^ 0. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM Graficky - model M ■ ■ u::::::::::::::ui...'.____________________________________ n ------v------ai . Úroveň: 1 2 ... a Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 10/40 Minimální (nulový) submodel Pokud platí nulová hypotéza Hq, dostáváme následující minimální submodel. Definice 2 (model M0) Náhodné veličiny Y,-y se řídí modelem Mq: Yjj = ji + Ejj, pro i = 1,... ,a a j = 1,... přičemž e,-y jsou stochasticky nezávislé náhodné veličiny s rozložením N(0,c2). Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM L/40 Graficky - submodel Mq Úroveň: 1 Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM Odvození Základní model M: Matice plánu je X ^ lni lni 0 Lí7t 0 1|7t ««-1 /M o w W kde vektor lj. značí sloupcový vektor složený z A: jedniček. Jaké rozměry má matice X a vektor /?? Matice X není plné hodnosti. Proč? Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 13/40 Odvození Systém normálních rovnic X'X/í — X'Y: x'x = n H2 11« \ 0 0 "2 0 "2 ««-1 0 nj X'Y -- Ľ ľ »1 0 0 1' -"-«2 1' 1' \ 0 0 V o ...... Ó 1^/ Jednou z pseudoinverzních matic k matici X'X je matice (x'x)- (° 0 0 . ... 0\ 0 1 «1 0 . ... o 0 0 1 «2 0 na-l 0 ■ 0 i/ H = X(X'X)"X' : V o /Y1 ^ í7 Y" \ y2 Yi. y,_i Y,_i. v y, y V Y,. / 0 0 0 i f / kde Efc = je matice typu (Ä: x Ä:) samých jedniček. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 1/40 Odvození Odtud Y = /(ř+Si) -ini\ = HY = \ 0 takže odhad střední hodnoty je tvaru fi + a.j = Y y 0 \ 0 h*nj /yi. ^A \Ya. In J Přidáním dodatečné podmínky £ n.-a.- = 0, dostaneme odhad společné střední hodnoty \i = Y., a pro j = odhad príspevku j-té skupiny cčj = Yj_ — Y.. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 15/40 Odvození - odhady parametrů modelu Pokud platí nulová hypotéza kde X0 = 1„, X0X0 = ľnln = a fo = Pak H0 = X0(X[)X0)-1XÍ) = a tedy Ondřej Pokora, PřF MU (2015) Hq, tj. submodel Mq: Y = X0 /30 + £/ = n, X0Y = ľn\ = y.. :(X0X0)-1X0Y=^y.. = y„ - Ii i' - Ip = Y0 = H0Y = -E„Y = y..1, h = y... MA012 Statistika II - 1. ANOVA a LRM Odvození - součty čtverců Součty kvadrátů odchylek ^=||ř||2= (Y-?)'(Y-Č) = (Y—Y)'(Y—Y) É(YJ-Yy.lB;)'(YJ-Yy.lB;)= E E(Y;!-Y;.)2 =l j=i;=i |?0||2=(Y-/i0)'(Y-/ř0) = E(Y;-Y..1„))'(Y;-Y..1„))= E E(Vyi-V. AoH2= (fl-floy(fl-fl0) = E (Y;.ln,-Y..1„,)'(Y;.1„,-Y..l„,; = E(Y;.-Y..)%1„)=E«,(Y;.-Y..)2 Všimneme si, že platí St = Sa + Se-Pokud tedy platí model Mq, pak statistika _ _ (ST-Se)/(a-1) _ SA/(a-l) Selin-d) Selin-d) reziduálni celkový mezi třídami F(a — l,n— a). Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM ř/40 Graficky • i • • • Fo • c ST< m 'm \sA l : J Úroveň: 1 2 ... a Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 18/40 Shrnutí Definice 3 Celkový (total) součet čtverců charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru, počet stupňů volnosti dfa = n — 1: z'=l j=l Skupinový (regresní, regresssion) součet čtverců charakterizuje variabilitu mezi jednotlivými náhodnými výběry, počet stupňů volnosti dfa = a — l: Sa = tnj (Yjm-Y..)2 Reziduálni (residual, error) součet čtverců charakterizuje variabilitu uvnitř jednotlivých výběrů, počet stupňů volnosti dfe = n — a: í=l;=l ndřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 19/40 Shrnutí [ Věta 4 1 Platí St = Sa + Se- Věta 5 Rozdíl mezi modely M a Mq ověřujeme pomocí testové statistiky = SA/dfA A Se/dfe ' která se řídí rozložením F (a — l,n — a), je-li model Mq správný. Hypotézu o nevýznamnosti faktoru A tedy zamítáme na hladině významnosti cc, když platí: Fa > Fi-a(a - l,n-a). Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 3/40 Tabulka analýzy rozptylu Předcházející pojmy se shrnují v tzv. tabulce analýzy rozptylu: Zdroj variability Součet čtverců SS Stupně volnosti df Podíl MS = f f=ms sz p-hodnota Třídy SA dfa= a-1 r _ ms a t a - mš7 P(F > FA) Reziduálni Se dfe = n—a - - Celkový ST dfj = n — 1 - - - SS — sum of squares, MS — mean square error, df — degrees of freedom. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 21/40 Test shody rozptylů Věta 6 (Levenův test) označmeOZjj = |Y,-y — Y,_|, kde Y,_ je výběrový průměr Y,., výběrový medián, příp. 10% ořezaný průměr (trimmed, truncated mean). _ ni 7 — — Y 7 Z.. = \ E E Zij i=\ j=l a tli _ 9 sz= E E (z,7-z,) i=lj=l a _ _ 2 Sza = E "i (z,, - z..) z'=l Platí-li hypotéza o shodě rozptylů, pak statistika Sza/(i-l) Fz = Szé/(n-a) F (a — l,n— a). 'ndřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 22/40 Praxe - jiný model V praxi volí většina statistických softwarů (mj. i R) mírně odlišnou stavbu modelu. Definice 7 Náhodné veličiny Y, y se řídí modelem M*: Yjj = y* + a* + £íj, pro i = 1,... ,a a j = 1,... přičemž e,-y jsou stochasticky nezávislé náhodné veličiny s rozložením N(0,o2). První úroveň faktoru A je přitom stanovena jako referenční, tedy oĺ\ = 0. Testujeme hypotézu H0 : a* = -.. = <= 0 proti alternativní hypotéze Hi :3í e {2,...,«} : cc* ^0. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM Praxe - jiný model ■ Matice plánu modelu M* je již plné hodnosti. Proč? ■ Jakou interpretaci mají v modelu M* parametry \í* a a*, i = 2,...,al ANOVA v R. ■ Jednou z možností je zkonstruovat lineární regresní model pomocí funkce lm a na výsledek aplikovat funkci anova . ■ Obecnější přístup umožňuje přímo funkce aov . Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM Test shody rozptylů Věta 8 (Bartlettův test) Platí-li hypotéza o shodě rozptylů, pak statistika (n-a)lnS2-£>;-l)lnS2 kde Sí = n — a 1 I " 1 1 ^ ^ 3 (a — 1) \^{ nj — 1 n — a a Sj je výběrový rozptyl v j-té kategorii. Hypotézu o shodě rozptylů zamítáme na asymptotické hladině významnosti cc, pokud B > x\-a{a ~ 1)- Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 25/40 Metody mnohonásobného porovnávání Zamítneme-li na hladině významnosti a hypotézu o shodě středních hodnot, chceme zjistit, které dvojice středních hodnot se liší hladině významnosti a. m Všechny výběry mají stejný rozsah p, resp. v praxi přibližně stejný =>■ Tukeyova metoda ■ Výběry nemají stejný rozsah =>■ SchefFého metoda. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM /40 Metody mnohonásobného porovnávání Věta 9 (Tukeyova metoda) Rovnost středních hodnot jik a ]i\ zamítneme na hladině významnosti tx, když: — — S kde qi_a(a,n — a) jsou kvantity studentizovaného rozpětí, které najdeme ve statistických tabulkách. Věta 10 (Scheffého metoda) Rovnost středních hodnot \ik z \í\ zamítneme na hladině významnosti cc, když: \nk nij Fi- Xi-a{a ~ !)■ Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM ]/40 Příklad Příklad 1 U čtyř odrůd brambor (označených symboly A, B, C, D) se zjištovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky uvádí tabulka: odrůda hmotnost (v kg) A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 31/40 Řešení Řešení. Data považujeme za realizace čtyř nezávislých náhodných výběrů ze čtyř normálních rozložení se stejným rozptylem. Testujeme hypotézu, že všechny čtyři střední hodnoty jsou stejné. Výpočtem získáme: y1_ = 0,8, y2. = 1>2, y3_ = 1,4, y4_ = 1,1, y__ = 1,14, Se = 0,3, SA = 0,81ó! ST = 1,116, FA = 9,97. Ze statistických tabulek získáme f0,95(3/11) = 3,59. Protože testová statistika se realizuje v kritickém oboru, zamítáme nulovou hypotézu na hladině významnosti 0,05. Výsledky zapíšeme do tabulky ANOVA: Zdroj variability Součet čtverců Stupně volnosti Podíl Fa třídy s a =0,816 3 Sa/3 = 0,272 5a/3 _ q q7 sf/11 ~ reziduálni SE =0,3 11 Se/11 = 0,02727 — celkový st = 1,116 14 — — Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 2/40 Řešení Grafické posouzení odrůdy Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM Řešení Nyní pomocí SchefFého metody zjistíme, které dvojice odrůd se liší na hladině významnosti 0,05. Srovnávané odrůdy Rozdíly Yk. - Y/. Pravá strana vzorce A, B 0,4 0,41 A, C 0,67 0,36 A, D 0,3 0,41 B, C 0,2 0,40 B, D 0,1 0,44 C, D 0,3 0,40 Na hladině významnosti 0,05 se liší odrůdy A a C. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 34/40 Využití ANOVA v lineárním regresním modelu Analýzy rozptylu lze využít v momentě, kdy chceme zjednodušit zvolený model a vypustit z modelu některé vysvětlující proměnné. Tj. uvažujeme nový podmodel, jehož matice plánu vznikne z původní matice vypuštěním některých sloupců. Naším úkolem je testovat, zda zvolený podmodel je vhodný k dostatečnému popisu závislosti v datech. Bez újmy na obecnosti předpokládejme, že matice, které určují model a podmodel se liší právě posledními sloupci matice X, takže X = (Xq,Xi). Mějme náhodný vektor Y = (Yi,... ,yn)' a předpokládejme, že platí model M a je dán submodel Mq, přičemž M] Y ~ N„(X^,a2l„) X je typu n x k, h(X) = r, je typu/V x 1 Mol Y ~ N„(X0/30,rj2I„) X0 je typu n x/V0, h(XQ) = rQ, /S0 je typu k0 x 1 n > k > r > r q Model Mo je podmodelem M pokud X0 = XK, kde matice K = ^*»^ je typu k x k0. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 35/40 Využití ANOVA v lineárním regresním modelu Položme = HY = X(X'X)~X'Y, jtQ = H0Y = X0(X'0X0yX'0\, pak Se = (Y - p)'(Y - /í) Seo = (Y - p0)'(Y - p0) Pokud platí model Mq, pak statistika (Seo-Se)/(r-r0) , . Fo= Se/(n-r) ~ f(r-ro,n-r). Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM Využití ANOVA v lineárním regresním modelu Připomeňme si ještě index (koeficient) determinace R2 z lineárního regresního modelu a celkový F-test (průkaznosti) modelu. Obě veličiny, které v regresní analýze používáme k hodnocení kvality modelu, mají matematické pozadí právě v analýze rozptylu. Zvolený lineární regresní model M porovnáváme s minimálním (nulovým) modelem Mrj. ■ Celkový F-test je vlastně jen ANOVA testem modelu M vůči Mrj. ■ Index determinace R2 je pak definován pomocí součtů čtverců Odtud plyne i jeho interpretace: R2 E [0;1] značí, jak velkou část celkové variability dat se navrženým modelem M podaří vysvětlit. —2 ■ Korigovaný koficient determinace R obdržíme, pokud součty čtverců nahradíme nestrannými odhady středních kvadratických chyb Ř2 = l- h!$L = 1-— (1-R2). St/uJt n — a Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 37/40 Příklad Příklad 2 Pro data uvedená v následující tabulce x 1 2 3 4 5 6 7 8 9 10 y 58,42 37,34 49,64 59,85 24,37 59,29 47,12 75,29 140,49 147,23 uvažujte modely Mi : y = ftj + fax M2 : y = čo + hx + fa*2 M3 : y = čo + fax + fax2 + fo*3- Pomocí analýzy rozptylu porovnejte tyto modely. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM /40 Řešení Řešení. Vycházíme z modelu M3 a testujeme vhodnost podmodelu M2. Hodnota statistiky Fq je v tomto případě 0,6469, p-hodnota testu je 0,4519. To znamená, že vynecháním kubického členu se model významně nezhorší. Nadále budeme tedy uvažovat model M2 a testovat vhodnost podmodelu M\. Hodnota statistiky Fq je v tomto případě 15,586, p-hodnota testu je 0,0055. To znamená, že vynecháním kvadratického členu se model již významně zhorší. Nejvhodnějším modelem pro popis závislosti je tedy M2. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM 39/40 Řešení Graficky Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 1. ANOVA a LRM