M5VM05 Statistické modelování 8. Analýza rozptylu Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/46 Motivace Zajímáme se o problém, zda lze určitým faktorem (tj. nominální náhodnou veličinou A) vysvětlit variabilitu pozorovaných hodnot náhodné veličiny Y, která je intervalového či poměrového typu. Např. zkoumáme, zda metoda výuky určitého předmětu (faktor A) ovlivňuje počet bodů dosažených studenty v závěrečném testu (náhodná veličina Y). Jan Koláček (PřF MU) M5VM05 Statistické modelování 2/ Obecný popis Předpokládáme, že faktor A má a > 3 úrovní a z-té úrovni odpovídá tij výsledků Y ii,... ,Yjn., které tvoří náhodný výběr z rozložení N(/iz/ŕr2), z = 1,... ,a a jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy Yzy = ]i{ + £;y, kde £zy jsou stochasticky nezávislé náhodné veličiny s rozložením N(0pCr2), kde z — 1 ^ • • •, ci a y — "\. p • • • p ■ Jan Koláček (PřF MU) M5VM05 Statistické modelování 3/46 Graficky Úroveň: a Jan Koláček (PřF MU) M5VM05 Statistické modelování Obecný popis Na hladině významnosti oc testujeme nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné oproti alternativní hypotéze, která tvrdí, že alespoň jedna dvojice středních hodnot se liší. Jedná se tedy o zobecnění dvouvýběrového t-testu a na první pohled se zdá, že stačí utvořit r(r — l)/2 dvojic náhodných výběrů a na každou dvojici aplikovat dvouvýběrový t-test. Tento postup však nelze použít, neboť nezaručuje splnění podmínky, že pravděpodobnost chyby 1. druhu je oc. Proto ve 30. letech 20. století vytvořil R. A. Fisher metodu ANOVA1 (analýza rozptylu, v popsané situaci analýza rozptylu jednoduchého třídění), která uvedenou podmínku splňuje. 1Z anglického ANalysis Of VAriance Jan Koláček (PřF MU) M5VM05 Statistické modelování 5/46 Obecný popis Pokud na hladině významnosti oc zamítneme nulovou hypotézu, zajíma nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží metoda mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. Označení Výsledky pokusu popíšeme pomoci spojité náhodné veličiny Y a to tak, že sledujeme výsledky tohoto pokusu při všech úrovních faktoru A. Zjištěné hodnoty Y= (Y\,... ,Yny roztřídíme do \ä\ skupin podle úrovní do následující tabulky: Úroveň Počet Naměřené Součet Průměr Rozdělení faktoru pozorovaní hodnoty úrovně úrovně úrovně 1. "i Yi = (Y 11, • • • f^ln^)' Yi. = L Yu i=l Yu ~ C(]ii,a2) 2. n2 = {X21 f • • •/^2n2)/ r i. = L y a i=l y2. = ivi. y2i ~ C(}i2fCr2) a-tá na — {Xalf • • • f Yana)ř na Y a. — Yai i=l y — —Y 1a. — Ha 1 a. Yai ~ £(}la,cr2) Součet n a ni y..= LL yfi j=l i=l y = ly n Jan Koláček (PřF MU) M5VM05 Statistické modelování 7/46 Základní model Definice 1 (model M) Náhodné veličiny Yjj se řídí modelem M: Yij — fl ~\- Oíj -\- Ejj, pro i = 1,... ,a a j = 1,... ,nz-, přičemž £zy jsou stochasticky nezávislé náhodné veličiny s rozložením N^O,^"2), /i je společná část střední hodnoty proměnné veličiny, oíj je efekt faktoru A na úrovni i. Při zkoumání vlivu jednoho faktoru A testujeme hypotézu Hi o : oí\ = • • • = aa = 0 proti alternativě Hi :3i: olj j^O Jan Koláček (PřF MU) M5VM05 Statistické modelování 8/46 Graficky - model M Úroveň: a Jan Koláček (PřF MU) M5VM05 Statistické modelování Minimální submodel Pokud platí nulová hypotéza Hq, dostáváme následující minimální submodel. Definice 2 (model Mo) Náhodné veličiny Y« se řídí modelem Mo: pro i = 1,... ,a a j = 1,... přičemž ezy jsou stochasticky nezávislé náhodné veličiny s rozložením N(0,cr2). Jan Koláček (PřF MU) M5VM05 Statistické modelování Graficky - submodel Mq Úroveň: 1 a Jan Koláček (PřF MU) M5VM05 Statistické modelování Odvození Základní model M: Matice plánu je / 1 X = -ľl2 0 o -YLi 0 \ 0 0i\ na-l " " na-l \lnfl 0 ...... 0 lnJ ^ W kde vektor 1^ značí sloupcový vektor složený z jedniček. Matice X má (a + 1) sloupců a není plné hodnosti. Proč? M5VM05 Statistické modelování 12 / 46 Odvození Systém normálních rovnic X'Xfi = X'Y: XX = / n ni ni ..... na\ n\ ni 0 • ..... 0 n2 0 n2 na-i ' ■ 7ia-i o V na 0 0 nj XfY = t ľ "1 0 "1 0 ľ ri2 ľ ľ Vo 0 Jednou z pseudoinverzních matic k matici X7X je matice (x'x)- = /o 0 0 0 1_ 0 "1 0 0 J_ 0 \o 0 o 0 o ľ y í Yi \ Y2 Yfl-i V y« y / y.. \ / — E h = x(x'x)rx' o o V o o kde Efc = je matice typu (fc x k) samých jedniček. yfl-i. v n. y o Jan Koláček (PřF MU) M5VM05 Statistické modelování 13 / 46 Odvození Odtud Y = /(ř+^i) -^A /ya / ■ — ■ = hy = V 0 takže odhad střední hodnoty je tvaru 0 0 0 0 \ /YA 0 Přidáním dodatečné podmínky ^ fty#y = 0, dostaneme odhad společné střední 7=1 hodnoty ft = Y. a pro / = \,... ,a odhad příspěvku /-té skupiny 2y = Yy. — Y. Jan Koláček (PřF MU) M5VM05 Statistické modelování 14/ Odvození Pokud platí nulová hypotéza Ho, tj. submodel Mq\ Y = X0 j80 + e, kde Xo = 1„, X'X0 = ľnln = n, X'Y = ľn\ = Y.. J60 = (X0Xo)-1X0Y=-Y„ = Y„ n Pak H0 a Ho = Y0 = HnY = -E.Y = Y 1 -n Jan Koláček (PřF MU) M5VM05 Statistické modelování 15/ Odvození Součty kvadrátů odchylek = ||£||2= (Y-£)'(Y-£) = (Y-Y)'(Y-Y) a nj - ľ (Yy - y j. iM.)' (yj - y j. iM.) = e ľ(v>-V/.)2 ;'=1 ;=1 z'=l ^o = M=ll^olľ=(Y-^o)/(Y-^o)=E(Y/-y..ln70/(V/-y..ln7)=Ľ Ľ(Vy/-Y„) >A0: ;'=i ;'=1 /'=1 =11A0 n2= (p-ít0y@-íi0) = ľ (Yj.inj- y..injnyjin-y..inj) ;'=1 = Ľ(V>-Vj%lny=Ľ«;(Yy-Yj2 ;=1 7 ;=1 reziduálni celkový takže pokud platí model Mq , pak statistika mezi třídami FA = (Seo -Se)/(g-l) Sel {n-Cl) F(a — l,n — a). Jan Koláček (PřF MU) M5VM05 Statistické modelování 16 / 46 Shrnutí Definice 3 • Celkový součet čtverců (charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru), počet stupňů volnosti dfj = n — 1: a ni Z=l;=l • Skupinový součet čtverců (charakterizuje variabilitu mezi jednotlivými náhodnými výběry), počet stupňů volnosti dfj^ = a — 1: a SA = Eni(Yi--y~)2 ;'=i Reziduálni součet čtverců (charakterizuje variabilitu uvnitř jednotlivých výběrů), počet stupňů volnosti dfe = n — a: Se = tt(^-ň)2- z=l;=l Jan Koláček (PřF MU) M5VM05 Statistické modelování 17 Shrnutí Věta 4 Lze dokázat, že St = Sa + Sj Věta 5 Rozdíl mezi modely M a Mq ověřujeme pomocí testové statistiky SA/dfA FA = Se/dfe ' která se řídí rozložením F (a — 1,71 — 0), je-li model Mo správný. Hypotézu o nevýznamnosti faktoru A tedy zamítáme na hladině významnosti oc, když platí. FA > Fi_a(a - l,n - a). Jan Koláček (PřF MU) M5VM05 Statistické modelování 18 / 46 Shrnutí Předcházející pojmy se shrnují v tabulce analýzy rozptylu Zdroj variability Součet čtverců SS Stupně volnosti df Podíl MS = f F=MS sz Třídy Sa dfa = a — l P _ msa a - mse Reziduálni Se dfe = n — a — Celkový St dfj = n — 1 — — Jan Koláček (PřF MU) M5VM05 Statistické modelování 19/ Test shody rozptylů Věta 6 (Levenův test) Položme Zjj = \Yjj — Yja\. Označme: _ ni • Z;. = — E Zzy • Z = 1 E E Zvy Z=l;=l wi _ 2 •%=EE {Zjj-zit) Z=l;=l • Sz4 = E nť (Zť. - Z„) z=l Platí-li hypotéza o shodě rozptylů, pak statistika S7A/{a-l) ( , Jan Koláček (PřF MU) M5VM05 Statistické modelování Test shody rozptylů Věta 7 (Bartlettův test) Platí-li hypotéza o shodě rozptylů, pak statistika a (n — a) InSl — Y2(nj — 1) InS 7=1 2 kde a c = 1 + 3(fl 1) y=1 n — a x2(«-i), s, n — a Hq zamítáme na asymptotické hladině významnosti a, když B > Xi-M - l,n-a). Jan Koláček (PřF MU) M5VM05 Statistické modelování Metody mnohonásobného porovnávání Zamítneme-li na hladině významnosti oc hypotézu o shodě středních hodnot, chceme zjistit, které dvojice středních hodnot se liší na dané hladině významnosti a. Všechny výběry mají týž rozsah |pj => Tukeyova metoda Všechny výběry nemají stejný rozsah => Scheffého metoda. Jan Koláček (PřF MU) M5VM05 Statistické modelování 22 / 46 Metody mnohonásobného porovnávání Věta 8 (Tukeyova metoda) Rovnost středních hodnot ji^ a ]i\ zamítneme na hladině významnosti oc, když: Ykm-Yu >q\-oc{a,n-o) S, kde íji_a(a,n — a) jsou kvantity studentizovaného rozpětí, které najdeme ve statistických tabulkách. Věta 9 (Scheffého metoda) Rovnost středních hodnot ji^ a ]i\ zamítneme na hladině významnosti oc, když: Fi-cc(a - \,n-d). Jan Koláček (PřF MU) M5VM05 Statistické modelování 23/46 Význam předpokladů v analýze rozptylu • Nezávislost jednotlivých náhodných výběrů - velmi důležitý předpoklad, musí být splněn, jinak dostaneme nesmyslné výsledky. • Normalita - ANOVA není příliš citlivá na porušení normality, zvlášť pokud mají všechny výběry rozsah nad 20 (důsledek centrální limitní věty). Při výraznějším porušení se doporučuje Kruskalův - Wallisův test. o Shoda rozptylů - mírné porušení nevadí, při větším se doporučuje Kruskalův -Wallisův test. Test shody rozptylů má smysl provádět až po ověření předpokladu normality. Jan Koláček (PřF MU) M5VM05 Statistické modelování 24 / 46 Kruskalův - Wallisův test Kruskalův - Wallisův test je neparametrická obdoba analýzy rozptylu jednoduchého třídění. Formulace problému Necht je dáno a nezávislých náhodných výběrů o rozsazích ri\,... ,na. Předpokládáme, že tyto výběry pocházejí ze spojitých rozložení. Označme n = n\ + ... + na. Chceme testovat hypotézu, že všechny tyto výběry pocházejí z téhož rozložení. Jan Koláček (PřF MU) M5VM05 Statistické modelování 25/ Kruskalův - Wallisův test Věta 10 (Kruskalův - Wallisův test) Všech n hodnot seřadíme do rostoucí posloupnosti a určíme pořadí každé hodnoty. Označme t j součet pořadí těch hodnot, které patří do j-tého výběru, j = 1,... ,a (kontrola: musí platit t\ + ... + ta = n(n + l)/2). Testová statistika má tvar: 1? a t} n(n + l) ~ rij Platí-li Hq, má statistika Q asymptoticky rozložení x1 (a — 1), rostou-li rozsahy výběrů nade všechny meze. Hq tedy zamítneme na asymptotické hladině významnosti oc, když Q > x^_DĹ{a — 1). Jan Koláček (PřF MU) M5VM05 Statistické modelování 26 / 46 Příklad Příklad 1 U čtyř odrůd brambor (označených symboly A, B, C, D) se zjišťovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky uvádí tabulka: odrůda hmotnost (v kg) A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. Jan Koláček (PřF MU) M5VM05 Statistické modelování 27/46 Řešení Řešení. Data považujeme za realizace čtyř nezávislých náhodných výběrů ze čtyř normálních rozložení se stejným rozptylem. Testujeme hypotézu, že všechny čtyři střední hodnoty jsou stejné. Výpočtem získáme: ylm 0,8, y2a 1,2, y3> 1,4, y4> = 1,1, y_ = 1,14, Se = 0,3, S a = 0,816, Sj = 1,116, = 9,97. Ze statistických tabulek získáme £0,95(3,11) = 3,59. Protože testová statistika se realizuje v kritickém oboru, zamítáme nulovou hypotézu na hladině významnosti 0,05. Výsledky zapíšeme do tabulky ANOVA: Zdroj variability Součet čtverců Stupně volnosti Podíl fa třídy s a =0,816 3 sa/3 = 0,272 sä/3 _ q q7 SF/11 — reziduálni S£ = 0,3 11 sE/11 = 0,02727 celkový st = 1,116 14 Jan Koláček (PřF MU) M5VM05 Statistické modelování 28 / 46 Řešení Grafické posouzení co CM CO O H—• O E 00 o co o odrůdy Jan Koláček (PřF MU) M5VM05 Statistické modelování 29 Řešení Nyní pomocí Scheffého metody zjistíme, které dvojice odrůd se liší na hladině významnosti 0,05. Srovnávané odrůdy Rozdíly 7% — m\ Pravá strana vzorce A, B 0,4 0,41 A, C 0,67 0,36 A, D 0,3 0,41 B, C 0,2 0,40 B, D 0,1 0,44 C, D 0,3 0,40 Na hladině významnosti 0,05 se liší odrůdy A a C. Jan Koláček (PřF MU) M5VM05 Statistické modelování Více nezávislých náhodných výběrů z alternativních rozložení Test homogenity binomických rozložení Nechť Yji,..., Yjn ~ ^.(0/)' j = 1,2,... ,a jsou nezávislé náhodné výběry z alternativního rozložení. Testujeme hypotézu H$: 9\ = • • • = 9a proti alternativní hypotéze H\\ „alespoň jedna dvojice parametrů je různá". Věta 11 Statistika a — — x2 Q = =-=- T" nř- (Y,- - Y ) má v prípade platnosti nulové hypotézy asymptoticky rozložení x1 (a — zamítáme na asymptotické hladině významnosti oc, když Q > x^_DĹ(a - 1). H0 tedy -1)- Jan Koláček (PřF MU) M5VM05 Statistické modelování 31/46 Více nezávislých náhodných výběrů z alternativních rozložení Poznámka 12 Test lze použít, pokud > 5 pro všechna j = 1,... ,a. Poznámka 13 Statistiku Q lze snadno upravit do Brandtova - Snedecorova výpočetního tvaru Q= = 1 f ^2 Y.. =-=— ) tiiii —n-—. YM-Y..) ti 1 '' (2) M5VM05 Statistické modelování 32 / 46 Více nezávislých náhodných výběrů z alternativních rozložení Test homogenity binomických rozložení založený na arkussinusové transformaci Není-li splněna podmínka nyy_ > 5 pro všechna j = 1,.. ,,a, doporučuje se následující postup: Věta 14 Označme 9 Aj = arcsin J Y j. a • B = I E njAj. Pak statistika a Hq tedy zamítáme na asymptotické hladině významnosti a, když Jan Koláček (PřF MU) M5VM05 Statistické modelování 33 / 46 Mnohonásobné porovnávání Zamítneme-li nulovou hypotézu na asymptotické hladině významnosti oc, chceme zjistit, které dvojice parametrů 6^ a 6j se liší. Věta 15 Platí-li nerovnost pak na hladině významnosti oc zamítáme hypotézu o shodě parametrů 9^ a 9j. Poznámka 16 Hodnoty íji_a(a,oo) jsou kvantity studentizovaného rozpětí Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Příklad 2 Na gymnázium bylo přijato 142 studentů. Ti byli náhodně rozděleni do tříd A, B, C, D. V každé třídě byla matematika vyučována jinou metodou. Na konci školního roku psali všichni studenti stejnou písemnou práci a byl zaznamenán počet těch studentů, kteří vyřešili všechny zadané úkoly. Třída A B C D Počet studentů 35 36 37 34 Počet úspěšných studentů 5 8 17 15 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozdíly v podílech studentů v jednotlivých třídách, kteří správně vyřešili všechny zadané úlohy, jsou způsobeny pouze náhodnými vlivy. Jan Koláček (PřF MU) M5VM05 Statistické modelování 35 / 46 Řešení Řešení. Máme čtyři nazávislé náhodné výběry, j-tý pochází z rozložení A(Qj), j = 1,2,3,4. Testujeme hypotézu Hq: 0\ = O2 = #3 = 64. Ze zadání a výpočtem zjistíme: n\ 35, ft2 36, 37, n4 34, yla 5/35, y2> 8/36, y3> = 17/37, yjm = 15/34, y__ = 45/142, Q = 12,288, ^0,95(3) = 7,81." Protože testové kritérium se realizuje v kritickém oboru, Hq zamítáme na asymptotické hladině významnosti 0,05. Spočteme arkussinusové transformace výběrových průměrů. Vyjde: A\ = 0,3876, A2 = 0,4909, A3 = 0,7448, A4 = 0,7264. Nyní metodou mnohonásobného porovnávání zjistíme, které dvojice parametrů se od sebe liší na hladině významnosti 0,05. Jan Koláček (PřF MU) M5VM05 Statistické modelování 36 / 46 Řešení Srovnávané třídy Rozdíly lA^ — AA Pravá strana vzorce A, B A, C A, D B, C B, D C, D 0,1033 0,3572 0,3388 0,2539 0,2356 0,0184 0,30 0,30 0,31 0,30 0,31 0,30 Na hladině významnosti 0,05 se liší třídy A, C a A, D. Jan Koláček (P(F MU) M5VM05 Statistické modelovaní 37/ Využití ANOVA v lineárním regresním modelu Analýzy rozptylu lze využít v momentě, kdy chceme zjednodušit zvolený model a vypustit z modelu některé vysvětlující proměnné. Tj. uvažujeme nový podmodel , jehož matice plánu vznikne z původní matice vypuštěním některých sloupců. Naším úkolem je testovat, zda zvolený podmodel je vhodný k dostatečnému popisu závislosti v datech. Bez újmy na obecnosti předpokládejme, že matice, které určují model a podmodel se liší právě posledními sloupci matice X, takže X = (Xq,Xi). Mějme náhodný vektor Y = (Y\,..., Yn)f a předpokládejme, že platí model M a je dán submodel Mq, přičemž ~Ä/T| Y ~ Nn(X(í,cr2In) X je typu n x k, h(X) = r, jS je typu k x 1 Mol Y ~ Nn(X0p0,cr2In) X0 jetypunxfco, h(X0) = r0, j60 je typu k0 x 1 n>k>r>ľQ Model Mo je podmodelem M pokud Xq = XK, kde matice K = je typu k x fco- Jan Koláček (PřF MU) M5VM05 Statistické modelování 38 / 46 Využití ANOVA v lineárním regresním modelu Položme pak /i = HY = X(X'X)_X'Y, £0 = HqY = X0(X0X0)"X0Y, Se = (y-P)'(y-P) & - Ho)'$ - Po) Pokud platí model \Mq I, pak statistika (Seo -Se)/(r-r0) Se/{n-r) Seo = (y-fi0Y(y-fi0) Se — SeQ S^0 F(r — ro,n — r). Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Příklad 3 Pro data uvedená v následující tabulce x 1 2 3 4 5 6 7 8 9 10 y 58,42 37,34 49,64 59,85 24,37 59,29 47,12 75,29 140,49 147,23 uvažujte modely Mi : y = yS0 + fax M2: y = j80 + j8i* + frx2 M3 : y = /30 + j8i* + fcx2 + /33x3. Pomocí analýzy rozptylu porovnejte tyto modely Jan Koláček (PřF MU) M5VM05 Statistické modelování Řešení Řešení. Vycházíme z modelu M3 a testujeme vhodnost podmodelu M2. Hodnota statistiky Fq je v tomto případě 0,6469, p-hodnota testu je 0,4519. To znamená, že vynecháním kubického členu se model významně nezhorší. Nadále budeme tedy uvažovat model M2 a testovat vhodnost podmodelu M\. Hodnota statistiky Fq je v tomto případě 15,586, p-hodnota testu je 0,0055. To znamená, že vynecháním kvadratického členu se model již významně zhorší. Nejvhodnějším modelem pro popis závislosti je tedy M2. Jan Koláček (PřF MU) M5VM05 Statistické modelování 41 / 46 Jan Koláček (PřF MU) M5VM05 Statistické modelování 42 Úlohy k procvičení Příklad 1 Jsou známy měsíční tržby (v tisících Kč) tří prodavačů za dobu půl roku. 1. prodavač 12 TÔ 9 10 Ti ~ 2. prodavač 10 12 11 12 14 13 3. prodavač 19 18 16 16 17 15 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty tržeb všech tří prodavačů jsou stejné. Pokud zamítneme nulovou hypotézu, zjistěte, tržby kterých dvou prodavačů se liší na hladině významnosti 0,05. [Na hladině významnosti 0,05 se liší tržby prodavačů 1, 3 a 2, 3.] Jan Koláček (PřF MU) M5VM05 Statistické modelování 43 / 46 Úlohy k procvičení Příklad 2 Naprogramujte funkci „anovabinom.R", která pro vstupní vektory n j (počet pozorování ve skupinách) a p j (počet „úspěchů" ve skupinách) provede analýzu rozptylu pro binomická data. V případě zamítnutí nulové hypotézy vypíše indexy skupin, které se od sebe významně liší. Příklad 3 104 náhodně vybraných matek bylo dotázáno, zda jejich kojenec dostává dudlík. Zjišťoval se též nejvyšší stupeň dosaženého vzdělání matky. Vzdělání matky Počet matek Počet dětí s dudlíkem základní 39 27 středoškolské 47 34 vysokoškolské 18 15 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že podíly dětí s dudlíkem nezávisí na vzdělání matky. Jan Koláček (PřF MU) M5VM05 Statistické modelování 44 / 46 Úlohy k procvičení Příklad 4 Je dáno pět nezávislých náhodných výběrů o rozsazích 5, 7, 6, 8, 5, přičemž i-tý výběr pochází z rozložen í N (}íj, cr2), i = 1,... ,5. Byl vypočten celkový součet čtverců Sj = 15 a reziduálni součet čtverců Se = 3. Na hladině významnosti 0,05 testujte hypotézu o shodě středních hodnot. [n = 31, a = 5, SA = 12, f a = 26, F0/95(4,26) = 2,7426 Protože /a ^ ^0,95(4/26), Hq zamítáme na hladině významnosti 0,05.] Příklad 5 V proměnné „LakeHuron"3 jsou uloženy roční údaje o hloubce jezera Huron (ve stopách) v letech 1875 - 1972. Data proložte polynomem 8. stupně. Pomocí analýzy rozptylu zkoumejte možnosti zmenšení stupně regresního polynomu. adatový soubor implementovaný v jazyce R [Možno jít na stupeň 7.] Jan Koláček (PřF MU) M5VM05 Statistické modelování 45 / 46 Úlohy k procvičení Příklad 6 U 126 podniků řepařské oblasti v České Republice byl sledován hektarový výnos cukrovky ve vztahu ke spotřebě průmyslových hnojiv. Data jsou uložena v souboru „cukrovka.Rdata" ve 4 sloupcích: O dolní hranice spotřeby K20 (kg/ha) O horní hranice spotřeby K20 (kg/ha) O četnosti O průměrné výnosy cukrovky (q/ha) a) odhadněte parametry regresní funkce tvaru Poznámka: Za hodnoty nezávisle proměnné volte střed intervalu. b) Porovnejte vhodnost použitých regresních modelů pomocí analýzy rozptylu. y = + fax y = fa + fax + fax2 [Kvadratický model je významný.] Jan Koláček (PřF MU) M5VM05 Statistické modelování 46 / 46