Parametrické úlohy o více nezávislých náhodných výběrech I. Případ r ≥ 3 nezávislých náhodných výběrů z normálních rozložení Motivace: Zajímáme se o problém, zda lze určitým faktorem (tj. nominální náhodnou veličinou A) vysvětlit variabilitu pozorovaných hodnot náhodné veličiny X, která je intervalového či poměrového typu. Např. zkoumáme, zda metoda výuky určitého předmětu (faktor A) ovlivňuje počet bodů dosažených studenty v závěrečném testu (náhodná veličina X). Předpokládáme, že faktor A má r ≥ 3 úrovní a přitom i-té úrovni odpovídá n[i] pozorování , které tvoří náhodný výběr z rozložení N(μ[i], σ^2), i = 1, ..., r a jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy X[ij] = μ[i] + ε[ij], kde ε[ij] jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, σ^2), i = 1, …, r, j = 1, …, n[i]. Výsledky lze zapsat do tabulky faktor A výsledky úroveň 1 úroveň 2 … … úroveň r Ilustrace: Na hladině významnosti α testujeme nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné, tj. H[0]: μ[1] = … = μ[r] proti alternativní hypotéze H[1], která tvrdí, že aspoň jedna dvojice středních hodnot se liší. Jedná se tedy o zobecnění dvouvýběrového t-testu a na první pohled se zdá, že stačí utvořit dvojic náhodných výběrů a na každou dvojici aplikovat dvouvýběrový t-test. Hypotézu o shodě všech středních hodnot bychom pak zamítli, pokud aspoň v jednom případě z porovnávání se prokáže odlišnost středních hodnot. Odtud je vidět, že k neoprávněnému zamítnutí nulové hypotézy (tj. k chybě 1. druhu) může dojít s pravděpodobností větší než α. Proto ve 30. letech 20. století vytvořil R. A. Fisher metodu ANOVA (analýza rozptylu, v popsané situaci konkrétně analýza rozptylu jednoduchého třídění), která uvedenou podmínku splňuje. Pokud na hladině významnosti α zamítneme nulovou hypotézu, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. Označení: V analýze rozptylu jednoduchého třídění se používá tzv. tečková notace. … celkový rozsah všech r výběrů … součet hodnot v i-tém výběru … výběrový průměr v i-tém výběru … součet hodnot všech výběrů … celkový průměr všech r výběrů Testování hypotézy o shodě středních hodnot Náhodné veličiny X[ij] se řídí modelem M0: X[ij] = μ + α[i] + ε[ij] pro i = 1, …, r, j = 1, …, n[i] , přičemž ε[ij] jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, σ^2), μ je společná část střední hodnoty závisle proměnné veličiny, α[i] je efekt faktoru A na úrovni i. Parametry μ, α[i] neznáme. Požadujeme, aby platila tzv. reparametrizační rovnice: . (Pokud je třídění vyvážené, tj. pokud mají všechny výběry stejný rozsah: n[1] = n[2] = … = n[r], pak lze použít zjednodušenou podmínku .) Zavedeme součty čtverců … celkový součet čtverců (charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru), počet stupňů volnosti f[T] = n – 1, … skupinový součet čtverců (charakterizuje variabilitu mezi jednotlivými náhodnými výběry), počet stupňů volnosti f[A] = r – 1. Sčítanec představuje bodový odhad efektu α[i]. … reziduální součet čtverců (charakterizuje variabilitu uvnitř jednotlivých výběrů), počet stupňů volnosti f[E] = n - r. Lze dokázat, že S[T] = S[A] + S[E]. (Důkaz je proveden např. ve skriptech Budíková, Mikoláš, Osecký: Popisná statistika v poznámce 5.20.) Kdyby nezáleželo na faktoru A, platila by hypotéza α[1] = … = α[r] = 0 a dostali bychom model M1: X[ij] = μ + ε[ij]. Během analýzy rozptylu tedy zkoumáme, zda výběrové průměry M[1], …, M[r] se od sebe liší pouze v mezích náhodného kolísání kolem celkového průměru M nebo zda se projevuje vliv faktoru A. Rozdíl mezi modely M0 a M1 ověřujeme pomocí testové statistiky , která se řídí rozložením F(r-1,n-r), je-li model M1 správný. Hypotézu o nevýznamnosti faktoru A tedy zamítneme na hladině významnosti α, když platí: F[A ]≥ F[1-α](r-1,n-r). Výsledky výpočtů zapisujeme do tabulky analýzy rozptylu jednoduchého třídění. Zdroj variability součet čtverců stupně volnosti podíl F[A] skupiny S[A] f[A] = r - 1 S[A]/f[A] reziduální S[E] f[E] = n - r S[E]/f[E] - celkový S[T] f[T] = n - 1 - - Sílu závislosti náhodné veličiny X na faktoru A můžeme měřit pomocí poměru determinace: . Nabývá hodnot z intervalu . Testování hypotézy o shodě rozptylů Před provedením analýzy rozptylu je zapotřebí ověřit předpoklad o shodě rozptylů v daných r výběrech. a) Levenův test: Položme . Označíme Platí-li hypotéza o shodě rozptylů, pak statistika ≈ F(r-1, n-r). Hypotézu o shodě rozptylů tedy zamítáme na asymptotické hladině významnosti α, když F[ZA] ≥ F[1-α](r-1, n-r). (Levenův test je vlastně založen na analýze rozptylu absolutních hodnot centrovaných pozorování. Vzhledem k tomu, že náhodné veličiny X[ij] – M[i] nejsou stochasticky nezávislé a absolutní hodnoty těchto veličin nemají normální rozložení, je Levenův test pouze aproximativní.) Modifikací Levenova testu je Brownův – Forsytheův test. Modifikace spočívá v tom, že místo výběrového průměru i-tého výběru se při výpočtu veličiny Z[ij] používá medián i-tého výběru. b) Bartlettův test: Platí-li hypotéza o shodě rozptylů a rozsahy všech výběrů jsou větší než 6, pak statistika ≈ χ^2(r-1), kde a S[*]^2 je vážený průměr výběrových rozptylů. H[0] zamítáme na asymptotické hladině významnosti α, když B ≥ χ^2[1-α](r-1). (Bartlettův test je poměrně slabý a je citlivý na porušení normality. Nedá se použít pro malé rozsahy výběrů.) Post – hoc metody mnohonásobného porovnávání Zamítneme-li na hladině významnosti α hypotézu o shodě středních hodnot, chceme zjistit, které dvojice středních hodnot se liší na dané hladině významnosti α, tj. na hladině významnosti α testujeme H[0]: μ[l] = μ[k] proti H[1]: μ[l] ≠ μ[k] pro všechna l, k = 1, .., r, l ≠ k. a) Mají-li všechny výběry týž rozsah p (říkáme, že třídění je vyvážené), použijeme Tukeyovu metodu. Testová statistika má tvar . Rovnost středních hodnot μ[k] a μ[l] zamítneme na hladině významnosti α, když , kde hodnoty q[1-α](r, n-r) jsou kvantily studentizovaného rozpětí a najdeme je ve statistických tabulkách. (Studentizované rozpětí je náhodná veličina .) Existuje modifikace Tukeyovy metody pro nestejné rozsahy výběrů, nazývá se Tukeyova HSD metoda. V tomto případě má testová statistika tvar . Rovnost středních hodnot μ[k] a μ[l] zamítneme na hladině významnosti α, když . b) Nemají-li všechny výběry stejný rozsah, použijeme Scheffého metodu: rovnost středních hodnot μ[k]a μ[l] zamítneme na hladině významnosti α, když . Výhodou Scheffého testu je, že k jeho provedení nepotřebujeme speciální statistické tabulky s hodnotami kvantilů studentizovaného rozpětí, ale stačí běžné statistické tabulky s kvantily Fisherova – Snedecorova rozložení. V případě vyváženého třídění, kdy lze aplikovat Tukeyovu i Scheffého metodu, použijeme tu, která je citlivější. Tukeyova metoda tedy bude výhodnější, když q[1-α]^2(r, n-r) < 2(r-1)F[1-][α](r-1, n-r). Metody mnohonásobného porovnávání mají obecně menší sílu než ANOVA. Může nastat situace, kdy při zamítnutí H[0] nenajdeme metodami mnohonásobného porovnávání významný rozdíl u žádné dvojice středních hodnot. K tomu dochází zvláště tehdy, když p-hodnota pro ANOVU je jen o málo nižší než zvolená hladina významnosti. Pak slabší test patřící do skupiny metod mnohonásobného porovnávání nemusí odhalit žádný rozdíl. Příklad: U čtyř odrůd brambor (označených symboly A, B, C, D) se zjišťovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky (v kg): odrůda hmotnost A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. Řešení: Data považujeme za realizace čtyř nezávislých náhodných výběrů ze čtyř normálních rozložení se stejným rozptylem. Testujeme hypotézu, že všechny čtyři střední hodnoty jsou stejné. Vypočítáme výběrové průměry v jednotlivých výběrech: M[1.] = 0,8, M[2.] = 1,2, M[3.] = 1,4, M[4.] = 1,1, celkový průměr M[..] = 1,14, výběrové rozptyly: S[1]^2 = 0,02, S[2]^2 = 0,03, S[3]^2 = 0,04, S[4]^2 = 0,01, vážený průměr výběrových rozptylů: , reziduální součet čtverců: , skupinový součet čtverců: celkový součet čtverců: S[T] = S[A] + S[E] = 0,816 + 0,3 = 1,116, testová statistika = 9,97, Kritický obor W = . Protože testová statistika se realizuje v kritickém oboru, H[0] zamítáme na hladině významnosti 0,05. Vypočteme poměr determinace: Výsledky zapíšeme do tabulky ANOVA: Zdroj variability Součet čtverců Stupně volnosti podíl F[A] skupiny S[A] = 0,816 3 S[A]/3 = 0,272 = 9,97 reziduální S[E] = 0,3 11 S[E]/11 = 0,02727 - celkový S[T] = 1,116 14 - - Nyní pomocí Scheffého metody zjistíme, které dvojice odrůd se liší na hladině významnosti 0,05. Srovnávané odrůdy Rozdíly Pravá strana vzorce A, B 0,4 0,41 A, C 0,67 0,36 A, D 0,3 0,41 B, C 0,2 0,40 B, D 0,1 0,44 C, D 0,3 0,40 Na hladině významnosti 0,05 se liší odrůdy A a C. Řešení pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných X a odrůda a 15 případech. Do proměnné X zapíšeme zjištěné hmotnosti, do proměnné odrůda kódy pro dané odrůdy (1 pro A, 2 pro B, 3 pro C a 4 pro D). Ověříme normalitu daných čtyř náhodných výběrů pomocí N-P plotu a S-W testu: Odchylky od normality jsou jen nepatrné – s výjimkou odrůdy B.. Vypočteme výběrové průměry a výběrové rozptyly: Statistiky – Základní statistiky a tabulky – Rozklad & jednofakt. ANOVA – OK – Proměnné – Závislé – X, Grupovací - odrůda – OK – Skupiny tabulek - zaškrtneme Rozptyly - Výpočet. Nyní ověříme předpoklad shody rozptylů. Na záložce Skupiny tabulek zaškrtneme Levenův test – Výpočet. Vidíme, že p-hodnota Levenova testu je 0,41, tedy větší než hladina významnosti 0,05. Hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05. Přistoupíme k testu hypotézy o shodě středních hodnot. Na záložce Skupiny tabulek zaškrtneme Analýza rozptylu – Výpočet. Jelikož p-hodnota = 0,001805 je menší než hladina významnosti 0,05, hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Výpočet doplníme krabicovými diagramy: Nyní aplikujeme Scheffého metodu mnohonásobného porovnávání, abychom zjistili, které dvojice odrůd se liší na hladině významnosti 0,05. Na záložce Post – hoc zvolíme Schefféův test. Tabulka obsahuje p-hodnoty pro vzájemné porovnání středních hodnot hmotnosti všech čtyř odrůd. Vidíme, že na hladině významnosti 0,05 se liší odrůdy A, C. Význam předpokladů v analýze rozptylu a) Nezávislost jednotlivých náhodných výběrů – velmi důležitý předpoklad, musí být splněn, jinak dostaneme nesmyslné výsledky. b) Normalita – ANOVA není příliš citlivá na porušení normality, zvlášť pokud mají všechny výběry rozsah nad 20 (důsledek centrální limitní věty). Při výraznějším porušení normality se doporučuje Kruskalův – Wallisův test. c) Shoda rozptylů – mírné porušení nevadí, při větším se doporučuje Kruskalův – Wallisův test. Test shody rozptylů má smysl provádět až po ověření předpokladu normality. II. Případ r ≥ 3 nezávislých náhodných výběrů z alternativních rozložení Test homogenity binomických rozložení Nechť máme r ≥ 3 nezávislých náhodných výběrů o rozsazích n[1], …, n[r], přičemž j-tý náhodný výběr pochází z alternativního rozložení A( ), j = 1, 2, ..., r. Testujeme hypotézu H[0]: proti alternativní hypotéze H[1]: aspoň jedna dvojice parametrů je různá. Označme celkový rozsah všech r výběrů a vážený průměr výběrových průměrů. Jako testové kritérium slouží statistika , která v případě platnosti nulové hypotézy má asymptoticky rozložení χ^2(r-1). H[0] tedy zamítáme na asymptotické hladině významnosti α, když Q ≥ χ^2[1-α](r-1). Podmínka dobré aproximace: n[j]M[* ]> 5 pro všechna j = 1, ..., r. Statistiku Q lze snadno upravit do Brandtova – Snedecorova výpočetního tvaru . Důkaz: Již víme že, statistika ≈ N(0,1). Nechť platí H[0]. Označme společnou hodnotu všech parametrů , j = 1, 2, ..., r. Pak statistika ≈ N(0,1) a ≈ χ^2(1). Lze ukázat, že statistika ≈ χ^2(r-1). Parametr však neznáme, nahradíme ho váženým průměrem výběrových průměrů a dostaneme ≈ χ^2(r-1). Kritický obor tedy bude . Test homogenity založený na arkussinusové transformaci Není-li splněna podmínka n[j]M[* ]> 5 pro všechna j = 1, ..., r, doporučuje se následující postup: označme , j = 1, ..., r, . Pak statistika ≈ χ^2(r-1). H[0] tedy zamítáme na asymptotické hladině významnosti α, když Q ≥ χ^2[1-α](r-1). Mnohonásobné porovnávání Zamítneme-li nulovou hypotézu na asymptotické hladině významnosti α, chceme zjistit, které dvojice parametrů se liší. Platí-li nerovnost , pak na hladině významnosti α zamítáme hypotézu o shodě parametrů . (Hodnoty q[1-α](r, ∞) najdeme v tabulkách.) Příklad: Na gymnázium bylo přijato 142 studentů. Ti byli náhodně rozděleni do čtyř tříd A, B, C, D. V každé třídě byla matematika vyučována jinou metodou. Na konci školního roku psali všichni studenti stejnou písemnou práci a byl zaznamenán počet těch studentů, kteří vyřešili všechny zadané úkoly. Třída A B C D Počet studentů 35 36 37 34 Počet úspěšných studentů 5 8 17 15 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozdíly mezi třídami jsou způsobeny pouze náhodnými vlivy. Řešení: Máme čtyři nezávislé náhodné výběry, j-tý pochází z rozložení A( ), j = 1, 2, 3, 4. Testujeme hypotézu H[0]: . n[1 ]= 35, n[2 ]= 36, n[3 ]= 37, n[4 ]= 34, n = 142 m[1 ]= 5/35, m[2 ]= 8/36, m[3 ]= 17/37, m[4 ]= 15/34, m[*] = (5+8+17+15)/142 = 45/142. Podmínky dobré aproximace: , , , Testová statistika Kritický obor: . Protože testové kritérium se realizuje v kritickém oboru, H[0] zamítáme na asymptotické hladině významnosti 0,05. Nyní metodou mnohonásobného porovnávání zjistíme, které dvojice parametrů se od sebe liší na hladině významnosti 0,05. Pomocí arkussinusové transformace vypočteme hodnoty : A[1] = 0,3876, A[2] = 0,4909, A[3] = 0,7448, A[4] = 0,7264 Platí-li nerovnost , pak na hladině významnosti α zamítáme hypotézu o shodě parametrů . Kvantil studentizovaného rozpětí najdeme v tabulkách: q[0,95](4,∞) = 3,63 Srovnávané třídy Rozdíly Pravá strana vzorce A, B 0,1033 0,30 A, C 0,3572 0,30 A, D 0,3388 0,31 B, C 0,2539 0,30 B, D 0,2356 0,31 C, D 0,0184 0,30 Na hladině významnosti 0,05 se liší třídy A, C a A, D. Řešení pomocí systému STATISTICA Vytvoříme nový datový soubor se dvěma proměnnými a 142 případy. Proměnná USPECH obsahuje hodnotu 1, pokud student vyřešil všechny zadané úkoly, jinak obsahuje hodnou 0. Proměnná TRIDA má hodnotu 1, pokud student pochází z třídy A, hodnotu 2 pro třídu B, hodnotu 3 pro třídu C a hodnotu 4 pro třídu D. Nejprve zjistíme podíly úspěšných studentů v jednotlivých třídách. Statistiky – Základní statistiky a tabulky – Rozklad – OK – Proměnné – Závislé – USPECH, Grupovací - TRIDA – OK – Skupiny tabulek - odškrtneme Směrovat. odchylka - Výpočet. Vidíme, že nejslabší výkony podávali studenti ze třídy A, úspěšných bylo pouze 14,3% studentů, ve třídě B 22,2%, ve třídě C 45,9% a ve třídě D 44,1%. Třídy C a D se z hlediska úspěchu v písemce z matematiky liší jen nepatrně. Dále provedeme testování hypotézy o shodě parametrů čtyř alternativních rozložení. Nejprve ověříme splnění podmínek dobré aproximace: n[j]m[* ]> 5 pro všechna j = 1, ..., r. Vážený průměr m[*] se nachází v posledním řádku výstupní tabulky procedury Rozklad. Jeho hodnotu okopírujeme do políček pro průměry tříd A, B, C, D, poslední řádek odstraníme a k tabulce přidáme jednu novou proměnnou, do jejíhož Dlouhého jména napíšeme =v2*v3. Vidíme, že podmínky dobré aproximace jsou splněny. Statistiky – Základní statistiky/tabulky – Kontingenční tabulky - OK - Specif. tabulky – List 1 USPECH, List 2 TRIDA, OK– Možnosti – Statistiky dvourozměrných tabulek - zaškrtněte Pearson & M-L Chi –square – Detailní výsledky - Detailní 2-rozm. tabulky. Testová statistika Q se realizuje hodnotou 12,2876, počet stupňů volnosti je 3, odpovídající p-hodnota = 0,00646, tedy na asymptotické hladině významnosti 0,05 hypotézu H[0] zamítáme. S rizikem omylu nejvýše 0,05 jsme tedy prokázali, že rozdíly v podílech úspěšných studentů v jednotlivých třídách nelze vysvětlit náhodnými vlivy. Upozornění: Systém STATISTICA neumožňuje provedení metody mnohonásobného porovnávání pro náhodné výběry z alternativního rozložení. Pro orientaci lze použít Scheffého metodu. V našem případě: Na asymptotické hladině významnosti 0,05 se liší třídy A a C.