1 10-Analýza rozptylu jednoduchého třídění, ANOVA, Jed-nofaktorová analýza rozptylu 1.1 Nová látka 1.1.1 Testování homogenity rozptylů u r náhodných výběrů • homogenita (stejnorodost) rozptylů u většího množství náhodných výběrů je důležitým předpokladem, který musí být splněn, abychom mohli provést tzv. ANOVU - jednofaktorovou analýzu rozptylu (viz dále). • předpokládejme, že máme r > 2 náhodných výběrů • testujeme nulovou hypotézu H0 : o\ = o\ = ■ ■ ■ = o2r = a2 oproti alternativní hypotéze H\ : alespoň jedna dvojice rozptylů se liší • testy rozptylu 1. Levenův test — levene.test(D,K) knihovna lawstat ; D... vektor dat, K... typ skupiny — je založen na analýze rozptylu absolutních hodnot centrovaných pozorování — výpočet je založen na 'hraní si' s odhady středních hodnot 2. Brownův-Forsytův test — je modifikací Levenova testu — je založen na mediánu (namísto střední hodnoty) — při větších rozsazích náhodných výběrů (rii > 20) jej lze použít i na data, které nejsou z normálního rozdělení — v Rku ho používat nebudeme, ale je dobré, abyste o něm aspoň slyšeli 3. Bartlettův test — bartlett.test(D,K) knihovna stat — můžeme jej použít, pouze pokud jsou rozsahy všech výběrů větší než 6 — nelze jej použít, pokud je více náhodných výběrů z výrazně nenormálního rozložení 1.1.2 ANOVA - Jednofaktorová analýza rozptylu • zkoumá závislost intervalové/poměrové proměnné X na nominální proměnné A, které má alespoň dvě varianty • A... faktor, varianty A... úrovně faktoru • závislost X na A se projeví tím, že existuje statisticky významný rozdíl v průměrech proměnné X v náhodných výběrech, které vznikly tříděním podle variant proměnné A. • motivační příklady — má metoda výuky (faktor A) vliv na počet bodů (intervalová proměnná X) dosažených studenty v závěrečném testu? 1 — má typ potravy pračlověka (A) vliv na šířku stoliček (X)? — má způsob života (A: na stromu-šplh; na zemi - šplhá málo) vliv na intenzitu svalových úponů na rukou (X)? — má pohlaví (A) vliv na hmotnost člověka (X), nebo na šířku očnic (X)? • trocha matematiky — předpokládáme, že faktor A má r > 2 úrovní Ai,... Ar, přičemž i-té úrovni odpovídá fa pozorování Xn,... Xin.. Tato pozorování tvoří náhodný výběr z N (fa, qi_a(r,n-r)^, (2) kde kvantily qi-a najdeme ve statistických tabulkách a S* je z minulé hodiny známý vážený průměr výběrových rozptylů. Lze jej ale zjednodušeně vypočítat podle vzorce c2 _ SE f e 3 * existuje i modifikace Tukeyovy metody pro nestejné rozsahy výběrů tzv. Tukey HSD metoda — Scheffého metoda * používá se, pokud nejsou rozsahy všech výběrů stejné * rovnost středních hodnot a fii zamítneme na hladině významnosti a, když \Mk.-ML\>sJ(r-l) f—+ -Wa(r-l,n-r). (3) V \nk nij c2 _ Se f e metody mnohonásobného porovnávání jsou slabší, než ANOVA, proto se může stát, že ANOVOU zamítneme HO o shodě středních hodnot ale metody mnohonásobného porovnávání u žádné dvojice vyznaný rozdíl nenajsou. dochází tomu tehdy, když p-hodnota pro ANOVU je jen o málo nižší než zvolená hladina významnosti • POSTUP TESTOVÁNÍ ANOVY: 1. ověření normality — Q-Q plot + test — slabé porušení nevadí, anova na to není příliš citlivá 2. ověření rozptylu — krabicový graf - je šířka krabic stejná?; + test — na slabé porušení homogenity rozptylu není anova příliš citlivá 3. testování shody středních hodnot 4. dojde-li k zamítnutí Hq o shodě středních hodnot, použijeme post-hoc metody • Zajímavost k testování homogenity rozptylů: Parametr a2 není znám a je třeba testovat hypotézu H0 : fiľ = ■ ■ ■ = fir. Na první pohled by se zdálo, že tento problém lze snadno převést na testování dvou nezávislých výběrů, a to tak, že vytvoříme dvojice souborů a na každou dvojici aplikujeme dvouvýběrový t-test na hladině významnosti a. Jestliže alespoň jedna dvojice dá signifikantní výsledek (tedy zamítáme hypotézu o shodnosti středních hodnot vybrané dvojice), zdá se, že můžeme zamítnout hypotézu Hq. A současně hned vidíme, které dvojice se od sebe signifikantně liší. Tento postup však nesplňuje podmínku, že pravděpodobnost chyby prvního druhu má být a. Je-li totiž nulová hypotéza správná, pak každý t-test dá signifikantní výsledek, tj. zamítne hypotézu o shodě středních hodnot, s pravděpodobností a. My však chceme Hq zamítnout, když alespoň jeden ze všech testů dá signifikantní výsledek. Takže pravděpodobnost zamítnutí Hq, je-li správná, bude při I > 3 větší než a. 4 Příklad z hodiny: Ustav antropologie vypsal konkurz na přijetí nového antropologa do svých řad. Ředitel ústavu se rozhodl, že nedá na hezký obličejík a naučené fráze a vezme někoho, kdo je ve svém oboru zručný. Každý uchazeč měl za úkol provést v rámci pohovoru několik měření a byl mu stopován čas potřebný k měření. Konkurzu se zúčastnili tři kandidáti. Časy jejich měření v minutách jsou zaznamenány v tabulce: 1 antropolog: 3.6 3.8 3.7 3.5 2 antropolog: 4.3 3.9 4.2 3.9 4.4 4.7 3 antropolog: 4.2 4.5 4.0 4.1 4.5 4.4 Na hladině významnosti a = 0.05 testujte hypotézu, že rychlost měření těchto tří antropologů jsou stejné. Zamítnete-li nulovou hypotézu, určete, výkony kterých antropologů se liší na dané hladině významnosti a = 0.05 a stanovte závěr, který by ředitele ústavu mohl zajímat. Poznámka: Před samotným testováním nezapomeňte ověřit, že všechny tři výběry pochází z normálních rozložení a že rozptyly těchto výběrů jsou shodné. Jsou to důležité předpoklady, které musí být splněny, abychom mohli analýzu rozptylu použít. Normalitu otestujte pomocí vhodného testu (případně i graficky pomocí Q-Q plotu), shodu rozptylů potom ověřte pomocí Le-venova testu a graficky pomocí krabicových diagramů. Proč nemůžeme k otestování shody rozptylů použít Bartlettův test? 5