ANOVA POLn4001 16.11.2023 ANOVA (ANalysis Of VAriance) •Použití: •Měření závislosti kategorické (ne dichotomické) proměnné na kardinální proměnnou •Srovnání hodnot tří a více průměrů v rámci jedné proměnné • • •Např. jak se liší průměrný příjem v závislosti na věku (věkových skupinách) •Experimenty s 3+ skupinami • ANOVA - základy •ANOVA testuje nulovou hypotézu, že průměry jednotlivých skupin jsou totožné • •Výsledkem je F-statistika: •Ta stanoví, zda jsou průměry totožné nebo ne •Nespecifikuje ale, jak se které průměry liší • •Identifikace odlišností mezi průměry se děje až v dalším kroku • ANOVA - základy •Základní model, který se na data dá použít, je průměr • •Průměr vyjadřuje absenci efektu jiné proměnné (např. věku na příjem) • •Cílem je najít model, který naše data vystihuje lépe • •Pokud jsou rozdíly mezi skupinami dostatečně velké, bude model založený na více průměrech vhodnější • ANOVA - základy •Jak zjistit, zda je nový model lepší? • •Odpověď – model musí představovat pokrok oproti vysvětlovací schopnosti starého modelu • •V případě průměru jsou vhodným ukazatelem jeho „nepřesnosti“ odchylky mezi modelem předpokládanými a skutečnými hodnotami • ANOVA – příklad (Field 2009: 350) Placebo Nízká dávka Vysoká dávka 3 5 7 2 2 4 1 4 5 1 2 3 4 3 6 Průměr 2,2 3,2 5 Celkový průměr 3,467 Rozptyl 3,124 Sm. odchylka 1,767 ANOVA - základy SST •Celkový součet čtverců (Total Sum of Squares, SST) • •Součet umocněných odchylek od celkového průměru • •Čitatel zlomku výpočtu rozptylu • •SST = s2 (N – 1) • Hodnoty Průměr Rozdíl Po umocnění 3 3,467 -0,467 0,218089 2 -1,467 2,152089 1 -2,467 6,086089 1 -2,467 6,086089 4 0,533 0,284089 5 1,533 2,350089 2 -1,467 2,152089 4 0,533 0,284089 2 -1,467 2,152089 3 -0,467 0,218089 7 3,533 12,48209 4 0,533 0,284089 5 1,533 2,350089 3 -0,467 0,218089 6 2,533 6,416089 SST 43,74 ANOVA - základy SSR •Součet čtverců reziduálů (Residual Sum of Squares, SSR) • •Součet umocněných odchylek od průměrů stanovených modelem •Vyjadřuje nepřesnost modelu (rozdíly, které model nedokáže vysvětlit) • Hodnoty Průměr skupiny Rozdíl Po umocnění 3 2,2 0,8 0,64 2 -0,2 0,04 1 -1,2 1,44 1 -1,2 1,44 4 1,8 3,24 5 3,2 1,8 3,24 2 -1,2 1,44 4 0,8 0,64 2 -1,2 1,44 3 -0,2 0,04 7 5 2 4 4 -1 1 5 0 0 3 -2 4 6 1 1 SSR 23,6 SSM •Modelový součet čtverců (Model Sum of Squares, SSM) • •Součet umocněných rozdílů mezi hodnotami předpokládanými novým a starým modelem •Vyjadřuje pokrok nového modelu oproti modelu založeném na celkovém průměru • Průměr skupiny Celkový průměr Rozdíl Po umocnění Vynásobení velikostí skupiny 2,2 3,467 -1,267 1,605289 8,026445 3,2 -0,267 0,071289 0,356445 5 1,533 2,350089 11,750445 SSM 20,135 Sumy čtverců •SST – nepřesnost původního modelu •SSR – nepřesnost nového modelu •SSM – pokrok nového modelu oproti starému • •SST = SSR + SSM •43,74 = 23,6 + 20,135 • Sumy čtverců •Význam pro nový model: •SSM uvádí, kolik variability dat je model schopný vysvětlit (pokrok více průměrů oproti jednomu průměru) •SSR naopak uvádí, co model není schopný vysvětlit (z důvodu vlivu dalších faktorů) • •Je potřebné, aby podíl vysvětlené variability byl vyšší než podíl variability nevysvětlené, a to čím víc, tím líp • Průměrné sumy čtverců •SSM = 20,135 / (3-1) = 20,135 / 2 = 10,068 = MSM •SSR = 23,6 / (15 – 3) = 23,6 / 12 = 1,967 = MSR • •Obě hodnoty je nutné srovnat na stejný základ, protože byli počítané jako součty z odlišného počtu prvků • •SSM se dělí počtem skupin -1 •SSR se dělí počtem prvků – počtem skupin • F-statistika •SSM = 20,135 / (3-1) = 20,135 / 2 = 10,068 = MSM •SSR = 23,6 / (15 – 3) = 23,6 / 12 = 1,967 = MSR • •F = vysvětlená variabilita / nevysvětlená variabilita •F = MSM / MSR •F = 5,12 • F-statistika •Výstup analýzy ANOVA • •F-statistika (a její signifikantnost) jsou pouze prvním krokem (i když samotná ANOVA tím končí) • •Z F-statistiky lze poznat, že některé průměry se od sebe statisticky signifikantně liší, ale ne už které a jak • •Potřebný druhý krok – kontrasty nebo post hoc testy • ANOVA - předpoklady •ANOVA je parametrický test • •Nezávislost pozorování, normální rozložení závislé proměnné (uvnitř skupin), homogenita rozptylu, závislá proměnná alespoň intervalová • •Za jistých okolností je ANOVA robustní = produkuje platné výsledky navzdory porušeným předpokladům • ANOVA - předpoklady •Porušení normality: •Pokud jsou skupiny stejné, výsledky ANOVA by neměli být narušené •Pokud jsou skupiny různě velké, přesnost F-statistiky může být narušená • •Porušení homogenity rozptylu: •Stejně jako u porušení normality •Pokud mají větší skupiny vyšší rozptyl, hodnota F má tendenci být nižší (a naopak) • •Porušení nezávislosti: •Vážné navýšení pravděpodobnosti chyby I. typu (false positive) • Post hoc testy •Druhý krok, který následuje po zjištění hodnoty F-statistiky (pouze pokud ukazuje na výhodnost modelu) • •Post hoc testy porovnají všechny dvojice průměrů • •Využití spíše pro výzkumy bez hypotéz (není pravidlo) • •Více variant (v SPSS téměř dvě desítky) • Post hoc testy •Kritéria použití: •Kontrola chyb I. typu •Kontrola chyb II. typu •Validní výstupy při porušení předpokladů ANOVA • •Konzervativní testy – nízká možnost chyby I. typu za cenu opatrnosti (neodhalí existující efekt) •Liberální testy – nízká možnost chyby II. typu za cenu lehkovážnosti (odhalí se neexistující efekt) • Post hoc testy •Co použít? • •Stejně velké skupiny a rozptyly – REGWQ nebo Tukey • •Konzervativní test – Bonferroni • •Rozdílná velikost skupin – Gabriel nebo GT2 • •Narušena homogenita rozptylu – Games-Howell • ANOVA v SPSS •Analyze à Compare Means à One-Way ANOVA •Závislou proměnnou vložit do Dependent List •Nezávislou proměnnou do Factor • •V Options možnost zvolit deskriptivní statistiky, Levenův test, Brown-Forsythe a Welch F • •V Post Hoc vybrat příslušné testy (při Dunnett skontrolovat další nastavení) • Obrázok, na ktorom je stôl Automaticky generovaný popis Obrázok, na ktorom je stôl Automaticky generovaný popis Obrázok, na ktorom je stôl Automaticky generovaný popis Obrázok, na ktorom je stôl Automaticky generovaný popis Kruskal-Wallisův test •Neparametrická alternativa k ANOVA • •Data seřadí a následně počítá (samotné hodnoty v rámci výpočtu nebere do úvahy) • •Výsledkem je statistika H • •Následně je možná obdoba post hoc testů (Mann-Whitney test) – ani zde se nebere ohled na hodnoty • • Kruskal-Wallis v SPSS •Analyze à Nonparametric Tests à Legacy Dialogs à K Independent Samples •Zvolit Kruskal-Wallis H •Závislou proměnnou vložit do Test Variable List •Nezávislou proměnnou do Grouping Variable a stanovit minimální a maximální hodnotu • •Pro Post Hoc: •Analyze à Nonparametric Tests à Legacy Dialogs à 2 Independent Samples •Zvolit Mann-Whitney U •Stejný postup •