© Institut biostatistiky a analýz RNDr. Eva Koriťáková, Ph.D. Vícerozměrné metody - cvičení Cvičení 3 Analýza rozptylu pro vícerozměrná data 2Koriťáková: Vícerozměrné metody - cvičení Analýza rozptylu (ANOVA) jednoduchého třídění • Srovnáváme tři a více skupin dat, které jsou na sobě nezávislé (mezi objekty neexistuje vazba). • Příklady: srovnání objemu hipokampu u pacientů s AD, pacientů s MCI a kontrol; srovnání kognitivního výkonu podle čtyř kategorií věku. • Předpoklady: normalita dat ve VŠECH skupinách, shodnost (homogenita) rozptylů VŠECH srovnávaných skupin, nezávislost jednotlivých pozorování. • Testová statistika: 3 ҧ𝑥1 ҧ𝑥2 ҧ𝑥3 0 1 2 3 AD MCI Kontroly ee AA dfS dfS F / /  Koriťáková: Vícerozměrné metody - cvičení • Srovnání variability (rozptylu) mezi výběry s variabilitou uvnitř výběrů. • Tabulka analýzy rozptylu jednoduchého třídění (One-Way ANOVA): Analýza rozptylu (ANOVA) – princip 4 Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Mezi skupinami SA dfA = a – 1 MSA = SA/dfA p Uvnitř skupin (reziduální var.) Se dfe = n – a MSe = Se/dfe Celkem ST dfT = n – 1 ee AA dfS dfS F / /  celkový průměr AD MCI CN AD MCI CN Koriťáková: Vícerozměrné metody - cvičení Analýza rozptylu jako lineární model • Analýza rozptylu pro jednu vysvětlující proměnnou (jednoduché třídění) lze zapsat jako lineární model: • Nulovou hypotézu pak lze vyjádřit jako: • Rozšířením tohoto zápisu můžeme definovat další modely ANOVA: více faktorů, hodnocení interakcí, opakovaná měření na jednom subjektu. 5 kH   210 : Koriťáková: Vícerozměrné metody - cvičení Analýza rozptylu pro vícerozměrná data • podle počtu faktorů: – 1 faktor – ANOVA jednoduchého třídění (jednofaktorová ANOVA) – 2 faktory – ANOVA dvojného třídění (dvoufaktorová ANOVA) – ... 6 • podle počtu vysvětlovaných proměnných: – 1 vysvětlovaná proměnná – jednorozměrná analýza rozptylu (ANOVA) – 2 a více vysvětlovaných proměnných – vícerozměná analýza rozptylu (MANOVA) • podle toho, zda se faktory ovlivňují či nikoliv: – faktory se mohou ovlivňovat – model s interakcí – faktory se neovlivňují – model bez interakce Koriťáková: Vícerozměrné metody - cvičení Analýza rozptylu pro vícerozměrná data - příklady 7 Počet faktorů: jednoduché x dvojné x trojné, ... třídění Počet proměnných: jednorozměrná x vícerozměrná analýza rozptylu Faktory se ovlivňují či neovlivňují: s interakcí x bez interakce • zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického tlaku u stovky osob, přičemž chceme zkoumat i vliv pohlaví, předpokládáme však, že ženy i muži reagují na jednotlivé léky obdobně (tzn. např. ženy s léky A a C budou mít nižší tlak než ženy s lékem B a muži s léky A a C budou mít také nižší tlak než muži s lékem B apod.) • zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického tlaku u stovky osob, přičemž chceme zkoumat i vliv pohlaví, a předpokládáme, že ženy a muži budou reagovat na léky různě (tzn. např. ženy s léky A a C budou mít nižší tlak než ženy s lékem B, zatímco muži s léky A a B budou mít vyšší tlak než muži s lékem C apod.) • zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického a diastolického tlaku u stovky osob • zkoumáme dlouhodobý vliv třech typů léků a vliv pohlaví na hodnoty systolického a diastolického tlaku u stovky osob – jednorozměrná analýza rozptylu dvojného třídění bez interakce – jednorozměrná analýza rozptylu dvojného třídění s interakcí – vícerozměrná analýza rozptylu jednoduchého třídění – vícerozměrná analýza rozptylu dvojného třídění • zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického tlaku u stovky osob – jednorozměrná analýza rozptylu jednoduchého třídění Koriťáková: Vícerozměrné metody - cvičení Analýza rozptylu dvojného třídění (bez interakce) • Uvažujeme dvě vysvětlující proměnné zároveň. • Zápis modelu: • Nulové hypotézy pak máme dvě: , 8 kH   2101 : rH   2102 : Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A SA dfA = a – 1 MSA = SA / dfA FA p Faktor B SB dfA = b – 1 MSB = SB / dfB FB p Rezidua Se dfe = n – a – b + 1 MSe= Se / dfe Celkem ST dfT = n – 1 Koriťáková: Vícerozměrné metody - cvičení Analýza rozptylu dvojného třídění s interakcí • Uvažujeme dvě vysvětlující proměnné a zároveň i jejich společné působení. • Zápis modelu: • Nulové hypotézy pak máme tři: 9 kH   2102 :krH   121101 : Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A SA dfA = a – 1 MSA = SA / dfA FA p Faktor B SB dfA = b – 1 MSB = SB / dfB FB p Interakce A×B SAB dfAB = (a– 1)(b – 1) MSAB = SAB / dfAB FAB p Rezidua Se dfe = n – ab MSe= Se / dfe Celkem ST dfT = n – 1 rH   2103 : Koriťáková: Vícerozměrné metody - cvičení Hlavní efekty a interakce 10 A B Faktor 1 8 10 12 14 16 18 20 22 24 A B Faktor 1 8 10 12 14 16 18 20 A B Faktor 1 8 9 10 11 12 13 14 15 16 17 18 A B Faktor 1 8 9 10 11 12 13 14 15 16 17 18 Faktor 2 I Faktor 2 II SS D.f. MS F p Faktor 1 1978 1 1978 482.2 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 A B Faktor 1 8 9 10 11 12 13 14 15 16 17 18 SS D.f. MS F p Faktor 1 4 1 4 1.0 0.314 Faktor 2 1891 1 1891 461.1 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 A B Faktor 1 8 10 12 14 16 18 20 22 24 26 SS D.f. MS F p Faktor 1 5293 1 5293 1290.7 0.000 Faktor 2 861 1 861 209.9 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F p Faktor 1 4 1 4 1.0 0.314 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 SS D.f. MS F p Faktor 1 920 1 920 224.3 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 SS D.f. MS F p Faktor 1 4799 1 4799 1443.4 0.000 Faktor 2 316 1 316 95.0 0.000 F1*F2 175 1 175 52.5 0.000 Error 652 196 3 - muži - ženy Koriťáková: Vícerozměrné metody - cvičení Analýza rozptylu pro vícerozměrná data - postup 11 Model s interakcemi Post hoc testy (všechny skupiny dané kombinací faktorů proti sobě) Interakce významné Interakce nevýznamné Model bez interakcí Popisná sumarizace + krabicové grafy Ověření předpokladů (nezávislost, normalita, homogenita rozptylů) Post hoc testy (pro významné faktory s více než dvěma kategoriemi) Úkol 1 Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií (neuvažujeme možnou interakci). 12Koriťáková: Vícerozměrné metody - cvičení ID Pohlaví Typ léku Počet nežádoucích účinků P1 M lék X 1 P2 M lék Y 1 P3 M lék Z 6 P4 Z lék X 3 P5 Z lék Y 4 P6 Z lék Z 9 Úkol 1 - řešení 13Koriťáková: Vícerozměrné metody - cvičení Pohlaví Typ léku Počet nežádoucích účinků 1 1 1 1 2 1 1 3 6 2 1 3 2 2 4 2 3 9 Překódování: 1=M 2=Z 1=lék X 2=lék Y 3=lék Z Legenda: Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií (neuvažujeme možnou interakci). Pohlaví: Typ léku: Úkol 1 - řešení 14 Pohlaví Typ léku Počet než. účinků 1 1 1 1 2 1 1 3 6 2 1 3 2 2 4 2 3 9 Koriťáková: Vícerozměrné metody - cvičení Úkol 1 - řešení 15 Pohlaví Typ léku Počet než. účinků 1 1 1 1 2 1 1 3 6 2 1 3 2 2 4 2 3 9 X.1. = 4; X.2. = 5; X.3. = 15; M.1. = Τ4 2 = 2 M.2. = Τ5 2 = 2,5 M.3. = Τ15 2 = 7,5 X1.. = 8 M1.. = Τ8 3 X2.. = 16 M2.. = Τ16 3 X... = 24; 𝑎 = 2; 𝑏 = 3; 𝑐 = 1; 𝑛 = 6; S 𝐴 = 𝑏𝑐 ෍ 𝑖=1 𝑎 M𝑖.. − M... 2 = 3 ∙ Τ8 3 − 4 2 + Τ16 3 − 4 2 = Τ32 3 = 10,67 Součet čtverců pro faktor A (pohlaví): S 𝐵 = 𝑎𝑐 ෍ 𝑗=1 𝑏 M.𝑗. − M... 2 = 2 ∙ 2 − 4 2 + 2,5 − 4 2 + 7,5 − 4 2 = 37 Součet čtverců pro faktor B (typ léku): S 𝑇 = ෍ 𝑖=1 𝑎 ෍ 𝑗=1 𝑏 ෍ 𝑘=1 𝑐 X 𝑖𝑗𝑘 − M... = 1 − 4 2 + 1 − 4 2 + ⋯ + 9 − 4 2 = 48 S 𝐸 = S 𝑇 − S 𝐴 − S 𝐵 = 0,33 M... = Τ24 6 = 4 Celkový součet čtverců : Reziduální součet čtverců : počet stupňů volnosti: f 𝐴 = 𝑎 − 1 = 1 počet stupňů volnosti: f 𝐵 = 𝑏 − 1 = 2 počet stupňů volnosti: f 𝑇 = 𝑛 − 1 = 5 počet stupňů volnosti: f 𝐸 = 𝑛 − 𝑎 − 𝑏 + 1 = 2 Úkol 1 - řešení 16 Zdroj variability Součet čtverců Stupně volnosti Podíl S/f F = ΤS f ΤS 𝐸 f 𝐸 Faktor A (pohlaví) S 𝐴 = 10,67 f 𝐴 = 1 10,67 63,99 Faktor B (typ léku) S 𝐵 = 37 f 𝐵 = 2 18,5 110,98 Reziduální S 𝐸 = 0,33 f 𝐸 = 2 0,16 Celkový S 𝑇 = 48 f 𝑇 = 5 - Tabulka analýzy rozptylu dvojného třídění: Koriťáková: Vícerozměrné metody - cvičení Srovnání s kvantily: F 𝐴 = 63,99 > F0,95 1,2 = 18,1 → pohlaví má vliv na počet nežádoucích účinků F 𝐵 = 110,98 > F0,95 2,2 = 19 → typ léku má vliv na počet nežádoucích účinků p-hodnoty: p 𝐴 = 0,015; p 𝐵 = 0,009 Úkol 1 – řešení v softwaru SPSS Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií. 17 Pohlaví Typ léku Počet než. účinků M lék X 1 M lék Y 1 M lék Z 6 Z lék X 3 Z lék Y 4 Z lék Z 9 V softwaru SPSS: Analyze – General Linear Model – Univariate – Dependent Variable: kvantitativní proměnná, Fixed Factor(s): kategoriální proměnné –> • Model – Build terms – vybereme Type: Main effects – do Model přetáhneme kategoriální proměnné (pokud bychom chtěli model s interakcemi, necháme zatržené Full factorial) – odškrtneme Include intercept in model – Continue • Post Hoc – Post hoc Tests for: zvolit kat. proměnnou – zatrhneme Tukey’s-b či Scheffe – Continue • Plots: zvolit proměnné do Horizontal Axis a Separte Lines – Add – Continue • Options... – Homogeneity tests – Continue Vykreslení krabicových grafů podle obou proměnných: Graphs – Legacy Dialogs – Boxplot... – Clustered – Define – zvolit Variable, Category Axis a Define Clusters by – OK Koriťáková: Vícerozměrné metody - cvičení Úkol 1 – řešení v softwaru R Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií. 18 V softwaru R: data <- data.frame(pohl=c(1,1,1,2,2,2),lek=c(1,2,3,1,2,3),pocet=c(1,1,6,3,4,9)) data model_bez_interakce <- aov(data$pocet ~ (as.factor(data$pohl)+as.factor(data$lek))) summary(model_bez_interakce) TukeyHSD(model_bez_interakce) # post-hoc test # 2. zpusob: anova(lm(data$pocet ~ (as.factor(data$pohl)+as.factor(data$lek)))) model_s_interakci <- aov(data$pocet ~ (as.factor(data$pohl)*as.factor(data$lek))) summary(model_s_interakci) boxplot(data$pocet ~(as.factor(data$pohl)*as.factor(data$lek))) library("car") # instalace baliku car pomoci: install.packages("car") leveneTest(data$pocet ~ (as.factor(data$pohl)*as.factor(data$lek)),center=mean) Koriťáková: Vícerozměrné metody - cvičení Úkol 1 – řešení v softwaru STATISTICA Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií. 19Koriťáková: Vícerozměrné metody - cvičení Pohlaví Typ léku Počet uzdrav. pacientů M lék X 1 M lék Y 1 M lék Z 6 Z lék X 3 Z lék Y 4 Z lék Z 9 V softwaru STATISTICA: Statistics – ANOVA – Main effects ANOVA – Quick specs dialog – OK – Variables – Dependent variable list: X, Categorical predictors (factors): A, B – OK – All effects. Post hoc testy: More results – Post hoc – zvolit Effect – Unequal N HSD, Tukey HSD nebo Scheffé Levenův test: More results – Assumptions – zvolit proměnnou – Levene‘s test (ANOVA) Vykreslení krabicových grafů podle obou proměnných: Graphs – 2D Graphs – Box Plots... – zvolit kvantitativní proměnnou jako Dependent variable, zvolit jednu kategoriální proměnnou jako Grouping variable – na listu Categorized u X-Categories zatrhnout On a Layout změnit na Overlaid – pokud chceme spojit mediány či průměry, na záložce Advanced zatrhnout Connect middle points – OK Pokud bychom uvažovali model s interakcemi, zvolíme Factorial ANOVA (namísto Main effects A.) Úkol 2 20 Zjistěte, zda má vliv pohlaví a typ onemocnění na objem hipokampu. Ukázka datového souboru: ID Group_3kat Gender_rek Hippocampus_volume (mm3) 101 1 M 6996.1 102 1 F 7187.3 103 1 M 7030.2 331 2 M 6891.6 332 2 M 6332.9 334 2 F 6303.7 737 3 M 6170.8 739 3 F 5984.1 740 3 F 6052.4 Legenda k proměnné Group_3kat: 1...CN (kontroly) 2...MCI (mírná kognitivní porucha) 3...AD (Alzheimerova choroba) Koriťáková: Vícerozměrné metody - cvičení Úkol 2 – popisná sumarizace dat 21 Skupina Pohlaví N Průměr SD Medián Minimum Maximum CN F 110 7018.3 190.1 7036.1 6509.6 7430.1 M 120 7087.3 176.0 7081.1 6674.4 7486.6 Celkem 230 7054.3 185.7 7048.6 6509.6 7486.6 MCI F 146 6476.7 171.8 6460.4 6155.1 6984.8 M 260 6595.2 164.1 6589.5 6159.1 7125.6 Celkem 406 6552.6 176.2 6555.0 6155.1 7125.6 AD F 95 6215.0 178.8 6237.8 5805.2 6619.0 M 102 6293.0 174.8 6250.8 5844.3 6756.9 Celkem 197 6255.4 180.6 6248.0 5805.2 6756.9 Celkem F 351 6575.6 364.8 6498.2 5805.2 7430.1 M 482 6653.8 323.9 6610.0 5844.3 7486.6 Celkem 833 6620.9 343.7 6580.9 5805.2 7486.6 Koriťáková: Vícerozměrné metody - cvičení Úkol 2 – krabicový graf 22 → interakci sice očekávat nebudeme, přesto si ale model s interakcí raději spočítáme (nejdřív ale musíme ověřit předpoklady) Koriťáková: Vícerozměrné metody - cvičení Úkol 2 – ověření normality 23Koriťáková: Vícerozměrné metody - cvičení Úkol 2 – homogenita rozptylů a nezávislost 24Koriťáková: Vícerozměrné metody - cvičení Nezávislost: Protože žádný subjekt nebyl současně ve více skupinách, nezávislost můžeme předpokládat. p=0,440 > 0,05 → nezamítáme homogenitu rozptylů Homogenita rozptylů: Úkol 2 – model s interakcí 25 → není statisticky významná interakce, proto spočítáme model bez interakce Koriťáková: Vícerozměrné metody - cvičení Úkol 2 – model bez interakce 26 → statisticky významný vliv pohlaví i typu onemocnění na objem hipokampu → protože typ onemocnění má více než 2 kategorie, musíme provést post-hoc test, abychom zjistili, mezi kterými kategoriemi je statisticky významný rozdíl Koriťáková: Vícerozměrné metody - cvičení Úkol 2 – post-hoc testy a interpretace 27 - statisticky významný vliv pohlaví i typu onemocnění na objem hipokampu, přičemž mezi pohlavím a typem onemocnění nenastává interakce - u mužů statisticky významně vyšší objem hipokampu než u žen CN MCI AD - statisticky významný rozdíl v objemu hipokampu u všech 3 skupin subjektů podle typu onemocnění, přičemž u pacientů s AD je objem nejmenší a u CN největší Koriťáková: Vícerozměrné metody - cvičení Upozornění I Pozor, pokud mediány ukazují úplně jiný „trend“ než průměry! 28 • znamená to, že tam zřejmě není splněn předpoklad normality • pokud rozdíl není statisticky významný, není zpravidla potřeba to řešit • pokud by ten rozdíl vyšel statisticky významně, je to problém! • poznámka: je dobré mít měřítko na ose y stejné u obou grafů Koriťáková: Vícerozměrné metody - cvičení Upozornění II Pozor na interpretaci! Na první pohled z grafu vypadá, že tam je vliv kraje i nezaměstnanosti, že to nevychází statisticky významně může být: – malým počtem subjektů ve skupině – ale i velikostí efektu! (tady efekty malé, průměry ve všech čtyřech skupinách se podle posledního grafu pohybují jen od cca 41,4 do 42!) 29Koriťáková: Vícerozměrné metody - cvičení Doplnění – model s interakcemi 30 Tests of Between-Subjects Effects Dependent Variable: Celková_bílkovina Source Type III Sum of Squares df Mean Square F Sig. Corrected Model 152178,501a 5 30435,700 4942,124 ,000 Intercept 1562235,885 1 1562235,885 253674,570 ,000 Živočišný_druh 146815,301 2 73407,651 11919,874 ,000 Pohlaví 931,626 1 931,626 151,277 ,000 Živočišný_druh * Pohlaví 4431,573 2 2215,787 359,798 ,000 Error 3288,599 534 6,158 Total 1717702,985 540 Corrected Total 155467,100 539 a. R Squared = ,979 (Adjusted R Squared = ,979) Závěr: - Nejvyšší koncentrace celkové bílkoviny zjištěny u kočky domácí a nejnižší u karase obecného. - Vliv pohlaví různý u různých druhů. Největší vliv u bource morušového, přičemž F statisticky významně vyšší koncentrace než u M. Žádný vliv u kočky domácí. U karase obecného významně vyšší koncentrace u M než F. Koriťáková: Vícerozměrné metody - cvičení Úkol 3 Vyberte (případně vymyslete) si vícerozměrný datový soubor, zvolte statistický software podle svého uvážení a spočítejte analýzu rozptylu. Nezapomeňte ověřit předpoklady! Udělejte i popisnou sumarizaci dat. Datový soubor a wordovský dokument s přehledně popsanými výstupy vložte do odevzdávárny v ISu. Pokud nemáte k dispozici vhodný reálný datový soubor, můžete si data s normálním rozdělením vygenerovat – např. v softwaru R: a=rnorm(30,160,5) # 30 hodnot se střední hodnotou 160 a směrodatnou odchylkou 5 Poznámka 1: když vygenerujeme 1000 hodnot, minimum bude opravdu cca 145 a maximum cca 175 (platí pravidlo ±3 sigma) Poznámka 2: tímto způsobem si vygenerujete data pro každou podskupinu a data pak spojíte do jedné datové tabulky 31Koriťáková: Vícerozměrné metody - cvičení