3.1 Analýza rozptylu pro vícerozměrná data V této podkapitole si představíme rozšíření jednorozměrné analýzy rozptylu (ANOVA) [http://portal.matematickabiologie.cz/index.php?pg=aplikovana-analyza-klinickych-a-biologickychdat--biostatistika-pro-matematickou-biologii--analyza-rozptylu-anova] pro vícerozměrná data. Pokud zkoumáme vliv jediného faktoru (kategoriální proměnné) na jednu či více vysvětlovaných spojitých proměnných, mluvíme o analýze rozptylu jednoduchého třídění (neboli jednofaktorové analýze rozptylu). Při větším počtu faktorů se jedná o analýzu rozptylu dvojného, trojného apod. třídění (tedy o vícefaktorovou analýzu rozptylu), přičemž se faktory mohou ovlivňovat (model s interakcí) či se ovlivňovat nemusejí (model bez interakce). V případě, že je vysvětlovaná proměnná pouze jedna, hovoříme o jednorozměrné analýze rozptylu (ANOVA), zatímco při zkoumání vlivu jednoho či více faktorů na více vysvětlovaných proměnných mluvíme o vícerozměrné analýze rozptylu (MANOVA). Pro větší názornost si uveďme několik příkladů různých typů úloh:  zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického tlaku u skupiny osob – jedná se o jednorozměrnou analýzu rozptylu jednoduchého třídění;  zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického tlaku u skupiny osob, přičemž chceme zkoumat i vliv pohlaví, předpokládáme však, že ženy i muži reagují na jednotlivé léky obdobně (tzn. např. ženy s léky A a C budou mít nižší tlak než ženy s lékem B a muži s léky A a C budou mít také nižší tlak než muži s lékem B apod.) – jedná se o jednorozměrnou analýzu rozptylu dvojného třídění bez interakce;  zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického tlaku u skupiny osob, přičemž chceme zkoumat i vliv pohlaví, a předpokládáme, že ženy a muži budou reagovat na léky různě (tzn. např. ženy s léky A a C budou mít nižší tlak než ženy s lékem B, zatímco muži s léky A a C budou mít vyšší tlak než muži s lékem B apod.) – jedná se o jednorozměrnou analýzu rozptylu dvojného třídění s interakcí;  zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického a diastolického tlaku u skupiny osob – jedná se o vícerozměrnou analýzu rozptylu jednoduchého třídění;  zkoumáme dlouhodobý vliv třech typů léků a vliv pohlaví na hodnoty systolického a diastolického tlaku u skupiny osob – jedná se o vícerozměrnou analýzu rozptylu dvojného třídění. Začněme nejprve stručným popisem jednorozměrné analýzy rozptylu jednoduchého třídění, kdy srovnáváme tři a více skupin dat, které jsou na sobě nezávislé. Předpokladem je normalita dat ve všech skupinách a shodnost (homogenita) rozptylů všech srovnávaných skupin. Principem je srovnání variability mezi výběry 𝑆𝐴 s variabilitou uvnitř výběrů 𝑆 𝑒 (Obr. 3), které můžeme vypočítat jako 𝑆𝐴 = ∑ 𝑛𝑖(𝑥̅𝑖. − 𝑥̅..)2𝑎 𝑖=1 , (4) 𝑆 𝑒 = ∑ ∑ (𝑥𝑖𝑗 − 𝑥̅𝑖.) 2𝑛 𝑖 𝑗=1 𝑎 𝑖=1 , (5) tedy 𝑆𝐴 je součet čtverců rozdílů výběrových průměrů jednotlivých skupin 𝑥̅𝑖. od celkového průměru 𝑥̅.. a 𝑆 𝑒 je součet čtverců rozdílů pozorovaných hodnot 𝑥𝑖𝑗 od příslušných skupinových průměrů, přičemž 𝑎 je počet skupin faktoru A a 𝑛𝑖 je počet subjektů v i-té skupině. Obr. 3. Ilustrace výpočtu variability mezi výběry (vlevo) a variability uvnitř výběrů (vpravo). Můžeme vypočítat také celkový součet čtverců 𝑆 𝑇 = ∑ ∑ (𝑥𝑖𝑗 − 𝑥̅..) 2𝑛 𝑖 𝑗=1 𝑎 𝑖=1 . (6) Výsledky zapíšeme do tzv. tabulky analýzy rozptylu (Tabulka 1), kde n je celkový počet subjektů a 𝑝 𝐴 je výsledná p-hodnota. Pokud 𝐹 > 𝐹1−𝛼(𝑎 − 1, 𝑛 − 𝑎), zamítáme nulovou hypotézu o shodě středních hodnot jednotlivých skupin subjektů 𝐻0: 𝜇1 = 𝜇2 = ⋯ = 𝜇 𝑎. Tabulka 1. Tabulka jednorozměrné analýzy rozptylu jednoduchého třídění. Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Mezi skupinami 𝑆𝐴 𝑑𝑓𝐴 = 𝑎 − 1 𝑀𝑆𝐴 = 𝑆 𝐴 𝑑𝑓𝐴⁄ 𝐹 = 𝑆𝐴 𝑑𝑓𝐴⁄ 𝑆𝑒 𝑑𝑓𝑒⁄ 𝑝 𝐴 Uvnitř skupin (reziduální var.) 𝑆𝑒 𝑑𝑓𝑒 = 𝑛 − 𝑎 𝑀𝑆𝑒 = 𝑆𝑒 𝑑𝑓𝑒⁄ Celková 𝑆 𝑇 𝑑𝑓𝑇 = 𝑛 − 1 Využijeme nyní skutečnosti, že model analýzy rozptylu je speciálním případem obecného lineárního modelu, můžeme tedy jednorozměrnou analýzu rozptylu jednoduchého třídění zapsat jako lineární model následujícím způsobem: 𝑋𝑖𝑗 = 𝜇𝑖 + 𝑒𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝑒𝑖𝑗, (7) kde 𝜇 je celkový průměr, 𝛼𝑖 je i-tý efekt faktoru A a 𝑒𝑖𝑗 je reziduum. Nulovou hypotézu lze pak vyjádřit jako 𝐻0: 𝛼1 = 𝛼2 = ⋯ = 𝛼 𝑎. Rozšířením tohoto modelu můžeme definovat další modely analýzy rozptylu pro více faktorů, hodnocení interakcí, opakovaná měření na jednom subjektu apod. 3.1.1 Jednorozměrná analýza rozptylu dvojného třídění Jednorozměrná analýza rozptylu dvojného třídění umožňuje srovnání hodnot jedné vysvětlované proměnné podle dvou faktorů (A a B). Předpokladem je normalita dat ve všech 𝑎 ∙ 𝑏 skupinách (𝑎 je počet skupin faktoru A a 𝑏 je počet skupin faktoru B) a homogenita rozptylů všech srovnávaných skupin. Model analýzy rozptylu dvojného třídění bez interakcí (tzn. za předpokladu, že se faktory neovlivňují) zapíšeme celkový průměr skupina 1 skupina 2 skupina 3 skupina 1 skupina 2 skupina 3 𝑋𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝑒𝑖𝑗, (8) kde 𝜇 je celkový průměr, 𝛼𝑖 je i-tý efekt faktoru A, 𝛽𝑗 je j-tý efekt faktoru B a 𝑒𝑖𝑗 je reziduum. Nulové hypotézy jsou pak dvě, a to 𝐻01: 𝛼1 = 𝛼2 = ⋯ = 𝛼 𝑎 a 𝐻02: 𝛽1 = 𝛽2 = ⋯ = 𝛽 𝑏. Výsledky můžeme opět zapsat pomocí tabulky analýzy rozptylu (Tabulka 2), kde součet čtverců pro faktor A (SA), součet čtverců pro faktor B (SB), celkový součet čtverců (ST) a reziduální součet čtverců (Se) při vyváženém třídění (tedy pro každou skupinu máme stejný počet c pozorování) spočítáme jako 𝑆𝐴 = 𝑏𝑐 ∑ (𝑥̅𝑖.. − 𝑥̅...)2𝑎 𝑖=1 , (9) 𝑆 𝐵 = 𝑎𝑐 ∑ (𝑥̅. 𝑗. − 𝑥̅...) 2𝑏 𝑗=1 , (10) 𝑆 𝑇 = ∑ ∑ ∑ (𝑥𝑖𝑗𝑘 − 𝑥̅...) 2𝑐 𝑘=1 𝑏 𝑗=1 𝑎 𝑖=1 , (11) 𝑆 𝑒 = 𝑆 𝑇 − 𝑆𝐴 − 𝑆 𝐵, (12) kde 𝑥̅𝑖.. jsou výběrové průměry jednotlivých skupin podle faktoru A, 𝑥̅.𝑗. jsou výběrové průměry jednotlivých skupin podle faktoru B, 𝑥̅... je celkový průměr a 𝑥𝑖𝑗𝑘 jsou pozorované hodnoty. Pokud 𝐹𝐴 > 𝐹1−𝛼(𝑎 − 1, 𝑛 − 𝑎 − 𝑏 + 1), zamítáme nulovou hypotézu o nevýznamnosti faktoru A. Obdobně, pokud 𝐹𝐵 > 𝐹1−𝛼(𝑏 − 1, 𝑛 − 𝑎 − 𝑏 + 1), zamítáme nulovou hypotézu o nevýznamnosti faktoru B. V případě nevyváženého třídění je situace komplikovanější a vzorce složitější, postupuje se však analogicky. Tabulka 2. Tabulka jednorozměrné analýzy rozptylu dvojného třídění bez interakce. Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A 𝑆𝐴 𝑑𝑓𝐴 = 𝑎 − 1 𝑀𝑆𝐴 = 𝑆 𝐴 𝑑𝑓𝐴⁄ 𝐹𝐴 = 𝑆𝐴 𝑑𝑓𝐴⁄ 𝑆𝑒 𝑑𝑓𝑒⁄ 𝑝 𝐴 Faktor B 𝑆 𝐵 𝑑𝑓𝐵 = 𝑏 − 1 𝑀𝑆 𝐵 = 𝑆 𝐵 𝑑𝑓𝐵⁄ 𝐹𝐵 = 𝑆 𝐵 𝑑𝑓𝐵⁄ 𝑆𝑒 𝑑𝑓𝑒⁄ 𝑝 𝐵 Reziduální 𝑆𝑒 𝑑𝑓𝑒 = 𝑛 − 𝑎 − 𝑏 + 1 𝑀𝑆𝑒 = 𝑆𝑒 𝑑𝑓𝑒⁄ Celková 𝑆 𝑇 𝑑𝑓𝑇 = 𝑛 − 1 V případě interakce mezi faktory A a B, tedy pokud se faktory A a B navzájem ovlivňují, mluvíme o analýze rozptylu dvojného třídění s interakcemi, jejíž model lze zapsat 𝑋𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝛾𝑖𝑗 + 𝑒𝑖𝑗𝑘, (13) kde 𝛾𝑖𝑗 odpovídá interakci mezi faktorem A a B. Nulové hypotézy v tomto případě máme tři, a to 𝐻01: 𝛼1 = 𝛼2 = ⋯ = 𝛼 𝑎, 𝐻02: 𝛽1 = 𝛽2 = ⋯ = 𝛽 𝑏 a 𝐻03: 𝛾11 = 𝛾12 = ⋯ = 𝛾 𝑎𝑏. V tabulce analýzy rozptylu (Tabulka 3) přibude oproti Tabulce 2 další řádek odpovídající interakci. Při vyváženém třídění lze součet čtverců pro faktor A spočítat podle vzorce (9), součet čtverců pro faktor B podle vzorce (10) a celkový součet čtverců 𝑆 𝑇 podle vzorce (11). Součet čtverců pro interakce vypočteme jako 𝑆𝐴𝐵 = 𝑐 ∑ ∑ (𝑥̅𝑖 𝑗. − 𝑥̅𝑖.. − 𝑥̅.𝑗. + 𝑥̅...) 2𝑏 𝑗=1 𝑎 𝑖=1 , (14) kde 𝑥̅𝑖𝑗. jsou výběrové průměry jednotlivých skupin podle kombinace faktorů A a B. Reziduální součet čtverců (Se) pak spočítáme pomocí 𝑆 𝑒 = 𝑆 𝑇 − 𝑆𝐴 − 𝑆 𝐵 − 𝑆𝐴𝐵. (15) Pokud 𝐹𝐴 > 𝐹1−𝛼(𝑎 − 1, 𝑛 − 𝑎𝑏), zamítáme nulovou hypotézu o nevýznamnosti faktoru A, a pokud 𝐹𝐵 > 𝐹1−𝛼(𝑏 − 1, 𝑛 − 𝑎𝑏), zamítáme nulovou hypotézu o nevýznamnosti faktoru B. V případě, že 𝐹𝐴𝐵 > 𝐹1−𝛼(( 𝑎 − 1) ∙ ( 𝑏 − 1), 𝑛 − 𝑎𝑏), zamítáme nulovou hypotézu o nevýznamnosti interakce faktorů A a B. Tabulka 3. Tabulka jednorozměrné analýzy rozptylu dvojného třídění s interakcí. Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A 𝑆𝐴 𝑑𝑓𝐴 = 𝑎 − 1 𝑀𝑆𝐴 = 𝑆 𝐴 𝑑𝑓𝐴⁄ 𝐹𝐴 = 𝑆𝐴 𝑑𝑓𝐴⁄ 𝑆𝑒 𝑑𝑓𝑒⁄ 𝑝 𝐴 Faktor B 𝑆 𝐵 𝑑𝑓𝐵 = 𝑏 − 1 𝑀𝑆 𝐵 = 𝑆 𝐵 𝑑𝑓𝐵⁄ 𝐹𝐵 = 𝑆 𝐵 𝑑𝑓𝐵⁄ 𝑆𝑒 𝑑𝑓𝑒⁄ 𝑝 𝐵 Interakce AxB 𝑆𝐴𝐵 𝑑𝑓𝐴𝐵 = (𝑎 − 1) ∙ (𝑏 − 1) 𝑀𝑆𝐴𝐵 = 𝑆 𝐴𝐵 𝑑𝑓𝐴𝐵⁄ 𝐹𝐴𝐵 = 𝑆𝐴𝐵 𝑑𝑓𝐴𝐵⁄ 𝑆𝑒 𝑑𝑓𝑒⁄ 𝑝 𝐴𝐵 Reziduální 𝑆𝑒 𝑑𝑓𝑒 = 𝑛 − 𝑎𝑏 𝑀𝑆𝑒 = 𝑆𝑒 𝑑𝑓𝑒⁄ Celková 𝑆 𝑇 𝑑𝑓𝑇 = 𝑛 − 1 V případě analýzy rozptylu trojného či dalších vícenásobných třídění by byl postup analogický, tedy by přibývaly další řádky do tabulky analýzy rozptylu, přičemž výpočet součtů čtverců pro další faktory a jejich interakce bychom počítali obdobným způsobem jako v případě analýzy rozptylu dvojného třídění. 3.1.2 Příklad Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií, přičemž neuvažujeme interakci mezi oběma faktory. Data jsou zaznamenána v následující tabulce: ID Pohlaví Typ léku Počet nežádoucích účinků P1 M lék X 1 P2 M lék Y 1 P3 M lék Z 6 P4 Z lék X 3 P5 Z lék Y 4 P6 Z lék Z 9 Řešení: Pro větší názornost si data překódujeme tak, že ve druhém sloupečku M=1, Z=2 a ve třetím sloupečku lék X = 1, lék Y = 2 a lék Z = 3. Získáme tedy tabulku ID Pohlaví Typ léku Počet nežádoucích účinků P1 1 1 1 P2 1 2 1 P3 1 3 6 P4 2 1 3 P5 2 2 4 P6 2 3 9 Z tabulky vyplývá, že počet kategorií faktoru A (pohlaví) je 𝑎 = 2, počet kategorií faktoru B (typ léku) je 𝑏 = 3, počet pozorování jednotlivých kombinací 𝑐 = 1 a celkový počet pacientů 𝑛 = 6. Nejprve vypočteme jednotlivé výběrové průměry: 𝑥̅1.. = (1+1+6) 3 = 8 3⁄ ; 𝑥̅2.. = (3+4+9) 3 = 16 3⁄ ; 𝑥̅.1. = (1+3) 2 = 2; 𝑥̅.2. = (1+4) 2 = 2,5; 𝑥̅.3 = (6+9) 2 = 7,5. Dále vypočteme celkový průměr 𝑥̅... = (1+1+6+3+4+9) 6 = 24 6 = 4. Součet čtverců pro faktor A (pohlaví) vypočteme jako S 𝐴 = 𝑏𝑐 ∑ (𝑥̅𝑖.. − 𝑥̅...)2𝑎 𝑖=1 = 3 ∙ ((8 3⁄ − 4)2 + (16 3⁄ − 4)2) = 32 3⁄ = 10,67 a počet stupňů volnosti je f 𝐴 = 𝑎 − 1 = 1. Součet čtverců pro faktor B (typ léku) vypočteme jako S 𝐵 = 𝑎𝑐 ∑ (𝑥̅. 𝑗. − 𝑥̅...) 2𝑏 𝑗=1 = 2 ∙ ((2 − 4)2 + (2,5 − 4)2 + (7,5 − 4)2) = 37 a počet stupňů volnosti je f 𝐵 = 𝑏 − 1 = 2. Celkový součet čtverců je S 𝑇 = ∑ ∑ ∑ (𝑥𝑖𝑗𝑘 − 𝑥̅...)𝑐 𝑘=1 𝑏 𝑗=1 𝑎 𝑖=1 = (1 − 4)2 + (1 − 4)2 + ⋯ + (9 − 4)2 = 48 s počtem stupňů volnosti f 𝑇 = 𝑛 − 1 = 5. Reziduální součet čtverců pak spočítáme jako S 𝐸 = S 𝑇 − S 𝐴 − S 𝐵 = 0,33 a počet stupňů volnosti jako f 𝐸 = 𝑛 − 𝑎 − 𝑏 + 1 = 2. Výsledky zapíšeme do tabulky jednorozměrné analýzy rozptylu dvojného třídění bez interakcí: Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika Faktor A S 𝐴 = 10,67 f 𝐴 = 1 10,67 63,99 Faktor B S 𝐵 = 37 f 𝐵 = 2 18,5 110,98 Reziduální S 𝐸 = 0,33 f 𝐸 = 2 0,16 Celková S 𝑇 = 48 f 𝑇 = 5 - - Protože 𝐹𝐴 = 63,99 > 𝐹0,95(1,2) = 18,1, zamítáme nulovou hypotézu o nevýznamnosti faktoru A, tedy pohlaví má vliv na počet nežádoucích účinků, přičemž ze vstupní tabulky vidíme, že ženy měly více nežádoucích účinků než muži. Protože 𝐹𝐵 = 110,98 > 𝐹0,95(2,2) = 19, zamítáme nulovou hypotézu o nevýznamnosti faktoru B, tedy typ léku má vliv na počet nežádoucích účinků, přičemž ze vstupní tabulky je patrné, že u léku Z bylo nejvíce nežádoucích účinků. Poznámka: Tento příklad je pouze ilustrativní, v praxi je potřebné, aby u jednotlivých kombinací faktorů A a B bylo mnohem více pacientů než pouze jeden. 3.2 Literatura 1. Everitt, B., Horthorn, T. An Introduction to Applied Multivariate Analysis with R. Springer, New York. (2011) 2. Hebák, P., Hustopecký, J., Jarošová, E., Pecáková, I. Vícerozměrné statistické metody (1). Informatorium, Praha. (2007) 3. Johnson, R.A., Wichern, D.W. Applied Multivariate Statistical Analysis. Prentice Hall, Upper Sadlle River, N.J. (2007)