Přednáška IX. Analýza rozptylu (ANOVA) Princip a metodika výpočtu Předpoklady analýzy rozptylu a jejich ověření Rozbor rozdílů jednotlivých skupin – násobné testování hypotéz Analýza rozptylu jako lineární model Tomáš Pavlík Biostatistika Opakování – parametrické a neparametrické testy Jmenujte příklad parametrického a neparametrického testu. Znáte jejich předpoklady? Tomáš Pavlík Biostatistika Opakování – neparametrické testy Jaká je nevýhoda Mannova-Whitneyho testu? Jaký je předpoklad permutačních testů? 1. Motivace Tomáš Pavlík Biostatistika Příklad – CHOPN Sledujeme plicní funkce u pacientů s chronickou obstrukční plicní nemocí (CHOPN) ve stadiu II, III a IV. Zajímá nás, jestli se u pacientů v jednotlivých stadiích liší maximální inspirační tlak (PImax). Tomáš Pavlík Biostatistika Příklad – CHOPN Jak můžeme pro CHOPN stadia II, III a IV ověřit rozdíl (resp. rovnost) v maximálním inspiračním tlaku (PImax)? A. Můžeme použít vhodný test pro dva výběry (např. t-test) a otestovat, jak se liší stadium II od III, II od IV a III od IV – tedy provést 3 testy. B. Musíme použít vhodný test pro více než dvě srovnávané skupiny. V čem je zásadní rozdíl mezi A a B? Tomáš Pavlík Biostatistika Problém násobného testování hypotéz Problém s možností A je v násobném testování hypotéz – pro připomenutí: S narůstajícím počtem testovaných hypotéz nám roste také pravděpodobnost získání falešně pozitivního výsledku, tedy pravděpodobnost toho, že se při našem testování zmýlíme a ukážeme na statisticky významný rozdíl tam, kde ve skutečnosti žádný neexistuje (chyba I. druhu). Máme tři testy, v každém 95% pravděpodobnost, že neuděláme chybu I. druhu. Pro všechny tři testy to tedy znamená: 0,95 × 0,95 × 0,95 = 0,857. Pravděpodobnost, že neuděláme chybu I. druhu nám celkově klesla na 0,857. Pravděpodobnost, že uděláme chybu I. druhu nám celkově stoupla na 0,143. Tomáš Pavlík Biostatistika Analýza rozptylu Lepší volbou je: B. Musíme použít vhodný test pro více než dvě srovnávané skupiny. Analýza rozptylu (ANOVA = „ANalysis Of VAriance“) je statistickou metodou, která umožňuje testovat rozdíl v průměrech více než dvou skupin. Přitom se jedná o jeden test. Více než dvě skupiny mohou být dány přirozeně (např. sledujeme rozdíl mezi věkovými kategoriemi) nebo uměle (např. sledujeme rozdíl v účinnosti několika typů léčby). 2. Princip výpočtu Tomáš Pavlík Biostatistika Náhodné výběry a hypotéza Máme k nezávislých realizací náhodného výběru rozsahu: n1, n2, … , nk. Předpoklady: Hypotézy: kH µµµ === 210 : ostatníchododlišnéjejednonejméně: i1 µH ),(~ 2 11 σµNY j ),(~ 2 22 σµNY j ),(~ 2 σµkkj NY … Normalita hodnot všech k výběrů Homogenita rozptylů všech k výběrů Tomáš Pavlík Biostatistika Příklady – hypotézy 1. Liší se účinnost dvou různých dávek léčiva XYZ od placeba? Střední hodnota účinnosti placeba, XYZ v dávce 1 a XYZ v dávce 2: 2. Liší se AML, ALL, CML a CLL v aktivitě vybraných genů? Střední hodnota exprese genu g u AML, ALL, CML, CLL: g CLL g CML g ALL g AML θθθθ ,,, g CLL g CML g ALL g AMLH θθθθ ===:0 ostatníchododlišnéjejednonejméně:1 g H θ 21 ,, XYZXYZP µµµ ostatníchododlišnéjejednonejméně:1 µH 21 :0 XYZXYZPH µµµ == Tomáš Pavlík Biostatistika Pozorované hodnoty Výběr 1 … Výběr 2 Výběr 3 Výběr k Všechny výběry 2 1 1 1 s y n 2 2 2 2 s y n 2 3 3 3 s y n 2 k k k s y n 2 s y n Výběrový průměr Rozsah výběru Výběrový rozptyl Skupinový průměr („population mean“) Celkový průměr („grand mean“) Tomáš Pavlík Biostatistika Příklad – CHOPN kPa5,3 kPa9,8 9 1 1 1 = = = s y n kPa9,2 kPa6,6 12 2 2 2 = = = s y n kPa5,2 kPa4,5 27 3 3 3 = = = s y n Stadium III IVII Celkový průměr („grand mean“) kPa0,3 kPa4,6 48 = = = s y n Tomáš Pavlík Biostatistika Značení Součty: Průměry: Celková variabilita v souboru: Variabilita v rámci skupin (reziduální součet čtverců): Variabilita mezi skupinami (příslušná sledovanému vlivu = proměnné): ∑ ∑= = ⋅−= k i n j iije i yYS 1 1 2 )( ∑= ⋅⋅⋅ −= k i iiA yynS 1 2 )( ∑ =⋅ = in j iji YY 1 ∑ ∑= =⋅⋅ = k i n j ij i YY 1 1 iii nYy /⋅⋅ = nYy /⋅⋅⋅⋅ = Skupinový průměr („population mean“) Celkový průměr („grand mean“) ∑ ∑= = ⋅⋅−= k i n j ijT i yYS 1 1 2 )( Stupně volnosti: 1−= ndfT Stupně volnosti: kndfe −= Stupně volnosti: 1−= kdfA Tomáš Pavlík Biostatistika Vztahy mezi odhady variability Platí: Dále se dá ukázat, že platí: Tedy platí, že celková variabilita se dá rozložit na variabilitu v rámci skupin a variabilitu mezi skupinami: )()( ⋅⋅⋅⋅⋅⋅ −+−=− yyyYyY iiijij Stadium III IVII AeT SSS += ∑∑ ∑ ∑ ∑ = ⋅⋅⋅= = ⋅ = = ⋅⋅ −+− =− k i ii k i n j iij k i n j ij yynyY yY i i 1 2 1 1 2 1 1 2 )()( )( Tomáš Pavlík Biostatistika Umělý příklad Léčba Pozorovaná hodnota Skupinový průměr Skupinový průměr – celkový průměr Pozorovaná hodnota – skupinový průměr Pozorovaná hodnota – celkový průměr 1 10 12 -4 -2 -6 1 12 12 -4 0 -4 1 14 12 -4 2 -2 2 19 20 4 -1 3 2 20 20 4 0 4 2 21 20 4 1 5 3 14 16 0 -2 -2 3 16 16 0 0 0 3 18 16 0 2 2 Celkový průměr = 16 Součet čtverců = 96 Součet čtverců = 18 Součet čtverců = 114 Stupně volnosti = 2 Stupně volnosti = 6 Stupně volnosti = 8 Tomáš Pavlík Biostatistika Jak testuje t-test pro dva výběry? Nulová hypotéza: Testová statistika: 210 : µµ =H )2(~ 2111 * 21 −+ + − = nnt s YX T nn Rozdíl (variabilita) mezi výběry Variabilita uvnitř výběrů =T Rozdíl (variabilita) mezi výběry Variabilita uvnitř výběrů Tomáš Pavlík Biostatistika Princip analýzy rozptylu Princip analýzy rozptylu je stejný, tedy ANOVA srovnává pozorovanou variabilitu mezi výběry s pozorovanou variabilitou uvnitř výběrů. Na rozdíl od t-testu však pracuje s výběrovými rozptyly. Testová statistika analýzy rozptylu: =F Odhad rozptylu založený na výběrových průměrech Odhad rozptylu založený pozorovaných hodnotách ee AA k i n j iij k i ii dfS dfS kn yY k yyn F i / / )( 1 )( 1 1 2 1 2 = − − − − = ∑ ∑ ∑ = = ⋅ = ⋅⋅⋅ Za platnosti H0 platí: ),1(~ knkFF −− Tomáš Pavlík Biostatistika Výsledek dle platnosti nulové hypotézy Za předpokladu rovnosti rozptylů jednotlivých výběrů představuje člen ve jmenovateli statistiky F výběrový odhad σ2. Za platnosti H0 představuje i člen v čitateli statistiky F výběrový odhad σ2. Platí-li nulová hypotéza, čitatel statistiky F (počítaný na základě výběrových průměrů) bude zhruba stejný jako její jmenovatel (počítaný na základě pozorovaných hodnot). Neplatí-li nulová hypotéza, čitatel statistiky F bude větší než jmenovatel. Samotné rozhodnutí o platnosti H0 je tak založeno na srovnání průměrných čtverců a .AA dfS / ee dfS / Tomáš Pavlík Biostatistika Výsledek analýzy rozptylu Výsledné počty se standardně zaznamenávají do tzv. tabulky analýzy rozptylu: Nulovou hypotézu zamítneme/nezamítneme buď na základě srovnání výsledné p-hodnoty se zvolenou hladinou významnosti testu α, nebo srovnáním výsledné F statistiky s kritickou hodnotou (kvantilem) rozdělení F(k – 1, n – k) příslušnou zvolené hladině významnosti testu α. Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Mezi skupinami SA = 96 dfA = k – 1 = 2 MSA = 48 F = 16 0,004 Uvnitř skupin Se = 18 dfe = n – k = 6 MSe = 3 Celkem ST = 114 dfT = n – 1 = 8 Tomáš Pavlík Biostatistika Výsledek umělého příkladu 16=F14,5)6,2( 95,0 ),1( 1 ==−− − FF knk α ),1( knkFf −− Na hladině významnosti α =0,05 zamítáme H0 o rovnosti středních hodnot. 3. Předpoklady analýzy rozptylu a jejich ověření Tomáš Pavlík Biostatistika Předpoklady analýzy rozptylu Nezávislost jednotlivých pozorování – sice téměř automatický předpoklad, nicméně je třeba se nad ním alespoň zamyslet. Normalita pozorovaných hodnot obou náhodných výběrů – velmi silný předpoklad. Nutno otestovat nebo alespoň graficky ověřit (histogram, box plot). Stejný rozptyl náhodné veličiny v obou srovnávaných skupinách – také silný předpoklad. Opět nutno otestovat nebo alespoň graficky ověřit (histogram, box plot). Tomáš Pavlík Biostatistika Testování shody rozptylů Grafické ověření – histogram, box plot. Levenův test – často používaný, nevyžaduje předpoklad normality původních hodnot. Bartlettův test – velkou nevýhodou je předpoklad normality původních hodnot. Tomáš Pavlík Biostatistika Levenův test Jeho výhoda je, že nevyžaduje předpoklad normality původních hodnot. Jedná se o analýzu rozptylu na hodnotách Označme a Testová statistika: Používá se také jeho robustní varianta s použitím absolutních odchylek od mediánu místo od průměru: || ⋅−= iijij yYZ kn zZ k zzn W k i n j iij k i ii i − − − − = ∑ ∑ ∑ = = ⋅ = ⋅⋅⋅ 1 1 2 1 2 )( 1 )( Při rovnosti rozptylů opět platí: ),1(~ knkFF −− ∑ =⋅ = i i n j ijni Zz 1 1 ∑ ∑= =⋅⋅ = k i n j ij i Zz 1 1 |~| ⋅−= iijij yYZ Tomáš Pavlík Biostatistika Příklad – Levenův test u CHOPN dat Sledujeme plicní funkce u pacientů s chronickou obstrukční plicní nemocí (CHOPN) ve stadiu II, III a IV. Levenův test probíhá stejně jako jednoduchá ANOVA – opět srovnáváme průměrné čtverce – reziduální a příslušné sledovaným faktorům. Na hladině významnosti α =0,05 nezamítáme H0 o rovnosti rozptylů. Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Mezi skupinami SA = 5,30 dfA = k – 1 = 2 MSA = 2,65 F = 1,13 0,331 Uvnitř skupin Se = 105,35 dfe = n – k = 45 MSe = 2,34 Celkem ST = 110,65 dfT = n – 1 = 47 Tomáš Pavlík Biostatistika Hodnocení normality dat Hodnocení normality je klíčovým postupem v biostatistice. Testy nejsou vždy nejlepším nástrojem! Vždy je důležité se podívat i očima! Zamítnutí normality rozdělení neznamená jenom výběr příslušného testu, ALE může indikovat odlehlé a nelogické hodnoty v souboru dat. Pokud o sledované veličině prokazatelně víme, že v cílové populaci nabývá normální rozdělení (např. výška lidské postavy), ale v daném souboru normální rozdělení nepotvrdíme, pak s naším náhodným výběrem není něco v pořádku – např. není reprezentativní. Tomáš Pavlík Biostatistika Grafické metody – box plot a histogram Normální rozdělení Log-normální rozdělení Tomáš Pavlík Biostatistika Grafické metody – box plot a histogram Normální rozdělení s odlehlými hodnotami Rovnoměrně spojité rozdělení Tomáš Pavlík Biostatistika Grafické metody – Q-Q plot Q-Q plot proti sobě zobrazuje kvantily pozorovaných hodnot a kvantily teoretického rozdělení pravděpodobnosti (zde normálního rozdělení). V případě shody leží všechny body na přímce. Normální rozdělení: Tomáš Pavlík Biostatistika Grafické metody – Q-Q plot 1. Log-normální rozdělení: 2. Normální rozdělení s odlehlými hodnotami: 3. Rovnoměrně spojité rozdělení 1. 2. 3. Tomáš Pavlík Biostatistika Testy pro ověření normality dat Shapirův-Wilkův test – v podstatě se jedná o proložení seřazených hodnot regresní přímkou vzhledem k očekávaným hodnotám normálního rozdělení. Má tedy přímý vztah k Q-Q plotu – vyhodnocuje, jak moc se Q-Q plot liší od ideální přímky. Doporučován pro menší vzorky, může být „moc“ přísný pro velké vzorky. Kolmogorovův-Smirnovovův test – založen na srovnání výběrové distribuční funkce s teoretickou distribuční funkcí odpovídající normálnímu rozdělení. K-S test hodnotí maximální vzdálenost mezi těmito dvěma distribučními funkcemi. V praxi se používá korekce dle Lillieforse. Tomáš Pavlík Biostatistika Příklad – Shapirův-Wilkův test u CHOPN dat Sledujeme plicní funkce u pacientů s chronickou obstrukční plicní nemocí (CHOPN) ve stadiu II, III a IV. Test pro všechna stadia: p = 0,073 (to nás nezajímá) Stadium II: p = 0,090 Stadium III: p = 0,247 Stadium IV: p = 0,815 H0 o normalitě dat nezamítáme na hladině α =0,05. n = 9 n = 12 n = 27 Tomáš Pavlík Biostatistika Příklad – Shapirův-Wilkův test u CHOPN dat Srovnáme výsledky S-W testu s Q-Q ploty pro jednotlivé kategorie. Vzhledem k malým velikostem souborů lze odchylky od normality dat tolerovat. Stadium II (n = 9) p = 0,090 Stadium III (n = 12) p = 0,247 Stadium IV (n = 27) p = 0,815 Tomáš Pavlík Biostatistika Příklad – analýza rozptylu u CHOPN dat Liší se pacienti s CHOPN (stadium II, III, IV) v maximálním inspiračním tlaku (PImax)? Máme ověřenu homogenitu rozptylů i přibližnou normalitu dat → ANOVA. Kritická hodnota pro α =0,05 F(k – 1, n – k) = 3,20. Na hladině významnosti α =0,05 zamítáme H0 o rovnosti středních hodnot. Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Mezi skupinami SA = 80,54 dfA = k – 1 = 2 MSA = 40,27 F = 5,10 0,010 Uvnitř skupin Se = 355,50 dfe = n – k = 45 MSe = 7,90 Celkem ST = 436,04 dfT = n – 1 = 47 Tomáš Pavlík Biostatistika Co dělat, když nejsou splněny předpoklady? Máme dvě možnosti: 1. Zkusit data transformovat – např. logaritmická transformace by měla pomoci s normalizací rozdělení a stabilizací rozptylu u log-normálních dat. 2. Použít neparametrické testy – např. Kruskalův-Wallisův test nevyžaduje předpoklad normality, pracuje stejně jako neparametrický MannůvWhitneyův test. Tomáš Pavlík Biostatistika Kruskalův – Wallisův test Jedná se o zobecnění neparametrického Mannova – Whitneyho testu. Netestuje shodu parametrů, ale stejné distribuční funkce srovnávaných souborů (klíčový je zde předpoklad nezávislosti pozorovaných dat). Pro výpočet opět seřadíme všechna pozorování podle velikosti (jako by byly z jednoho vzorku) a přiřadíme jednotlivým hodnotám jejich pořadí. Pointa Kruskalova – Wallisova testu: za platnosti H0 jsou spojená data dobře promíchaná a průměrná pořadí v jednotlivých souborech jsou podobná. ...)()()(:0 === zFyFxFH Tomáš Pavlík Biostatistika Kruskalův – Wallisův test Označme Ti součet pořadí v i-té skupině: Počet skupin: k, Celkem pozorování: n = n1 + n2 + … + nk. Testová statistika: Nulovou hypotézu H0 zamítáme na hladině významnosti, když je testová statistika větší nebo rovna kritické hodnotě chí-kvadrát rozdělení: Pro malé velikosti souboru je třeba srovnat statistiku Q s tabulkami pro Kruskalův-Wallisův test. )1(3 )1( 12 1 2 +− + = ∑= n n T nn Q k i i i ∑= = in j iji RT 1 )(2 1 αχ −≥ kQ 4. Násobné testování podskupin Tomáš Pavlík Biostatistika Korekce na násobné srovnání výběrů Zamítneme-li analýzou rozptylu nulovou hypotézu o celkové rovnosti středních hodnot, má smysl se ptát, jaké skupiny se od sebe nejvíce liší. Toto srovnání lze provést pomocí testů pro dva výběry, ale je nutné korigovat výslednou hladinu významnosti testu, abychom se vyhnuli chybě I. druhu. Nejjednodušší metoda: Boferroniho procedura - korekce hladiny významnosti: α* = α/m, kde m je počet provedených testů. Ekvivalentně lze vynásobit phodnotu počtem provedených testů. Nevýhodou je, že je konzervativní pro velké m, tedy počet provedených testů. Pro analýzu rozptylu: Tukeyho a Scheffého post hoc testy. Pro neparametrický K-W test: metoda dle Steela a Dwasse. Tomáš Pavlík Biostatistika Příklad – korekce u CHOPN dat ANOVA na hladině významnosti α =0,05 zamítla H0 o rovnosti středních hodnot PImax. Jaké skupiny se od sebe nejvíce liší? Boferroniho procedura Tukeyho post hoc test Scheffého post hoc test Zde nám všechny tři analýzy vyšly stejně, ale obecně to neplatí! Stadium III IV II 0,398 0,009 III - 0,571 Stadium III IV II 0,186 0,008 III - 0,433 Stadium III IV II 0,214 0,011 III - 0,466 5. Analýza rozptylu jako lineární model Tomáš Pavlík Biostatistika Analýza rozptylu jako lineární model Analýza rozptylu pro jednu vysvětlující proměnnou (jednoduché třídění) lze zapsat jako lineární model: Nulovou hypotézu pak lze vyjádřit jako: Rozšířením tohoto zápisu můžeme definovat další modely ANOVA: více faktorů, hodnocení interakcí, opakovaná měření na jednom subjektu. ijiijiij eeY ++=+= αµµ Reziduum i-tý efekt faktoru APopulační průměr kH ααα === 210 : Tomáš Pavlík Biostatistika Analýza rozptylu dvojného třídění Uvažujeme dvě vysvětlující proměnné zároveň. Zápis modelu: Nulové hypotézy pak máme dvě: ,kH ααα === 2101 : ijjiij eY +++= βαµ Reziduum j-tý efekt faktoru BPopulační průměr i-tý efekt faktoru A rH βββ === 2102 : Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A SA dfA = k – 1 MSA = SA / dfA FA p Faktor B SB dfA = r – 1 MSB = SB / dfB FB p Rezidua Se dfe = (k – 1)(r – 1) MSe= Se / dfe Celkem ST dfT = n – 1 = kr – 1 Tomáš Pavlík Biostatistika kH ααα === 2102 : Analýza rozptylu dvojného třídění s interakcí Uvažujeme dvě vysvětlující proměnné a zároveň i jejich společné působení. Zápis modelu: Nulové hypotézy pak máme tři: krH γγγ === 121101 : Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A SA dfA = k – 1 MSA = SA / dfA FA p Faktor B SB dfA = r – 1 MSB = SB / dfB FB p Interakce A×B SAB dfAB = (k – 1)(r – 1) MSAB = SAB / dfAB FAB p Rezidua Se dfe = n – kr MSe= Se / dfe Celkem ST dfT = n – 1 ijijjiij eY ++++= γβαµ Interakce j-tý efekt faktoru BPopulační průměr i-tý efekt faktoru A Reziduum rH βββ === 2103 : Tomáš Pavlík Biostatistika Poděkování… Rozvoj studijního oboru „Matematická biologie“ PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia Matematické biologie“ a státním rozpočtem České republiky