RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Blok 4 Jak a kdy použít parametrické a neparametrické testy II. Janoušová, Dušek: Analýza dat pro neurovědy ,(^J Osnova i- 1. Analýza rozptylu (ANOVA) 2. Problém násobného testování hypotéz a použití korekčních procedur 3. Kruskalův-Wallisův test 4. Analýza rozptylu jako lineární model Janoušová, Dušek: Analýza dat pro neurovědy Parametrické a neparametrické testy pro kvantitativní data - přehled Typ srovnání Parametrický test Neparametrický test 1 skupina dat s referenční Jednovyberovy t-test, 14f.. hodnotou ' v ' Wilcoxonuv test „ . jednovyberovy z-test - jednovyberove testy: 2 skupiny dat párově , Wilcoxonův test, , ,. . Párový t-test , , , - parove testy: znaménkový test 2 skupiny dat nepárově ^ v Mannův-Whitneyův test, . , ^ ^ Dvouvyberovy t-test ,., - dvou výberové testy: mediánový test Více skupin nepárově: ANOVA Kruskalův- Wallisův test MU Janoušová, Dušek: Analýza dat pro neurovědy ^ 1. Analýza rozptylu (ANOVA) Janoušová, Dušek: Analýza dat pro neurovědy Motivace 00 3 Q_ O Q_ CD O AD MCI CN □ Medián □ 25%-75% ~£ Min-Ivlax Jak můžeme ověřit, zda se liší objem hipokampu u pacientů s AD, pacientů s MCI a u zdravých kontrol? A. Můžeme použít vhodný test pro dva výběry (např. dvouvýběrový t-test) a otestovat, jak se liší AD od MCI, AD od CN a MCI od CN - tedy provést 3 testy. B. Můžeme použít vhodný test pro více než dvě srovnávané skupiny. V čem je zásadní rozdíl mezi A a B? MU Janoušová, Dušek: Analýza dat pro neurovědy ^ Motivace - pokračování • Problém s možností A je v násobném testování hypotéz: S narůstajícím počtem testovaných hypotéz nám roste také pravděpodobnost získání falešně pozitivního výsledku, tedy pravděpodobnost toho, že se při našem testování zmýlíme a ukážeme na statisticky významný rozdíl tam, kde ve skutečnosti žádný neexistuje (chyba I. druhu). • Máme tři testy, v každém 95% pravděpodobnost, že neuděláme chybu I. druhu. • Pro všechny tři testy to tedy znamená: 0,95 x 0,95 x 0,95 = 0,857. • Pravděpodobnost, že neuděláme chybu I. druhu nám celkově klesla na 0,857. • Pravděpodobnost, že uděláme chybu I. druhu nám celkově stoupla na 0,143. MU Janoušová, Dušek: Analýza dat pro neurovědy ^j^- |yj Motivace - pokračování )- • Lepší volbou je: B. Použít vhodný test pro více než dvě srovnávané skupiny. • Analýza rozptylu (ANOVA = „ANalysis Of VAriance") je statistickou metodou, která umožňuje testovat rozdíl v průměrech více než dvou skupin. Přitom se jedná o jeden test. Janoušová, Dušek: Analýza dat pro neurovědy ^ Analýza rozptylu (ANOVA) jednoduchého třídění • Srovnáváme tři a více skupin dat, které jsou na sobě nezávislé (mezi objekty neexistuje vazba). • Příklady: srovnání objemu hipokampu u pacientů s AD, pacientů s MCI a kontrol; srovnání kognitivního výkonu podle čtyř kategorií věku. X1 %2 X3 í í -1-1-1 AD MCI Kontroly Předpoklady: normalita dat ve VŠECH skupinách, shodnost (homogenita) rozptylů VŠECH srovnávaných skupin, nezávislost jednotlivých pozorování. • Testová statistika: F = dfA _ VySVgj-|enf na dalších slidech SJdfe Janoušová, Dušek: Analýza dat pro neurovědy IBA Analýza rozptylu (ANOVA) - princip )- • Srovnání variability (rozptylu) mezi výběry s variabilitou uvnitř výběrů. celkový průměr AD MCI CN AD MCI CN • Tabulka analýzy rozptylu jednoduchého třídění (One-Way ANOVA): Variabilita Součet Počet stupnu Průměrný ,_ ... . F statistika p-hodnota čtverců volnosti čtverec Mezi skupinami Uvnitř skupin (reziduálni var.) Celkem SA dfA=k-l MSA = SA/dfA p p _ SA/dfA Se dfe = n-k MSe = Se/dfe S°ldf° ST dfT = n - 1 Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ ANOVA - 2 ukázkové situace Rozdíl ve všech třech skupinách: AD MCI CN Žádný rozdíl mezi skupinami TI AD 4§ MCI CN celkový průměr •— -o •— tt •— ái U m— l! •— Ú •— celkový průměr AD MCI CN AD MCI CN MU Analýza rozptylu (ANOVA) jednoduchého třídění )- • Příklad: Chceme srovnat, zda se liší objem hipokampu podle typu onemocnění (tzn. u pacientů s AD, pacientů s MCI a zdravých kontrol). • Tzn. hypotézy budou mít tvar: H0 : juAD = juMCI = juCN Hl: nejméně jedno fix je odlišné od ostatních • Postup: 1. Popisná sumarizace objemu hipokampu podle typu onemocnění. 2. Ověření normality hodnot ve VŠECH skupinách. 3. Ověření shodnosti rozptylů VŠECH skupin. 4. Aplikujeme statistický test. 5. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 -> zamítáme nulovou hypotézu -> Rozdíl v objemu hipokampu podle typu onemocnění je statisticky významný (na hladině významnosti a=0,05.) MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ Ověření normality dat )- • Graficky: - histogram - krabicový graf (box-plot) - Q-Qgraf • Testy normality: - Shapirův-Wilkův test - Kolmogorovův-Smirnovův test • Testy nejsou vždy nejlepším nástrojem! Vždy je důležité se podívat i očima! • Pokud o sledované veličině prokazatelně víme, že v cílové populaci nabývá normální rozdělení (např. výška lidské postavy), ale v daném souboru normální rozdělení nepotvrdíme, pak s naším náhodným výběrem není něco v pořádku - např. není reprezentativní. MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ Ověření normality graficky - krabicový graf a histogram Normální rozdělení Log-normální rozdělení Janoušová, Dušek: Analýza dat pro neurovědy IBA Ověření normality graficky - krabicový graf a histogram Normální rozdělení s odlehlými hodnotami 10 15 20 25 30 35 40 Rovnomerne spojité rozdělení Janoušová, Dušek: Analýza dat pro neurovědy IBA M is Ověření normality graficky - Q-Q graf )- • Q-Q graf proti sobě zobrazuje kvantily pozorovaných hodnot a kvantily teoretického rozdělení pravděpodobnosti (zde normálního rozdělení). • V případě shody leží všechny body na přímce. • Normální rozdělení: Normál Q-Q Plot o o -3-2-10123 Theoretical Quantiles Janoušová, Dušek: Analýza dat pro neurovědy *|L 16 Ověření normality graficky - Q-Q graf 1. Log-normální rozdělení 2. Normální rozdělení s odlehlými hodnotami 3. Rovnoměrně spojité rozdělení Normal Q-Q Plot Normal Q-Q Plot Normal Q-Q Plot -1 0 1 Theoretical Quantiles -1 0 1 Theoretical Quantiles 3. i-1-1-r -10 12 Theoretical Quantiles Janoušová, Dušek: Analýza dat pro neurovědy |yj 17 Ověření normality pomocí testů • Shapirův-Wilkův test - v podstatě se jedná o proložení seřazených hodnot regresní přímkou vzhledem k očekávaným hodnotám normálního rozdělení. Má tedy přímý vztah k Q-Q plotu - vyhodnocuje, jak moc se Q-Q plot liší od ideální přímky. Doporučován pro menší vzorky, může být „moc" přísný pro velké vzorky. • Kolmogorovův-Smirnovovův test - založen na srovnání výběrové distribuční funkce s teoretickou distribuční funkcí odpovídající normálnímu rozdělení. K-S test hodnotí maximální vzdálenost mezi těmito dvěma distribučními funkcemi. V praxi se používá korekce dle Lillieforse. Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ Ověření shody (homogenity) rozptylů Grafické ověření - krabicový graf, histogram. F-test (testování shody rozptylů dvou vzorků) Leveneův test - často používaný (testování shody rozptylů dvou a více vzorků) Bartlettův test o Janoušová, Dušek: Analýza dat pro neurovědy IBA W 19 Výsledky ANOVA testu • Tabulka analýzy rozptylu jednoduchého třídění: Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika P-hodnota Mezi skupinami sA = 71 422 222 dfA=k-l = 2 MSA = SA/dfA = 35 711 111 F = SA'dfA =1103,6 SJdfe 0,00 Uvnitř skupin (reziduálni var.) se = 26 857 142 dfe = n - k = 830 MSe = Se/dfe = 32 358 Celkem sT = 98 279 364 dfT = n - 1 = 832 • Výsledek ze softwaru STATISTICA: Variable Analysis of Variance (Data_neuro_vycistena2) Marked effects are significant at p < ,05000 SS Effect df Effect MS Effect SS Error df Error MS Error F P Hippocampus volume (mm3) 71422222. I 2 35711111 2G857142 830 32358,00 1103:625 0,00 Janoušová, Dušek: Analýza dat pro neurovědy ^! ^0 Další kroky analýzy H0 nezamítáme STOP (P>0,05) s Provést H0 zamítáme "S mnohonásobné (P<0,05) s porovnávání (post-hoc testy) Janoušová, Dušek: Analýza dat pro neurovědy IBA M 21 2. Problém násobného testování hypotéz a použití korekčních procedur Janoušová, Dušek: Analýza dat pro neurovědy Korekce na násobné srovnání výběrů • Zamítneme-li analýzou rozptylu nulovou hypotézu o celkové rovnosti středních hodnot, má smysl se ptát, jaké skupiny se od sebe nejvíce liší. • Toto srovnání lze provést pomocí testů pro dva výběry, ale je nutné korigovat výslednou hladinu významnosti testu, abychom se vyhnuli chybě I. druhu. • Nejjednodušší metoda: Boferroniho korekce - korekce hladiny významnosti: a* = a/m, kde m je počet provedených testů. Ekvivalentně lze vynásobit p-hodnotu počtem provedených testů. Nevýhodou je, že je konzervativní („přísná") pro velké m, tedy počet provedených testů. • Pro analýzu rozptylu: Tukeyho a Scheffého post hoc testy. • Může se stát, že při použití různých korekcí nám mohou vyjít výsledky různě (např. při použití Scheffého testu nám vyjde statisticky významný rozdíl mezi skupinou AD a MCI a při použití Tukeyho testu nám rozdíl statisticky významný nevyjde). MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^3 Poznámka * Může nastat situace, kdy zamítneme H0 u ANOVY, ale metodami mnohonásobného porovnávání nenajdeme významný rozdíl u žádné dvojice středních hodnot. K tomu dochází zvláště tehdy, když p-hodnota pro ANOVU je jen o málo nižší než zvolená hladina významnosti. * Důvod: post-hoc testy (tzn. metody mnohonásobného porovnávání) mají obecně menší sílu než ANOVA, proto nemusí odhalit žádný rozdíl. Janoušová, Dušek: Analýza dat pro neurovědy ^j^- |yj 24 Korekce na násobné srovnání-jiná situace • Problém násobného testování („Multiple Testing Problém") nastává, i když je provedeno větší množství testů na různých proměnných v rámci jednoho hodnocení dat. • Příklad: zjišťování, zda se liší objem šedé hmoty u dvou skupin subjektů v každém voxelu obrazu. • Korekce: - Bonferroniho korekce - kontroluje pravděpodobnost, s jakou dostaneme falešně pozitivní výsledek (kontroluje chybu I. druhu); konzervativní pro velký počet provedených testů. - Falše discovery rate (FDR) - kontroluje podíl falešně pozitivních výsledků mezi všemi statisticky významnými výsledky (např. pokud je FDR 0,05 a počet všech statisticky významných výsledků bude 1000, tak můžeme očekávat, že 50 výsledků bude falešně pozitivních). Janoušová, Dušek: Analýza dat pro neurovědy ^! ^5 Úkol 1. 1 Zadání: Zjistěte, zda se liší objem pallida podle typu onemocnění (nezapomeňte ověřit předpoklady). Řešení: Variable Analysis of Variance (Data_neuro_vycistena2) Marked effects are significant at p < ,05000 SS Effect df Effect MS Effect SS Error iff Error MS Error F P Pallidum volume (mnri3) 229575,6 2 114787,8 34702692 830 41810,47 2,745432 0,064804 Janoušová, Dušek: Analýza dat pro neurovědy IBA M 26 Parametrické a neparametrické testy pro kvantitativní data - přehled Typ srovnání Parametrický test Neparametrický test 1 skupina dat s referenční Jednovyberovy t-test, 14f.. hodnotou ' v ' Wilcoxonuv test „ . jednovyberovy z-test - jednovyberove testy: 2 skupiny dat párově , Wilcoxonův test, , ,. . Párový t-test , , , - parove testy: znaménkový test 2 skupiny dat nepárově ^ v Mannův-Whitneyův test, . , ^ ^ Dvouvyberovy t-test ,., - dvou výberové testy: mediánový test Více skupin nepárově: ANOVA Kruskalův- Wallisův test MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^7 3. Kruskalův-Wallisův test Janoušová, Dušek: Analýza dat pro neurovědy ^! ^8 Co dělat, když nejsou splněny předpoklady u ANOVy? >- 1. Zkusit data transformovat - např. logaritmická transformace by měla pomoci s normalizací rozdělení a stabilizací rozptylu u log-normálních dat. 2. Použít neparametrické testy - např. Kruskalův-Wallisův test nevyžaduje předpoklad normality, pracuje stejně jako neparametrický Mannův-Whitneyův test. Janoušová, Dušek: Analýza dat pro neurovědy ^j^- |yj 29 Kruskalův-Wallisův test Neparametrická alternativa analýzy rozptylu (ANOVy). Testuje se, zda jsou srovnatelné distribuční funkce (obdobně jako u Mannova-Whitneyova testu). Hypotézy mají tvar: H0 : F^x) = F2(x) = ... = Fk(x) Hl : nejméně jedna ¥l je odlišná od ostatních Princip Kruskalova-Wallisova testu (podobný jako u Mannova-Whitneyova testu): 1. Všechny hodnoty ze všech výběrů dohromady uspořádáme vzestupně podle velikosti -> každé hodnotě přiřadíme pořadí. 2. Spočítáme součet pořadí hodnot u každého výběru. 3. Na základě těchto dvou součtů vypočteme testovou statistiku. Tzn. za platnosti nulové hypotézy jsou spojená data dobře promíchaná a průměrná pořadí v jednotlivých souborech jsou podobná. Odlehlé hodnoty nejsou problém, protože pracujeme s pořadími. MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^0 Kruskalův-Wallisův test Příklad: Chceme srovnat, zda se liší MMSE skóre podle typu onemocnění. Tzn. hypotézy budou mít tvar: H0 : FAD(x) = FMCI(x) = FCN(x) Hl : nejméně jedna ¥l je odlišná od ostatních Postup: 1. Popisná sumarizace MMSE skóre podle typu onemocnění. 2. Vykreslení histogramů MMSE skóre pro jednotlivé skupiny subjektů, abychom viděli, že není splněn předpoklad normálního rozdělení -> proto použijeme neparametrický test. 3. Aplikujeme statistický test. 4. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 -> zamítáme nulovou hypotézu -> MMSE skóre je u pacientů s AD, MCI a u kontrol statisticky významně odlišné. 5. Post hoc test: in______ , _ , am , _ rozdíl je mezi všemi skupinami Kruskal-Wallis test: H (2, N= 833) =492.6004 p =0.000 Depend.: MMSE CN R&51.95 MCI R:419.32 AD R:137.92 CN 0 00 0.00 MCI 0.00 0.00 AD 0.00 0.00 Janoušová, Dušek: Analýza dat pro neurovědy IBA M 31 Úkol 2. * Zadání: Zjistěte, zda se liší objem pěti mozkových struktur podle typu onemocnění (rozmyslete si, jaký test (či testy) byste použili). Janoušová, Dušek: Analýza dat pro neurovědy ^j^- |yj 32 Výsledky srovnání objemů mozkových podle typu onemocnění O Hi 7600 7400 7200 7000 G800 6600 6400 6200 6000 5800 5600 pokampus (p < 0,001*) Statisticky významný rozdíl: ADxMCI, ADxCN, MCIxCN CN MCI AD □ Medián □ 25%-75% I Min-Max Amygdala (p < 0,001*) * Statisticky významný rozdíl: ADxCN, MCIxCN 3600 r 3400 3200 3000 2800 2600 2400 2200 2000 1800 CN MCI AD □ Medián □ 25%-75% X Min-Max Thalamus (p = 0,214) 13600 13400 13200 13000 12800 12600 12400 12200 12000 11800 CN MCI AD □ Medián □ 25%-75% X Min-Max Add Variables -> Name: weightjog -> Long name: =Log(Weight) r 4. Ověření normality logaritmicky transformovaných dat: Group_3kat=CN Histogram of weightjog Data_neuro 36v*833c Exclude condition: NOT( "Group_3kat" = 1 ) weightjog =230*D. 1*normal(x; 4.34-24; 0.1599) 70 Group_3kat=MCI Histogram of weightjog Data_neuro 36v*833c Exclude condition: NOT( "Group_3kat" = 2 ) weightjog = 406*0.1'norma l(x; 4.3227; 0.1705) 120 100 B0 60 40 20 II 1 1 1 1 I II III II r \ j -f \ y- 3.8 4.0 4.2 4.4 4.6 4.8 5.0 T O_AJ_i_2_J_£_AJZ_A d 5 ■( weightjog: D = 0.0333; p < n.s.; Lilliefors-p < 1: SW-W= 0.9937; p = D.4482 3.8 4.0 4.2 4.4 4.6 4.8 5.D _1Ů_AJ_J_3_J_£_AJZ_J_ü_ weightjog: D = 0.0383; p < n.s.; Lilliefors-p < 0.15: SW-W = 0.9928; p = 0.0491 Gnoup_3kat=AD Histogram of weightjog Data_neuro 36v*833c Exclude condition: NOT( "Group_3kat" = 3 ) weightjog = 197*0.1 *normal(x; 4 2522; 0 167) 60 'i C 'i T 'i O 'i a A n A A A 1 A -3 A A A C A C AJ 4 weightjog: D = 0.0409; p < n.s.; Lilliefors-p < 1: SW-W= 0.9935; p = D.5434 Podle SW-W testu sice u MCI není splněn předpoklad normality, víme ale, že pro velká N je tento test až příliš přísný; podle histogramu však mají data normální rozdělení. 5. Ověření homogenity rozptylu u logaritmicky transformovaných dat: Variable Levene Test of Homoc Marked effects are sic leneity of Variances (Data_neuro; nificant at p < .05000 SS Effect df Effect MS Effect SS Error ď Error MS Error F P weightjog 0.011865 2 0.005933 8.491216 830 0.010230 0.579900 0.560181 ANOVA IS» M 37 Úkol 3. - řešení 6. Protože byly splněny předpoklady, použijeme ANOVu pro zjištění, zda jsou mezi skupinami statisticky významné rozdíly ve váze (musíme použít logarimovanou váhu!): Variable Analysis of Variance (Data_neuro) Marked effects are significant at p < .05000 SS Effect df Effect MS Effect SS Error ď Error MS Error F P weightjog 0.962059 1 2 0.431029 23 10202 G3Ü 0.027334 17.23223 0.000000 7. Mezi skupinami je statisticky významný rozdíl -> musíme zjistit, mezi kterými skupinami ten rozdíl ve skutečnosti je: Unequal N HSD; Variable: weightjog (Data_neuro) Marked differences are significant at p < .05000 Group 3kat {1} M=4.3424 7: M=4.3227 {3} M =4.2 522 CN{1} 0.416386 0.000022 MCI |2} 0.416366 0.000100 AD {3} 0.000022 0.000100 Statisticky významné rozdíly u ADxMCI, ADxCN. Tzn. pacienti s AD mají statisticky významně nižší váhu než pacienti s MCI a zdravé kontroly. 160 140 120 100 Box Plot of Weight grouped by Group_3kat Data neuro 36v*833c □ Median □ 25%-75% X Min-Max Janoušová, Dušek: Analýza dat pro neurovědy IBA M 38 Úkol 3. - řešení 8. Pokud chceme u popisné statistiky vypočítat intervaly spolehlivosti, nemůžeme je počítat na původních datech, protože neměla normální rozdělení, ale na datech po logaritmické transformaci: Aggregate Results Descriptive Statistics (Data _neuro) Variable GroupJkat Valid N Mean Confidence -95.000% Confidence 95.000% Median Minimum Maximum weightlog CN ^ 230 4.342363 4.321583 4.363144 4.330733 3.951244 4.905275 weight log MCI 406 4.322719 4.306083 4.339355 4.324111 3.951244 4.941642 weightjog AD 197 4.252237 4.228768 4.275707 4.248495 3.784190 4.663439 9. Nyní bychom ale potřebovali transformovat tyto vypočtené hodnoty do původního měřítka, aby se nám výsledky lépe interpretovaly: Zkopírujeme tabulku do Excelu (pomocí Copy with Headers) a provedeme exponenciální transformaci (pokud jsme ve STATISTICE použili funkci Log, použijeme v Excelu =EXP(buňka); pokud LoglO, použijeme v Excelu =10Abuňka) N Geometrický průměr Dolní mez IS Horní mez IS Medián Minimum Maximum CN 230 76,9 75,3 78,5 76,0 52,0 135,0 MCI 406 75,4 74,1 76,7 75,5 52,0 140,0 AD 197 70,3 68,6 71,9 70,0 44,0 106,0 Poznámka: po exponenciální transformaci průměru vypočteného na logaritmované váze dostáváme geometrický průměr) - Janoušová, Dušek: Analýza dat pro neurovědy (^J 39 Úkol 3. - srovnání popisné sumarizace Popisná sumarizace původních hodnot váhy (sloupeček Weight): Variable Group_3kat Valid N Mean Confidence -95.000% Confidence 95.000% Median Minimum Maximum Weight CN 230 77.88696 76.22515 79.54876 76.00000 52.00000 135.0000 Weight MCI 406 76.50739 75.20194 77.81284 75.50000 52.00000 140.0000 Weight AD 197 71.24365 69.56268 72.92463 70.00000 44.00000 106.0000 Popisná sumarizace hodnot zlogaritmované váhy po exponenciální transformaci: N Geometrický průměr Dolní mez IS Horní mez IS Medián Minimum Maximum CN 230 76,9 75,3 78,5 76,0 52,0 135,0 MCI 406 75,4 74,1 76,7 75,5 52,0 140,0 AD 197 70,3 68,6 71,9 70,0 44,0 106,0 Je patrné, že medián, minimum i maximum jsou stejné. Avšak průměr a intervaly spolehlivosti vypočtené na původních datech jsou vyšší (tzn. nereprezentují dobře střed dat a jeho spolehlivost)! f(y) f(x) X = ln(Y) Geom. průměr lián Průměr" ' ls" ,s 1 y = exp(x) ln(y) Janoušová, Dušek: Analýza dat pro neurovědy IBA M 40 4. Analýza rozptylu jako lineární model Janoušová, Dušek: Analýza dat pro neurovědy ^j^- |yj 41 Analýza rozptylu jako lineární mode Analýza rozptylu pro jednu vysvětlující proměnnou (jednoduché třídění) lze zapsat jako lineární model: Reziduum Populační průměr' x /-tý efekt faktoru A Nulovou hypotézu pak lze vyjádřit jako: H0:al=a2=... = ak Rozšířením tohoto zápisu můžeme definovat další modely ANOVA: více faktorů, hodnocení interakcí, opakovaná měření na jednom subjektu. Janoušová, Dušek: Analýza dat pro neurovědy ^j^- |yj 42 Analýza rozptylu dvojného třídění Uvažujeme dvě vysvětlující proměnné zároveň. Zápis modelu: Populační průměr Reziduum y-tý efekt faktoru B /-tý efekt faktoru A Nulové hypotézy pak máme dvě: H0l \ ax = a2 =... = ak ,H02 ;/Jl=/J2=... = fír Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A Sa dfA = k-l MSA = SA/dfA P Faktor B Sb dh = r-l MSQ = SQ1 dfQ P Rezidua Se dfe = (k-l)(r-l) MS= Se 1 dfe Celkem dfT = n-l = kr-l Janoušová, Dušek: Analýza dat pro neurovědy ^! ^3 Analýza rozptylu dvojného třídění s interakcí i-- • Uvažujeme dvě vysvětlující proměnné a zároveň i jejich společné působení. • Zápis modelu: Y.. = // + a. + Pi + vjf + ejf <— Populační průměr Reziduum Interakce /-tý efekt faktoru B /-tý efekt faktoru A • Nulové hypotézy pak máme tři: H01 '-Yu ~ Y\2 ~ - " = Yh- H02 • cxl — oc2 = . — ~ O^k . ßi — ß2 — —' — ßr Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A dfA = k-l MSA = SA/dfA P Faktor B sB dfA = r-l MSB = SB / dfB ^B P Interakce AxB $ab dfAB = (k-l)(r-l) msab = sab 1 dfAB ^AB P Rezidua dfe = n - kr MS= Se 1 dfe Celkem Sj dfj = n-l Janoušová, Dušek: Analýza dat pro neurovědy IBA Poděkování.. Příprava výukových materiálů předmětu „DSAN01 Analýza dat pro Neurovědy " byla finančně podporována prostředky projektu FRVŠ č. 942/2013 „Inovace materiálů pro interaktivní výuku a samostudium předmětu Analýza dat pro Neurovědy" FOND ROZVOJE VYSOKÝCH ŠKOL Janoušová, Dušek: Analýza dat pro neurovědy