zahlavi-IBA logo-IBA logo-MU © Institut biostatistiky a analýz Pokročilé metody analýzy dat v neurovědách Jaro 2016 RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Blok 2 Vícerozměrné statistické testy a rozložení 2 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova 1.Vícerozměrné charakteristiky 2.Vícerozměrné normální rozdělení 3.Vícerozměrný t-test 4.Vícerozměrná analýza rozptylu 5.Transformace a jiné úpravy vícerozměrných dat 3 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrné charakteristiky 4 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrná data 5 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 3 4 … PROMĚNNÉ •Poznámka: proměnné označovány i jako znaky, pozorování, diskriminátory, příznakové proměnné či příznaky •Anglicky označení pouze jedním termínem: feature logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Maticový zápis datového souboru 6 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 … PROMĚNNÉ maticový zápis datového souboru n objektů (subjektů), které jsou popsané p proměnnými jeden prvek matice xij je hodnota j-té proměnné u i‑tého objektu (subjektu), přičemž j = 1, ..., p a i = 1, ..., n logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný průměr a kovarianční matice •vícerozměrný průměr (např. pro datový soubor se 2 proměnnými): • • • • •výběrová kovarianční matice (např. pro datový soubor se 2 proměnnými): 7 Janoušová: Vícerozměrné metody - cvičení logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný průměr a kovarianční matice •Vícerozměrný průměr: 8 ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 1 2 3 4 5 7 8 9 10 11 12 13 Objem hipokampu Kovarianční matice: ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrné normální rozdělení 9 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Motivace 10 Dvourozměrný histogram Hustota dvourozměrného normálního rozdělení -> dvourozměrné normální rozdělení logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrné normální rozdělení 11 Hustota vícerozměrného normálního rozdělení: Hustota dvourozměrného normálního rozdělení: Výřez obrazovky Výřez obrazovky Hustota jednozměrného normálního rozdělení: -> dvourozměrné normální rozdělení logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 12 + -> dvourozměrné normální rozdělení logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 13 + -> dvourozměrné normální rozdělení logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 14 + Vícerozměrný outlier -> dvourozměrné normální rozdělení logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Ověření dvourozměrné normality 15 Bagplot = „bivariate boxplot“ (tzn. „dvourozměrný krabicový graf“) v softwaru Statistica: Graphs – 2D Graphs – Bag Plots ukazovat na objemu hipokampu a amygdaly (případně zvlášť u jednotlivých skupin subjektů) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Ověření dvourozměrné normality 16 Vykreslení regulační elipsy („control“ elipse): v softwaru Statistica: Graphs – Scatterplots – na záložce Advanced zvolit Elipse Normal do elipsy má spadat 95% hodnot, což spadá, a hodnoty mimo elipsu nejsou daleko od elipsy – data mají vícerozměrné normální rozdělení http://documentation.statsoft.com/STATISTICAHelp.aspx?path=Graphs/Graph/ModifyingGraphs/Dialogs/Plo tEllipseTab logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný t-test 17 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Jednorozměrný dvouvýběrový t-test 18 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný t-test •Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. •Na rozdíl od jednorozměrného dvouvýběrového t-testu jsou dvě skupiny dat popsány více proměnnými. • • • • • 19 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný t-test 20 Studentovo rozdělení F rozdělení F rozdělení Hotellingovo rozdělení logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 1 •Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. 21 pacienti kontroly 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 1 - řešení 22 Vícerozměrný t-test: n 6 p 2 T2 3,5 F 1,31 df1= p 2 df2 = n-p-1 3 α 0,05 F-crit 9,55 p-hodnota 0,389 v Rku: S=solve(2/3*matrix(c(1,-1,-1,4),2,2)) b=matrix(c(-1,3),1,2) b%*%S%*%t(b) qf(0.95,2,3) 1-pf(1.3125,2,3) library("ICSNP") X=matrix(c(2 4 3 12 10 8),3,2) Y=matrix(c(5,3,4,7,9,5),3,2) HotellingsT2(X, Y) V Excelu (Vicerozmerny t-test - demo.xlsx) – kovarianční matice by také šly počítat maticově logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 1 – řešení v software R 23 library("ICSNP") X=matrix(c(2 4 3 12 10 8),3,2) Y=matrix(c(5,3,4,7,9,5),3,2) HotellingsT2(X, Y) v Rku: S=solve(2/3*matrix(c(1,-1,-1,4),2,2)) b=matrix(c(-1,3),1,2) b%*%S%*%t(b) qf(0.95,2,3) 1-pf(1.3125,2,3) library("ICSNP") X=matrix(c(2 4 3 12 10 8),3,2) Y=matrix(c(5,3,4,7,9,5),3,2) HotellingsT2(X, Y) V Excelu (Vicerozmerny t-test - demo.xlsx) – kovarianční matice by také šly počítat maticově logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu pro vícerozměrná data 24 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu (ANOVA) jednoduchého třídění •Srovnáváme tři a více skupin dat, které jsou na sobě nezávislé (mezi objekty neexistuje vazba). •Příklady: srovnání objemu hipokampu u pacientů s AD, pacientů s MCI a kontrol; srovnání kognitivního výkonu podle čtyř kategorií věku. • • • • • • • •Předpoklady: normalita dat ve VŠECH skupinách, shodnost (homogenita) rozptylů VŠECH srovnávaných skupin, nezávislost jednotlivých pozorování. • •Testová statistika: 25 -Nezávislost jednotlivých pozorování – sice téměř automatický předpoklad, nicméně je třeba se nad ním alespoň zamyslet. -ANOVA má souvislost s F-testem logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách •Srovnání variability (rozptylu) mezi výběry s variabilitou uvnitř výběrů. • • • • • • • •Tabulka analýzy rozptylu jednoduchého třídění (One-Way ANOVA): Analýza rozptylu (ANOVA) – princip 26 Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Mezi skupinami SA dfA = k – 1 MSA = SA/dfA p Uvnitř skupin (reziduální var.) Se dfe = n – k MSe = Se/dfe Celkem ST dfT = n – 1 celkový průměr AD MCI CN AD MCI CN -k je počet skupin -vzpomínají si, na čtverce, které jsme kreslili u směrodatné odchylky? logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu jako lineární model •Analýza rozptylu pro jednu vysvětlující proměnnou (jednoduché třídění) lze zapsat jako lineární model: • • • • • •Nulovou hypotézu pak lze vyjádřit jako: • •Rozšířením tohoto zápisu můžeme definovat další modely ANOVA: více faktorů, hodnocení interakcí, opakovaná měření na jednom subjektu. • 27 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu pro vícerozměrná data 28 •podle počtu faktorů: –1 faktor – ANOVA jednoduchého třídění (jednofaktorová ANOVA) –2 faktory – ANOVA dvojného třídění (dvoufaktorová ANOVA) –... •podle počtu vysvětlovaných proměnných: –1 vysvětlovaná proměnná – jednorozměrná analýza rozptylu (ANOVA) –2 a více vysvětlovaných proměnných – vícerozměná analýza rozptylu (MANOVA) •podle toho, zda se faktory ovlivňují či nikoliv: –faktory se mohou ovlivňovat – model s interakcí –faktory se neovlivňují – model bez interakce logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu pro vícerozměrná data - příklady 29 Počet faktorů: jednoduché x dvojné x trojné, ... třídění Počet proměnných: jednorozměrná x vícerozměrná analýza rozptylu Faktory se ovlivňují či neovlivňují: s interakcí x bez interakce •zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického tlaku u stovky osob, přičemž chceme zkoumat i vliv pohlaví, předpokládáme však, že ženy i muži reagují na jednotlivé léky obdobně (tzn. např. ženy s léky A a C budou mít nižší tlak než ženy s lékem B a muži s léky A a C budou mít také nižší tlak než muži s lékem B apod.) •zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického tlaku u stovky osob, přičemž chceme zkoumat i vliv pohlaví, a předpokládáme, že ženy a muži budou reagovat na léky různě (tzn. např. ženy s léky A a C budou mít nižší tlak než ženy s lékem B, zatímco muži s léky A a B budou mít vyšší tlak než muži s lékem C apod.) •zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického a diastolického tlaku u stovky osob •zkoumáme dlouhodobý vliv třech typů léků a vliv pohlaví na hodnoty systolického a diastolického tlaku u stovky osob – jednorozměrná analýza rozptylu dvojného třídění bez interakce – jednorozměrná analýza rozptylu dvojného třídění s interakcí – vícerozměrná analýza rozptylu jednoduchého třídění – vícerozměrná analýza rozptylu dvojného třídění •zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického tlaku u stovky osob – jednorozměrná analýza rozptylu jednoduchého třídění logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu dvojného třídění •Uvažujeme dvě vysvětlující proměnné zároveň. •Zápis modelu: • • • • • •Nulové hypotézy pak máme dvě: , • 30 Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A SA dfA = a – 1 MSA = SA / dfA FA p Faktor B SB dfA = b – 1 MSB = SB / dfB FB p Rezidua Se dfe = n – a – b + 1 MSe= Se / dfe Celkem ST dfT = n – 1 stupně volnosti u Celkem – n=ab by byl jen speciální případ ! logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu dvojného třídění s interakcí •Uvažujeme dvě vysvětlující proměnné a zároveň i jejich společné působení. •Zápis modelu: • • • •Nulové hypotézy pak máme tři: • 31 Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A SA dfA = a – 1 MSA = SA / dfA FA p Faktor B SB dfA = b – 1 MSB = SB / dfB FB p Interakce A×B SAB dfAB = (a– 1)(b – 1) MSAB = SAB / dfAB FAB p Rezidua Se dfe = n – ab MSe= Se / dfe Celkem ST dfT = n – 1 tady jsou stupně volnosti správně, protože opravdu vychází, že: n-1=n-ab + (a-1)*(b-1) + (a-1) + (b-1) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Hlavní efekty a interakce 32 SS D.f. MS F p Faktor 1 1978 1 1978 482.2 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F p Faktor 1 4 1 4 1.0 0.314 Faktor 2 1891 1 1891 461.1 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F p Faktor 1 5293 1 5293 1290.7 0.000 Faktor 2 861 1 861 209.9 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F p Faktor 1 4 1 4 1.0 0.314 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 SS D.f. MS F p Faktor 1 920 1 920 224.3 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 SS D.f. MS F p Faktor 1 4799 1 4799 1443.4 0.000 Faktor 2 316 1 316 95.0 0.000 F1*F2 175 1 175 52.5 0.000 Error 652 196 3 - muži - ženy - pokud se čáry v grafu kříží, ukazuje to, že tam nějaká intrakce je, ale může být tak slabá, že to nemusí vycházet statisticky významně (nebo můžeme mít příliš málo subjektů na to, aby interakce vycházela statisticky významně) situace 3 – u mužů o cca 10 vyšší hodnoty u léku B než A i u žen o cca 10 vyšší hodnoty u léku B než A → není tam interakce situace 4 – když si uděláme společný boxplot pro muže a společný boxplot u žen (bez ohledu na lék), budou ve stejné výšce → efekt pohlaví tam nebude; společný boxplot u léku A a společný boxplot u léku B (bez ohledu na pohlaví) budou také ve stejné výšce → efekt léku tam nebude situace 5 – společný boxplot pro muže a společný boxplot pro ženy ve stejné výšce → efekt pohlaví tam nebude; společný boxplot u léku A níže než společný boxplot u léku B → efekt léku tam bude situace 6 – je tam interakce, i když se na první pohled čáry neprotínají (kdybychom ale nakreslili krabici pro ženy více doleva než pro muže, tak by se protínaly) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu pro vícerozměrná data - postup 33 Model s interakcemi Post hoc testy (všechny skupiny dané kombinací faktorů proti sobě) Interakce významné Interakce nevýznamné Model bez interakcí Popisná sumarizace + krabicové grafy Ověření předpokladů (nezávislost, normalita, homogenita rozptylů) Post hoc testy (pro významné faktory s více než třemi kategoriemi) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 •Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií (neuvažujeme možnou interakci). 34 ID Pohlaví Typ léku Počet nežádoucích účinků P1 M lék X 1 P2 M lék Y 1 P3 M lék Z 6 P4 Z lék X 3 P5 Z lék Y 4 P6 Z lék Z 9 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení 35 Pohlaví Typ léku Počet nežádoucích účinků 1 1 1 1 2 1 1 3 6 2 1 3 2 2 4 2 3 9 Překódování: 1=M 2=Z 1=lék X 2=lék Y 3=lék Z Legenda: •Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií (neuvažujeme možnou interakci). Pohlaví: Typ léku: logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení 36 Pohlaví Typ léku Počet než. účinků 1 1 1 1 2 1 1 3 6 2 1 3 2 2 4 2 3 9 Součet čtverců pro faktor A (pohlaví): Součet čtverců pro faktor B (typ léku): Celkový součet čtverců : Reziduální součet čtverců : logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení 37 Tabulka analýzy rozptylu dvojného třídění: Srovnání s kvantily: V tomto okamžiku bychom měli zjistit, které skupiny u faktoru B se od sebe liší – šlo by to počítat ručně, je to ale trochu náročnější, pro si to ukážeme pouze v softwaru. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení v softwaru STATISTICA •Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií. • 38 Pohlaví Typ léku Počet uzdrav. pacientů M lék X 1 M lék Y 1 M lék Z 6 Z lék X 3 Z lék Y 4 Z lék Z 9 V softwaru STATISTICA: Statistics – ANOVA – Main effects ANOVA – Quick specs dialog – OK – Variables – Dependent variable list: X, Categorical predictors (factors): A, B – OK – All effects. Post hoc testy: More results – Post hoc – zvolit Effect – Unequal N HSD, Tukey HSD nebo Scheffé Levenův test: More results – Assumptions – zvolit proměnnou – Levene‘s test (ANOVA) Vykreslení krabicových grafů podle obou proměnných: Graphs – 2D Graphs – Box Plots... – zvolit spojitou proměnnou jako Dependent variable, zvolit jednu kategoriální proměnnou jako Grouping variable – na listu Categorized u X-Categories zatrhnout On a Layout změnit na Overlaid – pokud chceme spojit mediány či průměry, na záložce Advanced zatrhnout Connect middle points – OK Pokud bychom uvažovali model s interakcemi, zvolíme Factorial ANOVA (namísto Main effects A.) by group umožňuje vybrat 2 proměnné – vykreslí to rovnou 6 histogramů) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení v softwaru SPSS 39 Pohlaví Typ léku Počet uzdrav. pacientů M lék X 1 M lék Y 1 M lék Z 6 Z lék X 3 Z lék Y 4 Z lék Z 9 V softwaru SPSS: Analyze – General Linear Model – Univariate – Dependent Variable: spojitá proměnná, Fixed Factor(s): kategoriální proměnné –> •Model – zatrhneme Custom – vybereme Typ:Main effects – do Model přetáhneme A, B (pokud bychom chtěli model s interakcemi necháme zatržené Full factorial) – odškrtneme Include intercept in model – Continue •Post Hoc – Post hoc Tests for: zvolit kategoriální proměnnou – zatrhneme Tukey’s-b – Continue •Plots: zvolit proměnné do Horizontal Axis a Separte Lines – Add – Continue •Options... – Homogeneity tests – Continue Vykreslení krabicových grafů podle obou proměnných: Graphs – Legacy Dialogs – Boxplot... – Clustered – Define – zvolit Variable Category Axis a Define Clusters by - OK •Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií. • logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení v softwaru R 40 V softwaru R: data <- data.frame(pohl=c(1,1,1,2,2,2),lek=c(1,2,3,1,2,3),pocet=c(1,1,6,3,4,9)) data model_bez_interakce <- aov(data$pocet ~ (as.factor(data$pohl)+as.factor(data$lek))) summary(model_bez_interakce) TukeyHSD(model_bez_interakce) # post-hoc test # 2. zpusob: anova(lm(data$pocet ~ (as.factor(data$pohl)+as.factor(data$lek)))) model_s_interakci <- aov(data$pocet ~ (as.factor(data$pohl)*as.factor(data$lek))) summary(model_s_interakci) boxplot(data$pocet ~(as.factor(data$pohl)*as.factor(data$lek))) library("car") # instalace baliku car pomoci: install.packages("car") leveneTest(data$pocet ~ (as.factor(data$pohl)*as.factor(data$lek)),center=mean) •Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií. • do budoucna zjistit, jak vypsat p-hodnoty u modelu s interakcí logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 41 •Zjistěte, zda má vliv pohlaví a typ onemocnění na objem hipokampu. • •Ukázka datového souboru: ID Group_3kat Gender_rek Hippocampus_volume (mm3) 101 1 M 6996.1 102 1 F 7187.3 103 1 M 7030.2 331 2 M 6891.6 332 2 M 6332.9 334 2 F 6303.7 737 3 M 6170.8 739 3 F 5984.1 740 3 F 6052.4 Legenda k proměnné Group_3kat: 1...CN (kontroly) 2...MCI (mírná kognitivní porucha) 3...AD (Alzheimerova choroba) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – popisná sumarizace dat 42 Skupina Pohlaví N Průměr SD Medián Minimum Maximum CN F 110 7018.3 190.1 7036.1 6509.6 7430.1 M 120 7087.3 176.0 7081.1 6674.4 7486.6 Celkem 230 7054.3 185.7 7048.6 6509.6 7486.6 MCI F 146 6476.7 171.8 6460.4 6155.1 6984.8 M 260 6595.2 164.1 6589.5 6159.1 7125.6 Celkem 406 6552.6 176.2 6555.0 6155.1 7125.6 AD F 95 6215.0 178.8 6237.8 5805.2 6619.0 M 102 6293.0 174.8 6250.8 5844.3 6756.9 Celkem 197 6255.4 180.6 6248.0 5805.2 6756.9 Celkem F 351 6575.6 364.8 6498.2 5805.2 7430.1 M 482 6653.8 323.9 6610.0 5844.3 7486.6 Celkem 833 6620.9 343.7 6580.9 5805.2 7486.6 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – krabicový graf 43 → interakci sice očekávat nebudeme, přesto si ale model s interakcí raději spočítáme (nejdřív ale musíme ověřit předpoklady) když si propojíme mediány, vypadá to, že interakci tu spíš očekávat nebudeme logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – ověření normality 44 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – homogenita rozptylů a nezávislost 45 Výřez obrazovky Nezávislost: Protože žádný subjekt nebyl současně ve více skupinách, nezávislost můžeme předpokládat. p=0,440 > 0,05 → nezamítáme homogenitu rozptylů Homogenita rozptylů: logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – model s interakcí 46 Výřez obrazovky → není statisticky významná interakce, proto spočítáme model bez interakce logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – model bez interakce 47 → statisticky významný vliv pohlaví i typu onemocnění na objem hipokampu Výřez obrazovky → protože typ onemocnění má více než 2 kategorie, musíme provést post-hoc test, abychom zjistili, mezi kterými kategoriemi je statisticky významný rozdíl logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – interpretace 48 -statisticky významný vliv pohlaví i typu onemocnění na objem hipokampu, přičemž mezi pohlavím a typem onemocnění nenastává interakce -u mužů statisticky významně vyšší objem hipokampu než u žen Výřez obrazovky CN MCI AD -statisticky významný rozdíl v objemu hipokampu u všech 3 skupin subjektů podle typu onemocnění, přičemž u pacientů s AD je objem nejmenší a u CN největší logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Upozornění I •Pozor, pokud mediány ukazují úplně jiný „trend“ než průměry! 49 •znamená to, že tam zřejmě není splněn předpoklad normality •pokud rozdíl není statisticky významný, není zpravidla potřeba to řešit •pokud by ten rozdíl vyšel statisticky významně, je to problém! • •poznámka: je dobré mít měřítko na ose y stejné u obou grafů logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Upozornění II •Pozor na interpretaci! •Na první pohled z grafu vypadá, že tam je vliv kraje i nezaměstnanosti, že to nevychází statisticky významně může být: –malým počtem subjektů ve skupině –ale i velikostí efektu! (tady efekty malé, průměry ve všech čtyřech skupinách se podle posledního grafu pohybují jen od cca 41,4 do 42!) 50 když je ANOVA s interakcemi, je potřebné testovat post-hoc testem všechny skupiny mezi sebou, aby se zjistilo, mezi kterými skupinami je statisticky významný rozdíl, protože sice informace, že se statisticky významně liší skupina pod 30 let od skupiny nad 50 let je užitečná (na základě post-hoc testu pro věk), ale když je tam interakce, tak to neříká všechno na dořešení: •jak by se počítala MANOVA? – to určitě není separátní zhodnocení dvou spojitých proměnných podle stejných kategoriálních proměnných... logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Transformace a jiné úpravy vícerozměrných dat 51 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy transformací a jiných úprav vícerozm. dat •normalizace dat (= převod na normální rozdělení) •standardizace dat •min-max normalizace •centrování dat •odstranění vlivu kovariát na jiné proměnné 52 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Normalizace dat •převod na normální rozdělení (normalita je předpokladem řady statistických testů). •např. logaritmická transformace: X = ln(Y) nebo X = ln(Y+1), pokud data obsahují hodnotu 0 • • • • • • • •další příklady: –odmocninová transf. (pro proměnné s Poissonovým rozložením nebo obecně data typu počet jedinců, buněk apod.: nebo –arcsin transfomace (pro proměnné s binomickým rozložením) –Box-Coxova tranformace f(y) y f(x) ln (y) X = ln(Y) Asymetrické rozdělení Normální rozdělení Medián Průměr Medián Průměr Geometrický průměr 53 -Logaritmická transformace nevhodná u dat, která jsou již v logaritmické tvaru (např. pH) a u nalevo zešikmených rozložení (nízké odlehlé hodnoty – nepomůže tady ale –log?) -Pokud se pak výsledky (průměr a intervaly spolehlivosti) vrací zpátky (tzn. pomocí exponenciální fce) a prezentuje se pak geometrický průměr a intervaly spolehlivosti, tak stačí použít přirozený logaritmus (většinou je ln dostačující, aby tvar dat měl normální rozdělení) -pokud bychom ale chtěli prezentovat data s logaritmickou osou, bylo by lepší použít dekadický logaritmus, protože ten má lepší interpretaci osy (10x, 100x, 1000x větší...) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Standardizace dat 54 •pozor: standardizace je nevhodná v případě, když proměnné nemají normální rozdělení a když se v datech vyskytují odlehlé hodnoty!!! -souvislost ze z-skóre – to bych dostala, pokud bych odečítala populační průměr a dělila populační SD -využití při modelování (aby proměnné byly srovnatelné) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Min-max normalizace 55 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Centrování dat 56 např. u lineární regrese – pokud jsou hodnoty centrované, nemusíme uvažovat intercept logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 1.V prvním kroku definujeme regresní model vztahu kovariáty (např. věku) a dané proměnné 2.Pro každého pacienta je vypočteno jeho reziduum od regresní přímky 3.Reziduum (představující hodnotu parametru po odečtení vlivu věku, jeho průměr je 0) je přičteno k průměrné hodnotě parametru 4.Výsledná adjustovaná hodnota má odečten vliv věku, ale zároveň není změněna číselná hodnota parametru • 57 original_ln.png adjusted.png original_ln.png adjusted.png Původní data Adjustovaná data Odstranění vlivu kovariát (tzv. adjustace) Věk Věk Věk Věk original_ln.png adjusted.png Objem amygdaly Objem amygdaly logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách“ byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU“ 58