zahlavi-IBA logo-IBA logo-MU © Institut biostatistiky a analýz Pokročilé metody analýzy dat v neurovědách RNDr. Eva Koriťáková, Ph.D. doc. RNDr. Ladislav Dušek, Dr. logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Blok 2 Vícerozměrné statistické testy a rozložení 2 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova 1.Vícerozměrné charakteristiky 2.Vícerozměrné normální rozdělení 3.Vícerozměrný t-test 4.Vícerozměrná analýza rozptylu 5.Transformace a jiné úpravy vícerozměrných dat 3 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrné charakteristiky 4 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrná data 5 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 3 4 … •PROMĚNNÉ •Poznámka: proměnné označovány i jako znaky, pozorování, diskriminátory, příznakové proměnné či příznaky •Anglicky označení pouze jedním termínem: feature logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Maticový zápis datového souboru 6 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 … •PROMĚNNÉ maticový zápis datového souboru n objektů (subjektů), které jsou popsané p proměnnými jeden prvek matice xij je hodnota j-té proměnné u i‑tého objektu (subjektu), přičemž j = 1, ..., p a i = 1, ..., n logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný průměr a kovarianční matice •vícerozměrný průměr (např. pro datový soubor se 2 proměnnými): • • • • •výběrová kovarianční matice (např. pro datový soubor se 2 proměnnými): 7 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný průměr a kovarianční matice •Vícerozměrný průměr: 8 ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 1 2 3 4 5 7 8 9 10 11 12 13 Objem hipokampu •Kovarianční matice: ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrné normální rozdělení 9 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Motivace 10 Dvourozměrný histogram Hustota dvourozměrného normálního rozdělení -> dvourozměrné normální rozdělení logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Hustota u nekorelovaných a korelovaných proměnných 11 Nekorelované proměnné (μ1 = μ2 = 0, σ1 = σ2 =1, ρ= 0) Korelované proměnné (μ1 = μ2 = 0, σ1 = σ2 =1, ρ= 0,5) ať si to představí jako klobouk – nekorelované proměnné jsou buřinka pana Tau, korelované proměnné jsou v extrémním případě Napoleonova čepice logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrné normální rozdělení 12 Hustota vícerozměrného normálního rozdělení: Hustota dvourozměrného normálního rozdělení: Výřez obrazovky Výřez obrazovky Hustota jednozměrného normálního rozdělení: -> dvourozměrné normální rozdělení logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 13 + -> dvourozměrné normální rozdělení logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 14 + -> dvourozměrné normální rozdělení logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 15 + Vícerozměrný outlier -> dvourozměrné normální rozdělení logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ověření dvourozměrné normality 16 Bagplot = „bivariate boxplot“ (tzn. „dvourozměrný krabicový graf“) v softwaru Statistica: Graphs – 2D Graphs – Bag Plots ukazovat na objemu hipokampu a amygdaly zvlášť u jednotlivých skupin subjektů: -není vhodné použí Categorized pro vykreslení skupin, protože ty grafy jsou pak velmi malé -lepší je použít By Group (zatrhnout „Output to single folder“ a případně „Ascending“) podle bag plotu je tam hodně odlehlých hodnot, bag plot je však až příliš přísný logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ověření dvourozměrné normality 17 Vykreslení regulační elipsy („control“ elipse): v softwaru Statistica: Graphs – Scatterplots – na záložce Advanced zvolit Elipse Normal data tvoří elipsu a do elipsy má spadat 95% hodnot, což spadá (mimo elipsu jen 15 hodnot z 406, což je 3.7%), a hodnoty mimo elipsu nejsou daleko od elipsy –> data mají vícerozměrné normální rozdělení (obdobně i u CN – tam je to 8 z 230 (3.5%) a u AD 9 z 197 (4.6%)) http://documentation.statsoft.com/STATISTICAHelp.aspx?path=Graphs/Graph/ModifyingGraphs/Dialogs/Plo tEllipseTab logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný t-test 18 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Jednorozměrný dvouvýběrový t-test 19 Kolik skupin srovnáváme pomocí dvouvýb. t-testu? Nějaký příklad? Jaké jsou předpoklady tohoto testu? logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný t-test •Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. •Na rozdíl od jednorozměrného dvouvýběrového t-testu jsou dvě skupiny dat popsány více proměnnými. • • • • • 20 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný t-test 21 Studentovo rozdělení F rozdělení F rozdělení Hotellingovo rozdělení logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 1 •Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. 22 pacienti kontroly 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 1 - řešení 23 Vícerozměrný t-test: n 6 p 2 T2 3,5 F 1,31 df1= p 2 df2 = n-p-1 3 α 0,05 F-crit 9,55 p-hodnota 0,389 v Rku (použití Rka jako kalkulačku): S=solve(2/3*matrix(c(1,-1,-1,4),2,2)) b=matrix(c(-1,3),1,2) b%*%S%*%t(b) qf(0.95,2,3) 1-pf(1.3125,2,3) logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 1 – řešení v software R 24 library("ICSNP") X=matrix(c(2 4 3 12 10 8),3,2) Y=matrix(c(5,3,4,7,9,5),3,2) HotellingsT2(X, Y) Výřez obrazovky Výsledek: není statisticky významný rozdíl mezi skupinami (je to ale hlavně kvůli malému N) V Excelu (Vicerozmerny t-test - demo.xlsx) – je to ale asi k ničemu kovarianční matice by také šly počítat maticově logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu pro vícerozměrná data 25 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu (ANOVA) jednoduchého třídění •Srovnáváme tři a více skupin dat, které jsou na sobě nezávislé (mezi objekty neexistuje vazba). •Příklady: srovnání objemu hipokampu u pacientů s AD, pacientů s MCI a kontrol; srovnání kognitivního výkonu podle čtyř kategorií věku. • • • • • • • •Předpoklady: normalita dat ve VŠECH skupinách, shodnost (homogenita) rozptylů VŠECH srovnávaných skupin, nezávislost jednotlivých pozorování. • •Testová statistika: 26 -Nezávislost jednotlivých pozorování – sice téměř automatický předpoklad, nicméně je třeba se nad ním alespoň zamyslet. -ANOVA má souvislost s F-testem -nezávislost především ve smyslu nezávislosti hodnot (nejen, že hodnoty byly zjišťovány nezávisle na sobě) – např.: -když srovnáváme účinnost dvou léků, aby ve skupinách léčených lékem A a lékem B byli různí lidé -když srovnáváme dvě země podle procenta studujících lidí, aby se pokud možno nestávalo, že studenti budou studovat ve dvou zemích současně, čímž by zkreslovali výsledky -u nezávislosti se každopádně nejedná o nezávislost proměnných logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách •Srovnání variability (rozptylu) mezi výběry s variabilitou uvnitř výběrů. • • • • • • • •Tabulka analýzy rozptylu jednoduchého třídění (One-Way ANOVA): Analýza rozptylu (ANOVA) – princip 27 Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Mezi skupinami SA dfA = k – 1 MSA = SA/dfA p Uvnitř skupin (reziduální var.) Se dfe = n – k MSe = Se/dfe Celkem ST dfT = n – 1 celkový průměr AD MCI CN AD MCI CN -k je počet skupin -vzpomínají si, na čtverce, které jsme kreslili u směrodatné odchylky? logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu jako lineární model •Analýza rozptylu pro jednu vysvětlující proměnnou (jednoduché třídění) lze zapsat jako lineární model: • • • • • •Nulovou hypotézu pak lze vyjádřit jako: • •Rozšířením tohoto zápisu můžeme definovat další modely ANOVA: více faktorů, hodnocení interakcí, opakovaná měření na jednom subjektu. • 28 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu pro vícerozměrná data 29 •podle počtu faktorů: –1 faktor – ANOVA jednoduchého třídění (jednofaktorová ANOVA) –2 faktory – ANOVA dvojného třídění (dvoufaktorová ANOVA) –... •podle počtu vysvětlovaných proměnných: –1 vysvětlovaná proměnná – jednorozměrná analýza rozptylu (ANOVA) –2 a více vysvětlovaných proměnných – vícerozměná analýza rozptylu (MANOVA) •podle toho, zda se faktory ovlivňují či nikoliv: –faktory se mohou ovlivňovat – model s interakcí –faktory se neovlivňují – model bez interakce logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu pro vícerozměrná data - příklady 30 Počet faktorů: jednoduché x dvojné x trojné, ... třídění Počet proměnných: jednorozměrná x vícerozměrná analýza rozptylu Faktory se ovlivňují či neovlivňují: s interakcí x bez interakce •zkoumáme dlouhodobý vliv třech léků na hodnoty systolického tlaku u stovky osob, přičemž chceme zkoumat i vliv pohlaví, předpokládáme však, že ženy i muži reagují na jednotlivé léky obdobně (tzn. např. ženy s léky A a C budou mít nižší tlak než ženy s lékem B a muži s léky A a C budou mít také nižší tlak než muži s lékem B apod.) •zkoumáme dlouhodobý vliv třech léků na hodnoty systolického tlaku u stovky osob, přičemž chceme zkoumat i vliv pohlaví, a předpokládáme, že ženy a muži budou reagovat na léky různě (tzn. např. ženy s léky A a C budou mít nižší tlak než ženy s lékem B, zatímco muži s léky A a B budou mít vyšší tlak než muži s lékem C apod.) •zkoumáme dlouhodobý vliv třech léků na hodnoty systolického a diastolického tlaku u stovky osob •zkoumáme dlouhodobý vliv třech léků a vliv pohlaví na hodnoty systolického a diastolického tlaku u stovky osob – jednorozměrná analýza rozptylu dvojného třídění bez interakce – jednorozměrná analýza rozptylu dvojného třídění s interakcí – vícerozměrná analýza rozptylu jednoduchého třídění – vícerozměrná analýza rozptylu dvojného třídění •zkoumáme dlouhodobý vliv třech léků na hodnoty systolického tlaku u stovky osob – jednorozměrná analýza rozptylu jednoduchého třídění logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu dvojného třídění •Uvažujeme dvě vysvětlující proměnné zároveň. •Zápis modelu: • • • • • •Nulové hypotézy pak máme dvě: , • 31 Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A SA dfA = a – 1 MSA = SA / dfA FA p Faktor B SB dfA = b – 1 MSB = SB / dfB FB p Rezidua Se dfe = n – a – b + 1 MSe= Se / dfe Celkem ST dfT = n – 1 stupně volnosti u Celkem – n=ab by byl jen speciální případ ! logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu dvojného třídění s interakcí •Uvažujeme dvě vysvětlující proměnné a zároveň i jejich společné působení. •Zápis modelu: • • • •Nulové hypotézy pak máme tři: • 32 Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A SA dfA = a – 1 MSA = SA / dfA FA p Faktor B SB dfA = b – 1 MSB = SB / dfB FB p Interakce A×B SAB dfAB = (a– 1)(b – 1) MSAB = SAB / dfAB FAB p Rezidua Se dfe = n – ab MSe= Se / dfe Celkem ST dfT = n – 1 tady jsou stupně volnosti správně, protože opravdu vychází, že: n-1=n-ab + (a-1)*(b-1) + (a-1) + (b-1) logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Hlavní efekty a interakce 33 SS D.f. MS F p Faktor 1 1978 1 1978 482.2 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F p Faktor 1 4 1 4 1.0 0.314 Faktor 2 1891 1 1891 461.1 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F p Faktor 1 5293 1 5293 1290.7 0.000 Faktor 2 861 1 861 209.9 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F p Faktor 1 4 1 4 1.0 0.314 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 SS D.f. MS F p Faktor 1 920 1 920 224.3 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 SS D.f. MS F p Faktor 1 4799 1 4799 1443.4 0.000 Faktor 2 316 1 316 95.0 0.000 F1*F2 175 1 175 52.5 0.000 Error 652 196 3 - muži - ženy - pokud se čáry v grafu kříží, ukazuje to, že tam nějaká intrakce je (nebo přesněji, když čáry nejsou rovnoběžné – viz 6. situace), ale může být tak slabá, že to nemusí vycházet statisticky významně (nebo můžeme mít příliš málo subjektů na to, aby interakce vycházela statisticky významně) situace 3 – u mužů o cca 10 vyšší hodnoty u léku B než A i u žen o cca 10 vyšší hodnoty u léku B než A → není tam interakce situace 4 – když si uděláme společný boxplot pro muže a společný boxplot u žen (bez ohledu na lék), budou ve stejné výšce → efekt pohlaví tam nebude; společný boxplot u léku A a společný boxplot u léku B (bez ohledu na pohlaví) budou také ve stejné výšce → efekt léku tam nebude situace 5 – společný boxplot pro muže a společný boxplot pro ženy ve stejné výšce → efekt pohlaví tam nebude; společný boxplot u léku A níže než společný boxplot u léku B → efekt léku tam bude situace 6 – je tam interakce, i když se na první pohled čáry neprotínají (kdybychom ale nakreslili krabici pro ženy více doleva než pro muže, tak by se protínaly) logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu pro vícerozměrná data - postup 34 Model s interakcemi Post hoc testy (všechny skupiny dané kombinací faktorů proti sobě) Interakce významné Interakce nevýznamné Model bez interakcí Popisná sumarizace + krabicové grafy Ověření předpokladů (nezávislost, normalita, homogenita rozptylů) Post hoc testy (pro významné faktory s více než třemi kategoriemi) když je ANOVA s interakcemi, je potřebné testovat post-hoc testem všechny skupiny mezi sebou, aby se zjistilo, mezi kterými skupinami je statisticky významný rozdíl, protože sice informace, že se statisticky významně liší skupina pod 30 let od skupiny nad 50 let je užitečná (na základě post-hoc testu pro věk), ale když je tam interakce, tak to neříká všechno logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 •Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů se schizofrenií (neuvažujeme možnou interakci). 35 ID Pohlaví Typ léku Počet nežádoucích účinků P1 M lék X 1 P2 M lék Y 1 P3 M lék Z 6 P4 Z lék X 3 P5 Z lék Y 4 P6 Z lék Z 9 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení 36 Pohlaví Typ léku Počet nežádoucích účinků 1 1 1 1 2 1 1 3 6 2 1 3 2 2 4 2 3 9 Překódování: 1=M 2=Z 1=lék X 2=lék Y 3=lék Z Legenda: •Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů se schizofrenií (neuvažujeme možnou interakci). Pohlaví: Typ léku: logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení 37 Pohlaví Typ léku Počet než. účinků 1 1 1 1 2 1 1 3 6 2 1 3 2 2 4 2 3 9 Součet čtverců pro faktor A (pohlaví): Součet čtverců pro faktor B (typ léku): Celkový součet čtverců : Reziduální součet čtverců : proč se ověřuje normalita ve všech 2*3 podskupinách, když se průměry dělají za každou podskupinu dané proměnné zvlášť? logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení 38 Tabulka analýzy rozptylu dvojného třídění: Srovnání s kvantily: V tomto okamžiku bychom měli zjistit, které skupiny u faktoru B se od sebe liší – šlo by to počítat ručně, je to ale trochu náročnější, proto si to ukážeme pouze v softwaru. logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení v softwaru STATISTICA •Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů se schizofrenií. • 39 Pohlaví Typ léku Počet uzdrav. pacientů M lék X 1 M lék Y 1 M lék Z 6 Z lék X 3 Z lék Y 4 Z lék Z 9 V softwaru STATISTICA: Statistics – ANOVA – Main effects ANOVA – Quick specs dialog – OK – Variables – Dependent variable list: X, Categorical predictors (factors): A, B – OK – All effects. Post hoc testy: More results – Post hoc – zvolit Effect – Unequal N HSD, Tukey HSD nebo Scheffé Levenův test: More results – Assumptions – zvolit proměnnou – Levene‘s test (ANOVA) Vykreslení krabicových grafů podle obou proměnných: Graphs – 2D Graphs – Box Plots... – zvolit spojitou proměnnou jako Dependent variable, zvolit jednu kategoriální proměnnou jako Grouping variable – na listu Categorized u X-Categories zatrhnout On a Layout změnit na Overlaid – pokud chceme spojit mediány či průměry, na záložce Advanced zatrhnout Connect middle points – OK Pokud bychom uvažovali model s interakcemi, zvolíme Factorial ANOVA (namísto Main effects A.) by group umožňuje vybrat 2 proměnné – vykreslí to rovnou 6 histogramů větší smysl má ukázky v softwarech dělat rovnou na souboru Data_neuro.xlsx než tady na tom malém ukázkovém souboru logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení v softwaru SPSS 40 Pohlaví Typ léku Počet uzdrav. pacientů M lék X 1 M lék Y 1 M lék Z 6 Z lék X 3 Z lék Y 4 Z lék Z 9 V softwaru SPSS: Analyze – General Linear Model – Univariate – Dependent Variable: spojitá proměnná, Fixed Factor(s): kategoriální proměnné –> •Model – zatrhneme Custom – vybereme Typ:Main effects – do Model přetáhneme A, B (pokud bychom chtěli model s interakcemi necháme zatržené Full factorial) – odškrtneme Include intercept in model – Continue •Post Hoc – Post hoc Tests for: zvolit kategoriální proměnnou – zatrhneme Tukey’s-b – Continue •Plots: zvolit proměnné do Horizontal Axis a Separte Lines – Add – Continue •Options... – Homogeneity tests – Continue Vykreslení krabicových grafů podle obou proměnných: Graphs – Legacy Dialogs – Boxplot... – Clustered – Define – zvolit Variable Category Axis a Define Clusters by - OK •Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů se schizofrenií. • logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení v softwaru R 41 V softwaru R: data <- data.frame(pohl=c(1,1,1,2,2,2),lek=c(1,2,3,1,2,3),pocet=c(1,1,6,3,4,9)) data model_bez_interakce <- aov(data$pocet ~ (as.factor(data$pohl)+as.factor(data$lek))) summary(model_bez_interakce) TukeyHSD(model_bez_interakce) # post-hoc test # 2. zpusob: anova(lm(data$pocet ~ (as.factor(data$pohl)+as.factor(data$lek)))) model_s_interakci <- aov(data$pocet ~ (as.factor(data$pohl)*as.factor(data$lek))) summary(model_s_interakci) boxplot(data$pocet ~(as.factor(data$pohl)*as.factor(data$lek))) library("car") # instalace baliku car pomoci: install.packages("car") leveneTest(data$pocet ~ (as.factor(data$pohl)*as.factor(data$lek)),center=mean) •Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů se schizofrenií. • do budoucna zjistit, jak vypsat p-hodnoty u modelu s interakcí logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 42 •Zjistěte, zda má vliv pohlaví a typ onemocnění na objem hipokampu. • •Ukázka datového souboru: ID Group_3kat Gender_rek Hippocampus_volume (mm3) 101 1 M 6996.1 102 1 F 7187.3 103 1 M 7030.2 331 2 M 6891.6 332 2 M 6332.9 334 2 F 6303.7 737 3 M 6170.8 739 3 F 5984.1 740 3 F 6052.4 Legenda k proměnné Group_3kat: 1...CN (kontroly) 2...MCI (mírná kognitivní porucha) 3...AD (Alzheimerova choroba) logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – popisná sumarizace dat 43 Skupina Pohlaví N Průměr SD Medián Minimum Maximum CN F 110 7018.3 190.1 7036.1 6509.6 7430.1 M 120 7087.3 176.0 7081.1 6674.4 7486.6 Celkem 230 7054.3 185.7 7048.6 6509.6 7486.6 MCI F 146 6476.7 171.8 6460.4 6155.1 6984.8 M 260 6595.2 164.1 6589.5 6159.1 7125.6 Celkem 406 6552.6 176.2 6555.0 6155.1 7125.6 AD F 95 6215.0 178.8 6237.8 5805.2 6619.0 M 102 6293.0 174.8 6250.8 5844.3 6756.9 Celkem 197 6255.4 180.6 6248.0 5805.2 6756.9 Celkem F 351 6575.6 364.8 6498.2 5805.2 7430.1 M 482 6653.8 323.9 6610.0 5844.3 7486.6 Celkem 833 6620.9 343.7 6580.9 5805.2 7486.6 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – krabicový graf 44 → interakci sice očekávat nebudeme, přesto si ale model s interakcí raději spočítáme (nejdřív ale musíme ověřit předpoklady) když si propojíme mediány, vypadá to, že interakci tu spíš očekávat nebudeme logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – ověření normality 45 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – homogenita rozptylů a nezávislost 46 Výřez obrazovky Nezávislost: Protože žádný subjekt nebyl současně ve více skupinách, nezávislost můžeme předpokládat. p=0,440 > 0,05 → nezamítáme homogenitu rozptylů Homogenita rozptylů: logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – model s interakcí 47 Výřez obrazovky → není statisticky významná interakce, proto spočítáme model bez interakce logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – model bez interakce 48 → statisticky významný vliv pohlaví i typu onemocnění na objem hipokampu Výřez obrazovky → protože typ onemocnění má více než 2 kategorie, musíme provést post-hoc test, abychom zjistili, mezi kterými kategoriemi je statisticky významný rozdíl logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – interpretace 49 -statisticky významný vliv pohlaví i typu onemocnění na objem hipokampu, přičemž mezi pohlavím a typem onemocnění nenastává interakce -u mužů statisticky významně vyšší objem hipokampu než u žen Výřez obrazovky CN MCI AD -statisticky významný rozdíl v objemu hipokampu u všech 3 skupin subjektů podle typu onemocnění, přičemž u pacientů s AD je objem nejmenší a u CN největší logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Upozornění I •Pozor, pokud mediány ukazují úplně jiný „trend“ než průměry! 50 •znamená to, že tam zřejmě není splněn předpoklad normality •pokud rozdíl není statisticky významný, není zpravidla potřeba to řešit •pokud by ten rozdíl vyšel statisticky významně, je to problém! • •poznámka: je dobré mít měřítko na ose y stejné u obou grafů logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Upozornění II •Pozor na interpretaci! •Na první pohled z grafu vypadá, že tam je vliv kraje i nezaměstnanosti, že to nevychází statisticky významně může být: –malým počtem subjektů ve skupině –ale i velikostí efektu! (tady efekty malé, průměry ve všech čtyřech skupinách se podle posledního grafu pohybují jen od cca 41,4 do 42!) 51 na dořešení: •jak by se počítala MANOVA? – to určitě není separátní zhodnocení dvou spojitých proměnných podle stejných kategoriálních proměnných... logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Doplnění – model s interakcemi 52 Závěr: -Nejvyšší koncentrace celkové bílkoviny zjištěny u kočky domácí a nejnižší u karase obecného. -Vliv pohlaví různý u různých druhů. Největší vliv u bource morušového, přičemž F statisticky významně vyšší koncentrace než u M. Žádný vliv u kočky domácí. U karase obecného významně vyšší koncentrace u M než F. Není vhodné jen udělat post-hoc test jen pro živočišný druh, musí se udělat kombinace! Protože pokud se neudělají, je zkreslující, že je tam statisticky významný vliv pohlaví, protože u kočky vliv pohlaví není, u bource morušového vyšší hodnoty bílkovinu u F a u karase u M. - V SPSS je nutno ručně udělat novou proměnnou se sloučenými kategoriemi! V softwaru STATISTICA a R bez problémů, tam to rovnou udělá všechny kombinace. logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Transformace a jiné úpravy vícerozměrných dat 53 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy transformací a jiných úprav vícerozm. dat •normalizace dat (= převod na normální rozdělení) •standardizace dat •min-max normalizace •centrování dat •odstranění vlivu kovariát na jiné proměnné 54 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Normalizace dat •převod na normální rozdělení (normalita je předpokladem řady statistických testů). •např. logaritmická transformace: X = ln(Y) nebo X = ln(Y+1), pokud data obsahují hodnotu 0 • • • • • • • •další příklady: –odmocninová transf. (pro proměnné s Poissonovým rozložením nebo obecně data typu počet jedinců, buněk apod.: nebo –arcsin transfomace (pro proměnné s binomickým rozložením) –Box-Coxova tranformace •f(y) •y •f(x) •ln (y) X = ln(Y) Asymetrické rozdělení Normální rozdělení Medián Průměr Medián Průměr Geometrický průměr 55 -Logaritmická transformace nevhodná u dat, která jsou již v logaritmické tvaru (např. pH) a u nalevo zešikmených rozložení (nízké odlehlé hodnoty – nepomůže tady ale –log?) -Pokud se pak výsledky (průměr a intervaly spolehlivosti) vrací zpátky (tzn. pomocí exponenciální fce) a prezentuje se pak geometrický průměr a intervaly spolehlivosti, tak stačí použít přirozený logaritmus (většinou je ln dostačující, aby tvar dat měl normální rozdělení) -pokud bychom ale chtěli prezentovat data s logaritmickou osou, bylo by lepší použít dekadický logaritmus, protože ten má lepší interpretaci osy (10x, 100x, 1000x větší...) logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Standardizace dat 56 •pozor: standardizace je nevhodná v případě, když proměnné nemají normální rozdělení a když se v datech vyskytují odlehlé hodnoty!!! -souvislost ze z-skóre – to bych dostala, pokud bych odečítala populační průměr a dělila populační SD -využití při modelování (aby proměnné byly srovnatelné) logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Min-max normalizace 57 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Centrování dat 58 např. u lineární regrese – pokud jsou hodnoty centrované, nemusíme uvažovat intercept logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 1.V prvním kroku definujeme regresní model vztahu kovariáty (např. věku) a dané proměnné 2.Pro každého pacienta je vypočteno jeho reziduum od regresní přímky 3.Reziduum (představující hodnotu parametru po odečtení vlivu věku, jeho průměr je 0) je přičteno k průměrné hodnotě parametru 4.Výsledná adjustovaná hodnota má odečten vliv věku, ale zároveň není změněna číselná hodnota parametru • 59 original_ln.png adjusted.png original_ln.png adjusted.png Původní data Adjustovaná data Odstranění vlivu kovariát (tzv. adjustace) Věk Věk Věk Věk original_ln.png adjusted.png Objem amygdaly Objem amygdaly logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách“ byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU“ 60