© Institut biostatistiky a analýz Pokročilé metody analýzy dat v neurovědách RNDr. Eva Koriťáková, Ph.D. doc. RNDr. Ladislav Dušek, Dr. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Blok 2 Vícerozměrné statistické testy a rozložení 2 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova 1. Vícerozměrné charakteristiky 2. Vícerozměrné normální rozdělení 3. Vícerozměrný t-test 4. Vícerozměrná analýza rozptylu 5. Transformace a jiné úpravy vícerozměrných dat 3 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrné charakteristiky 4 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrná data 5 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 3 4 … PROMĚNNÉ OBJEKTY(SUBJEKTY) Poznámka: proměnné označovány i jako znaky, pozorování, diskriminátory, příznakové proměnné či příznaky Anglicky označení pouze jedním termínem: feature Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Maticový zápis datového souboru 6 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 … PROMĚNNÉ OBJEKTY (SUBJEKTY)                npnn p p xxx xxx xxx     21 22221 11211 X maticový zápis datového souboru n objektů (subjektů), které jsou popsané p proměnnými jeden prvek matice xij je hodnota j-té proměnné u i-tého objektu (subjektu), přičemž j = 1, ..., p a i = 1, ..., n Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný průměr a kovarianční matice • vícerozměrný průměr (např. pro datový soubor se 2 proměnnými): • výběrová kovarianční matice (např. pro datový soubor se 2 proměnnými): 7 ത𝐱 = 1 𝑛 ෍ 𝑖=1 𝑛 x 𝑖1 1 𝑛 ෍ 𝑖=1 𝑛 x 𝑖2 𝐒 = s11 s12 s21 s22 , kde s11 = 1 𝑛−1 σ𝑖=1 𝑛 x 𝑖1 − തx1 2 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný průměr a kovarianční matice Vícerozměrný průměr: 8 ത𝐱 = 1 𝑛 ෍ 𝑖=1 𝑛 x 𝑖1 1 𝑛 ෍ 𝑖=1 𝑛 x 𝑖2 = 1 3 2 + 4 + 3 1 3 12 + 10 + 8 = 3 10 s11 = 1 𝑛−1 σ𝑖=1 𝑛 x 𝑖1 − തx1 2 = 1 3−1 2 − 3 2 + 4 − 3 2 + 3 − 3 2 = 1 2 1 + 1 + 0 = 1 ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 1 2 3 4 5 7 8 9 10 11 12 13 Objem hipokampu Objemmozkovýchkomor Kovarianční matice: → 𝐒 = 1 −1 −1 4 ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 s22 = 1 𝑛−1 σ𝑖=1 𝑛 x 𝑖2 − തx2 2 = 1 3−1 12 − 10 2 + 10 − 10 2 + 8 − 10 2 = 4 s21 = s12 = 1 𝑛−1 σ𝑖=1 𝑛 x 𝑖1 − തx1 x 𝑖2 − തx2 = 1 3−1 ൫ 2 − 3 ሺ12 − 𝐒 = s11 s12 s21 s22 , kde: Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrné normální rozdělení 9 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Motivace 10 Dvourozměrný histogram Hustota dvourozměrného normálního rozdělení Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Hustota u nekorelovaných a korelovaných proměnných 11 -3 -2 -1 0 1 2 3 -3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -1 0 1 2 3 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -3 -2 -1 0 1 2 3-3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 -1 0 1 2 3 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 x1 x1 x2 x2 x1 x2f(x1,x2) x1 x2f(x1,x2) A) B) -3 -2 -1 0 1 2 3 -3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -1 0 1 2 3 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -3 -2 -1 0 1 2 3 -3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 -1 0 1 2 3 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 x1 x1 x2 x2 x1 x2f(x1,x2) x1 x2f(x1,x2) A) B) Nekorelované proměnné (μ1 = μ2 = 0, σ1 = σ2 =1, ρ= 0) Korelované proměnné (μ1 = μ2 = 0, σ1 = σ2 =1, ρ= 0,5) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrné normální rozdělení 12 𝑓 x1, … , x 𝑘 = 1 2𝜋 𝑘 Σ ∙ exp − 1 2 𝐱 − 𝝁 𝑇 Σ−1 𝐱 − 𝛍 Hustota vícerozměrného normálního rozdělení: 𝛍 - vektor středních hodnot Σ - kovarianční matice Hustota dvourozměrného normálního rozdělení: ρ - korelace mezi X a Y; σ – směrodatná odchylka 𝑓 x = 1 2𝜋 𝜎2 ∙ exp − x − μ 2 2𝜎2 Hustota jednozměrného normálního rozdělení: μ - střední hodnota σ2 – rozptyl Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 13 + 5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 6 7 8 9 10 11 12 13 14 0 50 100 150 200 250 300 350 400 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 14 + 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 15 + 5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 6 7 8 9 10 11 12 13 14 0 50 100 150 200 250 300 350 400 Vícerozměrný outlier Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ověření dvourozměrné normality 16 Bagplot = „bivariate boxplot“ (tzn. „dvourozměrný krabicový graf“) v softwaru Statistica: Graphs – 2D Graphs – Bag Plots Group_3kat=2 Bag plot of Amygdala_volume (mm3) against Hippocampus_volume (mm3) Amygdala_volume (mm3) Median Outliers 6000 6200 6400 6600 6800 7000 7200 Hippocampus_volume (mm3) 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 Amygdala_volume(mm3) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ověření dvourozměrné normality 17 Vykreslení regulační elipsy („control“ elipse): v softwaru Statistica: Graphs – Scatterplots – na záložce Advanced zvolit Elipse Normal Group_3kat=2 Scatterplot of Amygdala_volume (mm3) against Hippocampus_volume (mm3) 6000 6200 6400 6600 6800 7000 7200 Hippocampus_volume (mm3) 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 Amygdala_volume(mm3) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný t-test 18 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Jednorozměrný dvouvýběrový t-test • Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. • Příklady: srovnání objem hipokampu u mužů a u žen, srovnání kognitivního výkonu podle dvou kategorií věku,... • Předpoklad: normalita dat v OBOU skupinách, shodnost (homogenita) rozptylů v obou skupinách • Testová statistika: , kde 𝑠∗ je vážená směrodatná odchylka, c je konstanta, o kterou se rozdíl průměrů má lišit (většinou rovna 0) 19 ҧ𝑥1 ҧ𝑥2 21 11 * 21 nns cxx t    0 1 2 3 Pacienti Kontroly Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný t-test • Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. • Na rozdíl od jednorozměrného dvouvýběrového t-testu jsou dvě skupiny dat popsány více proměnnými. 20 0 1 2 3 4 5 6 7 4 6 8 10 12 14 0 0.05 x1x2 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrný t-test 21 Jednorozměrný dvouvýběrový t-test: • testová statistika: 𝑇 = ҧ𝑥 𝐷− ҧ𝑥 𝐻 −𝑐 𝑠∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 , kde 𝑇~𝑡 𝑛 𝐷 + 𝑛 𝐻 − 2 • 𝑠∗ 2 je vážený rozptyl vypočtený jako 𝑠∗ 2 = 𝑛 𝐷−1 𝑠 𝐷 2 + 𝑛 𝐻−1 𝑠 𝐻 2 𝑛 𝐷−1 + 𝑛 𝐻−1 • c je konstanta, o kterou se rozdíl průměrů má lišit (většinou c = 0) • nulová hypotéza zamítnuta, pokud 𝑇 > 𝑡1− Τ𝛼 2 𝑛 𝐷 + 𝑛 𝐻 − 2 Studentovo rozdělení Vícerozměrný t-test: • Hotellingova T2 testová statistika: 𝑇2 = ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 𝑇 S∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 −1 ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 • kde S∗ je vážená kovarianční matice: S∗ = 𝑛 𝐷−1 S 𝐷+ 𝑛 𝐻−1 S 𝐻 𝑛 𝐷−1 + 𝑛 𝐻−1 • T2 ~ T2(p,n-p-1) ; pro malé nD a nH je lepší použít: 𝐹 = 𝑛−𝑝−1 𝑝 𝑇2 𝑛−2 , kde n=nD+nH • nulová hypotéza zamítnuta, když 𝐹 > 𝐹1−𝛼 𝑝, 𝑛 − 𝑝 − 1 Je ekvivalentní testu: 𝑇2 = ҧ𝑥 𝐷− ҧ𝑥 𝐻 −𝑐 𝑠∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 2 = ҧ𝑥 𝐷 − ҧ𝑥 𝐻 − 𝑐 𝑠∗ 2 1 𝑛 𝐷 + 1 𝑛 𝐻 −1 ҧ𝑥 𝐷 − ҧ𝑥 𝐻 − 𝑐 , kde T2 ~ F (1, nD+nH -2) F rozdělení F rozdělení Hotellingovo rozdělení Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 1 • Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. 22 𝐗 𝐷 = 2 12 4 10 3 8 , 𝐗 𝐻 = 5 7 3 9 4 5 pacienti kontroly 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu Objemmozkovýchkomor Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 1 - řešení 23 Vícerozměrné průměry: ത𝐱 𝐷 = 1 𝑛 𝐷 σ𝑖=1 𝑛 𝐷 x 𝑖1 1 𝑛 𝐷 σ𝑖=1 𝑛 𝐷 x 𝑖2 = 3 10 ത𝐱 𝐻 = 1 𝑛 𝐻 σ𝑖=1 𝑛 𝐻 x 𝑖1 1 𝑛 𝐻 σ𝑖=1 𝑛 𝐻 x 𝑖2 = 4 7 Výběrové kovarianční matice: 𝐒 𝐷 = s11 𝐷 s12 𝐷 s21 𝐷 s22 𝐷 = 1 −1 −1 4 𝐒 𝐻 = s11 𝐻 s12 𝐻 s21 𝐻 s22 𝐻 = 1 −1 −1 4 Vícerozměrný t-test: n 6 p 2 T2 3,5 F 1,31 df1= p 2 df2 = n-p-1 3 α 0,05 F-crit 9,55 p-hodnota 0,389 𝑇2 = ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 𝑇 S∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 −1 ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 𝐹 = 𝑛 − 𝑝 − 1 𝑝 𝑇2 𝑛 − 2 Vážená kovarianční matice: 𝐒∗ = 1 −1 −1 4 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 1 – řešení v software R 24 library("ICSNP") X=matrix(c(2 4 3 12 10 8),3,2) Y=matrix(c(5,3,4,7,9,5),3,2) HotellingsT2(X, Y) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu pro vícerozměrná data 25 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu (ANOVA) jednoduchého třídění • Srovnáváme tři a více skupin dat, které jsou na sobě nezávislé (mezi objekty neexistuje vazba). • Příklady: srovnání objemu hipokampu u pacientů s AD, pacientů s MCI a kontrol; srovnání kognitivního výkonu podle čtyř kategorií věku. • Předpoklady: normalita dat ve VŠECH skupinách, shodnost (homogenita) rozptylů VŠECH srovnávaných skupin, nezávislost jednotlivých pozorování. • Testová statistika: 26 ҧ𝑥1 ҧ𝑥2 ҧ𝑥3 0 1 2 3 AD MCI Kontroly ee AA dfS dfS F / /  Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách • Srovnání variability (rozptylu) mezi výběry s variabilitou uvnitř výběrů. • Tabulka analýzy rozptylu jednoduchého třídění (One-Way ANOVA): Analýza rozptylu (ANOVA) – princip 27 Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Mezi skupinami SA dfA = k – 1 MSA = SA/dfA p Uvnitř skupin (reziduální var.) Se dfe = n – k MSe = Se/dfe Celkem ST dfT = n – 1 ee AA dfS dfS F / /  celkový průměr AD MCI CN AD MCI CN Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu jako lineární model • Analýza rozptylu pro jednu vysvětlující proměnnou (jednoduché třídění) lze zapsat jako lineární model: • Nulovou hypotézu pak lze vyjádřit jako: • Rozšířením tohoto zápisu můžeme definovat další modely ANOVA: více faktorů, hodnocení interakcí, opakovaná měření na jednom subjektu. 28 kH   210 : Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu pro vícerozměrná data 29 • podle počtu faktorů: – 1 faktor – ANOVA jednoduchého třídění (jednofaktorová ANOVA) – 2 faktory – ANOVA dvojného třídění (dvoufaktorová ANOVA) – ... • podle počtu vysvětlovaných proměnných: – 1 vysvětlovaná proměnná – jednorozměrná analýza rozptylu (ANOVA) – 2 a více vysvětlovaných proměnných – vícerozměná analýza rozptylu (MANOVA) • podle toho, zda se faktory ovlivňují či nikoliv: – faktory se mohou ovlivňovat – model s interakcí – faktory se neovlivňují – model bez interakce Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu pro vícerozměrná data - příklady 30 Počet faktorů: jednoduché x dvojné x trojné, ... třídění Počet proměnných: jednorozměrná x vícerozměrná analýza rozptylu Faktory se ovlivňují či neovlivňují: s interakcí x bez interakce • zkoumáme dlouhodobý vliv třech léků na hodnoty systolického tlaku u stovky osob, přičemž chceme zkoumat i vliv pohlaví, předpokládáme však, že ženy i muži reagují na jednotlivé léky obdobně (tzn. např. ženy s léky A a C budou mít nižší tlak než ženy s lékem B a muži s léky A a C budou mít také nižší tlak než muži s lékem B apod.) • zkoumáme dlouhodobý vliv třech léků na hodnoty systolického tlaku u stovky osob, přičemž chceme zkoumat i vliv pohlaví, a předpokládáme, že ženy a muži budou reagovat na léky různě (tzn. např. ženy s léky A a C budou mít nižší tlak než ženy s lékem B, zatímco muži s léky A a B budou mít vyšší tlak než muži s lékem C apod.) • zkoumáme dlouhodobý vliv třech léků na hodnoty systolického a diastolického tlaku u stovky osob • zkoumáme dlouhodobý vliv třech léků a vliv pohlaví na hodnoty systolického a diastolického tlaku u stovky osob – jednorozměrná analýza rozptylu dvojného třídění bez interakce – jednorozměrná analýza rozptylu dvojného třídění s interakcí – vícerozměrná analýza rozptylu jednoduchého třídění – vícerozměrná analýza rozptylu dvojného třídění • zkoumáme dlouhodobý vliv třech léků na hodnoty systolického tlaku u stovky osob – jednorozměrná analýza rozptylu jednoduchého třídění Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu dvojného třídění • Uvažujeme dvě vysvětlující proměnné zároveň. • Zápis modelu: • Nulové hypotézy pak máme dvě: , 31 kH   2101 : rH   2102 : Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A SA dfA = a – 1 MSA = SA / dfA FA p Faktor B SB dfA = b – 1 MSB = SB / dfB FB p Rezidua Se dfe = n – a – b + 1 MSe= Se / dfe Celkem ST dfT = n – 1 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu dvojného třídění s interakcí • Uvažujeme dvě vysvětlující proměnné a zároveň i jejich společné působení. • Zápis modelu: • Nulové hypotézy pak máme tři: 32 kH   2102 :krH   121101 : Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A SA dfA = a – 1 MSA = SA / dfA FA p Faktor B SB dfA = b – 1 MSB = SB / dfB FB p Interakce A×B SAB dfAB = (a– 1)(b – 1) MSAB = SAB / dfAB FAB p Rezidua Se dfe = n – ab MSe= Se / dfe Celkem ST dfT = n – 1 rH   2103 : Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Hlavní efekty a interakce 33 A B Faktor 1 8 10 12 14 16 18 20 22 24 A B Faktor 1 8 10 12 14 16 18 20 A B Faktor 1 8 9 10 11 12 13 14 15 16 17 18 A B Faktor 1 8 9 10 11 12 13 14 15 16 17 18 Faktor 2 I Faktor 2 II SS D.f. MS F p Faktor 1 1978 1 1978 482.2 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 A B Faktor 1 8 9 10 11 12 13 14 15 16 17 18 SS D.f. MS F p Faktor 1 4 1 4 1.0 0.314 Faktor 2 1891 1 1891 461.1 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 A B Faktor 1 8 10 12 14 16 18 20 22 24 26 SS D.f. MS F p Faktor 1 5293 1 5293 1290.7 0.000 Faktor 2 861 1 861 209.9 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F p Faktor 1 4 1 4 1.0 0.314 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 SS D.f. MS F p Faktor 1 920 1 920 224.3 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 SS D.f. MS F p Faktor 1 4799 1 4799 1443.4 0.000 Faktor 2 316 1 316 95.0 0.000 F1*F2 175 1 175 52.5 0.000 Error 652 196 3 - muži - ženy Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu pro vícerozměrná data - postup 34 Model s interakcemi Post hoc testy (všechny skupiny dané kombinací faktorů proti sobě) Interakce významné Interakce nevýznamné Model bez interakcí Popisná sumarizace + krabicové grafy Ověření předpokladů (nezávislost, normalita, homogenita rozptylů) Post hoc testy (pro významné faktory s více než třemi kategoriemi) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů se schizofrenií (neuvažujeme možnou interakci). 35 ID Pohlaví Typ léku Počet nežádoucích účinků P1 M lék X 1 P2 M lék Y 1 P3 M lék Z 6 P4 Z lék X 3 P5 Z lék Y 4 P6 Z lék Z 9 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení 36 Pohlaví Typ léku Počet nežádoucích účinků 1 1 1 1 2 1 1 3 6 2 1 3 2 2 4 2 3 9 Překódování: 1=M 2=Z 1=lék X 2=lék Y 3=lék Z Legenda: Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů se schizofrenií (neuvažujeme možnou interakci). Pohlaví: Typ léku: Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení 37 Pohlaví Typ léku Počet než. účinků 1 1 1 1 2 1 1 3 6 2 1 3 2 2 4 2 3 9 X.1. = 4; X.2. = 5; X.3. = 15; M.1. = Τ4 2 = 2 M.2. = Τ5 2 = 2,5 M.3. = Τ15 2 = 7,5 X1.. = 8 M1.. = Τ8 3 X2.. = 16 M2.. = Τ16 3 X... = 24; 𝑎 = 2; 𝑏 = 3; 𝑐 = 1; 𝑛 = 6; S 𝐴 = 𝑏𝑐 ෍ 𝑖=1 𝑎 M𝑖.. − M... 2 = 3 ∙ Τ8 3 − 4 2 + Τ16 3 − 4 2 = Τ32 3 = 10,67 Součet čtverců pro faktor A (pohlaví): S 𝐵 = 𝑎𝑐 ෍ 𝑗=1 𝑏 M.𝑗. − M... 2 = 2 ∙ 2 − 4 2 + 2,5 − 4 2 + 7,5 − 4 2 = 37 Součet čtverců pro faktor B (typ léku): S 𝑇 = ෍ 𝑖=1 𝑎 ෍ 𝑗=1 𝑏 ෍ 𝑘=1 𝑐 X 𝑖𝑗𝑘 − M... = 1 − 4 2 + 1 − 4 2 + ⋯ + 9 − 4 2 = 48 S 𝐸 = S 𝑇 − S 𝐴 − S 𝐵 = 0,33 M... = Τ24 6 = 4 Celkový součet čtverců : Reziduální součet čtverců : počet stupňů volnosti: f 𝐴 = 𝑎 − 1 = 1 počet stupňů volnosti: f 𝐵 = 𝑏 − 1 = 2 počet stupňů volnosti: f 𝑇 = 𝑛 − 1 = 5 počet stupňů volnosti: f 𝐸 = 𝑛 − 𝑎 − 𝑏 + 1 = 2 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení 38 Zdroj variability Součet čtverců Stupně volnosti Podíl S/f F = ΤS f ΤS 𝐸 f 𝐸 p Faktor A (pohlaví) S 𝐴 = 10,67 f 𝐴 = 1 10,67 63,99 0,015 Faktor B (typ léku) S 𝐵 = 37 f 𝐵 = 2 18,5 110,98 0,009 Reziduální S 𝐸 = 0,33 f 𝐸 = 2 0,16 - Celkový S 𝑇 = 48 f 𝑇 = 5 - - Tabulka analýzy rozptylu dvojného třídění: Srovnání s kvantily: p 𝐴 = 0,015 → pohlaví má vliv na počet nežádoucích účinků p 𝐵 = 0,009 → typ léku má vliv na počet nežádoucích účinků Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení v softwaru STATISTICA Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů se schizofrenií. 39 Pohlaví Typ léku Počet uzdrav. pacientů M lék X 1 M lék Y 1 M lék Z 6 Z lék X 3 Z lék Y 4 Z lék Z 9 V softwaru STATISTICA: Statistics – ANOVA – Main effects ANOVA – Quick specs dialog – OK – Variables – Dependent variable list: X, Categorical predictors (factors): A, B – OK – All effects. Post hoc testy: More results – Post hoc – zvolit Effect – Unequal N HSD, Tukey HSD nebo Scheffé Levenův test: More results – Assumptions – zvolit proměnnou – Levene‘s test (ANOVA) Vykreslení krabicových grafů podle obou proměnných: Graphs – 2D Graphs – Box Plots... – zvolit spojitou proměnnou jako Dependent variable, zvolit jednu kategoriální proměnnou jako Grouping variable – na listu Categorized u X-Categories zatrhnout On a Layout změnit na Overlaid – pokud chceme spojit mediány či průměry, na záložce Advanced zatrhnout Connect middle points – OK Pokud bychom uvažovali model s interakcemi, zvolíme Factorial ANOVA (namísto Main effects A.) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení v softwaru SPSS 40 Pohlaví Typ léku Počet uzdrav. pacientů M lék X 1 M lék Y 1 M lék Z 6 Z lék X 3 Z lék Y 4 Z lék Z 9 V softwaru SPSS: Analyze – General Linear Model – Univariate – Dependent Variable: spojitá proměnná, Fixed Factor(s): kategoriální proměnné –> • Model – zatrhneme Custom – vybereme Typ:Main effects – do Model přetáhneme A, B (pokud bychom chtěli model s interakcemi necháme zatržené Full factorial) – odškrtneme Include intercept in model – Continue • Post Hoc – Post hoc Tests for: zvolit kategoriální proměnnou – zatrhneme Tukey’s-b – Continue • Plots: zvolit proměnné do Horizontal Axis a Separte Lines – Add – Continue • Options... – Homogeneity tests – Continue Vykreslení krabicových grafů podle obou proměnných: Graphs – Legacy Dialogs – Boxplot... – Clustered – Define – zvolit Variable Category Axis a Define Clusters by - OK Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů se schizofrenií. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 – řešení v softwaru R 41 V softwaru R: data <- data.frame(pohl=c(1,1,1,2,2,2),lek=c(1,2,3,1,2,3),pocet=c(1,1,6,3,4,9)) data model_bez_interakce <- aov(data$pocet ~ (as.factor(data$pohl)+as.factor(data$lek))) summary(model_bez_interakce) TukeyHSD(model_bez_interakce) # post-hoc test # 2. zpusob: anova(lm(data$pocet ~ (as.factor(data$pohl)+as.factor(data$lek)))) model_s_interakci <- aov(data$pocet ~ (as.factor(data$pohl)*as.factor(data$lek))) summary(model_s_interakci) boxplot(data$pocet ~(as.factor(data$pohl)*as.factor(data$lek))) library("car") # instalace baliku car pomoci: install.packages("car") leveneTest(data$pocet ~ (as.factor(data$pohl)*as.factor(data$lek)),center=mean) Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů se schizofrenií. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 42 Zjistěte, zda má vliv pohlaví a typ onemocnění na objem hipokampu. Ukázka datového souboru: ID Group_3kat Gender_rek Hippocampus_volume (mm3) 101 1 M 6996.1 102 1 F 7187.3 103 1 M 7030.2 331 2 M 6891.6 332 2 M 6332.9 334 2 F 6303.7 737 3 M 6170.8 739 3 F 5984.1 740 3 F 6052.4 Legenda k proměnné Group_3kat: 1...CN (kontroly) 2...MCI (mírná kognitivní porucha) 3...AD (Alzheimerova choroba) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – popisná sumarizace dat 43 Skupina Pohlaví N Průměr SD Medián Minimum Maximum CN F 110 7018.3 190.1 7036.1 6509.6 7430.1 M 120 7087.3 176.0 7081.1 6674.4 7486.6 Celkem 230 7054.3 185.7 7048.6 6509.6 7486.6 MCI F 146 6476.7 171.8 6460.4 6155.1 6984.8 M 260 6595.2 164.1 6589.5 6159.1 7125.6 Celkem 406 6552.6 176.2 6555.0 6155.1 7125.6 AD F 95 6215.0 178.8 6237.8 5805.2 6619.0 M 102 6293.0 174.8 6250.8 5844.3 6756.9 Celkem 197 6255.4 180.6 6248.0 5805.2 6756.9 Celkem F 351 6575.6 364.8 6498.2 5805.2 7430.1 M 482 6653.8 323.9 6610.0 5844.3 7486.6 Celkem 833 6620.9 343.7 6580.9 5805.2 7486.6 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – krabicový graf 44 → interakci sice očekávat nebudeme, přesto si ale model s interakcí raději spočítáme (nejdřív ale musíme ověřit předpoklady) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – ověření normality 45 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – homogenita rozptylů a nezávislost 46 Nezávislost: Protože žádný subjekt nebyl současně ve více skupinách, nezávislost můžeme předpokládat. p=0,440 > 0,05 → nezamítáme homogenitu rozptylů Homogenita rozptylů: Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – model s interakcí 47 → není statisticky významná interakce, proto spočítáme model bez interakce Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – model bez interakce 48 → statisticky významný vliv pohlaví i typu onemocnění na objem hipokampu → protože typ onemocnění má více než 2 kategorie, musíme provést post-hoc test, abychom zjistili, mezi kterými kategoriemi je statisticky významný rozdíl Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 – interpretace 49 - statisticky významný vliv pohlaví i typu onemocnění na objem hipokampu, přičemž mezi pohlavím a typem onemocnění nenastává interakce - u mužů statisticky významně vyšší objem hipokampu než u žen CN MCI AD - statisticky významný rozdíl v objemu hipokampu u všech 3 skupin subjektů podle typu onemocnění, přičemž u pacientů s AD je objem nejmenší a u CN největší Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Upozornění I Pozor, pokud mediány ukazují úplně jiný „trend“ než průměry! 50 • znamená to, že tam zřejmě není splněn předpoklad normality • pokud rozdíl není statisticky významný, není zpravidla potřeba to řešit • pokud by ten rozdíl vyšel statisticky významně, je to problém! • poznámka: je dobré mít měřítko na ose y stejné u obou grafů Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Upozornění II Pozor na interpretaci! Na první pohled z grafu vypadá, že tam je vliv kraje i nezaměstnanosti, že to nevychází statisticky významně může být: – malým počtem subjektů ve skupině – ale i velikostí efektu! (tady efekty malé, průměry ve všech čtyřech skupinách se podle posledního grafu pohybují jen od cca 41,4 do 42!) 51 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Doplnění – model s interakcemi 52 Tests of Between-Subjects Effects Dependent Variable: Celková_bílkovina Source Type III Sum of Squares df Mean Square F Sig. Corrected Model 152178,501a 5 30435,700 4942,124 ,000 Intercept 1562235,885 1 1562235,885 253674,570 ,000 Živočišný_druh 146815,301 2 73407,651 11919,874 ,000 Pohlaví 931,626 1 931,626 151,277 ,000 Živočišný_druh * Pohlaví 4431,573 2 2215,787 359,798 ,000 Error 3288,599 534 6,158 Total 1717702,985 540 Corrected Total 155467,100 539 a. R Squared = ,979 (Adjusted R Squared = ,979) Závěr: - Nejvyšší koncentrace celkové bílkoviny zjištěny u kočky domácí a nejnižší u karase obecného. - Vliv pohlaví různý u různých druhů. Největší vliv u bource morušového, přičemž F statisticky významně vyšší koncentrace než u M. Žádný vliv u kočky domácí. U karase obecného významně vyšší koncentrace u M než F. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Transformace a jiné úpravy vícerozměrných dat 53 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy transformací a jiných úprav vícerozm. dat • normalizace dat (= převod na normální rozdělení) • standardizace dat • min-max normalizace • centrování dat • odstranění vlivu kovariát na jiné proměnné 54 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Normalizace dat • převod na normální rozdělení (normalita je předpokladem řady statistických testů). • např. logaritmická transformace: X = ln(Y) nebo X = ln(Y+1), pokud data obsahují hodnotu 0 • další příklady: – odmocninová transf. (pro proměnné s Poissonovým rozložením nebo obecně data typu počet jedinců, buněk apod.: nebo – arcsin transfomace (pro proměnné s binomickým rozložením) – Box-Coxova tranformace f(y) y f(x) ln (y) X = ln(Y) Asymetrické rozdělení Normální rozdělení Medián Průměr Medián PrůměrGeometrický průměr YX  1 YX 55 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Standardizace dat • důvod: převod proměnných na stejné měřítko • standardizace: 𝑧𝑖 = 𝑥 𝑖− ҧ𝑥 𝑠 (tzn. odečtení průměru od jednotlivých hodnot a podělení směrodatnou odchylkou) • proměnné budou mít rozsah přibližně od -3 do 3 • získáme tím současně i tzv. z-skóre (které vyjadřuje, o kolik směrodatných odchylek se i-tá hodnota odchýlila od průměru) 56 • pozor: standardizace je nevhodná v případě, když proměnné nemají normální rozdělení a když se v datech vyskytují odlehlé hodnoty!!! Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Min-max normalizace • důvod: převod proměnných na stejné měřítko • oproti standardizaci vhodná i na proměnné nemající normální rozdělení či obsahující odlehlé hodnoty • min-max normalizace: 𝑦𝑖 = 𝑥 𝑖−min 𝑥 max 𝑥 −min 𝑥 • rozsah hodnot proměnných po min-max normalizaci je od 0 do 1 57 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Centrování dat • odečtení průměru od dat – získáme novou proměnnou, která bude mít průměr roven nule • důvod: centrování je důležitou podmínkou některých pokročilých statistických metod (např. klasifikačních) • centrování: 𝑧𝑖 = 𝑥𝑖 − ҧ𝑥 58 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 1. V prvním kroku definujeme regresní model vztahu kovariáty (např. věku) a dané proměnné 2. Pro každého pacienta je vypočteno jeho reziduum od regresní přímky 3. Reziduum (představující hodnotu parametru po odečtení vlivu věku, jeho průměr je 0) je přičteno k průměrné hodnotě parametru 4. Výsledná adjustovaná hodnota má odečten vliv věku, ale zároveň není změněna číselná hodnota parametru 59 Původní data Adjustovaná data Odstranění vlivu kovariát (tzv. adjustace) Věk Věk Věk Věk Objem amygdaly Objem amygdaly Objemamygdaly Objemamygdaly Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách“ byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU“ 60