IBA 4 Podzim 2014 Cvičení 2 Vícerozměrné normální rozdělení a vícerozměrné statistické testy Janoušová: Vícerozměrné metody - cvičení Osnova • vícerozměrné normální rozdělení • vícerozměrný t-test • vícerozměrná analýza rozptylu Janoušová: Vícerozměrné metody - cvičení 3 Vícerozměrné normální rozdělení Janoušová: Vícerozměrné metody - Motivace Dvourozměrný Hustota dvourozměrného histogram normálního rozdělení MU ,-.*■»»., Janoušová: Vícerozměrné metody - cv *=^- Vícerozměrné normální rozdělení Hustota jednozměrného normálního rozdělení: |i - střední hodnota o2-rozptyl Hustota vícerozměrného normálního rozdělení: 1 / 1 /(x!,...,Xfc) =-====-exp --(x-^)rI x(x- |i) 2 u. - vektor středních hodnot E - kovarianční matice Hustota dvourozměrného normálního rozdělení: f(x,y) = ň-17i » exp ( 2(1- 2naxay^/T=p* *A 2(1 -p2) °1 °l p - korelace mezi X a Y; o - směrodatná odchylka MU ^'■»«., Janoušová: Vícerozměrné metody - cvičení *L 6 Vícerozměrný průměr a kovarianční matice vícerozměrný průměr (např. pro datový soubor se 2 proměnnými) x = lňZí=1Xíi ňZí=1Xí2 výběrová kovarianční matice (např. pro datový soubor se 2 proměnnými): -i s=i5! 53'kdes"=~ s')2 Janoušová: Vícerozměrné metody - cvičení IBA IMJ 7 Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? Vícerozměrná odlehlá hodnota (outlier) Janoušová: Vícerozměrné metody - cvičení IBA IMJ 10 Ověření dvourozměrné normality Bagplot = „bivariate boxplot" (tzn. „dvourozměrný krabicový graf') 120 150 155 160 165 170 175 180 185 vy ska 190 195 200 v softwaru Statistical Graphs - 2D Graphs - Bag Plots o vsha ■ Median * Outliers Janoušová: Vícerozměrné metody - cvičení IBA Ověření dvourozměrné normality Vykreslení regulační elipsy („control" elipse): 120 110 100 90 80 70 SO 50 40 30 -1-1-1-1- 1-■-1-1-1-1 -1-1-1-1- -1-1-1-1-1 -1-1-1-1-1 -1-1-1-1- o o o \ 1 0 0 5 ° í O 0 ͧB ° s ° ° o D í o° 3 O „ o „ „ „ 0 o / / ..__„q° :°b q / O / 0 0 □ oo i o 140 150 160 170 vyska 180 190 200 v softwaru Statistica: Graphs - Scatterplots - na záložce Advanced zvolit Elipse Normál Janoušová: Vícerozměrné metody - cvičení IBA IMJ 12 Normalizace dat • Převod na normální rozdělení (normalita je předpokladem řady statistických testů). • Např. logaritmická transformace: X = ln(Y) nebo X = ln(Y+l), pokud data obsahují hodnotu 0 Asymetrické rozdělení Normální rozdělení f(y) f(x) X = ln(Y) Geometrický průměr Medián Průměr In (y) Další příklady: - odmocninová transf. (pro proměnné s Poissonovým rozložením nebo obecně data typu počet jedinců, buněk apod.: X = JY nebo X = -JY + 1 - arcsin transfomace (pro proměnné s binomickým rozložením) - Box-Coxova tranformace Janoušová: Vícerozměrné metody - cvičení IBA Vícerozměrný t-test Janoušová: Vícerozměrné metody - Jednorozměrný dvouvýběrový t-test Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé - mezi objekty neexistuje vazba. Příklady: srovnání objem hipokampu u mužů a u žen, srovnání kognitivního výkonu podle dvou kategorií věku,... X2 Pacienti Kontroly Předpoklad: normalita dat v OBOU skupinách, shodnost (homogenita) rozptylů v obou skupinách Testová statistika: t = Xl %1 c , kde s* je vážená směrodatná odchylka, + ■ c je konstanta, o kterou se rozdíl průměrů má lišit (většinou rovna 0) MU ,-.*■»»., Janoušová: Vícerozměrné metody - cv (^j Vícerozměrný t-test >- * Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé - mezi objekty neexistuje vazba. • Na rozdíl od jednorozměrného dvouvýběrového t-testu jsou dvě skupiny dat popsány více proměnnými. Janoušová: Vícerozměrné metody - cvičení *L -J^) 16 Vícerozměrný t-test Jednorozměrný dvouvýběrový t-test: • testová statistika: - " " t = Studentovo rozdělení , kde t~ T(nx + Tty - 2) • 5 je vážená směrodatná odchylka ^ = ^ _ ^ + ^ _ ^ • [fix - tiy) = c je konstanta, o kterou se rozdíl průměrů má lišit (většinou c • nulová hypotéza zamítnuta, pokud |f| > tcrit = 0) Je ekvivalentní testu: -2 -/ \x - y) - (fix - fiy] íl^ íly F rozdělení fe--^) , kde tz™F{\fnx+ny-2} ž = x-ýaiUz = ^-^ [ ŕ1 5 — + — -1 (X-Y) Vícerozměrný t-test: • dvouvýběrová Hotellingova T2 testová statistika: 72 = $ - ?)r • kde S je vážená kovarianční matice s = ^ ~ for • 7"2~^2(/c); pro malé na nvje lepší použít: f = " ~te r2~F(fc,n-fc), kde n=nx+n -1 y «(n ij • nulová hypotéza zamítnuta, pokud F> Fcrit 17 Úkol 1 • Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. 2 12" "5 7" 4 10 > x# — 3 9 .3 8. .4 5. • pacienti • kontroly j 1 2 3 4 5 6 Objem hipokampu MU ,-.*■»»., Janoušová: Vícerozměrné metody - cvičení *L -J^) 18 Úkol 1 * Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. "2 12" "5 7" 4 10 > x# — 3 9 .3 8. .4 5. Janoušová: Vícerozměrné metody - cvičení IBA IMJ 19 Úkol 1 - řešení Vícerozměrné průměry: [3 10] x« = Ľ^% i^xí2] = [4 7] Výběrové kovarianční matice: " D 1 bll CD >21 s22. 'H CH ' bll s12 CH CH .S21 s22. "Ľ1 "/I Vážená kovarianční matice: -Ľ ví Janoušová: Vícerozměrné metody - cvičení IBA M) 20 Úkol 1 - řešení Vícerozměrné průměry: [3 10] Výběrové kovarianční matice: " D 1 bll b12 CD >21 s22. 'H CH ' bll s12 c-H 0H .S21 s22. "Ľ1 "/I Vážená kovarianční matice: Vícerozměrný t-test: n 5 k 2 T2 3,5 F 1,31 dfl 2 df2 3 a 0,05 F-crit 9,55 p-hodnota 0,389 Janoušová: Vícerozměrné metody - cvičení IBA W 21 Vícerozměrná analýza rozptylu Janoušová: Vícerozměrné metody - Analýza rozptylu (ANOVA) jednoduchého třídění • Srovnáváme tři a více skupin dat, které jsou na sobě nezávislé (mezi objekty neexistuje vazba). • Příklady: srovnání objemu hipokampu u pacientů s AD, pacientů s MCI a kontrol; srovnání kognitivního výkonu podle čtyř kategorií věku. X1 X2 x3 AD MCI Kontroly Předpoklady: normalita dat ve VŠECH skupinách, shodnost (homogenita) rozptylů VŠECH srovnávaných skupin, nezávislost jednotlivých pozorování. S I dtf Testová statistika: F = —-- - vysvětlení později Se/dfe Janoušová: Vícerozměrné metody - cvičení IBA IMJ 23 Analýza rozptylu (ANOVA) - princip Srovnání variability (rozptylu) mezi výběry s variabilitou uvnitř výběrů AD MCI CN é-1 r celkový průměr AD MCI CN • Tabulka analýzy rozptylu jednoduchého třídění (One-Way ANOVA): Variabilita Součet Počet stupnu Průměrný . .. . . . F statistika p-nodnota čtverců volnosti čtverec Mezi skupinami Uvnitř skupin (reziduálni var.) Celkem SA dfA = k -1 MSA = SA/dfA p F _ SA/dfA Se dfe = n-k MSe = Se/dfe S F0;95(l,2) = 18,1 -> pohlaví má vliv na počet uzdravených pacientů ¥B = 110,98 > F0;95(2,2) = 19 -> typ léku má vliv na počet uzdravených pacientů MU ,-.*■»»., Janoušová: Vícerozměrné metody - cv Úkol 2 - řešení Zjistěte, zda má vliv pohlaví a typ léku na počet uzdravených pacientů s leukémií. Pohlaví Typ léku Počet uzdravených pacientů M placebo 1 M lékl 1 M lék 2 6 Z placebo 3 Z lékl 4 Z lék 2 9 V softwaru Statistical Statistics - ANOVA - Main effects ANOVA - Quick specs dialog - OK - Variables - Dependent variable list: X, Categorical predictors (factors): A, B - OK - All effects. Post hoc testy: More results - Post hoc - zvolit Effect - Tukey HSD (nebo Scheffé) MU Janoušová: Vícerozměrné metody - cvičení *|L • (^|) 33