© Institut biostatistiky a analýz RNDr. Eva Koriťáková, Ph.D. Podzim 2017 Vícerozměrné metody ‐ cvičení Cvičení 2 Vícerozměrné normální rozdělení  a vícerozměrný t‐test 2Koriťáková: Vícerozměrné metody ‐ cvičení Vícerozměrné normální  rozdělení 3Koriťáková: Vícerozměrné metody ‐ cvičení Motivace 4 Frequency 0102030 60 65 70 75 80 85 90 95 Diastolický tlak μ σ Histogram Hustota jednorozměrného  normálního rozdělení Motivace – pokračování   5 Dvourozměrný  histogram Hustota dvourozměrného  normálního rozdělení Koriťáková: Vícerozměrné metody ‐ cvičení Vícerozměrné normální rozdělení 6 x , … , x 1 2 Σ · exp 1 2 Hustota vícerozměrného normálního rozdělení: ‐ vektor středních hodnot ‐ kovarianční matice Hustota dvourozměrného normálního rozdělení: ρ ‐ korelace mezi X a Y;     σ – směrodatná odchylka x 1 2 · exp x μ 2 Hustota jednozměrného normálního rozdělení: μ ‐ střední hodnota σ2 – rozptyl Koriťáková: Vícerozměrné metody ‐ cvičení Hustota u nekorelovaných a korelovaných proměnných 7Koriťáková: Vícerozměrné metody ‐ cvičení -3 -2 -1 0 1 2 3 -3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 x1 x2 x1 x2f(x1,x2) A) -3 -2 -1 0 1 2 3 -3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 x1 x2 x1 x2f(x1,x2) B) Nekorelované proměnné  (μ1 = μ2 = 0, σ1 = σ2 =1,  ρ= 0) Korelované proměnné  (μ1 = μ2 = 0, σ1 = σ2 =1,  ρ= 0,5) Vícerozměrný průměr a kovarianční matice • vícerozměrný průměr (např. pro datový soubor se 2 proměnnými): • výběrová kovarianční matice (např. pro datový soubor se 2 proměnnými): 8Koriťáková: Vícerozměrné metody ‐ cvičení 1 x 1 x s s s s , kde s ∑ x x Výpočet rozptylu a směrodatné odchylky ‐ opakování 9Koriťáková: Vícerozměrné metody ‐ cvičení • Příklad čtverců odchylek od průměru pro n = 3. • Rozptyl je možno značně ovlivnit odlehlými pozorováními.     n i i xx n s 1 22 )( 1 1 0,269 0,547 0,638 0,733 x1 x2 x3x Rozptyl: Směrodatná odchylka:     n i i xx n s 1 2 )( 1 1 Úkol 1  • Spočtěte vícerozměrný průměr a výběrovou kovarianční matici pro soubor 3 subjektů, u nichž byly naměřeny hodnoty objemu hipokampu a mozkových komor, přičemž naměřené hodnoty byly zaznamenány do následující datové matice: 10Koriťáková: Vícerozměrné metody ‐ cvičení 2 12 4 10 3 8 Úkol 1 ‐ řešení  11 Vícerozměrný průměr: 1 x 1 x 1 3 2 4 3 1 3 12 10 8 3 10 s ∑ x x 2 3 4 3 3 3 1 1 0 1 ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 1 2 3 4 5 7 8 9 10 11 12 13 Objem hipokampu Objem mozkových komor Kovarianční matice: →  1 1 1 4 ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 s ∑ x x 12 10 10 10 8 10 4 s s ∑ x x x x 2 3 12 10 4 3 10 10 3 3 8 10 ‐1 s s s s , kde: Koriťáková: Vícerozměrné metody ‐ cvičení Je normalita v jednorozměrném prostoru jedinou  podmínkou vícerozměrné normality?  12 + 5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 6 7 8 9 10 11 12 13 14 0 50 100 150 200 250 300 350 400 Koriťáková: Vícerozměrné metody ‐ cvičení Je normalita v jednorozměrném prostoru jedinou  podmínkou vícerozměrné normality?  13 + 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 Koriťáková: Vícerozměrné metody ‐ cvičení Je normalita v jednorozměrném prostoru jedinou  podmínkou vícerozměrné normality?  14 + 5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 6 7 8 9 10 11 12 13 14 0 50 100 150 200 250 300 350 400 Vícerozměrná odlehlá  hodnota (outlier) Koriťáková: Vícerozměrné metody ‐ cvičení Ověření dvourozměrné normality 15 Bagplot = „bivariate boxplot“ (tzn. „dvourozměrný krabicový graf“) v softwaru Statistica: Graphs – 2D Graphs – Bag Plots Koriťáková: Vícerozměrné metody ‐ cvičení Ověření dvourozměrné normality 16 Vykreslení regulační elipsy („control“ elipse): v softwaru Statistica: Graphs – Scatterplots – na záložce Advanced zvolit Elipse Normal Koriťáková: Vícerozměrné metody ‐ cvičení Normalizace dat • Převod na normální rozdělení (normalita je předpokladem řady statistických testů). • Např. logaritmická transformace: X = ln(Y) nebo X = ln(Y+1), pokud data obsahují hodnotu 0 • Další příklady: – odmocninová transf. (pro proměnné s Poissonovým rozložením nebo obecně data typu počet jedinců, buněk apod.: nebo – arcsin transfomace (pro proměnné s binomickým rozložením) – Box‐Coxova tranformace f(y) y f(x) ln (y) X = ln(Y) Asymetrické rozdělení Normální rozdělení Medián Průměr Medián PrůměrGeometrický průměr YX  1 YX 17Koriťáková: Vícerozměrné metody ‐ cvičení Vícerozměrný t‐test 18Koriťáková: Vícerozměrné metody ‐ cvičení Jednorozměrný dvouvýběrový t‐test • Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. • Příklady: srovnání objem hipokampu u mužů a u žen, srovnání kognitivního výkonu podle dvou kategorií věku,... 19 ̅ ̅ 21 11 * 21 nns cxx t    0 1 2 3 Pacienti Kontroly Koriťáková: Vícerozměrné metody ‐ cvičení • Předpoklad: normalita dat v OBOU skupinách, shodnost (homogenita)  rozptylů v obou skupinách • Testová statistika:                               , kde  ∗ je vážená směrodatná odchylka,  c je konstanta, o kterou se rozdíl průměrů má lišit (většinou rovna 0)  Vícerozměrný t‐test • Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. • Na rozdíl od jednorozměrného dvouvýběrového t‐testu jsou dvě skupiny dat popsány více proměnnými. 20 0 1 2 3 4 5 6 7 4 6 8 10 12 14 0 0.05 x1x2 Koriťáková: Vícerozměrné metody ‐ cvičení Vícerozměrný t‐test Jednorozměrný dvouvýběrový t‐test: • testová statistika: ̅ ̅ ∗ , kde ~ 2 • ∗ je vážený rozptyl vypočtený jako ∗ • c je konstanta, o kterou se rozdíl průměrů má lišit (většinou c 0) • nulová hypotéza zamítnuta, pokud ⁄ 2 21 Studentovo rozdělení Vícerozměrný t‐test: • Hotellingova T2 testová statistika:  S∗ • kde S∗ je vážená kovarianční matice: S∗ S S • T2 ~ T2(p,n‐p‐1) ; pro malé nD a nH je lepší použít:  , kde n=nD+nH • nulová hypotéza zamítnuta, když , 1 Je ekvivalentní testu: ̅ ̅ ∗ ̅ ̅ ∗ ̅ ̅ , kde T2 ~ F (1, nD+nH ‐2) F rozdělení F rozdělení Hotellingovo rozdělení Koriťáková: Vícerozměrné metody ‐ cvičení Úkol 2 • Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. 22Koriťáková: Vícerozměrné metody ‐ cvičení pacienti kontroly 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu Objem mozkových komor 2 12 4 10 3 8 , 5 7 3 9 4 5 Úkol 2 • Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. 23Koriťáková: Vícerozměrné metody ‐ cvičení 2 12 4 10 3 8 , 5 7 3 9 4 5 Úkol 2 ‐ řešení 24Koriťáková: Vícerozměrné metody ‐ cvičení Vícerozměrné průměry:  ∑ x ∑ x 3 10 ∑ x ∑ x 4 7 Výběrové kovarianční matice:  s s s s 1 1 1 4 s s s s 1 1 1 4 Vážená kovarianční matice:  ∗ 1 1 1 4 S∗ 1 1 Úkol 2 ‐ řešení 25Koriťáková: Vícerozměrné metody ‐ cvičení Vícerozměrné průměry:  ∑ x ∑ x 3 10 ∑ x ∑ x 4 7 Výběrové kovarianční matice:  s s s s 1 1 1 4 s s s s 1 1 1 4 Vícerozměrný t‐test: n 6 p 2 T2 3,5 F 1,31 df1 = p 2 df2 = n‐p‐1 3 α 0,05 F‐crit 9,55 p‐hodnota 0,389 Vážená kovarianční matice:  ∗ 1 1 1 4 S∗ 1 1 Úkol 2 – řešení v softwaru R 26Koriťáková: Vícerozměrné metody ‐ cvičení install.packages("ICSNP") library("ICSNP") Xd=matrix(c(2,4,3,12,10,8),3,2) Xh=matrix(c(5,3,4,7,9,5),3,2) HotellingsT2(Xd, Xh) Použití softwaru R jako kalkulačky: S=solve(2/3*matrix(c(1,‐1,‐1,4),2,2))  # výpočet inverzní matice b=matrix(c(‐1,3),1,2)                              # vektor s hodnotami rozdílu souřadnic centroidů t2=b%*%S%*%t(b)                                 # výpočet testové statistiky T2 F=(3/2)*(t2/4)                                         # výpočet testové statistiky F qf(0.95,2,3)                                              # 95% kvantil F rozdělení pro stupně volnosti 2 a 3 1‐pf(F,2,3)                                                 # p‐hodnota