© Institut biostatistiky a analýz RNDr. Eva Koriťáková, Ph.D. Vícerozměrné metody - cvičení Cvičení 2 Vícerozměrné normální rozdělení a vícerozměrný t-test 2Koriťáková: Vícerozměrné metody - cvičení Vícerozměrné normální rozdělení 3Koriťáková: Vícerozměrné metody - cvičení Motivace 4 Histogram of x3 x3 Frequency 60 65 70 75 80 85 90 95 0102030 60 65 70 75 80 85 90 95 Diastolický tlak μ σ Histogram Hustota jednorozměrného normálního rozdělení Motivace – pokračování 5 Dvourozměrný histogram Hustota dvourozměrného normálního rozdělení Koriťáková: Vícerozměrné metody - cvičení Vícerozměrné normální rozdělení 6 𝑓 x1, … , x 𝑘 = 1 2𝜋 𝑘 Σ ∙ exp − 1 2 𝐱 − 𝝁 𝑇 𝚺−1 𝐱 − 𝛍 Hustota vícerozměrného normálního rozdělení: 𝛍 - vektor středních hodnot 𝚺 - kovarianční matice Hustota dvourozměrného normálního rozdělení: ρ - korelace mezi X a Y; σ – směrodatná odchylka 𝑓 x = 1 2𝜋 𝜎2 ∙ exp − x − μ 2 2𝜎2 Hustota jednozměrného normálního rozdělení: μ - střední hodnota σ2 – rozptyl Koriťáková: Vícerozměrné metody - cvičení Hustota u nekorelovaných a korelovaných proměnných 7Koriťáková: Vícerozměrné metody - cvičení -3 -2 -1 0 1 2 3 -3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -1 0 1 2 3 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -3 -2 -1 0 1 2 3-3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 -1 0 1 2 3 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 x1 x1 x2 x2 x1 x2f(x1,x2) x1 x2f(x1,x2) A) B) -3 -2 -1 0 1 2 3 -3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -1 0 1 2 3 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -3 -2 -1 0 1 2 3 -3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 -1 0 1 2 3 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 x1 x1 x2 x2 x1 x2f(x1,x2) x1 x2f(x1,x2) A) B) Nekorelované proměnné (μ1 = μ2 = 0, σ1 = σ2 =1, ρ= 0) Korelované proměnné (μ1 = μ2 = 0, σ1 = σ2 =1, ρ= 0,5) Vícerozměrný průměr a kovarianční matice • vícerozměrný průměr (např. pro datový soubor se 2 proměnnými): • výběrová kovarianční matice (např. pro datový soubor se 2 proměnnými): 8Koriťáková: Vícerozměrné metody - cvičení ത𝐱 = 1 𝑛 ෍ 𝑖=1 𝑛 x 𝑖1 1 𝑛 ෍ 𝑖=1 𝑛 x 𝑖2 𝐒 = s11 s12 s21 s22 , kde s11 = 1 𝑛−1 σ𝑖=1 𝑛 x 𝑖1 − തx1 2 Výpočet rozptylu a směrodatné odchylky - opakování 9Koriťáková: Vícerozměrné metody - cvičení • Příklad čtverců odchylek od průměru pro n = 3. • Rozptyl je možno značně ovlivnit odlehlými pozorováními.     n i i xx n s 1 22 )( 1 1 0,269 0,547 0,638 0,733 x1 x2 x3x Rozptyl: Směrodatná odchylka:     n i i xx n s 1 2 )( 1 1 Úkol 1 • Spočtěte vícerozměrný průměr a výběrovou kovarianční matici pro soubor 3 subjektů, u nichž byly naměřeny hodnoty objemu hipokampu a mozkových komor, přičemž naměřené hodnoty byly zaznamenány do následující datové matice: 10Koriťáková: Vícerozměrné metody - cvičení 𝐗 = 2 12 4 10 3 8 Úkol 1 - řešení 11 Vícerozměrný průměr: ത𝐱 = 1 𝑛 ෍ 𝑖=1 𝑛 x 𝑖1 1 𝑛 ෍ 𝑖=1 𝑛 x 𝑖2 = 1 3 2 + 4 + 3 1 3 12 + 10 + 8 = 3 10 s11 = 1 𝑛−1 σ𝑖=1 𝑛 x 𝑖1 − തx1 2 = 1 3−1 2 − 3 2 + 4 − 3 2 + 3 − 3 2 = 1 2 1 + 1 + 0 = 1 ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 1 2 3 4 5 7 8 9 10 11 12 13 Objem hipokampu Objemmozkovýchkomor Kovarianční matice: → 𝐒 = 1 −1 −1 4 ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 s22 = 1 𝑛−1 σ𝑖=1 𝑛 x 𝑖2 − തx2 2 = 1 3−1 12 − 10 2 + 10 − 10 2 + 8 − 10 2 = 4 s21 = s12 = 1 𝑛−1 σ𝑖=1 𝑛 x 𝑖1 − തx1 x 𝑖2 − തx2 = 1 3−1 ൫ 2 − 3 12 − 10 + 𝐒 = s11 s12 s21 s22 , kde: Koriťáková: Vícerozměrné metody - cvičení Úkol 1 - doplnění 12 Kovarianční matice: r12 = r21 = s12 s11 ∙ s22 = −1 1 ∙ 4 = −0,5 𝐒 = s11 s12 s21 s22 = 1 −1 −1 4 Koriťáková: Vícerozměrné metody - cvičení Korelační matice: 𝑹 = r11 r12 r21 r22 = 1 −0,5 −0,5 1 Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 13 + 5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 6 7 8 9 10 11 12 13 14 0 50 100 150 200 250 300 350 400 Koriťáková: Vícerozměrné metody - cvičení Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 14 + 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 Koriťáková: Vícerozměrné metody - cvičení Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 15 + 5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 6 7 8 9 10 11 12 13 14 0 50 100 150 200 250 300 350 400 Vícerozměrná odlehlá hodnota (outlier) Koriťáková: Vícerozměrné metody - cvičení Ověření dvourozměrné normality 16 Bagplot = „bivariate boxplot“ (tzn. „dvourozměrný krabicový graf“) v softwaru Statistica: Graphs – 2D Graphs – Bag Plots Koriťáková: Vícerozměrné metody - cvičení Ověření dvourozměrné normality 17 Vykreslení regulační elipsy („control“ elipse): v softwaru Statistica: Graphs – Scatterplots – na záložce Advanced zvolit Elipse Normal Koriťáková: Vícerozměrné metody - cvičení Normalizace dat • Převod na normální rozdělení (normalita je předpokladem řady statistických testů). • Např. logaritmická transformace: X = ln(Y) nebo X = ln(Y+1), pokud data obsahují hodnotu 0 • Další příklady: – odmocninová transf. (pro proměnné s Poissonovým rozložením nebo obecně data typu počet jedinců, buněk apod.: nebo – arcsin transfomace (pro proměnné s binomickým rozložením) – Box-Coxova tranformace f(y) y f(x) ln (y) X = ln(Y) Asymetrické rozdělení Normální rozdělení Medián Průměr Medián PrůměrGeometrický průměr YX  1 YX 18Koriťáková: Vícerozměrné metody - cvičení Další typy transformací vícerozměrných dat • standardizace dat • min-max normalizace • centrování dat • odstranění vlivu kovariát na jiné proměnné 19Koriťáková: Vícerozměrné metody - cvičení Standardizace dat • důvod: převod proměnných na stejné měřítko • standardizace: 𝑧𝑖 = 𝑥 𝑖− ҧ𝑥 𝑠 (tzn. odečtení průměru od jednotlivých hodnot a podělení směrodatnou odchylkou) • proměnné budou mít rozsah přibližně od -3 do 3 • získáme tím současně i tzv. z-skóre (které vyjadřuje, o kolik směrodatných odchylek se i-tá hodnota odchýlila od průměru) 20 • pozor: standardizace je nevhodná v případě, když proměnné nemají normální rozdělení a když se v datech vyskytují odlehlé hodnoty!!! Koriťáková: Vícerozměrné metody - cvičení Min-max normalizace • důvod: převod proměnných na stejné měřítko • oproti standardizaci vhodná i na proměnné nemající normální rozdělení či obsahující odlehlé hodnoty • min-max normalizace: 𝑦𝑖 = 𝑥 𝑖−min 𝑥 max 𝑥 −min 𝑥 • rozsah hodnot proměnných po min-max normalizaci je od 0 do 1 21Koriťáková: Vícerozměrné metody - cvičení Centrování dat • odečtení průměru od dat – získáme novou proměnnou, která bude mít průměr roven nule • důvod: centrování je důležitou podmínkou některých pokročilých statistických metod (např. klasifikačních) • centrování: 𝑧𝑖 = 𝑥𝑖 − ҧ𝑥 22Koriťáková: Vícerozměrné metody - cvičení 1. V prvním kroku definujeme regresní model vztahu kovariáty (např. věku) a dané proměnné 2. Pro každého pacienta je vypočteno jeho reziduum od regresní přímky 3. Reziduum (představující hodnotu parametru po odečtení vlivu věku, jeho průměr je 0) je přičteno k průměrné hodnotě parametru 4. Výsledná adjustovaná hodnota má odečten vliv věku, ale zároveň není změněna číselná hodnota parametru 23 Původní data Adjustovaná data Odstranění vlivu kovariát (tzv. adjustace) Věk Věk Věk Věk Objem komor Objem komor Objemmozkovýchkomor Koriťáková: Vícerozměrné metody - cvičení Objemmozkovýchkomor Transformace dat pomocí softwaru SPSS I • Logaritmická transformace: • Transform -> Compute Variable -> Target Variable: název nové proměnné (např. vaha_log) -> Function group: Arithmetic -> Functions and Special Variables: vybrat Ln a přetáhnout do okna Numeric Expresssion -> do argumentu funkce vložíme vybranou proměnnou (např. vaha) 24Koriťáková: Vícerozměrné metody - cvičení Transformace dat pomocí softwaru SPSS II • Standardizace dat: Analyze -> Descriptive Statistics -> Descriptives -> Variables: vybrat proměnnou (např. vek) -> zatrhnout Save standardized values as variables -> OK • Min-max normalizace: Transform -> Compute Variable -> Target Variable: zadat jméno nové proměnné (např. vyska_norm) -> Numeric Expression: vybrat proměnnou, kterou chceme normalizovat, a dopsat vzoreček (např. (vyska-155)/(197-155)) • Centrování dat: Transform -> Compute Variable -> Target Variable: zadat jméno nové proměnné (např. vyska_centr) -> Numeric Expression: vybrat proměnnou, kterou chceme centrovat, a přidat minus průměrná hodnota (např. vyska - 172.24) • Odstranění vlivu kovariát: Analyze -> Regression -> Linear -> zvolit proměnné (např. cel_cholesterol jako Dependent, vek... jako Independent(s)); na záložce Save zaškrtnout při Residuals: Standardized nebo Unstandardized podle toho, co nám vyhovuje -> Continue -> OK; případně lze vytvořit novou proměnnou pomocí Compute Variable, která bude součtem RES_1 a průměru původní proměnné 25Koriťáková: Vícerozměrné metody - cvičení Transformace dat pomocí softwaru Statistica I • Logaritmická transformace: Označit proměnnou za proměnnou, kterou chceme logaritmovat -> kliknout pravým tlačítkem myši -> Add Variables -> Name -> zadat název nové proměnné (např. vaha_log) -> do Long name napsat =Log(vaha) (Pozor, v softwaru STATISTICA je přirozený logaritmus označen jako Log(x) místo Ln(x)!) -> OK • Standardizace dat: Označit proměnnou za proměnnou, kterou chceme standardizovat -> kliknout pravým tlačítkem myši -> Add Variables -> Name -> zadat název nové proměnné (např. vek_st) -> do Long name napsat =vek -> OK -> Data -> Standardize... -> OK • Min-max normalizace: Označit proměnnou za proměnnou, kterou chceme centrovat-> kliknout pravým tlačítkem myši -> Add Variables -> Name -> zadat název nové proměnné (např. vyska_centr) -> do Long name napsat =(vyska-155)/(197- 155)(minimum a maximum vypočítané pomocí Descriptive statistics) -> OK 26Koriťáková: Vícerozměrné metody - cvičení Transformace dat pomocí softwaru Statistica II • Centrování dat: Označit proměnnou za proměnnou, kterou chceme centrovat-> kliknout pravým tlačítkem myši -> Add Variables -> Name -> zadat název nové proměnné (např. vyska_centr) -> do Long name napsat =vyska-172.24 (průměr vypočítaný pomocí Descriptive statistics) -> OK • Odstranění vlivu kovariát: Statistics -> Multiple Regession -> zvolit proměnné (např. cel_cholesterol jako Dependent var., vek... jako Independent variables) -> OK -> OK -> na záložce Save kliknout na Save residuals & predicted -> zvolit proměnné, které bude nově vytvořená tabulka dále obsahovat -> OK (případně lze vytvořit novou proměnnou pomocí Add Variables, kde v Long name bude součet Residuals a průměru původní proměnné) 27Koriťáková: Vícerozměrné metody - cvičení Vícerozměrný t-test 28Koriťáková: Vícerozměrné metody - cvičení Jednorozměrný dvouvýběrový t-test • Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. • Příklady: srovnání objem hipokampu u mužů a u žen, srovnání kognitivního výkonu podle dvou kategorií věku,... 29 ҧ𝑥1 ҧ𝑥2 21 11 * 21 nns cxx t    0 1 2 3 Pacienti Kontroly Koriťáková: Vícerozměrné metody - cvičení • Předpoklad: normalita dat v OBOU skupinách, shodnost (homogenita) rozptylů v obou skupinách • Testová statistika: , kde 𝑠∗ je vážená směrodatná odchylka, c je konstanta, o kterou se rozdíl průměrů má lišit (většinou rovna 0) Vícerozměrný t-test • Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. • Na rozdíl od jednorozměrného dvouvýběrového t-testu jsou dvě skupiny dat popsány více kvantitativními proměnnými. 30 0 1 2 3 4 5 6 7 4 6 8 10 12 14 0 0.05 x1x2 Koriťáková: Vícerozměrné metody - cvičení Vícerozměrný t-test Jednorozměrný dvouvýběrový t-test: • testová statistika: 𝑇 = ҧ𝑥 𝐷− ҧ𝑥 𝐻 −𝑐 𝑠∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 , kde 𝑇~𝑡 𝑛 𝐷 + 𝑛 𝐻 − 2 • 𝑠∗ 2 je vážený rozptyl vypočtený jako 𝑠∗ 2 = 𝑛 𝐷−1 𝑠 𝐷 2 + 𝑛 𝐻−1 𝑠 𝐻 2 𝑛 𝐷−1 + 𝑛 𝐻−1 • c je konstanta, o kterou se rozdíl průměrů má lišit (většinou c = 0) • nulová hypotéza zamítnuta, pokud 𝑇 > 𝑡1− Τ𝛼 2 𝑛 𝐷 + 𝑛 𝐻 − 2 31 Studentovo rozdělení Vícerozměrný t-test: • Hotellingova T2 testová statistika: 𝑇2 = ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 𝑇 S∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 −1 ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 • kde S∗ je vážená kovarianční matice: S∗ = 𝑛 𝐷−1 S 𝐷+ 𝑛 𝐻−1 S 𝐻 𝑛 𝐷−1 + 𝑛 𝐻−1 • T2 ~ T2(p,n-p-1) ; pro malé nD a nH je lepší použít: 𝐹 = 𝑛−𝑝−1 𝑝 𝑇2 𝑛−2 , kde n=nD+nH • nulová hypotéza zamítnuta, když 𝐹 > 𝐹1−𝛼 𝑝, 𝑛 − 𝑝 − 1 Je ekvivalentní testu: 𝑇2 = ҧ𝑥 𝐷− ҧ𝑥 𝐻 −𝑐 𝑠∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 2 = ҧ𝑥 𝐷 − ҧ𝑥 𝐻 − 𝑐 𝑠∗ 2 1 𝑛 𝐷 + 1 𝑛 𝐻 −1 ҧ𝑥 𝐷 − ҧ𝑥 𝐻 − 𝑐 , kde T2 ~ F (1, nD+nH -2) F rozdělení F rozdělení Hotellingovo rozdělení Koriťáková: Vícerozměrné metody - cvičení Úkol 2 • Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. 32Koriťáková: Vícerozměrné metody - cvičení pacienti kontroly 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu Objemmozkovýchkomor 𝐗 𝐷 = 2 12 4 10 3 8 , 𝐗 𝐻 = 5 7 3 9 4 5 Úkol 2 • Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. 33Koriťáková: Vícerozměrné metody - cvičení 𝐗 𝐷 = 2 12 4 10 3 8 , 𝐗 𝐻 = 5 7 3 9 4 5 Úkol 2 - řešení 34Koriťáková: Vícerozměrné metody - cvičení Vícerozměrné průměry: ത𝐱 𝐷 = 1 𝑛 𝐷 σ𝑖=1 𝑛 𝐷 x 𝑖1 1 𝑛 𝐷 σ𝑖=1 𝑛 𝐷 x 𝑖2 = 3 10 ത𝐱 𝐻 = 1 𝑛 𝐻 σ𝑖=1 𝑛 𝐻 x 𝑖1 1 𝑛 𝐻 σ𝑖=1 𝑛 𝐻 x 𝑖2 = 4 7 Výběrové kovarianční matice: 𝐒 𝐷 = s11 𝐷 s12 𝐷 s21 𝐷 s22 𝐷 = 1 −1 −1 4 𝐒 𝐻 = s11 𝐻 s12 𝐻 s21 𝐻 s22 𝐻 = 1 −1 −1 4 Vážená kovarianční matice: 𝐒∗ = 1 −1 −1 4 𝑇2 = ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 𝑇 S∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 −1 ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 Úkol 2 - řešení 35Koriťáková: Vícerozměrné metody - cvičení Vícerozměrné průměry: ത𝐱 𝐷 = 3 10 , ത𝐱 𝐻 = 4 7 Počty subjektů: 𝑛 𝐷 = 3, 𝑛 𝐻 = 3, 𝑛 = 𝑛 𝐷 + 𝑛 𝐻 = 6 Vážená kovarianční matice: 𝐒∗ = 1 −1 −1 4 𝑇2 = ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 𝑇 S∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 −1 ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 Volba parametru 𝒄: 𝒄 = 0 0Počet proměnných: 𝑝 = 2 Úkol 2 - řešení 36Koriťáková: Vícerozměrné metody - cvičení Vícerozměrné průměry: ത𝐱 𝐷 = 1 𝑛 𝐷 σ𝑖=1 𝑛 𝐷 x 𝑖1 1 𝑛 𝐷 σ𝑖=1 𝑛 𝐷 x 𝑖2 = 3 10 ത𝐱 𝐻 = 1 𝑛 𝐻 σ𝑖=1 𝑛 𝐻 x 𝑖1 1 𝑛 𝐻 σ𝑖=1 𝑛 𝐻 x 𝑖2 = 4 7 Výběrové kovarianční matice: 𝐒 𝐷 = s11 𝐷 s12 𝐷 s21 𝐷 s22 𝐷 = 1 −1 −1 4 𝐒 𝐻 = s11 𝐻 s12 𝐻 s21 𝐻 s22 𝐻 = 1 −1 −1 4 Vícerozměrný t-test: n (počet subjektů) 6 p (počet proměnných) 2 T2 3,5 F 1,31 df1 = p 2 df2 = n-p-1 3 α 0,05 F-crit 9,55 p-hodnota 0,389 Vážená kovarianční matice: 𝐒∗ = 1 −1 −1 4 𝑇2 = ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 𝑇 S∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 −1 ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 Úkol 2 – řešení v softwaru R 37Koriťáková: Vícerozměrné metody - cvičení install.packages("ICSNP") library("ICSNP") Xd=matrix(c(2,4,3,12,10,8),3,2) Xh=matrix(c(5,3,4,7,9,5),3,2) HotellingsT2(Xd, Xh) Použití softwaru R jako kalkulačky: S=solve(2/3*matrix(c(1,-1,-1,4),2,2)) # výpočet inverzní matice b=matrix(c(-1,3),1,2) # vektor s hodnotami rozdílu souřadnic centroidů t2=b%*%S%*%t(b) # výpočet testové statistiky T2 F=(3/2)*(t2/4) # výpočet testové statistiky F qf(0.95,2,3) # 95% kvantil F rozdělení pro stupně volnosti 2 a 3 1-pf(F,2,3) # p-hodnota