RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Blok 7 Jak hodnotit vztah spojitých proměnných a základy regresního modelování. Janoušová, Dušek: Analýza dat pro neurovědy ^j^- Osnova »- 1. Základy korelační analýzy 2. Základy regresní analýzy Janoušová, Dušek: Analýza dat pro neurovědy *|L "J^J 1. Základy korelační analýzy Janoušová, Dušek: Analýza dat pro neurovědy Motivace • Zatím jsme se zabývali spojitou proměnnou v jedné skupině, spojitou proměnnou ve více skupinách, diskrétní proměnnou v jedné skupině, diskrétní proměnnou ve více skupinách, vztahem dvou diskrétních proměnných. • Teď se chceme zabývat dvěma spojitými proměnnými: 1. Chceme zjistit, jestli mezi nimi existuje vztah - např. jestli vyšší hodnoty jedné proměnné znamenají nižší hodnoty jiné proměnné. 2. Chceme kvantifikovat vztah mezi dvěma spojitými proměnnými - např. pro použití jedné proměnné na místo druhé proměnné. 3. Chceme predikovat hodnoty jedné proměnné na základě znalosti hodnot jiných proměnných. Janoušová, Dušek: Analýza dat pro neurovědy ^ Jak hodnotit vztah dvou spojitých proměnných? i • Nejjednodušší formou je bodový graf (x-y graf). • Např. vztah objemu hipokampu a amygdaly: 3600 3400 3200 I 3000 E E 2B0Q ™' 2600 (TJ TJ E 240D < 220 D 2Q0D Scatterplot of Amygdala_voljme (mm3) against Hippocampusvolume (mm3) Amy gdala_vo lutne {mm3}= 903,9142+0:2&45*x □ o o o0 TT-* 3« ° 00tfc ® e -"° ob. 5600 5800 6000 6200 6400 6600 6S0D 7000 7200 7400 7600 Hippocampusvolume (mm 3) Janoušová, Dušek: Analýza dat pro neurovědy IBA W 6 Pearsonův korelační koeficient (r) r= 1,0 r = -0,9 r =0,4 r =0,05 Janoušová. Dušek: Analvza dat Dro neurovědv ^P=- ; IMI Korelace • Korelační koeficient - kvantifikuje míru vztahu mezi dvěma spojitými proměnnými (X a Y). • Standardní metodou je výpočet Pearsonova korelačního koeficientu (r): - Charakterizuje linearitu vztahu mezi X a Y - jinak řečeno variabilitu kolem lineárního trendu. - Nabývá hodnot od-1 do 1. - Hodnota r je kladná (kladná korelace), když vyšší hodnoty X souvisí s vyššími hodnotami Y, a naopak je záporná (záporná korelace), když nižší hodnoty X souvisí s vyššími hodnotami Y. - Proměnné jsou nekorelované, pokud r = 0. - Hodnoty 1 nebo -1 získáme, když body x-y grafu leží na přímce. • Lze statistickým testem otestovat, zda jsou dvě spojité proměnné nezávislé - hypotézy mají tvar: H0:r = 0 (tzn. korelační koeficient je roven nule) a H^.r ^ 0. MU v-"<^ Janoušová, Dušek: Analýza dat pro neurovědy ^ Pearsonův korelační koef. - problematické situace I. • Pearsonův korelační koeficient není vhodné počítat v situaci, kdy: - se v datech vyskytuje více skupin - proměnné mají nelineární vztah - se v datech vyskytují odlehlé hodnoty Více skupin ■2 0 2 4 r = 0,84 (p < 0,001) Nelineární vztah -1 0 1 r =0,58 (p < 0,001) Odlehlá hodnota -2 0 2 r =0,36 (p = 0,009) MU v-"<^ Janoušová, Dušek: Analýza dat pro neurovědy ^ Pearsonův korelační koef. - problematické situace II • Problém velikosti vzorku: r = 0,012 (p < 0,008) X X • Test na ověření, zda je Pearsonův korelační koeficient různý od nuly, je parametrický test - předpoklad normality srovnávaných spojitých proměnných! Janoušová, Dušek: Analýza dat pro neurovědy ^ 10 Pearsonův korelační koef. - problematické situace III. • Při srovnání dvou spojitých proměnných je nutné vykreslovat bodový graf, protože histogramy pro jednotlivé proměnné zvlášť nám nemusejí odhalit odlehlé hodnoty! -20 -10 0 10 20 Janoušová, Dušek: Analýza dat pro neurovědy ^ H Pearsonův korelační koeficient Příklad: Ověřte, zda existuje vztah objemu amygdaly a putamenu v souboru 833 subjektů. Řešení: 340 D 320 D E 300D E E 280 D ™ 260 D E 240D < 220D Scatterplot of Amygdala_volume (mm3) against PiJtamen_volume (mm3) Data_neuro_vycistena4 45v*S33c Amygdala_volume (mm3) = 499.1001+0 205'x 180D '- 1G4:0 106D0 108D0 110DO 11200 1140Q Putani8n_volLim& Ímm3) 11510 11;.I0 12:i0 Variable Correlations (Data_neuro_vycistena4) Marked correlations are significant at p < . N=833 (Casewise deletion of missing data 05000 ) Putamenvolume (mm3) Amygdala_volume (mm3) Putamenvolume (mm3) 1.0000 .1742 p= — p=.000 Amygdala_volume [mm3) .1742 1.0000 p=.QQQ P= — Janoušová, Dušek: Analýza dat pro neurovědy I BA M 12 Úkol 1. I- • Zadání: Ověřte, zda existuje vztah objemu nucleus caudatus a věku u pacientů s AD, pacientů s MCI a u kontrol. Nezapomeňte ověřit normalitu srovnávaných proměnných. • Řešení: 7000 BOOD 5500 5000 4500 4000 3500 3000 2500 2000 AD O OB On CO ° 0 O OO ■ ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ MCI 70 00 £5ZZ< 60 00 5600 50 00 4500 40OD 3500 30OD 2500 20OD CN ■■■■■■■ _l_. I .... I ■ ... I 50 55 60 65 70 75 60 &5 90 95 50 55 60 65 70 75 &0 &5 90 95 50 55 60 65 70 75 &0 85 90 95 r = -0,68 (p < 0,001) r = -0,67 (p < 0,001) r = -0,43 (p < 0,001) Janoušová, Dušek: Analýza dat pro neurovědy IBA W 13 Srovnání dvou korelačních koeficientů • Příklad: Srovnejte korelační koeficienty objemu nucleus caudatus a věku u pacientů s AD a kontrolních subjektů. Postup: r Z předchozího úkolu víme, že: r1 = -0,68 Nx = 197 r2 = -0,43 N2 = 230 Difference tests: r, %, means: Data_neuro_vyc/stena4 ] Send/print results for each Compute to Repo/window Difference between two correlation coefficientsi r1: -.GS Ě1 N1: 197 r2: -.43 N 2: 230 1 1 p: .0002 (_) One-sided o Two-sided Difference between two means (normal distribution)- M1: 0 M 2: 0 0 0 llltl StDvl: 1 1 W N1: 10 1 N2: 10 i ? Cancel Compute Compute StDv2: 1 |_| Single mean 1 vs .population mean 2 Difference between two proportions— N1: N2 (*) Two-sided Pr.1: .50000C Pr.2: .50000C Ě . nnnn 5 One-sided ^ p: 1.0000 ' : 10 (*) Two-sided Compute Janoušová, Dušek: Analýza dat pro neurovědy IBA M 14 Srovnání korelačního koeficientu s referenční hodnotou Příklad: Srovnejte korelační koeficient objemu nucleus caudatus a věku u pacientů s MCI s hodnotou -0,62, jež byla zjištěna při populačním průzkumu. Postup: Z předchozího úkolu víme, že: r1 = -0,67 Nx = 406 Populační průzkum: r2 = -0,62 N2 = 32767 (co největší N) Difference tests: r, %, means.: Data_neuro_v^£ istena4 ] Send/print results for each Compute to Flep/rt window ■Difference between two correlation coefficien r1 .67 N1: 406 Cancel r2: -.62 N 2: 32767 p: .0371 © One-sided @ Two-sided Compute ■Difference between two means (normal distribution)— 1.0000 1 aNi: 10 aj 1 ^JN2: 10 i M2: 0 n Single mean 1 vs .population mean 2 -Difference between two proportions- Compute Two-sided .50000C .50000C 10 10 © One-sided (♦) Two-sided Compute Janoušová, Dušek: Analýza dat pro neurovědy IBA W 15 Poznámka Korelace dvou náhodných veličin se často interpretuje pomocí druhé mocniny Pearsonova korelačního koeficientu: r2. Hodnota r2 vyjadřuje, kolik % své variability sdílí jedna veličina s druhou, jinak řečeno, kolik % variability jedné veličiny může být predikováno pomočíte druhé. S hodnotou r2 se setkáte v lineárních modelech. Janoušová, Dušek: Analýza dat pro neurovědy ^j^- 16 Spearmanův korelační koeficient (rs) • Pearsonův korelační koeficient je náchylný k odlehlým hodnotám a obecně odchylkám od normality. • Spearmanův korelační koeficient stejně jako řada dalších neparametrických metod pracuje pouze s pořadími pozorovaných hodnot. Hodnoty Spearmanova korelačního koeficientu rs se pohybují stejně jako u Pearsonova korelačního koeficientu rod -1 do 1. Janoušová, Dušek: Analýza dat pro neurovědy ^j^- 17 Srovnání Pearsonova a Spearmanova korelačního koeficientu x 10 Pearsonův korelační koeficient: r = 0,65 (p = 0,029) Spearmanův korelační koeficient: rs = 0,95 (p < 0,001) Spearmanův korelační koeficient není náchylný k odlehlým hodnotám. Janoušová, Dušek: Analýza dat pro neurovědy IBA W 18 Spearmanův korelační koeficient Příklad: Zjistěte, zda existuje vztah objemu hipokampu a MMSE skóre. Řešení: 7500 740D 7200 7000 680D 6600 £4:o eaoD 580D 5500 o ° B 8 1 16 10 20 22 24 26 MMSE 2S 30 32 Variable Spearman Rank Order Correlations (Data_neuro_vycistena4) MD pairwise deleted Marked correlations are significant at p <,05000 MMSE Hippocampus_v olume (mm3) MMSE 1,0000001 0,626392 Hippocampus_volume [mm3) 0.626392 1,000000 Pair of Variables Spearman Rank Order Correlations (Data_neuro_vycistena4) MD pairwise deleted Marked correlations are significant at p <,05000 Valid N Spearman R t[N-2> p-value MMSE & Hippocampus volume (mrriji 833 0.626892 23.19513 0 00 Janoušová, Dušek: Analýza dat pro neurovědy I BA M 19 Úkol 2. * Zadání: Zjistěte, zda existuje vztah objemu všech dalších pěti mozkových sktruktur s MMSE skóre (nezapomeňte vykreslit bodové grafy). 1 Řešení: Pair of Variables Spearman Rank Order Correlations (Data_neuro_vycistena4) MD pairwise deleted Marked correlations are significant at p <,05000 Valid N Spearman R t[N-2> p-value MMSE & Amygdala volume jmm3| 3331 0.333742 MMSE & Thalamusvolume [mm3) MMSE & Pallidumvolume (mm3) MMSE & Putamenvolume [mm3) MMSE & Nucl_caud_volume (mm3) 833 833 333 833 -0,000759 0,039167 0,324925 10.37352 0,011837 -0.02187 1,12992 9.90402 0,34124 0,000000 0.982557 0,258834 0,000000 0.733012 Janoušová, Dušek: Analýza dat pro neurovědy IBA M 20 2. Základy regresní analýzy Janoušová, Dušek: Analýza dat pro neurovědy ^ ^1 Motivace * Cílem regresní analýzy je popsat závislost hodnot jedné proměnné na hodnotách druhé proměnné. * Např. závislost objemu hipokampu na věku. * Dva problémy: - Vybrat správnou funkci k popisu dané závislosti. - Stanovit konkrétní parametry daného typu funkce. Janoušová, Dušek: Analýza dat pro neurovědy ^j^- 22 Příklady závislostí Lineární Nelineární Y x Y X Y X Janoušová, Dušek: Analýza dat pro neurovědy IBA W 23 Lineární regrese Obecný zápis: y = X * f? + e Zápis, pokud máme pouze jednu nezávisle proměnnou: y = /30+l31*x + 8 y X y- závisle proměnná (vysvětlovaná proměnná) x- nezávisle proměnná (vysvětlující proměnná, regresor) e- náhodná složka modelu přímky (rezidua přímky) P0 - intercept Px - regresní koeficient - „sklon regresní přímky" MU Janoušová, Dušek: Analýza dat pro neurovědy (|yj) 24 Lineární regrese Obecný zápis: y = X * f? + e Zápis, pokud máme pouze jednu nezávisle proměnnou: y = /30+l31*x + 8 y- závisle proměnná (vysvětlovaná proměnná) x- nezávisle proměnná (vysvětlující proměnná, regresor) s- náhodná složka modelu přímky (rezidua přímky) P0 - intercept Px - regresní koeficient - „sklon regresní přímky" MU Janoušová, Dušek: Analýza dat pro neurovědy (|yj) 25 Lineární regrese Obecný zápis: y = X * p + e Zápis, pokud máme pouze jednu nezávisle proměnnou: y = /30+l31*x + s y- závisle proměnná (vysvětlovaná proměnná) x- nezávisle proměnná (vysvětlující proměnná, regresor) £- náhodná složka modelu přímky (rezidua přímky) (30 - intercept Pí - regresní koeficient - „sklon regresní přímky" Janoušová, Dušek: Analýza dat pro neurovědy (|y|) 26 Lineární regrese Obecný zápis: y = X * p + e Zápis, pokud máme pouze jednu nezávisle proměnnou: y = /30+l31*x + s x Odhad koeficientů (3 metodou nejmenších čtverců: p = (x,xy1x'y y- závisle proměnná (vysvětlovaná proměnná) x- nezávisle proměnná (vysvětlující proměnná, regresor) e- náhodná složka modelu přímky (rezidua přímky) P0 - intercept Pí - regresní koeficient - „sklon regresní přímky" Janoušová, Dušek: Analýza dat pro neurovědy iba M 27 Lineární regrese - příklady 28 Lineární regrese Převzato z přednášek RNDr. Marie Budíkové, Dr. Testování významnosti modelu jako celku - celkový F-test: zdroj variability součet čtverců stupně volnosti podíl statistika F model Sr P Sr/P sr/p s„/(n-p-1) reziduálni Se n-p-1 SE/(n-p-l) celkový n-1 - - MU n ... počet Subjektu; p ... počet proměnných Janoušová, Dušek: Analýza dat pro neurovědy *|L (ty) 29 Regresní analýza v grafech Grafy residuí modelů (příklady) 0 o v y (i; x) i • • •. : * •.. • • • • • • . O y (i; x) • • • • •• • • • « • • • • •... •A y (i; x) A e Obecné tvary residuí modelů (schéma) a *, b l Xj, y Sk e Xj, y Janoušová, Dušek: Analýza dat pro neurovědy |> Xj, y iba # 30 Lineární regrese - příklad I Příklad: Proveďte regresní analýzu, v níž budete modelovat závislost objemu nucleus caudatus na věku. - Regression Summary for Dependent Variable: Nucl caud volume (mm3) (Data neuro vycistena4) R= ,62657661 R2= .39259825 Adjusted R2= .39186732 F(1,831)=537,12 p<0,0000 Std.Error of estimate: 494,97 N=833 b* Std.Err. of b* b Std.Err. of b t(831) p-value Intercept 834* 848 186 0558 44,8728 0,00 Age -0,626577 0:027036 -57,369 2,4754 -23,1759 0,00 Q-Qgraf reziduí Normal Probability Plot of Residuals 500 0 Residuals Histogram reziduí Distribution of Raw residuals — Exp&cted Normal Bodový graf reziduí vs. predikované hodnoty Predicted vs. Residual Scores Dependent variable: Nuclcaudvolume (mm3) -2000 -1600 -1200 -300 -400 0 400 800 1200 1600 2000 -1S00 -1400 -1000 -600 -200 20.0 &Q0 10.00 1400 1SO0 o o a o ° c o a ° 0 o o o □ o o o 8 □ o c ° i o É B ° O i S 8 B o B 8 o š ° o o c 9 ° Q n a o o o c 0 E s 8 0 R O E O c „ H ° o 0 o 1 e o ° o í c O "o " o §ol §11 if! asi i í B n II N i-fi- i § if h 0 i o o o e ° o o O o o □ o o -E 1 ° i □ a ; ° B a O _ o o 8I ! ill íl I D E i s § 1 1 o S o o 0 % § ° O o B 5 ä ľ ° , ° ° o o B s o o o f ° c c 0 a o o o a o c !se g 8 ° °§t a ° bI »e o o o ° o 8 ° 8 o e1 o □ T 3000 3200 3400 3600 3800 4000 4200 4400 4600 4600 5000 5200 5400 Predicted Values lo 95 Conf Int Janoušová, Dušek: Analýza dat pro neurovědy IBA W 31 Lineární regrese - příklad II Příklad: Chceme zjistit, zda se liší objem nucleus caudatus podle typu onemocnění (pacienti s AD, pacienti s MCI, kontroly). Srovnávané skupiny subjektů však obsahují jiný poměr mužů a žen a liší se i věkovým složením. Odstraňte vliv věku a pohlaví, aby výsledek srovnání objemu nucleus caudatus podle typu onemocnění nebyl ovlivněn tím, že skupiny nejsou srovnatelné. Data: Spreadsheet! (8v by 833c) CD Data neum vycistena4 / i. 1 Predicted 2 Residuals 3 StandardPredicted T 4 StandardResidual 5 StdErrorPredicted MahalanobisDistanc 7 DeletedResidual 8 CookDistance 1 3543.61 -15.89 -1.29 -0.03 31.38 2.35 -15.95 0.00 2 3967.80 -194.34 -0.22 -0.39 26.73 1.43 -194.91 rjjxn 3 3831.22 463.23 -0.56 0.94 24.44 1.03 464.36 o.ôôl 4 3220.00 365.00 -2.10 0.74 44.91 5.85 368.03 o.ôôl 5 4255.41 -532.15 0.50 -1.08 27.70 1.61 -533.82 o.ôôl 6 4312.93 -343.56 0.65 -0.69 28.54 1.77 -344.71 o.ôôl 7 3277.52 -391.29 -1.95 -0.79 42.93 5.26 -394.25 o.ôôl 3 3392.57 348.66 -1.66 0.70 39.14 4.20 350.85 olôl 9 3507.61 229.79 -1.38 0.46 35.63 3.31 230.99 ďľiol 10 3335.05 -704.48 -1.81 -1.42 41.00 4.71 -709.34 čTool 11 3852.75 -960.02 -0.51 -1.94 27.92 1.65 -963.08 0.00 12 3543.61 7.62 -1.29 0.02 31.38 2.35 7.65 o.ôôl 13 4348.93 285.38 0.74 0.58 25.97 1.29 286.17 rJôm 14 3831.22 50.65 -0.56 0.10 24.44 1.03 50.77 o.ôôl 15 4291.41 -837.95 0.59 -1.69 24.83 1.10 -840.07 0.001 Janoušová , Dušek: Analýza da t pro neurovědy MU v-"<^ u* m 32 Vícenásobná lineární regrese y = Xp + e X Xj X2 ... Xp 25 i, 1 36 i2 1 58 i3 1 • • • ienti • • • 1 paci i„ 1 parametry p, pi pi 103 0, + X- matice plánu (design matice) Janoušová, Dušek: Analýza dat pro neurovědy iba li 33 Kvadratická závislost objemu mozkové struktury na věku 3rd ventricle 20 40 60 so years Převzato z: Walhovd et al. 2011, Neurobiol. of aging y — Po + Pi *x + f>2 *%2 + £ 1.5 2.6 -0.8 c CD O CD Q. X věk věk*věk 1 h 1 h 1 I4 1 I„ 1 n parametry Po Pl + Janoušová, Dušek: Analýza dat pro neurovědy iba li 34 Kategoriální data jako prediktory v regresi • Kategoriální a ordinální data mohou do analýzy vstupovat jako binární proměnné • Kategoriální data (nelze seřadit) -> dummies • Ordinální data (lze seřadit) - Dummies - Definice referenční kategorie (obvykle kategorie s nejnižším rizikem pro hodnocený endpoint • Příklad: Stádium karcinomu Původní Dummies Vzhledem k referenci Stádium Stádium 1 Stádium II Stádium III Stádium IV Stád. II ref Stád. III ref Stád. IV ref 1 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 II 0 1 0 0 1 II 0 1 0 0 1 III 0 0 1 0 1 III 0 0 1 0 1 IV o 0 0 1 1 IV 0 0 0 1 1 Janoušová, Dušek: Analýza dat pro neurovědy Logistická regrese Standardní metoda pro analýzu binárních charakteristik (pacient/kontrolní subjekt, zemřelý/žijící, s nežádoucími účinky/bez n. ú. apod.) bez vlivu času Modeluje závislost výskytu události (nežádoucího účinku, úmrtí, onemocnění) na binárních, kategoriálních nebo spojitých proměnných Výsledkem rovnice je pravděpodobnost, že u daného pacienta nastane hodnocená událost Alternativou jsou např. rozhodovací stromy, neuronové sítě a další klasifikační metody Příklad logistické regrese: predikce binární charakteristiky (osa y) za pomoci spojité proměnné (osa x) 40 60 80 100 120 140 160 Janoušová, Dušek: Analýza dat pro neurovědy ^ ^6 Poděkování.. Příprava výukových materiálů předmětu „DSAN01 Analýza dat pro Neurovědy " byla finančně podporována prostředky projektu FRVŠ č. 942/2013 „Inovace materiálů pro interaktivní výuku a samostudium předmětu Analýza dat pro Neurovědy" FOND ROZVOJE VYSOKÝCH ŠKOL Janoušová, Dušek: Analýza dat pro neurovědy ^j^- 37