Janoušová, Dušek: Analýza dat pro neurovědy© Institut biostatistiky a analýz Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Janoušová, Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných a základy regresního modelování. 2 Janoušová, Dušek: Analýza dat pro neurovědy Osnova 1. Základy korelační analýzy 2. Základy regresní analýzy 3 Janoušová, Dušek: Analýza dat pro neurovědy 1. Základy korelační analýzy Janoušová, Dušek: Analýza dat pro neurovědy Motivace • Zatím jsme se zabývali spojitou proměnnou v jedné skupině, spojitou proměnnou ve více skupinách, diskrétní proměnnou v jedné skupině, diskrétní proměnnou ve více skupinách, vztahem dvou diskrétních proměnných. • Teď se chceme zabývat dvěma spojitými proměnnými: 1. Chceme zjistit, jestli mezi nimi existuje vztah – např. jestli vyšší hodnoty jedné proměnné znamenají nižší hodnoty jiné proměnné. 2. Chceme kvantifikovat vztah mezi dvěma spojitými proměnnými – např. pro použití jedné proměnné na místo druhé proměnné. 3. Chceme predikovat hodnoty jedné proměnné na základě znalosti hodnot jiných proměnných. 5 Janoušová, Dušek: Analýza dat pro neurovědy Jak hodnotit vztah dvou spojitých proměnných? • Nejjednodušší formou je bodový graf (x-y graf). • Např. vztah objemu hipokampu a amygdaly: 6 Janoušová, Dušek: Analýza dat pro neurovědy Korelace • Korelační koeficient – kvantifikuje míru vztahu mezi dvěma spojitými proměnnými (X a Y). • Standardní metodou je výpočet Pearsonova korelačního koeficientu (r): – Charakterizuje linearitu vztahu mezi X a Y – jinak řečeno variabilitu kolem lineárního trendu. – Nabývá hodnot od -1 do 1. – Hodnota r je kladná (kladná korelace), když vyšší hodnoty X souvisí s vyššími hodnotami Y, a naopak je záporná (záporná korelace), když nižší hodnoty X souvisí s vyššími hodnotami Y. – Proměnné jsou nekorelované, pokud r = 0. – Hodnoty 1 nebo -1 získáme, když body x-y grafu leží na přímce. • Lze statistickým testem otestovat, zda jsou dvě spojité proměnné nezávislé – hypotézy mají tvar: 𝐻0: 𝑟 = 0 (tzn. korelační koeficient je roven nule) a 𝐻1: 𝑟 ≠ 0. 7 Janoušová, Dušek: Analýza dat pro neurovědy Pearsonův korelační koeficient (r) 8 r = 1,0 r = -0,9 r = 0,4 r = 0,05 Y X Y X Y X Y X Janoušová, Dušek: Analýza dat pro neurovědy • Pearsonův korelační koeficient není vhodné počítat v situaci, kdy: – se v datech vyskytuje více skupin – proměnné mají nelineární vztah – se v datech vyskytují odlehlé hodnoty Pearsonův korelační koef. – problematické situace I. 9 −2 0 2 4 −2−1012345 r = 0,36 p = 0,009 −1 0 1 2 01234567 r = 0,58 p < 0,001 −2 0 2 4 6 −10123456 r = 0,84 p < 0,001 Více skupin Nelineární vztah Odlehlá hodnota r = 0,84 (p < 0,001) r = 0,58 (p < 0,001) r = 0,36 (p = 0,009) Janoušová, Dušek: Analýza dat pro neurovědy Pearsonův korelační koef. – problematické situace II. • Problém velikosti vzorku: • Test na ověření, zda je Pearsonův korelační koeficient různý od nuly, je parametrický test – předpoklad normality srovnávaných spojitých proměnných! 10 Y X Y X r = 0,891 (p < 0,214) r = 0,012 (p < 0,008) Janoušová, Dušek: Analýza dat pro neurovědy Pearsonův korelační koef. – problematické situace III. • Při srovnání dvou spojitých proměnných je nutné vykreslovat bodový graf, protože histogramy pro jednotlivé proměnné zvlášť nám nemusejí odhalit odlehlé hodnoty! 11 Histogram of x x -20 -10 0 10 20 30 05101520 -20 -10 0 10 20 -40-2002040 x y Histogram of y y -40 -20 0 20 40 60 051015 Janoušová, Dušek: Analýza dat pro neurovědy Pearsonův korelační koeficient • Příklad: Ověřte, zda existuje vztah objemu amygdaly a putamenu v souboru 833 subjektů. • Řešení: 12 Janoušová, Dušek: Analýza dat pro neurovědy Úkol 1. • Zadání: Ověřte, zda existuje vztah objemu nucleus caudatus a věku u pacientů s AD, pacientů s MCI a u kontrol. Nezapomeňte ověřit normalitu srovnávaných proměnných. • Řešení: 13 AD MCI CN r = -0,68 (p < 0,001) r = -0,67 (p < 0,001) r = -0,43 (p < 0,001) Janoušová, Dušek: Analýza dat pro neurovědy Srovnání dvou korelačních koeficientů • Příklad: Srovnejte korelační koeficienty objemu nucleus caudatus a věku u pacientů s AD a kontrolních subjektů. • Postup: 14 Z předchozího úkolu víme, že: r1 = -0,68 N1 = 197 r2 = -0,43 N2 = 230 Janoušová, Dušek: Analýza dat pro neurovědy Srovnání korelačního koeficientu s referenční hodnotou • Příklad: Srovnejte korelační koeficient objemu nucleus caudatus a věku u pacientů s MCI s hodnotou -0,62, jež byla zjištěna při populačním průzkumu. • Postup: 15 Z předchozího úkolu víme, že: r1 = -0,67 N1 = 406 Populační průzkum: r2 = -0,62 N2 = 32767 (co největší N) Janoušová, Dušek: Analýza dat pro neurovědy Poznámka • Korelace dvou náhodných veličin se často interpretuje pomocí druhé mocniny Pearsonova korelačního koeficientu: r2. • Hodnota r2 vyjadřuje, kolik % své variability sdílí jedna veličina s druhou, jinak řečeno, kolik % variability jedné veličiny může být predikováno pomocí té druhé. • S hodnotou r2 se setkáte v lineárních modelech. 16 Janoušová, Dušek: Analýza dat pro neurovědy Spearmanův korelační koeficient (rs) • Pearsonův korelační koeficient je náchylný k odlehlým hodnotám a obecně odchylkám od normality. • Spearmanův korelační koeficient stejně jako řada dalších neparametrických metod pracuje pouze s pořadími pozorovaných hodnot. • Hodnoty Spearmanova korelačního koeficientu rs se pohybují stejně jako u Pearsonova korelačního koeficientu r od -1 do 1. 17 Janoušová, Dušek: Analýza dat pro neurovědy Srovnání Pearsonova a Spearmanova korelačního koeficientu 18 Pearsonův korelační koeficient: r = 0,65 (p = 0,029) Spearmanův korelační koeficient: rS = 0,95 (p < 0,001) Spearmanův korelační koeficient není náchylný k odlehlým hodnotám. Janoušová, Dušek: Analýza dat pro neurovědy Spearmanův korelační koeficient • Příklad: Zjistěte, zda existuje vztah objemu hipokampu a MMSE skóre. • Řešení: 19 Janoušová, Dušek: Analýza dat pro neurovědy Úkol 2. • Zadání: Zjistěte, zda existuje vztah objemu všech dalších pěti mozkových sktruktur s MMSE skóre (nezapomeňte vykreslit bodové grafy). • Řešení: 20 Janoušová, Dušek: Analýza dat pro neurovědy 2. Základy regresní analýzy 21 Janoušová, Dušek: Analýza dat pro neurovědy Motivace • Cílem regresní analýzy je popsat závislost hodnot jedné proměnné na hodnotách druhé proměnné. • Např. závislost objemu hipokampu na věku. • Dva problémy: – Vybrat správnou funkci k popisu dané závislosti. – Stanovit konkrétní parametry daného typu funkce. 22 Janoušová, Dušek: Analýza dat pro neurovědy Příklady závislostí 23 X Y Lineární Y X Y X Nelineární Janoušová, Dušek: Analýza dat pro neurovědy Lineární regrese 24 𝒚 = 𝑿 ∗ 𝜷 + 𝜺 𝑦 𝑥 𝒚 = 𝛽0 + 𝛽1 ∗ 𝒙 + 𝜺 Obecný zápis: Zápis, pokud máme pouze jednu nezávisle proměnnou: y – závisle proměnná (vysvětlovaná proměnná) x – nezávisle proměnná (vysvětlující proměnná, regresor) ε – náhodná složka modelu přímky (rezidua přímky) β0 – intercept β1 – regresní koeficient – „sklon regresní přímky“ Janoušová, Dušek: Analýza dat pro neurovědy Lineární regrese 25 𝒚 = 𝑿 ∗ 𝜷 + 𝜺 𝑦 𝑥 𝒚 = 𝛽0 + 𝛽1 ∗ 𝒙 + 𝜺 y – závisle proměnná (vysvětlovaná proměnná) x – nezávisle proměnná (vysvětlující proměnná, regresor) ε – náhodná složka modelu přímky (rezidua přímky) β0 – intercept β1 – regresní koeficient – „sklon regresní přímky“ Obecný zápis: Zápis, pokud máme pouze jednu nezávisle proměnnou: β0 Janoušová, Dušek: Analýza dat pro neurovědy Lineární regrese 26 𝒚 = 𝑿 ∗ 𝜷 + 𝜺 𝑦 𝑥 𝒚 = 𝛽0 + 𝛽1 ∗ 𝒙 + 𝜺 Obecný zápis: Zápis, pokud máme pouze jednu nezávisle proměnnou: y – závisle proměnná (vysvětlovaná proměnná) x – nezávisle proměnná (vysvětlující proměnná, regresor) ε – náhodná složka modelu přímky (rezidua přímky) β0 – intercept β1 – regresní koeficient – „sklon regresní přímky“ Janoušová, Dušek: Analýza dat pro neurovědy Lineární regrese 27 𝒚 = 𝑿 ∗ 𝜷 + 𝜺 𝑦 𝑥 𝒚 = 𝛽0 + 𝛽1 ∗ 𝒙 + 𝜺 Obecný zápis: Zápis, pokud máme pouze jednu nezávisle proměnnou: Odhad koeficientů β metodou nejmenších čtverců: 𝜷� = 𝑿′ 𝑿 −1 𝑿′ 𝒚 y – závisle proměnná (vysvětlovaná proměnná) x – nezávisle proměnná (vysvětlující proměnná, regresor) ε – náhodná složka modelu přímky (rezidua přímky) β0 – intercept β1 – regresní koeficient – „sklon regresní přímky“ Janoušová, Dušek: Analýza dat pro neurovědy Lineární regrese - příklady 28 Y X y β1 = 0 Y X y β1 > 0 Y X y β1 < 0 Janoušová, Dušek: Analýza dat pro neurovědy Lineární regrese zdroj variability součet čtverců stupně volnosti podíl statistika F model SR p SR/p reziduální SE n-p-1 SE/(n-p-1) celkový ST n-1 - - 29 Převzato z přednášek RNDr. Marie Budíkové, Dr. Testování významnosti modelu jako celku – celkový F-test: ( )1pnS pS E R -- n ... počet subjektů; p ... počet proměnných Janoušová, Dušek: Analýza dat pro neurovědy Regresní analýza v grafech 30 ee 0 0 !e y (i; x) 0 e 0 y (i; x) e 0 y (i; x) ! Grafy residuí modelů (příklady) Obecné tvary residuí modelů (schéma) e e i, xj, y a b e i, xj, y c e i, xj, y dd ! ! !ü ü Janoušová, Dušek: Analýza dat pro neurovědy Lineární regrese – příklad I 31 • Příklad: Proveďte regresní analýzu, v níž budete modelovat závislost objemu nucleus caudatus na věku. Q-Q graf reziduí Histogram reziduí Bodový graf reziduí vs. predikované hodnoty Janoušová, Dušek: Analýza dat pro neurovědy Lineární regrese – příklad II • Příklad: Chceme zjistit, zda se liší objem nucleus caudatus podle typu onemocnění (pacienti s AD, pacienti s MCI, kontroly). Srovnávané skupiny subjektů však obsahují jiný poměr mužů a žen a liší se i věkovým složením. Odstraňte vliv věku a pohlaví, aby výsledek srovnání objemu nucleus caudatus podle typu onemocnění nebyl ovlivněn tím, že skupiny nejsou srovnatelné. 32 Janoušová, Dušek: Analýza dat pro neurovědy Vícenásobná lineární regrese 33 x1 x2 … xp I1 1 I2 1 I3 1 I4 1 … In 1 parametry pacienti 𝑿 𝒚 = 𝑿𝜷 + 𝜺 25 36 58 ... 𝛽0 𝛽1 𝛽2 𝛽3 … 𝛽p 𝒚 𝜷 ε0 ε1 ε2 ε3 … εn = * + 𝜺 𝑿 – matice plánu (design matice) Janoušová, Dušek: Analýza dat pro neurovědy 34 Převzato z: Walhovd et al. 2011, Neurobiol. of aging věk věk*věk I1 1 I2 1 I3 1 I4 1 … … In 1 parametry pacienti 𝑿 1.5 2.6 -0.8 ... 𝛽0 𝛽1 𝛽2 𝒚 𝜷 ε1 ε2 ε3 ε4 … εn = * + 𝜺 𝒚 = 𝛽0 + 𝛽1 ∗ 𝒙 + 𝛽2 ∗ 𝒙2 + 𝜺 Kvadratická závislost objemu mozkové struktury na věku Janoušová, Dušek: Analýza dat pro neurovědy Kategoriální data jako prediktory v regresi • Kategoriální a ordinální data mohou do analýzy vstupovat jako binární proměnné • Kategoriální data (nelze seřadit) -> dummies • Ordinální data (lze seřadit) – Dummies – Definice referenční kategorie (obvykle kategorie s nejnižším rizikem pro hodnocený endpoint • Příklad: Stádium karcinomu 35 Původní Dummies Vzhledem k referenci Stádium Stádium I Stádium II Stádium III Stádium IV Stád. II ref Stád. III ref Stád. IV ref I 1 0 0 0 0 0 0 I 1 0 0 0 0 0 0 I 1 0 0 0 0 0 0 II 0 1 0 0 1 II 0 1 0 0 1 III 0 0 1 0 1 III 0 0 1 0 1 IV 0 0 0 1 1 IV 0 0 0 1 1 Janoušová, Dušek: Analýza dat pro neurovědy Logistická regrese • Standardní metoda pro analýzu binárních charakteristik (pacient/kontrolní subjekt, zemřelý/žijící, s nežádoucími účinky/bez n. ú. apod.) bez vlivu času • Modeluje závislost výskytu události (nežádoucího účinku, úmrtí, onemocnění) na binárních, kategoriálních nebo spojitých proměnných • Výsledkem rovnice je pravděpodobnost, že u daného pacienta nastane hodnocená událost • Alternativou jsou např. rozhodovací stromy, neuronové sítě a další klasifikační metody 36 y=exp(-28.41096581446+(.29929760633475)*x)/(1+exp(-28.41096581446+ (.29929760633 40 60 80 100 120 140 160 0.0 0.2 0.4 0.6 0.8 1.0 Příklad logistické regrese: predikce binární charakteristiky (osa y) za pomoci spojité proměnné (osa x) Model logistické regrese Janoušová, Dušek: Analýza dat pro neurovědy Poděkování… Příprava výukových materiálů předmětu „DSAN01 Analýza dat pro Neurovědy “ byla finančně podporována prostředky projektu FRVŠ č. 942/2013 „Inovace materiálů pro interaktivní výuku a samostudium předmětu Analýza dat pro Neurovědy“ 37