Případová studie Vitamin D (lineární regrese) Bi7491 Regresní modelování Převzato z knihy: Andersen, P. K., Skovgaard, L. T. (2010) Regression with Linear Predictors, Springer. Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Úvod • Nedostatek vitaminu D přispívá k úbytku kostní hmoty – elevace parathormonu, zvyšování resorpce kostní hmoty • fraktury u starších, poruchy růstu u adolescentů • Vitamin D – tvoří se v kůži působením UV záření – přítomen v potravinách: rybí tuk, játra, vejce (D3), houby (D2), ... Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Úvod • Vyhodnocení dostatku vitaminu D se provádí laboratorním testem sérové koncentrace 25-hydroxyvitaminu D (25OHD) • Byla provedena mezinárodní studie (Irsko, Polsko, Finsko, Dánsko) u dívek a starších žen • Data obsahují věk, BMI a stav vitaminu D u 420 dívek a žen Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Cíl • Popsat dostupnost vitaminu D v různých evropských státech • Identifikovat faktory, které by mohly vysvětlit rozdíly – věk – BMI – zvyklosti při slunění – příjem vitaminu D v potravě Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příprava dat • Logaritmická transformace výsledku Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Kauzalita • Zadání úlohy: Stát Vitamin D • Což platí... • Čím to lze vysvětlit (co je mediátor)? Stát BMI Vitamin D Stát BMI Vitamin D Pouze vliv BMI? Něco dalšího? Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Kauzalita • Přetrvává hodně variability vysvětlené státem (stát zůstává velmi významným prediktorem) • Musíme vytvořit bohatší model • věk, zvyky při slunění, příjem vitaminu D – všechny mohou působit jako intermediáta mezi státem a výsledkem • jak by mohl vypadat modelový diagram? Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Spojité prediktory (margin. průzkum) 20 25 30 35 40 0.81.21.62.0 BMI log10(vitaminD) 69 70 71 72 73 74 75 0.81.21.62.0 Age log10(vitaminD) 0 5 10 15 20 25 30 35 0.81.21.62.0 Vitamin D intake log10(vitaminD) 0.0 0.5 1.0 1.5 0.81.21.62.0 log10(vitamin D intake) log10(vitaminD) Linearita Není efekt (malý rozsah) „Hokejka“ po transformaci lineární (rozumné i vzhledem k jednotce) • je třeba rozhodnout o jejich formě v lineárním prediktoru Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Kategoriální prediktory avoid sun sometimes prefer sun 0.81.01.21.41.61.82.0 Sun habits log10VitaminD avoid sun sometimes prefer sun 2025303540 Sun habitsBMI zvyklosti zřejmě ovlivňují vitamin D zvyklosti zřejmě nesouvisí s BMI Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Kategoriální prediktory stát zřejmě ovlivňuje zvyklosti... hypotéza může být: Problém v Polsku je kombinací málo slunění a vysokého BMI? (protože v Irsku problém s vitaminem D není) Denmark Finland Ireland Poland Prefer Sometimes Avoid 0.00.20.40.60.81.0 Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Model 1 Estimate Std. Error t value Pr(>|t|) (Intercept) 1.849653 0.682145 2.712 0.007269 ** bmi -0.009777 0.003165 -3.089 0.002289 ** age -0.003937 0.009481 -0.415 0.678356 log10(vitdintake) 0.254517 0.035814 7.107 1.95e-11 *** sunexpavoid sun -0.019531 0.030104 -0.649 0.517204 sunexpprefer sun 0.042952 0.036842 1.166 0.245039 countryDenmark 0.096405 0.036678 2.628 0.009230 ** countryFinland 0.076404 0.037275 2.050 0.041670 * countryIreland 0.140771 0.038994 3.610 0.000385 *** nemá účinek (a jeho odstraněním nedojde k výrazné změně ostatních koeficientů) Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Model 2 Estimate Std. Error t value Pr(>|t|) (Intercept) 1.569491 0.101014 15.537 < 2e-16 *** bmi -0.009831 0.003156 -3.115 0.002103 ** log10(vitdintake) 0.255116 0.035712 7.144 1.56e-11 *** sunexpavoid sun -0.021542 0.029653 -0.726 0.468382 sunexpprefer sun 0.043472 0.036746 1.183 0.238174 countryDenmark 0.095892 0.036583 2.621 0.009418 ** countryFinland 0.074683 0.036969 2.020 0.044670 * countryIreland 0.138215 0.038427 3.597 0.000404 *** nemá účinek Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Model 3 Estimate Std. Error t value Pr(>|t|) (Intercept) 1.546103 0.099677 15.511 < 2e-16 *** bmi -0.009272 0.003134 -2.958 0.003455 ** log10(vitdintake) 0.257662 0.035175 7.325 5.23e-12 *** countryDenmark 0.109021 0.035695 3.054 0.002553 ** countryFinland 0.086036 0.036235 2.374 0.018491 * countryIreland 0.140712 0.038454 3.659 0.000321 *** Stát zůstává významným prediktorem Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Analýza reziduí Model3 vs. Všechny uvažované prediktory + predikce žádné zřejmé problémy... Denmark Finland Ireland Poland -0.8-0.40.00.4 Country Residual 20 25 30 35 40 -0.8-0.40.00.4 BMI Residual 0.0 0.5 1.0 1.5 -0.8-0.40.00.4 log10(vitamin D intake) Residual sometimes avoid sun prefer sun -0.8-0.40.00.4 Sun exposure Residual 69 70 71 72 73 74 75 -0.8-0.40.00.4 Age Residual 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 -0.8-0.40.00.4 Predicted value of log10(vitamin D) Residual Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Interakce • mnoho možných • jen některé předpokládané – stát X slunění – v každé zemi je slunce jinak silné – stát X příjem vitaminu D – obsah vitaminu u stejných potravin se může lišit 0.0 0.5 1.0 1.5 0.81.01.21.41.61.82.0 log10(vitamin D intake) log10(vitaminD) 0.0 0.5 1.0 1.5 -0.8-0.40.00.4 log10(vitamin D intake) Residual interakce není zřejmá, vyzkoušíme i výpočetně Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Interakce Estimate Std. Error t value Pr(>|t|) I(bmi - median.bmi) -0.009006 0.003070 -2.934 0.00375 ** countryDenmark 1.631813 0.036893 44.231 < 2e-16 *** countryFinland 1.672426 0.039968 41.844 < 2e-16 *** countryIreland 1.620712 0.039459 41.073 < 2e-16 *** countryPoland 1.526577 0.031207 48.918 < 2e-16 *** countryDenmark:I(log10(vitdintake) - median.logintake) 0.436478 0.061658 7.079 2.53e-11 *** countryFinland:I(log10(vitdintake) - median.logintake) 0.132080 0.086855 1.521 0.12995 countryIreland:I(log10(vitdintake) - median.logintake) 0.114902 0.081007 1.418 0.15766 countryPoland:I(log10(vitdintake) - median.logintake) 0.245292 0.057448 4.270 3.05e-05 *** countryDenmark:sunexpavoid sun 0.004212 0.061569 0.068 0.94553 countryFinland:sunexpavoid sun -0.142507 0.061207 -2.328 0.02092 * countryIreland:sunexpavoid sun 0.096052 0.061288 1.567 0.11867 countryPoland:sunexpavoid sun -0.042359 0.047476 -0.892 0.37337 countryDenmark:sunexpprefer sun 0.069935 0.059355 1.178 0.24013 countryFinland:sunexpprefer sun -0.019098 0.058774 -0.325 0.74557 countryIreland:sunexpprefer sun -0.093419 0.099831 -0.936 0.35054 countryPoland:sunexpprefer sun 0.173724 0.088568 1.961 0.05124 . sklon dle státu sometimes avoid vs. sometimes prefer vs. sometimes Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Interakce Estimate Std. Error t value Pr(>|t|) I(bmi - median.bmi) -0.009006 0.003070 -2.934 0.00375 ** countryDenmark 1.631813 0.036893 44.231 < 2e-16 *** countryFinland 1.672426 0.039968 41.844 < 2e-16 *** countryIreland 1.620712 0.039459 41.073 < 2e-16 *** countryPoland 1.526577 0.031207 48.918 < 2e-16 *** countryDenmark:I(log10(vitdintake) - median.logintake) 0.436478 0.061658 7.079 2.53e-11 *** countryFinland:I(log10(vitdintake) - median.logintake) 0.132080 0.086855 1.521 0.12995 countryIreland:I(log10(vitdintake) - median.logintake) 0.114902 0.081007 1.418 0.15766 countryPoland:I(log10(vitdintake) - median.logintake) 0.245292 0.057448 4.270 3.05e-05 *** countryDenmark:sunexpavoid sun 0.004212 0.061569 0.068 0.94553 countryFinland:sunexpavoid sun -0.142507 0.061207 -2.328 0.02092 * countryIreland:sunexpavoid sun 0.096052 0.061288 1.567 0.11867 countryPoland:sunexpavoid sun -0.042359 0.047476 -0.892 0.37337 countryDenmark:sunexpprefer sun 0.069935 0.059355 1.178 0.24013 countryFinland:sunexpprefer sun -0.019098 0.058774 -0.325 0.74557 countryIreland:sunexpprefer sun -0.093419 0.099831 -0.936 0.35054 countryPoland:sunexpprefer sun 0.173724 0.088568 1.961 0.05124 . sklon dle státu sometimes avoid vs. sometimes prefer vs. sometimes Příjem vitaminu D je silnější prediktor v Dánsku, v Irsku a Finsku vůbec Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Interakce předpokládatelně to funguje jenom ve Finsku a Polsku v Irsku úplně naopak, zřejmě náhoda, málo preferujících žen Avoid Sometimes Prefer 1.501.551.601.651.70 Sun exposure Predictedlog10(vitaminD) Denmark Finland Ireland Poland Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Vlivná pozorování Finka, která se vyhýbá slunku... 20 25 30 35 40 0.000.020.040.060.080.10 BMI Cook'sdistance Denmark Finland Ireland Poland Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • Nedokázali jsme zcela vysvětlit rozdíly mezi státy • Interakce (státy-slunění), která se špatně interpretuje, takže možná lépe nezahrnovat do výsledku • výsledné prediktory: – BMI – příjem vitaminu D (v každém státě jiný efekt) • pozor na logaritmickou škálu Závěry Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Finální model lm(formula = log10(vitd) ~ country + bmi + country:log10(vitdintake) - 1, data = women) Estimate Std. Error t value Pr(>|t|) countryDenmark 1.523693 0.100271 15.196 < 2e-16 *** countryFinland 1.729285 0.127440 13.569 < 2e-16 *** countryIreland 1.824750 0.111454 16.372 < 2e-16 *** countryPoland 1.579786 0.103125 15.319 < 2e-16 *** bmi -0.009619 0.003069 -3.134 0.00198 ** countryDenmark:log10(vitdintake) 0.434867 0.061992 7.015 3.32e-11 *** countryFinland:log10(vitdintake) 0.174453 0.087081 2.003 0.04646 * countryIreland:log10(vitdintake) 0.091818 0.080599 1.139 0.25596 countryPoland:log10(vitdintake) 0.226312 0.056947 3.974 9.80e-05 *** Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Interpretace - logaritmy Andersen, 2005 Ondřej Májek, 2019 Bi7491 Regresní modelování – Případová studie: Vitamin D Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Interpretace - logaritmy Účinek zvýšení o jednotku BMI: vynásobení 10-0,0096 = 0,978 ... pokles o 2,2% lm(formula = log10(vitd) ~ country + bmi + country:log10(vitdintake) - 1, data = women) Estimate Std. Error t value Pr(>|t|) countryDenmark 1.523693 0.100271 15.196 < 2e-16 *** countryFinland 1.729285 0.127440 13.569 < 2e-16 *** countryIreland 1.824750 0.111454 16.372 < 2e-16 *** countryPoland 1.579786 0.103125 15.319 < 2e-16 *** bmi -0.009619 0.003069 -3.134 0.00198 ** countryDenmark:log10(vitdintake) 0.434867 0.061992 7.015 3.32e-11 *** countryFinland:log10(vitdintake) 0.174453 0.087081 2.003 0.04646 * countryIreland:log10(vitdintake) 0.091818 0.080599 1.139 0.25596 countryPoland:log10(vitdintake) 0.226312 0.056947 3.974 9.80e-05 *** Účinek zdvojnásobení příjmu v Dánsku: vynásobení 20.4349 = 1,352 ... nárůst o 35%