Smíšené modely Bi7491 Regresní modelování Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co již znáte z minulých hodin? Užití lineárního regresního modelu – spojité výsledky (definice, předpoklady – analýza reziduí, praktické užití) Binární výsledky (např. onemocnění) – práce s logistickou regresí, specifika, interpretace výsledků – poměr šancí Analýza deviance, Poissonova regrese, nadměrný rozptyl Kauzální vztahy – zkreslující faktory, interakce, kauzální diagramy Příprava dat: kategoriální proměnné, spojité proměnné – transformace, centrování, škálování Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste po dnešní hodině měli vědět a umět? popsat problém s klasickými statistickými metodami v případě úloh s opakovanými pozorováními u stejných subjektů (skupin) znát rozdíl mezi pevnými a náhodnými efekty znát definici smíšeného a longitudinálního modelu provést základní hodnocení dat se shluky prostřednictvím popsaných metod Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • Předchozí příklady: průřezový (cross-sectional) design Měření jsou provedena v jediném časovém okamžiku Např. srovnání podílu tělesného tuku u 10letých a 15letých dívek – dvě kohorty, nepárový t-test, možná zkreslení • Longitudinální design Stejné dívky, měřeny v 10 a 15 letech – párový t-test Nyní již všechna měření nejsou nezávislá (předpoklad standardních statistických technik) Dívky tvoří „shluky“ v datech – pozorování uvnitř shluku budou zřejmě podobnější, než v různých shlucích Motivace Smíšené modely Opakování – analýza rozptylu (viz Biostatistika pro MB) Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad – CHOPN Maximální inspirační tlak dle stadií kPa5,3 kPa9,8 9 1 1 1 = = = s y n kPa9,2 kPa6,6 12 2 2 2 = = = s y n kPa5,2 kPa4,5 27 3 3 3 = = = s y n Stadium III IVII Celkový průměr („grand mean“) kPa0,3 kPa4,6 48 = = = s y n Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Značení Součty: Průměry: Celková variabilita v souboru: Variabilita v rámci skupin (reziduální součet čtverců): Variabilita mezi skupinami (příslušná sledovanému vlivu = proměnné):  = = −= k i n j iije i yYS 1 1 2 )( =  −= k i iiA yynS 1 2 )(  = = in j iji YY 1  = = = k i n j ij i YY 1 1 iii nYy / = nYy / = Skupinový průměr („population mean“) Celkový průměr („grand mean“)  = = −= k i n j ijT i yYS 1 1 2 )( Stupně volnosti: 1−= ndfT Stupně volnosti: kndfe −= Stupně volnosti: 1−= kdfA k skupin, v i-té skupině ni pozorování Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Vztahy mezi odhady variability Platí: Dále se dá ukázat, že platí: Tedy platí, že celková variabilita se dá rozložit na variabilitu v rámci skupin a variabilitu mezi skupinami: )()(  −+−=− yyyYyY iiijij Stadium III IVII AeT SSS +=     = = =  = =  −+− =− k i ii k i n j iij k i n j ij yynyY yY i i 1 2 1 1 2 1 1 2 )()( )( Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Umělý příklad Léčba Pozorovaná hodnota Skupinový průměr Skupinový průměr – celkový průměr Pozorovaná hodnota – skupinový průměr Pozorovaná hodnota – celkový průměr 1 10 12 -4 -2 -6 1 12 12 -4 0 -4 1 14 12 -4 2 -2 2 19 20 4 -1 3 2 20 20 4 0 4 2 21 20 4 1 5 3 14 16 0 -2 -2 3 16 16 0 0 0 3 18 16 0 2 2 Celkový průměr = 16 Součet čtverců = 96 Součet čtverců = 18 Součet čtverců = 114 Stupně volnosti = 2 Stupně volnosti = 6 Stupně volnosti = 8 Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Princip analýzy rozptylu Testová statistika analýzy rozptylu: ee AA k i n j iij k i ii dfS dfS kn yY k yyn F i / / )( 1 )( 1 1 2 1 2 = − − − − =    = =  =  Za platnosti H0 platí: ),1(~ knkFF −− vysvětlená variabilita reziduální variabilita (pokud faktor A nic nevysvětluje – výběrové průměry ve skupinách jsou blízké – testové kritérium blízké 0 – nezamítáme nulovou hypotézu) Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Výsledek analýzy rozptylu Výsledné počty se standardně zaznamenávají do tzv. tabulky analýzy rozptylu: Nulovou hypotézu zamítneme/nezamítneme buď na základě srovnání výsledné p-hodnoty se zvolenou hladinou významnosti testu α, nebo srovnáním výsledné F statistiky s kritickou hodnotou (kvantilem) rozdělení F(k – 1, n – k) příslušnou zvolené hladině významnosti testu α. Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Mezi skupinami SA = 96 dfA = k – 1 = 2 MSA = 48 F = 16 0,004 Uvnitř skupin Se = 18 dfe = n – k = 6 MSe = 3 Celkem ST = 114 dfT = n – 1 = 8 Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Výsledek umělého příkladu 16=F14,5)6,2( 95,0 ),1( 1 ==−− − FF knk  ),1( knkFf −− Na hladině významnosti α =0,05 zamítáme H0 o rovnosti středních hodnot. Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Kontrolní dotaz: Jak vypadá matice plánu pro uvedený model? Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Kontrolní dotaz: Jak vypadá matice plánu pro uvedený model? • jedná se o lineární model s jedním kategoriálním prediktorem s k hodnotami                                 = 101 101 011 011 001 001           X =iEY 1 +=iEY H0: H1: 1−+= kiEY            =           − 0 0 1 1  k                       − 0 0 1 1  k  Smíšené modely Pevné a náhodné efekty Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • pevný efekt neznámá konstanta, kterou se snažíme odhadnout konkrétní parametr – těmi jsme se zabývali doteď • náhodný efekt – představuje náhodnou veličinu – jeho přidání do lineárního prediktoru umožňuje zavést korelaci mezi pozorováními – např. v podobě „náhodného interceptu“, který reprezentuje nepozorovatelnou individuální charakteristiku – neodhadujeme náhodný efekt (což ani nelze), ale parametry popisující jeho rozdělení – nezajímají nás efekty konkrétních jedinců, ale informace o cílové populaci jako celku Pevné a náhodné efekty Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • obsahuje pevné i náhodné efekty • jednoduchý příklad: analýza rozptylu (two-way) Smíšený model ijkjiijkY  +++= pevné efekty náhodné efekty reziduum ),0(~ 2  Nijk ),0(~ 2  Nj Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Smíšený model ijkjiijkY  +++= pevné efekty náhodné efekty iH i = ,0:0  ),0(~ 2  Nj 0: 2 0 =H jediný parametr několik parametrů Smíšené modely Odhad parametrů Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • analýza rozptylu (one-way), vyvážený design Nejjednodušší model ijiijY  ++= náhodné efekty ai ,...,1= nj ,...,1= skupiny pozorování ve skupině ),0(~ 2  Nij ),0(~ 2  Ni vzájemně nezávislé Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Náhodné efekty vytvářejí korelaci 22 2      + = • koeficient vnitrotřídní korelace (intraclass correlation coefficient, ICC) 22 )(   +=ijYD=)( ijYE =),cov( '' jiij YY ',',22 jjii ==+   ',',2 jjii = ',',0 jjii  rozptyl v jedné skupině v různých skupinách Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Součet čtverců – odhad ANOVA  = == == = −+−=− a i n j i a i n j iij a i n j ij YYYYYY 1 1 2 ... 1 1 2 . 1 1 2 .. )()()( celkový součet čtverců (SST) reziduální součet čtverců (SSE) součet čtverců efekt alfa (SSA) 2 )1()( −= naSSEE ))(1()( 22   +−= naSSAE MSEnaSSE =−= ))1(/(ˆ 2  n MSEMSA n aSSA − = −− = 2 2 ˆ)1/( ˆ     vyvážený design – n je počet ve skupině stupně volnosti: a-1an-1 an-a průměrné čtverce MST MSE MSA Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Odhad metodou maximální věrohodnosti • pevné efekty s normálními chybami • doplnění náhodných efektů – smíšený model  ++= ZXY  += XY X je matice n x p matice plánu pro pevné efekty Z je matice n x q matice plánu pro náhodné efekty • v praxi není ANOVA estimátor příliš vhodný Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Odhad metodou maximální věrohodnosti • v praxi se využívá tzv. REML (restricted maximum likelihood) obecně dostáváme méně zkreslené odhady parametrů ),0(~ 2 DN  ))(,(~ 2 T ZDZIXNY +  ++= ZXY ),0(~ 2 IN  Máme věrohodnostní funkci odhad parametrů β, σ2, D Smíšené modely Užití smíšených modelů Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Bloky jako náhodné efekty • blok – experimentální jednotka – definovány podmínkami experimentu nebo úsudkem – např. konkrétní jedinec, laboratoř vyhodnocující vzorky, zdravotnické zařízení, vesnice, rodina, vrh, ... Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • snažíme se porovnat čtyři výrobní procesy A, B, C, D – definovány a stanoveny, zajímají nás – PEVNÉ EFEKTY • médium (kukuřičný výluh) lze vždy vytvořit v množství pro čtyři experimenty – náhodně utvořeny, nejsou předmětem výzkumu – NÁHODNÉ EFEKTY • výsledkem je množství získaného penicilinu Příklad: Produkce penicilinu Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Produkce penicilinu • ANOVA s pevnými efekty: > lmod <- aov(yield ~ blend + treat, penicillin) > summary(lmod) Df Sum Sq Mean Sq F value Pr(>F) blend 4 264 66.00 3.504 0.0407 * treat 3 70 23.33 1.239 0.3387 Residuals 12 226 18.83 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > coef(lmod) (Intercept) blend1 blend2 blend3 blend4 treat1 86 6 -3 -1 2 -2 treat2 treat3 -1 3 • POZOR: Jsou využity odlišné typy kontrastů, které srovnávají výsledek s průměrem (interceptem) – součet všech je 0 Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Kategoriální prediktory Součtové kontrasty Původní Nové proměnné treat treat1 treat2 treat3 A 1 0 0 B 0 1 0 C 0 0 1 D -1 -1 -1 0= i )( 321  ++−=iEY 2 +=iEY 3 +=iEY • Stanovena dodatečná podmínka: 1 +=iEY Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Produkce penicilinu • Smíšený model: > mmod <- lmer(yield ~ treat + (1|blend), penicillin) pevný efekt náhodný efekt data seskupena podle blend 1 ... jen intercept Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Produkce penicilinu > summary(mmod) Linear mixed model fit by REML Formula: yield ~ treat + (1 | blend) Data: penicillin AIC BIC logLik deviance REMLdev 118.6 124.6 -53.3 117.3 106.6 Random effects: Groups Name Variance Std.Dev. blend (Intercept) 11.792 3.4339 Residual 18.833 4.3397 Number of obs: 20, groups: blend, 5 Fixed effects: Estimate Std. Error t value (Intercept) 86.000 1.817 47.34 treat1 -2.000 1.681 -1.19 treat2 -1.000 1.681 -0.59 treat3 3.000 1.681 1.78 Correlation of Fixed Effects: (Intr) treat1 treat2 treat1 0.000 treat2 0.000 -0.333 treat3 0.000 -0.333 -0.333 pevný efekt náhodný efekt pro orientační test použijeme normální aproximaci t-statistiky obdobně i test vnořených modelů pomocí ANOVA (nutno použít ML místo REML) Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Produkce penicilinu • Odhad náhodných efektů?? Už to nejsou parametry, ale náhodné veličiny (s nulovou střední hodnotou) • Lze však spočítat tzv. posteriorní střední hodnotu • Odhad hodnoty pro některý výluh Kombinace pevných efektů a posteriorní střední hodnoty: BEST LINEAR UNBIASED PREDICTOR (BLUP) > ranef(mmod)$blend (Intercept) Blend1 4.2878788 Blend2 -2.1439394 Blend3 -0.7146465 Blend4 1.4292929 Blend5 -2.8585859 Blend1 6 Blend2 -3 Blend3 -1 Blend4 2 Blend5 -4 Z modelu s pevnými efekty: Odhady se ve srovnání s původním modelem „scvrkly“: SHRINKAGE ESTIMATOR Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Produkce penicilinu • Analýza reziduí Srovnání s predikovanými hodnotami -2 -1 0 1 2 -6-4-20246 Theoretical Quantiles SampleQuantiles 82 84 86 88 90 92 -6-4-20246 Fitted Residuals Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Vnořené efekty • Příklad: Laboratorní testy Měření obsahu tuku ve vaječném prášku • 6 laboratoří – v každé dva laboranti • každý dva vzorky – u každého dvě měření ijklijkijiijkl STLY  ++++= cmod <- lmer(Fat ~ 1 + (1|Lab) + (1|Lab:Technician) + (1|Lab:Technician:Sample), data=eggs) Smíšené modely Longitudinální data Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • proměnná je u jedince měřena opakovaně • longitudinální studie se zabývají změnou příslušného výsledku v čase • cílem je charakterizovat změnu a faktory které ji ovlivňují • měření u jedince jsou korelovaná!!! Longitudinální data Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Pro každého jedince... náhodné efekty každý jedinec si „vylosuje“ vektor rozdělení společné pro celou populaci ),0(~ 2 DNi  ),(~| 2 iiiiii ZXNY +  • u každého jedince (i) je provedeno ni měření ve vektoru Yi ),(~ iii XNY  )(2 T iiii DZZ+=  možná explicitní autokorelace pevné efekty vektor společný pro celou populaci Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • americká studie, vývoj příjmů • 85 osob, alespoň 11 záznamů mezi 1968-1990 Příklad: Panelová studie příjmové dynamiky Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Panelová studie příjmové dynamiky year income 0 20000 40000 60000 80000 70 75 80 85 90 70 75 80 85 90 70 75 80 85 90 0 20000 40000 60000 80000 0 20000 40000 60000 80000 70 75 80 85 90 70 75 80 85 90 0 20000 40000 60000 80000 • vývoj u 20 osob: Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Panelová studie příjmové dynamiky • srovnání ženy x muži • zdá se, že muži mají vyšší plat, u žen však rychleji roste year log(income+100) 6 8 10 12 70 75 80 85 90 F 70 75 80 85 90 M Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Panelová studie příjmové dynamiky • pro každého jedince lze sestavit vlastní model – vlastní absolutní člen (interpretovatelnost – v roce 1978) i sklon přímky 7 8 9 10 11 0.00.10.20.3 Intercept Slope Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Panelová studie příjmové dynamiky • Smíšený model: > mmod <- lmer(log(income) ~ cyear*sex+age+educ+(cyear|person),psid) pevný efekt náhodný efekt data seskupena podle osob Jaké parametry model bude obsahovat? Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Panelová studie příjmové dynamiky • Smíšený model: > mmod <- lmer(log(income) ~ cyear*sex+age+educ+(cyear|person),psid) pevný efekt náhodný efekt data seskupena podle osob Jaké parametry model bude obsahovat? ijijj jajeijysjsiyijincome   +++ +++++= year ageeducyearsexsexyear)log( 10 ... i-tý rok u j-té osoby Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Panelová studie příjmové dynamiky Linear mixed model fit by REML Formula: log(income) ~ cyear * sex + age + educ + (cyear | person) Data: psid AIC BIC logLik deviance REMLdev 3840 3894 -1910 3786 3820 Random effects: Groups Name Variance Std.Dev. Corr person (Intercept) 0.28166 0.53071 cyear 0.00240 0.04899 0.187 Residual 0.46727 0.68357 Number of obs: 1661, groups: person, 85 Fixed effects: Estimate Std. Error t value (Intercept) 6.674178 0.543334 12.284 cyear 0.085312 0.008999 9.480 sexM 1.150315 0.121293 9.484 age 0.010932 0.013524 0.808 educ 0.104212 0.021437 4.861 cyear:sexM -0.026307 0.012238 -2.150 pevný efekt náhodný efekt pro velký vzorek lze použít normální aproximaci t-statistiky (cyear – centrovaný) Smíšené modely Závěr Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste po dnešní hodině měli vědět a umět? popsat problém s klasickými statistickými metodami v případě úloh s opakovanými pozorováními u stejných subjektů (skupin) znát rozdíl mezi pevnými a náhodnými efekty znát definici smíšeného a longitudinálního modelu provést základní hodnocení dat se shluky prostřednictvím popsaných metod Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • MIT Growth and Development Study • Průvodní text a data k dispozici na adrese: https://content.sph.harvard.edu/fitzmaur/ala2e/fat.txt 1. Prostudujte si text ke studii 2. Načtěte příslušná data do software R 3. Proveďte základní popis longitudinálních dat 4. Sestavte smíšený model pro vývoj podílu tělesného tuku 5. Odpovězte na otázku, zda růst podílu tělesného tuku je stejný před a po menarche Praktický úkol Ondřej Májek, 2020 Bi7491 Smíšené modely Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Použitá literatura Julian J. Faraway: Extending the Linear Model with R Garrett M. Fitzmaurice a kol.: Applied Longitudinal Analysis viz také http://support.sas.com/documentation/cdl/en/statug/63033/HTML/de fault/viewer.htm#statug_mixed_sect022.htm https://stat.ethz.ch/pipermail/r-help/2006-May/094765.html