Dodatky ke zobecněným lineárním modelům Bi7491 Regresní modelování Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste měli vědět a umět po dnešní hodině ? Chápat princip analýzy deviance Umět nadefinovat Poissonův model a popsat jeho užití Umět vysvětlit pojem overdispersion – čím je způsobena a jak ji poznat a řešit Znát základní možnosti modelování ordinálních výsledků Dodatky ke zobecněným lineárním modelům Analýza deviance ve zobecněných lineárních modelech Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Modely a submodely • Modelování - y nahrazujeme prostřednictvím odhadu • Jak moc se vzájemně liší? • Model s n parametry MAXIMÁLNÍ MODEL (plný, saturovaný) → veškerá variabilita do systematické složky • Model s k parametry ZKOUMANÝ MODEL • když vyloučíme některý prediktor (m < k parametrů) SUBMODEL • Model s 1 parametrem (konstantou – průměrem) NULOVÝ MODEL → veškerá variabilita do náhodné složky μˆ vždy stejný typ rozdělení, stejná linkovací funkce βˆ Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita představuje odchylku zkoumaného modelu od „dokonalého“ maximálního modelu analogie s analýzou rozptylu – zde formulovaná pomocí změny ve věrohodnosti umožňuje test odchylky od maximálního modelu Deviance log-věrohodnost maximálního modelu log-věrohodnost zkoumaného modelu )];ˆ();([2 yμyy llD −= Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Testování submodelů • Deviance je velmi užitečná při srovnání dvou modelů z nichž jeden je podmodelem (submodelen) druhého • Je-li ΔD > χ2 1-α(k-m), kde m (k) je počet odhadovaných parametrů submodelu (zkoumaného modelu), pak je submodel nevhodný – přehnaně zjednodušující log-věrohodnost submodelu rozdíl deviancí )];ˆ();ˆ([2 yμyμ SUBllD −= log-věrohodnost zkoumaného modelu Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Test významnosti celého modelu vs. maximální model • srovnání maximálního (plného) modelu se zkoumaným modelem – REZIDUÁLNÍ DEVIANCE (odpovídá reziduálnímu součtu čtverců) • Nechybí nám nějaký významný efekt? D > χ2 1-α(počet pozorování – počet parametrů) NĚCO V MODELU CHYBÍ... Software uvádí příslušnou statistiku Je ale asymptotická – slouží spíš pro orientační kontrolu Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Test významnosti celého modelu vs. nulový model • srovnání zkoumaného modelu s nulovým modelem NULOVÁ DEVIANCE – REZIDUÁLNÍ DEVIANCE • Vysvětluje vůbec zkoumaný model nějakou informaci? ΔD > χ2 1-α(počet parametrů – 1) MODEL NĚCO VYSVĚTLUJE Software uvádí příslušnou statistiku Je ale asymptotická – slouží spíš pro orientační kontrolu Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Maximální model VĚROHODNOST Zkoumaný model Nulový model Submodel DEVIANCE REZIDUÁLNÍ TESTY PARAMETRY n k m 1 n-k k-1 SUBMODEL k-m NULOVÁminus REZIDUÁLNÍ Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Akaikeovo informační kritérium (Akaike information criterion, AIC ) AIC= – 2 maximum logaritmované věrohodnosti + 2 počet parametrů modelu • Čím je hodnota AIC menší, tím je model lepší. • AIC penalizuje modely s velkým počtem parametrů • užití brání „přeučení“ modelu (takový model by dobře neodpovídal novému vzorku) klAIC 2);ˆ(2 +−= yμ Dodatky ke zobecněným lineárním modelům Poissonova regrese Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Poissonovo rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (jediný parametr λ). Jedná se o zobecnění binomického rozdělení pro a . Pravděpodobnostní funkce: Střední hodnota, rozptyl: Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek v poli mikroskopu, počet žížal vyskytujících se na 1 m2, počet pooperačních komplikací během určitého časového intervalu po výkonu. 0, ! );()( === − x x e xpxXP x X    →n 0→p  == DXEX , Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita 0 2 4 6 8 10 0.00.10.20.30.40.5 lambda = 0.5 0 2 4 6 8 10 0.00.10.20.30.40.5 lambda = 1 0 2 4 6 8 10 0.00.10.20.30.40.5 lambda = 5 Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Formulace Poissonova modelu Uvažujeme výsledek vyjádřený počtem (událostí, objektů), který chceme vztáhnout ke známým vysvětlujícím proměnným – modelujeme pomocí Poissonova rozdělení ni PoY ii ,...,1 )(~ =  Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Formulace Poissonova modelu ni xxEY ippii ,...,1 ...110 = +++=  ni xxm ippii ,...,1 ...)ln( 110 = +++=  Normální lineární regresní model: Poissonův regresní model – modelujeme očekávaný počet událostí: Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Linkovací funkce 0 2 4 6 8 10 -2-1012 x log(x) -2 -1 0 1 2 0246 x exp(x) ln(m) η exp(η) m Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Interpretace koeficientů - příklad )exp( )(ln 01 01   = = m m )exp( )(ln 102 102   += += m m )exp( )exp( )exp()exp( )exp( )exp( )1,2( 1 0 10 0 10 1 2      == + == m m RR Subjekt 1: Subjekt 2: Risk ratio (relativní riziko) nějaké události: Exp(odhad parametru) PŘEDSTAVUJE RELATIVNÍ RIZIKO SPOJENÉ S DANÝM PREDIKTOREM Parametr asociovaný s nějakým binárním prediktorem Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Model incidence (míry) Popsaný model lze využít pro modelování incidence onemocnění (výskytu událostí apod.) Nezbytné, pokud se pro jednotlivá pozorování liší např. doba sledování Do modelu je nezbytné uvést jmenovatele – součet osoboroků v riziku (person-years at risk), označ. di V rámci softwarových nástrojů se specifikuje jako tzv. offset: Incidence = počet nových případů součet „osoboroků“ v riziku nixxdm nixxdm nixx d m ippiii ippiii ippi i i ,...,1,...)ln()ln( ,...,1,...)ln()ln( ,...,1,...ln 110 110 110 =++++= =+++=− =+++=         Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Model incidence (míry) Popsaný model lze využít pro modelování incidence onemocnění (výskytu událostí apod.) Nezbytné, pokud se pro jednotlivá pozorování liší např. doba sledování Do modelu je nezbytné uvést jmenovatele – součet osoboroků v riziku (person-years at risk), označ. di V rámci softwarových nástrojů se specifikuje jako tzv. offset Interpretace exp(β) – poměr incidencí Incidence = počet nových případů součet „osoboroků“ v riziku Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Ověření splnění předpokladů 1. Linkovací funkce – ln(.) 2. Správnost lineárního prediktoru – netřeba přidávat další proměnné, transformovat proměnné, nebo přidat interakce mezi proměnnými 3. Správnost předpokládaného rozptylu výsledků – dáno vzorcem pro Poissonovo rozdělení Obdobně jako u logistické regrese • analýza reziduí a vlivu • analýza deviance Dodatky ke zobecněným lineárním modelům „Nadměrný rozptyl“ - overdispersion Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Probíraná rozdělení v GLM prozatím jsme se věnovali logistické a poissonově regresi... Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Binomické rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém experimentu je stejná pravděpodobnost výskytu události a je p = θ. Pravděpodobnostní funkce: Střední hodnota Rozptyl knk k n kXP − −      == )1()(  nXE =)( )1()(  −= nXD Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Poissonovo rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (jediný parametr λ). Jedná se o zobecnění binomického rozdělení pro a . Pravděpodobnostní funkce: Střední hodnota, rozptyl: Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek v poli mikroskopu, počet žížal vyskytujících se na 1 m2, počet pooperačních komplikací během určitého časového intervalu po výkonu. 0, ! );()( === − x x e xpxXP x X    →n 0→p  == DXEX , Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Střední hodnota a rozptyl prozatím jsme se věnovali logistické a poissonově regresi... v těchto rozděleních jsou spjaty střední hodnota a rozptyl: v Poissonově rozdělení platí je li střední hodnota 1,5, je rozptyl rovněž 1,5 (návštěv na urgentním příjmu za hodinu, moučných červů v dl mouky,...) v Binomickém rozdělení platí je li střední hodnota 1,5, je rozptyl 0,75 (v situaci, kdy např. odhadujeme počet chlapců mezi třemi potomky) Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Overdispersion v praxi v praxi rozdělení výsledků nemusí přesně odpovídat předpokladům DŮVOD výsledky nejsou vzájemně zcela nezávislé (více měření u jednoho pacienta/lékaře/laboratoře, autokorelace v časových řadách, ...) naše naměřené a zkoumané prediktory kompletně nespecifikují výsledek INDIKACE velmi vysoká reziduální variabilita (vysoká významnost testu) ŘEŠENÍ přidat více prediktorů (pokud ale ten důležitý byl změřen) odhadnout a využít zvlášť disperzní parametr family=quasibinomial / quasipoisson Dodatky ke zobecněným lineárním modelům Multinomiální modely Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita opět vycházíme z lineárního prediktoru modelovat binomicky? modelovat nějaké skóre? ani jedno nemusí být vhodné Ordinální výsledek kategorie lze seřadit, ale jen obtížně k nim lze přiřadit číselnou hodnotu (např. stadium choroby) ij p j ji x= += 1 0  Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Ordinální výsledek Příklad: modelujeme stadium fibrózy jater (Yi = 0,1,2,3) pomocí tří krevních markerů kumulativní pravděpodobnosti (odshora) jednotlivých stadií: kdybychom použili logistickou regresi pro spojené kategorie 2 a více 3,2,1,1, 3,2,2, 3,3, iiii iii ii pppq ppq pq ++= += = pravděpodobnost kategorie 3 pravděpodobnost kategorie 2 a více pravděpodobnost kategorie 1 a více 332211 2, 2, 2, 1 ln)logit( iii i i ii xxx q q q  +++=        − == cut-off mezi 2 a 3 cut-off mezi 1 a 2 cut-off mezi 0 a 1 Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Model proporcionálních šancí Model proporcionálních šancí pro kumulativní logit j = 1,2,3 v měřítku pravděpodobností 332211 , , ,, )P(1 )P( ln 1 ln)logit( iiij i i ji ji jiji xxx jY jY q q q   +++=       −  =         − == )exp(1 )exp( )( 332211 332211 , iiij iiij ijji xxx xxx xqq   ++++ +++ == Předpoklad: Vliv proměnné nezávisí na volbě cut-off (!) Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Proporcionalita Model proporcionálních šancí pro kumulativní logit j = 1,2,3 332211 , , ,, )P(1 )P( ln 1 ln)logit( iiij i i ji ji jiji xxx jY jY q q q   +++=       −  =         − == Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Proporcionalita Model proporcionálních šancí pro kumulativní logit j = 1,2,3 odhadnuté pravděpodobnosti 332211 , , ,, )P(1 )P( ln 1 ln)logit( iiij i i ji ji jiji xxx jY jY q q q   +++=       −  =         − == 1,0, 2,1,1, 3,2,2, 3,3, 1 ii iii iii ii qp qqp qqp qp −= −= −= = Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Interpretace Andersen & Skovgaard, 2010 Výsledek modelování: závislost stadia fibrózy na krevních markerech Byla provedena log2 transformace markerů – odhadujeme účinek zdvojnásobení jejich hodnot všechny markery jsou spojeny se stadiem choroby zdvojnásobení hodnoty markeru ykl40 dává o 72% vyšší šanci fibrózy vyššího stadia Logistický a Poissonův model Závěr Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste měli vědět a umět po dnešní hodině ? Chápat princip analýzy deviance Umět nadefinovat Poissonův model a popsat jeho užití Znát interpretaci probíraných modelů a jejich koeficientů Umět vysvětlit pojem overdispersion – čím je způsobena a jak ji poznat a řešit Znát základní možnosti modelování ordinálních výsledků Dodatky ke zobecněným lineárním modelům Cvičení Ondřej Májek, 2020 Bi7491 Regresní modelování – Dodatky ke GLM Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita V adresáři naleznete článek: Lee a kol.: Predicting Mortality Among Patients Hospitalised for Heart Failure Úkoly: 1. Co představuje závisle proměnnou (výsledek)? 2. Jaký model byl využit pro modelování vztahu mezi prediktory a výsledkem? 3. Jaká byla modelovací strategie pro výběr prediktorů? 4. Byla ověřena celková shoda mezi pozorovanými a predikovanými odhady rizika (kalibrace)? Jak? 5. Najděte některé odlišnosti ve výsledcích univariátní a multivariátní analýzy? 6. Jak interpretujete výsledky multivariátního modelu (tabulka 3)?