Dodatky ke zobecněným lineárním modelům Bi7491 Regresní modelování Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Co byste měli vědět a umět po dnešní hodině ? Chápat princip analýzy deviance Umět nadefinovat Poissonův model a popsat jeho užití Umět vysvětlit pojem overdispersion – čím je způsobena a jak ji poznat a řešit Znát základní možnosti modelování ordinálních výsledků Dodatky ke zobecněným lineárním modelům Analýza deviance ve zobecněných lineárních modelech Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Modely a submodely • Modelování - y nahrazujeme prostřednictvím odhadu • Jak moc se vzájemně liší? • Model s n parametry MAXIMÁLNÍ MODEL (plný, saturovaný) → veškerá variabilita do systematické složky • Model s k parametry ZKOUMANÝ MODEL • když vyloučíme některý prediktor (m < k parametrů) SUBMODEL • Model s 1 parametrem (konstantou – průměrem) NULOVÝ MODEL → veškerá variabilita do náhodné složky μˆ vždy stejný typ rozdělení, stejná linkovací funkce βˆ Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM představuje odchylku zkoumaného modelu od „dokonalého“ maximálního modelu analogie s analýzou rozptylu – zde formulovaná pomocí změny ve věrohodnosti umožňuje test odchylky od maximálního modelu Deviance log-věrohodnost maximálního modelu log-věrohodnost zkoumaného modelu )];ˆ();([2 yμyy llD  Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Testování submodelů • Deviance je velmi užitečná při srovnání dvou modelů z nichž jeden je podmodelem (submodelen) druhého • Je-li ΔD > χ2 1-α(k-m), kde m (k) je počet odhadovaných parametrů submodelu (zkoumaného modelu), pak je submodel nevhodný – přehnaně zjednodušující log-věrohodnost submodelu rozdíl deviancí )];ˆ();ˆ([2 yμyμ SUBllD  log-věrohodnost zkoumaného modelu Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Test významnosti celého modelu vs. maximální model • srovnání maximálního (plného) modelu se zkoumaným modelem – REZIDUÁLNÍ DEVIANCE (odpovídá reziduálnímu součtu čtverců) • Nechybí nám nějaký významný efekt? D > χ2 1-α(počet pozorování – počet parametrů) NĚCO V MODELU CHYBÍ... Software uvádí příslušnou statistiku Je ale asymptotická – slouží spíš pro orientační kontrolu !!! Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Test významnosti celého modelu vs. nulový model • srovnání zkoumaného modelu s nulovým modelem NULOVÁ DEVIANCE – REZIDUÁLNÍ DEVIANCE • Vysvětluje vůbec zkoumaný model nějakou informaci? ΔD > χ2 1-α(počet parametrů – 1) MODEL NĚCO VYSVĚTLUJE Software uvádí příslušnou statistiku Je ale asymptotická – slouží spíš pro orientační kontrolu !!! Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Maximální model VĚROHODNOST Zkoumaný model Nulový model Submodel DEVIANCE REZIDUÁLNÍ TESTY PARAMETRY n k m 1 n-k k-1 SUBMODEL k-m NULOVÁminus REZIDUÁLNÍ Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Akaikeovo informační kritérium (Akaike information criterion, AIC ) AIC= – 2 maximum logaritmované věrohodnosti + 2 počet parametrů modelu • Čím je hodnota AIC menší, tím je model lepší. • AIC penalizuje modely s velkým počtem parametrů • užití brání „přeučení“ modelu (takový model by dobře neodpovídal novému vzorku) klAIC 2);ˆ(2  yμ Dodatky ke zobecněným lineárním modelům Poissonova regrese Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Poissonovo rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (jediný parametr λ). Jedná se o zobecnění binomického rozdělení pro a . Pravděpodobnostní funkce: Střední hodnota, rozptyl: Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek v poli mikroskopu, počet žížal vyskytujících se na 1 m2, počet pooperačních komplikací během určitého časového intervalu po výkonu. 0, ! );()(   x x e xpxXP x X    n 0p   DXEX , Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM 0 2 4 6 8 10 0.00.10.20.30.40.5 lambda = 0.5 0 2 4 6 8 10 0.00.10.20.30.40.5 lambda = 1 0 2 4 6 8 10 0.00.10.20.30.40.5 lambda = 5 Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Formulace Poissonova modelu Uvažujeme výsledek vyjádřený počtem (událostí, objektů), který chceme vztáhnout ke známým vysvětlujícím proměnným – modelujeme pomocí Poissonova rozdělení ni PoY ii ,...,1 )(~   Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Formulace Poissonova modelu ni xxEY ippii ,...,1 ...110    ni xxm ippii ,...,1 ...)ln( 110    Normální lineární regresní model: Poissonův regresní model – modelujeme očekávaný počet událostí: Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Linkovací funkce 0 2 4 6 8 10 -2-1012 x log(x) -2 -1 0 1 2 0246 x exp(x) ln(m) η exp(η) m Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Interpretace koeficientů - příklad )exp( )(ln 01 01     m m )exp( )(ln 102 102     m m )exp( )exp( )exp()exp( )exp( )exp( )1,2( 1 0 10 0 10 1 2         m m RR Subjekt 1: Subjekt 2: Risk ratio (relativní riziko) nějaké události: Exp(odhad parametru) PŘEDSTAVUJE RELATIVNÍ RIZIKO SPOJENÉ S DANÝM PREDIKTOREM Parametr asociovaný s nějakým binárním prediktorem Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Model incidence (míry) Popsaný model lze využít pro modelování incidence onemocnění (výskytu událostí apod.) Nezbytné, pokud se pro jednotlivá pozorování liší např. doba sledování Do modelu je nezbytné uvést jmenovatele – součet osoboroků v riziku (person-years at risk), označ. di V rámci softwarových nástrojů se specifikuje jako tzv. offset: Incidence = počet nových případů součet „osoboroků“ v riziku nixxdm nixxdm nixx d m ippiii ippiii ippi i i ,...,1,...)ln()ln( ,...,1,...)ln()ln( ,...,1,...ln 110 110 110            Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Model incidence (míry) Popsaný model lze využít pro modelování incidence onemocnění (výskytu událostí apod.) Nezbytné, pokud se pro jednotlivá pozorování liší např. doba sledování Do modelu je nezbytné uvést jmenovatele – součet osoboroků v riziku (person-years at risk), označ. di V rámci softwarových nástrojů se specifikuje jako tzv. offset Interpretace exp(β) – poměr incidencí Incidence = počet nových případů součet „osoboroků“ v riziku Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Ověření splnění předpokladů 1. Linkovací funkce – ln(.) 2. Správnost lineárního prediktoru – netřeba přidávat další proměnné, transformovat proměnné, nebo přidat interakce mezi proměnnými 3. Správnost předpokládaného rozptylu výsledků – dáno vzorcem pro Poissonovo rozdělení Obdobně jako u logistické regrese • analýza reziduí a vlivu • analýza deviance Dodatky ke zobecněným lineárním modelům „Nadměrný rozptyl“ - overdispersion Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Probíraná rozdělení v GLM prozatím jsme se věnovali logistické a poissonově regresi... Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Binomické rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém experimentu je stejná pravděpodobnost výskytu události a je p = θ. Pravděpodobnostní funkce: Střední hodnota Rozptyl knk k n kXP         )1()(  nXE )( )1()(   nXD Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Poissonovo rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (jediný parametr λ). Jedná se o zobecnění binomického rozdělení pro a . Pravděpodobnostní funkce: Střední hodnota, rozptyl: Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek v poli mikroskopu, počet žížal vyskytujících se na 1 m2, počet pooperačních komplikací během určitého časového intervalu po výkonu. 0, ! );()(   x x e xpxXP x X    n 0p   DXEX , Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Střední hodnota a rozptyl prozatím jsme se věnovali logistické a poissonově regresi... v těchto rozděleních jsou spjaty střední hodnota a rozptyl: v Poissonově rozdělení platí je li střední hodnota 1,5, je rozptyl rovněž 1,5 (návštěv na urgentním příjmu za hodinu, moučných červů v dl mouky,...) v Binomickém rozdělení platí je li střední hodnota 1,5, je rozptyl 0,75 (v situaci, kdy např. odhadujeme počet chlapců mezi třemi potomky) Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Overdispersion v praxi v praxi rozdělení výsledků nemusí přesně odpovídat předpokladům DŮVOD výsledky nejsou vzájemně zcela nezávislé (více měření u jednoho pacienta/lékaře/laboratoře, autokorelace v časových řadách, ...) naše naměřené a zkoumané prediktory kompletně nespecifikují výsledek INDIKACE velmi vysoká reziduální variabilita (vysoká významnost testu) ŘEŠENÍ přidat více prediktorů (pokud ale ten důležitý byl změřen) odhadnout a využít zvlášť disperzní parametr family=quasibinomial / quasipoisson Dodatky ke zobecněným lineárním modelům Multinomiální modely Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM opět vycházíme z lineárního prediktoru modelovat binomicky? modelovat nějaké skóre? ani jedno nemusí být vhodné Ordinální výsledek kategorie lze seřadit, ale jen obtížně k nim lze přiřadit číselnou hodnotu (např. stadium choroby) ij p j ji x  1 0  Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Ordinální výsledek Příklad: modelujeme stadium fibrózy jater (Yi = 0,1,2,3) pomocí tří krevních markerů kumulativní pravděpodobnosti (odshora) jednotlivých stadií: kdybychom použili logistickou regresi pro spojené kategorie 2 a více 3,2,1,1, 3,2,2, 3,3, iiii iii ii pppq ppq pq    pravděpodobnost kategorie 3 pravděpodobnost kategorie 2 a více pravděpodobnost kategorie 1 a více 332211 2, 2, 2, 1 ln)logit( iii i i ii xxx q q q            cut-off mezi 2 a 3 cut-off mezi 1 a 2 cut-off mezi 0 a 1 Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Model proporcionálních šancí Model proporcionálních šancí pro kumulativní logit j = 1,2,3 v měřítku pravděpodobností 332211 , , ,, )P(1 )P( ln 1 ln)logit( iiij i i ji ji jiji xxx jY jY q q q                       )exp(1 )exp( )( 332211 332211 , iiij iiij ijji xxx xxx xqq      Předpoklad: Vliv proměnné nezávisí na volbě cut-off (!) Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Proporcionalita Model proporcionálních šancí pro kumulativní logit j = 1,2,3 332211 , , ,, )P(1 )P( ln 1 ln)logit( iiij i i ji ji jiji xxx jY jY q q q                       Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Proporcionalita Model proporcionálních šancí pro kumulativní logit j = 1,2,3 odhadnuté pravděpodobnosti 332211 , , ,, )P(1 )P( ln 1 ln)logit( iiij i i ji ji jiji xxx jY jY q q q                       1,0, 2,1,1, 3,2,2, 3,3, 1 ii iii iii ii qp qqp qqp qp     Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Interpretace Andersen & Skovgaard, 2010 Výsledek modelování: závislost stadia fibrózy na krevních markerech Byla provedena log2 transformace markerů – odhadujeme účinek zdvojnásobení jejich hodnot všechny markery jsou spojeny se stadiem choroby zdvojnásobení hodnoty markeru ykl40 dává o 72% vyšší šanci fibrózy vyššího stadia Logistický a Poissonův model Závěr Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM Co byste měli vědět a umět po dnešní hodině ? Chápat princip analýzy deviance Umět nadefinovat Poissonův model a popsat jeho užití Znát interpretaci probíraných modelů a jejich koeficientů Umět vysvětlit pojem overdispersion – čím je způsobena a jak ji poznat a řešit Znát základní možnosti modelování ordinálních výsledků Dodatky ke zobecněným lineárním modelům Cvičení Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Dodatky ke GLM V adresáři naleznete článek: Lee a kol.: Predicting Mortality Among Patients Hospitalised for Heart Failure Úkoly: 1. Co představuje závisle proměnnou (výsledek)? 2. Jaký model byl využit pro modelování vztahu mezi prediktory a výsledkem? 3. Jaká byla modelovací strategie pro výběr prediktorů? 4. Byla ověřena celková shoda mezi pozorovanými a predikovanými odhady rizika (kalibrace)? Jak? 5. Najděte některé odlišnosti ve výsledcích univariátní a multivariátní analýzy? 6. Jak interpretujete výsledky multivariátního modelu (tabulka 3)?