Logistický model Bi7491 Regresní modelování Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Vědět, jak se definuje lineární regresní model Vysvětlit předpoklady regresních modelů Umět použít v lineárním regresním modelu různé typy prediktorů Vědět, co je multikolinearita, jak ji zjistit a jak se s ní vypořádat Umět se vypořádat s chybějícími daty Vědět, co je interakce, jak ji poznat, a jak ji zohlednit v konstruovaném modelu Znát možnosti kauzálního působení různých faktorů, umět popsat rozdíl mezi zkreslující proměnnou a mediátorem, popisovat jednoduché vztahy pomocí modelových diagramů Znát základní pravidla pro zařazování proměnných do modelu Umět posoudit splnění modelových předpokladů pomocí grafických nástrojů Co byste již měli vědět a umět? Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste měli vědět a umět po dnešní hodině ? Znát užitečné veličiny pro měření vztahu/účinku: poměr rizik a poměr šancí Znát princip metody maximální věrohodnosti Vědět, co nového nám ve srovnání s klasickým lineárním modelem mohou poskytnout zobecněné lineární modely Umět nadefinovat logistický model a popsat jeho užití Znát základní metody pro ověření předpokladů modelu Logistický model Poměr rizik a poměr šancí Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Motivace Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: Jak rozhodnete o závislosti uvedených veličin? Můžete nějak kvantifikovat sílu vztahu mezi veličinami? SIDS Věk matky Do 25 let 25 a více let Celkem Ano 29 15 44 Ne 7301 11241 18542 Celkem 7330 11256 18586 Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Motivace Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: Pomocí Pearsonova chí-kvadrát nebo Fisherova exaktního testu můžeme rozhodovat o závislosti/nezávislosti dvou sledovaných veličin. Testy ale neumožňují tento vztah kvantifikovat. Má-li to smysl a chceme-li kvantifikovat (rozhodovat o těsnosti této závislosti) můžeme použít tzv. relativní riziko a poměr šancí. SIDS Věk matky Do 25 let 25 a více let Celkem Ano 29 15 44 Ne 7301 11241 18542 Celkem 7330 11256 18586 Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Relativní riziko = Relative risk Výpočet relativního rizika (RR) umožňuje srovnat pravděpodobnosti výskytu sledovaného jevu ve dvou různých skupinách. 1. skupina – experimentální nebo skupina s expozicí určitému faktoru 2. skupina – kontrolní nebo skupina bez expozice db b ca a P P RR + +== 0 1 =RR Pravděpodobnost výskytu jevu v 1. skupině (experimentální) Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) 0 1 P P = Sledovaný jev Skupina Experimentální Kontrolní Celkem Ano a b a + b Ne c d c + d Celkem a + c b + d n Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad – relativní riziko Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: SIDS Věk matky Do 25 let 25 a více let Celkem Ano 29 15 44 Ne 7301 11241 18542 Celkem 7330 11256 18586 97,2 1124115 15 730129 29 0 1 = + += + +== db b ca a P P RR Riziko výskytu SIDS u dětí matek ve věku do 25 je téměř třikrát vyšší než u dětí matek rodících ve vyšším věku. Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Riziko vs. „šance“ (odds) Riziko – odhad pravděpodobnosti vzniku onemocnění Relativní riziko – poměr dvou pravděpodobností Šance – poměr pravděpodobnosti výskytu jevu a výskytu opačného jevu nabývá hodnot mezi 0 a nekonečnem pokud kůň vyhraje s pravděpodobností 10%, jaká je jeho šance na výhru? 1 1 1 P P odds − = Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Poměr šancí = Odds ratio Poměr šancí (OR) je další charakteristikou, která umožňuje srovnat výskyt sledovaného jevu ve dvou různých skupinách. 1. skupina – experimentální nebo skupina s expozicí určitému faktoru 2. skupina – kontrolní nebo skupina bez expozice =OR Pravděpodobnost výskytu jevu v 1. skupině (experimentální) Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) 0 0 1 1 0 1 1 1 P P P P O O − − == 1 – Pravděpodobnost výskytu jevu v 1. skupině (experimentální) 1 – Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) d b c a P P P P OR = − − = 0 0 1 1 1 1 Sledovaný jev Skupina Experimentální Kontrolní Celkem Ano a b a + b Ne c d c + d Celkem a + c b + d n Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad – odds ratio Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: SIDS Věk matky Do 25 let 25 a více let Celkem Ano 29 15 44 Ne 7301 11241 18542 Celkem 7330 11256 18586 98,2 11241 15 7301 29 1 1 0 0 1 1 === − − = d b c a P P P P OR „Šance“ na výskyt SIDS u dětí matek ve věku do 25 je téměř třikrát vyšší než u dětí matek rodících ve vyšším věku. Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Grafické srovnání RR a OR A B RR = 2 10 3 10 6 == OR = 5.3 7 3 4 6 == Výskyt sledovaného jevu Bez výskytu sledovaného jevu Proč to nevychází vždy stejně? Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Komentáře k RR, OR hodnota relativního rizika leží mezi 0 a 1/P0 pro běžné jevy nelze pozorovat vysoké hodnoty relativního rizika pokud je riziko v kontrolní skupině 66%, maximální RR je 1,5 OR je obtížnější interpretovat může být vhodné konvertovat na RR, musíme ale znát riziko v kontrolní skupině nevychází stejně, ale oba jsou validní ukazatele účinku )1(1 0 ORP OR RR −− = RRP PRR OR 0 0 1 )1( − − = kdy spolu obě veličiny RR a OR splývají? Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Základní typy epidemiologických studií Kohortová studie U některých subjektů je rizikový faktor přítomen a u jiných ne → sledujeme v čase, zda se vyskytne událost. Studie případů a kontrol U některých subjektů se událost vyskytla a u jiných ne → zpětně hodnotíme, zda se liší s ohledem na nějaký rizikový faktor. Exponovaní jedinci Jedinci bez expozice Případy (s událostí) Případy (s událostí) Kontroly (bez události) Kontroly (bez události) Exponovaní jedinci Jedinci bez expozice Historie Začátekstudie Čas Začátekstudie Čas S událostí Bez události Průběh studie Kohorta subjektů (náhodně vybranáze studované populace) S událostí Bez události Exponovaníjedinci Jedinci bez expozice Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Použití RR a OR Kohortová studie – u některých subjektů je rizikový faktor přítomen a u jiných ne → sledujeme, zda se vyskytne událost. Zjištěná pravděpodobnost výskytu události v kontrolní skupině je reprezentativní, neboť prospektivně zařazujeme všechny pacienty → korektní použití RR. Studie případů a kontrol – u některých subjektů se událost vyskytla a u jiných ne → zpětně hodnotíme, zda se liší s ohledem na nějaký rizikový faktor. Zjištěná pravděpodobnost výskytu události v kontrolní skupině není reprezentativní, neboť ji ovlivňujeme zpětným výběrem skupin subjektů. → nekorektní použití RR. → korektní použití OR. Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Poměr šancí – další příklad Protektivní účinek hormonální antikoncepce na riziko zhoubného nádoru vaječníku Zdroj: Risk of Ovarian Cancer in Relation to Estrogen and Progestin Dose and Use Characteristics of Oral Contraceptives, Ness a kol. 2000 „Šance“ na zhoubný nádor ovarií se snižuje o 40% Ovarian cancer OC user Yes No Total Yes 426 341 767 No 940 426 1366 Total 1366 767 2133 6,0 426 341 940 426 1 1 0 0 1 1 === − − = d b c a P P P P OR Logistický model Metoda maximální věrohodnosti Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Metoda maximální věrohodnosti Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation“. Máme n nezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s hustotou . Sdružená hustota odpovídající n pozorovaným hodnotám x1, x2,…, xn je: Sdružená hustota vyjadřuje(za předpokladu, že známe θ), jak moc je pravděpodobné, že pozorované hodnoty pochází z rozdělení s hustotou Pointa metody maximální věrohodnosti: Dívat se na sdruženou hustotu jako na funkci θ a vybrat θ takové, aby výraz byl co největší (maximum). = = n i in xfxxf 1 1 );()|,,(  );( xf );( xf = = n i in xfxxf 1 1 );()|,,(  Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Věrohodnostní funkce Zavádíme tzv. věrohodnostní funkci („likelihood function“): Maximálně věrohodný odhad, značíme ho , je číslo, které maximalizuje věrohodnostní funkci, tedy Výpočetně se jedná o řešení rovnice (rovnic): Musíme si ještě ověřit, že se jedná o maximum – např. pomocí druhých derivací. MLEˆ )|,,(),,|( 11  nn xxfxxL  = 0/),,|( 1 = dxxdL n ),,|(maxargˆ 1 nMLE xxL    = Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Logaritmus věrohodnostní funkce Často je výhodnější (hlavně výpočetně jednodušší) maximalizovat logaritmus věrohodnostní funkce:  == === n i i n i inn xfxfxxLxxl 11 11 );(ln);(ln),,|(ln),,|(   Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad ML odhad parametru μ normálního rozdělení Máme n i.i.d. pozorování z normálního rozdělení: x1, x2,…, xn. Sdružená hustota má tvar: Logaritmus věrohodnostní funkce má tvar: Parciální derivace logaritmu věrohodnostní funkce mají tvar: = −− = n i x n i exxf 1 2/)( 2 2 1 22 2 1 ),|,,(    =),,|,(ln 1 2 nxxL  = /ln L = 2 /ln L Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad ML odhad parametru μ normálního rozdělení Máme n i.i.d. pozorování z normálního rozdělení: x1, x2,…, xn. Sdružená hustota má tvar: Logaritmus věrohodnostní funkce má tvar: Parciální derivace logaritmu věrohodnostní funkce mají tvar: = −− = n i x n i exxf 1 2/)( 2 2 1 22 2 1 ),|,,(    = −−−−= n i in x nn xxL 1 2 2 2 1 2 )( 2 1 ln 2 2ln 2 ),,|,(ln     0)( 1 /ln 1 2 =−= = n i ixL    0)( 2 1 2 /ln 1 2 42 2 =−+−= = n i ix n L    Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Výsledkem jsou následující odhady: = −= n i iMLE xx n 1 22 )( 1 ˆ xx n n i iMLE == =1 1 ˆ Příklad ML odhad parametru μ normálního rozdělení Logistický model Zobecněný lineární model Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Zobecněný lineární model zobecnění mnoha existujících statistických modelů John A. Nelder (1924-2010), Robert W.M. Wedderburn (1947-1975) Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Zobecněný lineární model zobecnění mnoha existujících statistických modelů John A. Nelder (1924-2010), Robert W.M. Wedderburn (1947-1975) Klasický model 1. Náhodná část 2. Systematická část 3. Spojení mezi náhodnou a systematickou částí iiEY = ij p j ji X= += 1 0  2 =iDY ii  = Lineární prediktor Linkovací funkce nezávislé normální Předpoklad rozložení Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Zobecněný lineární model zobecnění mnoha existujících statistických modelů John A. Nelder (1924-2010), Robert W.M. Wedderburn (1947-1975) Klasický model 1. Náhodná část 2. Systematická část 3. Spojení mezi náhodnou a systematickou částí iiEY = ij p j ji X= += 1 0  2 =iDY ii  = Lineární prediktor Linkovací funkce nezávislé normální Předpoklad rozložení Třída exponenciálních rozdělení Vhodné funkce ODHAD PARAMETRŮ METODOU MAXIMÁLNÍ VĚROHODNOSTI Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Čemu se budeme věnovat? Logistická regrese binomické (alternativní) rozdělení výsledku, linkovací funkce logit(.) Poissonova regrese Poissonovo rozdělení výsledku, linkovací funkce ln(.) pozdrobněji o zobecněných lineárních modelech viz předmět M7222 Zobecněné lineární modely Logistický model Logistická regrese Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Binomické rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém experimentu je stejná pravděpodobnost výskytu události a je p = π. Pravděpodobnostní funkce: Střední hodnota Rozptyl knk k n kXP − −      == )1()(  nXE =)( )1()(  −= nXD Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita n π 0 10 20 30 40 50 0.00.3 n = 4 pi = 0.2 0 10 20 30 40 50 0.00.3 n = 4 pi = 0.5 0 10 20 30 40 50 0.00.3 n = 4 pi = 0.8 0 10 20 30 40 50 0.00.3 n = 10 pi = 0.2 0 10 20 30 40 50 0.00.3 n = 10 pi = 0.5 0 10 20 30 40 50 0.00.3 n = 10 pi = 0.8 0 10 20 30 40 50 0.00.3 n = 20 pi = 0.2 0 10 20 30 40 50 0.00.3 n = 20 pi = 0.5 0 10 20 30 40 50 0.00.3 n = 20 pi = 0.8 0 10 20 30 40 50 0.00.3 n = 50 pi = 0.2 0 10 20 30 40 50 0.00.3 n = 50 pi = 0.5 0 10 20 30 40 50 0.00.3 n = 50 pi = 0.8 Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Formulace logistického modelu Uvažujeme binární výsledek, který chceme vztáhnout ke známým vysvětlujícím proměnným – modelujeme pomocí alternativního (binomického) rozdělení ni AY ii ,...,1 )(~ =  Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Formulace logistického modelu ni xxEY ippii ,...,1 ...110 = +++=  ippii xxp  +++= ...)(logit 110 Normální lineární regresní model: Logistický regresní model – modelujeme pravděpodobnost události pro i-tý subjekt: linkovací funkce lineární prediktor (označujeme písmenem η – „éta“) Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Linkovací funkce 0.0 0.2 0.4 0.6 0.8 1.0 -4-2024 x log(x/(1-x)) -4 -2 0 2 4 0.00.20.40.60.81.0 x exp(x)/(1+exp(x)) p p p − = 1 ln)logit( )exp(1 )exp( )expit()(logit 1    + ==− logit(p) η expit(η) p Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Linkovací funkce 0.0 0.2 0.4 0.6 0.8 1.0 -4-2024 x log(x/(1-x)) -4 -2 0 2 4 0.00.20.40.60.81.0 x exp(x)/(1+exp(x)) p p p − = 1 ln)logit( )exp(1 )exp( )expit()(logit 1    + ==− logit(p) η expit(η) p Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Interpretace koeficientů )exp( 1 1 ln )(logit 0 1 1 0 1 1 01    = − = − = p p p p p )exp( 1 1 ln )(logit 10 2 2 10 2 2 102    += − += − += p p p p p )exp( )exp( )exp()exp( )exp( )exp( 1 1 )1,2( 1 0 10 0 10 1 1 2 2      == + = − − = p p p p OR Subjekt 1: Subjekt 2: Odds ratio (poměr šancí) na nějakou událost: Exp(odhad parametru) PŘEDSTAVUJE ODDS RATIO SPOJENÉ S DANÝM PREDIKTOREM Parametr asociovaný s nějakým binárním prediktorem Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Interpretace koeficientů – příklad 1 Rizikové faktory pro trombózu spojenou s chemoterapií Zdroj: Development and validation of a predictive model for chemotherapy-associated thrombosis, Khorana a kol. 2008 Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Interpretace koeficientů – příklad 2 Rizikové faktory pro pooperační plicní komplikace Zdroj: Residual neuromuscular block is a risk factor for postoperative pulmonary complications, Berg a kol. 1997 Logistický model Ověření správnosti modelu Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Správnost modelu 1. Pozorované a predikované hodnoty od sebe nejsou příliš vzdáleny • celková shoda 2. Žádné z pozorování k celkové vzdálenosti extrémně nepřispívá • individuální komponenty celkové statistiky, další metody • analýza reziduí ),...,,(, 21 nyyy=yy )ˆ,...,ˆ,ˆ(ˆ,ˆ 21 nyyy=yy Pozorované hodnoty výsledku Predikované hodnoty výsledku Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Celková shoda (overall goodness of fit) Nulová hypotéza: Skutečná regresní funkce je rovna modelové funkci Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Predikce pravděpodobnosti události )...(expit 110 ippii xxp  +++= 0 10 20 30 40 0.00.20.40.60.81.0 Tobacco Prob(CHD) Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Je vhodné srovnávat se seskupenými pozorováními: 0 10 20 30 40 0.00.20.40.60.81.0 Tobacco Prob(CHD) To lze popsat formálně a statisticky testovat... Predikce pravděpodobnosti události Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Ověření splnění předpokladů analýza reziduí: Pearsonova rezidua Pearsonova rezidua )ˆ1(ˆ ˆ ii ii i y r   − − = Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Ověření splnění předpokladů analýza reziduí: Devianční rezidua Devianční rezidua )ˆ1ln(2 jid −−= pro yj = 1 pro yj = 0 )ˆln(2 jid = Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Ověření splnění předpokladů Další běžné diagnostiky Leverage (pákové body) určení potenciální vlivnosti daného bodu (pozorování, které je daleko od ostatních a může tak ovlivnit výsledek regrese) závisí na váze pozorování a vzdálenosti pozorování prediktoru od průměru váha pozorování s predikovanou hodnotou pravděpodobnosti blízkou 0 nebo 1 je nízká Cookova vzdálenost shrnuje informaci z reziduí a z leverage deleční diagnostika – určení vlivu daného pozorování na výsledek ukazuje, nakolik přítomnost daného pozorování ovlivňuje odhady koeficientů Logistický model Závěr Ondřej Májek, 2020 Bi7491 Regresní modelování – Logistický model Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste měli vědět a umět po dnešní hodině ? Znát užitečné veličiny pro měření vztahu/účinku: poměr rizik a poměr šancí Znát princip metody maximální věrohodnosti Vědět, co nového nám ve srovnání s klasickým lineárním modelem mohou poskytnout zobecněné lineární modely Umět nadefinovat logistický model a popsat jeho užití Znát základní metody pro ověření předpokladů modelu