Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Coxův model proporcionálního rizika a logistická regrese Iveta Selingerová Ústav matematiky a statistiky Přírodovědecká fakulta Masarykova univerzita 22.4.2013 Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Proměnné Dichotomická proměnná např. pohlaví (muž, žena), Kvalitativní proměnné - faktory n skupin kódujeme pomocí n proměnných (přeparametrizovaný model) nebo pomocí n − 1 proměnných, např. barva vlasů (blond, černé, hnědé, zrzavé) Spojité proměnné např. věk Interakce faktorů např. pohlaví a barva pleti (černý muž, černá žena, bílý muž, bílá žena) Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Kódování pomocí referenční kategorie Dichotomická proměnná např. pohlaví (muž, žena) proměnná Z Z = 1 pro muže Z = 0 pro ženy (referenční kategorie) Kvalitativní proměnné - faktory např. barva vlasů (blond, černé, hnědé, zrzavé) proměnné Z1, Z2, Z3 Z1 = 1 blond, Z1 = 0 jinak Z2 = 1 černé, Z2 = 0 jinak Z3 = 1 hnědé, Z3 = 0 jinak zrzavé referenční kategorie Barva vlasů blond černé hnědé zrzavé Z1 1 0 0 0 Z2 0 1 0 0 Z3 0 0 1 0 Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Kódování sigma omezená (deviation, effect) Dichotomická proměnná např. pohlaví (muž, žena) proměnná Z Z = 1 pro muže Z = −1 pro ženy (referenční kategorie) Kvalitativní proměnné - faktory např. barva vlasů (blond, černé, hnědé, zrzavé) proměnné Z1, Z2, Z3 Z1 = 1 blond, Z1 = 0 jinak Z2 = 1 černé, Z2 = 0 jinak Z3 = 1 hnědé, Z3 = 0 jinak zrzavé referenční kategorie Barva vlasů blond černé hnědé zrzavé Z1 1 0 0 -1 Z2 0 1 0 -1 Z3 0 0 1 -1 Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Úvod testujeme vliv faktoru na přežití ⇒ porovnání křivek přežití přežití (log-rank či Gehan-Wilcoxonův test) např. srovnáváme přežití mužů a žen chceme studovat více faktorů najednou nebo máme kvantitativní proměnné ⇒ regresní model např. přežití může záviset na pohlaví, věku, výsledcích vyšetření, typu léčby, . . . Regresní model Parametrický model - předpokládáme, že známe rozdělení přežití (Normální, exponenciální, lognormální, . . . ) Semiparametrický model - založen pouze na poměru rizik (Coxův model) Neparametrický model, např. jádrové vyhlazování Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Úvod testujeme vliv faktoru na přežití ⇒ porovnání křivek přežití přežití (log-rank či Gehan-Wilcoxonův test) např. srovnáváme přežití mužů a žen chceme studovat více faktorů najednou nebo máme kvantitativní proměnné ⇒ regresní model např. přežití může záviset na pohlaví, věku, výsledcích vyšetření, typu léčby, . . . Regresní model Parametrický model - předpokládáme, že známe rozdělení přežití (Normální, exponenciální, lognormální, . . . ) Semiparametrický model - založen pouze na poměru rizik (Coxův model) Neparametrický model, např. jádrové vyhlazování Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Definice Coxova modelu (Ti , δi , Zi (t)) Ti pozorovaný čas pro i-tého jedince δi indikátor cezorování pro i-tého jedince Zi (t) vektor kovariátů nebo rizikových faktorů pro i-tého jedince, které mohou mít efekt na přežití časově závislý, např. výsledek stejného vyšetření při jednotlivých kontrolách konstantní - známý v čase 0, např. pohlaví Zi (t) = Zi Máme p nezávisle proměnných Z = (Z1, . . . , Zp). Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Definice Coxova modelu Coxův model má tvar λ(t|Z) = λ0(t) exp(βT Z) = λ0(t) exp p k=1 βkZk λ(t|Z) riziková funkce pro jedince v čase t v závislosti na proměnných Z λ0(t) základní riziková funkce βT = (β1, . . . , βk) vektor parametrů Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Definice Coxova modelu Poměr rizik (hazard ratio) λ(t|Z) λ(t|Z∗) = λ0(t) exp p k=1 βkZk λ0(t) exp p k=1 βkZ∗ k = exp p k=1 βk(Zk − Z∗ k ) např. Zi léčebný efekt Zi = 1 pacient je léčen, Zi = 0 použito placebo λ(t|Z) λ(t|Z∗) = exp(βi ) Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Odhad a testování parametrů Metoda maximální věrohodnosti ∂L ∂Lβk = 0, k = 1, . . . , p Řešení se obvykle provádí numericky (Newton-Raphsonova či jiné iterační metody) Testování hypotézy H0 : β1 = β10, . . . , βq = βq0 Waldův test Test věrohodnostním poměrem Skórový test Za platnosti nulové hypotézy mají statistiky těchto testů rozdělení χ2 s q stupni volnosti Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Výstavba modelu Věrohodnostní poměr LR = −2 log L, L je hodnota věrohodnostní funkce pro odhadnuté parametry Akeikeho informační kritérium AIC = −2 log L + kp, k je počet regresních koeficientů, p je nějaká konstanta (většinou 2) Schwarzovo informační kritérium SBC = −2 log L + k log n, n je počet pozorování krokový výstavbový princip dopředu krokový výstavbový princip dozadu krokový výstavbový princip kombinovaný Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Odhad funkce přežití Coxova regrese poskytuje odhad rizikové funkce ˆλ(t|Z) = λ0(t) exp p k=1 ˆβkZk Vztah mezi funkcí přežití a rizikovou funkcí S(t) = exp(− t 0 λ(s)ds) Odhad funkce přežití ˆS(t|Z) = S0(t)exp( p k=1 ˆβk Zk ) Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Logistická regrese Závislá proměnná Y , Y = 1 nastal sledovaný jev, Y = 0 nenastal sledovaný jev Pravděpodobnost p = P(Y = 1|Z) Šance odds(p) = p 1−p logitová transformace ln p 1−p ln p 1 − p = βT Z = p k=1 βkZk P(Y = 1|Z) = exp(βTZ) 1 + exp(βTZ) Iveta Selingerová Coxův model a logistická regrese Kódování proměnných Coxův model proporcionálního rizika Logistická regrese Logistická regrese cutpoint=hranice pravděpodobnosti pro zařazení předpovědi např. cutpoint=0,5 předpovíme 1, pokud P(Y = 1|Z) ≥ 0, 5 předpovíme 0, pokud P(Y = 1|Z) < 0, 5 poměr šancí (odds ratio) OR = p1 1−p1 p2 1−p2 = exp(βTZ) exp(βTZ∗) = exp p k=1 βk(Zk − Z∗ k ) Iveta Selingerová Coxův model a logistická regrese