Stochastické modelování s binárním endpointem Jiří Jarkovský, Simona Littnerová Binární endpointy klinických dat logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Mortalita a přežití: čím se liší? •Základní endpointy v studiích na klinických datech •Rozdílný význam i metodika analýzy 3 iStock_000005151131Medium.jpg Pacient přijat k hospitalizaci Pacient propuštěn nebo zemřel za hospitalizace Úmrtí za hospitalizace Žijící při propuštění Analýza hospitalizační mortality • bez vlivu času • logistická regrese aj. Dlouhodobé sledování po propuštění Úmrtí Žijící Analýza přežití • klíčový je vliv doby sledování • cenzorování pacientů • Kaplan-Meier, Coxova regrese logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Analýza faktorů ovlivňujících mortalitu a přežití •Identifikace faktorů zvyšujících riziko úmrtí je jedním z hlavních cílů analýzy dat v medicíně •Podle typu endpointu (hospitalizační mortalita vs. dlouhodobé přežití) se odvíjí použité metody • •Dva obecné přístupy –Identifikace rizikových skupin pacientů a následná stratifikace do podsouborů (např. samostatná analýza kardiogenního šoku u ASS); modely jsou následně vytvářeny samostatně v rámci podsouborů –Vývoj modelů = rovnice, rozhodovací pravidla, neuronové sítě apod. kombinující prediktory (vysvětlující proměnné) za účelem vysvětlení endpointu (zde nejčastěji mortality) 4 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ROC analýza •Identifikace cutt offs pro kategorizaci spojitých proměnných aby při jejich užití v modelech byla maximalizována jejich sensitivita a specificita 5 Kde leží optimální hranice mezi skupinami? Identifikace hranice s nejvyšší sensitivitou a specificitou pro odlišení skupin logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Logistická regrese •Standardní metoda pro analýzu binárních charakteristik (zemřelý/žijící) bez vlivu času •Modeluje závislost výskytu úmrtí na binárních, kategoriálních nebo spojitých proměnných •Výsledkem rovnice je pravděpodobnost, že u daného pacienta nastane hodnocená endpoint •Alternativou jsou např. rozhodovací stromy, neuronové sítě a další klasifikační metody 6 Příklad logistické regrese: predikce binární charakteristiky (osa y) za pomoci spojité proměnné (osa x) Model logistické regrese logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Coxův model proporcionálních rizik •Standardní metoda pro analýzu dlouhodobého přežití (kromě dat o úmrtí musíme znát i dobu sledování pacientů) •Modeluje závislost výskytu úmrtí na binárních, kategoriálních nebo spojitých proměnných při započítání doby sledování a cenzorování pacientů •Doba sledování je klíčovou součástí výpočtu, sledovaný efekt musí mít „čas se projevit“ • 7 S prodlužující se dobou sledování klesá počet pacientů a tedy i spolehlivost křivky v daném čase Počet pacientů v čase klesá díky úmrtím a cenzorování (pacient již není v daném čase dále sledován) Řada testů pro srovnání skupin pacientů (log-rank, Gehan test) i modelovacích technik (Coxův model proporcionálních rizik) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Odds ratio, relativní riziko a hazard ratio •Různé způsoby vyjádření rizika pacientů –s danou vlastností (muži vs. ženy, kategorie NYHA, zestárnutí o 10 let) –pro výskyt události (mortalita, komplikace atd.) •Většinou vyjádřeny jako OR/RR/HR (95% IS) • •ODDS RATIO –Spjato s logistickou regresí nebo kontingenčními tabulkami –Retrospektivní studie – •RELATIVNÍ RIZIKO –Odvozeno od kontingenčních tabulek –Prospektivní studie – •HAZARD RATIO –Spjato s Coxovým modelem proporcionálních rizik –Studie pracující s přežitím a cenzorovanými pacienty 8 Podobný, ale nikoliv identický význam. Matematické vlastnosti výhodné pro různé účely. Vazba na určité statistické metody a typy studií. logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Relative risk vs. Odds ratio ? •Smysl RR a OR •Výpočet •Srovnatelnost •Interpretace •Výhody a nevýhody • •Aplikace v klinickém hodnocení • 9 Relative risk (relativní riziko) Odds ratio (poměr šancí) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Smysl RR a OR •Popis vlivu faktoru (léčba, klinický parametr) na výskyt události (úmrtí, progrese aj.) • 10 Relative risk (relativní riziko) Odds ratio (poměr šancí) þSnadná přirozená interpretace rizik vyjádřených jako procento událostí ALE þMatematická omezení pro některé aplikace þPouze málo lidí má přirozenou schopnost interpretovat OR ALE þOR v řadě aplikací výhodnější matematické vlastnosti logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Výpočet •Srovnání výskytu události mezi dvěma rameny (A,B) studie • 11 Relative risk (relativní riziko) Odds ratio (poměr šancí) event A B RR= OR= bez eventu logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Vztah mezi RR a OR 12 Zhang, J. et al. JAMA 1998;280:1690-1691. Relative risk (relativní riziko) Odds ratio (poměr šancí) RR a OR je přímo srovnatelné pouze při nízkém bazálním riziku logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Srovnatelnost RR a OR I: maximum 13 þRR mění své maximum podle bazálního rizika Relative risk (relativní riziko) Odds ratio (poměr šancí) Bazální riziko þOdds ratio má vždy rozsah od 0 do nekonečna þVelikost OR není závislá na velikosti bazálního rizika þOR lze použít pro srovnání studií s různým bazálním rizikem !!!! þVýhodné pro metaanalýzu þRR ve studiích s různým bazálním rizikem jsou nesrovnatelná !!!! logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Srovnatelnost RR a OR II: symetrie 14 •Existuje mezi RR a O rozdíl v případě výměny definice eventu a non-eventu? Relative risk (relativní riziko) Odds ratio (poměr šancí) I II vs. RR(II)= OR(II)= RR(I)= OR(I)= logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody RR a OR ve studiích s různou mírou bazálního rizika 15 Výskyt eventu (%) Výskyt eventu (%) Bazální (control) výskyt eventu (%) Ve skupině „Case“ připadá na jednoho pacienta bez eventu 4x tolik pacientů s eventem než ve skupině „Control“ Odds ratio Relative risk Pacient ve skupině „Case“ má x-krát zvýšenou pravděpodobnost výskytu eventu než pacient ve skupině „Control“. X-krát závisí na basálním výskytu eventu. logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody RR a OR v prospektivních a retrospektivních studiích 16 þZpětné sledování příčin eventu þPřevážně case-control studie þVýběrem pacientů ovlivňujeme bazální výskyt eventu Retrospektivní studie Prospektivní studie þRR nelze použít –ovliněno bazálním výskytem eventu þ þVyužití OR – není ovliněno designem studie þSledování výskytu eventu a následná analýza jeho příčin þPřevážně kohortní studie þBazální výskyt eventu je dán vlastnostmi kohorty pacientů þ þBezproblémové využití RR Relative risk (relativní riziko) Odds ratio (poměr šancí) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Relative risk vs. Odds ratio: shrnutí 17 þIntuitivně snadno interpretovatelné þPro prospektivní studie þ þMaximum se liší podle bazální hodnoty výskytu eventu þ Relative risk (relativní riziko) Odds ratio (poměr šancí) þRetrospektivní studie þAplikace v metaanalýze þStandardní výstup logistické regrese þRozsah vždy 0 až nekonečno, není ovlivněno bazálním výskytem eventu þ þObtížnější interpretace þ Hazard ratio þVýznamově leží mezi RR a OR þStandardní výstup Coxova modelu proporcionálních rizik ROC analýza logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ROC analýza •Nástroj pro identifikaci cut-off (hranice rozdělení spojitých dat) ve spojitých datech vzhledem k co nejlepšímu odlišení binárního endpointu •Výsledkem je binarizace spojité proměnné, která je často lépe interpretovatelná než výsledky na spojitých datech •Identifikace konkrétního cut-off souvisí s preferencí buď sensitivity nebo specificity pro identifikaci endpointu •Upřednostnění sensitivity nebo specificity je do určité míry subjektivní dle reálného cíle analýzy –Vysoká sensitivita – screeningový test, kdy je třeba zachytit všechny možné nemocné (např. závažné onemocnění, které je třeba zachytit v počátečním stadiu) –Vysoká specificita – pokud je nezbytné odchytit pouze skutečně nemocné pacienty (např. nechceme vystavovat pacienty zbytečné léčbě málo závažného onemocnění) • • • 19 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ROC analýza •Identifikace cutt offs pro kategorizaci spojitých proměnných aby při jejich užití v modelech byla maximalizována jejich sensitivita a specificita 20 Kde leží optimální hranice mezi skupinami? Identifikace hranice s nejvyšší sensitivitou a specificitou pro odlišení skupin logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Sensitivita a specificita •Klíčové pojmy v popisu vztahu dvou binárních proměnných = situace kdy predikujeme binární endpoint binárním prediktorem 21 1 – nemocný 0 - zdravý 1 – riziková skupina Skutečně pozitivní Falešně pozitivní 0 – neriziková skupina Falešně negativní Skutečně negativní logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Výstupy ROC 22 AUC (plocha pod křivkou) + IS Čím odlišnější od 0.5, tím lepší identifikace endpointu Testování významnosti AUC Sensitivita a specificita v každém bodě křivky – mohou být doplněny o IS Nejlepší kombinace sensitivity a specificity určuje příslušný dělící bod spojité proměnné Při identifikaci cut-off je třeba také kontrolovat, aby výsledná riziková skupina neobsahovala pouze minimum hodnot (cut-off oddělující jednoho pacinta nemá téměř smysl) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ROC – příklad I 23 Odlišení dvou skupin pacientů (modří=zdraví; červení=nemocní) Analyzovaná spojitá proměnná Optimální cut-off s nejvyšší specificitou a sensitivitou Logistická regrese logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Logistická regrese •Logistická regrese je základním nástrojem pro analýzu závislosti binárního endpointu (úmrtí, komplikace atd.) na spojitých nebo binárních prediktorech •Cílem analýzy je: –Identifikace vztahů mezi prediktory a endpointem a jejich popis (odds ratio) –Vytvoření predikčního modelu umožňujícího zařazení pacientů do hodnocených skupin •Logistická regrese patří do skupiny zobecněných lineárních modelů (lineární statistické modely s linkovací funkcí) • • 25 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Princip logistické regrese I •V logistické regresi modelujeme vliv spojitých nebo binárních prediktorů na endpoint s binomickým rozdělením - > není možné použít klasickou lineární regresi •Predikujeme pravděpodobnost výskytu jevu pomocí rovnice: • • • •Kde je tzv. logit, linkovací funkce pro logistickou regresi a rovnice a+b*x je použitý lineární model •Pojem linkovací funkce je spjat se zobecněnými lineárními modely, kdy linkovací funkce převádí problém nelineární závislosti y na x na lineární model •Zjednodušeně řečeno „nelineární vztah=linkovací funkce(lineární model)“ •Zobecněný lineární model s linkovací funkcí „identita“ = lineární model • 26 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Princip logistické regrese II •Model logistické regrese lze popsat také jako: tedy, že logaritmus šance na výskyt jevu lze popsat jeho lineární závislostí na x • •S využitím této znalosti můžeme popsat jak se mění šance na výskyt jevu (např. úmrtí) při změně x, konkrétně poměr šancí pro změnu x o D • • • • •Pro D=1, tak získáme hodnotu odds ratia pro změnu x o 1 jako exp(regresní koeficient x) • 27 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Kategoriální data jako prediktory v logistické regresi •Kategoriální a ordinální data mohou do analýzy vstupovat jako binární proměnné •Kategoriální data (nelze seřadit) -> dummies •Ordinální data (lze seřadit) –Dummies –Definice referenční kategorie (obvykle kategorie s nejnižším rizikem pro hodnocený endpoint • •Příklad: The New York Heart Association (NYHA) Functional Classification • 28 Původní Dummies Vzhledem k referenci NYHA NYHA I NYHA II NYHA III NYHA IV NYHA II ref NYHA III ref NYHA IV ref I 1 0 0 0 0 0 0 I 1 0 0 0 0 0 0 I 1 0 0 0 0 0 0 II 0 1 0 0 1 II 0 1 0 0 1 III 0 0 0 0 1 III 0 0 0 0 1 IV 0 0 1 1 1 IV 0 0 1 1 1 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Výstupy logistické regrese •Koeficienty rovnice logistické regrese •Odds ratio jako popis rizikovosti prediktorů pro výskyt endpointu • • • • •Popis celkových výsledků a kvality modelu 29 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Odds ratio •Popisuje míru rizika spjatou: –U spojitých proměnných se změnou hodnoty o 1 (z tohoto důvodu se spojité proměnné často převádí na interpretovatelné jednotky – např. věk po destiletích, koncentrace po stovkách jednotek) –U binárních proměnných spjatých s výskytem vlastnosti (kódováno jako 1) •U klasických dummies jde o riziko vůči všem ostatním pacientům bez dané vlastnosti •U binárních proměnných kódovaných vůči referenční kategorii jde o nárůst oproti pacientům v referenční kategorii • •Odds ratio je exponenciální hodnota koeficientu regresní rovnice 30 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Hodnocení kvality modelu I •Klasifikace objektů na základě vytvořené rovnice logistické regrese, analyzován je úspěch klasifikace (zcela korektní by pak bylo toto testování na nezávislém souboru) •Standardně je jako hranice pro klasifikaci využíváno p=0.5 a je možné ji popsat standardními ukazateli vztahu dvou binárních proměnných jako je sensitivita, specificita, pozitivní a negativní prediktivní hodnota apod. 31 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Hodnocení kvality modelu II •Hosmer & Lemeshow test •Jde o aplikaci chi-square testu na výsledky predikce logistické regrese •Jsou srovnávány pozorované počty pacientů v rizikových skupinách vs. počty očekávané dle výsledků logistického modelu (obvykle na bázi decilů rizikové funkce) •V případě shody pozorovaných a očekávaných četností je model považován za dobře kalibrovaný 32 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Hodnocení kvality modelu III •-Pseudo R2 –Nejde o přímou obdobu R2 u lineární regrese –Popisuje zlepšení výsledků modelu oproti modelu pouze s interceptem (tedy bez vlivu prediktoru) –Existuje řada algoritmů pro výpočet pseudo R2 •Cox & Snell – analyzuje zlepšení výsledků modelu oproti samotnému interceptu • • • •Nagelkerke – adjustuje Cox & Snell na maximální možnou hodnotu 33 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Vícerozměrná logistická regrese •Požadavky na kvalitní predikční model –Maximální predikční síla –Maximální interpretovatelnost –Minimální složitost •Tvorba modelů –Neobsahuje redundantní proměnné –Je otestován na nezávislých datech •Výběr proměnných –Algoritmy typu dopředné a zpětné eliminace jsou pouze pomocným ukazatelem při výběru proměnných finálního modelu –Při výběru proměnných se uplatní jak klasické statistické metody (ANOVA), tak expertní znalost významu proměnných a jejich zastupitelnosti • 34 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Vícerozměrná logistická regrese: příklad I •Identifikace dvou druhů kosatců: VERSICOL vs. ostatní 35 VERSICOL Lze jednoznačně pozorovat různou diskriminační schopnost různých proměnných v jednorozměrné analýze logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Vícerozměrná logistická regrese: příklad II 36 Lze jednoznačně pozorovat korelace prediktorů logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Vícerozměrná logistická regrese: příklad III 37 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Vícerozměrná logistická regrese: příklad IV 38 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Logistická regrese: shrnutí •Základní nástroj pro identifikaci faktorů ovlivňujících výskyt binárních endpointů a predikci individuální pravděpodobnosti výskytu endpointů •Použitelná jako obdoba diskriminační analýzy pro 2 skupiny •Popisuje míru rizikovosti prediktorů pro binární endpoint ve formě odds ratia • •Pro vícerozměrné modely je důležité analyzovat redundanci parametrů a stabilitu vícerozměrných modelů •Pro praktické nasazení modelů je nezbytná jejich krosvalidace, popřípadě jiné metody testování nasazení modelů na nezávislých datech •Neumí pracovat s cenzorovanými daty • •Standardní metodika analýzy rizikových faktorů pro binární endpointy (hospitalizační mortalita apod.) • 39