Analýza prežívania Zlyhávanie a cenzurovanie, funkcia vierohodnosti, základné charakteristiky a ich odhady, intervaly a pásy spoíahlivosti Stanislav Katina1 1 Ústav matematiky a statistiky Prírodovedecká fakulta Masarykova univerzita ZS 2013 f evropský 1 sociální G fond V CR EVROPSKÁ UNIE INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Stanislav Katina OP Vzdělávání ^J*— pro konkurenceschopnost Míva1^ m Aké otázky v analýze prežívania riešime? Príklady z praxe • Odhadujeme a interpretujeme funkciu prežívania a riziko • Porovnávame funkcie prežívania a riziká • Modelujeme vzíah medzi vysvetľujúcimi premennými a časom prežívania Stanislav Katina Poďakovanie Tento učební text vznikl za přispění Evropského sociálního fondu a státního rozpočtu ČR prostřednictvím Operačního programu Vzdělávání pro konkurenceschopnost v rámci projektu Univerzitní výuka matematiky v měnícím se světě (CZ. 1.07/2.2.00/15.0203) Stanislav Katina Otázky v analýze prežívania v aplikáciách Príklady z praxe Prežívanie pacientov po infarkte myokardu (IM) v rámci sekundárnej prevencie závažných kardiovaskulárnych problémov u pacientov s polymorfizmom glykoproteínu IV (G P VI13254C/T) v membráne krvných doštičiek. [Thrombosis Research 125, 2: 61-4, 2009] 105 pacientov sledovaných v priemere 19(±10.8) mesiacov Stanislav Katina Otázky v analýze prežívania v aplikáciách Príklady z praxe Otázky v analýze prežívania v aplikáciách Príklady z praxe Zlyhania: smrt, další IM, dalšia selektívna koronarografia (SKG: percutaneous coronary intervention (PCI, coronary angioplasty), coronary artery bypass graft (CABG)), dalša cievna mozgová príhoda (CMP; stroke), dalšia hospitalizácia (re-intervencia); sledované kombinácie: smrí/IM/re-intervencia a smrí/IM/re-intervencia/CMP [MACE; Major Adverse Cardiac Events, hlavné nepriaznivé srdcové udalosti] Adjlistujúce (rizikové) premenné: O pohlavie (žena=0, muž=1) O hypertenzia (nie=0, áno=1) 0 hyperlipidémia (nie=0, áno=1) O fajčenie (nefajčiar=0, fajčiar a bývalý fajčiar=1) 0 diabetes (nie=0, áno=1) 0 srdcové zlyhanie (NYHA; New York Heart Association; Classes: I = 0; II, III, IV = 1) Stanislav Katina Otázky v analýze prežívania v aplikáciách Príklady z praxe Acetabular n v komponent Stanislav Katina Analýza prežívania implantátov bedra a kolena na Slovensku v rokoch 2003-2011. [Acta Chir. Orthop. Traum. Čech. 80: 1-85, 2013] 49 668 operácií (primárnych operácií a revízií) zo všetkých slovenských ortopedických kliník za roky 2003-2011: • 38 485 THA (Total Hip Arthroplasty) • 11 183 TKA (Total Knee Arthroplasty) Stanislav Katina Otázky v analýze prežívania v aplikáciách Príklady z praxe Zlyhania: zlyhanie komponentu implantátu Adjustujúce (rizikové, prognostické) premenné: 0 typ komponentu (acetabulárny=0, femorálny=1) 0 fixácia komponentu (necementovaný=0, cementovaný=0) 0 pohlavie (žena=0, muž=1) O cementovacia technika (necementovaný=0, generácia cementu 1 = 1, generácia cementu II = 2, generácia cementu III = 3) 0 diagnóza pri primárnej operácii (primárna coxartróza = 1, dysplastická coxartróza = 2, poúrazová coxartróza = 3, aseptická nekróza hlavy = 4, M.Perthes = 5, reumatoidná artritída = 6, zlomenina krčku = 7) 0 dôvod revízie (spolu 18 dôvodov) 0 revidované časti (spolu 19 častí) a pod. Stanislav Katina Otázky v analýze prežívania v aplikáciách Príklady z praxe Otázky v analýze prežívania v aplikáciách Príklady z praxe Prežívanie pacientov s chronickou myeloidnou leukémiou (CML). [Neoplasma, 92, 5: 381-7, 2005] 589 pacientov s CML, z ktorých 78 absolvovalo transplantáciu krvotvorných kmeňových buniek kostnej drene (allogeneic transplantation; transplantácia od HLA-identického súrodenca alebo nepríbuzného darcu; HLA znamená human leukocyte antigen) a zároveň majú odobrané vzorky periférnej krvi a kostnej drene pred a po transplantácii na Katedre genetiky Národného onkologického ústavu v Bratislave v rokoch 1990 až 2002 Stanislav Katina Klasický prístup vs. analýza prežívania Príklady Example Akútna myelogénna leukémia (acute myelogenous leukemia, AML). Po absolvovaní chemoterapie a zmiernení príznakov, boli pacienti náhodne rozdelení do dvoch skupín. Prvá skupina (skupina A) dostala udržujúcu chemoterapiu a druhá (kontrolná; skupina B) nie. Cieíom bolo zistií, či udržujúca chemoterapia predlžuje čas do remisie (opätovného zhoršenia stavu). J Stanislav Katina Zlyhania: úmrtie pacienta Adjustujúce (prognostické, rizikové) premenné: O vek pacienta v čase transplantácie (skupina 1: <20 rokov, skupina 2: [20,40), skupina 3: >40) O fáza CML (spolu dve fázy; prvá chronická fáza = 1, ďalšie chronické fázy = 2) O pohlavie darcu a príjemcu (m-m, m-ž, ž-m, ž-ž) Q čas od diagnózy po transplantáciu (< 1 rok, > 1 rok) Stanislav Katina Klasický prístup vs. analýza prežívania Príklady Sk čas po kompletnú remisiu (v týždňoch) n udalostí cenzúr A 9,13,13+, 18,23,28+, 31, 34,45+, 48,161 + 11 7 4 B 5, 5, 8, 8,12,16+, 23,27, 30, 33,43,45 12 11 1 (číslo = čas do zlyhania, číslo a plus (+) = čas do cenzúry) Stanislav Katina Klasický prístup vs. analýza prežívania Tri náhfady na problém analýzy AML dát Klasický prístup vs. analýza prežívania Príklady Q problém 1: po odstránení cenzurovaných pozorovaní Q problém 2: po ošetrení cenzurovaných pozorovaní, ktoré zoberieme do úvahy akoby boli udalosíami (zlyhaniami) O problém 3: berúc do úvahy cenzurované pozorovania Stanislav Katina Klasický prístup vs. analýza prežívania Príklady Example Cystická fibróza (CF) je autozomálna genetická choroba spôsobená mutáciou génu pre CFTR (cystic fibrosis transmembrane conductance regulátor). Postihuje prevažne pľúca, ale aj pankreas, pečeň a črevo. V celoslovenskej databáze pacientov CF rozlišujeme pacientov s jasnou klinickou formou (typická forma, 259 živých, 112 zomrelých) a pacientov s atypickou formu (188 živých). Spolu teda 559 pacientov, 447 živých a 112 zomrelých. Aký je priemerný vek (prežívania) a medián (prežívania) v rokoch? Stanislav Katina problém 1 problém 2 problém 3 A B A B A B x 25.1 21.7 38.5 21.3 52.6 22.7 x 23.0 23.0 28.0 19.5 31.0 23.0 (čís a sú v týždňoch) Stanislav Katina Klasický prístup vs. analýza prežívania Príklady skupina/počty typická forma CF atypická forma CF spolu živí 259 188 447 zomrelí 112 0 112 spolu 371 188 559 Stanislav Katina Klasický prístup vs. analýza prežívania Príklady Klasický prístup vs. analýza prežívania Príklady problém 1 problém 3 typická CF typická CF X 9.22 45.05 x 4.90 52.26 (čísla sú v rokoch) Rozdiel medzi priemerným vekom prežívania pacientov s typickou formou CF a priemerným vekom zomrelých je 35.83 roka (podobne pre medián je tento rozdiel 47.36 roka) 95% IS pre strednú hodnotu je (7.02,11.41) a pre medián (2.72,7.08) Stanislav Katina Klasický prístup vs. analýza prežívania Príklady Krabicový diagram Histogram lomre pac ent s Z-n=112 vek v case úmrtia (v rokoch) n=112 Stanislav Katina priemerný vek prežívania pre všetkých pacientov bez rozdielu typu CF je 53.94 ±2.10 rokov, kde 95% IS je rovný (49.82,58.06) medián prežívania pre všetkých pacientov bez rozdielu typu CF je 70.82 roka; 95% IS pre medián zatiaf nie je možné vypočítať Priemerný vek prežívania pre pacientov s typickou formou CF je 45.05 ± 2.47 rokov, kde 95% IS je (40.21,49.89) Medián prežívania je 52.26 roka, dolná hranica 95% IS pre medián je 36.43 roka; Hornú hranicu IS pre medián zatiaľ nie je možné vypočítať Stanislav Katina Klasický prístup vs. analýza prežívania Príklady Tabuľka: Početnosti zomrelých v päíročných vekových intervaloch (n = 112). Označenia: vekové intervaly (zdola je interval otvorený a zhora uzavretý, okrem prvého, ktorý je aj zdola uzavretý): A, = (0,5), l2 = (5,10), /3 = (10,15), k = (15,20), k = (20,25), k =25,max(ve/0). vekové intervaly /i h h U k k početnosti 56 11 16 13 11 5 percentá 50% 9.82% 14.29% 11.61% 9.82% 4.46% Stanislav Katina Klasický prístup vs. analýza prežívania Príklady Klasický prístup vs. analýza prežívania Príklady Rozptylový graf a vyhladzovací splajn: typická forma CF - vyhladzovac spar ---- hranica 5 rokov - hran ca rok 2000 Stanislav Katina Událost Úvodné definície Udalosť: ukončenie pozorovania z dôvodu zlyhania alebo smrti pacienta - do konca sledovaného obdobia Príklady udalostí: • overall survival - smrt z akéhokoľvek dôvodu • progression-free survival - prvé znaky progresie choroby alebo smrt • disease-free survival - prvé znovuobjavenie sa choroby alebo smrí • event-free survival - prvé znovuobjavenie sa choroby, objavenie sa inej špecifikovanej choroby alebo smrt • disease-specific survival (cause-specific survival) - smrt ako dôsledok špecifikovanej choroby • relapse-free survival (recurrence-free survival) - prvé znaky recidívy (opakovania sa) chodoby • time-to-progression - prvé znaky progresie choroby Stanislav Katina Ďalšie možné otázky Zlyhanie: smrt Adjustujúce (prognostické) premenné: antropologické ukazovatele, funkčné charakteristiky píúc a pod. Stanislav Katina Cenúrovanie Úvodné definície Cenzúra: ukončenie pozorovania z dôvodu iného ako je zlyhanie alebo smrt pacienta - do konca sledovaného obdobia dôjde k úmrtiu len niektorých pacientov, zatiaľ čo u ostatných k úmrtiu do konca sledovaného obdobia bud nedôjde alebo sa títo pacienti z pozorovania stratia Príklady cenúr: • ukončenie štúdie (termination of the study): pacient prežije časový interval experimentu • konkurenčné riziko (competing risk): pacient zomrie z iného dôvodu, ako v dôsledku sledovanej choroby • prerušenie/vysadenie liečby (drop-out): pacient preruší liečbu a odíde z kliniky predčasne, napr. z dôvodu zlých vedľajších účinkov liečby, pacient sa sám rozhodne nepokračovat v liečbe • strata z ďalšieho sledovania (loss to follow-up): pacient sa rozhodne prestahovat a nemáme o ňom už žiadne informácie Stanislav Katina Cenúrovanie Cenzurovanie I. typu Cenúrovanie Cenzurovanie II. typu Základné princípy: O predpoklad - všetkých n jedincov vstupuje do experimentu súčasne 0 príčina cenzurovania - plánované ukončenie experimentu 0 ide o cenzurovanie časom - zvolíme pevné číslo tc, ktoré nazveme fixovaný cenzurujúci čas Q 7(d < 7(2) < _ < 7-00 kde 7«0 < tc < 7 tc.. pre necenzurované X pre cenzurované X Stanislav Katina Cenúrovanie Progresívne (zrýchlené) cenzurovanie I. typu Základné princípy: 0 predpoklad - všetkých n jedincov vstupuje do experimentu súčasne 0 príčina cenzurovania - plánované ukončenie experimentu 0 ide o cenzurovanie zlyhaním - zvolíme čísla tci, i = 1,2,..., k, ktoré nazveme fixované cenzurujúce časy, v čase tci vyradíme m, subjektov O tel < tc2 < ■ ■ ■ < tok Q v čase ŕci vyradíme mi subjektov, v čase tc2 vyradíme m2 subjektov, .. v čase tck vyradíme mk subjektov 0 po /<-tom kroku máme vyradených mi + m2 + ... + mk subjektov O náhodná veličina - počet skutočne pozorovaných zlyhaní de {0,1,...,n} Stanislav Katina Základné princípy: O predpoklad - všetkých n jedincov vstupuje do experimentu súčasne O príčina cenzurovania - plánované ukončenie experimentu 0 ide o cenzurovanie zlyhaním - zvolíme si pevné číslo d, ktoré nazveme fixovaný počet zlyhaní; ukončenie teda nastáva po vopred zvolenom počte d zlyhaní, kde d = [np] + 1,p e (0,1) O X = T<1>,X2 = T<2>,... ,Xd = 7W,Xtí+1 = TO, ...X„ = T™ 0 náhodná veličina - čas trvania experimentu O pozorujeme X ,X2,... ,Xn, kde y - minfr rCh - / T>' T> - ^' pre necenzurované X, X - min( //, / J - | ^ Ti > J(d)^ pre cenzúrované x. 0 skutočnému pozorovaniu potom zodpovedá náhodný vektor (X, <5,), kde § — í 1> T': - 7" 7(c,), pre cenzúrované X Stanislav Katina Cenúrovanie Progresívne (zrýchlené) cenzurovanie II. typu Základné princípy: 0 predpoklad - všetkých n jedincov vstupuje do experimentu súčasne 0 príčina cenzurovania - plánované ukončenie experimentu 0 ide o cenzurovanie časom - zvolíme čísla d,, ktoré nazveme fixované počty zlyhaní; vyradenie teda nastáva po vopred zvolenom počte d zlyhaní, kde d, = [npi\ + 1 ,p, e (0,1) 0 po di zlyhaniach vyradíme mi subjektov, po d2 zlyhaniach vyradíme m2 subjektov, ..., po dk zlyhaniach vyradíme mk subjektov 0 po /<-tom kroku máme vyradených m-t + m2 + ... + mk subjektov 0 náhodná veličina - čas trvania experimentu Stanislav Katina Cenúrovanie Náhodné a íubovoíné cenzurovanie Cenúrovanie Intervalové cenzurovanie I. typu Základné princípy: O predpoklad - n jedincov nevstupuje do experimentu súčasne O čas do zlyhania 7, 72,..., Tn sú nezávislé, rovnako rozdelené náhodné premenné, kde náhodná veličina 7(/ = 1,..., n) má hustotu f (t) a distribučnú funkciu F (t) O čas do cenzurovania Ci, C2,..., Cn sú nezávislé, rovnako rozdelené náhodné premenné, kde náhodná veličina C, (/' = 1,..., n) má hustotu g(t) a distribučnú funkciu G (t) O pozorujeme X ,X2,... ,Xn, kde X, = min (7, C, < C,, pre necenzurované X; > C,, pre cenzurované X Q skutočnému pozorovaniu potom zodpovedá náhodný vektor (X, S), kde X = min(7, C,) a Si í 1,T, l 0,7, < Cj, pre necenzurované X > C,, pre cenzurované X Q náhodná veličina - čas trvania experimentu a čas do cenzúry (ak C, = c, ide o ľubovoľné cenzurovanie) Stanislav Katina Cenúrovanie Intervalové cenzurovanie II. typu Základné princípy: Majme opát n subjektov. Označme 7,-, /' = 1,2,..., n, nepozorovatefné časy zlyhania. Vieme len, že 7 nastalo buď vnútri nejakého náhodného časového intervalu, pred jeho favou hranicou alebo po jeho pravej hranici. Označme C1; a C2, časy dvoch vyšetrení a indikačné funkcie definujeme nasledovne 5Vl = l(T, < Cm), 52, = /(d, < 7 < C2/) a <53/ = /(7 > C2/), t.j. ŕ 1, 7 < Ci,-, pre necenzurované X ~ \ 0, 7 > Ci,-, pre cenzurované X, f 1, Ci, < 7 1 0, 7 > C2i < C2i, pre necenzurované X pre cenzurované X, a nakoniec <53, = 0. Example (nádor pfúc, pacienti) Pacienti navštevovali kliniku opakovane každých 4 až 6 mesiacov, kde pozorovania sú buď intervaly (C1(, C2/) ak sa retrakcia prsníka vyskytla medzi poslednými dvoma návštevami alebo (C2i, oo), ak sa do C2, retrakcia nevyskytla. Stanislav Katina Základné princípy: Majme n subjektov. Označme T,,i = 1,2,...,n, nepozorovatefné časy zlyhania. Skutočnému pozorovaniu potom zopovedá náhodný vektor (C,, <5,), kde C, sú časy cenzúr a <5, = /(7 < C,), t.j. 5i í 1,7 l 0,7 < C,, pre necenzurované X > C,, pre cenzurované X Example (nádor pfúc, animálny model) Laboratórne myši sú injektované látkou, ktorá spôsobuje nádor. Kedže tento druh nádoru nieje smrtefný, je potrebné myš najprv zabit, aby sme zistili, či bol nádor indukovaný, t.j. po časovom úseku náhodnej dĺžky C je myš zabitá, aby sme zistili, či sa nádor vyvinul alebo nie. Endpoint záujmu je čas 7 do objavenia sa nádoru. Stanislav Katina Cenúrovanie Intervalové cenzurovanie II. typu Základné princípy: Máme nasledovné tri možnosti: O udalosť mohla nastat niekedy pred prvým vyšetrením C1(, kde 5m = 1 a ô2i = ôzi = 0, Q udalosť mohla nastať niekedy medzi prvým a druhým vyšetrením, t.j. v intervale (Cm, C2i), kde <51ŕ = 0, 52i = 1 a <53, = 0, Q udalosť sa do druhého vyšetrenia nevyskytla, t.j. mohla nastať niekedy po C2, (ale nevieme kedy), kde 5m = 0, 52i = 0 a <53, = 0. Nech X, = Cm aX2, = C2/. Skutočnému pozorovaniu potom zopovedá náhodný vektor (Xi/,X2,-, 5m, 52j). Všimnime si, že <53, nieje potrebné použiť, pretože nemáme ďalšie vyšetrenie po C2/. Keby sme mali C3, alebo aj ďalšie (po ňom nasledujúce) vyšetrenia, hovorili by sme zovšeobecnenom intervalovom cenzurovaní. Stanislav Katina Cenúrovanie Funkcia vierohodnosti - pravé typy cenzurovania Cenúrovanie Funkcia vierohodnosti - intervalové cenzurovanie Q cenzurovanie I. typu O cenzurovanie II. typu L = f[f(x,)Sl xS,(tGy-s' í=i n! (n-dy. 0 náhodné cenzurovanie f(tm)f(t(2))...f(t(d))xs,(t(d)y L = nf(Xi)í,S,(xj),-í' = f[\(x,)s'S,(x,) í=i Stanislav Katina Označenia Časy do zlyhania Definition Majme neusporiadané časy U, k, • • •, tn- Zoradené časy zapíšeme ako ŕ(1), ŕ(2),..., t{n). Pokiaí predpokladáme, že U, k, • • •, tn sú už zoradené, t.j. U < t2 < ... < tn, označenia v dalšom texte sa týmto přeznačením zjednodušia. Potom tn = ŕmax- Ak ŕmax < cmax, potom bez straty na všeobecnosti bude tn = Cmax (pozri aj výpočet strednej hodnoty času prežívania, kde je potrebné situáciu ŕmax < cmax zohľadnií). V časoch cenzúr c sú hodnoty S(c) a A(c) - ako aj ostatných charakteristík - identické ich hodnotám v najbližšom čase zlyhania t, ktorý predchádza c. Preto, bez straty na všeobecnosti, uvažujeme n zoradených časov, v ktorých sa charakteristiky prežívania počítajú. Tieto časy označujeme U, t2,..., tn. Ak máme v časoch ŕ, zhody, t.j. U < k < • • • < tn, potom počet rôznych časov bude / < n a tt = tmax. Stanislav Katina O intervalové cenzurovanie I. typu L = fl[Sf(x,)y-s'[F(xl)]s' ;=1 O intervalové cenzurovanie II. typu ;=1 kde <53/ = 1 - 5y, - 52; Stanislav Katina Riziko Príklady Example (zadanie z prednášky) Závislost hodnoty rizika na jednotkách času. X(t)= lim El&Tt) Pr(ŕ < T t) = l . i Ak Aŕ = \ dňa, potom \(t) = f = 0.75 na deň 3 . 1 Ak Aŕ = 2T týždňa, potom A(ŕ) = -f- = 5.25 na týždeň Stanislav Katina Definície Príklady Zoznam zadaní príkladov Príklady Example (zadanie z prednášky) Majme náhodný vektor (X,-, Sj), definovaný nasledovne (pre nejakú fiktívnu /-tu štatistickú jednotku, t.j. subjekt) O (X/, 51) = (3,0), t.j. v čase X, = 3 je cenzúra, Ni {t) = Nj (3) = 0, Yj (3) = Yj (3) = 1 -(A/, (3), Y, (3)) = (0,1) Q (X,, 5,) = (4,1), t.j. v čase X, = 4 je udalosí (zlyhanie), /V, (4) = 1, Y, (4) = 1, t.j. (A/, (4), Y, (4)) = (1,1) O Ak máme viac udalostí: (A/, (0.5), Y, (0.5)) = (1,1), (A/, (2), Y (2)) = (2,1) Stanislav Katina Zoznam zadaní príkladov Príklady Example (zadanie z cvičenia) AML (pokrač.) Vypočítajte empirickú funkciu prežívania pre skupinu A. Skupina čas po kompletnú remisiu (vtýždňoch) n udalosti cenzúr skupina A 9,13,13+, 18,23,28+, 31,34,45+, 48,161 + 11 7 4 Example (zadanie z cvičenia) AML (pokrač.) Naprogramujte v m algoritmus na výpočet empirickej funkcie prežívania a aplikujte ho na skupinu A. Example (zadanie z cvičenia) AML (pokrač.) Naprogramujte v <® algoritmus na výpočet empirickej funkcie prežívania len pre zlyhania (cenzúry nemeberime do úvahy) a aplikujte ho na skupinu A. Stanislav Katina Example (domáca úloha) Nech nezáporná náhodná veličina T je charakterizovaná funkciou prežívania S(T). Nech je k-ty moment, E(Tk), konečný, E(Tk) < oo,k e N. (a) Ukážte, že platí E(7") = EŕeNo Pr(T > r) = EŕeNo 1 - F(T) = EŕeNo S(T). Použite pri tom definíciu strednej hodnoty E(T) a pomocné tvrdenie £ŕeNo t Pr(0 1 + 1 i = ľLi1 = Eí=10i = ľ 1. ŕ-krát (b) Ukážte, že platí E(T) = /0°° S (ř) c/ř. Použite pri tom definíciu strednej hodnoty E(T) = J0°° tf(t)dt, aplikujte vlastnosti súm z DÚ 1A ako aj /0°° S (ŕ) dt = /0°°(/0ŕ Icjďc)S (ŕ) dt. Výpočet Vám uľahčí metóda per-partes. (c) Pomocou metódy per-partes ukážte, že E(Tk) = k J^tk-^S{t)dt. Stanislav Katina Zoznam zadaní príkladov Príklady Example (zadanie z prednášky) Odvodte maximálne vierohodný odhad funkcie prežívania Skm (t). Example (zadanie z cvičenia) AML (pokrač.) Naprogramujte v m algoritmus na výpočet KM odhadu funkcie prežívania a aplikujte ho na skupinu A. Example (zadanie z cvičenia) AML (pokrač.). Výpočtom a graficky porovnajte empirickú funkciu prežívania Sn {t) s KM odhadom funkcie prežívania Škm (0 pre skupinu A. Stanislav Katina Zoznam zadaní príkladov Príklady Zoznam zadaní príkladov Príklady Example (zadanie z cvičenie) AML (pokrač.). Výpočtom a graficky porovnajte empirickú funkciu prežívania Sn (t) len pre časy zlyhania (cenzúry nemeberime do úvahy) s KM odhadom funkcie prežívania Skm (t) pre skupinu A. Example (domáca úloha) Použitím funkcie vierohodnosti L = TJ/=i A,ŕ (1 - A,)' odvodte maximálne vierohodný odhad Var A/ ,/ = 1,2,...,/a Var A (ŕ) Stanislav Katina Zoznam zadaní príkladov Príklady Example (zadanie z cvičenie) AML (pokrač.). Vypočítajte KM odhad funkcie prežívania Skm (0 a 95% IS pre S (t) vo všetkých bodoch ŕ v 1) plain škále, 2) log-škále a 3) log-log škále (pre skupinu A). Example (domáca úloha) Ak v náhodnom výbere nie sú cenzúry, skóre testovacia štatistika Zs má za platnosti H0 štandardizované normálne rozdelenie Zs = fj?~!cl ~ N{0, 1)> kde P|atí fs(W-s(t)) {S(t) : \z \ < za/2}. Potom riešením kvadratickej rovnice {S(0 : (1 100 x (1 ■ -^)S2(t) - (2S(ŕ) + -^)S(ŕ) + S(ŕ) < 0} bude «)% IS pre S(t). Odvodte tento interval a upravte ho do podoby: vzorec pre stred IS ±za/2v/vžô7eč". Stanislav Katina Example (zadanie z cvičenie) AML (pokrač.). Vypočítajte rozptyl KM odhadu funkcie prežívania v čase 13 (pre skupinu A). Využite Greenwoodovu formulu. Example (zadanie z cvičenie) AML (pokrač.). Vypočítajte odhad rizika A, odhad rizika v intervale ŕ, < ŕ < ŕ/+i, odhad kumulatívneho rizika ÄKM a ANA spolu s ich rozptylmi Var\KKM\ a Var\KNA\ v čase 26 (pre skupinu A). Example (zadanie z cvičenie) AML (pokrač.). Nakreslite a porovnajte odhady kriviek prežívania SKM (ŕ), Šs (ŕ) a SFHmodB (t) pre skupinu A. Stanislav Katina Zoznam zadaní príkladov Príklady Example (zadanie z cvičenie) AML (pokrač.) Naprogramujte v m algoritmus na výpočet obsahu pod S km {t) krivkou. Aplikujte ho na skupinu A. Porovnajte s aritmetickým priemerom časov do zlyhania a aritmetickým priemerom časov do zlyhania a časov cenzúr. Example (zadanie z cvičenie) AML (pokrač.). Vypočítajte priemerný čas prežívania a jeho rozptyl Var(yu), medián času prežívania Jí a jeho rozptyl Var[jl] (pre skupinu A). Porovnajte s necenzurovaným mediánom. Example (zadanie z cvičenie) Naprogramujte v m funkciu na výpočet kvantilov času prežívania tp a ich 100 x (1 - a)% intervalov spoíahlivosti. Stanislav Katina Zoznam zadaní príkladov Príklady Zoznam zadaní príkladov Príklady Example (zadanie z cvičenie) (a) Naprogramujte v «funkcie na výpočet nasledovných odhadov funkcií prežívania SKM (t), SKMmod (t), SB (t) a ^FHmodB (t), kde O SKMmod (t) = Il/:ŕ,<ŕ(1 - TT,) [Pre nerozsekané a aj rozsekané zhody] O Var \sKM (ŕ)l, dolnú (DH) a hornú (HH) hranicu 95% IS v log-škále, @ Še (t) = exp (-Ana (O) [Pre nerozsekané zhody] O SFHmodB (t) = exp (-AFHmodB (ŕ)) [Pre rozsekané zhody] (b) Vypočítajte tieto odhady pre dáta (pozri tabuľku) Stanislav Katina Zoznam zadaní príkladov Príklady Example (zadanie z cvičenie) AML (pokrač.) Naprogramujte v <® algoritmus na výpočet 100 x (1 - a)% pásov spoľahlivosti pre funkciu prežívania v škále S(t) - (a) Nairov a (b) Hall-Walnerov. Aplikujte na skupinu A. Výsledok porovnajte s IS pre S(t) v škále S(t). Na obrázku zobrazte IS bodovo (zobrazenie, ktoré je přednastavené v <® je nesprávne). Example (domáca úloha) AML (pokrač.) Naprogramujte v <® algoritmus na výpočet 100 x (1 - a)% pásov spoľahlivosti pre funkciu prežívania v log-log škále - (a) Nairov a (b) Hall-Walnerov. Aplikujte na skupinu A. Výsledok porovnajte s IS pre S (t) v log-log škále. Na obrázku zobrazte IS bodovo (zobrazenie, ktoré je přednastavené v <@ je nesprávne). Stanislav Katina Example (zadanie z cvičenie; pokrač.) (c) Naprogramujte v * výpočet počtu cenzúr v čase th ak poznáte cŕ, a n, (pozri tabuľku). (d) Naprogramujte v * funkciu na výpočet odhadu rozptylu Skm (t) dolnú a hornú hranicu 95% IS funkcie prežívania Var pre S (t) v log-škále. (e) Vypočítajte tento odhad a IS pre S(t) pre dáta (pozri tabuľku). ŕ d; Dj 4.5 1 70 11.5 2 68 16.0 1 65 20.7 2 55 20.8 1 53 31.0 1 47 34.5 1 45 46.0 1 34 61.0 1 25 87.5 5 15 Stanislav Katina Zoznam zadaní príkladov Príklady Example (domáca úloha) AML (pokrač.) Naprogramujte v ® algoritmus na výpočet 100 x (1 - a)% pásov spoľahlivosti pre kumulatívne riziko v log-log škále - (a) Nairov a (b) Hall-Walnerov. Aplikujte na skupinu A. Výsledok porovnajte s IS pre kumulatívne riziko v log-log škále. Na obrázku zobrazte IS bodovo. Example (domáca úloha) AML (pokrač.) Naprogramujte v ® algoritmus na výpočet odhadu strednej hodnoty zostatkového života a jej rozptylu a aplikujte ho na skupinu A v čase t = 30 týždňov. Stanislav Katina Empirická funkcia prežívania Príklady Empirická funkcia prežívania Príklady Example AML (pokrač.) Vypočítajte empirickú funkciu prežívania pre skupinu A. 1 čas po kompletnú remisiu (v týždňoch) n udalostí cenzúr A 9,13,13+, 18,23,28+, 31, 34,45+, 48,161 + 11 7 4 Sn(t) #pozorovaní > t _ #{t, > t} _ £ľ=i /(ŕ, > t) n n t 0 9 13 18 23 28 31 34 45 48 161 Sn(t) 11 11 10 11 8 11 7 11 6 11 5 11 4 11 3 11 2 11 I II 0 11 Stanislav Katina Empirická funkcia prežívania a KM odhad Príklady Example AML (pokrač.). Porovnajte empirickú funkciu prežívania Sn {t) s KM odhadom funkcie prežívania SKM (t) pre skupinu A. čas po kompletnú remisiu (v týždňoch) n udalostí cenzúr A 9,13,13+, 18,23,28+, 31, 34,45+, 48,161 + 11 7 4 SKM(t) = ] 1-A; , kde A, =-ŕ d, i:tikm Skm (18) = Skm (23) = Skm (28+) 5 km Skm (34) = Skm (45+) Skm (48) = Skm (34) x 2^1 Skm (161+) = Skm (48) x Y Stanislav Katina m (13+) = Skm (13) x ^ Skm (13) x ^1 Skm (18) x ^1 = Skm (23) x ^ = Skm (23) x ^1 Skm (31) x ^1 o cía\ „ 3-0 = okm (34) x ^ Skm (13) Skm (23) Skm (34) = Skm (48) Empirická funkcia prežívania a KM odhad Príklady ŕ 0 9 13 13+ 18 23 28+ 31 34 45+ 48 161 + 11 11 10 11 8 11 - I II 6 11 i 11 4 11 'i 11 '1 11 I II í) 11 SKM (0 1 0.91 0.82 0.82 0.72 0.61 0.61 0.49 0.37 0.37 0.18 0.18 Porovnanie EFP a KM odhadu FP pre AML data EFP KM odhad FP Odhady Príklady Example AML (pokrač.). Vypočítajte rozptyl KM odhadu funkcie prežívania v čase 13 (pre skupinu A). Využite Greenwoodovu formulu. Var^Š^it)} = S2KM(t)Var [in ŠKM (t)] = S2KM(t) £/:ŕ/<ŕ VarG[SKM(t)] = Š£M(ŕ) ni^,'-d,) \/arG[!^(13)] = 0.822(ríľilIrr) + ^ht)) = 0.0136 SE(jQl3)] = 0.1166 cas do relapsu (v týždňoch) skupina A Odhady Príklady Odhady Príklady Example AML (pokrač.). Vypočítajte riziko A a kumulatívne riziko AKM a ANA spolu s ich rozptylmi Var[AKM] a Var[ANA] v čase 26 (pre skupinu A) [vid <® kód v prílohe, Príklad 2]. rii d. Odhad rizika v intervale t, tyšcn3;ii Stanislav Katina Odhady Príklady Example AML (pokrač.). Nakreslite a porovnajte odhady kriviek prežívania SKM (t), SB (t) a SFHmodB (t) [vid <® kód v prílohe, Príklad 1]. Tri typy kriviek prežívania cas do relapsu (v týždňoch) plain skala Stanislav Katina Medián a priemerný čas prežívania Príklady t(n) = 161 jí = 52.6 týždňa Var\jl] = 19.82 95% IS = (13.792,91.408) týždňa ?o.5 = 31 týždňov Uo.5 = max{ŕ/ : Š(ř,-) > 0.55} = 23 ?0 5 = min{ŕ/ : Š(ŕ/) < 0.45} = 34 S(g0.5)-S(To.5) _ Š(23)-Š(34) f (31) l£ŕ[3Í] '0.5—"0.5 ( 0.16419327 \2 {0.02231405 34-23 0.6136364-0.3681818 11 0.022 )2 = 54.144 Var[31] = 7.358 95% IS = (16.578,45.422) týždňa Stanislav Katina Medián a priemerný čas prežívania Príklady Example AML (pokrač.). Vypočítajte priemerný čas prežívania fi, a jeho rozptyl Var(yu), medián času prežívania Jí a jeho rozptyl Var{Jľ) (pre skupinu A). Porovnajte s necenzurovaným mediánom. n = E!=i(ŕ/ - ŕ/-i)Š(ŕ,-i) = E!=o Aŕ/SCŕ,), kde A^= ŕ/+1 - ŕ,, / < n je počet rôznych zlyhaní, ŕ0 = 0, S(fo) = 1 a S(ŕ,-_i) je výška funkcie v bode ŕ,_i. Var[íl} = j:L |_Eŕ,<ŕy ŕ) //max S(u)du W) -i^t - QS(f,) + Ey>/+1 (ŕy+1 - tj)S(tj) mrl(ŕ) =--,ti < t < ŕ/+1 S(t) Var[mrl(ŕ)] = 1 / / /''max Ä \ 2 (j. *ü US- U s{u)du) ^ŕ^) /■'max Ä \ 2 ._„ H. \ Var[mrl(ŕ)] S2 (0 E y:ř<ř,<řm V :',<*;<'max Stanislav Katina "/("/■ - ť/) Nech tp je p-ty kvantít rozdelenia T (100 x p-ty percentil), teda F(ŕp) = Pr(7 < ŕp) = p,ŕp = F-1 (p). Potom S(ŕP) = Pr(7 > tp) = 1 - p,řp< S-1 (1 - p) Kedze KM krivka prežívania je schodovitá funkcia, inverzia S 1(řp) nie je jednoznačne definovaná; odhad kvantilu bude potom % = min{ŕ, : Š(ŕ,) < 1 - p} Aplikovaním delta metódy na VarG(S{tp)) dostaneme ^H^p)]^Hš(Up)-š(/p) Wp)]s /p-"p kde tip = max{ŕ, : S(ŕ,) > 1 - p + e} a lp = min{ř,- : S(ŕ,) < 1 - p - e} pre /' = 1,2,..., / < n, I je počet rozdielnych časov zlyhania, e je vefmi malé číslo; vo všeobecnosti je e = 0.05 akceptovatefné, ale musí byt vefké, ak \lp -up\fn 0 Stanislav Katina H príkazy [El je vofne dostupné na http://cran.r-project.org/ Vofby argumentov fcie survfit v knižnici library (survival): Surfit(surv(time,status)~1, type=error=conf.type ="...") Q SKM (í): type="kaplan-meier" (přednastavené) Q Sg (ř): type=" f leming-harrington" O SFHmodB{t): type="fh2" O VarG [akm (i)]: O var [^na (0] = ?r Žiadny: conf . type ="none" Q survival (plane) scale: conf. type ="plain" Q log-survival scale: conf. type ="log" (přednastavené) Q log-log (survival) scale: conf .type="log-log" Q koeficient spoíahlivosti conf. int=o . 95 (přednastavené) error = "greenwood" (přednastavené) error = " tsiatis1' Stanislav Katina 31 príkazy flu je vofne dostupné na http://cran.r-project.org/] Implementácia v El Označme surv. ob j <- survfit (surv (cas, status) ~i). Priemerný vek prežívania a jeho smerodajná odchýlka (medián a jeho smerodajná odchýlka je súčasíou výstupu) sa vypočíta ako 1) print (surv. obj , print. rmean=TRUE) alebo 2) print(surv.obj, rmean="individual") Na rozlíšenie typu cenzurovania je dôležitý počet argumentov funkcie surv (). Ak sú dva, t.j. surv (cas, status), ide o pravý typ cenzurovania. Ak sú tri, t.j. surv(cas, casi, status), potom ide o intervalové cenzurovanie. Pomocným argumentom je type=". . .", kde rozlišujeme type="right" (pravý typ), type="interval" (intervalový typ cenzurovania I. typu; kde interval (—oo,ŕ,) označujeme (NA, ŕ,)), type="interval2" (intervalový typ cenzurovania II. typu; kde interval je typu (ŕi/, ŕ2/) alebo interval (ŕ,-,oo), ktorý označujeme (ŕ,-, NA)). Dolnou hranicou intervalu môže byí aj 0 a hornou hranicou ŕmax- Example Intervalový typ cenzurovania pre dáta heart - intervaly sa nachádzajú v stĺpcoch heart$start a heart$stop, status (udalosí) je V stĺpci heart$event. Význam premenných pozri v help (heart). Stanislav Katina Implementácia v Príklad 2 (poznámky sú uvedené za znakom #): cas <- summary (KM. ami. A) $time # easy zlyhania ŕ; n. i <- summary (KM. ami. A) $n. risk # počet jedincov v riziku tlj d.i <- summary(KM.ami.A)$n.event # počet zlyhani d; KM <- summary (KM. ami. A) $surv # SKM (t) SE.KM <- summary (KM. ami. A) $std.err # SE(SKM(t)) lambda.KM <- d.i/n.i DIFF <- diff(cas, lag = 1) # dlzka intervalu napravo od ŕ; DIFF [length(DIFF) + 1] <- NA # NA su chýbajúce hodnoty lambda.INT <- lambda.KM/DIFF Lambda.KM <- -log(KM) # AKM(ŕ) Lambda.NA <- cumsum (lambda . KM) # A/y/i(r) sumand <- d.i/(n.i*n.i) se. Lambda. KM <- SE . KM/lambda . KM # SE(AKM (ŕ)) se.Lambda.NA <- sqrt (cumsum (sumand) ) # S£(A/y/((r)) # round(cislo,kolko.des.miest) # data.frame: datovy ramec RIZ <- round(data.frame(cas, n.i, d.i, lambda.KM,lambda.INT, Lambda.KM, se.Lambda.KM, Lambda.NA,se.Lambda.NA),4) Stanislav Katina Príklad 1 (poznámky sú uvedené za znakom #): library(survival) attach(ami) names(ami) ami.A <- ami[x=="Maintained",1] status.A <- ami[x=="Maintained",2] KM.ami.A.KM <- survfit(Surv(aml^A, status . A) ~1,conf.type = "plain",type="kaplan-meier") # Skm (t) KM.ami.A.B <- survfit(Surv(ami.A, status . A) ~1,conf.type = "plain",type="fleming-harrington") # Sg(ŕ) KM.ami.A.FHmodB <- survfit(Surv(ami.A, status . A) ~1,conf.type "plain",type="fh2") # SFHmodB(t) # obrázok (lwd: hrubka čiary, lty: typ ciary) plot(KM.ami.A.KM,xlab="cas do relapsu (v tyzdnoch)", ylab="pravděpodobnost dožitia",conf.int=FALSE,lwd=2) lines(KM.ami.A.KM,lty=l,lwd=2) lines(KM.ami.A.B,lty=3,lwd=2) lines(KM.ami.A.FHmodB,lty=2,lwd=2) legend("topright",c("KM","B","FHmodB"),lty=c(1,3,2)) title(main="Tri typy kriviek prezivania",sub="plain skala") Stanislav Katina Implementácia vEF Príklad 2 (pokrač.): # obrázok # schodovitá funkcia: type="s", prázdny obrázok: type="n" # $ znamená indexaciu stĺpca z datového rámca v podobe # riz$nazov.stĺpca plot(riz$cas,riz$Lambda.KM,xlab="cas do relapsu (v tyzdnoch)",ylab="kumulativně riziko",type="n") lines(riz$cas,riz$Lambda.KM,lty=l,lwd=2,type="s") lines(riz$cas,riz$Lambda.NA,lty=2,lwd=2,type="s") abline(h=0,col="gray") title(main="KM a NA kumulativně riziko pre AML data",sub="skupina A") legend("topleft",c("KM kum.riziko","NA kum.riziko"),lty=c(1,2)) Viac sao© dozviete 1) v mojich skriptách na http://www.iam.fmph.uniba.sk/skripta/katina/, kde "podtržník J'vo význame priradenia výpočtu nejakému názvu treba nahradit "<-"(ide o v minulosti používanú syntax v komerčnej verzii r, programe s-plus) 2) v knižke An Introduction to R na http://cran.r-project.org/ v časti Manuals Inštalácia: R Binaries^windows^base^Down\oad R 3.0.1 for Windows Stanislav Katina