Ústav matematiky a statistiky Přírodovědecká fakulta Masarykova univerzita Analýza prežívania Vybrané kapitoly z neparametrických metód pre cenzurované dáta, zadania príkladov a domácich úloh a niektoré riešenia Stanislav Katina katina@math.muni.cz 10. decembra 2014 Obsah 1 Udalosti a cenzurovanie 1 1.1 Cenzurovanie I. typu.................................... 2 1.2 Cenzurovanie II. typu.................................... 2 1.3 Progresívne cenzurovanie.................................. 3 1.4 Ľubovoľné a náhodné cenzurovanie............................ 3 1.5 Intervalové cenzurovanie I. typu.............................. 3 1.6 Intervalové cenzurovanie II typu.............................. 4 2 Základné charakteristiky prežívania 5 3 Odhady základných charakteristík prežívania 5 3.1 Empirická funkcia prežívania................................ 6 3.2 Odhady funkcie prežívania................................. 7 3.3 Odhady rizika a kumulatívneho rizika........................... 11 3.4 Odhady rozptylu kumulatívneho rizika a funkcie prežívania............... 12 3.5 Empirické intervaly a pásy spoľahlivosti.......................... 14 3.5.1 Intervaly spoľahlivosti ............................... 14 3.5.2 Intervaly spoľahlivosti pre kumulatívne riziko .................. 15 3.5.3 Intervaly spoľahlivosti pre funkciu prežívania................... 15 3.6 Odhady strednej hodnoty a mediánu prežívania..................... 16 3.7 Odhad strednej hodnoty a mediánu zostatkového života a ich rozptyl ......... 18 4 Testy na porovnanie kriviek prežívania 21 5 Charakteristiky definované sčítacím procesom 26 6 Softvérová implementácia charakteristík prežívania 28 7 Štruktúra funkcií na cvičenia a do DÚ 30 Katina, S., 2014: Analýza prežívania 1 1 Udalosti a cenzurovanie Udalosťou nazývame ukončenie pozorovania z dôvodu zlyhania alebo smrti pacienta - do konca sledovaného obdobia. Príklady udalostí: • overall survival - smrť z akéhokoľvek dôvodu, • progression-free survival - prvé znaky progresie choroby alebo smrť, • disease-free survival - prvé znovuobjavenie sa choroby alebo smrť, • event-free survival - prvé znovuobjavenie sa choroby, objavenie sa inej špecifikovanej choroby alebo smrť, • disease-specific survival (cause-specific survival) - smrť ako dôsledok špecifikovanej choroby, • relapse-free survival (recurrence-free survival) - prvé znaky recidívy (opakovania sa) chodoby, • time-to-progression - prvé znaky progresie choroby. V mnohých prípadoch v danom pokuse musíme pozorovania ukončiť z dôvodu iného ako je zlyhanie alebo smrť pacienta. Teda do konca sledovaného obdobia dôjde k úmrtiu len niektorých subjektov (pacientov), zatiaľ čo u ostatných k úmrtiu do konca sledovaného obdobia buď nedôjde alebo sa tieto subjekty z pozorovania stratia. Cenzurované pozorovanie obsahuje v sebe len čiastočnú informáciu o čase úmrtia. Predpokladajme, že n subjektov s rovnakými znakmi začneme pozorovať v čase t = 0. Pre ich časy do zlyhania Tí, T2,..., Tn platí, že sú nezávislé, rovnako rozdelené náhodné premenné, kde náhodná veličina Ti (i = 1,2,... ,n) má distribučnú funkciu F (t), o ktorej obyčajne predpokladáme, že je absolútne spojitá. Teoreticky by sme mali pozorovať subjekty tak dlho, pokiaľ nezískame úplný náhodný výber časov do zlyhania pre všetkých n pozorovaní. Ide o veľmi dlhý časový interval, a preto nemôžeme túto štúdiu alebo experiment z rôznych dôvodov urobiť až do konca. Musíme preto vhodným spôsobom rozhodnúť o ukončení pozorovaní, k čomu nás možu donútiť napr. technické alebo ekonomické dôvody, a teda získame neúplné cenzurované dáta. V medicíne sa môžu vyskytnúť z nasledujúcich príčin: • ukončenie štúdie (termination of the study): pacient prežije časový interval experimentu, • konkurenčné riziko (competing risk): pacient zomrie z iného dôvodu, ako v dôsledku sledovanej choroby, • prerušenie/vy sadenie liečby (drop-out): pacient preruší liečbu a odíde z kliniky predčasne, napr. z dôvodu zlých vedľajších účinkov liečby, pacient sa sám rozhodne nepokračovať v liečbe, • strata z ďalšieho sledovania (loss to follow-up): pacient sa rozhodne presťahovať a nemáme o ňom už žiadne informácie. Za predpokladu, že experiment prebehne bez cenzurovania, i-ty jedinec z populácie o rozsahu n zomrie za čas Tt od začiatku sledovania. Čas, ktorý mienime sledovať i-teho jedinca označíme C,t (a > 0). Podľa spôsobu ukončenia experimentu môžeme rozdeliť cenzurovanie do nasledovných typov: (10. decembra 2014) Katina, S., 2014: Analýza prežívania 2 • cenzurovanie I. typu, • cenzurovanie II. typu, • progresívne (zrýchlené) cenzurovanie, • ľubovoľné a náhodné cenzurovanie, • intervalové cenzurovanie I. typu, • intervalové cenzurovanie II. typu. 1.1 Cenzurovanie I. typu Predpokladáme, že všetkých n jedincov vstupuje do experimentu súčasne. Ide o cenzurovanie časom, pretože si zvolíme pevné číslo tc, ktoré nazveme fixovaný cenzurujúci čas, teda jediná príčina cenzurovania je plánované ukončenie experimentu. Takto získame informáciu o prvých d pozorovaniach j^1) < jH2) < ... < T^d\ kde T^ < tc < T^d+1^ a o ostatných n — d nepozorovaných zlyhaniach vieme iba to, že nastali až po cenzurujúcom čase tc. Počet skutočne pozorovaných zlyhaní d je náhodná veličina, ktorá môže nadobúdať hodnoty 0,1,... ,n. Namiesto pozorovania Ti pozorujeme Xi,X2,... ,Xn, kde Tí, Ti < tc, pre necenzurované X,t Xi = min (Tí,tCJ - , 1 tc,li > tc, pre cenzurované Xi Pre distribučnú funkciu X platí Pr(T > tc) > 0 v bode x = tc, pretože Pr(X = tc) = Pr(T > t c) = 1 — F (t c) > 0. To znamená, že X je zmiešaná náhodná premenná so spojitým a diskrétnym komponentom. Kumulatívna distribučná funkcia M (X) náhodnej premennej X bude teda spojitá do času tc (v čase < tc) a v čase tc skočí do jednotky (diskrétny komponent). Majme binárnu premennú 5, ktorá indikuje, či bol čas zlyhania pozorovaný alebo cenzurovaný, ^ í 1, Ti < tc, pre necenzurované Xi \ 0,Tj > tc, pre cenzurované X í Skutočným pozorovaniam potom zodpovedá náhodný vektor (Xi, ô i), i = 1,2,..., n. Pozn.: Treba si uvedomiť, že ak (ô = 0 a T < tc) implikuje, že čas zlyhania bol presne T = tc, čo nastane s nulovou pravdepodobnosťou, ak je T spojitá premenná. Pre diskrétne premenné môžeme definovať tc rovné poslednému dostupnému času zlyhania, ktorý môže byť pozorovaný. Potom Pľ(ô = 0 A T < tc) Ý 0. 1.2 Cenzurovanie II. typu Aj pri tomto type cenzurovania vstupuje do experimentu súčasne všetkých n jedincov. Zvolíme pevné číslo d, ktoré nazveme fixovaný počet zlyhaní. Ukončenie potom nastáva po vopred zvolenom počte d zlyhaní, tj. ide o cenzurovanie zlyhaním, kde d = [np] + l,p E (0,1) ,T^ < <....< T^d\ Odtiaľ vidíme, že d < n a všetkých zostávajúcich n — d pozorovaní má čas zlyhania väčší ako T^d\ Dostávame tak celistvú informáciu o prvých d pozorovaniach. Náhodnou veličinou je čas trvania experimentu T^d\ Namiesto pozorovania Tj pozorujeme X1}X2,... ,Xn, kde X = miníT- T(d)) = { Ti,Ti ~ ^'' pľe necenzúrované Xí 1 \ , Tí > , pre cenzurované X,-t Skutočnému pozorovaniu potom zodpovedá náhodný vektor (Xí,ô,j), kde ) l,Tj < T(d\ pre necenzúrované X,-t 0,Tí > T^d\ pre cenzurované X,-t (10. decembra 2014) Katina, S., 2014: Analýza prežívania 3 1.3 Progresívne cenzurovanie Cieľom tohto typu cenzurovania je čo najväčšie skrátenie času experimentu. Znovu vstupuje do experimentu súčasne všetkých n jedincov. Teraz máme dve možnosti postupu. Zrýchlené cenzurovanie I. typu. Ide o cenzurovanie zlyhaním, kedy zvolíme čísla tci,i = 1,2,..., k, ktoré nazveme fixované cenzurujúce časy. Vieme, že tc\ < tC2 < ... < tck. V čase tCi vyradíme rrii subjektov, t.j. v čase tc\ vyradíme ni\ subjektov, v čase tC2 vyradíme ni2 subjektov, ..., v čase tck vyradíme m k subjektov. Po fc-tom kroku máme vyradených ni\ + rri2 + ... + rrik subjektov. Náhodnou veličinou je počet skutočne pozorovaných zlyhaní d E {0,1,..., n}. Zrýchlené cenzurovanie II. typu. Ide o cenzurovanie časom, kedy zvolíme čísla dÍ7 ktoré nazveme fixované počty zlyhaní. Vyradenie teda nastáva po vopred zvolenom počte d,i zlyhaní, kde di = [npi] + l,pi G (0,1), t.j. po di zlyhaniach vyradíme ni\ subjektov, po d Ci, pre cenzurované Aj Skutočnému pozorovaniu potom zodpovedá náhodný vektor (Xi, ô i), i = 1,2,... ,n, kde Xi — min (T, C i) , ^ _ í ^,Ti < Ci, pre necenzurované Xi \0,T > Ci, pre cenzurované X i Ak Ci považujeme za ľubovoľné konštanty a nie za náhodné veličiny, kde napr. Ci = c,i = 1,2,... ,n, potom hovoríme o ľubovolnom cenzurováni. Cenzurovanie I. typu je jeho špeciálnym prípadom. Ak považujeme d za náhodné veličiny, potom hovoríme o náhodnom cenzurovaní a predpokladáme nezávislosť náhodných veličín d a, T. Tento typ cenzurovania vzniká často v medicínskych štúdiách. Pozn.: Je to však dosť silný predpoklad. Treba si uvedomiť súvislosť s typom cenzúry drop-out (z dôvodu vedľajších účinkov liečby). Ale práve za tohoto predpokladu je funkcia vierohodnosti ľahko spočítateľná. 1.5 Intervalové cenzurovanie I. typu Majme n subjektov. Označme Ti,i = 1,2,... ,n, nepozorovatelné časy zlyhania. Skutočnému pozorovaniu potom zodpovedá náhodný vektor (Xi} ó~i), kde Xi = Ci sú časy cenzúr a ôi = I(T < Ci), t.j. £ _ í 1, 7i < Cj, pre necenzurované Xi \0,T > Ci, pre cenzurované X i Príklad 1 (nádor pľúc, animálny model) Laboratórne myši sú injektované látkou, ktorá spôsobuje nádor. Kedže tento druh nádoru nie je smrteľný, je potrebné myš najprv zabiť, aby sme zistili, či bol nádor indukovaný, t.j. po časovom úseku náhodnej dĺžky C je myš zabitá, aby sme zistili, či sa nádor vyvinul alebo nie. Endpoint záujmu je čas T do objavenia sa nádoru. pred (10. decembra 2014) Katina, S., 2014: Analýza prežívania 4 1.6 Intervalové cenzurovanie II typu Majme opäť n subjektov. Označme T,i = 1,2,... ,n, nepozorovatelné časy zlyhania. Vieme len, že T nastalo buď vnútri nejakého náhodného časového intervalu, pred jeho ľavou hranicou alebo po jeho pravej hranici. Označme Cu a C u časy dvoch vyšetrení a indikačné funkcie definujeme nasledovne ôu = I(Ti < Cu), ô2i = I(Cu < T < C2í) a ô3i = I(Ti > C2í), t.j. ^ í ^,Tí < Cu, pre necenzurované X;t \ 0, Tj > Cu, pre cenzurované X;t ' ^ íl, Cu < T < C2i, pre necenzurované X,t \0,T > C2i, pre cenzurované X,t a nakoniec 53i = 0. Potom máme nasledovné tri možnosti: 1. udalosť mohla nastať niekedy pred prvým vyšetrením Cu, kde 5U = 1 a 82i = ó^í = 0, 2. udalosť mohla nastať niekedy medzi prvým a druhým vyšetrením, t.j. v intervale (Cu,C2í), kde ôu = 0, 52i = 1 a ó3i = 0, 3. udalosť sa do druhého vyšetrenia nevyskytla, t.j. mohla nastať niekedy po C2Í (ale nevieme kedy), kde ôu = 0, 82% = 0 a 53i = 0. Nech Xu = Cu a X2Í = Cii- Skutočnému pozorovaniu potom zopovedá náhodný vektor {Xii, X21, Ôu, Ô2í). Všimnime si, že ôsi nie je potrebné použiť, pretože nemáme ďalšie vyšetrenie po Cii- Keby sme mali Csí alebo aj ďalšie (po ňom nasledujúce) vyšetrenia, hovorili by sme zovšeobecnenom intervalovom cenzurovaní. Príklad 2 (nádor pľúc, pacienti) Pacienti navštevovali kliniku opakovane každých A až 6 mesiacov, kde pozorovania sú buď intervaly (Cu,C2í) ak sa retrakcia prsníka vyskytla medzi poslednými dvoma návštevami alebo {C2%, 00), ak sa do C21 retrakcia nevyskytla. (10. decembra 2014) Katina, S., 2014: Analýza prežívania 5 2 Základné charakteristiky prežívania Príklad 3 (k-ty moment času prežívania) Nech nezáporná náhodná veličina T je charakterizovaná funkciou prežívania S (T). Nech je k-ty moment, E[Tk], konečný, E[Tk] < oo,k G N. a) Ukážte, že platí E [T] = ^íeNo Pr(T > t) = ^íeNo 1 — F (T) = ^2te^0S(T). Použite pri tom definíciu strednej hodnoty E [T] = ^2te^0tPr(t) a pomocné tvrdenie 1 + 1 + ... + 1 = J^=1 1 = t-krát b) Ukážte, že platí E[T] = jQ S (t) dt. Použite pri tom definíciu strednej hodnoty E [T] = fQ tf(t)dt, aplikujte vlastnosti súm z (a) ako aj J0°° s (í) dt = J^°(Jq ldx)s (í) dt. Výpočet Vám uľahčí metóda per-partes. c) Pomocou metódy per-partes ukážte, že E[Tk] = k J0°° tk~1S(t)dt. DÚ Príklad 4 (stredná hodnota zostatkového života) Pomocou metódy per partes ukážte, že platí posledná rovnosť v nasledovnom vzťahu DÚ f°° (u — t) f(u)du f°° S(u)du ">•*>=Ev -ť|T ž *i =' S(t) = Lwr- Príklad 5 (funkcia prežívania) Ukážte, že platí posledná rovnosť v nasledovnom vzťahu DU /■°° ^ m íí\,m\ , í ŕ du o (t) = / xj(x)dx = exp I / \{x)dx = exp (—A(t)) =-—- exp J t \Jo / mrl{ť) \ J q mrl{u) Príklad 6 (riziko) Ukážte, že platí posledná rovnosť v nasledovnom vzťahu DÚ \{t) = -?L\nS(t) = ^j\ = (^-mrl{t) dt K ' S (t) \dt w J mrl{t) Príklad 7 (hustota) Ukážte, že platí posledná rovnosť v nasledovnom vzťahu DÚ ,/ n 9 . w N„, N f d . \ mrl(0) ( ŕ du f (t) = ~^S(t) = X(t)S(t) = ( -mrlit) + 1 ) / ^' exp ' dt w w w \dt w J (mrl(t)Y V Jo rnrl(u) Táto rovnosť vyplýva zo vzťahu f (t) = \(t)S(t) a z výsledku predchádzajúcich dvoch príkladov. 3 Odhady základných charakteristík prežívania Príklad 8 (Akútna myelogénna leukémia, AML) AML pacienti boli po absolvovaní chemoterapie a zmiernení príznakov náhodne rozdelení do dvoch skupín. Prvá skupina (skupina A) dostala udržujúcu chemoterapiu a druhá (kontrolná; skupina B) nie (pozri tabuľku). Cieľom bolo zistiť, či udržujúca chemoterapia predlžuje čas remisie (opätovného zhoršenia stavu). cvič. Tabuľka 1: Dáta AML skupina čas po kompletný relaps (v týždňoch) n udalostí cenzúr A 9,13,13+, 18, 23, 28+, 31, 34,45+, 48,161+ 11 7 4 B 5,5, 8, 8,12,16+, 23, 27, 30, 33,43,45 12 11 1 Tri náhľady na problém analýzy AML dáta: (10. decembra 2014) Katina, S., 2014: Analýza prežívania 6 problém 1: po odstránení cenzurovaných pozorovaní: problém 2: po ošetrení cenzurovaných pozorovaní, ktoré zoberieme do úvahy akoby boli udalosťami (zlyhaniami) a problém 3: berúc do úvahy cenzurované pozorovania. Tabulka 2: Základné charakteristiky AML podľa skupín (v týždňoch) problém 1 problém 2 problém 3 skupina A B A B A B x 25.1 21.7 38.5 21.3 52.6 22.7 x 23.0 23.0 28.0 19.5 31.0 23.0 Príklad 9 (časy do zlyhania alebo cenzúry, AML) Nakreslíte časy do zlyhania a časy do cenzúry pre AML dáta ako horizontálne úsečky ukončené bodom typu • (pre zlyhania) a bodom typu + (pre cenzúry). Na y-ovej osi označte pacientov skratkami Al-All a B1-B12 a na x-ovej osi zobrazte časy po desiatich týždňoch od 0 po 160. A11 A10 B12 B11 B10 I-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 cas(v týždňoch) Obr. 1: Časy do zlyhania (ozn. •) a časy do cenzúry (ozn. +) pre AML dáta 3.1 Empirická funkcia prežívania Majme diskrétny prípad. Predpokladajme, že časy do zlyhania sú už zoradené, t.j. označenie t^ < t(2) < • • • < — ni přeznačíme na t\ < t2 < ... < tj. Potom empirickú funkciu prežívania vypočítame nasledovne Sn(t) ^pozorovaní > t _ #{U > t} _ Yn=i HU > t) n n n kde n je rozsah súboru. Ide teda o podiel tých pacientov, ktorí sú stále v riziku. Sn(t) je sprava spojitá schodovitá funkcia so schodmi smerom nadol v každom ti. Ide o konzistentný odhad skutočnej funkcie prežívania S (t). Exaktné rozdelenie nSn(t) pre každé fixované t je Bi(n,p), kde n je počet pozorovaní a p = Pr(T > t). Na základe centrálnej limitnej vety pre každé fixované t platí asymptoticky Sn(t) ~ N(p,p(l — p)/n). (10. decembra 2014) Katina, S., 2014: Analýza prežívania 7 Príklad 10 (programovanie; empirická funkcia prežívania) Naprogramujte v algoritmus na výpočet empirickej funkcie prežívania. cvič. Príklad 11 (empirická funkcia prežívania, AML) Vypočítajte empirickú funkciu prežívania vo všetkých časoch t pre skupinu A (1) pre problém 1, (2) problém 2 a (3) pre problém 3. Zobrazte tieto tri funkcie do jedného obrázka ako schodovité funkcie. Použite tri rôzne typy čiar alebo tri rôzne farby a pridajte legendu a popis osí. cvič. Riešenie (čiastkové - pre problém 3; pozri tabulku) t 0 9 13 18 23 28 31 34 45 48 161 Sn(t) 11 11 10 íi 8 11 7 11 6 11 5 11 4 11 3 11 2 11 i íi 0 íi problém 1 problém 2 a 3 I 50 I— 100 150 cas (v týždňoch) Obr. 2: Empirická funkcia prežívania pre AML dáta (problém 1, 2 a 3) Príklad 12 (programovanie; početnosti di a tíj) Naprogramujte v <® algoritmus na výpočet d,t a rii pre všetky časy zlyhania ti. Výstupom bude tabulka so stĺpcami ti, di a n,i. cvič. 3.2 Odhady funkcie prežívania Klasický Kaplan-Meierov (KM) odhad funkcie prežívania je definovaný nasledovne i:ti í/, potom podľa definície S (í/) = S (cmax) a keďže funkcia vierohodnosti nezávisí na S (t) pre t > cmax, nie je možný žiadny odhad za cmax. Príklad 13 (programovanie; KM odhad funkcia prežívania) Naprogramujte v Qt algoritmus na výpočet KM odhadu funkcie prežívania Skm (t) vo všetkých časoch zlyhania. cvič. (10. decembra 2014) Katina, S., 2014: Analýza prežívania 8 Príklad 14 (KM odhad funkcia prežívania, AML) Vypočítajte S km (t) vo všetkých časoch zlyhania a porovnajte ho s Sn (t) pre skupinu A. Zobrazte tieto dve funkcie do jedného obrázka ako schodovité funkcie. Použite dve rôzne typy čiar alebo dve rôzne farby a pridajte legendu a popis osi. cvič. Riešenie (čiastkové; pozri tabulku) t 0 9 13 13+ 18 23 28+ 31 34 45+ 48 161+ Jn (t) Skm (t) íi íi 1 10 íi 0.91 8 8 11 11 0.82 0.82 7 11 0.72 6 11 0.61 5 11 0.61 4 11 0.49 3 11 0.37 2 11 0.37 i íi 0.18 0 íi 0.18 Skm (0) -Skm (9) = Skm (13) Skm (13+ Skm (18) Skm (23) Skm (28+ Skm (31) Skm (34) Skm (45+ Skm (48) S'km (161- Skm (0) x = Skm (9) x = Si íi-i íi 10-1 10 km (13) x -g- Skm (13) x Skm (18) x ^ = Skm (23) x SKM (23) x ^ Q 4-1 (31) x ^ 'km = Skm (34) x ^2 = Skm (34) x ^ l = Skm (48) x ^ Skm (13) Skm (23) Skm (34) = Skm (48) -1— 100 cas (v týždňoch) KM EFP I— 150 Obr. 3: Dva odhady funkcie prežívania - Skm (t) a Sn - pre AML dáta (skupina A) Modifikovaný KM odhad funkcie prežívania je definovaný nasledovne SKMmod(í) = _ [ (1 - Aj), kde 1 - Aj i:ti 1 i:ti 1 — x =>- Sb (t) > Skm (t) v prípade, že ide o konečné náhodné výbery (ale ak posledný príspevok je smrť, potom Skm (t) = 0, Sb (t) > 0). Príklad 19 (porovnanie odhadov funkcie prežívania) Použitím Taylorovho rozvoja (prvého rádu) mínus logaritmu A^a (t) ukážte, že Akm^) je prvým členom tohoto rozvoja. 3.3 Odhady rizika a kumulatívneho rizika Príklad 20 (riziko a časové jednotky) Závislosť hodnoty rizika na jednotkách času. Pr(t < T < t + At\T >t) = \ Ak At = \ dňa, potom \{t) = f = 0.75 na deň. 3 i. Ak At = týždňa, potom \(t) = -jr = 5.25 na týždeň. Odhad rizika v časovom intervale t,L tp) = l-p,tp< S-^l - p). (10. decembra 2014) Katina, S., 2014: Analýza prežívania 18 Keďže KM krivka prežívania je schodovitá funkcia, inverzia S,_1(íp) nie je jednoznačne definovaná. Odhad kvantilu bude potom tp = min{ti : S (U) < 1 - p}. Aplikovaním delta metódy na VarG[S(tp)] dostaneme Var [t% VarG[S(tp)] IfítpW S(up) - S(lp) lp Up kde up = max{íj : S (ti) > 1—p + e}a/p = min{£j : S (ti) < 1 — p — e} pre i = 1,2,..., J < n. kde u korešponduje s hornou hranicou, / s dolnou, J je počet rozdielnych časov zlyhania, e je veľmi malé číslo. Najčastejšie e = 0.05 akceptovateľné, ale musí byť velké, ak \lp dosadíme Skm(£); 5b (t) alebo SpHmodB (t)- Potom dostaneme t Ur, 0. Za S (t) -jxkm) _ £(KMmod) J(B) ^ ^(FHmodB) , Lp a, Lp Var Í(KM) tp Var r(KMmod) tp Var ífB) Lp a Var 7(FHmodB) tp Príklad 41 (medián, AML) Vypočítajte medián času prežívania fi, jeho rozptyl Var■[//] a 100x(l — a)% intervalov spoľahlivosti pre í0.5 P^e ^4ML daŕa (skupina A). pred A4 = ŕo.5, V"ar[ = V«r-o[5(F0.5)l [/(Í0.5)]2 ^0.5 = 31 týždňov, Mo.5 = max{£j : S (U) > 0.55} = 23 a /o.5 = min{£j : S (U) < 0.45} = 34 7(21) = S(u0.5)-Š(T0.5) _ S(23)-5(34) _ 0.6136364-0.3681818 _ g í).5-«0.5 yCľíTIl - í 0-16419327^ 1/ ar [ól\ — k 0.02231405 ^ 34-23 11 54.144, JVar[31] = 7.358,95% IS = (16.578,45.422) týždňa Príklad 42 (programovanie, kvantily) Naprogramujte v funkciu na výpočet odhadu kvantilov času prežívania tp, Var[tp] a 100 x (1 — a)% intervalov spoľahlivosti pre tp. DU Príklad 43 (medián, AML) Vypočítajte medián ťo.5 a jeho 100 x (1 — a)% intervalov spoľahlivosti pre AML dáta (skupina A). 65 66 67 68 69 70 kvantily.km(survobj A.KM,p = 0.5, eps = 0.05, conf.coef = 0.975) # kvp sd(kvp) DHIS HHIS #[1,] 31 7.3583 16.578 45.422 kvantily.km(survobj A.B,p = 0.5, eps = 0.05, conf.coef = 0.975) # kvp sd(kvp) DHIS HHIS #[1,] 34 8.5516 17.2392 50.7608 3.7 Odhad strednej hodnoty a mediánu zostatkového života a ich rozptyl Odhad strednej hodnoty zostatkového života v čase t nazývame priemerný zostatkový život v čase t a vypočítame ho v spojitom prípade ako mri (í) t b(u)du a v diskrétnom prípade ako (10. decembra 2014) Katina, S., 2014: Analýza prežívania 19 kde U < t < U+i. Za S(-) dosadíme Skm('), Sb(') alebo í>FHmodB (') • Rozptyl priemerného zostatkového života odhadneme nasledovne Var [mrl(í)] S2 (t) S(x)dx crG(u) du 1 2 rt S(u)du u t ď^iiŕjdu pre spojitý prípad, kde u G (t,tmax), a ako 1 Var [mrl(í)] S'2(í) E ^t^ti^maxftmaxjCmax)-! (ť,+1 - ť)S(ťi) + E (tj+1 - t j) S (t j) a2G(tt E {tj+i - t j) S (t j) J-U+i ^ i:ti 0.5S(t) a S(U+i) < 0.5S(t). To znamená, že ak sme mali pravdepodobnosť prežitia S (t) v čase t, potom budeme mať nažive polovicu z tohoto množstva, t.j. 0.5S(t), v čase t + mrl(í). Rozptyl odhadneme nasledovne Var mrl(í) — ÍS^ Za S (t) dosadíme Skm (t), Sb (t) alebo SFHmodB (t)- Potom dostaneme mrlxM (t), mrie (t) a mrlpHmodB (t) päť nasledovných rozptylov Varc mrl KM Var q mri KMmod Var na mrh Var aj mri KM VarNA mri FHmodB a Var q mri FHmodB Príklad 44 (programovanie, priemerný zostatkový život) Naprogramujte v funkciu na výpočet odhadu strednej hodnoty zostatkového života v čase t. cvič. Príklad 45 (priemerný zostatkový život, AML) Vypočítajte priemerný zostatkový život v čase t = 0 a t = 30 pre AML dáta (skupina A). Nakreslite krivku odhadu funkcie prežívania a pomocou funkcie polygonO vyfarbite obsah pod ňou za bodom t. cvič. (10. decembra 2014) Katina, S., 2014: Analýza prežívania 20 71 72 mri(survobjA.KM, tcko = 0)$mrl # 52.64545 52.64545 52.64545 mri(survobjA.KM, tcko = 30)$mrl # 45.70000 52.73077 52.57692 Príklad 46 (programovanie, rozptyl priemerného zostatkového života) Naprogramujte v funkciu na výpočet odhadu rozptylu priemerného zostatkového života v čase t. DÚ Príklad 47 (rozptyl priemerného zostatkového života, AML) Vypočítajte odhadu rozptylu priemerného zostatkového života v čase t = 0 a t = 30 pre AML dáta (skupina A). DU Príklad 48 (programovanie, medián zostatkového života) Naprogramujte v 1í funkciu na výpočet odhadu mediánu zostatkového života v čase t. DU Príklad 49 (medián zostatkového života, AML) Vypočítajte medián zostatkového života v čase t = 0 a t = 30 pre AML dáta (skupina A). DÚ Príklad 50 (programovanie, rozptyl mediánu zostatkového života) Naprogramujte v funkciu na výpočet odhadu rozptylu mediánu zostatkového života v čase t. DÚ Príklad 51 (rozptyl mediánu zostatkového života, AML) Vypočítajte odhadu rozptylu mediánu zostatkového života v čase t = 0 a t = 30 pre AML dáta (skupina A). DÚ (10. decembra 2014) Katina, S., 2014: Analýza prežívania 21 4 Testy na porovnanie kriviek prežívania Príklad 52 (nádor pľúc) Nech tij,i = 1,... ,rij,j = 1,2 sú časy do zlyhania (úmrtia) od diagnostiky nádoru pľúc v mesiacoch, kde j = 1 predstavuje I. typ terapie a j = 2 zasa II. typ terapie (pozri tabuľku). Otestujte H0 : S± (t) = S2 (t) oproti alternatíve H\ : S± (t) 7^ S2 (t) pomocou Sw a Smw nesledovne (1) Sw = Wy a Sw = Wx, (2) Smw = Uy a Smw = Ux- Vždy presne naformulujte H\. Okomentujte výsledky. cvič. tij 52 240 19 53 15 43 340 133 111 231 378 49 skup 1 2 2 1 1 2 2 1 1 2 1 1 Určenie poradí t (i) 15 19 43 49 52 53 111 133 231 240 340 378 skup 1 2 2 1 1 1 1 1 2 2 2 1 r(i) í r(2) í 1 - - 4 5 6 7 8 - - 12 - 2 3 - - - - 9 10 11 Príklad 53 (asymptotická normalita Smw) Pre ííi = 7 a íí2 = 5 porovnajte v <5lt asymptotické rozdelenie Smw s JeJ exaktným rozdelením. Na výpočet asymptotickej hustoty použite funkciu dnorm() a na výpočet asymptotickej distribučnej funkcie použite funkcie dnorm() a cumsum(). Na výpočet exaktnej hustoty použite funkciu dwilcoxO a na výpočet exaktnej distribučnej funkcie použite funkciu pwilcoxO. Teoretické a exaktné rozdelenie superponujte v podobe (t) hustoty, (2) distribučnej funkcie a (3) qq-diagramu s qq-priamkou (na x-ovej osi bude sekvencia x od teoreticky možného min(SMw) P° teoreticky možné max(SMw) a na y-°veJ osí teoretické kvantily y vypočítané pomocou funkcie qnorm(); qq-priamka bude prechádzať bodmi (s0.25,ío.75) a (^0.25,^0.75)^- cvič. Príklad 54 (asymptotická normalita Smw) Porovnajte v^ň asymptotické rozdelenie Smw s JeJ exaktným rozdelením pre (t) n\ = 5 a n>2 = 50, (2) n\ = 50 a n>2 = 50, (3) n\ = 50 a n>2 = 100 a (4) ri\ = 100 a ri2 = 100. cvič. Príklad 55 (nádor pľúc pokrač.) Nech tij,i = 1,... ,rij,j = 1,2 sú časy do zlyhania (úmrtia) od diagnostiky nádoru pľúc v mesiacoch, kde j = 1 predstavuje I. typ terapie a j = 2 zasa II. typ terapie (pozri tabulku). Otestujte v Hq : Var\S\ (t)] = Var[S2 (t)] oproti alternatíve H\ : Var\S\ (t)] 7^ Var[S2 (t)] pomocou S$t a ^st- Okomentujte výsledky. cvič. (10. decembra 2014) Katina, S., 2014: Analýza prežívania 22 Riešenie (aj v ^B$): Siegel-Tukey test tij skup 52 1 240 2 19 2 53 1 15 1 43 2 340 2 133 1 111 1 231 2 378 49 1 1 Ä<" R? 9 6 3 11 1 5 4 10 12 8 2 7 Príklad 56 Naprogramujte v*© test Hq : Var[S± (t)] = Var[S2 (t)] oproti alternatíve H\ : Var[S± (t)] ^ Var[S2 (t)] pomocou S$t a S^ použitím algoritmu 1. Okomentujte výsledky. cvič. Príklad 57 (dvojčatá; Wilcoxonov znamienkový test) Pri skúmaní agresívnosti dvojčat psychológovia zaznamenali nasledovné skóre (pozri tabulku). Otestujte Hq na a = 0.05, že prvorodené dvojča je agresívnejšie. Použite Wilcoxonov znamienkový test, t.j. štatistiky (í) Sw, (2) Sw a (3) Sw s korkeciou rozptylu na zhody. Porovnajte výsledky. pred. i 1 2 3 4 5 6 7 8 9 10 11 Xi dvojča 1 85 70 76 68 90 72 77 90 70 71 87 Yi dvojča 2 87 76 75 64 95 72 65 89 65 80 80 Zi = Xi — Yi -2 -6 1 4 -5 0 12 1 5 -9 7 \Zi\ 2 6 1 4 5 - 12 1 5 9 7 Ri 3 7 1.5 4 5.5 - 10 1.5 5.5 9 8 Príklad 58 (asymptotická normalita S kw) Pre ni = n2 = n3 = 5 porovnajte v asymptotické rozdelenie Skw s JeJ exaktným rozdelením. Na výpočet asymptotickej hustoty použite funkciu dchisqO a na výpočet asymptotickej distribučnej funkcie použite funkcie dchisqO a cumsum(). Na výpočet exaktnej hustoty použite funkciu dwilcoxO a na výpočet exaktnej distribučnej funkcie použite funkciu dKruskalWallis() v knižnici SuppDists. Teoretické a exaktné rozdelenie superponujte v podobe (í) hustoty, (2) distribučnej funkcie a (3) qq-diagramu s qq-priamkou (na x-ovej osi bude sekvencia x od teoreticky možného min(SKw) P° teoreticky možné max(S'xty) a na y-°veJ osi teoretické kvantily y vypočítané pomocou funkcie qchisqO; qq-priamka bude prechádzať bodmi (2?o.25) s0.75) a (^0.25)^0.75) alebo alternatívne bude qq-priamku reprezentovať os prvého a tretieho kvadrantu). D U Príklad 59 (asymptotická normalita Skw) Porovnajte v asymptotické rozdelenie Skw s JeJ exaktným rozdelením pre (í) n\ = n>2 = 5 a n% = 50, (2) n\ = 122 = n% = 50, (3) n\ = n>2 = 50 a n3 = 100 a (4) m = n2 = n3 = 100. DÚ Príklad 60 (WBC pokrač.) Majme pacientov s akútnou myeloidnou leukémiou a v rámci nich skupinu AG-pozitívnych (výskyt určitých špecifických indikátorov choroby v kostnej dreni). Pre chorobu je charakteristické, že s počtom bielych krviniek (white blood cells counts, WBC) vzrastná závažnosť choroby. Nech ti,i = 1,2,..., 17 sú časy do zlyhania v týždňoch (pozri tab.). (a) Otestujte Hq : Si (ŕ) = S2 (í) = S3 (í), alternatíva a) H\ : Si (t) 7^ S j (t), i < j; i, j = 1,2,3, b) Si(í) y S2(í) y S3(í), c) Si(í) í S2 (í) í S3(í). Použite (í) SKW, (2) Sj, (3) Sc a (4) SL. (b) Vypočítajte Kendalov korelačný koeficient t medzi časom do zlyhania a príslušnosťou do skupiny 1,2, a 3 pomocou Sj. (c) Porovnajte Sc a S;v- (d) Otestujte odklon od trendu, (e) Graficky znázornite príslušnosť do skupiny voči času do zlyhania spolu s krivkou spájajúcou priemerný čas do zlyhania v každej skupine. Okomentujte adekvátnosť linárneho trendu. pred. Riešenie: (10. decembra 2014) Katina, S., 2014: Analýza prežívania 23 Tabuľk a: WBC U 2300 65 750 156 4300 100 2600 134 6000 16;; 10500 108 10000 121 17000 4 5400 39 7000 143 9400 56 32000 26 35000 22 100000 1 100000 1 52000 5 100000 65 Rozdeľme AG-pozitívnych pacientov do troch skupín nasledovne • Skupina 1: WBC > 100000, nľ = 3, (1, 1, 65) • Skupina 2: WBC G (10000,100000), n2 = 6, (108, 121, 4, 26, 22, 5), • Skupina 3: WBC < 10000, n3 = 8, (65, 156, 100, 134, 16, 39, 143, 56) Tabuľka: sk.l 1 1 sk.2 - - 4 5 - 22 26 - sk.3 - - - 16 - - 39 poradie 1.5 1.5 3 4 5 6 7 8 sk.l - 65 - - - - - sk.2 - - - 108 121 - - sk.3 56 65 100 - - 134 143 156 poradie 9 10.5 12 13 14 15 16 17 i?i = 4.50, R2 = 7.833, R3 = 11.5625 skw = ^Jiy EjU 7^-3 (n + !) = TŤ^iš p-hodnota= 0.0924 3 x 4.52 + 6 x 7.833 x 11.56252 -3xlž 4.762662. SL = Y?j=1 n j (L j - M j) Rj = 3 x(0- 14) x 4.5 + 6 x (3 - 8) x 7.833 + 8 x (9 - 0) x 11.5625 = 408.5 Var [SL] = ZU ni (Li ~ Mrf = t3 x (° " 14)2 + 6 x (3 - 8)2 +8 x (9 - O)2] = 187.99732 ZL = 408.5/187.9973 = 2.172903, p-hodnota=0.0298 SKW ~ (ZL)2 = 4.762662 - 2.1729032 = 0.0412, p-hodnota=0.8392 n-1-1-r 1.5 2.0 2.5 3.0 skupina Obr. 8: Lineárny trend pre WBC dáta Príklad 61 (nádor pľúc pokrač.) Nech tij,i = 1,... ,rij,j = 1,2 sú časy do zlyhania (úmrtia) od diagnostiky nádoru pľúc v mesiacoch, kde j = 1 predstavuje I. typ terapie a j = 2 zasa II. typ terapie (pozri tabuľku). Otestujte Hq : S± (t) = S2 (t), alternatíva H\ : S± (t) ^ S2 (t). Použite (í) Skw, (2) Sj, (3) Sc a (4) Sl- Vždy presne naformulujte H\. Príklad 62 (pokrač. WBC) Majme pacientov s akútnou myeloidnou leukémiou a v rámci nich skupinu AG-pozitívnych (výskyt určitých špecifických indikátorov choroby v kostnej dreni). Pre chorobu je charakteristické, že s počtom bielych krviniek (white blood cells counts, WBC) vzrastná (10. decembra 2014) Katina, S., 2014: Analýza prežívania 24 závažnost choroby. Nech ti,i = 1,2,..., 17 sú časy do zlyhania v týždňoch prislúchajúce zoradeným WBC (pozri tab.). Vypočítajte Kendallov korelačný koeficient r. Otestujte nezávislosť medzi počtom bielych krviniek a časmi do zlyhania na hladine významnosti a = 0.05. DTJ WBC U Cij díj 750 156 0 16 2300 65 5 9 2600 134 1 13 4300 100 3 10 5400 39 5 7 6000 16 7 4 7000 143 0 10 9400 56 3 6 10000 121 0 8 10500 108 0 7 17000 4 4 2 32000 26 1 4 35000 22 1 3 52000 5 1 2 100000 1 1 0 100000 1 1 0 100000 65 0 0 Riešenie: cíj = #(í tí, T WBCi) pod i, c = Y, Cij, dtJ = #(| U, t WBd) pod i, d = Y,dij, c = 33, d = 101, = t — c~d — —0 5 í^ = á» = 0.032, z~ = -0.5/^0.032 = -2.801 a p-hodnota=0.005. Príklad 63 (WBC pokrač.) Vypočítajte Spearmanov korelačný koeficient r g. Otestujte nezávislost medzi počtom bielych krviniek a časmi do zlyhania pomocou Zg na hladine významnosti a = 0.05. Príklad 64 (testy pre cenzurované dáta) Majme dáta z klinickej štúdie zhrnuté v nasledovnej tabuľke (pozri tabuľku), (a) Vytvorte kontingenčné tabuľky v každom čase zlyhania ti, i = 1,2,... ,7 použitím celkového počtu subjektov v riziku rii v čase ti, celkového počtu zlyhanídi v čase ti, celkového počtu subjektov prvej skupiny v riziku riu v čase ti a celkového počtu zlyhaní du subjektov prvej skupiny v čase ti. (b) Vypočítajte stredné hodnoty Ea[du\, rozdiely empirických a očakávaných početností du — Ea[dii], ako aj rozptyly Vara[du\. (c) Otestujte H0 : Ai (t) = X2 (t) oproti H\ : Ai (t) = 9X2 (t) pomocou testovacích štatistík Qgw, Qcm, Qtw a Qpp- (d) Nakreslite Kaplan-Meierove odhady funkcie prežívania pre obe skupiny do jedného obrázka, (e) Vypočítajte (t) 9p, Var[0MH] a 95%IS pre 9p, (2) Omh a 95%IS pre QMH a (3) 0*MH. cvič. Riešenie: (10. decembra 2014) Katina, S., 2014: Analýza prežívania 25 U Tli di nu dá E0[du] dá -Eolditl Var0[dií] 3 10 1 5 1 0.50 0.50 0.2500 5 9 1 4 1 0.44 0.56 0.2469 7 8 1 3 1 0.38 0.62 0.2344 12 6 1 1 0 0.17 -0.17 0.1389 18 5 1 1 1 0.20 0.80 0.1600 19 4 1 0 0 0.00 0 0 20 3 1 0 0 0.00 0 0 suma 4 1.69 2.31 1.0302 Q = 2.312/1.0302 = 5.179674, p-hodnota=0.02285261. zq = ^2.3171.0302 = 2.275890, p-hodnota=2 x 0.01142630 = 0.02285259 KT v každom čase t f. di a,i sp d2 a2 sp d3 a3 sp d i 04 sp skup. 1 1 4 5 1 3 4 1 2 3 0 1 1 skup. 2 0 5 5 0 5 5 0 5 5 1 4 5 sp 1 9 10 1 8 9 1 7 8 1 5 6 db a5 sp de a6 sp 07 sp skup. 1 1 0 1 0 0 0 0 0 0 skup. 2 0 4 4 1 3 4 1 2 3 sp 1 4 5 1 3 4 1 2 3 testovacie kritérium Q p-hodnot a GW 4.695652 0.03023902 CM 5.197242 0.02262275 TW 4.970637 0.02578116 PP 4.732935 0.02959035 > N Q. o 00 o CO o o cg o o o 10 15 20 -r 25 cas Obr. 9: Kaplan Meierove odhady funkcie prežívania Príklad 65 (AML, pokrač.) Nakreslíte (a) kumulatívne riziko AxM,j(t), j = 1,2 pre obe skupiny, (b) kumulatívne riziko ANA,j(t),j = 1,2, (c) Kaplan-Meierove krivky prežívania SKM,j(t),j = 1,2. (d) Otestujte H0 : \i(t) = X2 (t) oproti H\ : \i(t) = 9\2(t) pomocou testovacích štatistík Qmh a Qpp. Použite funkcie survdiff () s argumentami rho=0 (Qmh) a rho=l (Qpp). (e) Otestujte Hq : Ai (t) = X2 (t) oproti H\ : Ai (t) = 9X2 (t) pomocou testovacích štatistík Qgw , Qcm, Qtw a Qpp- (f) Vypočítajte (í) 0P, Var[0MH] a95%IS pre 9p, (2) Qmh a 95%IS pre Qmh a (3) Q*mh- (10. decembra 2014) Katina, S., 2014: Analýza prežívania 26 KM kumulativně riziko pre AML data NA kumulativně riziko pre AML data > £ ZJ xl skup M skup NM i i i i i r 10 20 30 40 50 cas do relapsu {v týždňoch) C T- i « T" skup M skup NM r T" T" T" T" 0 10 20 30 40 50 cas do relapsu (v týždňoch) Obr. 10: Odhady kumulatívneho rizika pre AML dáta Obr. 11: Kaplán Meierove odhady funkcie prežívania pre AML dáta 5 Charakteristiky definované sčítacím procesom Vo formuláciách sčítacím procesom (Xi,ôi) nahradíme (Ni (t) ,Yi (t)), kde N i (ť) je počet pozorovaných udalostí v intervale (0,t) v jednotke i, y , , _ Í 1 jednotka i je v riziku v čase t (pozorujem ju) ^ ' ~ \ 0 inak Táto formulácia obsahuje dáta s pravým typom cenzúr ako špeciálny prípad, teda Y,j_ (t) = I ({Ti > t}) a Ni (t) = I ({Ti 0} , N (0) = 0 [7]. Odhad kumulatívneho rizika je definovaný na základe agregovaného procesu Y (t) = Y,j_ (t). Ň (t) = Y,i Ní (t), dŇ (t) = AŇ (t) = N (t) - Ň (t~), kde N (t) je suma udalostí do času t vrátane, (10. decembra 2014) Katina, S., 2014: Analýza prežívania 27 Y (t) je počet jednotiek v riziku v čase t (formálne ide o počet jednotiek v riziku v časovom intervale (t — e, t) pre malé e). Príklad 66 Majme náhodný vektor (Xj, 5J), definovaný nasledovne (pre nejakú fiktívnu i-tu štatistickú jednotku, t.j. subjekt) 1) (Xí,5í) = (3,0), t.j. v čase X{ = 3 je cenzúra, Ni(t) = N (3) = 0, y (3) = y (3) = 1 ^(iVi(3),yi(3)) = (0,l), 2) (Xí,5í) = (4,1), t.j. v čase Xt = 4 je udalosí (zlyhanie), N (A) = 1, Y* (4) = 1, t.j. (Wť(4),yť(4)) = (l,l), 3) Ak máme viac udalostí: (N (0.5), Y,t (0.5)) = (1,1), (Ni (2) , Y,t (2)) = (2,1). Klasický Kaplan-Meierov (KM) odhad funkcie prežívania je definovaný nasledovne SkmÍj) = Yl [i-AAkmÍU i:ti -_2---, L J t?