Ústav matematiky a statistiky Přírodovědecká fakulta Masarykova univerzita M7985 Analýza přežití Zadání domácích úloh 1.část Stanislav Katina, Iveta Selingerová katina@math.muni.cz, selingerova@math.muni.cz 2 Příklad 1. Uvažujte arkus sinus odmocninovou škálu funkce přežití, tj. arcsin S(t) . (i) Odvoďte 100 × (1 − α)% intervaly spolehlivosti Waldova typu pro funkci přežití a kumulativní rizikovou funkci. (ii) Naprogramujte v funkci pro výpočet 100×(1−α)% intervalů spolehlivosti Waldova typu funkce přežití v časech úmrtí. (iii) Naprogramujte v funkci pro výpočet 100×(1−α)% intervalů spolehlivosti Waldova typu kumulativní rizikové funkce v časech úmrtí. (iv) Naprogramujte v funkci pro výpočet 100×(1−α)% pásu spolehlivosti funkce přežití mezi nejmenším a největším časem události. Uvažujte Nairův i Hallův–Walnerův pás spolehlivosti. (v) Naprogramujte v funkci pro výpočet 100 × (1 − α)% pásu spolehlivosti kumulativní rizikové funkce mezi nejmenším a největším časem události. Uvažujte Nairův i Hallův–Walnerův pás spolehlivosti. (vi) Uvažujte data Diabetes (soubor diabetes.txt), zvlášť muže a ženy. Pro každou skupinu zobrazte odhad funkce přežití spolu s 95% empirickými intervaly spolehlivosti Waldova typu a oběma typy 95% pásů spolehlivosti. • Interval spolehlivosti zobrazte jako vertikální úsečky ve tvaru písmene „I . • Pásy zobrazte jako schodovité křivky odlišené barevně pro jednotlivé metody. • Zvolte vhodný typ odhadu funkce přežití a příslušného rozptylu. (vii) Uvažujte data Diabetes (soubor diabetes.txt), zvlášť muže a ženy. Pro každou skupinu zobrazte odhad kumulativní rizikové funkce spolu s 95% empirickými intervaly spolehlivosti Waldova typu a oběma typy 95% pásů spolehlivosti. • Interval spolehlivosti zobrazte jako vertikální úsečky ve tvaru písmene „I . • Pásy zobrazte jako schodovité křivky odlišené barevně pro jednotlivé metody. • Zvolte vhodný typ odhadu kumulativní rizikové funkce a příslušného rozptylu. (viii) Uvažujte data Diabetes (soubor diabetes.txt), zvlášť muže a ženy. Pro každou skupinu spočítejte odhad pětiletého a desetiletého přežití spolu s 95% empirickými intervaly spolehlivosti Waldova typu. Uveďte také příslušné hodnoty 95% pásů spoleh- livosti. (ix) Uvažujte data Diabetes (soubor diabetes.txt), zvlášť muže a ženy. Pro každou skupinu spočítejte odhad pětiletého a desetiletého kumulativního rizika spolu s 95% empirickými intervaly spolehlivosti Waldova typu. Uveďte také příslušné hodnoty hranic 95% pásů spolehlivosti. Aktualizace dne: 18. května 2020 3 Příklad 2. Naprogramujte v funkce pro výpočet (i) průměrného časů přežití, (ii) odhad rozptylu průměrného času přežití, (iii) 100 × (1 − α)% intervalu spolehlivosti Waldova typu střední hodnoty času přežití. Uvažujte data Diabetes (soubor diabetes.txt), zvlášť muže a ženy. Pro každou skupinu spočítejte průměrný čas přežití spolu s 95% empirickým intervalem spolehlivosti Waldova typu střední hodnoty času přežití. Výsledky porovnejte s hodnotami, které získáte pomocí knihovny survival. Zvolte vhodný typ odhadu funkce přežití a příslušného rozptylu. Příklad 3. Uvažujte data ze souboru prostate.xlsx. Popis těchto dat najdete v souboru popis_prostata.pdf. Uvažujte dvě skupiny pacientů – léčení a neléčení. Jako léčení pacienti jsou považováni ti, kteří dostávali aspoň 1 mg diethylstilbestrolu denně. Zajímáme se o úmrtí těchto pacientů na karcinom prostaty a na kardiovaskulární onemocnění s ohledem na léčbu. (i) Cílem je porovnat přežití léčených a neléčených pacientů pro každou událost (úmrtí na karcinom prostaty, na kardiovaskulární onemocnění a z ostatních příčin). Spočítejte a zobrazte doplněk Kaplanova–Meierova odhadu (1 − ˆSKM (t)) a odhad kumulativní incidenční funkce (CIF(t)) samostatně pro každou událost dle léčebných skupin. Oba přístupy (1 − ˆSKM (t) a CIF(t)) porovnejte, okomentujte případné rozdíly. Interpretujte výsledky CIF s ohledem na léčbu pacientů a sledovanou událost. (ii) Naprogramujte v funkci pro výpočet odhadu rozptylu odhadu kumulativní incidenční funkce (CIF) v časech událostí. (iii) Naprogramujte v funkci pro výpočet 100×(1−α)% intervalů spolehlivosti Waldova typu pro kumulativní incidenční funkci v časech událostí pro různé škály. (iv) Zobrazte CIF(t) z (i) včetně intervalů spolehlivosti s vhodně zvolenou škálou. Aktualizace dne: 18. května 2020 4 Příklad 4. Vyjádřete vztah mezi Mann–Whitney a Wilcoxonovým testem pro necenzorovaná data. Teoreticky spočítejte pravděpodobnostní funkce statistik UY (vyjadřuje počet dvojic, kde Xi > Yj) a WX (vyjadřuje součet pořadí prvního výběru ve sdruženém výběru) pro různé velikosti skupin (i) n1 = 1, n2 = 3, (ii) n1 = 2, n2 = 2 (stačí spočítat pro konkrétní rozsahy) a graficky je pomocí porovnejte. Příklad 5. Uvažujte data Diabetes (soubor diabetes.txt), pacienty rozdělte do třech skupin dle věku – 0–60 let, 61–70 let a 71 a více let. Naprogramujte v funkce pro testování rovnosti tří a více funkcí přežití. (i) Zobrazte do jednoho grafu odhady funkce přežití podle věkové skupiny. Uvažujte jak Kaplanův–Meierův typ odhadu, tak Breslowův typ odhadu. (ii) Zobrazte do jednoho grafu odhady kumulativní rizikové funkce podle věkové skupiny. Uvažujte jak Nelsonův–Aalenův typ odhadu, tak Kaplanův–Meierův typ odhadu. (iii) Testujte H0 : λ1(t) = λ2(t) = λ3(t) proti H1 : ∃ aspoň jedno i < j, λi(t) = λj(t) pomocí zevšeobecněného Wilcoxonova testu, Cox–Mantelova testu, Tarone–Ware testu, Mantel–Haenszelův testu a Peto–Peto–Wilcoxonova testu. (iv) Testy, u kterých je to možné, proveďte také pomocí knihovny survival. Příklad 6. Uvažujte data Diabetes (soubor diabetes.txt). Modelujte závislost času úmrtí po operaci na vysvětlujících proměnných pomocí následujících variant Coxova modelu proporcionálních rizik: 1. Jako vysvětlující proměnnou uvažujte pouze věk. 2. Jako vysvětlující proměnnou uvažujte pouze přítomnost diabetu. 3. Jako vysvětlující proměnné uvažujte věk a přítomnost diabetu. 4. Jako vysvětlující proměnné uvažujte věk, přítomnost diabetu a interakci mezi přítomností diabetu a věkem. 5. Uvažujte stratifikovaný Coxův model, kde stratifikační proměnná je přítomnost diabetu (tj. strata(diab)) a vysvětlující proměnnou je věk. 6. Uvažujte stratifikovaný Coxův model stejně jako v předchozím bodě, ale navíc uvažujte i interakční člen. 7. Uvažujte Coxovy modely s věkem jako vysvětlující proměnnou samostatně pro skupiny s diabetem a bez. Pro každou variantu zapište tvar Coxova modelu pomocí rizikové funkce a odhadněte parametry těchto modelů pomocí funkce coxph z knihovny survival. Spočítejte poměry rizik Aktualizace dne: 18. května 2020 5 (hazard ratio) včetně příslušného 95% intervalu spolehlivosti a interpretujte výsledky jednotlivých modelů. Pro každou variantu otestujte významnost jednotlivých parametrů a celého modelu. Uvažujte všechny modely, ve kterých je zahrnut věk, a spočítejte poměr rizik pro věk včetně příslušného 95% intervalu spolehlivosti samostatně pro skupiny pacientů s diabetem a bez. Výsledky dle jednotlivých modelů porovnejte, interpretujte a okomentujte. Pomůcka: Varianční matici pro koeficienty získáte z výstupu funkce coxph pomocí $var. Předpokládejte Waldův typ intervalů spolehlivosti. Aktualizace dne: 18. května 2020