logo-IBA logomuni Biostatistika pro matematickou biologii Tomáš Pavlík, Ladislav Dušek, Michal Uher pavlik@iba.muni.cz esf-komplet-barva.jpg logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Přínos kurzu * Orientace v principech biostatistiky, plánování a hodnocení experimentů. * Orientace v biostatistických metodách, jejich výpočetní podstatě a jejich předpokladech. * Schopnost aplikace metod při řešení reálných problémů z oblasti biologie a medicíny a interpretace výsledků. * * * * Kurz slouží jako příprava pro pokročilejší přednášky statistiky a aplikované analýzy dat. * Biostatistika v matematické biologii je předmět na pomezí základní biostatistiky a kurzu pravděpodobnosti a statistiky. Schopnost statistického uvažování nad reálným problémem logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Požadavky ke zkoušce 1.Zkouška bude vycházet z přednášek + skript 2.Zkouška bude písemná (60 bodů) + ústní (10 bodů) 3.V průběhu semestru budou 2 krátké testy (každý 15 bodů) logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Literatura 1.Přednášky 2.Skripta 3.Web * Česky: * Zvárová J (2001) Základy statistiky pro biomedicínské obory, Karolinum, Praha. * Zvára K (2006) Biostatistika, Karolinum, Praha. Anglicky: * Altman DG (1991) Practical statistics for medical research, Chapman&Hall/CRC, London. * Zar JH (1999) Biostatistical analysis, Prentice-Hall, New Jersey. * * logo-IBA logomuni Přednáška I. Úvod do biostatistiky * Motivační příklady * Co je biostatistika a čím se zabývá * Klíčové principy biostatistiky math logo-IBA logomuni 1. Příklady použití biostatistiky logo-IBA logomuni * The aim of this work is to present a Cox regression model for the achievement of the complete cytogenetic or molecular response to a modern targeted therapy in patients in chronic phase of chronic myeloid leukemia (CML). The model is based on data coming from a population study involving approximately half of Czech and all Slovak CML patients treated since 2000. * * The primary objective of this study was to identify characteristics of CML patients associated with prolonged time to complete cytogenetic response (CCgR) or major molecular response (MMR) to imatinib therapy, which could further indicate the increased risk of disease progression. Př. 1 Project CAMELIA – Regression model for cytogenetic or molecular response in patients with chronic myeloid leukemia logo-IBA logomuni All patients in Camelia project with first-line imatinib therapy for chronic phase CML after 2000 Patients with follow-up at least 12 months from the start of imatinib therapy N = 272 Patients with follow-up less than 12 months from the start of imatinib therapy N = 58 N = 330 Patients with complete key characteristics N = 264 Patients with incomplete key characteristics N = 8 Patients with imatinib therapy initiation in 2005 – 2008 N = 197 Patients with imatinib therapy initiation in 2000 – 2004 N = 67 Patients included in the analysis – summary logo-IBA logomuni * In addition, following categorical variables were also considered for the modelling: * Patient’s sex * Imatinib dosage * Clonal chromosomal abnormalities in the Ph+ cells * Clonal chromosomal abnormalities in the Ph- cells * * Clinical centre was incorporated to the model as a random effect. * Modelling the endpoint – primary variable selection * The continuous explanatory variables were analysed using a cluster analysis and principal component analysis to identify highly correlated prognostic factors. * * Four distinct clusters and two separate clinical variables identified with the multivariate techniques – only one member from each of the identified groups of prognostic factors was used as a covariate. logo-IBA logomuni * Regression diagnostic was performed to find out whether the model adequately describes the data. * * Highly influential observations (outliers) were subsequently filtered out. * * Finally, N=5 outliers were filtered out with N=192 considered in the final model. dfbetaModelI.jpg Modelling the endpoint – regression diagnostics logo-IBA logomuni * Hazard ratios identified with the final model according to the achievement of cytogenetic or molecular response to imatinib therapy in chronic CML patients treated with imatinib in first-line after 2004 * N=192 * * * * * * Risk factor Risk category / Basal category Hazard ratio 95% CI p-value Sex Male / Female 1.88 1.33–2.66 <0.001 Hemoglobin Hb < 110 g/l / Hb 110 g/l and more 1.89 1.23–2.87 0.004 Sokal score Medium risk / Low risk 1.34 0.93–1.93 0.120 Sokal score High risk / Low risk 2.43 1.45–4.08 <0.001 Clinical centre* - - - <0.001 Modelling the endpoint – the final model logo-IBA logomuni Př. 2 Multi-state model of CML therapy Pavlik et al. - Figure 1.jpg •Obviously, all living patients can move from the CCyR (state 3) to the cytogenetic relapse (state 4) and vice versa repeatedly. logo-IBA logomuni Current cumulative incidence (CCI) and current leukaemia‐free survival (CLFS) The common leukaemia-free survival underestimates the probability of being alive and in remission after the achievement of first remission on the imatinib therapy. The common cumulative incidence curve overestimates the probability of being alive and in remission after the initiation of the imatinib therapy. CCI(t) CLFS(t) logo-IBA logomuni * Hemkens a kol. (2009) publikovali vyšší riziko vzniku zhoubného nádoru při užívání inzulinu glargin při srovnání s adekvátní dávkou humánního inzulinu. Př. 3 Je použití inzulinového analoga u diabetiků bezpečné? logo-IBA logomuni Jedná se o 1.observační studii 2.studii s „pokusem“ o adjustaci na dávkování inzulinu 3.studii s velmi krátkou délkou sledování pacientů ve skupině s vysokou dávkou inzulinu glargin (v průměru 7,3 měsíců) 4.studii s vyloučením pacientů s kombinovanou terapií Co tato studie znamená ze statistického hlediska? logo-IBA logomuni Randomizovanou studii někdy nelze v klinické praxi provést. Hlavními důvody mohou být * etické hledisko * randomizaci nelze použít * raritní výskyt sledovaného onemocnění * V těchto případech má observační studie své opodstatnění, ALE! 1. Observační studie má své výhody… logo-IBA logomuni Observační studie nemůže zaručit stejné zastoupení rizikových faktorů v jednotlivých sledovaných skupinách! I při použití adjustačních metod mohou být výsledky ovlivněny nenáhodným rozdělením pacientů do jednotlivých skupin. Použití výsledků observačních studií pro vytváření klinických doporučení tak může být nekorektní, … … což je i případ studie Hemkense a kol. … a jednu velkou nevýhodu! Příklad s hormonální terapií logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Adjustace na dávkování použitá v německé studii neodpovídá statistickým standardům. * Je nepřijatelné adjustovat statistický model na informaci, která je získána až v průběhu sledování. * Adjustace na dávkování musí být provedena s pomocí časově proměnného faktoru, ne s použitím průměrné hodnoty. Coxův model nebyl v německé studii použit správně! 2. Adjustace na dávkování inzulinu logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Vždy je třeba důkladně rozlišit příčinu a důsledek! Může být vůbec u pacientů sledovaných necelý rok označeno použití inzulinu jako příčina vývoje nádorového onemocnění? 3. Krátká délka sledování pacientů logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Vyloučení pacientů s kombinovanou terapií je ze statistického hlediska umělý krok, který může vést ke zkreslení výsledků. * Nelze úplně vyloučit pacienty ze studie na základě informace, kterou opět získáme až v průběhu sledování. * Doba sledování pacientů s kombinovanou léčbou měla být zahrnuta do analýzy. * Autoři se dopustili umělé a nekorektní selekce pacientů! 4. Vyloučení pacientů s kombinovanou terapií logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika “There is no evidence of an overall increase in the rate of cancer development in patients on insulin glargine”. Studie Hemkens a kol. (2009) je ze statistického hlediska nekorektní a její výsledky jsou neinterpretovatelné. Lze jednoznačně souhlasit s tvrzením: Závěr logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Další příklady použití biostatistiky * Modelování demografické struktury obyvatelstva * Hodnocení úspěšnosti screeningových programů v onkologii * Identifikace vlivu genetických a vnějších rizikových faktorů na vznik různých onemocnění – astma, diabetes, hypertenze * Identifikace podskupin pacientů s leukémií na základě genetických dat * * Prostorové modelování koncentrací PAH, PCB, DDX a HCB v půdě * Prediktivní modelování potencionálního rozšíření biologických společenstev * Definice indikačních taxonů a jejich vztah k parametrům prostředí * Analýza vztahu dávka - odpověď mezi koncentrací toxické látky, např. pesticidu a reakcí biologických receptorů logo-IBA logomuni 2. O čem ta biostatistika vlastně je? „Statistics is the art and science of making decisions in the face of uncertainty. Biostatistics is statistics as applied to the life and health sciences.“ Abdelmonem A. Afifi logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Biostatistika * Biostatistika je aplikace statistických metod v řešení biologických a klinických problémů. * * Snahou je získat z pozorovaných dat užitečnou informaci. V popředí zájmu je pozorovaná variabilita mezi studovanými subjekty, kterou chceme vysvětlit. * * Je orientována na konkrétní problém, ne na teoretické aspekty. To však neznamená, že lze statistické metody používat bezhlavě. * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Význam biostatistiky * Elucidation of human anatomy and physiology * Discovery of cells and their substructures * Elucidation of the chemistry of life * Application of statistics to medicine * Development of anesthesia * Discovery of the relation of microbes to disease * Elucidation of inheritance and genetics * Knowledge of the immune system * Development of body imaging * Discovery of antimicrobial agents * Development of molecular pharmacotherapy 11 nejvýznamnějších událostí medicíny v minulém tisíciletí (NEJM, 2001): logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Biostatistika souvisí s dalšími vědami logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Jaké úlohy můžeme řešit? * Popis cílové populace – odhady charakteristik cílové populace * * Srovnání skupin – testování hypotéz * * Regresní analýza – stochastické modelování pro vysvětlení variability * * Predikce a klasifikace – stochastické modelování a klasifikační algoritmy pro předpovídání neznámých hodnot * * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika VÝSLEDKY Cílová populace Náhodný výběr dle optimálního plánu Reprezentativní vzorek n subjektů Měření charakteristiky Hodnocení variability hodnot ve výběrovém souboru ? Reprezentativnost Přesnost Spolehlivost ? Popis cílové populace – popis pozorované variability logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika VÝSLEDKY Cílová populace Výběr subjektů pro vstup do hodnocení / studie (Náhodné) rozdělení do kategorií Měření veličiny X Variabilita hodnot X ve skupině A ? Variabilita hodnot X ve skupině B Skupina A Skupina B Srovnatelnost Přesnost Spolehlivost ? Srovnání skupin – srovnání pozorované variability logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Predikce neznámých hodnot + stochastické modelování Cílová populace Náhodný výběr dle optimálního plánu Reprezentativní vzorek n subjektů Modelování charakteristiky Y ze znalosti charakteristiky X Vytvoření rovnice závislosti Y na X ? Reprezentativnost Přesnost Spolehlivost ? Charakteristika X Charakteristika Y X Y Predikce logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klasifikace nových pozorování – klasifikační algoritmy Cílová populace se třemi typy subjektů Výběr subjektů pro tzv. trénovací soubor (se zastoupením všech typů) Vytvoření rozhodovacího pravidla pro klasifikaci nových pozorování ? ? Schopnost rozhodovacího pravidla adekvátně klasifikovat je třeba ověřit na tzv. testovacím souboru Reprezentativnost Přesnost Spolehlivost ? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Biostatistiku lze najít všude… Sběr dat Interpretace výsledků Biologický / klinický problém Hypotéza Plánování experimentu Publikace Biostatistik Biolog / klinik Návrh uspořádání experimentu Sběr dat Analýza dat Vyhodnocení výsledků / hypotézy Interpretace výsledků Příprava dat pro analýzu Plánování experimentu Publikace logo-IBA logomuni 3. Klíčové aspekty biostatistiky „Statistical analysis allows us to put limits on our uncertainty, but not to prove anything.“ Douglas G. Altman logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty biostatistiky 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – zkreslení * V jakémkoliv hodnocení se snažíme vyhnout zkreslení výsledků („biased results“) – tedy zkreslení výsledků jinými faktory než těmi, které jsou cíli studie. * * Statistické srovnání není nikdy 100% spolehlivé, existuje náhoda a tedy i pravděpodobnost chybného úsudku – to nelze ovlivnit. * * Chceme použít adekvátní metody pro odstranění vlivů, které by zkreslily výsledky a nebyly přitom náhodné (např. zastoupení pohlaví). * 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – zkreslení * Pojem zavádějící faktor * Pro zavádějící faktor současně platí, že * přímo nebo nepřímo ovlivňuje sledovaný následek, * je ve vztahu se studovanou expozicí , * není mezikrokem mezi expozicí a následkem. * 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – zkreslení * Příklad na zavádějící faktor (přímo nebo nepřímo ovlivňuje sledovaný následek, je ve vztahu se studovanou expozicí , není mezikrokem mezi expozicí a následkem). * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – zkreslení logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – zkreslení * Čím by mohl být způsoben pozorovaný rozdíl v 10letém přežití pacientů s nádorem trávicího traktu? ? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – zkreslení * Čím by mohl být způsoben pozorovaný rozdíl v 10letém přežití pacientů s nádorem trávicího traktu? ? Léčba? Nějaký prognostický faktor? Stadium nemoci? Věk? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – zkreslení * Zkreslení výsledků souvisí s pojmem „validita klinické studie“. * Medicína založená na důkazech – zajímají nás pouze „kvalitní“ důkazy. * Hlavním aspektem kvality je validita získaných výsledků. * * Interní validita studie: odráží, jak moc lze rozdíly v účinnosti a bezpečnosti pozorované u srovnávaných skupin přisuzovat sledované intervenci. Chceme minimalizovat nenáhodnou chybu (zkreslení). * * Externí validita studie: odráží zobecnitelnost (z hlediska korektnosti) výsledků na jiné populace a experimentální podmínky. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – reprezentativnost * Pojem cílová populace – skupina subjektů, o které chceme zjistit nějakou informaci. * Pojem experimentální vzorek – podskupina cílové populace, kterou „máme k dispozici“. * Musí odpovídat svými charakteristikami cílové populaci. * Chceme totiž zobecnit výsledky na celou cílovou populaci. * Souvislost s náhodným výběrem. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – reprezentativnost Aplikace metod Klíčový krok logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – srovnatelnost * Korektní výsledky při srovnávacích analýzách lze získat pouze při srovnávání srovnatelného. * * V kontrolovaných klinických studiích je srovnatelnost zajištěna randomizací. * * U studií bez randomizace je nutné se tématu srovnatelnosti skupin věnovat. * * Metody adjustace, matching, propensity scores. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – spolehlivost * Ve většině studií nás zajímá kvantifikace sledovaného efektu nebo charakteristiky, obecně náhodné veličiny, ve formě jednoho čísla, bodového odhadu. * * Bodový odhad je však sám o sobě nedostatečný. * * Je nutné ho doplnit intervalovým odhadem, který odpovídá pravděpodobnostnímu chování sledované veličiny, tedy odpovídá určité spolehlivosti výsledku. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – spolehlivost R 0 x Měříme sledovanou veličinu a následně spočítáme odhad. Jak moc lze tento bodový odhad zobecnit na cílovou populaci? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – spolehlivost R 0 x Opět měříme sledovanou veličinu. Jaký je rozdíl? A co když naopak přidáme někoho jiného? y logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – spolehlivost 600px-Icon-Warning-Red.svg.png R 0 x1 tiroles-icon.png african-icon.png arabian-icon.png esquimal-icon.png russian-icon.png R 0 x2 earth.gif R 0 x Umíme-li „změřit“ celou cílovou populaci, nepotřebujeme interval spolehlivosti, protože jsme schopni odhadnout sledovaný parametr přesně – v praxi je tato situace nereálná. R 0 x1 R 0 x2 ( ) ( ) Celá cílová populace Výběr číslo 2 Výběr číslo 1 Pracujeme-li s výběrem z cílové populace, je třeba na základě variability pozorovaných dat spočítat tzv. interval spolehlivosti pro bodový odhad. Interval spolehlivosti na základě výběru číslo 1. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – významnost * Analytické výsledky studie nemusí odpovídat realitě a skutečnosti. Statistická významnost jednoduše nemusí znamenat příčinný vztah! * * Statistická významnost pouze indikuje, že pozorovaný rozdíl není náhodný (ve smyslu stanovené hypotézy). * * Stejně důležitá je i praktická významnost, tedy významnost z hlediska lékaře nebo biologa. * * Statistickou významnost lze ovlivnit velikostí vzorku. * 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – významnost Praktická významnost ANO NE ANO OK, praktická i statistická významnost je ve shodě. Významný výsledek je statistický artefakt, prakticky nevyužitelný. NE Výsledek může být pouhá náhoda, neprůkazný výsledek. OK, praktická i statistická významnost je ve shodě. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – významnost Praktická významnost ANO NE ANO OK, praktická i statistická významnost jsou ve shodě. Významný výsledek je statistický artefakt, prakticky nevyužitelný. NE Výsledek může být pouhá náhoda, neprůkazný výsledek. OK, praktická i statistická významnost jsou ve shodě. 600px-Icon-Warning-Red.svg.png Statisticky nevýznamný výsledek neznamená, že pozorovaný rozdíl ve skutečnosti neexistuje! Může to být způsobeno nedostatečnou informací v pozorovaných datech! logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové aspekty – významnost Bodový odhad efektu + IS Možnost Statistická významnost Klinická významnost a) ne možná b) ne možná c) ano možná d) ano ano e) ne ne f) ano ne a) b) c) d) e) f) Střední hodnota v populaci Klinicky významná odchylka 600px-Icon-Warning-Red.svg.png