© Institut biostatistiky a analýz Plánování, organizace a hodnocení klinických studií Statistické zpracování dat a jejich interpretace Tomáš Pavlík Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Struktura přednášky I. Analýza dat klinických studií II. Cílové parametry hodnocení III. Experimentální design klinických studií IV. Randomizace V. Zaslepení studie VI. Interim analýza, subgroup analýzy VII. Principy statistické analýzy dat VIII. Statistická vs. klinická významnost IX. Optimalizace velikosti vzorku X. Aspekty korektního zpracování dat KHL XI. Příklady Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 3 I. Analýza dat klinických studií Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Medicína založená na důkazech  Úkolem zdravotního systému je zajistit dostupnými prostředky nejlepší možný zdravotní a psychický stav národa.  K naplňování tohoto úkolu by měl pomoci princip nazvaný medicína založená na důkazech („evidence based medicine“).  Medicína založená na důkazech je proces zabývající se systematickým hledáním, hodnocením a hlavně využitím současných výsledků klinického výzkumu při poskytování péče jednotlivým pacientům.  Poskytování důkazů pomocí klinického výzkumu a vědecké literatury.  Vytváření klinických doporučení (založených na důkazech) a jejich distribuce.  Implementace účinných a efektivních postupů pomocí výuky a řízení kvality.  Hodnocení dodržování doporučených postupů pomocí klinických auditů, indikátorů kvality a výsledků léčebné péče. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Cíl klinických studií Primární cíl:  Ověření účinnosti nebo bezpečnosti nového léčebného postupu nebo intervence. Otázka:  Jsou dosažené výsledky reálné nebo náhodné? ? Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Bias (zkreslení) v klinických studiích  V hodnocení klinických studií se snažíme vyhnout zkreslení výsledků, tzv. „bias“.  V případě klinických studií se jedná o zkreslení výsledků jinými faktory než těmi, které jsou cíli studie. 1. Statistické srovnání není nikdy 100% spolehlivé, existuje náhoda a tedy i pravděpodobnost chybného úsudku – to nelze ovlivnit. 2. My však chceme použít adekvátní metody pro odstranění vlivů, které by zkreslily výsledky a nebyly přitom náhodné (např. zastoupení pohlaví). Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Statisticky korektní zpracování klinických studií Úspěch a validita klinické studie jsou závislé na mnoha aspektech, některé z nich jsou však klíčové: 1. Použití souběžné kontrolní skupiny 2. Randomizace 3. Zaslepení studie 4. Optimalizace velikosti vzorku 0. Správná formulace klinické hypotézy – endpoint Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Proč? 1. Použití souběžné kontrolní skupiny Účinnost i bezpečnost léčby musí být hodnoceny v kontextu kontrolní skupiny pacientů, kteří nebyli exponováni experimentální léčbě, ale jsou srovnatelní v ostatních klinických faktorech. 2. Randomizace Přiřazování subjektů do skupin musí být náhodné, protože pouze přiřazování, které není zatíženo subjektivitou, může umožnit relevantní srovnání primárních cílů studie. 3. Zaslepení Cílem zaslepení studie je vyhnout se subjektivnímu hodnocení výsledků léčby nebo experimentu při vědomí pacienta a/nebo lékaře, do které léčebné skupiny pacient patří. 4. Optimalizace velikosti vzorku Počet subjektů zapojených do klinické studie musí být optimalizován, aby nedošlo k ovlivnění statistického testu, případně aby tento test měl vůbec smysl. 0. Správná formulace klinické hypotézy Je nutné definovat, co vlastně hodnotíme, neboť od hypotézy se odvíjí nejen uspořádání celé studie, ale i forma jejího vyhodnocení. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Validita klinické studie Medicína založená na důkazech – zajímají nás pouze „kvalitní“ důkazy. Hlavním aspektem kvality je validita získaných výsledků. Interní validita studie: odráží, jak moc lze rozdíly v účinnosti a bezpečnosti pozorované u srovnávaných skupin přisuzovat sledované intervenci. Chceme minimalizovat nenáhodnou chybu (zkreslení). Externí validita studie: odráží zobecnitelnost (z hlediska korektnosti) výsledků na jiné populace a experimentální podmínky. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Interní validita studie Interní validita studie jednoznačně souvisí se zkreslením výsledků (bias): „Bias is any process at any stage of inference tending to produce results that differ systematically from the true values.” V klinických studiích rozlišujeme čtyři typy zkreslení: Výběrové zkreslení (selection bias) Prováděcí zkreslení (performance bias) Detekční zkreslení (detection bias) Úbytkové zkreslení (attrition bias) Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Interní validita studie Výběrové zkreslení (selection bias): vzniká ve chvíli, kdy srovnávané skupiny nejsou srovnatelné stran nějakého faktoru, který ovlivňuje výsledek. Vznik výběrového zkreslení se snažíme minimalizovat použitím randomizace. Prováděcí zkreslení (performance bias): vzniká ve chvíli, kdy srovnávané skupiny mají různé experimentální podmínky (samozřejmě kromě sledované intervence) – např. dostávají jinou léčbu/péči. Detekční zkreslení (detection bias): vzniká ve chvíli, kdy je u srovnávaných skupin různě hodnocena cílová proměnná. Vznik prováděcího a detekčního zkreslení se snažíme minimalizovat použitím zaslepení. Úbytkové zkreslení (attrition bias): vzniká ve chvíli, kdy srovnávané skupiny nejsou srovnatelné stran subjektů, které předčasně opustily studii a nelze u nich hodnotit cílovou proměnnou. Vznik úbytkového zkreslení se snažíme minimalizovat použitím intention-to treat analýzy. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Externí validita studie Externí validita studie souvisí s možností zobecnění jejích výsledků na jinou populaci subjektů v jiném prostředí a za jiných podmínek. Jiná populace subjektů: vliv věku, pohlaví, tíže onemocnění, rizikových faktorů, komorbidit Jiné prostředí: systém zdravotnictví (USA⨯EU), organizace léčebné péče, specializace a zkušenosti lékařů Jiné podmínky – léčba: dávkování, podání, pravidelné sledování, další léčebné modality, souběžná léčba Jiné podmínky – měření výsledků léčby: definice cílové proměnné a její měřitelnost v daném prostředí Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Interní a externí validita studie Klinická studie Výsledky nelze zobecnit na žádnou populaci Ne Interní validita? Výsledky lze zobecnit pouze na populaci danou vstupními kritérii studie Externí validita? Ano Výsledky lze zobecnit i na širší populaci subjektů Ne Ano Interní validita studie je nutným předpokladem externí validity. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz  ffgf 14 II. Cílové parametry hodnocení Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 1. Klinický parametr: Většinou je hodnocena změna v daném parametru nebo dosažení určité hladiny. 2. Léčebná odpověď a odvozené parametry: Hodnocení ústupu nádoru jako odpovědi na léčbu a délky času trvání této redukce. Tento endpoint je nejčastěji používaný ve studiích fáze II ale i v ostatních typech studií. 3. Time-to-event: Hodnotí délku času, po kterou je subjekt bez sledované události, např. bez zhoršení primárního onemocnění. Často používaný endpoint pro studie fáze III. OS, PFS, DFS. 4. Kvalita života: Parametr založený na subjektivním zhodnocení celkového zdravotního stavu pacienta a ovlivnění jednotlivých aspektů jeho života. Jedná se o současné zhodnocení přínosů léčby a negativního vlivu nežádoucích účinků. Cílové parametry testování hypotéz v klinických studiích Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Př.: Hodnocení léčebné odpovědi na základě RECIST kritérií Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz  Studujeme čas předcházející události, která nás zajímá  Na rozdíl od mortality nechceme pouze počty událostí (událost = smrt, progrese nemoci, relaps …)  Musí být jasně časově definován počátek (je většinou individuální) i konec sledování.  Cenzorování je typické pro analýzu přežití (kompletní čas přežití nemusí být pozorován u všech subjektů) Přežití jako endpoint Úmrtí Úmrtí Ukončení studie Ztracen ze sledování Nepozorované časy úmrtí Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Kolikrát ? O kolik ? Větší, menší ? Rovná se ? Typy dat dle škály hodnot Informačníhodnotadat Poměrová Intervalová Ordinální Nominální Data Otázky Příklady Glykémie, váha Teplota ve °C PS, kouření Pohlaví, KS Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 19 III. Experimentální design klinických studií Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz  Klíčová věc při plánování klinické studie, od které se odvíjejí další kroky.  Špatný design většinou vede ke znehodnocení výsledků celé studie.  Správný design je základním předpokladem úspěšného průběhu studie. Design studie musí především adekvátně zohledňovat stanovené klinické hypotézy.  Použitý experimentální design určuje jak organizaci studie tak její následné statistické zpracování. Design klinických studií Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Prospektivní a retrospektivní studie Prospektivní studie U některých subjektů je rizikový faktor přítomen a u jiných ne → sledujeme v čase, zda se vyskytne událost. Retrospektivní studie U některých subjektů se událost vyskytla a u jiných ne → zpětně hodnotíme, zda se liší s ohledem na nějaký rizikový faktor. Exponovaní jedinci Jedinci bez expozice Případy (s událostí) Případy (s událostí) Kontroly (bez události) Kontroly (bez události) Exponovaní jedinci Jedinci bez expozice Historie Začátekstudie Čas Začátekstudie Čas S událostí Bez události Průběh studie Kohorta subjektů (náhodně vybranáze studované populace) S událostí Bez události Exponovaníjedinci Jedinci bez expozice Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Exponovaní jedinci Jedinci bez expozice Případy (s událostí) Případy (s událostí) Kontroly (bez události) Kontroly (bez události) Exponovaní jedinci Jedinci bez expozice Historie Case-control (případ-kontrola) studie Začátek studie Čas Retrospektivní sledování souboru osob, u nichž došlo ke sledovanému jevu (např. vzniku onkologického onemocnění). Tuto skutečnost vztahujeme k výskytu určitého faktoru (rizikového nebo ochranného) v minulosti. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Začátek studie Čas S událostí Bez události Průběh studie Kohorta subjektů (náhodně vybraná ze studované populace) S událostí Bez události Exponovaní jedinci Jedinci bez expozice Kohortní studie Prospektivní sledování souboru osob, z nichž část byla vystavena působení určitého faktoru. Po adekvátní době sledování je zhodnocen výskyt sledovaného jevu ve skupině ovlivněné definovaným faktorem a ve skupinu bez něj. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Vstup R A N D O M I Z A C E Rameno 1 Rameno 2 Rameno n Tento typ uspořádání je charakteristický pro studie fáze III kde je srovnávána účinnost a bezpečnost dvou nebo více terapeutických postupů. Základním prvkem designu je randomizace subjektů do jednotlivých léčebných skupin. V průběhu celé studie je zachováno jedinečné přiřazení subjektů do léčebných skupin. Paralelní design randomizované studie Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Paralelní design - příklad Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Paralelní design - příklad Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Tento typ uspořádání je nejčastěji používaný ve studiích kde předpokládáme velkou interindividuální variabilitu v účinnosti a bezpečnosti hodnocených léčivých přípravků. Základem je časově oddělená aplikace všech srovnávaných přípravků všem subjektům. Vstup R A N D O M I Z A C E Sekvence 1 Sekvence 2 W A S H O U T Lék Placebo Lék Placebo Časová perioda 1 2 Cross-over design randomizované studie Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Cross-over design - příklad Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Cross-over design - příklad Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz  Výhodou cross-over designu je aplikace standardní i experimentální léčby na všech subjektech, tedy každý subjekt je zároveň sám sobě kontrolou  cross-over design vyžaduje menší celkový počet subjektů.  Výhodou paralelního uspořádání je jeho jednoduchost, a to jak při organizaci studie, tak při zpracování výsledků.  Cross-over design nelze aplikovat vždy (např. v onkologické léčbě nebo při srovnávání většího počtu srovnávaných léčiv).  U cross-over designu je nutné brát v úvahu tzv. carry-over efekt. Rozdíl mezi paralelním a cross-over designem Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz  Faktoriální design Vyhodnocujeme účinnost/bezpečnost dvou a více léčebných postupů zároveň Subjekty jsou přiřazovány ke všem možným léčebným kombinacím  Adaptivní designy Na rozdíl od „statických“ designů využívají průběžné informace zaznamenané ve studii k modifikaci jejích aspektů (např. velikosti vzorku) Další experimentální designy Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 32 IV. Randomizace Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Randomizace Metodika a proces náhodného (pseudonáhodného) rozdělování subjektů hodnocení (pacientů) do dvou nebo více léčebných skupin. Randomizace Kontrolní skupina Experimentální skupina Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Cíle a smysl randomizační procedury  Zamezit subjektivnímu a selektivnímu rozdělování pacientů (subjektů) do léčebných skupin.  Zamezit systematické chybě, zkreslení  Splnit základní předpoklad validního použití statistických testů náhodný výběr z populace  Zabezpečit požadovaný poměr počtu pacientů v jednotlivých léčebných skupinách  Možnost kontroly rovnoměrné distribuce prognostických faktorů v léčebných skupinách  Randomizace však není zárukou rovnoměrné distribuce prognostických faktorů – i při minimálním rozdílu v klíčovém parametru mezi jednotlivými skupinami je nutné tento rozdíl brát při statistickém hodnocení v potaz Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Princip: Náhodné rozdělování pacientů do definovaných skupin Např. klinická studie se dvěmi rameny: A,B; N = 100. Subjekty R A N D O M I Z A C E P = 0,5 P = 0,5 Rameno A Rameno B Kompletní randomizace Při použití kompletní randomizace je pravděpodobnost shodného počtu SH ve dvou léčebných skupinách se 100 SH celkem pouze 8%. Nevhodná! Riziko nevyváženého počtu subjektů hodnocení v léčebných skupinách Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Princip metody: pravidelné opakování bloků složených z identifikátorů skupin zajišťující stejný počet subjektů v obou skupinách. Př.: Klinická studie se dvěmi rameny: A,B N = 80 1) Volba velikosti bloku: B = 4 2) Permutace: Celkem 6 možností bloku: 3) Sestavení randomizačního plánu jako sekvence 20 náhodně po sobě jdoucích bloků 1 AABB 2 BBAA 3 ABBA 4 BAAB 5 ABAB 6 BABA Permutační bloková randomizace Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Principem je provedení permutační blokové randomizace v rámci definovaných podskupin pacientů. Př.: KH: N = 80 SH, 2 ramena (A,B), blok o velikosti B = 4 1) Volba stratifikačních kriterií: • pohlaví: muž x žena • věk: ≤50 x >50 2) Vytvoření čtyř podskupin SH na základě všech možných kombinací prognostických faktorů 3) Bloková randomizace v rámci podskupin: ≤50 >50 ≤50 >50 A A B A B A B A B B A B A B A B B A B A B B A B A A A A A B B B . . . . 1 2 Blok Skupina Muži Ženy Stratifikovaná permutační bloková randomizace Stratifikační faktor musí být parametr zjistitelný před randomizací subjektů Maximální efektivity randomizace je dosaženo při volbě 2-3 stratifikačních parametrů (dle rozsahu studie) Stratifikační parametry musejí být nestochastické proměnné Stratifikací nelze kontrolovat všechny prognostické faktory, tento problém je předmětem post-randomizačních vícerozměrných statistických analýz Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Princip: Každý SH je randomizován do léčebné skupiny na základě rozložení prognostických faktorů z dosavadního průběhu KH Př.: Klinická studie se třemi sledovanými prognostickými faktory. Dosavadní průběh: Další SH: Věk = 68 let; Klinický parametr 1 = 7,4; Stadium = 3 Počet SH se stejnou kombinací prognostických faktorů: Placebo rameno: 49+45+29 = 123 Lék: 51+44+30 = 125 SH bude s pravděpodobností P > 0,5 (3/4 nebo 2/3) randomizován do ramene s placebem. Placebo Lék 106 107 ≤50 57 56 >50 49 51 ≤10 45 44 >10 61 63 1 25 26 2 52 51 3 29 30 Terapie Věk Klin. par. 1 Stadium n Adaptivní randomizace Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Limitace randomizačních procedur  Randomizace nezaručuje externí validitu klinické studie, ta je dána především vstupními kritérii  Randomizace nezaručuje rovnoměrnou distribuci všech prognostických faktorů v léčebných skupinách  Randomizace je pouze jedna z řady metod využívaných k minimalizaci rizika zkreslení výsledků klinických studií – tzn. není samospásná  Výběr vhodné randomizační procedury je limitován a předurčen designem klinické studie Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 40 V. Zaslepení studie Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Blinding - zaslepení Zaslepení studie je proces, kdy pacient a/nebo investigátor nevědí, jakou léčbu pacient dostává (při paralelním uspořádání studie není znám podaný lék, při change-over uspořádání studie není známo pořadí podaných léků). To ovšem neznamená, že by pacienti nevěděli, jaké léky jsou ve studii použity! Cílem zaslepení je vyhnout se úmyslnému i neúmyslnému zkreslení výsledků studie. Pacient jinak hodnotí svůj zdravotní stav, když ví, je-li mu podávána nová léčba nebo placebo. Lékař může být tímto vědomím také ovlivněn, např. při použití kategoriálního hodnocení. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Blind (zaslepené) studie Single blind (jednoduše slepá) studie - pacient neví jaký lék dostává, zatímco lékař jej zná - téměř se nepoužívají, pouze v případech, kdy nelze jinak - např. v chirurgii (lékař musí vědět, jak pacienta operovat) Double blind (dvojitě slepá) studie - pacient ani lékař neznají léčbu přidělenou pacientovi - drtivá většina studií je dvojitě zaslepená - např. v onkologii při testování nových modalit léčby rakoviny Triple blind (trojitě slepá) studie - pacient, lékař ani statistik studie neznají léčbu přidělenou pacientovi - modifikace dvojitě zaslepené studie - z hlediska objektivity studie je to další zlepšení Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz  ffgf 43 VI. Interim analýza, subgroup analýzy Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Interim analýza: Rozhodnutí o dalším pokračování studie na základě zhodnocení platnosti vstupních předpokladů z dostupných dat. Tedy analýza bezpečnosti a účinnosti léčby prováděná před ukončením follow-up. Subgroup analýza x interim analýza I Subgroup analýza: Analýza bezpečnosti a účinnosti léčby prováděná na podskupinách subjektů hodnocení definovaných na základě stanovených vstupních kriterií (jednoho či více).  V případě interim analýz i subgroup analýz se jedná o násobné testování hypotéz – výsledné p-hodnoty tedy musí být korigovány na počet provedených testů.  Interim analýza – O´Brien-Fleming kritérium; Subgroup analýza – Bonferroniho korekce. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz PRŮBĚH KLINICKÉ STUDIE Nábor pacientů do studie Závěrečné vyhodnocení studie Subgroup analýza x interim analýza II Follow-up Interim analýzy Subgroup analýzy Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Výhody: Možnost nalezení skupiny pacientů, u kterých je/není léčba účinnější a bezpečnější – cílená terapie. Nevýhody: Zvýšení rizika průkazu falešně pozitivního výsledku – zjištění rozdílu v účinnosti/bezpečnosti tam, kde ve skutečnosti není. Násobné testování hypotéz: provádíme více testů zároveň, chceme ovšem, aby celková pravděpodobnost falešně pozitivního výsledku zůstala α => musíme výsledné p-hodnoty korigovat na počet provedených testů. Síla testu: velikost vzorku v klinické studii je optimalizována vzhledem k primárnímu endpointu studie. Subgroup analýzy jsou prováděny na podskupinách, které jsou menší, tudíž síla testu je v těchto případech nedostatečná. Adekvátní statistický test: testovat rozdíl v efektivitě léčby v rámci skupin pacientů (definovaných např. pohlavím nebo věkem) lze několika způsoby, které však nemusí být správné. Výsledky subgroup analýz nelze přeceňovat – v kontextu klinické studie je hlavním výsledkem studie vyhodnocení primárního endpointu studie. Na základě výsledku subgroup analýz nelze vytvářet klinická doporučení. Subgroup analýzy v klinických studiích Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz  Počet plánovaných subgroup analýz by měl být uveden v protokolu studie (tedy před jejím zahájením).  Pokud je to možné, před zahájením studie by měl být navržen optimální počet pacientů také pro plánované subgroup analýzy.  Statistické zpracování by mělo být založeno na hodnocení interakcí sledovaných charakteristik s primárním endpointem, nikoliv na hodnocení endpointu v každé individuální podskupině zvlášť.  Hladina významnosti pro testování hypotéz by v případě více testů měla být korigována dle jejich počtu.  Výsledky subgroup analýz by měly být interpretovány jen jako hypotézy pro další výzkum. Subgroup analýzy: doporučení Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 48 VII. Principy statistické analýzy dat Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Vzorkování a jeho význam ve statistice  Statistika hovoří o realitě prostřednictvím vzorku!!!  Statistické předpoklady korektního vzorkování Reprezentativnost: struktura vzorku musí maximálně reflektovat realitu Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Velikost vzorku a přesnost statistických výstupů Existuje skutečné rozložení a skutečný průměr měřené proměnné Z jednoho měření nezjistíme nic Vzorek: ????? Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí Vzorek: Odhad průměru atd. Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz VÝSLEDKY cílová populace výběr dle optimálního plánu reprezentativní vzorek n jedinců (dle faktoru F) měření znaku variabilita hodnot ve výběrovém souboru ? Účel analýzy: Popisný (např. Exploratorní studie) … analyzovaný znak cílové populace (X) … jiný významný faktor charakterizující cílovou populaci (F) ZÁVĚRY(reprezentativnost,spolehlivost) Reprezentativnost Přesnost Spolehlivost ? Variabilita – její popis Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz VÝSLEDKY cílová populace výběr subjektů pro vstup do hodnocení / studie Rozdělení do kategorií měření znaku X variabilita hodnot X v rameni A ? Účel analýzy: Srovnávací (např. Konfirmační studie) … analyzovaný znak cílové populace (X) … jiný významný faktor charakterizující cílovou populaci (F) ZÁVĚRY(rozlišovacíschopnost,rozdílramenA xB,srovnatelnostramen,reprezentativnost) variabilita hodnot X v rameni B rameno A rameno B Srovnatelnost Přesnost Spolehlivost ? Variabilita – srovnání dvou skupin Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Testování hypotéz  Testování hypotéz se zabývá rozhodováním o platnosti stanovených hypotéz na základě pozorovaných dat.  Platnost hypotéz ověřujeme pomocí statistického testu – rozhodovacího pravidla, které každému náhodnému výběru přiřadí právě jedno ze dvou možných rozhodnutí – H0 nezamítáme nebo H0 zamítáme.  Nulová hypotéza („null hypothesis“) – tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny (na cílové populaci). Může být tvrzením o parametrech rozdělení nebo tvaru rozdělení pravděpodobnosti.  Alternativní hypotéza – tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny, které popírá platnost nulové hypotézy. Vymezuje, jaká situace nastává, když nulová hypotéza neplatí. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Příklady – hypotézy 1. Urychluje použití antibiotika ve srovnání s použitím běžné dezinfekce hojení rány? Střední doba hojení s antibiotiky: Střední doba hojení bez antibiotik: 2. Je průměrný objem prostaty mužů nad 70 let stejný jako průměrný objem prostaty celé mužské populace? Střední objem prostaty mužů nad 70 let : Populační hodnota (konstanta): 210 : θθ =H1θ 2θ 211 : θθ ≠H 010 : θθ =H1θ 0θ 011 : θθ >H Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Proč nulová hypotéza vyjadřuje nepřítomnost efektu? Nulová hypotéza odráží fakt, že se něco nestalo nebo neprojevilo → je stanovena obvykle jako opak toho, co chceme experimentem prokázat. Nulová hypotéza je postavena tak, abychom ji mohli pomocí pozorovaných hodnot vyvrátit. Pro zamítnutí platnosti nulové hypotézy nám totiž stačí najít jeden příklad, kdy nulová hypotéza neplatí – tím příkladem má být náš náhodný výběr (naše pozorovaná data). Zamítnout nulovou hypotézu je jednodušší než nulovou hypotézu potvrdit. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Hypotézy v klinických studiích Co chceme prokázat: 1. Experimentální léčba je lepší než standardní (placebo) • hodnocení superiority (superiority trial) 2. Experimentální léčba není horší než standardní (placebo) • hodnocení non-inferiority (non-inferiority trial) 3. Experimentální léčba je „stejně dobrá“ jako standardní (placebo) • hodnocení ekvivalence (equivalence trial) Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Hodnocení superiority Chceme prokázat, že experimentální léčba je lepší než standardní (placebo). Hypotézy: K hodnocení superiority používáme standardní testování hypotéz. Při nevýznamném výsledku nelze říci, že experimentální léčba je lepší než standardní, ale zároveň nelze říci, že experimentální léčba je stejná jako standardní. 210 : θθ =H 211 : θθ ≠H 0: 210 =−θθH 0: 211 ≠−θθH Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Hodnocení non-inferiority Chceme prokázat, že experimentální léčba není horší než standardní (placebo) . Hypotézy: Kde ΔC je expertně stanovená klinicky/biologicky podstatná odchylka účinnosti/bezpečnosti obou srovnávaných léčiv. Pro hodnocení non-inferiority otáčíme klasický koncept nulové a alternativní hypotézy. CH ∆>− 210 : θθ CH ∆≤− 211 : θθ Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Hodnocení ekvivalence Chceme prokázat, že experimentální léčba je srovnatelná se standardní (placebo). Hypotézy: Kde ΔC je expertně stanovená klinicky/biologicky podstatná odchylka účinnosti/bezpečnosti obou srovnávaných léčiv. Také pro hodnocení ekvivalence otáčíme klasický koncept nulové a alternativní hypotézy. CCH ∆−<−∆>− 21210 nebo: θθθθ CCH ∆≤−≤∆− 211 : θθ Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Problém s hodnocením ekvivalence a non-inferiority Pro hodnocení ekvivalence a non-inferiority nelze použít standardní přístup v testování hypotéz – pro dané ΔC totiž lze vždy nalézt dostatečnou velikost souboru pacientů tak, abychom prokázali, že srovnávaná léčiva/postupy jsou vzhledem k hodnocené proměnné rozdílná. Pro vyhodnocení hypotéz se používá přístup pomocí intervalů spolehlivosti. Lze je však použít jako náhradu testování hypotéz? Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Superiorita a non-inferiorita Zdroj: Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ; CONSORT Group. Reporting of noninferiority and equivalence randomized trials: an extension of the CONSORT statement. JAMA. 2006 Mar 8;295(10):1152-60. Statistics and Informatics Services Group, Department of Reproductive Health and Research, World Health Organization, Geneva. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Důvody pro hodnocení non-inferiority Je třeba vždy pečlivě zvážit, zda je vhodnější hodnocení non-inferiority nebo superiority. Důvody pro hodnocení non-inferiority: 1. Nepředpokládáme žádný podstatný rozdíl mezi léčivy/postupy Nové léčivo/postup je ze stejné skupiny jako standardní léčivo/postup 2. V nějakém ohledu předpokládáme rozdíl mezi léčivy/postupy Nové léčivo/postup má méně nežádoucích účinků Nové léčivo/postup je méně invazivní Nové léčivo/postup je levnější Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Hranice non-inferiority (non-inferiority margin) Stanovit hranici pro hodnocení non-inferiority není jednoduché, určitě by měla být stanovena nějakým odůvodnitelným způsobem. Přímé stanovení Stanovení úvahou na základě přímého srovnání účinnosti/bezpečnosti srovnávaných látek – přímého stanovení maximálního možného snížení účinnosti/bezpečnosti. Nepřímé stanovení Stanovení úvahou na základě srovnání účinnosti/bezpečnosti standardního postupu s placebem (historickou kontrolou) – stanovení provedeme na základě publikovaných dat o účinnosti standardního postupu. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Hranice non-inferiority - příklad Přímé stanovení Stanovení maximálního možného snížení účinnosti/bezpečnosti: Lék A má 85% účinnost v léčbě infekce Helicobacter Pylori a pro nás je maximální přípustné snížení účinnosti o 15 %. Lék B tedy musí prokázat vyšší účinnost než 70 %. Nepřímé stanovení Stanovení na základě publikovaných dat o účinnosti standardního postupu: Lék A snižuje riziko infekce Helicobacter Pylori o 50 % proti placebu (jinými slovy placebo zvyšuje riziko infekce o 100 %) a pro nás je důležité zachování alespoň poloviny této účinnosti. Lék B tedy musí prokázat relativní riziko vzniku infekce Helicobacter Pylori vzhledem k léku A ve výši maximálně 1,5. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz  ffgf 65 VIII. Statistická vs. klinická významnost Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Statistická významnost – p-hodnota  Často je ve statistických softwarech jediným výstupem testování tzv. p-hodnota.  Co vyjadřuje?  Vyjadřuje pravděpodobnost získání stejně velké nebo extrémnější hodnoty testové statistiky v případě, že platí nulová hypotéza, tj. v případě, že mezi skupinami není žádný rozdíl. Pravděpodobnost p tT  Nejčastěji používanou hladinou, se kterou p-hodnotu srovnáváme je 0,05 (hladina významnosti α). Ta odpovídá přijímanému riziku falešně pozitivního výsledku.  Při provádění více testů zároveň je nutné srovnávat p-hodnoty s korigovanou hladinou α, abychom se vyhnuli nárůstu pravděpodobnosti získání falešně pozitivního výsledku. Tedy p-hodnota vyjadřuje pravděpodobnost, že pozorovaný rozdíl je v rámci předpokládaného modelu dán pouze náhodou. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Praktická a statistická významnost Analytické výsledky studie nemusí odpovídat realitě a skutečnosti. Statistická významnost jednoduše nemusí znamenat příčinný vztah! Statistická významnost pouze indikuje, že pozorovaný rozdíl není náhodný (ve smyslu stanovené hypotézy). Stejně důležitá je i praktická významnost, tedy významnost z hlediska lékaře nebo biologa. Statistickou významnost lze ovlivnit velikostí vzorku. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Praktická a statistická významnost  Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem náhodnosti hodnoceného jevu  Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty Statistická významnost Praktická významnost ANO NE ANO OK, praktická i statistická významnost je ve shodě, jednoznačný závěr Významný výsledek je statistický artefakt velkého vzorku, prakticky nevyužitelné NE Výsledek může být pouhá náhoda, neprůkazný výsledek OK, praktická i statistická významnost je ve shodě, jednoznačný závěr Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Statistická významnost - indikační nástroj Statistická významnost indikuje, že pozorovaný rozdíl nevznikl náhodou. Otázkou je, zda jde o rozdíl věcně a klinicky podstatný a zda byl pozorován nezkresleně objektivními postupy. 1 2 MAX MIN MAX MIN 1 2 Větší vzorek zpřesní odhad ALE nezmění REALITU Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Realita Srovnávací test (n1) Variabilita původních dat p = 0.372 Srovnávací test (n2> n1) p = 0.015 Variabilita odhadu středových statistik Statistická významnost - indikační nástroj Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Statistická vs. klinická významnost Bodový odhad efektu + IS Možnost Statistická významnost Klinická významnost a) ne možná b) ne možná c) ano možná d) ano ano e) ne ne f) ano ne a) b) c) d) e) f) Střední hodnota v populaci Klinicky významná odchylka Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Důležité poznámky k testování hypotéz Nezamítnutí nulové hypotézy neznamená automaticky její přijetí! Může se jednat o situaci, kdy pro zamítnutí nulové hypotézy nemáme dostatečné množství informace. Dosažená hladina významnosti testu (ať už 0,05, 0,01 nebo 0,10) nesmí být slepě brána jako hranice pro existenci/neexistenci testovaného efektu. Neexistuje jasná hranice pro významnost či nevýznamnost – často je velmi malý rozdíl mezi p-hodnotou 0,04 a p-hodnotou 0,06. Malá p-hodnota nemusí znamenat velký efekt. Hodnota testové statistiky a odpovídající p-hodnota může být ovlivněna velkou velikostí vzorku a malou variabilitou pozorovaných dat. Výsledky testování musí být nahlíženy kriticky – jedná se o závěr založený „pouze“ na jednom výběrovém souboru. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 73 IX. Optimalizace velikosti vzorku Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Rizika neplánovaného počtu subjektů hodnocení:  Etické aspekty – nelze zbytečně léčit lidi  Statistické vlastnosti – při velkém N lze prokázat cokoliv  Ekonomické aspekty – zbytečné plýtvání prostředky  Požadavky legislativních autorit (SÚKL, FDA) na výpočet velikosti vzorku • Malý vzorek – ztráta času, nemožnost prokázat rozdíl mezi srovnávanými skupinami pacientů • Velký vzorek – ztráta času a prostředků, průkaz klinicky nevýznamného rozdílu mezi srovnávanými skupinami pacientů Proč je důležité optimalizovat prospektivně velikost vzorku? Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Vliv velikosti vzorku na výsledky testování N1 = 10, N2 = 10 N1 = 1000, N2 = 1000 p = 0.797 p < 0.001p = 0.140 N1 = 100, N2 = 100 Statistická významnost způsobená velkým N Dvě skupiny pacientů s nepatrným rozdílem v dané charakteristice, který ale není klinicky významný. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Jak tedy zní otázka při plánování klinických studií? 1. Kolik subjektů hodnocení potřebujeme pro korektní ověření klinické hypotézy (klinicky významného rozdílu)? 2. Nebudeme-li schopni tyto subjekty z různých důvodů zajistit, jaká je cena za snížení velikosti vzorku?  Důvody pro nedostatečné N:  Nedostatek prostředků  Nedostatečná incidence – museli bychom čekat X let na dostatečný počet vhodných pacientů Tímto se zabývá power analýza Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Princip testování hypotéz  Hypotézy jsou testovány na základě testových statistik, které odrážejí, jak moc se náš výsledek liší od počátečních předpokladů = nulové hypotézy. N α β σ Pozorovaná hodnota – Očekávaná hodnota Chyba pozorované hodnoty Testová statistika = Testová statistika obsahuje (tj. vychází) z určitých parametrů. Pokud chceme vypočítat jeden z nich, ostatní musíme znát (expertně odhadnout). Velikost klinicky významného rozdílu Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Princip výpočtu velikosti vzorku Klinické zadání Klinická hypotéza Odpovídající testová statistika Výpočet velikosti vzorku α σ 1-β Výpočet velikosti vzorku je tedy vždy individuální záležitostí, která je šitá na míru danému klinickému hodnocení. K L I N I K S T A T I S T I K Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Power analýza a optimalizace velikosti vzorku  Power analýza (analýza síly testu) a optimalizace velikosti vzorku (sample size estimation) jsou dvě strany téže mince.  Obě vycházejí z testování hypotéz, tedy hypotézy a příslušné testové statistiky, jednou však máme jako předpoklad požadovanou sílu testu a chceme optimalizovat N, podruhé jsme limitováni N a ptáme se, jaké jsme v našich podmínkách schopni dosáhnout síly testu. Odhad velikosti vzorkuPower analýza Dosažení určité přesnosti (precision analysis)  Optimalizace velikosti vzorku může také souviset s dosažením určité přesnosti v odhadu cílového parametru. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Odhad velikosti vzorku – srovnání dvou výběrů I  Cílem je ověřit klinickou hypotézu o nenulovém rozdílu ve sledovaném parametru mezi dvěma skupinami pacientů: H0: X1 = X2 + k Klinicky významný rozdíl Spojité proměnné nabývající hodnot v určitém intervalu • tlak, • hladina cholesterolu • počet leukocytů Binomické proměnné nabývající jedné z možností úspěch/neúspěch • snížení hladiny cholesterolu • incidence zlomeniny Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Odhad velikosti vzorku – srovnání dvou výběrů II  V případě spojitých proměnných vychází výpočet z následujících charakteristik: 1. α – požadovaná hladina významnosti, 1-β – požadovaná síla testu 2. odhad variability měřené proměnné v kontrolní skupině 3. odhad variability měřené proměnné v experimentální skupině 4. klinicky významný rozdíl, který chceme identifikovat  V případě binomických proměnných vychází výpočet z následujících charakteristik: 1. α – požadovaná hladina významnosti, 1-β – požadovaná síla testu 2. odhad incidence sledované charakteristiky v kontrolní skupině 3. klinicky významný rozdíl, který chceme identifikovat Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Rameno A (lék A); Rameno B (lék B) Srovnání dvou výběrů – příklad 1  Chceme srovnat účinnost dvou preparátů snižujících hladinu cholesterolu v krvi. Primárním cílovým parametrem je tedy hladina LDL-cholesterolu.  Předpokládáme, že rozdíl v procentuálním úbytku cholesterolu roven 8% je klinicky zajímavý, s tím, že v obou skupinách předpokládáme směrodatnou odchylku procentuálních úbytků 15%. α = 0.05 β = 0.10  síla testu: 1-β = 0.90 odhad variability v 1.skupině = 15% odhad variability v 2.skupině = 15% klinicky významný rozdíl mezi rameny = 8% N = 75 pacientů v jednom rameni Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Srovnání dvou výběrů – příklad 2  Chceme srovnat účinnost dvou preparátů pro léčbu infekce dýchacích cest. Primárním cílem studie je odpověď pacienta na podání léku (ano/ne).  Předpokládáme, že standardní přípravek účinkuje u 80% pacientů s tím, že klinicky významný posun by bylo dosažení odpovědi u 90% pacientů, tedy zvýšení účinnosti o 10% při použití nového léku oproti standardu. Rameno A (standardní lék): účinnost = 80% Rameno B (nový lék): požadujeme účinnost = 90% α = 0.05 β = 0.20  síla testu: 1-β = 0.80 odhad incidence úspěchů v kontrolní skupině = 80% klinicky významný rozdíl mezi rameny = 10% N = 199 pacientů v jednom rameni pro β = 0.10  síla testu: 1-β = 0.90 je odhad počtu pacientů v 1 rameni = 266 Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Odhad velikosti vzorku – analýza přežití  V klinických studiích jsou přijímány jako klíčové parametry charakterizující přežití MEDIÁN PŘEŽITÍ a PRAVDĚPODOBNOST PŘEŽITÍ V DANÉM ČASE  V případě srovnání mediánů je nulová hypotéza: H0: medián1 = medián2  V případě srovnání křivek přežití je nulová hypotéza: H0: S1(t) = S2(t) 0 48 96 144 192 0.0 0.2 0.4 0.6 0.8 1.0 0 48 96 144 192 0.0 0.2 0.4 0.6 0.8 1.0 Výpočet N na základě očekávaného hazard ratio, tedy odhadu podílu rizika v experimentální / kontrolní skupině. Výpočet N na základě odhadu četnosti výskytu sledovaných událostí v obou skupinách. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Odhad velikosti vzorku – shrnutí  Optimalizace velikosti vzorku je nutná z hlediska korektního statistického zpracování výsledků a dostatečné síle studie prokázat klinicky zajímavý rozdíl.  Optimalizace velikosti vzorku je založena na principu testování klinických hypotéz.  Každou hypotézu je nutné vyjádřit ve smyslu testové statistiky, která zahrnuje parametry nutné pro ověření hypotézy.  Parametry nezbytné pro výpočet optimální velikosti vzorku závisí na typu studovaného problému, pokud o nich nemáme apriorní informaci, lze je odhadnout na základě předchozích studií nebo expertní znalosti. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz  ffgf 86 X. Aspekty korektního zpracování dat KHL Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Na co si dávat při interpretaci pozor…  I přes požadavky legislativních autorit na přípravu a průběh klinického hodnocení léčiv je možné v průběhu zpracování a prezentace výsledků studie postupovat nekorektně.  Klíčová témata: 1. Definice primárního cíle studie 2. Zobecnění výsledků 3. Adekvátní kontrolní skupina 4. Absolutní vs. relativní hodnocení účinnosti 5. Klinická významnost výsledků 6. Analýzy podskupin Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 1. Definice primárního cíle studie Primární cíl studie by měl být vždy stanoven jasně, tedy formou klinicky významného rozdílu v sledovaném klinickém parametru (úmrtí, hospitalizace, % CMP, % IM) nebo parametru, o kterém není nejmenších pochyb, že s ním souvisí.  Problematické jsou zejména následující:  Náhradní cílové parametry (surrogate endpoints) – souvislost s klinickým parametrem může být diskutabilní.  Souhrné cílové parametry (composite endpoints) – lze obtížně kvantifikovat ovlivnění jednotlivých parametrů, které mohou být důležité v případě individuálního pacienta. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 2. Zobecnění výsledku Souvisí s externí validitou studie. Výsledky klinických studií nelze vztahovat na jinou populaci pacientů než na tu, která odpovídá souboru hodnocených pacientů.  Př. Je-li sledovaný preparát účinný z hlediska snížení rizika celkové mortality u kardiologických pacientů s normální funkcí ledvin, NELZE účinnost daného preparátu předpokládat u skupiny pacientů se stejným kardiologickým problémem a dysfunkcí ledvin.  Na druhou stranu, pokud se na selektované skupině pacientů ukáže preparát jako neúčinný, neznamená to, že je neúčinný také u skupiny, která ve studii nebyla uvažována (např. z hlediska bezpečnosti). Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 3. Adekvátní kontrolní skupina Srovnání účinnosti léčby by mělo být vždy prováděno vzhledem ke kontrolní skupině, která odpovídá klinické praxi nebo standardnímu léčebnému postupu.  Je nepřijatelné srovnávání účinnosti experimentálního ramene s placebem (není-li standardem) nebo nestandardně nízkou dávkou jiného či stejného preparátu.  Př. KHL1: srovnání 80mg/den látky A vs. 40mg/den látky B. KHL2: srovnání 80mg/den látky A vs. 10mg/den látky A. Chybí srovnání účinnosti 80mg/den látky A vs. 40mg/den látky A ! Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 4. Absolutní vs. relativní hodnocení účinnosti Relativní vyjádření účinnosti preparátu (např. RRR – relativní redukce rizika) by měla být vždy doprovázena absolutním vyjádřením účinnosti (např. ARR – absolutní redukce rizika; NNT – „number needed to treat “).  Př. Srovnání účinnosti ve smyslu prevence CMP u kardiaků. KHL1: výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %.  RRR = 40 %; ARR = 8 %. KHL2: výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %.  RRR = 40 %; ARR = 0,6 %. Výsledkem je rozdílný přínos léčby při stejném RRR. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz NNT a absolutní vs. relativní četnost Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků. Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %. Relativní změna v účinnosti = 40 %; absolutní změna = 8 %. Studie 2: výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %. Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %. 5,12 8 100 08,0 1 ==NNT = NNT = Pro snížení počtu událostí o 1 je třeba léčit 13 pacientů. 7,166 6,0 100 006,0 1 ==NNT = NNT = Pro snížení počtu událostí o 1 je třeba léčit 167 pacientů. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 5. Klinická významnost výsledků Statistická významnost výsledku nemusí odpovídat klinické významnosti výsledku, která je velmi často opomíjena.  Př. Studie prokázala při léčbě preparátem A (proti B) statisticky významné snížení rizika mortality u starších pacientů s hypertenzí: RRR = 11 %, p = 0,05. ALE v absolutním měřítku jsou výsledky klinicky daleko méně zajímavé: ARR = 0,4 %  NNT = 250. Pro snížení počtu úmrtí o 1 by bylo nutné léčit 250 pacientů.  Klinická významnost souvisí s optimalizací velikosti vzorku. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz 6. Analýzy podskupin V kontextu klinické studie je hlavním výsledkem studie vyhodnocení primárního cíle studie na souboru pacientů jako celku. Na základě analýz primárního cíle studie na podskupinách souboru pacientů nelze vytvářet klinická doporučení.  Zásadním je zde problém násobného testování hypotéz: provádíme více testů zároveň (musíme výsledné p-hodnoty korigovat na počet provedených testů).  Př. Pravděpodobnost falešně pozitivního výsledku při N = 2 testech zároveň je 9,8 %. N = 5 testech zároveň je 22,6 %. N = 10 testech zároveň je 40,1 %. N = 20 testech zároveň je 64,2 %. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz  ffgf 95 XI. Příklady Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Př.1 Roumen et al. 2008 – British Journal of Surgery Vliv selektivní apendektomie na bolest břicha Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Odhad velikosti vzorku a randomizace Předpoklad zlepšení bolesti u 30 %, respektive 75 % pacientů. α=0,05 (riziko falešné pozitivity) a 1-β=0,90 (síla testu)  Odhad celkového počtu 40 randomizovaných pacientů = 20 v každé z obou skupin. Provedena permutační bloková randomizace, která zajišťuje rovnoměrné rozdělení pacientů do skupin. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Schéma studie ! Nerovnoměrné rozdělení pacientů ve sledovaných skupinách ! + Ve studii chybí charakteristika zařazených pacientů Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Hodnocení výsledků Graf je zavádějící protože zobrazuje pouze celkové počty a ne % srovnání – ve skupině bez apendektomie je ale více osob! Hodnocená proměnná je velmi subjektivní a může být ovlivněna charakteristikami pacientů! Výsledné hodnocení je založeno pouze na základě dvou kategorií „zlepšení“ – při použití tří kategorií, jako jsou v grafu, by mohlo dojít k posunu ve statistické významnosti! Nelze říci, že by výsledky nebyly relevantní, nicméně určité kroky bez vysvětlení vzbuzují podezření! Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Př.2 Kindermann et al. 2006 – Journal of the American College of Cardiology Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Design studie Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Odhad velikosti vzorku a statistický test Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Hodnocení cílových parametrů Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Dodatečné hodnocení klinických parametrů Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Př. 3 Miller et al. – ESMO 2010 Hodnocení studie k článku „Afatinib benefits lung cancer patients whose cancer progressed after treatment with EGFR inhibitors“ Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Cílová populace a adekvátní kontrolní skupina Studie LUX-Lung 1 zaměřená na pacienty s NSCLC, kteří zprogredovali na léčbě erlotinibem nebo gefitinibem. Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Primární cíl: Celkové přežití (overall survival, OS) Sekundární cíle: Přežití bez známek progrese (progression-free survival, PFS) Odpověď na léčbu dle RECIST Kvalita života Bezpečnost Primární a sekundární cíle studie Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Selekce pacientů – jasně daná předpokládaným účinkem afatinibu, je třeba posoudit zastoupení nově diagnostikovaných pacientů a pacientů s rekurentním onemocněním v obou skupinách. Paralelní design – u onkologických onemocnění není jiná volba. Adekvátní kontrolní skupina – kontrola se zdá vybraná logicky, nicméně hodnocení primárního cíle vznáší otázku: reprezentativnost vs. průkaznost. Randomizace – poměrem 2:1, specifikovány balancované proměnné: věk, ECOG PS, etnikum, historie kouření, stadium, historie léčby (souvisí ). Design studie Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Předpoklad mediánu celkového přežití u kontrolní skupiny 4.7 měsíců Předpoklad snížení rizika úmrtí v čase o 30% (tomu odpovídá HR=0.7) → zvýšení mediánu celkového přežití u skupiny s afatinibem na 6.7 měsíců. Tomu odpovídá 359 událostí (úmrtí), což lze vzhledem k předpokládané délce studie, podílu cenzorovaných a drop-out rate přepočítat na celkový počet pacientů pro zařazení do studie: 585 randomizovaných. Výpočet velikosti vzorku Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Statisticky významně více léčebných odpovědí (PR + SD) Statisticky významně delší přežití bez známek progrese (PFS) a to i v podskupinách Standardní profil nežádoucích účinků (vzhledem k anti-EGFR TKI) Zlepšení symptomů spojených s tumorem ALE … Výsledky Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz ALE … Celkové přežití Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Statisticky významně více léčebných odpovědí (PR + SD) Statisticky významně delší přežití bez známek progrese (PFS) a to i v podskupinách Standardní profil nežádoucích účinků (vzhledem k anti-EGFR TKI) Zlepšení symptomů spojených s tumorem ALE nevýznamné zlepšení celkového přežití Reprezentativnost? Srovnatelnost? Hlavním a zásadním výsledkem pro tvorbu klinických doporučení je hodnocení primárního cíle studie! Na ten je totiž optimalizována velikost vzorku! Další výsledky mohou sloužit jako podklad (hypotézy) pro další výzkum! Výsledky Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz Je otázkou, zda se dal při přípravě studie předjímat problém s celkovým přežitím Možná zbytečné souběžné použití logrank testu a Coxova modelu (model asi neuvažoval další proměnné) Je třeba brát s rezervou všechna statistická hodnocení kromě hodnocení primárního cíle studie Zatím pouze předběžné hodnocení – je třeba doplnit kvalitní diskuzi Shrnutí