© Institut biostatistiky a analýz
Plánování, organizace a
hodnocení klinických studií
Statistické zpracování dat a jejich interpretace
Tomáš Pavlík
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Struktura přednášky
I. Analýza dat klinických studií
II. Cílové parametry hodnocení
III. Experimentální design klinických studií
IV. Randomizace
V. Zaslepení studie
VI. Interim analýza, subgroup analýzy
VII. Principy statistické analýzy dat
VIII. Statistická vs. klinická významnost
IX. Optimalizace velikosti vzorku
X. Aspekty korektního zpracování dat KHL
XI. Příklady
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
3
I. Analýza dat
klinických studií
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Medicína založená na důkazech
 Úkolem zdravotního systému je zajistit dostupnými prostředky nejlepší
možný zdravotní a psychický stav národa.
 K naplňování tohoto úkolu by měl pomoci princip nazvaný medicína
založená na důkazech („evidence based medicine“).
 Medicína založená na důkazech je proces zabývající se systematickým
hledáním, hodnocením a hlavně využitím současných výsledků klinického
výzkumu při poskytování péče jednotlivým pacientům.
 Poskytování důkazů pomocí klinického výzkumu a vědecké literatury.
 Vytváření klinických doporučení (založených na důkazech) a jejich distribuce.
 Implementace účinných a efektivních postupů pomocí výuky a řízení kvality.
 Hodnocení dodržování doporučených postupů pomocí klinických auditů,
indikátorů kvality a výsledků léčebné péče.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Cíl klinických studií
Primární cíl:
 Ověření účinnosti nebo bezpečnosti nového léčebného postupu nebo
intervence.
Otázka:
 Jsou dosažené výsledky reálné nebo náhodné?
?
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Bias (zkreslení) v klinických studiích
 V hodnocení klinických studií se snažíme vyhnout zkreslení výsledků,
tzv. „bias“.
 V případě klinických studií se jedná o zkreslení výsledků jinými faktory
než těmi, které jsou cíli studie.
1. Statistické srovnání není nikdy 100% spolehlivé, existuje náhoda a tedy i
pravděpodobnost chybného úsudku – to nelze ovlivnit.
2. My však chceme použít adekvátní metody pro odstranění vlivů, které by
zkreslily výsledky a nebyly přitom náhodné (např. zastoupení pohlaví).
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Statisticky korektní zpracování klinických studií
Úspěch a validita klinické studie jsou závislé na mnoha aspektech,
některé z nich jsou však klíčové:
1. Použití souběžné kontrolní skupiny
2. Randomizace
3. Zaslepení studie
4. Optimalizace velikosti vzorku
0. Správná formulace klinické hypotézy – endpoint
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Proč?
1. Použití souběžné kontrolní skupiny
Účinnost i bezpečnost léčby musí být hodnoceny v kontextu kontrolní skupiny pacientů,
kteří nebyli exponováni experimentální léčbě, ale jsou srovnatelní v ostatních klinických
faktorech.
2. Randomizace
Přiřazování subjektů do skupin musí být náhodné, protože pouze přiřazování, které
není zatíženo subjektivitou, může umožnit relevantní srovnání primárních cílů studie.
3. Zaslepení
Cílem zaslepení studie je vyhnout se subjektivnímu hodnocení výsledků léčby nebo
experimentu při vědomí pacienta a/nebo lékaře, do které léčebné skupiny pacient patří.
4. Optimalizace velikosti vzorku
Počet subjektů zapojených do klinické studie musí být optimalizován, aby nedošlo k
ovlivnění statistického testu, případně aby tento test měl vůbec smysl.
0. Správná formulace klinické hypotézy
Je nutné definovat, co vlastně hodnotíme, neboť od hypotézy se odvíjí nejen
uspořádání celé studie, ale i forma jejího vyhodnocení.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Validita klinické studie
Medicína založená na důkazech – zajímají nás pouze „kvalitní“ důkazy.
Hlavním aspektem kvality je validita získaných výsledků.
Interní validita studie: odráží, jak moc lze rozdíly v účinnosti a
bezpečnosti pozorované u srovnávaných skupin přisuzovat sledované
intervenci. Chceme minimalizovat nenáhodnou chybu (zkreslení).
Externí validita studie: odráží zobecnitelnost (z hlediska korektnosti)
výsledků na jiné populace a experimentální podmínky.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Interní validita studie
Interní validita studie jednoznačně souvisí se zkreslením výsledků (bias):
„Bias is any process at any stage of inference tending to produce results
that differ systematically from the true values.”
V klinických studiích rozlišujeme čtyři typy zkreslení:
Výběrové zkreslení (selection bias)
Prováděcí zkreslení (performance bias)
Detekční zkreslení (detection bias)
Úbytkové zkreslení (attrition bias)
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Interní validita studie
Výběrové zkreslení (selection bias): vzniká ve chvíli, kdy srovnávané skupiny
nejsou srovnatelné stran nějakého faktoru, který ovlivňuje výsledek. Vznik
výběrového zkreslení se snažíme minimalizovat použitím randomizace.
Prováděcí zkreslení (performance bias): vzniká ve chvíli, kdy srovnávané
skupiny mají různé experimentální podmínky (samozřejmě kromě sledované
intervence) – např. dostávají jinou léčbu/péči.
Detekční zkreslení (detection bias): vzniká ve chvíli, kdy je u srovnávaných
skupin různě hodnocena cílová proměnná. Vznik prováděcího a detekčního
zkreslení se snažíme minimalizovat použitím zaslepení.
Úbytkové zkreslení (attrition bias): vzniká ve chvíli, kdy srovnávané skupiny
nejsou srovnatelné stran subjektů, které předčasně opustily studii a nelze u
nich hodnotit cílovou proměnnou. Vznik úbytkového zkreslení se snažíme
minimalizovat použitím intention-to treat analýzy.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Externí validita studie
Externí validita studie souvisí s možností zobecnění jejích výsledků na
jinou populaci subjektů v jiném prostředí a za jiných podmínek.
Jiná populace subjektů: vliv věku, pohlaví, tíže onemocnění, rizikových
faktorů, komorbidit
Jiné prostředí: systém zdravotnictví (USA⨯EU), organizace léčebné péče,
specializace a zkušenosti lékařů
Jiné podmínky – léčba: dávkování, podání, pravidelné sledování, další
léčebné modality, souběžná léčba
Jiné podmínky – měření výsledků léčby: definice cílové proměnné a její
měřitelnost v daném prostředí
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Interní a externí validita studie
Klinická studie
Výsledky nelze
zobecnit na žádnou
populaci
Ne
Interní validita?
Výsledky lze zobecnit
pouze na populaci
danou vstupními kritérii
studie
Externí validita?
Ano
Výsledky lze zobecnit i
na širší populaci
subjektů
Ne
Ano
Interní validita studie
je nutným
předpokladem
externí validity.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
 ffgf
14
II. Cílové parametry
hodnocení
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
1. Klinický parametr: Většinou je hodnocena změna v daném
parametru nebo dosažení určité hladiny.
2. Léčebná odpověď a odvozené parametry: Hodnocení
ústupu nádoru jako odpovědi na léčbu a délky času trvání této
redukce. Tento endpoint je nejčastěji používaný ve studiích fáze II ale
i v ostatních typech studií.
3. Time-to-event: Hodnotí délku času, po kterou je subjekt bez
sledované události, např. bez zhoršení primárního onemocnění.
Často používaný endpoint pro studie fáze III. OS, PFS, DFS.
4. Kvalita života: Parametr založený na subjektivním zhodnocení
celkového zdravotního stavu pacienta a ovlivnění jednotlivých
aspektů jeho života. Jedná se o současné zhodnocení přínosů léčby
a negativního vlivu nežádoucích účinků.
Cílové parametry testování hypotéz v klinických
studiích
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Př.: Hodnocení léčebné odpovědi na základě RECIST kritérií
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
 Studujeme čas předcházející události, která nás zajímá
 Na rozdíl od mortality nechceme pouze počty událostí
(událost = smrt, progrese nemoci, relaps …)
 Musí být jasně časově definován počátek (je většinou individuální) i
konec sledování.
 Cenzorování je typické pro analýzu přežití (kompletní čas přežití
nemusí být pozorován u všech subjektů)
Přežití jako endpoint
Úmrtí
Úmrtí Ukončení
studie
Ztracen ze
sledování
Nepozorované
časy úmrtí
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Kolikrát ?
O kolik ?
Větší, menší ?
Rovná se ?
Typy dat dle škály hodnot
Informačníhodnotadat
Poměrová
Intervalová
Ordinální
Nominální
Data Otázky Příklady
Glykémie, váha
Teplota ve °C
PS, kouření
Pohlaví, KS
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
19
III. Experimentální
design klinických studií
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
 Klíčová věc při plánování klinické studie, od které se odvíjejí další kroky.
 Špatný design většinou vede ke znehodnocení výsledků celé studie.
 Správný design je základním předpokladem úspěšného průběhu studie.
Design studie musí především adekvátně zohledňovat
stanovené klinické hypotézy.
 Použitý experimentální design určuje jak organizaci studie tak její
následné statistické zpracování.
Design klinických studií
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Prospektivní a retrospektivní studie
Prospektivní studie
U některých subjektů je rizikový
faktor přítomen a u jiných ne →
sledujeme v čase, zda se
vyskytne událost.
Retrospektivní studie
U některých subjektů se událost
vyskytla a u jiných ne → zpětně
hodnotíme, zda se liší s ohledem
na nějaký rizikový faktor.
Exponovaní jedinci
Jedinci bez expozice
Případy (s událostí)
Případy (s událostí)
Kontroly (bez události)
Kontroly (bez události)
Exponovaní jedinci
Jedinci bez expozice
Historie Začátekstudie Čas
Začátekstudie Čas
S událostí
Bez události
Průběh studie
Kohorta
subjektů
(náhodně
vybranáze
studované
populace)
S událostí
Bez události
Exponovaníjedinci
Jedinci bez expozice
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Exponovaní jedinci
Jedinci bez expozice
Případy (s událostí)
Případy (s událostí)
Kontroly (bez události)
Kontroly (bez události)
Exponovaní jedinci
Jedinci bez expozice
Historie
Case-control (případ-kontrola) studie
Začátek studie Čas
Retrospektivní sledování souboru osob, u nichž došlo ke sledovanému jevu (např. vzniku
onkologického onemocnění). Tuto skutečnost vztahujeme k výskytu určitého faktoru
(rizikového nebo ochranného) v minulosti.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Začátek studie Čas
S událostí
Bez události
Průběh studie
Kohorta
subjektů
(náhodně
vybraná ze
studované
populace)
S událostí
Bez události
Exponovaní jedinci
Jedinci bez expozice
Kohortní studie
Prospektivní sledování souboru osob, z nichž část byla vystavena působení
určitého faktoru. Po adekvátní době sledování je zhodnocen výskyt sledovaného
jevu ve skupině ovlivněné definovaným faktorem a ve skupinu bez něj.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Vstup
R
A
N
D
O
M
I
Z
A
C
E
Rameno 1
Rameno 2
Rameno n
Tento typ uspořádání je charakteristický pro studie fáze III kde je srovnávána
účinnost a bezpečnost dvou nebo více terapeutických postupů. Základním
prvkem designu je randomizace subjektů do jednotlivých léčebných skupin. V
průběhu celé studie je zachováno jedinečné přiřazení subjektů do léčebných
skupin.
Paralelní design randomizované studie
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Paralelní design - příklad
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Paralelní design - příklad
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Tento typ uspořádání je nejčastěji používaný ve studiích kde předpokládáme
velkou interindividuální variabilitu v účinnosti a bezpečnosti hodnocených
léčivých přípravků. Základem je časově oddělená aplikace všech
srovnávaných přípravků všem subjektům.
Vstup
R
A
N
D
O
M
I
Z
A
C
E
Sekvence 1
Sekvence 2
W
A
S
H
O
U
T
Lék
Placebo Lék
Placebo
Časová perioda
1 2
Cross-over design randomizované studie
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Cross-over design - příklad
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Cross-over design - příklad
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
 Výhodou cross-over designu je aplikace standardní i experimentální
léčby na všech subjektech, tedy každý subjekt je zároveň sám sobě
kontrolou  cross-over design vyžaduje menší celkový počet subjektů.
 Výhodou paralelního uspořádání je jeho jednoduchost, a to jak při
organizaci studie, tak při zpracování výsledků.
 Cross-over design nelze aplikovat vždy (např. v onkologické léčbě nebo
při srovnávání většího počtu srovnávaných léčiv).
 U cross-over designu je nutné brát v úvahu tzv. carry-over efekt.
Rozdíl mezi paralelním a cross-over designem
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
 Faktoriální design
Vyhodnocujeme účinnost/bezpečnost dvou a více léčebných
postupů zároveň
Subjekty jsou přiřazovány ke všem možným léčebným kombinacím
 Adaptivní designy
Na rozdíl od „statických“ designů využívají průběžné informace
zaznamenané ve studii k modifikaci jejích aspektů (např. velikosti
vzorku)
Další experimentální designy
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
32
IV. Randomizace
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Randomizace
Metodika a proces náhodného (pseudonáhodného) rozdělování subjektů
hodnocení (pacientů) do dvou nebo více léčebných skupin.
Randomizace
Kontrolní
skupina
Experimentální
skupina
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Cíle a smysl randomizační procedury
 Zamezit subjektivnímu a selektivnímu rozdělování pacientů (subjektů)
do léčebných skupin.
 Zamezit systematické chybě, zkreslení
 Splnit základní předpoklad validního použití statistických testů náhodný
výběr z populace
 Zabezpečit požadovaný poměr počtu pacientů v jednotlivých léčebných
skupinách
 Možnost kontroly rovnoměrné distribuce prognostických faktorů v
léčebných skupinách
 Randomizace však není zárukou rovnoměrné distribuce prognostických
faktorů – i při minimálním rozdílu v klíčovém parametru mezi jednotlivými
skupinami je nutné tento rozdíl brát při statistickém hodnocení v potaz
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Princip: Náhodné rozdělování pacientů do definovaných skupin
Např. klinická studie se dvěmi rameny: A,B; N = 100.
Subjekty
R
A
N
D
O
M
I
Z
A
C
E
P = 0,5
P = 0,5
Rameno A
Rameno B
Kompletní randomizace
Při použití kompletní randomizace je pravděpodobnost shodného počtu
SH ve dvou léčebných skupinách se 100 SH celkem pouze 8%.
Nevhodná!
Riziko nevyváženého počtu subjektů hodnocení v léčebných skupinách
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Princip metody: pravidelné opakování bloků složených z identifikátorů
skupin zajišťující stejný počet subjektů v obou skupinách.
Př.: Klinická studie se dvěmi rameny: A,B N = 80
1) Volba velikosti bloku: B = 4
2) Permutace: Celkem 6 možností bloku:
3) Sestavení randomizačního plánu jako sekvence 20 náhodně po sobě
jdoucích bloků
1 AABB
2 BBAA
3 ABBA
4 BAAB
5 ABAB
6 BABA
Permutační bloková randomizace
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Principem je provedení permutační blokové randomizace v rámci
definovaných podskupin pacientů.
Př.: KH: N = 80 SH, 2 ramena (A,B), blok o velikosti B = 4
1) Volba stratifikačních kriterií:
• pohlaví: muž x žena
• věk: ≤50 x >50
2) Vytvoření čtyř podskupin SH na základě
všech možných kombinací prognostických faktorů
3) Bloková randomizace v rámci podskupin:
≤50 >50 ≤50 >50
A A B A
B A B A
B B A B
A B A B
B A B A
B B A B
A A A A
A B B B
. . . .
1
2
Blok
Skupina
Muži Ženy
Stratifikovaná permutační bloková randomizace
Stratifikační faktor musí být parametr zjistitelný před randomizací subjektů
Maximální efektivity randomizace je dosaženo při volbě 2-3 stratifikačních parametrů
(dle rozsahu studie)
Stratifikační parametry musejí být nestochastické proměnné
Stratifikací nelze kontrolovat všechny prognostické faktory, tento problém je předmětem
post-randomizačních vícerozměrných statistických analýz
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Princip: Každý SH je randomizován do léčebné skupiny na základě rozložení
prognostických faktorů z dosavadního průběhu KH
Př.: Klinická studie se třemi sledovanými prognostickými faktory.
Dosavadní průběh:
Další SH: Věk = 68 let; Klinický parametr 1 = 7,4; Stadium = 3
Počet SH se stejnou kombinací prognostických faktorů:
Placebo rameno: 49+45+29 = 123
Lék: 51+44+30 = 125
SH bude s pravděpodobností P > 0,5 (3/4 nebo 2/3) randomizován do ramene
s placebem.
Placebo Lék
106 107
≤50 57 56
>50 49 51
≤10 45 44
>10 61 63
1 25 26
2 52 51
3 29 30
Terapie
Věk
Klin. par. 1
Stadium
n
Adaptivní randomizace
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Limitace randomizačních procedur
 Randomizace nezaručuje externí validitu klinické studie, ta je dána
především vstupními kritérii
 Randomizace nezaručuje rovnoměrnou distribuci všech prognostických
faktorů v léčebných skupinách
 Randomizace je pouze jedna z řady metod využívaných k minimalizaci
rizika zkreslení výsledků klinických studií – tzn. není samospásná
 Výběr vhodné randomizační procedury je limitován a předurčen designem
klinické studie
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
40
V. Zaslepení studie
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Blinding - zaslepení
Zaslepení studie je proces, kdy pacient a/nebo investigátor nevědí, jakou
léčbu pacient dostává (při paralelním uspořádání studie není znám
podaný lék, při change-over uspořádání studie není známo pořadí
podaných léků).
To ovšem neznamená, že by pacienti nevěděli, jaké léky jsou ve studii
použity!
Cílem zaslepení je vyhnout se úmyslnému i neúmyslnému zkreslení
výsledků studie.
Pacient jinak hodnotí svůj zdravotní stav, když ví, je-li mu podávána
nová léčba nebo placebo.
Lékař může být tímto vědomím také ovlivněn, např. při použití
kategoriálního hodnocení.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Blind (zaslepené) studie
Single blind (jednoduše slepá) studie
- pacient neví jaký lék dostává, zatímco lékař jej zná
- téměř se nepoužívají, pouze v případech, kdy nelze jinak
- např. v chirurgii (lékař musí vědět, jak pacienta operovat)
Double blind (dvojitě slepá) studie
- pacient ani lékař neznají léčbu přidělenou pacientovi
- drtivá většina studií je dvojitě zaslepená
- např. v onkologii při testování nových modalit léčby rakoviny
Triple blind (trojitě slepá) studie
- pacient, lékař ani statistik studie neznají léčbu přidělenou pacientovi
- modifikace dvojitě zaslepené studie
- z hlediska objektivity studie je to další zlepšení
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
 ffgf
43
VI. Interim analýza,
subgroup analýzy
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Interim analýza:
Rozhodnutí o dalším
pokračování studie na
základě zhodnocení
platnosti vstupních
předpokladů
z dostupných dat. Tedy
analýza bezpečnosti a
účinnosti léčby prováděná
před ukončením follow-up.
Subgroup analýza x interim analýza I
Subgroup analýza:
Analýza bezpečnosti a
účinnosti léčby
prováděná na
podskupinách
subjektů hodnocení
definovaných na
základě stanovených
vstupních kriterií
(jednoho či více).
 V případě interim analýz i subgroup analýz se jedná o násobné testování hypotéz –
výsledné p-hodnoty tedy musí být korigovány na počet provedených testů.
 Interim analýza – O´Brien-Fleming kritérium; Subgroup analýza – Bonferroniho korekce.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
PRŮBĚH KLINICKÉ STUDIE
Nábor pacientů
do studie
Závěrečné
vyhodnocení
studie
Subgroup analýza x interim analýza II
Follow-up
Interim analýzy Subgroup analýzy
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Výhody: Možnost nalezení skupiny pacientů, u kterých je/není léčba
účinnější a bezpečnější – cílená terapie.
Nevýhody: Zvýšení rizika průkazu falešně pozitivního výsledku –
zjištění rozdílu v účinnosti/bezpečnosti tam, kde ve skutečnosti není.
Násobné testování hypotéz: provádíme více testů zároveň, chceme ovšem,
aby celková pravděpodobnost falešně pozitivního výsledku zůstala α =>
musíme výsledné p-hodnoty korigovat na počet provedených testů.
Síla testu: velikost vzorku v klinické studii je optimalizována vzhledem k
primárnímu endpointu studie. Subgroup analýzy jsou prováděny na
podskupinách, které jsou menší, tudíž síla testu je v těchto případech
nedostatečná.
Adekvátní statistický test: testovat rozdíl v efektivitě léčby v rámci skupin
pacientů (definovaných např. pohlavím nebo věkem) lze několika způsoby,
které však nemusí být správné.
Výsledky subgroup analýz nelze přeceňovat – v kontextu klinické
studie je hlavním výsledkem studie vyhodnocení primárního
endpointu studie. Na základě výsledku subgroup analýz nelze
vytvářet klinická doporučení.
Subgroup analýzy v klinických studiích
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
 Počet plánovaných subgroup analýz by měl být uveden v protokolu
studie (tedy před jejím zahájením).
 Pokud je to možné, před zahájením studie by měl být navržen optimální
počet pacientů také pro plánované subgroup analýzy.
 Statistické zpracování by mělo být založeno na hodnocení interakcí
sledovaných charakteristik s primárním endpointem, nikoliv na
hodnocení endpointu v každé individuální podskupině zvlášť.
 Hladina významnosti pro testování hypotéz by v případě více testů měla
být korigována dle jejich počtu.
 Výsledky subgroup analýz by měly být interpretovány jen jako hypotézy
pro další výzkum.
Subgroup analýzy: doporučení
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
48
VII. Principy
statistické analýzy dat
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Vzorkování a jeho význam ve statistice
 Statistika hovoří o realitě prostřednictvím vzorku!!!
 Statistické předpoklady korektního vzorkování
Reprezentativnost: struktura vzorku musí
maximálně reflektovat realitu
Nezávislost: několikanásobné vzorkování
téhož objektu nepřináší ze statistického
hlediska žádnou novou informaci
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Velikost vzorku a přesnost statistických výstupů
Existuje skutečné rozložení a
skutečný průměr měřené
proměnné Z jednoho měření nezjistíme nic
Vzorek: ?????
Vzorek určité velikosti poskytuje odhad
reálné hodnoty s definovanou
spolehlivostí
Vzorek:
Odhad
průměru
atd.
Vzorkování všech existujících objektů
poskytne skutečnou hodnotu dané
popisné statistiky, nicméně tento
přístup je ve většině případech nereálný.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
VÝSLEDKY
cílová populace
výběr dle optimálního
plánu
reprezentativní vzorek n
jedinců (dle faktoru F)
měření znaku
variabilita hodnot
ve výběrovém souboru
?
Účel analýzy: Popisný (např. Exploratorní studie)
… analyzovaný znak
cílové populace (X)
… jiný významný
faktor charakterizující
cílovou populaci (F)
ZÁVĚRY(reprezentativnost,spolehlivost)
Reprezentativnost
Přesnost
Spolehlivost
?
Variabilita – její popis
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
VÝSLEDKY
cílová populace
výběr subjektů pro vstup do hodnocení /
studie
Rozdělení do kategorií
měření znaku
X
variabilita hodnot X
v rameni A
?
Účel analýzy: Srovnávací (např. Konfirmační studie)
… analyzovaný znak
cílové populace (X)
… jiný významný
faktor charakterizující
cílovou populaci (F)
ZÁVĚRY(rozlišovacíschopnost,rozdílramenA
xB,srovnatelnostramen,reprezentativnost)
variabilita hodnot X
v rameni B
rameno A rameno B
Srovnatelnost
Přesnost
Spolehlivost
?
Variabilita – srovnání dvou skupin
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Testování hypotéz
 Testování hypotéz se zabývá rozhodováním o platnosti stanovených
hypotéz na základě pozorovaných dat.
 Platnost hypotéz ověřujeme pomocí statistického testu –
rozhodovacího pravidla, které každému náhodnému výběru přiřadí
právě jedno ze dvou možných rozhodnutí – H0 nezamítáme nebo H0
zamítáme.
 Nulová hypotéza („null hypothesis“) – tvrzení o neznámých
vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny
(na cílové populaci). Může být tvrzením o parametrech rozdělení nebo
tvaru rozdělení pravděpodobnosti.
 Alternativní hypotéza – tvrzení o neznámých vlastnostech rozdělení
pravděpodobnosti sledované náhodné veličiny, které popírá platnost
nulové hypotézy. Vymezuje, jaká situace nastává, když nulová
hypotéza neplatí.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Příklady – hypotézy
1. Urychluje použití antibiotika ve srovnání s použitím běžné
dezinfekce hojení rány?
Střední doba hojení s antibiotiky:
Střední doba hojení bez antibiotik:
2. Je průměrný objem prostaty mužů nad 70 let stejný jako
průměrný objem prostaty celé mužské populace?
Střední objem prostaty mužů nad 70 let :
Populační hodnota (konstanta):
210 : θθ =H1θ
2θ 211 : θθ ≠H
010 : θθ =H1θ
0θ 011 : θθ >H
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Proč nulová hypotéza vyjadřuje nepřítomnost efektu?
Nulová hypotéza odráží fakt, že se něco nestalo nebo neprojevilo → je
stanovena obvykle jako opak toho, co chceme experimentem prokázat.
Nulová hypotéza je postavena tak, abychom ji mohli pomocí
pozorovaných hodnot vyvrátit.
Pro zamítnutí platnosti nulové hypotézy nám totiž stačí najít jeden příklad,
kdy nulová hypotéza neplatí – tím příkladem má být náš náhodný výběr
(naše pozorovaná data).
Zamítnout nulovou hypotézu je jednodušší než nulovou hypotézu potvrdit.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Hypotézy v klinických studiích
Co chceme prokázat:
1. Experimentální léčba je lepší než standardní (placebo)
• hodnocení superiority (superiority trial)
2. Experimentální léčba není horší než standardní (placebo)
• hodnocení non-inferiority (non-inferiority trial)
3. Experimentální léčba je „stejně dobrá“ jako standardní (placebo)
• hodnocení ekvivalence (equivalence trial)
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Hodnocení superiority
Chceme prokázat, že experimentální léčba je lepší než standardní
(placebo).
Hypotézy:
K hodnocení superiority používáme standardní testování
hypotéz.
Při nevýznamném výsledku nelze říci, že experimentální léčba
je lepší než standardní, ale zároveň nelze říci, že experimentální
léčba je stejná jako standardní.
210 : θθ =H
211 : θθ ≠H
0: 210 =−θθH
0: 211 ≠−θθH
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Hodnocení non-inferiority
Chceme prokázat, že experimentální léčba není horší než
standardní (placebo) .
Hypotézy:
Kde ΔC je expertně stanovená klinicky/biologicky podstatná
odchylka účinnosti/bezpečnosti obou srovnávaných léčiv.
Pro hodnocení non-inferiority otáčíme klasický koncept nulové
a alternativní hypotézy.
CH ∆>− 210 : θθ
CH ∆≤− 211 : θθ
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Hodnocení ekvivalence
Chceme prokázat, že experimentální léčba je srovnatelná se
standardní (placebo).
Hypotézy:
Kde ΔC je expertně stanovená klinicky/biologicky podstatná
odchylka účinnosti/bezpečnosti obou srovnávaných léčiv.
Také pro hodnocení ekvivalence otáčíme klasický koncept
nulové a alternativní hypotézy.
CCH ∆−<−∆>− 21210 nebo: θθθθ
CCH ∆≤−≤∆− 211 : θθ
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Problém s hodnocením ekvivalence a non-inferiority
Pro hodnocení ekvivalence a non-inferiority nelze použít
standardní přístup v testování hypotéz – pro dané ΔC totiž lze
vždy nalézt dostatečnou velikost souboru pacientů tak,
abychom prokázali, že srovnávaná léčiva/postupy jsou
vzhledem k hodnocené proměnné rozdílná.
Pro vyhodnocení hypotéz se používá přístup pomocí intervalů
spolehlivosti.
Lze je však použít jako náhradu testování hypotéz?
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Superiorita a non-inferiorita
Zdroj: Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ; CONSORT Group. Reporting of noninferiority and
equivalence randomized trials: an extension of the CONSORT statement. JAMA. 2006 Mar 8;295(10):1152-60.
Statistics and Informatics Services Group, Department of Reproductive Health and Research, World Health
Organization, Geneva.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Důvody pro hodnocení non-inferiority
Je třeba vždy pečlivě zvážit, zda je vhodnější hodnocení non-inferiority
nebo superiority.
Důvody pro hodnocení non-inferiority:
1. Nepředpokládáme žádný podstatný rozdíl mezi léčivy/postupy
Nové léčivo/postup je ze stejné skupiny jako standardní léčivo/postup
2. V nějakém ohledu předpokládáme rozdíl mezi léčivy/postupy
Nové léčivo/postup má méně nežádoucích účinků
Nové léčivo/postup je méně invazivní
Nové léčivo/postup je levnější
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Hranice non-inferiority (non-inferiority margin)
Stanovit hranici pro hodnocení non-inferiority není jednoduché, určitě by
měla být stanovena nějakým odůvodnitelným způsobem.
Přímé stanovení
Stanovení úvahou na základě přímého srovnání účinnosti/bezpečnosti
srovnávaných látek – přímého stanovení maximálního možného
snížení účinnosti/bezpečnosti.
Nepřímé stanovení
Stanovení úvahou na základě srovnání účinnosti/bezpečnosti
standardního postupu s placebem (historickou kontrolou) – stanovení
provedeme na základě publikovaných dat o účinnosti standardního
postupu.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Hranice non-inferiority - příklad
Přímé stanovení
Stanovení maximálního možného snížení účinnosti/bezpečnosti:
Lék A má 85% účinnost v léčbě infekce Helicobacter Pylori a pro nás je
maximální přípustné snížení účinnosti o 15 %. Lék B tedy musí
prokázat vyšší účinnost než 70 %.
Nepřímé stanovení
Stanovení na základě publikovaných dat o účinnosti standardního
postupu:
Lék A snižuje riziko infekce Helicobacter Pylori o 50 % proti placebu
(jinými slovy placebo zvyšuje riziko infekce o 100 %) a pro nás je
důležité zachování alespoň poloviny této účinnosti. Lék B tedy musí
prokázat relativní riziko vzniku infekce Helicobacter Pylori vzhledem k
léku A ve výši maximálně 1,5.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
 ffgf
65
VIII. Statistická vs.
klinická významnost
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Statistická významnost – p-hodnota
 Často je ve statistických softwarech jediným výstupem testování tzv. p-hodnota.
 Co vyjadřuje?
 Vyjadřuje pravděpodobnost získání stejně velké nebo extrémnější hodnoty
testové statistiky v případě, že platí nulová hypotéza, tj. v případě, že mezi
skupinami není žádný rozdíl.
Pravděpodobnost p
tT
 Nejčastěji používanou hladinou, se kterou p-hodnotu srovnáváme je 0,05 (hladina
významnosti α). Ta odpovídá přijímanému riziku falešně pozitivního výsledku.
 Při provádění více testů zároveň je nutné srovnávat p-hodnoty s korigovanou hladinou α,
abychom se vyhnuli nárůstu pravděpodobnosti získání falešně pozitivního výsledku.
Tedy p-hodnota vyjadřuje
pravděpodobnost, že
pozorovaný rozdíl je v
rámci předpokládaného
modelu dán pouze
náhodou.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Praktická a statistická významnost
Analytické výsledky studie nemusí odpovídat realitě a skutečnosti.
Statistická významnost jednoduše nemusí znamenat příčinný vztah!
Statistická významnost pouze indikuje, že pozorovaný rozdíl není
náhodný (ve smyslu stanovené hypotézy).
Stejně důležitá je i praktická významnost, tedy významnost z hlediska
lékaře nebo biologa.
Statistickou významnost lze ovlivnit velikostí vzorku.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Praktická a statistická významnost
 Samotná statistická významnost nemá žádný reálný význam, je pouze
měřítkem náhodnosti hodnoceného jevu
 Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné
hodnoty
Statistická
významnost
Praktická významnost
ANO NE
ANO
OK, praktická i statistická
významnost je ve shodě,
jednoznačný závěr
Významný výsledek je
statistický artefakt velkého
vzorku, prakticky nevyužitelné
NE
Výsledek může být pouhá
náhoda, neprůkazný výsledek
OK, praktická i statistická
významnost je ve shodě,
jednoznačný závěr
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Statistická významnost - indikační nástroj
Statistická významnost indikuje, že pozorovaný rozdíl nevznikl náhodou.
Otázkou je, zda jde o rozdíl věcně a klinicky podstatný a zda byl pozorován
nezkresleně objektivními postupy.
1
2
MAX
MIN
MAX
MIN 1
2
Větší vzorek zpřesní odhad
ALE nezmění REALITU
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Realita
Srovnávací test (n1)
Variabilita původních dat
p = 0.372
Srovnávací test (n2> n1)
p = 0.015
Variabilita odhadu
středových statistik
Statistická významnost - indikační nástroj
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Statistická vs. klinická významnost
Bodový odhad
efektu + IS
Možnost Statistická významnost Klinická významnost
a) ne možná
b) ne možná
c) ano možná
d) ano ano
e) ne ne
f) ano ne
a)
b)
c)
d)
e)
f)
Střední hodnota
v populaci
Klinicky významná
odchylka
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Důležité poznámky k testování hypotéz
Nezamítnutí nulové hypotézy neznamená automaticky její přijetí! Může
se jednat o situaci, kdy pro zamítnutí nulové hypotézy nemáme dostatečné
množství informace.
Dosažená hladina významnosti testu (ať už 0,05, 0,01 nebo 0,10) nesmí
být slepě brána jako hranice pro existenci/neexistenci testovaného
efektu. Neexistuje jasná hranice pro významnost či nevýznamnost – často
je velmi malý rozdíl mezi p-hodnotou 0,04 a p-hodnotou 0,06.
Malá p-hodnota nemusí znamenat velký efekt. Hodnota testové
statistiky a odpovídající p-hodnota může být ovlivněna velkou velikostí
vzorku a malou variabilitou pozorovaných dat.
Výsledky testování musí být nahlíženy kriticky – jedná se o závěr
založený „pouze“ na jednom výběrovém souboru.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
73
IX. Optimalizace
velikosti vzorku
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Rizika neplánovaného počtu subjektů hodnocení:
 Etické aspekty – nelze zbytečně léčit lidi
 Statistické vlastnosti – při velkém N lze prokázat cokoliv
 Ekonomické aspekty – zbytečné plýtvání prostředky
 Požadavky legislativních autorit (SÚKL, FDA) na výpočet velikosti vzorku
• Malý vzorek – ztráta času, nemožnost prokázat rozdíl mezi
srovnávanými skupinami pacientů
• Velký vzorek – ztráta času a prostředků, průkaz klinicky nevýznamného
rozdílu mezi srovnávanými skupinami pacientů
Proč je důležité optimalizovat prospektivně velikost
vzorku?
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Vliv velikosti vzorku na výsledky testování
N1 = 10, N2 = 10 N1 = 1000, N2 = 1000
p = 0.797 p < 0.001p = 0.140
N1 = 100, N2 = 100
Statistická významnost
způsobená velkým N
Dvě skupiny pacientů s
nepatrným rozdílem v dané
charakteristice, který ale
není klinicky významný.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Jak tedy zní otázka při plánování klinických studií?
1. Kolik subjektů hodnocení potřebujeme pro korektní ověření
klinické hypotézy (klinicky významného rozdílu)?
2. Nebudeme-li schopni tyto subjekty z různých důvodů zajistit, jaká
je cena za snížení velikosti vzorku?
 Důvody pro nedostatečné N:
 Nedostatek prostředků
 Nedostatečná incidence – museli bychom čekat X let na dostatečný
počet vhodných pacientů
Tímto se zabývá
power analýza
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Princip testování hypotéz
 Hypotézy jsou testovány na základě testových statistik, které odrážejí, jak
moc se náš výsledek liší od počátečních předpokladů = nulové hypotézy.
N
α β
σ
Pozorovaná hodnota – Očekávaná hodnota
Chyba pozorované hodnoty
Testová statistika =
Testová statistika obsahuje (tj. vychází) z určitých parametrů. Pokud chceme
vypočítat jeden z nich, ostatní musíme znát (expertně odhadnout).
Velikost klinicky
významného rozdílu
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Princip výpočtu velikosti vzorku
Klinické zadání
Klinická hypotéza
Odpovídající testová statistika
Výpočet velikosti vzorku
α
σ
1-β
Výpočet velikosti vzorku je tedy vždy individuální záležitostí,
která je šitá na míru danému klinickému hodnocení.
K
L
I
N
I
K
S
T
A
T
I
S
T
I
K
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Power analýza a optimalizace velikosti vzorku
 Power analýza (analýza síly testu) a optimalizace velikosti vzorku (sample
size estimation) jsou dvě strany téže mince.
 Obě vycházejí z testování hypotéz, tedy hypotézy a příslušné testové
statistiky, jednou však máme jako předpoklad požadovanou sílu testu a
chceme optimalizovat N, podruhé jsme limitováni N a ptáme se, jaké jsme v
našich podmínkách schopni dosáhnout síly testu.
Odhad velikosti vzorkuPower analýza
Dosažení určité přesnosti
(precision analysis)
 Optimalizace velikosti vzorku
může také souviset s dosažením
určité přesnosti v odhadu
cílového parametru.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Odhad velikosti vzorku – srovnání dvou výběrů I
 Cílem je ověřit klinickou hypotézu o nenulovém rozdílu ve sledovaném
parametru mezi dvěma skupinami pacientů:
H0: X1 = X2 + k
Klinicky významný rozdíl
Spojité proměnné
nabývající hodnot v určitém intervalu
• tlak,
• hladina cholesterolu
• počet leukocytů
Binomické proměnné
nabývající jedné z možností úspěch/neúspěch
• snížení hladiny cholesterolu
• incidence zlomeniny
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Odhad velikosti vzorku – srovnání dvou výběrů II
 V případě spojitých proměnných vychází výpočet z následujících
charakteristik:
1. α – požadovaná hladina významnosti, 1-β – požadovaná síla testu
2. odhad variability měřené proměnné v kontrolní skupině
3. odhad variability měřené proměnné v experimentální skupině
4. klinicky významný rozdíl, který chceme identifikovat
 V případě binomických proměnných vychází výpočet z následujících
charakteristik:
1. α – požadovaná hladina významnosti, 1-β – požadovaná síla testu
2. odhad incidence sledované charakteristiky v kontrolní skupině
3. klinicky významný rozdíl, který chceme identifikovat
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Rameno A (lék A); Rameno B (lék B)
Srovnání dvou výběrů – příklad 1
 Chceme srovnat účinnost dvou preparátů snižujících hladinu cholesterolu v
krvi. Primárním cílovým parametrem je tedy hladina LDL-cholesterolu.
 Předpokládáme, že rozdíl v procentuálním úbytku cholesterolu roven 8% je
klinicky zajímavý, s tím, že v obou skupinách předpokládáme směrodatnou
odchylku procentuálních úbytků 15%.
α = 0.05
β = 0.10  síla testu: 1-β = 0.90
odhad variability v 1.skupině = 15%
odhad variability v 2.skupině = 15%
klinicky významný rozdíl mezi rameny = 8%
N = 75 pacientů v
jednom rameni
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Srovnání dvou výběrů – příklad 2
 Chceme srovnat účinnost dvou preparátů pro léčbu infekce dýchacích cest.
Primárním cílem studie je odpověď pacienta na podání léku (ano/ne).
 Předpokládáme, že standardní přípravek účinkuje u 80% pacientů s tím, že
klinicky významný posun by bylo dosažení odpovědi u 90% pacientů, tedy
zvýšení účinnosti o 10% při použití nového léku oproti standardu.
Rameno A (standardní lék): účinnost = 80%
Rameno B (nový lék): požadujeme účinnost = 90%
α = 0.05
β = 0.20  síla testu: 1-β = 0.80
odhad incidence úspěchů v kontrolní skupině = 80%
klinicky významný rozdíl mezi rameny = 10%
N = 199 pacientů
v jednom rameni
pro β = 0.10  síla testu: 1-β = 0.90 je odhad počtu pacientů v 1 rameni = 266
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Odhad velikosti vzorku – analýza přežití
 V klinických studiích jsou přijímány jako klíčové parametry charakterizující
přežití
MEDIÁN PŘEŽITÍ
a PRAVDĚPODOBNOST PŘEŽITÍ V DANÉM ČASE
 V případě srovnání mediánů je nulová hypotéza:
H0: medián1 = medián2
 V případě srovnání křivek přežití je nulová hypotéza:
H0: S1(t) = S2(t)
0 48 96 144 192
0.0
0.2
0.4
0.6
0.8
1.0
0 48 96 144 192
0.0
0.2
0.4
0.6
0.8
1.0
Výpočet N na základě očekávaného hazard ratio, tedy
odhadu podílu rizika v experimentální / kontrolní skupině.
Výpočet N na základě odhadu četnosti výskytu
sledovaných událostí v obou skupinách.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Odhad velikosti vzorku – shrnutí
 Optimalizace velikosti vzorku je nutná z hlediska korektního statistického
zpracování výsledků a dostatečné síle studie prokázat klinicky zajímavý rozdíl.
 Optimalizace velikosti vzorku je založena na principu testování klinických
hypotéz.
 Každou hypotézu je nutné vyjádřit ve smyslu testové statistiky, která zahrnuje
parametry nutné pro ověření hypotézy.
 Parametry nezbytné pro výpočet optimální velikosti vzorku závisí na typu
studovaného problému, pokud o nich nemáme apriorní informaci, lze je
odhadnout na základě předchozích studií nebo expertní znalosti.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
 ffgf
86
X. Aspekty korektního
zpracování dat KHL
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Na co si dávat při interpretaci pozor…
 I přes požadavky legislativních autorit na přípravu a průběh
klinického hodnocení léčiv je možné v průběhu zpracování a
prezentace výsledků studie postupovat nekorektně.
 Klíčová témata:
1. Definice primárního cíle studie
2. Zobecnění výsledků
3. Adekvátní kontrolní skupina
4. Absolutní vs. relativní hodnocení účinnosti
5. Klinická významnost výsledků
6. Analýzy podskupin
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
1. Definice primárního cíle studie
Primární cíl studie by měl být vždy stanoven jasně, tedy
formou klinicky významného rozdílu v sledovaném
klinickém parametru (úmrtí, hospitalizace, % CMP, % IM)
nebo parametru, o kterém není nejmenších pochyb, že s ním
souvisí.
 Problematické jsou zejména následující:
 Náhradní cílové parametry (surrogate endpoints) – souvislost
s klinickým parametrem může být diskutabilní.
 Souhrné cílové parametry (composite endpoints) – lze obtížně
kvantifikovat ovlivnění jednotlivých parametrů, které mohou
být důležité v případě individuálního pacienta.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
2. Zobecnění výsledku
Souvisí s externí validitou studie.
Výsledky klinických studií nelze vztahovat na jinou populaci
pacientů než na tu, která odpovídá souboru hodnocených
pacientů.
 Př. Je-li sledovaný preparát účinný z hlediska snížení rizika
celkové mortality u kardiologických pacientů s normální funkcí
ledvin, NELZE účinnost daného preparátu předpokládat u skupiny
pacientů se stejným kardiologickým problémem a dysfunkcí
ledvin.
 Na druhou stranu, pokud se na selektované skupině pacientů
ukáže preparát jako neúčinný, neznamená to, že je neúčinný také u
skupiny, která ve studii nebyla uvažována (např. z hlediska
bezpečnosti).
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
3. Adekvátní kontrolní skupina
Srovnání účinnosti léčby by mělo být vždy prováděno
vzhledem ke kontrolní skupině, která odpovídá klinické praxi
nebo standardnímu léčebnému postupu.
 Je nepřijatelné srovnávání účinnosti experimentálního ramene s
placebem (není-li standardem) nebo nestandardně nízkou dávkou
jiného či stejného preparátu.
 Př.
KHL1: srovnání 80mg/den látky A vs. 40mg/den látky B.
KHL2: srovnání 80mg/den látky A vs. 10mg/den látky A.
Chybí srovnání účinnosti 80mg/den látky A vs. 40mg/den látky A !
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
4. Absolutní vs. relativní hodnocení účinnosti
Relativní vyjádření účinnosti preparátu (např. RRR –
relativní redukce rizika) by měla být vždy doprovázena
absolutním vyjádřením účinnosti (např. ARR – absolutní
redukce rizika; NNT – „number needed to treat “).
 Př. Srovnání účinnosti ve smyslu prevence CMP u kardiaků.
KHL1: výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %.
 RRR = 40 %; ARR = 8 %.
KHL2: výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %.
 RRR = 40 %; ARR = 0,6 %.
Výsledkem je rozdílný přínos léčby při stejném RRR.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
NNT a absolutní vs. relativní četnost
Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků.
Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %.
Relativní změna v účinnosti = 40 %; absolutní změna = 8 %.
Studie 2: výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %.
Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %.
5,12
8
100
08,0
1
==NNT =
NNT = Pro snížení počtu událostí
o 1 je třeba léčit 13 pacientů.
7,166
6,0
100
006,0
1
==NNT =
NNT = Pro snížení počtu událostí
o 1 je třeba léčit 167 pacientů.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
5. Klinická významnost výsledků
Statistická významnost výsledku nemusí odpovídat klinické
významnosti výsledku, která je velmi často opomíjena.
 Př. Studie prokázala při léčbě preparátem A (proti B) statisticky
významné snížení rizika mortality u starších pacientů s hypertenzí:
RRR = 11 %, p = 0,05.
ALE v absolutním měřítku jsou výsledky klinicky daleko méně
zajímavé: ARR = 0,4 %  NNT = 250.
Pro snížení počtu úmrtí o 1 by bylo nutné léčit 250 pacientů.
 Klinická významnost souvisí s optimalizací velikosti vzorku.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
6. Analýzy podskupin
V kontextu klinické studie je hlavním výsledkem studie
vyhodnocení primárního cíle studie na souboru pacientů
jako celku. Na základě analýz primárního cíle studie na
podskupinách souboru pacientů nelze vytvářet klinická
doporučení.
 Zásadním je zde problém násobného testování hypotéz: provádíme
více testů zároveň (musíme výsledné p-hodnoty korigovat na počet
provedených testů).
 Př. Pravděpodobnost falešně pozitivního výsledku při
N = 2 testech zároveň je 9,8 %.
N = 5 testech zároveň je 22,6 %.
N = 10 testech zároveň je 40,1 %.
N = 20 testech zároveň je 64,2 %.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
 ffgf
95
XI. Příklady
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Př.1 Roumen et al. 2008 – British Journal of Surgery
Vliv selektivní apendektomie na bolest břicha
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Odhad velikosti vzorku a randomizace
Předpoklad zlepšení bolesti u
30 %, respektive 75 % pacientů.
α=0,05 (riziko falešné pozitivity)
a
1-β=0,90 (síla testu)

Odhad celkového počtu 40
randomizovaných pacientů
= 20 v každé z obou skupin.
Provedena permutační bloková
randomizace, která zajišťuje
rovnoměrné rozdělení pacientů
do skupin.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Schéma studie
! Nerovnoměrné rozdělení pacientů ve sledovaných skupinách !
+ Ve studii chybí charakteristika zařazených pacientů
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Hodnocení výsledků
Graf je zavádějící protože zobrazuje
pouze celkové počty a ne % srovnání
– ve skupině bez apendektomie je ale
více osob!
Hodnocená proměnná je velmi
subjektivní a může být ovlivněna
charakteristikami pacientů!
Výsledné hodnocení je založeno
pouze na základě dvou kategorií
„zlepšení“ – při použití tří kategorií,
jako jsou v grafu, by mohlo dojít k
posunu ve statistické významnosti!
Nelze říci, že by výsledky nebyly
relevantní, nicméně určité kroky bez
vysvětlení vzbuzují podezření!
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Př.2 Kindermann et al. 2006 – Journal of the
American College of Cardiology
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Design studie
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Odhad velikosti vzorku a statistický test
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Hodnocení cílových parametrů
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Dodatečné hodnocení klinických parametrů
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Př. 3 Miller et al. – ESMO 2010
Hodnocení studie k článku
„Afatinib benefits lung cancer patients
whose cancer progressed after treatment
with EGFR inhibitors“
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Cílová populace a adekvátní kontrolní skupina
Studie LUX-Lung 1 zaměřená na pacienty s NSCLC, kteří
zprogredovali na léčbě erlotinibem nebo gefitinibem.
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Primární cíl:
Celkové přežití (overall survival, OS)
Sekundární cíle:
Přežití bez známek progrese (progression-free survival, PFS)
Odpověď na léčbu dle RECIST
Kvalita života
Bezpečnost
Primární a sekundární cíle studie
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Selekce pacientů – jasně daná předpokládaným účinkem afatinibu,
je třeba posoudit zastoupení nově diagnostikovaných pacientů a
pacientů s rekurentním onemocněním v obou skupinách.
Paralelní design – u onkologických onemocnění není jiná volba.
Adekvátní kontrolní skupina – kontrola se zdá vybraná logicky,
nicméně hodnocení primárního cíle vznáší otázku:
reprezentativnost vs. průkaznost.
Randomizace – poměrem 2:1, specifikovány balancované
proměnné: věk, ECOG PS, etnikum, historie kouření, stadium,
historie léčby (souvisí ).
Design studie
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Předpoklad mediánu celkového přežití u kontrolní skupiny 4.7 měsíců
Předpoklad snížení rizika úmrtí v čase o 30% (tomu odpovídá HR=0.7)
→ zvýšení mediánu celkového přežití u skupiny s afatinibem na 6.7
měsíců.
Tomu odpovídá 359 událostí (úmrtí), což lze vzhledem k předpokládané
délce studie, podílu cenzorovaných a drop-out rate přepočítat na celkový
počet pacientů pro zařazení do studie: 585 randomizovaných.
Výpočet velikosti vzorku
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Statisticky významně více léčebných odpovědí (PR + SD)
Statisticky významně delší přežití bez známek progrese (PFS) a to i v
podskupinách
Standardní profil nežádoucích účinků (vzhledem k anti-EGFR TKI)
Zlepšení symptomů spojených s tumorem
ALE …
Výsledky
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
ALE … Celkové přežití
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Statisticky významně více léčebných odpovědí (PR + SD)
Statisticky významně delší přežití bez známek progrese (PFS) a to i v
podskupinách
Standardní profil nežádoucích účinků (vzhledem k anti-EGFR TKI)
Zlepšení symptomů spojených s tumorem
ALE nevýznamné zlepšení celkového přežití
Reprezentativnost?
Srovnatelnost?
Hlavním a zásadním výsledkem pro tvorbu klinických
doporučení je hodnocení primárního cíle studie!
Na ten je totiž optimalizována velikost vzorku!
Další výsledky mohou sloužit jako podklad (hypotézy) pro další
výzkum!
Výsledky
Tomáš Pavlík: Plánování, organizace a hodnocení klinických studií © Institut biostatistiky a analýz
Je otázkou, zda se dal při přípravě studie předjímat problém s
celkovým přežitím
Možná zbytečné souběžné použití logrank testu a Coxova modelu
(model asi neuvažoval další proměnné)
Je třeba brát s rezervou všechna statistická hodnocení kromě
hodnocení primárního cíle studie
Zatím pouze předběžné hodnocení – je třeba doplnit kvalitní diskuzi
Shrnutí