© Institut biostatistiky a analýz Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2013 Blok 2 Jak medicínská data správně testovat. 2 Osnova 1. Formulování hypotéz nad medicínskými daty 2. Hladina významnosti a síla testu 3. p-hodnota 4. Vhodná volba typu testu v různých situacích 5. Jednovýběrové testy 6. Párové testy 3 1. Formulování hypotéz nad medicínskými daty 4 Statistické testování • Cíle: 1. Chceme srovnávat. - 1 náhodný výběr s předpokládanou hodnotou - 2 náhodné výběry mezi sebou - Více náhodných výběrů mezi sebou 2. Chceme hodnotit změnu náhodné veličiny vzhledem k vnějšímu zásahu. 3. Chceme rozhodovat o nezávislosti dvou náhodných veličin. 4. Chceme rozhodovat o charakteru rozdělení náhodné veličiny. • Postup: 1. Máme danou hypotézu k ověření (např. pacienti a kontroly se liší v hodnotách MMSE skóre). 2. Provedli jsme výběr z populace. 3. Aplikujeme statistický test. 4. Hypotézu prohlásíme za statisticky platnou nebo neplatnou. 5 Hypotézy • Hypotéza je tvrzení, které lze na základě pozorovaných dat ohodnotit ze statistického hlediska. • Nulová hypotéza („null hypothesis“) – tvrzení, že se něco nestalo nebo neprojevilo (např. nepřítomnost rozdílu mezi sledovanými skupinami, nepřítomnost efektu léčby apod.) – tzn. tvrzení, že efekt je nulový – je to opak toho, co chceme experimentem prokázat. • Nulová hypotéza má tvar: • Alternativní hypotéza („alternative hypothesis“) – tvrzení, které popírá platnost nulové hypotézy – tzn. tvrzení, že efekt není nulový. Vymezuje, jaká situace nastává, když nulová hypotéza neplatí. • Alternativní hypotéza má tvar: 00 : qq =H 01 01 01 : : : qq qq qq > < ¹ H H H - oboustranná alternativa - jednostranná alternativa - jednostranná alternativa 6 Hypotézy – příklady 1. Je objem mozkových komor u pacientů s Alzheimerovou chorobou větší než u zdravých lidí? Označme střední hodnotu objemu komor u pacientů symbolem 𝜃1 a střední hodnotu objemu komor u zdravých lidí 𝜃2. ‖ Nulová hypotéza: ‖ Alternativní hypotéza: 2. Je průměrná hodnota MMSE skóre u pacientů s Alzheimer. chorobou menší než průměrná hodnota celé populace? Označme střední hodnotu MMSE u pacientů symbolem 𝜃1 a u celé populace symbolem 𝜃0. ‖ Nulová hypotéza: ‖ Alternativní hypotéza: 3. Liší se objem hipokampu u pacientů s Alzheimer. chorobou (AD), pacientů s mírnou kognitivní poruchou (MCI) a zdravých lidí (CN)? Označme střední hodnotu objemu hipokampu u jednotlivých skupin symboly 𝜃𝐴𝐴, 𝜃 𝑀𝑀𝑀, 𝜃 𝐶𝐶. ‖ Nulová hypotéza: ‖ Alternativní hypotéza: 210 : qq =H Není rozdíl v objemu komor u pacientů a kontrol. 211 : qq >H Objemu komor větší u pacientů než u kontrol. 210 : qq =H 011 : qq 0,8 • střední efekt: 0,5 < d ≤ 0,8 • malý efekt: 0,2 < d ≤ 0,5 • zanedbatelný efekt: d ≤ 0,2 • korelační koeficienty (hodnocení míry vztahu dvou proměnných) ( ) ( ) 2 11 kde, 21 2 22 2 1121 -+ -+- = - = nn snsn s s xx d 24 Shrnutí klíčových pojmů analýzy dat • Významnost – viz. předcházející slidy. • Zkreslení výsledků („biased results“) – zkreslení způsobené starým nebo nenakalibrovaným měřidlem („technical bias“), zkreslení nevhodným výběrem subjektů („selection bias“), sledování zavádějícího faktoru namísto faktoru, který je pravou příčinou sledovaného výsledku. • Reprezentativnost – experimentální vzorek musí svými charakteristikami odpovídat cílové populaci. • Srovnatelnost – pokud chceme srovnávat skupiny mezi sebou, musí být skupiny srovnatelné. Pokud nemůžeme provést randomizaci (tzn. náhodné rozdělení subjektů do skupin), musíme hlídat, aby skupiny byly srovnatelné. Pokud nejsou, můžeme vytvořit podskupiny a ty srovnávat mezi sebou, nebo se snažíme odstranit vliv „nechtěných“ faktorů. • Spolehlivost – sumarizace sledované proměnné jedním číslem (např. průměrem) není dostatečná, protože nepostihujeme variabilitu dat – průměr vypočítaný z dat 10 lidí bude určitě méně přesný (spolehlivý) než průměr vypočítaný z dat 1000 lidí → průměr doplníme o interval spolehlivosti. 25 4. Vhodná volba testu v různých situacích 26 Statistické testování - opakování • Cíle: 1. Chceme srovnávat: - 1 náhodný výběr s předpokládanou hodnotou - 2 náhodné výběry mezi sebou - Více náhodných výběrů mezi sebou 2. Chceme hodnotit změnu náhodné veličiny vzhledem k vnějšímu zásahu. 3. Chceme rozhodovat o nezávislosti dvou náhodných veličin. 4. Chceme rozhodovat o charakteru rozdělení náhodné veličiny. • Postup: 1. Máme danou hypotézu k ověření (např. pacienti a kontroly se liší v hodnotách MMSE skóre). 2. Provedli jsme výběr z populace. 3. Aplikujeme statistický test. 4. Hypotézu prohlásíme za statisticky platnou nebo neplatnou. 27 Statistické testy – příklady předpokladů • Typ dat – pokud je předepsáno, že se test má použít na ordinální či nominální data, nemůžeme ho použít na hodnocení spojitých hodnot. • Normalita rozdělení dat – předpoklad u mnoha parametrických testů. • Homogenita rozptylu srovnávaných skupin – tzn. předpoklad, aby byl rozptyl ve skupinách přibližně stejný. • Vyrovnané počty subjektů ve srovnávaných skupinách – nutné z důvodu, aby byly odhady ve srovnávaných skupinách podobně přesné a spolehlivé. Pokud to experimentální situace dovoluje, měly by být přibližně stejné počty opakování standardem. 28 0 1 2 3 Pacienti Kontroly Parametrické a neparametrické testy • Parametrické testy: – Mají předpoklady o rozdělení vstupních dat (např. předpoklad normálního rozdělení), protože se zabývají testováním tvrzení o neznámých parametrech rozdělení (např. střední hodnoty). – Mají větší sílu než neparametrické testy. • Neparametrické testy: – Nemají předpoklady o rozdělení vstupních dat, je tedy možné je použít při asymetrickém rozdělení nebo odlehlých hodnotách. – Mají menší sílu, protože dochází k redukci informační hodnoty původních dat z důvodu, že neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí („rank“). – Menší sílu testu je možné vykompenzovat větší velikostí vzorku. • Testování v případě chybně určeného rozdělení pravděpodobnosti testové statistiky může vést k mylným závěrům z důvodu nerelevantní p-hodnoty → používání neparametrických testů je „bezpečnější“. 29 Parametrické a neparametrické testy pro kvantitativní data – přehled 30 Typ srovnání Parametrický test Neparametrický test 1 skupina dat s referenční hodnotou – jednovýběrové testy: Jednovýběrový t-test, jednovýběrový z-test Wilcoxonův test 2 skupiny dat párově – párové testy: Párový t-test Wilcoxonův test, znaménkový test 2 skupiny dat nepárově – dvouvýběrové testy: Dvouvýběrový t-test Mannův-Whitneyův test, mediánový test Více skupin nepárově: ANOVA Kruskalův- Wallisův test Jednostranné a oboustranné testy • Souvislost s jednostranou a oboustrannou alternativní hypotézou. • Jednostranné („One-Tailed“) testy: – Jednostranná alternativní hyp.: – Např. testujeme, zda je objem mozkové struktury menší u žen než u mužů či zda je průměrná spotřeba tišících léků větší u pacientů než je populační průměr apod. • Oboustranné („Two-Tailed“) testy: – Oboustranná alternativní hyp.: – Např. testujeme, zda se objem mozkové struktury liší u žen a mužů apod. 31 01 : qq ¹H Kritický obor 01 : qq H Zásady při testování 1. Znát základní typy testů a vědět, pro jaká data se používají. 2. Ověřit předpoklady testu – smysl má pouze aplikace „správného“ testu na „správná“ data. 3. Posoudit, zda je výsledek významný i z klinického hlediska. 4. Být si vědom toho, že statistický test není nic víc než matematický vzorec aplikovaný na data, tedy existuje nenulová pravděpodobnost, že výsledek bude chybný (viz chyba I. a II. druhu). Ovlivnit výsledky testu můžeme například změnou velikosti vzorku. 32 5. Jednovýběrové testy 33 Jednovýběrové („One-Sample“) testy • Srovnávají jeden vzorek („one sample“) s referenční hodnotou (popřípadě se statistickým parametrem cílové populace). • V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace). • Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek. • Parametrické jednovýběrové testy, kterým se budeme věnovat: – jednovýběrový t-test (test o střední hodnotě při neznámém rozptylu) – jednovýběrový z-test (test o střední hodnotě při známém rozptylu) 34 referenční hodnota Jednovýběrový t-test • Srovnáváme střední hodnotu jednoho výběru s referenční hodnotou. • Jde o test o střední hodnotě při neznámém rozptylu – tzn. testujeme, zda se průměr dané proměnné v našem výběru liší od referenční hodnoty (často populačního průměru), přičemž rozptyl dané proměnné počítáme z našeho výběru. • Předpoklad: normalita dat • Testová statistika: 35 μ𝑥̅ ns x T / m- = Jednovýběrový t-test • Příklad: Chceme srovnat průměrný objem hipokampu u 406 pacientů s MCI v našem souboru s průměrným objemem hipokampu 6575 mm3 zjištěným při populačním epidemiologickém průzkumu. • Tzn. hypotézy budou mít tvar: a • Postup: 1. Ověření normality – vykreslíme histogram objemu hipokampu pacientů s MCI. 2. Aplikujeme statistický test – 3 možnosti: I. Testování pomocí intervalu spolehlivosti II. Testování pomocí kritického oboru III. Testování pomocí p-hodnoty 3. Nulovou hypotézu zamítneme nebo nezamítneme. 36 6575:0 =xH 6575:1 ¹xH Testování pomocí intervalu spolehlivosti 37 Příklad: Chceme srovnat průměrný objem hipokampu u 406 pacientů s MCI v našem souboru s průměrným objemem hipokampu 6575 mm3 zjištěným při populačním epidemiologickém průzkumu. Výpočet intervalu spolehlivosti: 𝑛 = 406 𝑥̅ = 6552,6 mm3 s = 176,2 mm3 ( ) ( )11 2/12/1 -+££-- -- ntxntx n s n s aa m ( ) ( )14066,655214066,6552 2/05,01406 2,176 2/05,01406 2,176 -+££-- -- tt m 8,65694,6535 ££ m Protože 95% interval spolehlivosti (6535,4; 6569,8) neobsahuje populační průměr 6575 → zamítáme nulovou hypotézu → Průměrný objem hipokampu u pacientů s MCI v našem souboru se statisticky významně liší od populačního průměru. Testování pomocí kritického oboru 38 Příklad: Chceme srovnat průměrný objem hipokampu u 406 pacientů s MCI v našem souboru s průměrným objemem hipokampu 6575 mm3 zjištěným při populačním epidemiologickém průzkumu. Výpočet testové statistiky: Stanovení kritického oboru: kritické hodnoty: 𝑛 = 406 𝑥̅ = 6552,6 mm3 s = 176,2 mm3 Protože testová statistika t=-2,56 leží v kritickém oboru → zamítáme nulovou hypotézu → Průměrný objem hipokampu u pacientů s MCI v našem souboru se statisticky významně liší od populačního průměru. 56,2406/2,176 65756,6552 / -=== -- ns x t m 𝑡 𝛼/2 405 ≅ −1,96 𝑡1−𝛼/2 405 ≅ 1,96 Zamítá se Ho 95 % 1,96-1,96 t statistika 2,5 %2,5 % Zamítá se Ho Testování pomocí p-hodnoty 39 Příklad: Chceme srovnat průměrný objem hipokampu u 406 pacientů s MCI v našem souboru s průměrným objemem hipokampu 6575 mm3 zjištěným při populačním epidemiologickém průzkumu. Výpočet testové statistiky: Výpočet p-hodnoty: 𝑛 = 406 𝑥̅ = 6552,6 mm3 s = 176,2 mm3 Protože p-hodnota 0,0108 < 0,05 → zamítáme nulovou hypotézu → Průměrný objem hipokampu u pacientů s MCI v našem souboru se statisticky významně liší od populačního průměru. 56,2406/2,176 65756,6552 / -=== -- ns x t m 2,56-2,56 t statistika 0,54 %0,54 % ( )( ) 0108,00054,0256,22 =×=-£×= TPp Zmenšení N 40 Mean Std.Dv. N Std.Err. Lower CI Upper CI Reference t-value df p 6552,6 176,2 406 8,7 6535,4 6569,8 6575 -2,56 405 0,0108 Mean Std.Dv. N Std.Err. Lower CI Upper CI Reference t-value df p 6552,2 171,4 100 17,1 6518,2 6586,2 6575 -1,33 99 0,1865 N = 406 N = 100 p=0,0108 < 0,05 → zamítáme nulovou hypotézu p=0,1865 > 0,05 → nezamítáme nulovou hypotézu Vliv velikosti vzorku na výsledky testování - opakování n1 = 10, n2 = 10 n1 = 1000, n2 = 1000 p = 0.797 p < 0.001p = 0.140 n1 = 100, n2 = 100 Statistická významnost způsobená velkým N Dvě skupiny pacientů s nepatrným rozdílem v dané charakteristice, který ale není klinicky významný. 41 Oboustranný vs. jednostranný jednovýběrový t-test Oboustranný jednovýběrový t-test: Příklad: Chceme srovnat objem hipokampu u pac. s MCI s populačním průměrem. Tzn. chceme ověřit, zda se objem hipokampu u pac. s MCI v našem souboru liší od populačního průměru. Alternativní hypotéza: p = 0,0108 Jednostranný jednovýběrový t-test: 1. Levostranný – příklad: Chceme ověřit, zda je objem hipokampu u pac. s MCI v našem souboru menší než populační průměr: p = 0,0108/2 = 0,0054 2. Pravostranný – příklad: Chceme ověřit, zda je objem hipokampu u pac. s MCI v našem souboru větší než populační průměr: p = 1 - 0,0108/2 = 0,9946 42 mxH :1 m¹xH :1 t statistika 0,54 %0,54 % 0,54 % 99,46 % Jednostranný jednovýběrový t-test Skutečnost: 𝒙� < 𝝁 Levostranný jednovýběrový t-test: 𝐻1: 𝑥̅ < 𝜇 Pravostranný jednovýběrový t-test: 𝐻1: 𝑥̅ > 𝜇 43 Skutečnost: 𝒙� > 𝝁 Levostranný jednovýběrový t-test: 𝐻1: 𝑥̅ < 𝜇 Pravostranný jednovýběrový t-test: 𝐻1: 𝑥̅ > 𝜇 Úkol 1 • Zadání: Zjistěte, zda se liší průměrný objem amygdaly u mužů v našem souboru od populačního průměrného objemu 2800 mm3 (nezapomeňte ověřit předpoklady). • Řešení: 44 Z-test • Srovnáváme střední hodnotu jednoho výběru s referenční hodnotou. • Jde o test o střední hodnotě při známém rozptylu – tzn. testujeme, zda se průměr dané proměnné v našem výběru liší od referenční hodnoty (často populačního průměru), přičemž známe rozptyl dané proměnné pro celou populaci. • Předpoklad: normalita dat • Testová statistika: 45 n x Z /s m- = μ𝑥̅ Z-test • Příklad: Při populačním průzkumu bylo zjištěno, že průměrná hodnota MMSE skóre je 27,5 (SD = 4). Chceme zjistit, zda se průměrná hodnota MMSE skóre u 406 pacientů s MCI v našem souboru liší od populační průměrné hodnoty. • Tzn. hypotézy budou mít tvar: a • Postup: 1. Ověření normality – vykreslíme histogram MMSE skóre u pacientů s MCI, abychom ověřili, že průměr je dobrý ukazatel středu hodnot. 2. Aplikujeme statistický test – vypočítáme p-hodnotu: • v Excelu: =2*MIN(Z.TEST(A1:A406;27,5;4);1-Z.TEST(A1:A406;27,5;4)) • v Matlabu: [H,P] = ztest(X,27.5,4) 3. Nulovou hypotézu zamítneme nebo nezamítneme: p=0,013 < 0,05 → zamítáme nulovou hypotézu → Průměrná hodnota MMSE skóre u pacientů s MCI v našem souboru se statisticky významně liší od populačního průměru. 46 5,27:0 =xH 5,27:1 ¹xH Z-skóre • Odečtení populačního průměru (μ) a vydělení populační směrodatnou odchylkou (σ): • Souvislost se standardizací: • Často při hodnocení různých skóre – určuje se, kteří lidé jsou mimo normu. 47 s xx u i i - = v normě mimo normumimo normu 95% s m= i i x u 6. Párové testy 48 Párový t-test • Srovnáváme dvě skupiny dat, které ale na sobě nejsou nezávislé – mezi objekty existuje vazba (např. člověk před a po operaci, stejný kmen krys) • Příklady: srovnání objem hipokampu na začátku léčby a 1 rok po zahájení léčby, srovnání kognitivního výkonu pacientů před a po léčbě • Předpoklad: normalita diferencí (rozdílů původních hodnot) • Testová statistika: , kde 𝑑̅ je průměrný rozdíl, 𝑑0 je referenční hodnota (většinou 0), 𝑠 𝑑 je směrodatná odchylka rozdílů 49 X1 X2 d = X1–X2 ns dd d T / 0- = • Test je v podstatě prováděn na diferencích skupin (rozdílech původních hodnot), nikoliv na původních datech → obě skupiny tedy musí mít shodný počet hodnot (všechna měření v jedné skupině musí být spárována s měřením v druhé skupině!) Párový t-test • Příklad: Chceme srovnat, zda se liší objem hipokampu u pacientů s Alzheimerovou chorobou při vstupu do studie a 2 roky po zahájení studie (tzn. chceme zjistit, zda došlo ke změně objemu hipokampu). • Tzn. hypotézy budou mít tvar: a • Postup: 1. Ověření existence vazby mezi oběma skupinami dat pomocí tečkového grafu. 2. Ověření normality rozdílů – vytvoříme novou proměnnou, která bude obsahovat rozdíly objemů hipokampu, a vykreslíme histogram. 3. Aplikujeme statistický test (v softwaru STATISTICA: t-test, dependent samples). 4. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 → zamítáme nulovou hypotézu → Rozdíl v objemu hipokampu u pacientů s AD při vstupu do studie a 2 roky po zahájení studie je statisticky významný. • Poznámka: Stejné výsledky dostaneme, pokud použijeme jednovýběrový t-test a jako vstupní proměnnou vezmeme proměnnou s rozdílem objemů. 50 0:1 ¹dH0:0 =dH Úkol 2 • Zadání: Zjistěte, zda se liší MMSE skóre u kontrolních subjektů (CN) při vstupu do studie a dva roky po zahájení studie (nezapomeňte ověřit předpoklady). • Řešení: 51 Poděkování… Příprava výukových materiálů předmětu „DSAN01 Analýza dat pro Neurovědy “ je finančně podporována prostředky projektu FRVŠ č. 942/2013 „Inovace materiálů pro interaktivní výuku a samostudium předmětu Analýza dat pro Neurovědy“