© Institut biostatistiky a analýz Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2012 Blok 2 Jak a kdy použít parametrické a neparametrické testy I. 2 Osnova 1. Vhodná volba testu v různých situacích 2. Jednovýběrové testy 3. Párové testy 4. Dvouvýběrové testy 5. Neparametrické testy 3 1. Vhodná volba testu v různých situacích 4 Statistické testování - opakování • Cíle: 1. Chceme srovnávat: - 1 náhodný výběr s předpokládanou hodnotou - 2 náhodné výběry mezi sebou - Více náhodných výběrů mezi sebou 2. Chceme hodnotit změnu náhodné veličiny vzhledem k vnějšímu zásahu. 3. Chceme rozhodovat o nezávislosti dvou náhodných veličin. 4. Chceme rozhodovat o charakteru rozdělení náhodné veličiny. • Postup: 1. Máme danou hypotézu k ověření (např. pacienti a kontroly se liší v hodnotách MMSE skóre). 2. Provedli jsme výběr z populace. 3. Aplikujeme statistický test. 4. Hypotézu prohlásíme za statisticky platnou nebo neplatnou. 5 Statistické testy – příklady předpokladů • Typ dat – pokud je předepsáno, že se test má použít na ordinální či nominální data, nemůžeme ho použít na hodnocení spojitých hodnot. • Normalita rozdělení dat – předpoklad u mnoha parametrických testů. • Homogenita rozptylu srovnávaných skupin – tzn. předpoklad, aby byl rozptyl ve skupinách přibližně stejný. • Vyrovnané počty subjektů ve srovnávaných skupinách – nutné z důvodu, aby byly odhady ve srovnávaných skupinách podobně přesné a spolehlivé. Pokud to experimentální situace dovoluje, měly by být přibližně stejné počty opakování standardem. 6 0 1 2 3 Pacienti Kontroly Parametrické a neparametrické testy • Parametrické testy: – Mají předpoklady o rozdělení vstupních dat (např. předpoklad normálního rozdělení), protože se zabývají testováním tvrzení o neznámých parametrech rozdělení (např. střední hodnoty). – Mají větší sílu než neparametrické testy. • Neparametrické testy: – Nemají předpoklady o rozdělení vstupních dat, je tedy možné je použít při asymetrickém rozdělení nebo odlehlých hodnotách. – Mají menší sílu, protože dochází k redukci informační hodnoty původních dat z důvodu, že neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí („rank“). – Menší sílu testu je možné vykompenzovat větší velikostí vzorku. • Testování v případě chybně určeného rozdělení pravděpodobnosti testové statistiky může vést k mylným závěrům z důvodu nerelevantní p-hodnoty → používání neparametrických testů je „bezpečnější“. 7 Parametrické a neparametrické testy pro kvantitativní data – přehled 8 Typ srovnání Parametrický test Neparametrický test 1 skupina dat s referenční hodnotou – jednovýběrové testy: Jednovýběrový t-test, jednovýběrový z-test Wilcoxonův test 2 skupiny dat párově – párové testy: Párový t-test Wilcoxonův test, znaménkový test 2 skupiny dat nepárově – dvouvýběrové testy: Dvouvýběrový t-test Mannův-Whitneyův test, mediánový test Více skupin nepárově: ANOVA Kruskalův- Wallisův test Jednostranné a oboustranné testy • Souvislost s jednostranou a oboustrannou alternativní hypotézou. • Jednostranné („One-Tailed“) testy: – Jednostranná alternativní hyp.: – Např. testujeme, zda je objem mozkové struktury menší u žen než u mužů či zda je průměrná spotřeba tišících léků větší u pacientů než je populační průměr apod. • Oboustranné („Two-Tailed“) testy: – Oboustranná alternativní hyp.: – Např. testujeme, zda se objem mozkové struktury liší u žen a mužů apod. 9 01 : qq ¹H Kritický obor 01 : qq H Zásady při testování 1. Znát základní typy testů a vědět, pro jaká data se používají. 2. Ověřit předpoklady testu – smysl má pouze aplikace „správného“ testu na „správná“ data. 3. Posoudit, zda je výsledek významný i z klinického hlediska. 4. Být si vědom toho, že statistický test není nic víc než matematický vzorec aplikovaný na data, tedy existuje nenulová pravděpodobnost, že výsledek bude chybný (viz chyba I. a II. druhu). Ovlivnit výsledky testu můžeme například změnou velikosti vzorku. 10 2. Jednovýběrové testy 11 Jednovýběrové („One-Sample“) testy • Srovnávají jeden vzorek („one sample“) s referenční hodnotou (popřípadě se statistickým parametrem cílové populace). • V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace). • Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek. • Parametrické jednovýběrové testy, kterým se budeme věnovat: – jednovýběrový t-test (test o střední hodnotě při neznámém rozptylu) – jednovýběrový z-test (test o střední hodnotě při známém rozptylu) 12 referenční hodnota Jednovýběrový t-test • Srovnáváme střední hodnotu jednoho výběru s referenční hodnotou. • Jde o test o střední hodnotě při neznámém rozptylu – tzn. testujeme, zda se průměr dané proměnné v našem výběru liší od referenční hodnoty (často populačního průměru), přičemž rozptyl dané proměnné počítáme z našeho výběru. • Předpoklad: normalita dat • Testová statistika: 13 μ𝑥̅ ns x T / m- = Jednovýběrový t-test • Příklad: Chceme srovnat průměrný objem hipokampu u 406 pacientů s MCI v našem souboru s průměrným objemem hipokampu 6575 mm3 zjištěným při populačním epidemiologickém průzkumu. • Tzn. hypotézy budou mít tvar: a • Postup: 1. Ověření normality – vykreslíme histogram objemu hipokampu pacientů s MCI. 2. Aplikujeme statistický test – 3 možnosti: I. Testování pomocí intervalu spolehlivosti II. Testování pomocí kritického oboru III. Testování pomocí p-hodnoty 3. Nulovou hypotézu zamítneme nebo nezamítneme. 14 6575:0 =xH 6575:1 ¹xH Testování pomocí intervalu spolehlivosti 15 Příklad: Chceme srovnat průměrný objem hipokampu u 406 pacientů s MCI v našem souboru s průměrným objemem hipokampu 6575 mm3 zjištěným při populačním epidemiologickém průzkumu. Výpočet intervalu spolehlivosti: 𝑛 = 406 𝑥̅ = 6552,6 mm3 s = 176,2 mm3 ( ) ( )11 2/12/1 -+££-- -- ntxntx n s n s aa m ( ) ( )14066,655214066,6552 2/05,01406 2,176 2/05,01406 2,176 -+££-- -- tt m 8,65694,6535 ££ m Protože 95% interval spolehlivosti (6535,4; 6569,8) neobsahuje populační průměr 6575 → zamítáme nulovou hypotézu → Průměrný objem hipokampu u pacientů s MCI v našem souboru se statisticky významně liší od populačního průměru. Testování pomocí kritického oboru 16 Příklad: Chceme srovnat průměrný objem hipokampu u 406 pacientů s MCI v našem souboru s průměrným objemem hipokampu 6575 mm3 zjištěným při populačním epidemiologickém průzkumu. Výpočet testové statistiky: Stanovení kritického oboru: kritické hodnoty: 𝑛 = 406 𝑥̅ = 6552,6 mm3 s = 176,2 mm3 Protože testová statistika t=-2,56 leží v kritickém oboru → zamítáme nulovou hypotézu → Průměrný objem hipokampu u pacientů s MCI v našem souboru se statisticky významně liší od populačního průměru. 56,2406/2,176 65756,6552 / -=== -- ns x t m 𝑡 𝛼/2 405 ≅ −1,96 𝑡1−𝛼/2 405 ≅ 1,96 Zamítá se Ho 95 % 1,96-1,96 t statistika 2,5 %2,5 % Zamítá se Ho Testování pomocí p-hodnoty 17 Příklad: Chceme srovnat průměrný objem hipokampu u 406 pacientů s MCI v našem souboru s průměrným objemem hipokampu 6575 mm3 zjištěným při populačním epidemiologickém průzkumu. Výpočet testové statistiky: Výpočet p-hodnoty: 𝑛 = 406 𝑥̅ = 6552,6 mm3 s = 176,2 mm3 Protože p-hodnota 0,0108 < 0,05 → zamítáme nulovou hypotézu → Průměrný objem hipokampu u pacientů s MCI v našem souboru se statisticky významně liší od populačního průměru. 56,2406/2,176 65756,6552 / -=== -- ns x t m 2,56-2,56 t statistika 0,54 %0,54 % ( )( ) 0108,00054,0256,22 =×=-£×= TPp Zmenšení N 18 Mean Std.Dv. N Std.Err. Lower CI Upper CI Reference t-value df p 6552,6 176,2 406 8,7 6535,4 6569,8 6575 -2,56 405 0,0108 Mean Std.Dv. N Std.Err. Lower CI Upper CI Reference t-value df p 6552,2 171,4 100 17,1 6518,2 6586,2 6575 -1,33 99 0,1865 N = 406 N = 100 p=0,0108 < 0,05 → zamítáme nulovou hypotézu p=0,1865 > 0,05 → nezamítáme nulovou hypotézu Vliv velikosti vzorku na výsledky testování - opakování n1 = 10, n2 = 10 n1 = 1000, n2 = 1000 p = 0.797 p < 0.001p = 0.140 n1 = 100, n2 = 100 Statistická významnost způsobená velkým N Dvě skupiny pacientů s nepatrným rozdílem v dané charakteristice, který ale není klinicky významný. 19 Oboustranný vs. jednostranný jednovýběrový t-test Oboustranný jednovýběrový t-test: Příklad: Chceme srovnat objem hipokampu u pac. s MCI s populačním průměrem. Tzn. chceme ověřit, zda se objem hipokampu u pac. s MCI v našem souboru liší od populačního průměru. Alternativní hypotéza: p = 0,0108 Jednostranný jednovýběrový t-test: 1. Levostranný – příklad: Chceme ověřit, zda je objem hipokampu u pac. s MCI v našem souboru menší než populační průměr: p = 0,0108/2 = 0,0054 2. Pravostranný – příklad: Chceme ověřit, zda je objem hipokampu u pac. s MCI v našem souboru větší než populační průměr: p = 1 - 0,0108/2 = 0,9946 20 mxH :1 m¹xH :1 t statistika 0,54 %0,54 % 0,54 % 99,46 % Jednostranný jednovýběrový t-test Skutečnost: 𝒙� < 𝝁 Levostranný jednovýběrový t-test: 𝐻1: 𝑥̅ < 𝜇 Pravostranný jednovýběrový t-test: 𝐻1: 𝑥̅ > 𝜇 21 Skutečnost: 𝒙� > 𝝁 Levostranný jednovýběrový t-test: 𝐻1: 𝑥̅ < 𝜇 Pravostranný jednovýběrový t-test: 𝐻1: 𝑥̅ > 𝜇 Úkol 1 • Zadání: Zjistěte, zda se liší průměrný objem amygdaly u mužů v našem souboru od populačního průměrného objemu 2800 mm3 (nezapomeňte ověřit předpoklady). • Řešení: 22 Z-test • Srovnáváme střední hodnotu jednoho výběru s referenční hodnotou. • Jde o test o střední hodnotě při známém rozptylu – tzn. testujeme, zda se průměr dané proměnné v našem výběru liší od referenční hodnoty (často populačního průměru), přičemž známe rozptyl dané proměnné pro celou populaci. • Předpoklad: normalita dat • Testová statistika: 23 n x Z /s m- = μ𝑥̅ Z-test • Příklad: Při populačním průzkumu bylo zjištěno, že průměrná hodnota MMSE skóre je 27,5 (SD = 4). Chceme zjistit, zda se průměrná hodnota MMSE skóre u 406 pacientů s MCI v našem souboru liší od populační průměrné hodnoty. • Tzn. hypotézy budou mít tvar: a • Postup: 1. Ověření normality – vykreslíme histogram MMSE skóre u pacientů s MCI, abychom ověřili, že průměr je dobrý ukazatel středu hodnot. 2. Aplikujeme statistický test – vypočítáme p-hodnotu: • v Excelu: =2*MIN(Z.TEST(A1:A406;27,5;4);1-Z.TEST(A1:A406;27,5;4)) • v Matlabu: [H,P] = ztest(X,27.5,4) 3. Nulovou hypotézu zamítneme nebo nezamítneme: p=0,013 < 0,05 → zamítáme nulovou hypotézu → Průměrná hodnota MMSE skóre u pacientů s MCI v našem souboru se statisticky významně liší od populačního průměru. 24 5,27:0 =xH 5,27:1 ¹xH Z-skóre • Odečtení populačního průměru (μ) a vydělení populační směrodatnou odchylkou (σ): • Souvislost se standardizací: • Často při hodnocení různých skóre – určuje se, kteří lidé jsou mimo normu. 25 s xx u i i - = v normě mimo normumimo normu 95% s m= i i x u 3. Párové testy 26 Párový t-test • Srovnáváme dvě skupiny dat, které ale na sobě nejsou nezávislé – mezi objekty existuje vazba (např. člověk před a po operaci, stejný kmen krys) • Příklady: srovnání objem hipokampu na začátku léčby a 1 rok po zahájení léčby, srovnání kognitivního výkonu pacientů před a po léčbě • Předpoklad: normalita diferencí (rozdílů původních hodnot) • Testová statistika: , kde 𝑑̅ je průměrný rozdíl, 𝑑0 je referenční hodnota (většinou 0), 𝑠 𝑑 je směrodatná odchylka rozdílů 27 X1 X2 d = X1–X2 ns dd d T / 0- = • Test je v podstatě prováděn na diferencích skupin (rozdílech původních hodnot), nikoliv na původních datech → obě skupiny tedy musí mít shodný počet hodnot (všechna měření v jedné skupině musí být spárována s měřením v druhé skupině!) Párový t-test • Příklad: Chceme srovnat, zda se liší objem hipokampu u pacientů s Alzheimerovou chorobou při vstupu do studie a 2 roky po zahájení studie (tzn. chceme zjistit, zda došlo ke změně objemu hipokampu). • Tzn. hypotézy budou mít tvar: a • Postup: 1. Ověření existence vazby mezi oběma skupinami dat pomocí tečkového grafu. 2. Ověření normality rozdílů – vytvoříme novou proměnnou, která bude obsahovat rozdíly objemů hipokampu, a vykreslíme histogram. 3. Aplikujeme statistický test (v softwaru STATISTICA: t-test, dependent samples). 4. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 → zamítáme nulovou hypotézu → Rozdíl v objemu hipokampu u pacientů s AD při vstupu do studie a 2 roky po zahájení studie je statisticky významný. • Poznámka: Stejné výsledky dostaneme, pokud použijeme jednovýběrový t-test a jako vstupní proměnnou vezmeme proměnnou s rozdílem objemů. 28 0:1 ¹dH0:0 =dH Úkol 2 • Zadání: Zjistěte, zda se liší MMSE skóre u kontrolních subjektů (CN) při vstupu do studie a dva roky po zahájení studie (nezapomeňte ověřit předpoklady). • Řešení: 29 4. Dvouvýběrové testy 30 Dvouvýběrové („Two-Sample“) testy • Srovnávají navzájem dva nezávislé vzorky („two samples“). • V testu jsou srovnávány dvě rozložení hodnot. • Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek. • Parametrické dvouvýběrové testy, kterým se budeme věnovat: – dvouvýběrový t-test (test o rozdílu průměrů dvou nezávislých vzorků) – F-test (test o shodnosti rozptylů dvou nezávislých vzorků) 31 Dvouvýběrový t-test • Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. • Příklady: srovnání objem hipokampu u mužů a u žen, srovnání kognitivního výkonu podle dvou kategorií věku. • Předpoklad: normalita dat v OBOU skupinách, shodnost (homogenita) rozptylů v obou skupinách • Testová statistika: , kde 𝑠∗ je vážená směrodatná odchylka, c je konstanta, o kterou se rozdíl průměrů má lišit (většinou rovna 0) 32 𝑥̅1 𝑥̅2 21 11 * 21 nns cxx T + -- = Dvouvýběrový t-test • Příklad: Chceme srovnat, zda se liší objem putamenu podle pohlaví. • Tzn. hypotézy budou mít tvar: a • Postup: 1. Popisná sumarizace objemu putamenu podle pohlaví. 2. Ověření normality hodnot v OBOU skupinách pomocí histogramu (tzn. vykreslíme histogram zvlášť pro muže a zvlášť pro ženy). 3. Ověření shodnosti rozptylů – vizuálně pomocí krabicových grafů. 4. Aplikujeme statistický test (v softwaru STATISTICA: t-test, independent, by groups). 5. Nulovou hypotézu zamítneme nebo nezamítneme: p=0,097 > 0,05 → nezamítáme nulovou hypotézu → Neprokázali jsme rozdíl objemu putamenu podle pohlaví (na hladině významnosti α=0,05.) 33 0: 210 =- xxH 0: 211 ¹- xxH Úkol 3. • Zadání: Zjistěte, zda se liší objem thalamu podle pohlaví (nezapomeňte ověřit předpoklady). • Řešení: 34 5. Neparametrické testy 35 Neparametrické testy • Nemají předpoklady o rozdělení vstupních dat, je tedy možné je použít při asymetrickém rozdělení nebo odlehlých hodnotách. • Používání neparametrických testů je „bezpečnější“. • Mají však menší sílu, protože dochází k redukci informační hodnoty původních dat z důvodu, že neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí („rank“). • Menší sílu testu je možné vykompenzovat větší velikostí vzorku. • Neparametrické testy: – Wilcoxonův test – jednovýběrový i párový test – Znaménkový test – párový test – Mannův-Whitneyův test – dvouvýběrový test – Mediánový test – dvouvýběrový test 36 Wilcoxonův test • Neparametrická alternativa jednovýběrového i párového t-testu a z-testu. • Je testem o mediánu – hypotézy mají tvar: a • Princip Wilcoxonova testu: 1. Spočítáme diference všech hodnot x1, x2, … , xn od c. 2. Podíváme se, jestli je zhruba ½ diferencí kladných a ½ záporných. (To je ekvivalentní s tím, že zhruba polovina hodnot x1, x2, … , xn je menších než c a polovina hodnot x1, x2, … , xn je větších než c). • Je zřejmé, že odlehlé hodnoty nebudou v tomto testu problém, protože nehodnotíme velikost diferencí, ale pouze, zda je zhruba ½ z nich kladných a ½ záporných. 37 cxH =~:0 cxH ¹~:1 Wilcoxonův test jako párový test • Příklad: Chceme srovnat, zda se liší MMSE skóre u pacientů s MCI při vstupu do studie a 2 roky po zahájení studie. • Tzn. hypotézy budou mít tvar: a • Postup: 1. Ověření existence vazby mezi oběma skupinami dat pomocí tečkového grafu. 2. Vykreslení histogramu nové proměnné s rozdíly MMSE skóre, abychom viděli, že u rozdílů není splněn předpoklad normálního rozdělení → proto použijeme neparametrický test. 3. Aplikujeme statistický test. 4. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 → zamítáme nulovou hypotézu → Rozdíl MMSE skóre u pacientů s MCI při vstupu do studie a 2 roky po zahájení studie je statisticky významný. 38 0 ~ :0 =dH 0 ~ :1 ¹dH Wilcoxonův test jako jednovýběrový test • Příklad: Chceme zjistit, zda se průměrná hodnota MMSE skóre u 197 pacientů s Alzheimerovou chorobou v našem souboru liší od populační průměrné hodnoty 27,5. • Tzn. hypotézy budou mít tvar: a • Postup: 1. Vykreslíme histogram a spočítáme popisnou statistiku, abychom viděli, že u MMSE skóre u pacientů s AD není splněn předpoklad normálního rozdělení → proto použijeme neparametrický test. 2. Aplikujeme statistický test (Software STATISTICA neumožňuje počítat jednovýběrový Wilcoxonův test přímo. Lze to však obejít vytvořením nové proměnné, která ve všech řádcích bude mít hodnotu 27,5, a použitím párového Wilcoxonova testu). 3. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 → zamítáme nulovou hypotézu → Průměrná hodnota MMSE skóre u pacientů s AD v našem souboru se statisticky významně liší od populačního průměru. 39 5,27~:0 =xH 5,27~:1 ¹xH Úkol 4. • Zadání: Zjistěte, zda se liší váha u žen v našem souboru od populační průměrné váhy žen 65 kg. • Řešení: 40 Mannův-Whitneyův (U) test • Někdy nazýván jako dvouvýběrový Wilcoxonův test. • Neparametrická alternativa dvouvýběrového t-testu. • Testuje se, zda jsou srovnatelné distribuční funkce (tzn. zda mediány obou výběrů jsou srovnatelné). • Hypotézy mají tvar: a • Princip Mannova-Whitneyova testu: 1. Všechny hodnoty z obou výběrů dohromady (tedy n1+n2 hodnot) uspořádáme vzestupně podle velikosti → každé hodnotě přiřadíme pořadí. 2. Spočítáme součet pořadí hodnot prvního výběru a součet pořadí hodnot druhého výběru. 3. Na základě těchto dvou součtů vypočteme testové statistiky. • Je zřejmé, že odlehlé hodnoty nebudou v tomto testu problém, protože pracujeme s pořadími namísto původních hodnot. 41 )()(:0 yFxFH = )()(:1 yFxFH ¹ Mannův-Whitneyův (U) test • Příklad: Chceme srovnat, zda se liší objem hipokampu podle pohlaví. • Tzn. hypotézy budou mít tvar: a • Postup: 1. Popisná sumarizace objemu hipokampu podle pohlaví. 2. Vykreslení histogramů objemu hipokampu u mužů a u žen, abychom viděli, že není splněn předpoklad normálního rozdělení → proto použijeme neparametrický test. 3. Aplikujeme statistický test. 4. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 → zamítáme nulovou hypotézu → Objem hipokampu je u mužů a u žen statisticky významně odlišný. 42 )()(:0 yFxFH = )()(:1 yFxFH ¹ Úkol 5. • Zadání: Zjistěte, zda se liší MMSE skóre u kontrolních subjektů a pacientů s AD. • Řešení: 43 Poznámka 1 • Všechny dosud uvedené testy se zabývají hodnocením spojitých náhodných veličin (mohou nabývat jakýchkoliv hodnot v určitém rozmezí). • Příklady: výška, váha, vzdálenost, čas, teplota. • Uvedené testy lze ale použít i pro hodnocení diskrétních náhodných veličin – ale musí to být odůvodnitelné (např. velký počet možných hodnot). • Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok. 44 Poznámka 2 • Parametrické a neparametrické testy nemusí vycházet stejně. Důvody: 1. Nesplněné předpoklady parametrického testu. 2. Malá síla neparametrického testu. • Jsou-li však splněny předpoklady parametrického testu a je-li dostatek dat, bude to vycházet stejně. • Měli bychom preferovat parametrické testy, ALE pouze po důkladném ověření jejich předpokladů! 45 Úkol 6. • Zadání: Chceme ověřit, zda se liší objem jednotlivých mozkových struktur podle pohlaví. Vykreslete histogramy a rozmyslete si, jaký test (jaké testy) byste použili. 46