RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Blok 3 Jak a kdy použít parametrické a neparametrické testy I. Janoušová, Dušek: Analýza dat pro neurovědy Osnova i- 1. Dvouvýběrové testy 2. Neparametrické testy Janoušová, Dušek: Analýza dat pro neurovědy Parametrické a neparametrické testy pro kvantitativní data - přehled Typ srovnání Parametrický test Neparametrický test 1 skupina dat s referenční Jednovyberovy t-test, 14f.. hodnotou ' v ' Wilcoxonuv test „ . jednovyberovy z-test - jednovyberove testy: 2 skupiny dat párově , Wilcoxonův test, , r. Párový t-test , , , - parove testy: znaménkový test 2 skupiny dat nepárově ^ „ , Mannův-Whitneyův test, . * Dvouvyberovy t-test ,., - dvouvýberove testy: mediánový test Více skupin nepárově: ANOVA Kruskalův- Wallisův test MU Janoušová, Dušek: Analýza dat pro neurovědy ^ 1. Dvou výběrové testy Janoušová, Dušek: Analýza dat pro neurovědy ^ Dvouvýběrové („Two-Sample") testy )- • Srovnávají navzájem dva nezávislé vzorky („two samples"). • V testu jsou srovnávány dvě rozložení hodnot. • Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek. • Parametrické dvouvýběrové testy, kterým se budeme věnovat: - dvouvýběrový t-test (test o rozdílu průměrů dvou nezávislých vzorků) - F-test (test o shodnosti rozptylů dvou nezávislých vzorků) Janoušová, Dušek: Analýza dat pro neurovědy ^ F-test » Srovnáváme rozptyly (variabilitu) dvou skupin dat, které jsou na sobě nezávislé (mezi objekty neexistuje vazba). * F-test patří mezi dvouvýběrové parametrické testy. * Příklady: srovnání variability objemu hipokampu u pacientů s AD a kontrol. * Použití: ověření předpokladu shodnosti (homogenity) rozptylů u dvouvýběrového t-testu. 2 - 1 - Pacienti Kontroly Předpoklad: normalita dat v OBOU skupinách. Testová statistika: F = ^ , kde s/ je rozptyl prvního výběru a s22 je rozptyl druhého výběru Sl Janoušová, Dušek: Analýza dat pro neurovědy IBA F-test • Příklad: Chceme srovnat, zda se liší variabilita objemu putamenu podle pohlaví. • Tzn. hypotézy budou mít tvar: H0 : 0,05 -> nezamítáme nulovou hypotézu -> Neprokázali jsme rozdíl ve variabilitě objemu putamenu podle pohlaví (na hladině významnosti a=0,05.) MU Janoušová, Dušek: Analýza dat pro neurovědy ^ Dvou výběrový t-test Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé - mezi objekty neexistuje vazba. Příklady: srovnání objem hipokampu u mužů a u žen, srovnání kognitivního výkonu podle dvou kategorií věku. 3 n 2 - 1 - %2 Pacienti Kontroly Předpoklad: normalita dat v OBOU skupinách, shodnost (homogenita) rozptylů v obou skupinách Testová statistika: T = Xl , *2 í, kde s* je vážená směrodatná odchylka, c je konstanta, o kterou se rozdíl průměrů má lišit (většinou rovna 0) Janoušová, Dušek: Analýza dat pro neurovědy IBA W 9 Dvou výběrový t-test )- • Příklad: Chceme srovnat, zda se liší objem putamenu podle pohlaví. • Tzn. hypotézy budou mít tvar: H0 : xx - x2 = 0 a Hx : xx - x2 ^ 0 • Postup: 1. Popisná sumarizace objemu putamenu podle pohlaví. 2. Ověření normality hodnot v OBOU skupinách pomocí histogramu (tzn. vykreslíme histogram zvlášť pro muže a zvlášť pro ženy). 3. Ověření shodnosti rozptylů - vizuálně pomocí krabicových grafů a pomocí F-testu a Levenova testu. 4. Aplikujeme statistický test (v softwaru STATISTICA: t-test, independent, bygroups). 5. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,097 > 0,05 -> nezamítáme nulovou hypotézu -> Neprokázali jsme rozdíl objemu putamenu podle pohlaví (na hladině významnosti a=0,05.) MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ Úkol 3. 1 Zadání: Zjistěte, zda se liší objem thalamu podle pohlaví (nezapomeňte ověřit předpoklady). Řešení: T-tests; Grouping: Gender_rek (Data_neuro_vycistena2) Group 1: M Group 2: F Variable Mean M Mean F t-value df P Valid N M Valid N F Std.Dev. M Std.Dev. F Thalamusvolume (m m 3) 12828,02. 12469:S9 25:S0103 831 Ú 00 482 351 194.9292 201.7188 F-ratio P Levene df P Variances Variances Fftdf) Levene Levene 1.070876 0.488954 0.052G58 831 0.818557 Janoušová, Dušek: Analýza dat pro neurovědy IBA 3. Neparametrické testy Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ Parametrické a neparametrické testy pro kvantitativní data - přehled Typ srovnání Parametrický test Neparametrický test 1 skupina dat s referenční hodnotou - jednovýběrové testy: Jednovýběrový t-test, jednovýběrový z-test Wilcoxonův test 2 skupiny dat párově - párové testy: Párový t-test Wilcoxonův test, znaménkový test 2 skupiny dat nepárově - dvouvýběrové testy: Dvou výběrový t-test Mannův-Whitneyův test, mediánový test Více skupin nepárově: ANOVA Kruskalův- Wallisův test MU Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ Neparametrické testy • Nemají předpoklady o rozdělení vstupních dat, je tedy možné je použít při asymetrickém rozdělení nebo odlehlých hodnotách. • Používání neparametrických testů je „bezpečnější". • Mají však menší sílu, protože dochází k redukci informační hodnoty původních dat z důvodu, že neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí („rank"). • Menší sílu testu je možné vykompenzovat větší velikostí vzorku. • Neparametrické testy: - Wilcoxonův test - jednovýběrový i párovýtest - Znaménkový test-párovýtest - Mannův-Whitneyův test - dvouvýběrový test - Mediánový test-dvouvýběrový test Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ Wilcoxonův test Neparametrická alternativa jednovýběrového i párového t-testu a z-testu. Je testem o mediánu - hypotézy mají tvar: H0 : 5c = c a Hl :x ^ c Princip Wilcoxonova testu: 1. Spočítáme diference všech hodnot xv x2,..., xn od c. 2. Podíváme se, jestli je zhruba Yi diferencí kladných a Yi záporných. (To je ekvivalentní s tím, že zhruba polovina hodnot menších než c a polovina hodnot xv x2,..., xn je větších než c). Je zřejmé, že odlehlé hodnoty nebudou v tomto testu problém, protože nehodnotíme velikost diferencí, ale pouze, zda je zhruba Y^ z nich kladných a Y^ záporných. Janoušová, Dušek: Analýza dat pro neurovědy ^j^- |yj 15 Wilcoxonův test jako párový test )- • Příklad: Chceme srovnat, zda se liší MMSE skóre u pacientů s MCI při vstupu do studie a 2 roky po zahájení studie. • Tzn. hypotézy budou mít tvar: H0 \d = 0 a Hl \d * 0 • Postup: 1. Vykreslení histogramu nové proměnné s rozdíly MMSE skóre, abychom viděli, že u rozdílů není splněn předpoklad normálního rozdělení-> proto použijeme neparametrický test. 2. Aplikujeme statistický test. 3. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 -> zamítáme nulovou hypotézu -> Rozdíl MMSE skóre u pacientů s MCI při vstupu do studie a 2 roky po zahájení studie je statisticky významný. Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ Wilcoxonův test jako jednovýběrový test • Příklad: Chceme zjistit, zda se hodnoty MMSE skóre u 197 pacientů s Alzheimerovou chorobou v našem souboru liší od populačního mediánu 27,5. • Tzn. hypotézy budou mít tvar: H0 : 5c = 27,5 a Hl : 5c ^ 27,5 • Postup: 1. Vykreslíme histogram a spočítáme popisnou statistiku, abychom viděli, že u MMSE skóre u pacientů s AD není splněn předpoklad normálního rozdělení -> proto použijeme neparametrický test. 2. Aplikujeme statistický test (Software STATISTICA neumožňuje počítat jednovýběrový Wilcoxonův test přímo. Lze to však obejít vytvořením nové proměnné, která ve všech řádcích bude mít hodnotu 27,5, a použitím párového Wilcoxonova testu). 3. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 -> zamítáme nulovou hypotézu -> Medián MMSE skóre u pacientů s AD v našem souboru se statisticky významně liší od populačního mediánu. MU Janoušová, Dušek: Analýza dat pro neurovědy ^! Úkol 4 • Zadání: Zjistěte, zda se liší váha u mužů v našem souboru od populačního mediánu 75 kg. • Řešení: 1-1 Pair of Variables Wilcoxon Matched Pairs Test (Data_neuro) Marked tests are significant at p <.05000 Include condition: v8="M" Valid H T Z p-value Weight & weightkonst 4681 51807.00 1.047366 0.294931 Janoušová, Dušek: Analýza dat pro neurovědy ^j^- 18 Mannův-Whitneyův (U) test • Někdy nazýván jako dvouvýběrový Wilcoxonův test. • Neparametrická alternativa dvouvýběrového t-testu. • Testuje se, zda jsou srovnatelné distribuční funkce. • Hypotézy mají tvar: H0 : F(x) = F(ý) a Hx : F(x) * F(y) • Princip Mannova-Whitneyova testu: 1. Všechny hodnoty z obou výběrů dohromady (tedy n1+n2 hodnot) uspořádáme vzestupně podle velikosti -> každé hodnotě přiřadíme pořadí. 2. Spočítáme součet pořadí hodnot prvního výběru a součet pořadí hodnot druhého výběru. 3. Na základě těchto dvou součtů vypočteme testové statistiky. • Je zřejmé, že odlehlé hodnoty nebudou v tomto testu problém, protože pracujeme s pořadími namísto původních hodnot. Janoušová, Dušek: Analýza dat pro neurovědy ^! ^ Mannův-Whitneyův (U) test )- • Příklad: Chceme srovnat, zda se liší objem hipokampu podle pohlaví. • Tzn. hypotézy budou mít tvar: H0 : F(x) = F(y) a Hl : F(x) * F(y) • Postup: 1. Popisná sumarizace objemu hipokampu podle pohlaví. 2. Vykreslení histogramů objemu hipokampu u mužů a u žen, abychom viděli, že není splněn předpoklad normálního rozdělení -> proto použijeme neparametrický test. 3. Aplikujeme statistický test. 4. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 -> zamítáme nulovou hypotézu -> Objem hipokampu je u mužů a u žen statisticky významně odlišný. Janoušová, Dušek: Analýza dat pro neurovědy ^! ^0 Úkol 5. • Zadání: Zjistěte, zda se liší MMSE skóre u kontrolních subjektů a pacientů s AD. • Řešení: Mann-Whitney U Test (Data_neuro_vycistena2) By variable Group_3kat Marked tests are significant at p <,05000 Rank Sum Rank Sum U Z p-value Z p-value Valid N Valid N variable CH AD adjusted CN AD MMSE 71742,50. 19635,50 132,5000 1771653 0,00 17:91596 0,00 230 197 Janoušová, Dušek: Analýza dat pro neurovědy ^! ^1 Poznámka 1 Všechny dosud uvedené testy se zabývají hodnocením spojitých náhodných veličin (mohou nabývat jakýchkoliv hodnot v určitém rozmezí). Příklady: výška, váha, vzdálenost, čas, teplota. Uvedené testy lze ale použít i pro hodnocení diskrétních náhodných veličin - ale musí to být odůvodnitelné (např. velký počet možných hodnot). Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok. Janoušová, Dušek: Analýza dat pro neurovědy ^j^- |yj 22 Poznámka 2 Parametrické a neparametrické testy nemusí vycházet stejně. Důvody: 1. Nesplněné předpoklady parametrického testu. 2. Malá síla neparametrického testu. Jsou-li však splněny předpoklady parametrického testu a je-li dostatek dat, bude to vycházet stejně. Měli bychom preferovat parametrické testy, ALE pouze po důkladném ověření jejich předpokladů! Janoušová, Dušek: Analýza dat pro neurovědy ^j^- |yj 23 Úkol 6. * Zadání: Chceme ověřit, zda se liší objem jednotlivých mozkových struktur podle pohlaví. Vykreslete histogramy a rozmyslete si, jaký test (jaké testy) byste použili. Janoušová, Dušek: Analýza dat pro neurovědy ^j^- |yj 24 Poděkování.. Příprava výukových materiálů předmětu „DSAN01 Analýza dat pro Neurovědy " byla finančně podporována prostředky projektu FRVŠ č. 942/2013 „Inovace materiálů pro interaktivní výuku a samostudium předmětu Analýza dat pro Neurovědy" FOND ROZVOJE VYSOKÝCH ŠKOL Janoušová, Dušek: Analýza dat pro neurovědy