Přednáška 6 Pojmy z oblasti statistického testování Typy testů Normalita dat a její význam pro testování Institut biostatistiky a analýz, PřF a LF MU Parametrické vs. neparametrické testy • Parametrické testy • Mají předpoklady o rozložení vstupujících dat (např. normální rozložení) • Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické • Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný • Neparametrické testy • Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení • Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí Institut biostatistiky a analýz, PřF a LF MU Problémy parametrických a neparametrických testů Parametrické testy • Reálná data neodpovídají modelovému rozdělení 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 55000 Neparametrické testy • Díky převodu dat na pořadí ztrácíme část informace 40 50 60 70 80 90 100 110 120 V původních datech vidíme „mezeru“ mezi skupinami Po převodu na pořadí o tuto informaci přicházíme. Institut biostatistiky a analýz, PřF a LF MU Jednovýběrové a dvouvýběrové testy • Jednovýběrové testy (one-sample) • Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční hodnotou (popřípadě se statistickým parametrem cílové populace) • V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace) • Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek • Dvouvýběrové testy (two-sample) • Srovnávají navzájem dva vzorky (two sample, dvouvýběrové testy) • V testu jsou srovnávány dvě rozložení hodnot • Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek • Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat Institut biostatistiky a analýz, PřF a LF MU Jednostranné a oboustranné hypotézy • Jednostranné testy (one–tailed) • Hypotéza testu je postavena asymetricky, tedy ptáme se na větší než/ menší než • Test může mít pouze dvojí výstup – jedna z hodnot je větší (menší) než druhá a všechny ostatní případy • Pouze v případě jasné hypotézy – jinak může být napadnuto za účelovost (při vhodném výběru směru testování snažší potvrzení významnosti) • Oboustranné testy (two–tailed) • Hypotéza testu se ptá na otázku rovná se/nerovná se • Test může mít trojí výstup – menší - rovná se – větší než • Situace nerovná se je tedy souhrnem dvou možných výstupů testu (menší+větší) • Významově neutrální Kritický obor (0.05) Kritický obor (0.025+0.025=0.05) Institut biostatistiky a analýz, PřF a LF MU Nepárový vs. párový design • Nepárový design • Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých zemí, nezávislé skupiny pacientů s odlišnou léčbou atd. • Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat • Párový design • Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd. • Vazba může být buď přímo dána nebo pouze předpokládána (v tom případě je nutné ji ověřit) • Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich původních datech Institut biostatistiky a analýz, PřF a LF MU Důležité poznámky k testování hypotéz • Nezamítnutí nulové hypotézy neznamená automaticky její přijetí! Může se jednat o situaci, kdy pro zamítnutí nulové hypotézy nemáme dostatečné množství informace. • Dosažená hladina významnosti testu (ať už 5 %, 1 % nebo 10 %) nesmí být slepě brána jako hranice pro existenci / neexistenci testovaného efektu. • Malá p-hodnota nemusí znamenat velký efekt. Hodnota testové statistiky a p-hodnota mohou být ovlivněny velkou velikostí vzorku a malou variabilitou pozorovaných dat. • Na výsledky testování musí být nahlíženo kriticky – jedná se o závěr založeny „pouze“ na jednom výběrovém souboru. • Statistická významnost indikuje, že pozorovaný rozdíl není náhodný, ale nemusí znamenat, že je významný i ve skutečnosti. Důležitá je i praktická (klinická) významnost. Institut biostatistiky a analýz, PřF a LF MU Statistické testy a normalita • Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) – např. t-testy • Obecně lze říci, že každá statistická metoda, v jejímž algoritmu je obsažen výpočet průměru nebo směrodatné odchylky má předpoklad normálního rozložení • Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (trozložení) a test tak může lhát • Řešením je tedy: • Transformace dat za účelem dosažení normality jejich rozložení • Neparametrické testy – tyto testy nemají předpoklady o rozložení dat (nebo jen minimální) Typ srovnání Parametrický test Neparametrický test 2 skupiny dat nepárově: Nepárový t-test Mannův-Whitneyho test 2 skupiny dat párově: Párový t-test Wilcoxonův test, znaménkový test Více skupin nepárově: ANOVA (analýza rozptylu) Kruskalův- Wallisův test Korelace: Pearsonův koeficient Spearmanův koeficient Institut biostatistiky a analýz, PřF a LF MU Testy normality • Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí. Chí-kvadrát test dobré shody • V testu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního rozložení jsou k nim dopočítány očekávané hodnoty v intervalech, pokud by rozložení bylo normální. Pozorované normalizované četnosti jsou poté srovnány s očekávanými četnostmi pomocí χ2 testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit dostatečný počet tříd hodnot. Kolmogorovův - Smirnovův test • Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by být počítán pouze v případě, že známe průměr a směrodatnou odchylku hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace – Lilieforsův test. Shapirův-Wilkův test • Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování symetrie. 145 155 165 175 185 195 205 215 0 50 100 150 200 250 Institut biostatistiky a analýz, PřF a LF MU Šikmost a špičatost jako testy normality • Parametry normálního rozdělení, skewness a kurtosis mohou být využity pro testování normality, ale pouze pro velké vzorky (šikmost – 100, špičatost – 500). Institut biostatistiky a analýz, PřF a LF MU Vizuální hodnocení normality I 65 75 85 95 105 115 125 135 0 5 10 15 20 25 30 35 40 45 -200 400 1000 1600 2200 0 20 40 60 80 100 120 140 ČetnostČetnost 65 75 85 95 105 115 125 135 -3 -2 -1 0 1 2 3 -200 400 1000 1600 2200 -3 -2 -1 0 1 2 3 Hodnota proměnné Hodnota proměnné Očekávanáhodnotanormálního rodělení Očekávanáhodnotanormálního rodělení Histogram P-P plot NormálnírozděleníNenormálnírozdělení 65 75 85 95 105 115 125 135 Hodnotaproměnné Krabicový graf 0 100 200 300 400 500 600 700 Hodnotaproměnné medián 25-75 percentil 5-95 percentil Institut biostatistiky a analýz, PřF a LF MU Vizuální hodnocení normality II • Pouze výměna os • Znázorněn pozorovaný a teoretický kvantil ??? • Vykresleno kumulativní rozdělení PAMATUJ: Pocházejí-li data z normálního rozložení, pak body budou ležet okolo přímky Institut biostatistiky a analýz, PřF a LF MU Vizuální hodnocení normality III Výukové materiály: Výpočetní statistika, RNDr. Marie Budíková, Dr., 2011 Rozložení s kladnou šikmostí Normální rozložení Rozložení se zápornou šikmostí Histogram -0,4 0,0 0,4 0,8 1,2 1,6 2,0 2,4 0 5 10 15 20 25 30 35 Histogram -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 0 2 4 6 8 10 12 14 16 18 20 22 Histogram -0,6 -0,2 0,2 0,6 1,0 1,4 1,8 2,2 0 5 10 15 20 25 30 35 NP plot -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 -3 -2 -1 0 1 2 3 NP plot -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 NP plot -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 -3 -2 -1 0 1 2 3 Krabicový diagram -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 Krabicový diagram -3 -2 -1 0 1 2 3 Krabicový diagram -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 Konkávní křivka Konvexní křivka Parametrické jednovýběrové statistické testy Jednovýběrový t-test Jednovýběrový test rozptylu Institut biostatistiky a analýz, PřF a LF MU Anotace • Jednovýběrové statistické testy srovnávají některou popisnou statistiku vzorku (průměr, směrodatnou odchylku) s jediným číslem, jehož význam je ze statistické hlediska hodnota cílové populace • Z hlediska statistické teorie jde o ověření, zda daný vzorek pochází z testované cílové populace. Institut biostatistiky a analýz, PřF a LF MU Shrnutí statistických testů Typ srovnání Nulová hypotéza Parametrický test Neparametrický test 1 výběr dat vs. referenční hodnota Střední hodnota je rovna zvolené referenční hodnotě. jednovýběrový t-test / z-test Jednovýběrový Wilcoxonův test 2 nezávislé skupiny dat (test shody středních hodnot) Střední hodnoty se mezi skupinami neliší. nepárový t-test Mannův-Whitneyho test 2 nezávislé skupin dat (test shody rozptylů = homoskedasticity) Rozptyl obou skupin je shodný. F-test Levenův test 2 párově závislé výběry dat Rozdíl (diference) párových hodnot je nulový. párový t-test Wilcoxonův test; znaménkový test Shoda rozdělení výběru s teoretickým rozdělením Rozdělení dat odpovídá teoretickému (vybranému) rozdělení. test dobré shody (χ2 test) Shapirův-Wilkův test; KolmogorovůvSmirnovův test; Lilieforsův test 3 a více skupin nepárově (test shody středních hodnot) Střední hodnoty se mezi skupinami neliší. ANOVA Kruskalův-Wallisův test Korelace Neexistuje vztah mezi hodnotami dvou výběrů. Pearsonův korelační koeficient Spearmanův korelační koeficient Institut biostatistiky a analýz, PřF a LF MU Základní rozhodování o výběru statistických testů Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýběrový t-test Párový t-test Dvouvýběrový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Jednovýběrový Wilcoxonův test Wilcoxonův / znaménkový test Mannův- Whitneyho test KruskalůvWallisův test Jednovýběrový binomický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Institut biostatistiky a analýz, PřF a LF MU Parametrické jednovýběrové testy • Předpoklad: normalita dat • Jednovýběrový z-test (porovnání základního a výběrového souboru, známe střední hodnotu a rozptyl základního souboru) • Studentův jednovýběrový t-test (testování rozdílů dvou středních hodnot) (porovnání základního a výběrového souboru, známe střední hodnotu ale neznáme rozptyl základního souboru; nahrazujeme jej výběrovým rozptylem našich dat) • Chi-kvadrát test (testování rozdílu cílová vs. výběrová populace) Institut biostatistiky a analýz, PřF a LF MU Jednovýběrový z a t test • V případě jednovýběrových testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení. • Rozdíl mezi jednovýběrovým z-testem a t-testem spočívá ve znalosti rozptylu základního souboru (z-test) nebo jeho nahrazení výběrovým rozptylem našich dat (t-test) 𝑡 = ҧ𝑥 − 𝜇 𝑠 𝑁 𝑧 = ҧ𝑥 − 𝜇 𝜌 𝑁 t-test: z-test: H0 HA Testová statistika Kritická hodnota ҧ𝑥 ≤ 𝜇 ҧ𝑥 > 𝜇 z / t 𝑧 > 𝑧1−𝛼 / 𝑡 > 𝑡1−𝛼 𝑁−1 ҧ𝑥 ≥ 𝜇 ҧ𝑥 < 𝜇 z / t 𝑧 < 𝑧 𝛼 / 𝑡 < 𝑡 𝛼 𝑁−1 ҧ𝑥 = 𝜇 ҧ𝑥 ≠ 𝜇 z / t 𝑧 > 𝑧1− ൗ𝛼 2 / 𝑡 > 𝑡1− ൗ𝛼 2 𝑁−1 Institut biostatistiky a analýz, PřF a LF MU Příklad: z-test pro jeden výběr 1 • Při populačním epidemiologickém průzkumu se zjistilo, že průměrný objem prostaty u mužů je 32,73 ml (SD = 18,12 ml). • Na hladině významnosti testu α = 0,05 chceme ověřit, jestli se muži nad 70 let liší od celé populace. • Máme náhodný výběr o velikosti n = 100 a výběrový průměr 36,60 ml. • Chceme ověřit platnost: • H0:  = 32,73 • HA:  ≠ 32,73 z0,025 = -1,96 z0,050 = -1,64 1,96 = z0,975 1,64 = z0,950 z0,005 = -2,58 2,58 = z0,995 1 - α α / 2α / 2 90 % 95 % 99 % Institut biostatistiky a analýz, PřF a LF MU Příklad: z-test pro jeden výběr 2 • Hodnota testové statistiky: • Můžeme zamítnout nulovou hypotézu na hladině významnosti testu α = 0,05 nebo ne? • Nulovou hypotézu o rovnosti objemu prostaty u mužů nad 70 let populační hodnotě 32,73 ml zamítáme na hladině významnosti α = 0,05, protože výsledná hodnota z statistiky je větší než kritická hodnota (příslušný kvantil) rozdělení N(0,1). α / 2α / 2 2,5 %2,5 % 95 % z statistika 𝑧 = ҧ𝑥 − 𝜇 𝜌 𝑁 = 36,60 − 32,73 18,12 100 = 2,14 𝑧 = 2,14 > 1,96 𝑧1− ൗ𝛼 2 = 𝑧0,975 Institut biostatistiky a analýz, PřF a LF MU Příklad: t-test pro jeden výběr • Určitá linka autobusové městské dopravy má v době dopravní špičky průměrnou rychlost 8 km/hod. Uvažovalo se o tom, zda změna trasy by vedla ke změně průměrné rychlosti. Nová trasa byla proto projeta v deseti náhodně vybraných dnech a byly zjištěny tyto průměrné rychlosti: 8,4; 7,9; 9,0; 7,8; 8,0; 7,8; 8,5; 8,2; 8,2; 9,3. Rozhodněte, zda změna trasy vede ke změně průměrné rychlosti. Předpokládáme normální rozdělení a α=0,05. • Postup: 1. Na hladině významnosti 0,05 testujeme hypotézu H0:  = 8, proti HA:  ≠ 8 2. Vypočteme aritmetický průměr a rozptyl výběrového souboru. 3. Vypočteme testovou statistiku t: 4. Vypočtené t porovnáme s kritickou hodnotou: 5. Je-li 𝑡 ≤ 𝑡1− Τ𝛼 2 𝑁−1 - > statisticky nevýznamný rozdíl testovaných parametrů při zvolené α; nulovou hypotézu nezamítáme, na hladině významnosti α=0,05 se nepodařilo prokázat, že by změna trasy měla za následek změnu průměrné rychlosti. 𝑡 = ҧ𝑥 − 𝜇 𝑠 𝑁 = 8,310 − 8 0,507 10 = 1,934 𝑡1− ൗ𝛼 2 𝑁−1 = 𝑡0,975 9 = 2,262 Institut biostatistiky a analýz, PřF a LF MU Typické výstupy SW (Statistica, v jiných obdobné) Výběrový průměr (průměr pozorovaných dat) Výběrová směrodatná odchylka (pozorovaných dat) Rozsah výběru Standardní chyba Referenční konstanta-předpokládaná velikost střední hodnoty Hodnota testovacího kritéria Stupeň volnosti POZOR: Platí pro oboustranný test!!! Institut biostatistiky a analýz, PřF a LF MU Příklad k řešení: t-test 1 Data - koncentrace antibiotika v cílovém orgánu • Při 1000 měřeních antibiotika byla zjištěna v cílovém orgánu průměrná koncentrace 202,5 jednotek a směrodatná odchylka 44 jednotek. • Požadovaná koncentrace antibiotika je 200 jednotek. Výzkumné otázky 1. Je daný rozdíl 2,5 významný vzhledem k variabilitě znaku na hladině významnosti 5%? 2. Jaká je skutečná hladina významnosti? Institut biostatistiky a analýz, PřF a LF MU Příklad k řešení: t-test 1 Data - koncentrace antibiotika v cílovém orgánu • Při 1000 měřeních antibiotika byla zjištěna v cílovém orgánu průměrná koncentrace 202,5 jednotek a směrodatná odchylka 44 jednotek. • Požadovaná koncentrace antibiotika je 200 jednotek. Výzkumné otázky 1. Je daný rozdíl 2,5 významný vzhledem k variabilitě znaku na hladině významnosti 5%? 2. Jaká je skutečná hladina významnosti? 𝑡 = ҧ𝑥 − 𝜇 𝑠 𝑁 = 202,5 − 200 44 1000 = 1,797 Institut biostatistiky a analýz, PřF a LF MU Příklad k řešení: t-test 1 Výzkumné otázky 1. Je daný rozdíl 2,5 významný vzhledem k variabilitě znaku na hladině významnosti 5%? • Nulovou hypotézu nezamítáme 2. Jaká je skutečná hladina významnosti? • p = 2*(1-0,4641)=0,072 𝑡 = ҧ𝑥 − 𝜇 𝑠 𝑁 = 202,5 − 200 44 1000 = 1,797~1,8 𝑡1− ൗ𝛼 2 𝑁−1 = 𝑡0,975 999 = 1,960 Institut biostatistiky a analýz, PřF a LF MU Příklad k řešení: t-test 2 Data - aktivita enzymu v buňkách • Při zjišťování aktivity enzymu v buňkách na vzorku 25 měření byl zjištěn průměr 3,5 jednotek a směrodatná odchylka 1. Výzkumné otázky 1. otázka zní, zda se naměřené hodnoty našeho vzorku liší od výsledků dřívější rozsáhlé studie zaměřené na celou cílovou populaci, kde byla zjištěna průměrná aktivita 2,5 jednotky? 2. otázka – jakou minimální odchylku X od jiné hodnoty bychom zachytili při daných hodnotách? 3. za předpokladu, že z praktického hlediska je významná odchylka již 0,2 jednotky, jaký minimální počet měření musíme provést, abychom ji byli schopni prokázat ? Institut biostatistiky a analýz, PřF a LF MU Příklad k řešení: t-test 2 Data - aktivita enzymu v buňkách • Při zjišťování aktivity enzymu v buňkách na vzorku 25 měření byl zjištěn průměr 3,5 jednotek a směrodatná odchylka 1. Výzkumné otázky 1. otázka zní, zda se naměřené hodnoty našeho vzorku liší od výsledků dřívější rozsáhlé studie zaměřené na celou cílovou populaci, kde byla zjištěna průměrná aktivita 2,5 jednotky? 525 1 5,25,3 = − = − = n s x t  064,224 975,0 =t 24 2/1 − tt H0 zamítnuta při 0,05 Institut biostatistiky a analýz, PřF a LF MU Příklad k řešení: t-test 2 Data - aktivita enzymu v buňkách • Při zjišťování aktivity enzymu v buňkách na vzorku 25 měření byl zjištěn průměr 3,5 jednotek a směrodatná odchylka 1. Výzkumné otázky 2. otázka – jakou minimální odchylku X od jiné hodnoty bychom zachytili při daných hodnotách? n s d n s x t = − =  ➔ s n t d   2/1− = ➔ 1 5 064,2 =d Institut biostatistiky a analýz, PřF a LF MU Příklad k řešení: t-test 2 Data - aktivita enzymu v buňkách • Při zjišťování aktivity enzymu v buňkách na vzorku 25 měření byl zjištěn průměr 3,5 jednotek a směrodatná odchylka 1. Výzkumné otázky 3. za předpokladu, že z praktického hlediska je významná odchylka již 0,2 jednotky, jaký minimální počet měření musíme provést, abychom ji byli schopni prokázat ? n s d n s x t = − =  ➔ 2 2/1       = − s d t n   Institut biostatistiky a analýz, PřF a LF MU Jednovýběrový test pro rozptyl • V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení. 𝜒2 = 𝑁 − 1 𝑠2 𝜎2 Chi-kvadrát test: H0 HA Testová statistika Kritická hodnota 𝑠2 ≤ 𝜎2 𝑠2 > 𝜎2 𝜒2 𝜒2 > 𝜒1−𝛼 2 (𝑁−1) 𝑠2 ≥ 𝜎2 𝑠2 < 𝜎2 𝜒2 𝜒2 < 𝜒 𝛼 2 (𝑁−1) 𝑠2 = 𝜎2 𝑠2 ≠ 𝜎2 𝜒2 𝜒2 > 𝜒1− ൗ𝛼 2 2 (𝑁−1) 𝑛𝑒𝑏𝑜𝜒2 < 𝜒 ൗ𝛼 2 2 (𝑁−1) Neparametrické jednovýběrové statistické testy Jednovýběrový t-test Jednovýběrový test rozptylu Institut biostatistiky a analýz, PřF a LF MU Parametrické vs. neparametrické testy Parametrické testy • Mají předpoklady o rozložení vstupujících dat (např. normální rozložení) • Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické • Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný Neparametrické testy • Vyžadují méně předpokladů o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení • Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí • Souvisí s malou velikostí souboru (nejsme schopni normalitu dat ověřit) Proč nemusí parametrický a neparametrický test vyjít stejně? Institut biostatistiky a analýz, PřF a LF MU Jednovýběrový Wilcoxonův test • Předpokladem je symetrické rozdělení dat kolem mediánu. • Testuje, zda je medián jednoho výběru roven hodnotě c (v případě párového designu je x0.5 reprezentováno mediánem rozdílu hodnot) H0: x0.5=c proti H1: x0.5≠ c. Postup: 1. Spočítáme rozdíly hodnot výběru s testovanou hodnotou mediánu. 2. Absolutní hodnoty rozdílů uspořádáme vzestupně a přiřadíme jim pořadí. 3. Spočítáme statistiky Sw + a Sw -, které odpovídají součtu pořadí kladných (Sw +) a záporných rozdílů (Sw -). Jako finální hodnotu testové statistiky bereme minimum z Sw + a Sw -. Nulovou hypotézu zamítáme, pokud hodnota testové statistiky menší nebo rovna tabelované kritické hodnotě (při dané hladině významnosti a počtu nenulových rozdílů). nebo 3. Pro N > 30 lze využít asymptotické normality statistiky Sw + • Pokud |Z|≥ u1-α/2 zamítáme nulovou hypotézu, že medián výběru je roven hodnotě c. 4 )1( )( + =+ nn SE w 24 )12)(1( )( ++ =+ nnn SD w )1,0( )( )( N SD SES Z w ww  + +−+ = Institut biostatistiky a analýz, PřF a LF MU Jednovýběrový znaménkový test • Lze použít v situaci, kdy není splněn předpoklad symetrie rozdělení kolem mediánu. • Testuje, zda je medián jednoho výběru roven hodnotě c (v případě párového designu je x0.5 reprezentováno mediánem rozdílu hodnot) H0: x0.5=c proti H1: x0.5≠ c. Postup: 1. Spočítáme rozdíly hodnot výběru s testovanou hodnotou mediánu. 2. Spočítáme statistiku Sz +, která odpovídá počtu kladných rozdílů → test nevyužívá hodnot pořadí původních dat ale pouze informaci, zda se hodnota realizuje nad nebo pod mediánem → dochází ke snížení síly testu 3. Nulovou hypotézu zamítáme, pokud statistika Sz + realizuje v kritickém oboru hodnot W=(0,k1)U(k2,n), kde n odpovídá počtu nenulový rozdílů a hodnoty k1 a k2 lze dohledat v matematických tabulkách. • nebo 3. Pro N > 20 lze využít asymptotické normality statistiky Sz +. Pokud |Z|≥ u1-α/2 zamítáme nulovou hypotézu, že medián výběru je roven hodnotě c. 2 )( n SE z =+ 4 )( n SD z =+ )1,0( )( )( N SD SES Z z zz  + +−+ = Institut biostatistiky a analýz, PřF a LF MU Příklad: jednovýběrový test • U 15 náhodně vybraných pacientů byla vyhodnocena doba, kterou museli strávit v čekárně, než byli sestrou pozváni do ordinace. Na 5% hladině významnosti testujte nulovou hypotézu, že medián čekací doby je roven půl hodině. Institut biostatistiky a analýz, PřF a LF MU Příklad: jednovýběrový test – Wilcoxonův test • U 15 náhodně vybraných pacientů byla vyhodnocena doba, kterou museli strávit v čekárně, než byli sestrou pozváni do ordinace. Na 5% hladině významnosti testujte nulovou hypotézu, že medián čekací doby je roven půl hodině. Pacient č. čekací doba (min) medián rozdíl |rozdíl| pořadí 1 1 30 -29 29 15 2 45 30 15 15 10 3 25 30 -5 5 3.5 4 15 30 -15 15 10 5 34 30 4 4 2 6 19 30 -11 11 8 7 31 30 1 1 1 8 25 30 -5 5 3.5 9 8 30 -22 22 14 10 12 30 -18 18 12 11 20 30 -10 10 6 12 15 30 -15 15 10 13 40 30 10 10 6 14 20 30 -10 10 6 15 10 30 -20 20 13 Sw +=19 Sw -=101 min (Sw +,Sw -)=19 Kritická hodnota w15(0,05)=25 Hodnota testové statiky je menší než kritická hodnota → zamítáme H0 Institut biostatistiky a analýz, PřF a LF MU Příklad: jednovýběrový test – Znaménkový test • U 15 náhodně vybraných pacientů byla vyhodnocena doba, kterou museli strávit v čekárně, než byli sestrou pozváni do ordinace. Na 5% hladině významnosti testujte nulovou hypotézu, že medián čekací doby je roven půl hodině. Pacient č. čekací doba (min) medián rozdíl Větší než medián? 1 1 30 -29 Ne 2 45 30 15 Ano 3 25 30 -5 Ne 4 15 30 -15 Ne 5 34 30 4 Ano 6 19 30 -11 Ne 7 31 30 1 Ano 8 25 30 -5 Ne 9 8 30 -22 Ne 10 12 30 -18 Ne 11 20 30 -10 Ne 12 15 30 -15 Ne 13 40 30 10 Ano 14 20 30 -10 Ne 15 10 30 -20 Ne Sz +=4 Kritický obor: W=(0,3)U(12,15) Hodnota statistiky se realizuje mimo kritický obor hodnot → nezamítáme H0 Institut biostatistiky a analýz, PřF a LF MU Příklad: Řešení v softwaru Počet nenulových rozdílů Testová statistika: min (Sw +,Sw -) Statistika a p-hodnota pro asymptotickou variantu testu (používat pouze pro N > 30) Počet nenulových rozdílů Podíl hodnot menších než testovaný medián Statistika a p-hodnota pro asymptotickou variantu testu (používat pouze pro N > 20) 1) Výstup Wilcoxonova testu 2) Výstup znaménkového testu Institut biostatistiky a analýz, PřF a LF MU Schéma při testování pomocí jednovýběrových testů Data Normální rozdělení? Vizuální ověření normality Histogram, Q-Q graf, P-P graf, N-P graf, krabicový graf Testové ověření normality S-W test, K-S test, Lilieforsův test NE ANO Logaritmická transformace Normální rozdělení? NE ANO Jednovýběrový Wilcoxonův test na původních datech Jednovýběrový t-test / z-test na transformovaných datech Jednovýběrový t-test / z-test Opakování Parametrické testy Neparametrické testy Parametrické dvouvýběrové statistické testy Dvouvýběrový nepárový t-test Dvouvýběrový párový t-test Institut biostatistiky a analýz, PřF a LF MU Anotace • Jedním z nejčastějších úkolů statistické analýzy dat je srovnání spojitých dat ve dvou skupinách pacientů. • Na výběr je celá škála testů, výběr konkrétního testu se pak odvíjí od toho, zda je o srovnání párové nebo nepárové a zda je vhodné použít test parametrický (má předpoklady o rozložení dat) nebo neparametrický (nemá předpoklady o rozložení dat, nicméně má nižší vypovídací sílu). • Nejznámějšími testy z této skupiny jsou tzv. t-testy používané pro srovnání průměrů dvou skupin hodnot Institut biostatistiky a analýz, PřF a LF MU Dvouvýběrové testy: párové a nepárové I • Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové. • Základním testem pro srovnání dvou nezávislých rozložení spojitých čísel je nepárový two-sample t-test • Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two-sample t- test Institut biostatistiky a analýz, PřF a LF MU Dvouvýběrové testy: párové a nepárové II Data Nezávislé uspořádání Párové uspořádání ………. ………. ………. X1 X2 X1- X2 = D ………. ………. X1 X2 Design uspořádání zásadně ovlivňuje interpretaci parametrů 2 Ds D n 0D:H0 = (n = n2 = n1) 210 μμ:H = 2 1 2 1 s x n 2 2 2 2 s x n Institut biostatistiky a analýz, PřF a LF MU Dvouvýběrové testy: párové a nepárové III • Identifikace párovitosti (Korelace, Kovariance) ………. ………. X1 X2 X1 X2 X1 X2 r = 0,954 (p < 0,001) r = 0,218 (p < 0,812) Institut biostatistiky a analýz, PřF a LF MU Předpoklady nepárového dvouvýběrového t-testu • Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací • Nezávislost obou srovnávaných vzorků • Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality • Rozptyl v obou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy – Levenův test nebo F-test. • Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické srovnání a ověření předpokladů normality a homogenity rozptylu – nenahradí statistické testy, ale poskytne prvotní představu. 0 (x) μ | | | • • | | • • X Varianta 1 Varianta 2 Institut biostatistiky a analýz, PřF a LF MU Nepárový dvouvýběrový t-test – výpočet I • nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test • prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita rozptylu, provést F –test • F-test pro srovnání dvou výběrových rozptylů • Používá se pro srovnání rozptylu dvou skupin hodnot, často za účelem ověření homogenity rozptylu těchto skupin dat. • V případě ověření homogenity je testována hypotéza shody rozptylů (two tailed); v případě shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu ttestu, v opačném případě není vhodné test počítat. H0 HA Testová statistika 2 2 2 1   2 2 2 1   2 2 2 1   2 2 2 1   2 2 2 1  = 2 2 2 1   2 2 2 1 s s F = 2 1 2 2 s s F = ( ) ( )2 2 2 1 2 2 2 1 ;min ;max ss ss F = Institut biostatistiky a analýz, PřF a LF MU Nepárový dvouvýběrový t-test – výpočet II • Výpočet testové statistiky (stupně volnosti jsou ): • výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a (obvykle =0,05) • Lze spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%), počet stupňů volnosti a s2 odpovídají předchozím vzorcům 221 −+= nn ( ) ( ) 2 11 21 2 22 2 112 −+ −+− = nn snsn s vážený odhad rozptylu       + − == 21 2 21 11)( _ nn s xx ěrůrozdílprůoSE průrůměRozdíl t 2 1 2 0,975 1 2 1 2 0,975 1 2 1 1 ( ) ( ) ( )x x t SE x x x x t s n n   −  − = −  +    Institut biostatistiky a analýz, PřF a LF MU Nepárový dvouvýběrový t-test – výpočet shrnutí • Nulová hypotéza: průměry obou skupin jsou shodné • Alternativní hypotéza je, že nejsou shodné. • Prohlédnout průběh dat, průměr, medián apod. • Ověřit normalitu dat (např. Shapiro-Wilk test) • Ověřit homogenitu rozptylů (F-test) • V případě ověření homogenity je testována hypotéza shody rozptylů; v případě shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě není vhodné test počítat. • Vypočítat hodnotu testové statistiky a p-hodnotu. Když je vypočítaná p-hodnota menší než 0,05, zamítáme nulovou hypotézu.