VII. DVOJ VÝBEROVÉ TESTY Anotace •Jedným z najčastejších úloh štatistickej analýzy dát je porovnanie spojitých dát vo dvoch skupinách pacientov. Na výber je celá škála testov, výber konkrétneho testu sa potom odvíja od toho, či ide o porovnanie párové alebo nepárové a či je vhodné použiť test parametrický (má predpoklady o rozložení dát) alebo neparametrický (nemá predpoklady o rozložení dát, ale má nižšiu vypovedaciu silu). •Najznámejšími testami z tejto skupiny sú tzv. t-testy používané na porovnanie priemerov dvoch skupín hodnôt Nepárový vs. párový design •NEPÁROVÝ DESIGN •Skupiny porovnávaných dát sú na sebe úplne nezávislé (tiež nezávislý, independent design), napr. Ľudia z rôznych zemí, nezávislé skupiny pacientov s odlišnou liečbou atď. •Pri výpočte je nevyhnutné brať v úvahu charakteristiky oboch skupín dát •PÁROVÝ DESIGN •Medzi objektami v porovnávaných skupinách existuje väzba, daná napr. človekom pred a po operácii, reakcie rovnakého kmeňa krýs atď. •Väzba môže byť buď priamo daná alebo len predpokladaná (v tom prípade je nutné ju overiť) •Test je v podstate uskutočňovaný na diferenciach skupín, nie na ich pôvodných dátach • Typ srovnání Parametrický test Neparametrický test 2 skupiny dat nepárově: Nepárový t-test Mann Whitney test 2 skupiny dat párově: Párový t-test Wilcoxon test, znaménkový test Více skupin nepárově: ANOVA Kruskal- Wallis test Korelace: Pearsonův koeficient Spearmanův koeficient Dvojvýberové testy: párové a nepárové I •Pri použití two sample testov porovnávame spolu dve rozloženia. Ich základným delením je podľa designu experimentu na testy párové a nepárové. Základným testom na porovnávanie dvoch nezávislých rozložení spojitých čísel je nepárový two-sample t-test Základným testom na porovnanie dvoch závislých rozložení spojitých čísel je párový two-sample t-test Dvojvýberové testy: párové a nepárové II Dáta Nezávislé usporiadanie Párové usporiadanie X1 X2 X1- X2 = D X1 X2 Design usporiadania zásadne ovplyvňuje interpretáciu parametrov (n = n2 = n1) Identifikácia párovitosti (Korelácia, Kovariancia) X1 X2 X1 X2 X1 X2 r = 0,954 (p < 0,001) r = 0,218 (p < 0,812) Dvojvýberové testy: párové a nepárové III Predpoklady nepárového dvojvýberového t-testu •Náhodný výber subjektov jednotlivých skupín z ich cieľových populácií •Nezávislosť oboch porovnávaných vzoriek •Približne normálne rozloženie premennej vo vzorkách, drobné odchýlky od normality však nie sú kritické, test je robustný proti drobným odchýlkam od tohto predpokladu, normalita môže byť testovaná testami normality •Rozptyl v oboch vzorkách by mal byť približne zhodný (homoscedastic). Tento predpoklad je testovaný niekoľkými možnými testami – Levenov test alebo F-test. •Vždy je vhodné prezrieť si histogramy premennej v jednotlivých vzorkách pre okometrické porovnanie a overenie predpokladov normality a homogenity rozptylu – nenahradí štatistické testy, ale poskytne prvotnú predstavu. • 0 j(x) μ | Nepárový dvojvýberový t-test – výpočet I 1.nulová hypotéza: priemery oboch skupín sú zhodné, alternatívna hypotéza je, že nie sú zhodné, two tailed test 2.prezrieť priebeh dát, priemer, medián apod. pre zistenie odchýlok od normality a nehomogenitu rozptylu, uskutočniť F –test 3. F-test na porovnanie dvoch výberových rozptylov Používa sa na porovnanie rozptylu dvoch skupín hodnôt, často za účelom overenia homogenity rozptylu týchto skupín dát. V prípade overenia homogenity je testovaná hypotéza zhody rozptylov (two tailed); v prípade zhodných rozptylov je všetko v poriadku a je možné pokračovať vo výpočte t-testu, v opačnom prípade nie je vhodné test počítať. H0 HA Testová štatistika Nepárový dvojvýberový t-test – výpočet II 3.Výpočet testovej štatistiky (stupne voľnosti sú ): 4. 4. 4. • 4.výsledné t porovnávame s tabuľkovou hodnotou t pre dané stupne voľnosti a a (obvykle a=0,05) 5.Je možné spočítať interval spoľahlivosti pre rozdiel priemerov (napr. 95%), počet stupňov voľnosti a s2 zodpovedajú predchádzajúcim vzorcom 6. • vážený odhad rozptylov Dvojvýberový t-test - príklad •Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy. Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí. •Vlastní experiment byl prováděn tak, že na začátku máme 54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně rozdělíme do dvou skupin (náhodné rozdělování objektů do pokusných skupin je objektem celého specializovaného odvětví statistiky nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t-testu. Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a homogenitu rozptylu, kromě okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity rozptylu pak F-test •Pokud platí všechny předpoklady Two sample nepárového t-testu, můžeme spočítat testovou charakteristiku, výsledné t je 2,43 s 52 stupni volnosti, podle tabulek je a t0,975 (52)= 2,01, tedy t> t0,975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou. • • • • •Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje 0 je dalším potvrzením, že mezi skupinami je významný rozdíl – jde o další způsob testování významnosti rozdílů mezi skupinami dat – nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0). Neparametrické alternatívy nepárového t-testu •Mann Whitney U-test •Rovnako ako rada iných neparametrických testov počíta i tento test s poradím dát v súboroch namiesto s originálnymi dátami. Ide o neparametrickú obdobu nepárového t-testu a z týchto neparametrických testov má najvyššiu silu testu (95% párového t-testu). •V prípade Mann-Whitney testu sú najskôr čísla oboch súborov zlúčené a je vytvorené ich poradie v tomto zlúčenom súbore, potom sú hodnoty vrátené do pôvodných súborov a naďalej sa pracuje už len s ich poradím. •Pre obidva súbory je teda vytvorený súčet poradí a menší z oboch súčtov je porovnaný s kritickou hodnotou testu, pokiaľ je táto hodnota menšia než kritická hodnota testu, zamietame nulovú hypotézu zhody distribučných funkcií oboch skupín. •Podobným spôsobom je počítaný i •Wilcoxon rank sum test •(pozor, existuje ešte •Wilcoxnov párový test!!!) X1 X2 ALL Rank ALL X1 rank X2 rank 27 25 25 5 6 5 35 29 29 7,5 11 7,5 38 31 31 9 13 9 37 23 23 4 12 4 39 18 18 2 14 2 29 17 17 1 7,5 1 41 32 32 10 15 10 19 19 3 3 27 6 35 11 38 13 37 12 39 14 29 7,5 41 15 • • • • • Mann – Whitney U test - príklad •17 štěňat bylo trénováno v chození na záchod metodou pozitivního posilování (pochvala, když jde na záchod venku) nebo negativního (trest, když jde na záchod doma). Jako parametr bylo měřeno, za kolik dní je štěně vycvičeno. •nulová hypotéza je, že není rozdíl v metodách tréninku, tedy, že oběma metodami je štěně vycvičeno za stejnou dobu. •po srovnání rozložení + malý počet hodnot je vhodné použít neparametrický test •je vytvořeno pořadí sloučených hodnot •pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze součtů je použit pro srovnání s kritickou hodnotou testu •výsledkem testu je p25. Před zásahem Po zásahu Změna Absolutní pořadí 6 2 4 10 2,5 3 -0,5 1,5 6,3 5 1,3 6 8,1 9 -0,9 5 1,5 2 -0,5 1,5 3,4 4 -0,6 3 2,5 1 1,5 8 1,11 2 0,89 4 2,6 4 -1,4 7 1 3 -2 9 Wilcoxonov test – příklad I člověk A B diference pořadí 1 142 138 4 4,5 2 140 136 4 4,5 3 144 147 -3 3 4 144 139 5 7 5 142 143 -1 1 6 146 141 5 7 7 149 143 6 9,5 8 150 145 5 7 9 142 136 6 9,5 10 148 146 2 2 A…….parameter krvi pred podaním lieku B…….parameter krvi po podaní lieku W+ …… Σ poradie kladných rozdielov = 51 W- …… = 4 W = min(W+;W-) = 4 počet párů = n = 10 Pokiaľ je W menšie než kritická hodnota testu, potom zamietame hypotézu zhody distribučných funkcií obidvoch skupín. Wilcoxonov test – príklad II •Byla testována nová dieta pro laboratorní krysy, při pokusu byl zjišťován její vliv na různých liniích krys, bylo proto zvoleno párové uspořádání kdy krysy v obou dietách jsou spojeny přes svoji linii, tj. na začátku byly dvojice krys stejné linie, jedna z nich byla náhodně přiřazena k dietě, druhá z dvojice pak do druhé diety. • 1.nulová hypotéza je, že váha krys není ovlivněna použitou dietou, alternativní, že ovlivnění dietou existuje 2.spočítáme diference – tyto diference jsou nenormální a proto je vhodné využít neparametrický test 3.Spočítáme sumu pořadí kladných a záporných diferencí, zde je menší suma záporných diferencí – 31 4.výsledkem výpočtu je p>0,05 a tedy nemáme dostatečné důkazy pro zamítnutí nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará 5.pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností ve skupinách, např. ve formě mediánu Znamienkový test – príklad I • Párovo usporiadaný experiment pre nominálne dáta I. Dva preparáty, každý na ½ listu - sledovaná veličina: počet škvŕn (hodnotené len ako rozdiel) Počet skvrn A V V M V V M M V V V B M M V M M V V M M M V – väčší; M – menší n = 10 listov s rozdielnymi výsledkami A je väčší: + n+ = 7 jav B je menší: - n- = 3 min(n+; n-) = 3 II. dve protilátky z rôznych zdrojov (A;B) – aplikované na vzorku s antigénom n = 10 A + + - + - + - + + - B - - + - + + - - + - n – nenulových rozdielov: 6 A: n+ = 4 A: n- = 2 min(n+; n-) = 2 Znamienkový test – príklady II •Na konferenci veterinářů bylo předneseno,že průměrný čas konzultace je 12 minut. Následovala debata, zda je lepší použít medián nebo průměr. Jeden z nich se rozhodl ověřit teorii, že průměrná konzultace trvá 12 minut na vlastní praxi a zaznamenal si trvání svých 43 konzultací. K otestování hypotézy, že podíl konzultací kratších a delších než 12 minut použil znaménkový test. Délka konzultace Počet <12 22 12 6 >12 15 Celkem 43 Další výpočet probíhá obdobně jako v případě klasického znaménkového testu na diferencích dvou skupin dat. Dvojvýberové testy: schéma analýzy Nezávislé usporiadanie neparametrické testy testy: ANO NE ANO t-test nezávislý aproximácia Man - Whitney Mediánový test normalita ? homogenita rozptylu ? NE transformácia NE c2 test Kolmogorov-Smirnov test Shapiro-Wilks test F-test Dvojvýberové testy: schéma analýzy Párové usporiadanie neparametrické testy testy: ANO Diferencia D t-test párový Znamienkový test Wilcoxonův test normalita ? NE transformácia NE c2 test Kolmogorov-Smirnov test Shapiro-Wilks test