One sample T test V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení. Lze testovat shodu průměru a rozptylu. Pro testování hypotéz o průměru je použito převedení na Studentovo (t) rozložení, test se nazývá one sample t-test. průměr testovaného souboru, s směrodatná odchylka testovaného souboru, n počet měření v testovaném souboru, m průměr cílové populace, jednotlivé nulové hypotézy, jejich alternativy a interval spolehlivosti jsou zobrazeny v následující tabulce. H[0] H[A] Testová statistika Interval spolehlivosti £m >m t ³m s^2 c^2 s^2³s^2 s^2 t[0,975]^44 máme silný důkaz pro zamítnutí nulové hypotézy a můžeme říci, že obě proměnné spolu významně korelují. 5. Pro korelační koeficient zjistíme jeho 95% konfidenční intervaly. Konfidenční interval nám vlastně říká, v jakých hranicích by se tento korelační koeficient pohyboval u 95% náhodných vzorků o stejné velikosti (46 koní) odebraných z cílové populace. Při výpočtu je nejprve korelační koeficient převeden na normální rozložení (protože rozložení r není normální), jsou spočítány konfidenční intervaly a (symetrický) a převedeny zpět na rozložení r (asymetrický konfidenční interval) , výsledkem je pak 95% konfiden4n9 interval pro r 0,64 až 0,88. 6. závěrem lze říci, že korelační koeficient je významně odlišný od nuly a i spodní hranice jeho konfidenčního intervalu poukazuje na silnou lineární závislost, můžeme tedy prohlásit, že nové měření dobře odráží metabolismus kostní tkáně. 2. Srovnání korelačních koeficientů Ve dvou skupinách pacientů byla zjišťována závislost krevního tlaku a koncentrace kyslíkových radikálů. V první skupině byla zjištěna r=0,682 při 1258 pacientech, ve skupině druhé pak r=0,402 a 462 pacientů. 1. Převedeme korelační koeficienty na normální rozložení: , z[1]=0,833, z[2]=0,426 2. spočítáme testovou statistiku = 7,461 3. porovnáme tabulární hodnotou Z[0,975]=1,96 4. protože Z> Z[0,975] zamítáme shodu obou korelačních koeficientů – závislost obou parametrů se ve skupinách pacientů liší Spearman rank correlation coefficient Patří mezi neparametrické korelační koeficienty, tj. není závislý na normálním rozložení a lineární závislosti proměnných. Hodnoty proměnných jsou převedeny na jejich pořadí a výpočet je proveden na základě rozdílu pořadí spárovaných hodnot v proměnných. A B A ranks B ranks Rozdíl pořadí 1 6 1 1 1 0 2 12 6 2 2 0 3 18 12 3 4 -1 4 24 18 4 5 -1 5 30 11 5 3 2 6 36 20 6 6 0 7 42 21 7 7 0 8 48 22 8 8 0 9 54 23 9 9 0 10 60 24 10 10 0 Kromě Spearmanova korelačního koeficientu existují i další neparametrické korelační koeficienty jako je Kendel t nebo gama. Výše uvedený princip využití pořadí hodnot se používá obecně v neparametrických testech, například v obdobách two- sample t testů. Two sample testy Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové. Nepárové testy Obě skupiny hodnot jsou spojeny pouze měřeným parametrem, není vazba mezi subjekty v obou skupinách. Obě skupiny dat nemusí mít stejný počet hodnot. Pro srovnání průměrů dvou nezávislých souborů dat se využívá two sample t-test. K jeho předpokladům patří: · Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací · Nezávislost obou srovnávaných vzorků · Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality, budou zmíněny dále. · Rozptyl v obou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy – Levenův test nebo níže zmíněný F-test. · Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické srovnání a ověření předpokladů normality a homogenity rozptylu – nenahradí statistické testy, ale poskytne prvotní představu. 1. nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test 2. prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita rozptylu, provést F –test F-test pro srovnání dvou výběrových rozptylů Používá se pro srovnání rozptylu dvou skupin hodnot, často za účelem ověření homogenity rozptylu těchto skupin dat. H[0] H[A] Testová statistika Interval spolehlivosti £ > ³ < = ¹ V případě ověření homogenity je testována hypotéza = (two tailed), v případě shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě není vhodné test počítat. 3. spočítat testovou statistiku , kde je vážený odhad rozptylu, stupně volnosti jsou 4. výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a a (obvykle a=0,05) 5. spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%) , kde počet stupňů volnosti a s^2 odpovídají výše uvedeným vzorcům Příklady Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy. Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí. 1. nulová hypotéza byla stanovena, že hmotnosti ovcí v obou skupinách jsou shodné, alternativní hypotéza je, že jsou rozdílné. 2. Vlastní experiment byl prováděn tak, že na začátku máme 54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně rozdělíme do dvou skupin (náhodné rozdělování objektů do pokusných skupin je objektem celého specializovaného odvětví statistiky nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t-testu. Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a homogenitu rozptylu, kromě okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity rozptylu pak F-test ( , ) nebo Levennův test. 3. Pokud platí všechny předpoklady Two sample nepárového t-testu, můžeme spočítat testovou charakteristiku , kde a , výsledné t je 2,43 s 52 stupni volnosti, podle tabulek je a t[0,975]^52= 2,01, tedy t> t[0,975]^52 a nulovou hypotézu můžeme zamítnut, skutečná pravděpodobnost a je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou. 4. Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje 0 je dalším potvrzením, že mezi skupinami je významný rozdíl – jde o další způsob testování významnosti rozdílů mezi skupinami dat – nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0). Neparametrické alternativy nepárového t-testu Mann Whitney U-test Stejně jako řada jiných neparametrických testů počítá i tento test s pořadím dat v souborech namísto s originálními daty. Jde o parametrickou obdobu nepárového t-testu a z těchto neparametrických testů má nejvyšší sílu testu (95% párového t-testu). Tied-ranks (provázaná pořadí), v případě stejné hodnoty dvou čísel je jako pořadí použito průměru pořadí, které by tato čísla dostala v případě odlišné hodnoty (např. dvě stejná čísla, která by v případě nestejnosti byla na pozici 7 a 8 by měla pořadí 7,5). V případě Mann-Whitney testu jsou nejprve čísla obou souborů sloučena a je vytvořeno jejich pořadí v tomto sloučeném souboru, pak jsou hodnoty vráceny do původních souborů a nadále se pracuje již jen s jejich pořadím. Filozofie testu spočívá v tom, že pokud budou původní soubory podobné, potom budou jejich čísla na střídačku větší a menší v obou souborech a pořadí hodnot budou také „cik-cak“ a tedy součet pořadí bude podobný pro oba soubory. Pro oba soubory je tedy vytvořen součet pořadí a menší z obou součtů je porovnán s kritickou hodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shody distribučních funkcí obou skupin. Podobným způsobem je počítán i Wilcoxon rank sum test (pozor, existuje ještě Wilcoxnův párový test!!!) X1 X2 ALL Rank ALL X1 rank X2 rank 27 25 25 5 6 5 35 29 29 7,5 11 7,5 38 31 31 9 13 9 37 23 23 4 12 4 39 18 18 2 14 2 29 17 17 1 7,5 1 41 32 32 10 15 10 19 19 3 3 27 6 35 11 38 13 37 12 39 14 29 7,5 41 15 Příklad 17 štěňat bylo trénováno v chození na záchod metodou pozitivního posilování (pochvala, když jde na záchod venku) nebo negativního (trest, když jde na záchod doma). Jako parametr bylo měřeno, za kolik dní je štěně vycvičeno. 1. nulová hypotéza je, že není rozdíl v metodách tréninku, tedy, že oběma metodami je štěně vycvičeno za stejnou dobu. 2. po srovnání rozložení + malý počet hodnot je vhodné použít neparametrický test 3. je vytvořeno pořadí sloučených hodnot 4. pořadí hodnot v jednotlivých skupinách dat je sečteno a menší ze součtů je použit pro srovnání s kritickou hodnotou testu 5. výsledkem testu je p10, z párových testů má nejmenší sílu testu. Je zjišťován počet kladných a záporných změn v datech. Menší z těchto čísel je srovnáno s tabulkovou kritickou hodnotou znaménkového testu a pokud je menší než tato kritická hodnota, zamítáme shodu obou souborů dat. K výpočtu je využito binomiálního rozložení, které je aproximováno na normální rozložení. Znaménkový test je možné použít i jako one tailed test, kdy zjišťujeme počty hodnot nad a pod nějakou jinou hodnotou (obdoba kladných a záporných diferencí při párovém uspořádání). Před zásahem Po zásahu Změna 1 2 + 2 3 + 6 5 - 8 9 + 1 2 + 3 4 + 2 1 - 1 2 + 2 4 + 1 3 + Příklad použití one tailed sign test Na konferenci veterinářů bylo předneseno,že průměrný čas konzultace je 12 minut. Následovala debat, zda je lepší použít medián nebo průměr. Jede z nich se rozhodl ověřit teorii, že průměrná konzultace trvá 12 minut na vlastní praxi a zaznamenal si trvání svých 43 konzultací. K otestování hypotézy, že podíl konzultací kratších a delších než 12 minut použil znaménkový test. Délka konzultace Počet <12 22 12 6 >12 15 Celkem 43 Další výpočet probíhá obdobně jako v případě klasického znaménkového testu na diferencích dvou skupin dat. Wilcoxon test Jsou vytvořeny diference mezi soubory, je vytvořeno jejich pořadí bez ohledu na znaménko a poté je sečteno pořadí kladných a pořadí záporných rozdílů. Menší z těchto dvou hodnot je srovnána s kritickou hodnotou testu a pokud je menší než kritická hodnota testu, pak zamítáme hypotézu shody obou souborů hodnot. Pro test existuje aproximace na normální rozložení, ale pouze pro velká n>25. Před zásahem Po zásahu Změna Absolutní pořadí 6 2 4 10 2,5 3 -0,5 1,5 6,3 5 1,3 6 8,1 9 -0,9 5 1,5 2 -0,5 1,5 3,4 4 -0,6 3 2,5 1 1,5 8 1,11 2 -0,89 4 2,6 4 -1,4 7 1 3 -2 9 Příklad Byla testována nová dieta pro laboratorní krysy, při pokusu byl zjišťován její vliv na různých liniích krys, bylo proto zvoleno párové uspořádání kdy krysy v obou dietách jsou spojeny přes svoji linii, tj. na začátku byly dvojice krys stejné linie, jedna z nich byla náhodně přiřazena k dietě, druhá z dvojice pak do druhé diety. 1. nulová hypotéza je, že váha krys není ovlivněna použitou dietou, alternativní, že ovlivnění dietou existuje 2. spočítáme diference – tyto diference jsou nenormální a proto je vhodné využít neparametrický test 3. Spočítáme sumu pořadí kladných a záporných diferencí, zde je menší suma záporných diferencí – 31 4. výsledkem výpočtu je p>0,05 a tedy nemáme dostatečné důkazy pro zamítnutí nulové hypotézy, nelze říci, že by nová dieta byla efektivnější než stará 5. pro doplnění výsledků je vhodné zjistit také skutečnou velikost rozdílu hmotností ve skupinách, např. ve formě mediánu