Dvouvýběrové testy Parametrický případ Dvouvýběrový t-test Máme dva nezávislé náhodné výběry, první pochází z rozložení N(µ1, σ2 ) a má rozsah n1 ≥ 2, druhý pochází z rozložení N(µ2, σ2 ) a má rozsah n2 ≥ 2. Označme M1, M2 výběrové průměry, S1 2 , S2 2 výběrové rozptyly, 2nn S)1n(S)1n( S 21 2 22 2 112 * −+ −+− = vážený průměr výběrových rozptylů. Na hladině významnosti α testujeme H0: µ1 – µ2 = c proti H1: µ1 – µ2 ≠ c (často volíme c = 0). Testová statistika: ( ) 21 * 21 0 n 1 n 1 S cMM T + −− = . Platí-li H0, T0 ~ t(n1 + n2 – 2). Kritický obor: ( ) ( ) )( ∞−+∪−+−∞−= α−α− ,2nnt2nnt,W 212/1212/1 ⇒∈WT0 H0 zamítáme na hladině významnosti α. Před provedením dvouvýběrového t-testu ověřujeme shodu rozptylů F-testem. Na hladině významnosti α testujeme H0: 2 2 2 1 σ σ = 1 proti H1: 2 2 2 1 σ σ ≠ 1. Testová statistika: 2 2 2 1 0 S S T = . Platí-li H0, T0 ~ F(n1-1, n2 – 1). Kritický obor: ( ) ( ) )( ∞−−∪−−= α−α ,1n,1nF1n,1nF,0W 212/1212/ ⇒∈WT0 H0 zamítáme na hladině významnosti α. V tomto případě použijeme pro test shody středních hodnot dvouvýběrový t-test se samostatnými odhady rozptylů. Síla dvouvýběrového t-testu 100(1- α)% interval spolehlivosti pro parametrickou funkci µ1 – µ2 má meze: ( )2nnt n 1 n 1 SMMD 212/1 21 *21 −++−−= α− , ( )2nnt n 1 n 1 SMMH 212/1 21 *21 −+++−= α− Silofunkce γ(c) dvouvýběrového t-testu je dána vztahem: ( ) ( )( )H,DcPc:Rc ∉=γ∈∀ , tedy pro dané reálné číslo c vyjadřuje pravděpodobnost, s jakou test vypoví, že nulová hypotéza neplatí. Po určitých úpravách dospějeme k vyjádření: ( ) ( ) ( )               + +−+Φ−               + −−+Φ−=γ∈∀ α−α− 11 * 212/1 11 * 212/1 n 1 n 1 S c 2nnt n 1 n 1 S c 2nnt2c:Rc , kde ( )xΦ je distribuční funkce Studentova rozložením t(n1 + n2 - 2). Při konkrétním výpočtu síly testu nahradíme číslo c rozdílem realizací výběrových průměrů. Síla testu by se měla pohybovat nad 0,8. Upozornění: t-testy jsou při větších rozsazích výběrů (nad 30) robustní vůči porušení předpokladu normality. Pro výběry malých rozsahů lze použít např. Boxovu – Coxovu transformaci nebo je možné provést některý z neparametrických testů. Neparametrický případ Dvouvýběrový Wilcoxonův test Máme dva nezávislé náhodné výběry, první pochází ze spojitého rozložení s mediánem x0,50 a má rozsah n, druhý pochází ze spojitého rozložení s mediánem y0,50 a má rozsah m. Předpokládáme, že distribuční funkce těchto dvou rozložení se mohou lišit pouze posunutím. Testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné (neboli mediány jsou shodné) proti alternativě, že jsou rozdílné. Všech n + m hodnot uspořádáme vzestupně podle velikosti. Zjistíme součet pořadí hodnot 1. výběru a označíme ho T1. Součet pořadí hodnot 2. výběru označíme T2. Vypočteme statistiky U1 = mn + n(n+1)/2 – T1 , U2 = mn + m(m+1)/2 - T2 . Přitom platí U1 + U2 = mn. Pokud min(U1 ,U2 ) ≤ tabelovaná kritická hodnota (pro dané rozsahy výběrů m, n a dané α), pak nulovou hypotézu o totožnosti obou distribučních funkcí zamítáme na hladině významnosti α. Pro velká n, m (prakticky n, m > 30) lze využít asymptotické normality statistiky U1. V případě platnosti H0 má statistika 12 )1nm(mn 2 mn 1 0 U U ++ − = asymptoticky rozložení N(0,1). Kritický obor pro oboustrannou alternativu má tvar: W = ( )∞∪−∞− α−α− ,uu, 2/12/1 . (Analogicky pro jednostranné alternativy.) H0 zamítáme na asymptotické hladině významnosti α, když WU0 ∈ . Dvouvýběrový Kolmogorovův - Smirnovův test Máme dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se mohou lišit nejenom posunutím, ale také tvarem. Testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné, tj., že všech n+m veličin pochází z téhož rozložení proti alternativě, že distribuční funkce jsou rozdílné. Označme { }xX;icard n 1 )x(F i1 ≤= výběrovou distribuční funkci 1. výběru, { }yY;icard m 1 )y(F i2 ≤= výběrovou distribuční funkci 2. výběru. Testová statistika: )x(F)x(FmaxD 21 x −= ∞<<∞− . H0 zamítáme na hladině významnosti α, když D ≥ Dn,m(α), kde Dn,m(α) je tabelovaná kritická hodnota. Pro větší rozsahy n, m lze kritickou hodnotu aproximovat vzorcem α + 2 ln nm2 mn . Ukázka dvouvýběrových testů Uvažme pacienty s Nalbuphinem. H0: Rozložení věku je stejné ve skupinách pacientů bez tachykardie a s tachykardií. H1: Rozložení věku je rozdílné ve skupinách pacientů bez tachykardie a s tachykardií Pomocí N-P grafu ověříme normalitu dat v obou skupinách. Normální p-graf z Věk; kategorizovaný Tachykardie Nalbuphin_Rapifen.sta 15v*114c Zahrnout jestliže: v1=1 Pozorovaný kvantil Oček.normál.hodnoty Tachykardie: tachykardie byla 1 2 3 4 5 6 7 8 9 10 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Tachykardie: tachykardie nebyla 1 2 3 4 5 6 7 8 9 10 Tachykardie: tachykardie byla Věk: SW-W = 0,8965; p = 0,0007 Tachykardie: tachykardie nebyla Věk: SW-W = 0,8969; p = 0,1693 Pro skupinu pacientů, u nichž se vyskytla tachykardie, S-W test zamítá hypotézu o normalitě rozložení věku. Tečky se však od přímky odchylují jen málo a rozsah souboru je velký (45), data budeme považovat za normálně rozložená. Výsledky dvouvýběrového t-testu: t-testy; grupováno:Tachykardie (Nalbuphin_Rapifen.sta) Skup. 1: tachykardie byla Skup. 2: tachykardie nebyla Zhrnout podmínku: v1=1 Proměnná Průměr tachykardie byla Průměr tachykardie nebyla t sv p Poč.plat tachykardie byla Poč.plat. tachykardie nebyla Sm.odch. tachykardie byla Sm.odch. tachykardie nebyla F-poměr Rozptyly p Rozptyly Věk 4,844444 6,000000 -2,10450 54 0,040005 45 11 1,637009 1,612452 1,030692 1,000000 Pacientů s tachykardií bylo 45, průměrný věk pacientů byl 4,84 roku a směrodatná odchylka činila 1,63 roku. Pacientů bez tachykardie bylo 11, průměrný věk pacientů byl 6 let a směrodatná odchylka činila 1,61 roku. F-test nezamítá hypotézu o shodě rozptylů na hladině významnosti 0,05 (testová statistika = 1,0307, phodnota = 1). Dvouvýběrový t-test zamítá hypotézu o shodě středních hodnot věku na hladině významnosti 0,05 (testová statistika = -2,1045, p-hodnota = 0,04). Krabicový graf Krabicový graf : Věk Zhrnout podmínku: v1=1 Průměr Průměr±SmCh Průměr±1,96*SmCh tachykardie byla tachykardie nebyla Tachykardie 4,2 4,4 4,6 4,8 5,0 5,2 5,4 5,6 5,8 6,0 6,2 6,4 6,6 6,8 7,0 7,2 Věk Uvažme pacienty s Rapifenem. H0: Rozložení věku je stejné ve skupinách pacientů bez tachykardie a s tachykardií. H1: Rozložení věku je rozdílné ve skupinách pacientů bez tachykardie a s tachykardií Pomocí N-P grafu ověříme normalitu dat v obou skupinách. Normální p-graf z Věk; kategorizovaný Tachykardie Nalbuphin_Rapifen.sta 15v*114c Zahrnout jestliže: v1=2 Pozorovaný kvantil Oček.normál.hodnoty Tachykardie: tachykardie byla 0 2 4 6 8 10 12 14 16 18 20 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Tachykardie: tachykardie nebyla 0 2 4 6 8 10 12 14 16 18 20 Tachykardie: tachykardie byla Věk: SW-W = 0,853; p = 0,00004 Tachykardie: tachykardie nebyla Věk: SW-W = 0,7522; p = 0,0028 Pro obě skupiny pacientů S-W test zamítá hypotézu o normalitě rozložení věku. Tečky se v obou případech odchylují od přímky výrazněji. Použijeme raději neparametrické testy. Výsledek dvouvýběrového Wilcoxonova testu: Mann-Whitneyův U Test (w/ oprava na spojitost) (Nalbuphin_Rapifen.sta) Dle proměn. Tachykardie Označené testy jsou významné na hladině p <,05000 Zhrnout podmínku: v1=2 Proměnná Sčt poř. tachykardie byla Sčt poř. tachykardie nebyla U Z p-hodn. Z upravené p-hodn. N platn. tachykardie byla N platn. tachykardie nebyla 2*1str. přesné p Věk 1243,000 468,0000 162,0000 -2,17867 0,029357 -2,20654 0,027347 46 12 0,028026 U pacientů s Rapifenem se tachykardie vyskytla ve 46 případech, ve 12 případech nikoliv. Zajímá nás p-hodnota označená jako 2*1str. přesné p (používá se pro rozsahy výběrů pod 30). V našem případě p = 0,028, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu, že rozložení věku je stejné ve skupinách pacientů s tachykardií a bez tachykardie. Výsledek dvouvýběrového K- S testu: Kolmogorov-Smirnovův test (Nalbuphin_Rapifen.sta) Dle proměn. Tachykardie Označené testy jsou významné na hladině p <,05000 Zhrnout podmínku: v1=2 Proměnná Max záp rozdíl Max klad rozdíl p-hodn. Průměr tachykardie byla Průměr tachykardie nebyla Sm.odch. tachykardie byla Sm.odch. tachykardie nebyla N platn. tachykardie byla N platn. tachykardie nebyla Věk -0,373188 0,047101 p > .10 5,260870 7,250000 2,727920 3,864171 46 12 Odpovídající p-hodnota je větší než 0,1, tedy K – S test na hladině významnosti 0,05 nezamítá hypotézu o shodném rozložení věku v obou skupinách pacientů. Krabicový graf Krabicový graf dle skupin Proměnná: Věk Zhrnout podmínku: v1=2 Medián 25%-75% Min-Max tachykardie byla tachykardie nebyla Tachykardie 0 2 4 6 8 10 12 14 16 18 20 Věk Cohenův koeficient věcného účinku (doplnění významu dvouvýběrového t-testu) Cohenův koeficient slouží k posouzení velikosti rozdílu průměrů, který je standardizován pomocí odmocniny z váženého průměru výběrových rozptylů. Jedná se o tzv. věcnou významnost neboli velikost účinku skupiny na variabilitu hodnot sledované náhodné veličiny. Počítá se podle vzorce: * 21 s mm d − = , kde m1, m2 jsou výběrové průměry a s* 2 je vážený průměr výběrových rozptylů. Velikost účinku hodnotíme podle následující tabulky: Hodnota d účinek aspoň 0,8 velký mezi 0,5 až 0,8 střední mezi 0,2 až 0,5 malý pod 0,2 zanedbatelný Vypočteme Cohenův koeficient pro věk pacientů s Nalbuphinem, u nichž se vyskytla resp. nevyskytla tachykardie. Zjistíme, že d = 0,71, tedy vliv skupiny na variabilitu věku můžeme hodnotit jako středně silný. Výpočet síly dvouvýběrového t-testu ve STATISTICE Postup výpočtu ukážeme pro test shody středních hodnot věku pacientů s Nalbuphinem, u nichž se vyskytla resp. nevyskytla tachykardie. Vyjdeme z výstupní tabulky dvouvýběrového t-testu: t-testy; grupováno:Tachykardie (Nalbuphin_Rapifen.sta) Skup. 1: tachykardie byla Skup. 2: tachykardie nebyla Zhrnout podmínku: v1=1 Proměnná Průměr tachykardie byla Průměr tachykardie nebyla t sv p Poč.plat tachykardie byla Poč.plat. tachykardie nebyla Sm.odch. tachykardie byla Sm.odch. tachykardie nebyla F-poměr Rozptyly p Rozptyly Věk 4,844444 6,000000 -2,10450 54 0,040005 45 11 1,637009 1,612452 1,030692 1,000000 Vypočítáme odmocninu z váženého průměru výběrových rozptylů: 632,1 54 612,110637,144 2nn S)1n(S)1n( S 22 21 2 22 2 11 * = ⋅+⋅ = −+ −+− = Statistiky – Analýza síly testu – Výpočet síly testu – Dva průměry, t-test – nezávislé vzorky – OK. Zadáme parametry. Mí1: 4,844, Mí2: 6, N1: 45, N2: 11, Sigma: 1,632 – OK – Vypočítat sílu. Dostaneme tabulku: Výpočet síly testu (Nalbuphin_Rapifen.sta) Dva průměry, t-test, nezáv. vzorky H0: Mí1 = Mí2 Hodnota Populační průměr: Mí1 Populační průměr: Mí2 Populač. sm.odch. (sigma) Standardiz. efekt (Es) Velikost vzorku N1 Velikost vzorku N2 Chyba prvního druhu (Alfa) Kritická hodnota t Síla 4,8440 6,0000 1,6320 -0,7083 45,0000 11,0000 0,0500 2,0049 0,5432 Vidíme, že síla tohoto testu je pouze 0,543, tedy nepravdivou nulovou hypotézu odhalí pouze s pravděpodobností 0,543. Na řádku označeném Standardiz. efekt (Es) najdeme Cohenův koeficient věcného účinku.