Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Biostatistika Opakování Shrnutí statistických testů Neparametrické testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Co byste měli umět z minula: 1. Vybrat typ parametrického testu – jednovýběrový, párový nebo dvouvýběrový? 2. Ověřit předpoklady parametrických testů (normalitu, shodu rozptylů; graficky i pomocí testů). 3. Provést testování v softwaru Statistica. 4. Interpretovat výsledky testování. Základní rozhodování o výběru statistických testů - co jsme probírali minule Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův koeficient Jednovýběrový t-test, z-test Párový t-test Dvouvýběrový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův koeficient Wilcoxonův / znaménkový test Wilcoxonův / znaménkový test MannůvWhitneyův / mediánový t. KruskalůvWallisův test / mediánový t. Jednovýběrový binomický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita E. Janoušová, L. Dušek Základní rozhodování o výběru statistických testů - co budeme probírat dnes Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův koeficient Jednovýběrový t-test, z-test Párový t-test Dvouvýběrový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův koeficient Wilcoxonův / znaménkový test Wilcoxonův / znaménkový test MannůvWhitneyův / mediánový t. KruskalůvWallisův test / mediánový t. Jednovýběrový binomický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita E. Janoušová, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametrické vs. neparametrické testy Parametrické testy Neparametrické testy • Mají předpoklady o rozložení vstupujících dat (např. normální rozložení) • Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické • Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný • Vyžadují méně předpokladů o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení • Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí • Souvisí s malou velikostí souboru (nejsme schopni normalitu dat ověřit) Proč nemusí parametrický a neparametrický test vyjít stejně? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jednovýběrový Wilcoxonův test Jednovýběrový znaménkový test 1. Statistické testy o parametrech jednoho výběru Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jednovýběrový Wilcoxonův test • Předpokladem je symetrické rozdělení dat kolem mediánu. • Testuje, zda je medián jednoho výběru roven hodnotě c (v případě párového designu je x0.5 reprezentováno mediánem rozdílu hodnot) H0: x0.5=c proti H1: x0.5≠ c. Postup: 1. Spočítáme rozdíly hodnot výběru s testovanou hodnotou mediánu. 2. Absolutní hodnoty rozdílů uspořádáme vzestupně a přiřadíme jim pořadí. 3. Spočítáme statistiky Sw + a Sw -, které odpovídají součtu pořadí kladných (Sw +) a záporných rozdílů (Sw -). Jako finální hodnotu testové statistiky bereme minimum z Sw + a Sw -. Nulovou hypotézu zamítáme, pokud hodnota testové statistiky menší nebo rovna tabelované kritické hodnotě (při dané hladině významnosti a počtu nenulových rozdílů). nebo 3. Pro N > 30 lze využít asymptotické normality statistiky Sw + Pokud |Z|≥ u1-α/2 zamítáme nulovou hypotézu, že medián výběru je roven hodnotě c. 4 )1( )(   nn SE w 24 )12)(1( )(   nnn SD w )1,0( )( )( N SD SES Z w ww     Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jednovýběrový znaménkový test • Lze použít v situaci, kdy není splněn předpoklad symetrie rozdělení kolem mediánu. • Testuje, zda je medián jednoho výběru roven hodnotě c (v případě párového designu je x0.5 reprezentováno mediánem rozdílu hodnot) H0: x0.5=c proti H1: x0.5≠ c. Postup: 1. Spočítáme rozdíly hodnot výběru s testovanou hodnotou mediánu. 2. Spočítáme statistiku Sz +, která odpovídá počtu kladných rozdílů → test nevyužívá hodnot pořadí původních dat, ale pouze informaci, zda se hodnota realizuje nad nebo pod mediánem → dochází ke snížení síly testu 3. Nulovou hypotézu zamítáme, pokud statistika Sz + realizuje v kritickém oboru hodnot W=(0,k1)U(k2,n), kde n odpovídá počtu nenulový rozdílů a hodnoty k1 a k2 lze dohledat v matematických tabulkách. nebo 3. Pro N > 20 lze využít asymptotické normality statistiky Sz +. Pokud |Z|≥ u1-α/2 zamítáme nulovou hypotézu, že medián výběru je roven hodnotě c. 2 )( n SE z  4 )( n SD z  )1,0( )( )( N SD SES Z z zz      U 15 náhodně vybraných pacientů byla vyhodnocena doba, kterou museli strávit v čekárně, než byli sestrou pozváni do ordinace. Na 5% hladině významnosti testujte nulovou hypotézu, že medián čekací doby je roven půl hodině. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad 1: jednovýběrový test  U 15 náhodně vybraných pacientů byla vyhodnocena doba, kterou museli strávit v čekárně, než byli sestrou pozváni do ordinace. Na 5% hladině významnosti testujte nulovou hypotézu, že medián čekací doby je roven půl hodině. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad 1: jednovýběrový test – Wilcoxonův test Pacient č. čekací doba (min) medián rozdíl |rozdíl| pořadí 1 1 30 -29 29 15 2 45 30 15 15 10 3 25 30 -5 5 3.5 4 15 30 -15 15 10 5 34 30 4 4 2 6 19 30 -11 11 8 7 31 30 1 1 1 8 25 30 -5 5 3.5 9 8 30 -22 22 14 10 12 30 -18 18 12 11 20 30 -10 10 6 12 15 30 -15 15 10 13 40 30 10 10 6 14 20 30 -10 10 6 15 10 30 -20 20 13 Sw +=19 Sw -=101 min (Sw +,Sw -)=19 Kritická hodnota w15(0,05)=25 Hodnota testové statiky je menší než kritická hodnota → zamítáme H0  U 15 náhodně vybraných pacientů byla vyhodnocena doba, kterou museli strávit v čekárně, než byli sestrou pozváni do ordinace. Na 5% hladině významnosti testujte nulovou hypotézu, že medián čekací doby je roven půl hodině. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad 1: jednovýběrový test – Znaménkový test Pacient č. čekací doba (min) medián rozdíl Větší než medián? 1 1 30 -29 Ne 2 45 30 15 Ano 3 25 30 -5 Ne 4 15 30 -15 Ne 5 34 30 4 Ano 6 19 30 -11 Ne 7 31 30 1 Ano 8 25 30 -5 Ne 9 8 30 -22 Ne 10 12 30 -18 Ne 11 20 30 -10 Ne 12 15 30 -15 Ne 13 40 30 10 Ano 14 20 30 -10 Ne 15 10 30 -20 Ne Sz +=4 Kritický obor: W=(0,3)U(12,15) Hodnota statistiky se realizuje mimo kritický obor hodnot → nezamítáme H0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad 1: Řešení v softwaru Statistica I 3 • V menu Statistics zvolíme Nonparametrics, vybereme Comparing two dependent samples (variables) 2 • Datový soubor si připravíme tak, že první proměnná obsahuje testované hodnoty a druhá proměnná medián, který chceme testovat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Vybereme proměnné, které chceme testovat (testovaný parametr, medián) • Kliknutím na Sign test a následně Wilcoxon matched pair test získáme výsledky znaménkového a jednovýběrového Wilcoxonova testu Příklad 1: Řešení v softwaru Statistica II 3 2 Příklad 1: Řešení v softwaru Statistica III Počet nenulových rozdílů Testová statistika: min (Sw +,Sw -) Statistika a p-hodnota pro asymptotickou variantu testu (používat pouze pro N > 30) Počet nenulových rozdílů Podíl hodnot menších než testovaný medián Statistika a p-hodnota pro asymptotickou variantu testu (používat pouze pro N > 20) 1) Výstup Wilcoxonova testu 2) Výstup znaménkového testu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nepárový Mannův-Whitneyův test Párový Wilcoxonův a znaménkový test 2. Statistické testy o parametrech dvou výběrů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Mannův-Whitneyův U test • Neparametrická alternativa dvouvýběrového t-testu. • Počítá s pořadím dat v souborech namísto s originálními daty. • Předpoklad: rozdělení pravděpodobnosti veličiny ve skupinách se může lišit pouze posunutím. Postup: 1. Stanovíme nulovou a alternativní hypotézu (F(x)=distribuční funkce): H0: F(x1)=F(x2) H1: F(x1)≠ F(x2). 2. Čísla obou souborů jsou sloučena a je určeno jejich pořadí v tomto sloučeném souboru. 3. Pro oba výběry zvlášť je spočítán součet pořadí (T1 a T2). 4. Ze součtů pořadí ve skupinách je určena finální hodnota testové statistiky U. 5. Hodnotu testové statistiky U porovnáme s kritickou hodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shody distribučních funkcí obou skupin. 1 11 211 2 )1( T nn nnU    2 22 212 2 )1( T nn nnU    ),min( 21 UUU  Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Mannův-Whitneyův U test – asymptotická varianta 5. Pro velká n1 a n2 (>30) lze využít asymptotické normality statistiky U. 6. Pro testování lze využít Z-statistiky: 7. Pokud |Z|≥ u1-α/2 zamítáme nulovou hypotézu o shodnosti distribučních funkcí. 2 )( 21nn UE  12 1 )( )21(21   nnnn UD )1,0( )( )( N UD UEU Z    Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Mannův-Whitneyův U test Mann Whitney U-test • Stejně jako řada jiných neparametrických testů počítá i tento test s pořadím dat v souborech namísto s originálními daty. Jde o neparametrickou obdobu nepárového t-testu a z těchto neparametrických testů má nejvyšší sílu testu (95% párového t-testu). • V případě Mann-Whitney testu jsou nejprve čísla obou souborů sloučena a je vytvořeno jejich pořadí v tomto sloučeném souboru, pak jsou hodnoty vráceny do původních souborů a nadále se pracuje již jen s jejich pořadím. • Pro oba soubory je tedy vytvořen součet pořadí a menší z obou součtů je porovnán s kritickou hodnotou testu, pokud je tato hodnota menší než kritická hodnota testu, zamítáme nulovou hypotézu shody distribučních funkcí obou skupin. X1 X2 27 25 35 29 38 31 37 23 39 18 29 17 41 32 19 ALL Rank ALL 25 5 29 7,5 31 9 23 4 18 2 17 1 32 10 19 3 27 6 35 11 38 13 37 12 39 14 29 7,5 41 15 X1 rank X2 rank 6 5 11 7,5 13 9 12 4 14 2 7,5 1 15 10 3 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad 2: Mannův-Whitneyův U test  17 štěňat bylo trénováno v chození na záchod metodou pozitivní motivace (pochvala, když jde na záchod venku) nebo negativní motivace (trest, když jde na záchod doma). Jako parametr bylo měřeno, za kolik dní je štěně vycvičeno.  Nulová hypotéza je, že není rozdíl v metodách tréninku, tedy, že oběma metodami je štěně vycvičeno za stejnou dobu.  Po srovnání rozložení + kvůli nízkému počtu hodnot je vhodné použít neparametrický test.  Je vytvořeno pořadí hodnot v kompletním souboru.  Hodnota testové statistiky je určena ze součtu pořadí hodnot v jednotlivých skupinách.  Jak dopadne testování? pozitivne negativne 30 35 40 45 50 55 60 65 70 75 80 délkavýcviku Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad 2: Řešení v softwaru Statistica I 3 • V menu Statistics zvolíme Nonparametrics , vybereme Comparing two independent samples (groups) 2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Vybereme proměnné, které chceme testovat • p-value for highlightingÚroveň p lze změnit • Kliknutím na Mann-Whitney U test, nebo na M-W U test získáme výstupy Příklad 2: Řešení v softwaru Statistica II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Součet pořadí T1 Součet pořadí T2 Hodnota testové statistiky Hodnota Z statistiky Asymptotická p-hodnota Přesná p-hodnota (použít, jestliže rozsah výběru je menší než 30) Příklad 2: Řešení v softwaru Statistica III Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Párový Wilcoxonův a znaménkový test  Vycházíme z rozdílů párových hodnot a přecházíme na design jednovýběrových testů • Testuje, zda je medián diferencí (D) párových hodnot roven hodnotě c H0: D0.5=c proti H1: D0.5≠ c. Wilcoxonův párový test 1. Spočítáme rozdíly diferencí výběru s testovanou hodnotou mediánu = c. 2. Absolutní hodnoty rozdílů uspořádáme vzestupně a přiřadíme jim pořadí. 3. Spočítáme statistiky Sw + a Sw -, které odpovídají součtu pořadí kladných (Sw +) a záporných rozdílů (Sw -). Jako finální hodnotu testové statistiky bereme minimum z Sw + a Sw -. Nulovou hypotézu zamítáme, pokud hodnota testové statistiky menší nebo rovna tabelované kritické hodnotě (při dané hladině významnosti a počtu nenulových rozdílů). Znaménkový párový test 1. Spočítáme rozdíly diferencí výběru s testovanou hodnotou mediánu = c. 2. Spočítáme statistiku Sz +, která odpovídá počtu kladných rozdílů → test nevyužívá hodnot pořadí původních dat ale pouze informaci, zda se hodnota realizuje nad nebo pod mediánem → dochází ke snížení síly testu 3. Nulovou hypotézu zamítáme, pokud statistika Sz + realizuje v kritickém oboru hodnot W=(0,k1)U(k2,n), kde n odpovídá počtu nenulový rozdílů a hodnoty k1 a k2 lze dohledat v matematických tabulkách. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad 3: Wilcoxonův párový test pacient Před podáním léku Po podání léku Diference (D) Pořadí 1 142 138 4 4,5 2 140 136 4 4,5 3 144 147 -3 3 4 144 139 5 7 5 142 143 -1 1 6 146 141 5 7 7 149 143 6 9,5 8 150 145 5 7 9 142 136 6 9,5 10 148 146 2 2 Sw + …..součet pořadí přes kladné hodnoty rozdílů = 51 Sw - …..součet pořadí přes záporné hodnoty rozdílů = 4 min(Sw +;Sw -) = 4 počet párů = n = 10 wn(α)= w10(0,05)=8 • Na 5% hladině významnosti testujte, zda se liší hladina krevního parametru před a po podání léku. H0: D0.5=0 proti H1: D0.5≠ 0. Hodnota testové statiky je menší než kritická hodnota → zamítáme H0 Příklad 3: Řešení v softwaru Statistica I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 3 • V menu Statistics zvolíme Nonparametrics , vybereme Comparing two dependent samples (variables) 2 Pozn.: Pokud bychom chtěli testovat c různé od 0, musíme vstupní data uspořádat tak, že první proměnná bude obsahovat diference párových hodnot a druhá proměnná testovanou hodnotu mediánu c. Příklad 3: Řešení v softwaru Statistica II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Vybereme proměnné, které chceme testovat • p-value for highlightingÚroveň p lze změnit • Kliknutím na Wilcoxon matched pairs test, získáme výstupy: Rozsah výběru Hodnota testovací statistiky Hodnota asymptotické testové statistiky Asymptotická p-hodnota POZOR: podmínka pro použití asymptotické p-hodnoty je: n≥ 30 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Vybereme proměnné, které chceme testovat • p-value for highlightingÚroveň p lze změnit • Kliknutím na Sign test (párový znaménkový test) získáme výstupy: Hodnota asymptotické testové statistiky Asymptotická p-hodnota Počet nenulových hodnot, z nich záporných je 20%. POZOR: podmínka pro použití asymptotické p-hodnoty je: n > 20 Příklad 3: Řešení v softwaru Statistica III Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kruskalův-Wallisův test 3. Statistické testy o parametrech tří a více výběrů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kruskalův-Wallisův test I • Neparametrická alternativa analýzy rozptylu (ANOVA) • Zobecnění Mannova-Whitneyova U testu pro více než dvě srovnávané skupiny. • Počítá s pořadím dat v souborech namísto s originálními daty. • Nulová hypotéza předpokládá stejné rozdělení pravděpodobnosti veličiny ve více skupinách. • Předpoklad: rozdělení pravděpodobnosti veličiny ve skupinách se může lišit pouze posunutím. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kruskalův-Wallisův test II Postup: 1. Stanovíme nulovou a alternativní hypotézu pro k skupin (F(x)=distribuční funkce): H0: F(x1) = F(x2) = … = F(xk) H1: alespoň jedna F(xi) se liší od ostatních 2. Čísla obou souborů jsou sloučena a je určeno jejich pořadí v tomto sloučeném souboru. 3. Pro všechny výběry zvlášť je spočítán součet pořadí (T1, T2, … Tk). 4. Ze součtů pořadí ve skupinách je určena finální hodnota testové statistiky Q: 5. Pokud je Q ≥ χ2 (k-1), zamítáme nulovou hypotézu. Pro malé velikosti vzorků určujeme kritický obor z tabulek pro Kruskalův-Wallisův test. 6. V případě zamítnutí nulové hypotézy pomocí metod mnohonásobného porovnávání určíme, které dvojice skupin se liší. )1(3 )1( 12 1 2     n n T nn Q k j j j Příklad 4: Kruskalův-Wallisův test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Iris virginica Iris versicolor Iris setosa  Bylo získáno 150 kosatců pocházejících ze tří základních tříd: Iris setosa, Iris versicolor, Iris virginica. Z botaniky je známo že Iris versicolor je hybridem zbývajících dvou druhů. U květů byly měřeny následující údaje: délka a šířka kališních lístků, délka a šířka korunních plátků.  Na hladině významnosti 0,05 testujte hypotézu, že se délka kališních lístků (proměnná SEPALLEN) u třech tříd kosatců neliší. Pokud zamítnete nulovou hypotézu, zjistěte, které dvojice tříd se od sebe liší. Příklad 4: Řešení v softwaru Statistica I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • nejprve se pomocí grafu podíváme na rozložení dat v rámci srovnávaných skupin Median 25%-75% Non-Outlier Range Outliers Extremes SETOSA VIRGINIC VERSICOL Typ kosatce 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 8.5 Délkakališníchlístků Příklad 4: Řešení v softwaru Statistica II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 3 • V menu Statistics zvolíme Nonparametrics , vybereme Comparing multiple indep. samples (groups) 2 Příklad 4: Řešení v softwaru Statistica II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Vybereme proměnné, které chceme testovat • p-value for highlightingÚroveň p lze změnit • Kliknutím na Summary: Kruskal-Wallis ANOVA & Median test získáme výstupy. Hodnota testové statistiky Počet hodnot v každém výběru Součet pořadí hodnot p-hodnota Pokud p < 0,05, musíme provést test mnohonásobného porovnání. Příklad 4: Řešení v softwaru Statistica III Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek p - hodnoty Testy mnohonásobného porovnávání • Kliknutím na Multiple comparisons of mean ranks for all groups Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ANOVA 4. Parametrické statistické testy o parametrech tří a více výběrů Analýza rozptylu (ANOVA) jednoduchého třídění • Srovnáváme tři a více skupin dat, které jsou na sobě nezávislé (mezi objekty neexistuje vazba). • Příklady: srovnání krevního tlaku u třech skupin pacientů léčených léky A, B a C; srovnání kognitivního výkonu podle čtyř kategorií věku. • Předpoklady: normalita dat ve VŠECH skupinách, shodnost (homogenita) rozptylů VŠECH srovnávaných skupin, nezávislost jednotlivých pozorování. • Testová statistika: - vysvětlení na dalších slidech ҧ𝑥1 ҧ𝑥2 ҧ𝑥3 0 1 2 3 Lék 1 Lék 2 Lék 3 ee AA dfS dfS F / /  Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková celkový průměr ANOVA – princip • Tabulka analýzy rozptylu jednoduchého třídění (One-Way ANOVA): Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Mezi skupinami SA dfA = k – 1 MSA = SA/dfA pUvnitř skupin (reziduální var.) Se dfe = n – k MSe = Se/dfe Celkem ST dfT = n – 1 ee AA dfS dfS F / /  AD MCI CN AD MCI CN • Srovnání variability (rozptylu) mezi výběry s variabilitou uvnitř výběrů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková ANOVA – 2 ukázkové situace • Rozdíl ve všech třech skupinách: • Žádný rozdíl mezi skupinami: AD MCI CN AD MCI CN AD MCI CNAD MCI CN Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková ANOVA jednoduchého třídění • Příklad: Chceme srovnat, zda se liší objem hipokampu podle typu onemocnění (3 - pacienti s AD; 2 - pacienti s MCI; 1 - zdravé kontroly). • Tzn. hypotézy budou mít tvar: • Postup: 1. Popisná sumarizace objemu hipokampu podle typu onemocnění. 2. Ověření normality hodnot ve VŠECH skupinách. 3. Ověření shodnosti rozptylů skupin. 4. Aplikujeme statistický test. 5. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 → zamítáme nulovou hypotézu → Rozdíl v objemu hipokampu podle typu onemocnění je statisticky významný (na hladině významnosti α=0,05.) CNMCIADH  :0 ostatníchododlišnéjejednonejméně: i1 H Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková ANOVA – postup v softwaru STATISTICA 1. V menu Statistics zvolíme Basic Statistics, vybereme Breakdown & one-way ANOVA 2. Zvolíme proměnné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková 3. Záložka ANOVA & Tests: Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková testy homogenity rozptylů ANOVA ANOVA – postup v softwaru STATISTICA 4. Záložka Post-hoc: Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková post-hoc testy ANOVA – postup v softwaru STATISTICA Výsledky ANOVA testu • Výsledek ze softwaru STATISTICA: • Tabulka analýzy rozptylu jednoduchého třídění: Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p- hodnota Mezi skupinami SA = 71 422 222 dfA = k – 1 = 2 MSA = SA/dfA = 35 711 111 <0,001 Uvnitř skupin (reziduální var.) Se = 26 857 142 dfe = n – k = 830 MSe = Se/dfe = 32 358 Celkem ST = 98 279 364 dfT = n – 1 = 832 6,1103 / /  ee AA dfS dfS F Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková Další kroky analýzy ANOVA H0 zamítáme (p<0,05) H0 nezamítáme (p>0,05) STOP Provést mnohonásobné porovnávání (post-hoc testy) V našem příkladu p<0,05 → provedeme post-hoc testy: Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková Poznámka Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková • Může nastat situace, kdy zamítneme H0 u ANOVY, ale metodami mnohonásobného porovnávání nenajdeme významný rozdíl u žádné dvojice středních hodnot. K tomu dochází zvláště tehdy, když p-hodnota pro ANOVU je jen o málo nižší než zvolená hladina významnosti. • Důvod: post-hoc testy (tzn. metody mnohonásobného porovnávání) mají obecně menší sílu než ANOVA, proto nemusí odhalit žádný rozdíl. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Mannův-Whitneyův test Párový Wilcoxonův test, párový znaménkový test, Kruskalův-Wallisův test, Metoda mnohonásobného porovnání Samostatné cvičení 1. Příklad k procvičení  Načtěte data 05_1_priklad. Ke zjištění, zda se liší spotřeba při dvou určitých druzích benzínu (A, B), bylo vybráno 10 aut, u kterých za jinak stejných zkušebních podmínek byla změřena spotřeba při použití každého ze dvou druhů benzínu. 1. Pomocí vhodného testu testujte hypotézu, že spotřeba benzínu A i B byla stejná (hladina významnosti = 0,05). 2. Příklad k procvičení  Načtěte data 05_2_priklad. Byl sledován vliv vitamínového doplňku do krmiva na zvyšování váhových přírůstků u selat. U 19 z 38 selat byl aplikován vitamínový přípravek. 1. Pomocí vhodného testu testujte hypotézu, že porovnávané způsoby výkrmů (1: klasická směs, 2: směs s vitamínovým doplňkem) se neliší (hladina významnosti = 0,05). 3. Příklad k procvičení • Načtěte data 05_3_priklad. Výrobce koláčů má 4 nové recepty (A,B,C,D) a chce zjistit, zda se jejich kvalita liší. Upekl proto 5 koláčů od každého druhu a dal je porotě k ohodnocení. Hodnocení poroty je v následující tabulce: 1. Pomocí vhodného testu testujte hypotézu, že recepty se neliší (hladina významnosti = 0,05). Pokud nulovou hypotézu zamítnete, zjistěte, které dvojice receptů se liší. Recept Body A 72 88 70 87 71 B 85 89 86 82 88 C 94 94 88 87 89 D 91 93 92 95 94 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Mannův-Whitneyův test Párový Wilcoxonův test, párový znaménkový test, Kruskalův-Wallisův test, Metoda mnohonásobného porovnání Samostatné cvičení – řešení 1. Příklad k procvičení – řešení  Načtěte data 05_1_priklad. Ke zjištění, zda se liší spotřeba při dvou určitých druzích benzínu (A, B), bylo vybráno 10 aut, u kterých za jinak stejných zkušebních podmínek byla změřena spotřeba při použití každého ze dvou druhů benzínu. 1. Pomocí vhodného testu testujte hypotézu, že spotřeba benzínu A i B byla stejná (hladina významnosti = 0,05). 2. Příklad k procvičení – řešení  Načtěte data 05_2_priklad. Byl sledován vliv vitamínového doplňku do krmiva na zvyšování váhových přírůstků u selat. U 19 z 38 selat byl aplikován vitamínový přípravek. 1. Pomocí vhodného testu testujte hypotézu, že porovnávané způsoby výkrmů (1: klasická směs, 2: směs s vitamínovým doplňkem) se neliší (hladina významnosti = 0,05). 3. Příklad k procvičení • Načtěte data 05_3_priklad. Výrobce koláčů má 4 nové recepty (A,B,C,D) a chce zjistit, zda se jejich kvalita liší. Upekl proto 5 koláčů od každého druhu a dal je porotě k ohodnocení. 1. Pomocí vhodného testu testujte hypotézu, že recepty se neliší (hladina významnosti = 0,05). Pokud nulovou hypotézu zamítnete, zjistěte, které dvojice receptů se liší.