logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Princip testování Chyby p-hodnota 7. Statistické testování logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistické testování – základní pojmy Nulová hypotéza H0 Alternativní hypotéza HA Testová statistika Kritický obor testové statistiky 0 T Pozorovaná hodnota – Očekávaná hodnota Variabilita dat Testová statistika = HO: sledovaný efekt je nulový HA: sledovaný efekt je různý mezi skupinami * Velikost vzorku Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model – testová statistika. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Možné chyby při testování hypotéz Závěr testu H0 nezamítáme H0 zamítáme β 1- β 1- α α —I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby. Správné rozhodnutí Správné rozhodnutí Chyba II. druhu Chyba I. druhu logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Význam chyb při testování hypotéz Pravděpodobnost chyby 1. druhu a Pravděpodobnost nesprávného zamítnutí nulové hypotézy Pravděpodobnost chyby 2. druhu b Pravděpodobnost nerozpoznání neplatné nulové hypotézy Síla testu 1-b Pravděpodobnostně vyjádřená schopnost rozpoznat neplatnost hypotézy Před výpočtem testu si stanovujeme maximální přípustnou pravděpodobnost. Obvykle 5 %. Nemůžeme ovlivnit jinak než výběrem testu. Síla testu je vlastností testu – parametrické testy mají vyšší sílu než neparametrické. logo-IBA P-hodnota —Významnost hypotézy hodnotíme dle získané tzv. p-hodnoty, která vyjadřuje pravděpodobnost, s jakou číselné realizace výběru podporují H0, je-li pravdivá. —P-hodnotu porovnáme s α (hladina významnosti, stanovujeme ji na 0,05, tzn., že připouštíme 5% chybu testu, tedy, že zamítneme H0, ačkoliv ve skutečnosti platí). —P-hodnotu získáme při testování hypotéz ve statistickém softwaru. — —Je-li p-hodnota ≤ α, pak H0 zamítáme na hladině významnosti α a přijímáme HA. —Je-li p-hodnota > α, pak H0 nezamítáme na hladině významnosti α. — —P-hodnota vyjadřuje pravděpodobnost za platnosti H0, s níž bychom získali stejnou nebo extrémnější hodnotu testové statistiky. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistické testy a normalita dat —Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) – např. t-testy —Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (t-rozložení) a test tak může lhát — —Řešením je tedy: ¡Transformace dat za účelem dosažení normality jejich rozložení ¡Neparametrické testy – tyto testy nemají žádné předpoklady o rozložení dat Typ srovnání Parametrický test Neparametrický test 2 skupiny dat nepárově: Nepárový t-test Mann-Whitneyův test 2 skupiny dat párově: Párový t-test Wilcoxonův test znaménkový test Více skupin nepárově: ANOVA Kruskal- Wallisův test Korelace: Pearsonův koeficient Spearmanův koeficient Kendallův koeficient logo-IBA logomuni Shrnutí statistických testů Typ srovnání Nulová hypotéza Parametrický test Neparametrický test 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu. jednovýběrový t-test Wilcoxonův test; znaménkový test 2 skupiny dat nepárově Obě skupiny hodnot pochází ze stejného rozdělení. nepárový t-test Mann-Whitneyův test 2 skupiny dat párově Zkoumaný efekt mezi páry hodnot je nulový. párový t-test Wilcoxonův test; znaménkový test shoda rozdělení rozdělení dat ve skupině odpovídá teoretickému (vybranému) rozdělení. Shapiro-Wilkův test; Kolmogorovův-Smirnovův test; Lilieforsův test χ2 test, test dobré shody homoskedasticita (shoda rozptylů) rozptyl obou (všech) skupin je shodný. F test; Levenův test více skupin nepárově Zkoumaný efekt mezi skupinami hodnot je nulový. ANOVA Kruskal- Wallisův test korelace Neexistuje (příčinná, důsledková) vazba mezi skupinami hodnot. Pearsonův koeficient Spearmanův koeficient; Kendallův koeficient logo-IBA logomuni Shrnutí statistických testů Jsou data normálně rozdělená? Lze použít transformaci? Kolik je skupin? Jsou data párová? Co chci spočítat? Mají sku- piny stejný rozptyl? Nelze spočítat NE ANO ANO Co chci spočítat? Co chci spočítat? Jedno-výběro-vý t-test Párový t-test Nelze spočítat Dvouvý běrový t-test Mann- Whitney U-test Sada Pears. kor. koef. ANOVA Kruskal-Wallisův test Nelze spočítat Wilco-xonův test Spear-manův/ Kendallův k. k. Wilco-xonův test Nelze spočítat Nelze spočítat Kuskal-Wallisův test Pearso-nův kor. koef. ANO NE ANO NE Jsou data párová? ANO NE Mají sku- piny stejný rozptyl? ANO NE Co chci spočítat? Co chci spočítat? Kolik je skupin? Co chci spočítat? Jsou data párová? ANO NE Jsou data párová? Nelze spočítat Mann-Whitney U-test Co chci spočítat? Co chci spočítat? Co chci spočítat? ANO NE Parametrické testy Kolomogorovův-Smirnovův test Shapiro-Wilkův test F test Levenův test Co chci spočítat? log arcsin logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametrické vs. neparametrické testy Parametrické testy Neparametrické testy •Mají předpoklady o rozložení vstupujících dat (např. normální rozložení) •Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické •Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný •Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení •Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek One-sample vs. two sample testy Jednovýběrové testy (one-sample) Dvouvýběrové testy (two-sample) •Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční hodnotou (popřípadě se statistickým parametrem cílové populace). •V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace). •Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek. •Srovnávají navzájem dva vzorky (two sample, dvouvýběrové testy). •V testu jsou srovnávány dvě rozložení hodnot. •Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek. •Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nepárový vs. párový design Nepárový design Párový design •Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např. lidé z různých zemí, nezávislé skupiny pacientů s odlišnou léčbou atd. •Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat •Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci, reakce stejného kmene krys atd. •Vazba může být buď přímo dána nebo pouze předpokládána (v tom případě je nutné ji ověřit) •Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich původních datech logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Normalita dat Normální rozdělení pravděpodobnosti je definováno rovnicí: Kde f(x) značí hustotu pravděpodobnosti, μ značí střední hodnotu (aritmetický průměr), σ značí směrodatnou odchylku a x hodnotu zkoumané veličiny. Dosazením s za σ a x̅ za μ získáme křivku idealizovaného rozdělení pro daný výběr.