logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek χ2 test Shrnutí statistických testů Kontingenční tabulky 12. Kontingenční tabulky a χ2 test logo-IBA logomuni Shrnutí statistických testů Typ srovnání Nulová hypotéza Parametrický test Neparametrický test 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu. jednovýběrový t-test Wilcoxonův test; znaménkový test 2 skupiny dat nepárově Obě skupiny hodnot pochází ze stejného rozdělení. nepárový t-test Mann-Whitneyův test 2 skupiny dat párově Zkoumaný efekt mezi páry hodnot je nulový. Párový t-test Wilcoxonův test; znaménkový test shoda rozdělení rozdělení dat ve skupině odpovídá teoretickému (vybranému) rozdělení. Shapiro-Wilkův test; Kolmogorovův-Smirnovův test; Lilieforsův test χ2 test, test dobré shody homoskedasticita (shoda rozptylů) rozptyl obou (všech) skupin je shodný. Levenův test více skupin nepárově Zkoumaný efekt mezi skupinami hodnot je nulový. ANOVA Kruskal- Wallisův test korelace Neexistuje (příčinná, důsledková) vazba mezi skupinami hodnot. Pearsonův koeficient Spearmanův koeficient; Kendallův koeficient logo-IBA logomuni Shrnutí statistických testů Jsou data normálně rozdělená? Lze použít transformaci? Kolik je skupin? Jsou data párová? Co chci spočítat? Mají sku- piny stejný rozptyl? Nelze spočítat NE ANO ANO Co chci spočítat? Co chci spočítat? Jedno-výběro-vý t-test Párový t-test Nelze spočítat Dvouvý běrový t-test Mann- Whitney U-test Sada Pears. kor. koef. ANOVA Kruskal-Wallisův test Nelze spočítat Wilco-xonův test Spear-manův/ Kendallův k. k. Wilco-xonův test Nelze spočítat Nelze spočítat Kuskal-Wallisův test Pearso-nův kor. koef. ANO NE ANO NE Jsou data párová? ANO NE Mají sku- piny stejný rozptyl? ANO NE Co chci spočítat? Co chci spočítat? Kolik je skupin? Co chci spočítat? Jsou data párová? ANO NE Jsou data párová? Nelze spočítat Mann-Whitney U-test Co chci spočítat? Co chci spočítat? Co chci spočítat? ANO NE Parametrické testy Kolomogorovův-Smirnovův test Shapiro-Wilkův test F test Levenův test Co chci spočítat? log arcsin logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Statistické testování – základní pojmy Nulová hypotéza H0 Alternativní hypotéza HA Testová statistika Kritický obor testové statistiky 0 T Pozorovaná hodnota – Očekávaná hodnota Variabilita dat Testová statistika = H0: sledovaný efekt je nulový HA: sledovaný efekt je různý mezi skupinami * Velikost vzorku Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model – testová statistika. logo-IBA logomuni P-hodnota —Významnost hypotézy hodnotíme dle získané tzv. p-hodnoty, která vyjadřuje pravděpodobnost, s jakou číselné realizace výběru podporují H0, je-li pravdivá. —P-hodnotu porovnáme s α (hladina významnosti, stanovujeme ji na 0,05, tzn., že připouštíme 5 % chybu testu, tedy, že zamítneme H0, ačkoliv ve skutečnosti platí). —P-hodnotu získáme při testování hypotéz ve statistickém softwaru. — —Je-li p-hodnota ≤ α, pak H0 zamítáme na hladině významnosti α a přijímáme HA —Je-li p-hodnota > α, pak H0 nezamítáme na hladině významnosti α — —P-hodnota vyjadřuje pravděpodobnost za platnosti H0, s níž bychom získali stejnou nebo extrémnější hodnotu testové statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita M. Cvanová logo-IBA logomuni Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Test dobré shody - základní teorie Testuje shodu reálné distribuce hodnot do n skupin s teoretickou distribucí. Předpokladem je, že velikost rozdílu mezi očekávaným a skutečným počtem hodnot v každé skupině je náhodně rozdělená → multinomické rozdělení. Součet druhých mocnin relativních rozdílů očekávaného a skutečného počtu hodnot má přibližně C rozdělení. chi.jpg χ2 rozdělení pro kladné hodnoty (suma čtverců) se liší podle počtu stupňů volnosti k (počtu skupin) - se zvyšujícím se k přechází v normální rozdělení. pozorovaná četnost očekávaná četnost očekávaná četnost = 2 - ∑ logo-IBA logomuni Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Test dobré shody – stupně volnosti Počet stupňů volnosti je roven počtu nezávislých skupin vstupujících do χ2 testu: • V případě jednorozměrné distribuce (např. test shody rozdělení n hodnot náhodné veličiny) je roven n-1 Chi-square pdf.svg •V případě vícerozměrné distribuce (např. test shody očekávaných a pozorovaných hodnot v kontingenční tabulce m × n) je roven (m-1)×(n-1). logo-IBA logomuni Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Test dobré shody - základní teorie pozorovaná četnost očekávaná četnost očekávaná četnost = + 2 pozorovaná četnost očekávaná četnost očekávaná četnost 1. jev 2. jev - 2 - + … chi2.jpg chi2b.jpg chi2c.jpg chi2d.jpg logo-IBA logomuni Očekávané četnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita M. Cvanová V případě platnosti nulové hypotézy je poměr mezi buňkami jednoho sloupce v různých řádcích nezávislý na výběru tohoto sloupce. V případě platnosti nulové hypotézy je poměr mezi buňkami jednoho řádku v různých sloupcích nezávislý na výběru tohoto řádku. Pokud tyto poměry normalizujeme, získáváme tabulku očekávaných četností. Řádkové a sloupcové součty se touto operací nemění. Ano Ne S Ano 20 82 102 Ne 10 54 64 S 30 136 166 Ano Ne S Ano 18,4 83,6 102 Ne 11,6 52,4 64 S 30 136 166 Pozorované četnosti Očekávané četnosti 102 × 30 / 166 logo-IBA logomuni Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody - základní teorie Binomické jevy (1/0) pozorovaná četnost očekávaná četnost očekávaná četnost = + 2 pozorovaná četnost očekávaná četnost očekávaná četnost I. jev 1 II. jev 2 - 2 - Příklad 10 000 lidí hází mincí rub: 4 000 případů (R) líc: 6 000 případů (L) Lze výsledek považovat za statisticky významně odlišný (nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ? Rozdíl je vysoce statisticky významný (p << 0,001] Tabulková hodnota: logo-IBA logomuni Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulky H0 :Nezávislost dvou jevů A a B Kontingenční tabulka 2 x 2 + - S + a b - c d S suma sum B A logo-IBA logomuni Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulky: příklad Ano Ne S Ano 20 82 102 Ne 10 54 64 S 30 136 166 gen … Kontingenční tabulka v obrázku Gen: ANO Gen: NE logo-IBA logomuni Příklad – závislost pohlaví na onemocnění Zdraví Nemocní Celkem Muži 50 50 100 Ženy 50 50 100 Celkem 100 100 200 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita M. Cvanová Zdraví Nemocní Celkem Muži 45 55 100 Ženy 55 45 100 Celkem 100 100 200 Zdraví Nemocní Celkem Muži 35 65 100 Ženy 65 35 100 Celkem 100 100 200 Zdraví Nemocní Celkem Muži 5 95 100 Ženy 95 5 100 Celkem 100 100 200 logo-IBA logomuni Příklad – závislost pohlaví na onemocnění Zdraví Nemocní Celkem Muži 50 50 100 Ženy 50 50 100 Celkem 100 100 200 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita M. Cvanová Zdraví Nemocní Celkem Muži 45 55 100 Ženy 55 45 100 Celkem 100 100 200 Zdraví Nemocní Celkem Muži 35 65 100 Ženy 65 35 100 Celkem 100 100 200 Zdraví Nemocní Celkem Muži 5 95 100 Ženy 95 5 100 Celkem 100 100 200 Zdraví Nemocní Celkem Muži 50 50 100 Ženy 50 50 100 Celkem 100 100 200 Očekávané hodnoty pro všechny tabulky vlevo Pozorované hodnoty pozorovaná četnost očekávaná četnost očekávaná četnost = 2 - logo-IBA logomuni Příklad – závislost pohlaví na onemocnění Zdraví Nemocní Celkem Muži 50 50 100 Ženy 50 50 100 Celkem 100 100 200 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita M. Cvanová Zdraví Nemocní Celkem Muži 45 55 100 Ženy 55 45 100 Celkem 100 100 200 Zdraví Nemocní Celkem Muži 35 65 100 Ženy 65 35 100 Celkem 100 100 200 Zdraví Nemocní Celkem Muži 5 95 100 Ženy 95 5 100 Celkem 100 100 200 Χ2 = 0,0 p = 1,000 Χ2 =2,0 p = 0,157 Χ2 = 18,0 p < 0,0001 Χ2 = 162,0 p < 0,0001