Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Biostatistika Opakování Analýza kontingenčních tabulek Základy korelační analýzy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Co byste měli umět z minula: 1. Určit, kdy je vhodné použít pro testování hypotéz parametrické a neparametrické testy – ověřování předpokladů. 2. Vybrat typ neparametrického testu – jednovýběrový, párový nebo dvouvýběrový? 3. Provést testování v softwaru Statistica – Wilcoxonův test, znaménkový test, Mannův-Whitneyho test, Kruskalův-Wallisův test. 4. Interpretovat výsledky testování. Základní rozhodování o výběru statistických testů - co budeme probírat dnes Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův koeficient Jednovýběrový t-test, z-test Párový t-test Dvouvýběrový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův koeficient Wilcoxonův / znaménkový test Wilcoxonův / znaménkový test MannůvWhitneyův / mediánový t. KruskalůvWallisův test / mediánový t. Jednovýběrový binomický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita E. Janoušová, L. Dušek Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulky Pearsonův chí-kvadrát test (test dobré shody) Fisherův exaktní test McNemarův test Analýza kontingenčních tabulek Kontingenční tabulka - opakování Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová • Frekvenční sumarizace dvou kategoriálních proměnných (binárních, nominálních nebo ordinálních proměnných). • Obecně: R x C kontingenční tabulka (R – počet kategorií jedné proměnné, C – počet kategorií druhé proměnné). • Speciální případ: 2 x 2 tabulka = čtyřpolní tabulka. • Kontingenční tabulky: absolutních četností, celkových procent, řádkových/sloupcových četností • Př.: Sumarizace vyšetřených osob podle pohlaví a výsledku diagnostického testu. Pohlaví Výsledek vyšetření Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 Ukázka kontingenční tabulky Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Nemocný Zdravý Celkem Muž a b a + b Žena c d c + d Celkem a + c b + d a + b + c + d = N Nemocný Zdravý Celkem Muž 45 11 56 Žena 25 6 31 Celkem 70 17 87 Celkový počet hodnot Simultánní absolutní četnost Marginální absolutní četnost • Vztah pohlaví a výskytu onemocnění (pozor na hodnocení nesmyslného vztahu) Jsou více nemocní muži nebo ženy? Kontingenční tabulky – procenta Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková Skupina Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 1 7 176 46 230 MCI 13 85 201 107 406 AD 9 34 90 64 197 Celkem 23 126 467 217 833 Kontingenční tabulka absolutních četností Skupina Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 0,4 3,0 76,5 20,0 100,0 MCI 3,2 20,9 49,5 26,4 100,0 AD 4,6 17,3 45,7 32,5 100,0 Celkem 2,8 15,1 56,1 26,1 100,0 Kontingenční tabulka řádkových procent Skupina Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 4,3 5,6 37,7 21,2 27,6 MCI 56,5 67,5 43,0 49,3 48,7 AD 39,1 27,0 19,3 29,5 23,6 Celkem 100,0 100,0 100,0 100,0 100,0 Kontingenční tabulka sloupcových procent Skupina Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 0,1 0,8 21,1 5,5 27,6 MCI 1,6 10,2 24,1 12,8 48,7 AD 1,1 4,1 10,8 7,7 23,6 Celkem 2,8 15,1 56,1 26,1 100,0 Kontingenční tabulka celkových procent Kontingenční tabulky – popis a vizualizace Skupina Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 1 (0,4%) 7 (3,0%) 176 (76,5%) 46 (20,0%) 230 (100,0%) MCI 13 (3,2%) 85 (20,9%) 201 (49,5%) 107 (26,4%) 406 (100,0%) AD 9 (4,6%) 34 (17,3%) 90 (45,7%) 64 (32,5%) 197 (100,0%) Celkem 23 (2,8%) 126 (15,1%) 467 (56,1%) 217 (26,1%) 833 (100,0%) 20.9 17.3 76.5 49.5 45.7 20.0 26.4 32.5 3.2 4.6 3.0 <60 let 60-70 let n = 230 n = 406 n = 197 CN MCI AD Věk: Skupina: 70-80 let ≥80 let Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Co analyzujeme u kontingenčních tabulek?  Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými. Základním způsobem testování je tzv. chí-kvadrát test, který srovnává pozorované četnosti kombinací kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi proměnnými náhodný.  Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem daných určitým pravidlem (typickým příkladem je Hardy-Weinbergova rovnováha v genetice).  Specifickým typem výstupů odvozených z kontingenčních tabulek jsou tzv. poměry šancí a relativní rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody - základní teorie  2 pozorovaná četnost očekávaná četnost očekávaná četnost = + 2 pozorovaná četnost očekávaná četnost očekávaná četnost 1. jev 2. jev - 2 - + …  2 pozorovaná četnost očekávaná četnost očekávaná četnost = 2 - ∑ .).( 2 )1( 2 vs   ... zamítáme H0 Testová statistika: 1 - hladina významnosti stupně volnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody: příklad I Binomické jevy (1/0)  2 )1( pozorovaná četnost očekávaná četnost očekávaná četnost= + 2 pozorovaná četnost očekávaná četnost očekávaná četnost I. jev 1 II. jev 2 - 2 - 0 1 Příklad 10 000 lidí hází mincí rub: 4 000 případů (R) líc: 6 000 případů (L) Lze výsledek považovat za statisticky významně odlišný (nebo neodlišný) od očekávaného poměru R : L = 1 : 1 (tzn. že je výsledek hodu mincí náhodný)? Rozdíl je vysoce statisticky významný (p < 0,001)     400 5000 50006000 5000 50004000 22 2      Tabulková hodnota: )195,0(84,3)11( 2 )95,0(   k Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0. žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité n f poz. 152 39 53 6 250 f oček. 140,6250 46,8750 46,8750 15,6250  = k - 1 = 3 Zamítáme hypotézu shody pozorovaných četností s očekávanými 972,8 6250,15 6250,9 8750,46 1250,6 8750,46 8750,7 6250,140 3750,11 2222 2  Test dobré shody: příklad II Tabulková hodnota: )195,0(7,81)31( 2 )95,0(   k Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulka - hypotézy  NEZÁVISLOST (Pearsonův chí-kvadrát test, Fisherův exaktní test)  Jeden výběr, 2 charakteristiky – obdoba nepárového uspořádání  Např.: existence vztahu mezi barvou očí a známkou z biostatistiky u studentů  SHODA STRUKTURY (Pearsonův chí-kvadrát test, Fisherův exaktní test)  Tzv. test homogenity  Více výběrů, jedna charakteristika – obdoba nepárového uspořádání  Např.: pohlaví pacientů s diabetem v K nemocnicích (tj. K výběrů)  SYMETRIE (McNemarův test)  Jeden výběr, opakovaně jedna charakteristika – obdoba párového uspořádání  Např.: posouzení stavu stromů ve dvou sezónách Základní rozhodování o výběru statistických testů - analýza kontingenčních tabulek Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýběrový t-test Párový t-test Dvouvýběrový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Wilcoxonův / znaménkový test Wilcoxonův / znaménkový test MannůvWhitneyho / mediánový t. KruskalůvWallisův test / mediánový t. Jednovýběrový binomický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita E. Janoušová, L. Dušek  Máme dvě nominální veličiny, X (má r variant) a Y (má s variant)  Kontingenční tabulka typu r x s  Označení: njk- simultánní absolutní četnost, nj.- marginální absolutní četnost Kontingenční tabulka - obecně Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek y[1] ….. ….. y[s] nj. x[1] n11 ….. ..... n1s n1. . . ….. ….. . . . . ….. ….. . . x[r] nr1 ….. ….. nrs nr. n.k n.1 . . n.s n x[j] y[k] Simultánní absolutní četnost Marginální absolutní četnost Marginální absolutní četnost Testování nezávislosti – Pearsonův chí-kvadrát test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek  Souvisí spolu výskyt dvou nominálních znaků měřených na jediném výběru?  Příklad: Souvisí barva očí (modrá, zelená, hnědá) a barva vlasů (hnědá, černá, blond) u vybraných 30 studentů?  Nulová hypotéza: Znaky X a Y jsou nezávislé náhodné veličiny.  Alternativní hypotéza: Znaky X a Y jsou závislé náhodné veličiny.  Test: Pearsonův chí-kvadrát Očekávané (teoretické) četnosti ejk : • H0 zamítáme na hladině významnosti α, pokud • Předpoklady testu ?  )1)(1( )( 2 1 1 2      sr e en K r j s k jk jkjk  H0 platí  )1)(1(2 1   srK  n nn e kj jk ..  Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek  Předpoklady Pearsonova chí-kvadrát testu: 1. Jednotlivá pozorování shrnutá v kontingenční tabulce jsou nezávislá, tj. každý prvek patří jen do jedné buňky kont. tabulky, nemůže zároveň patřit do dvou. 2. Podmínky dobré aproximace: Očekávané (teoretické) četnosti jsou aspoň v 80 % případů větší nebo rovné 5 a ve 100 % případů nesmí být pod 2 (pokud není tento předpoklad splněn, je vhodné sloučit kategorie s nízkými četnostmi, ale tyto kategorie musí být slučitelné!).  Měření síly závislosti: Cramérův koeficient: Význam hodnot: 0-0,1….zanedbatelná závislost 0,1-0,3…slabá závislost 0,3-0,7…střední závislost 0,7-1 silná závislost    1,0int,,min, )1( ervaluzjeVsrmkde mn K V    Testování nezávislosti – Pearsonův chí-kvadrát test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková  Podmínka dobré aproximace – alespoň 80% buněk musí mít očekávanou (teoretickou) četnost větší než 5 – pro různě velké tabulky: tabulka 2x3 či 3x2 – alespoň 5 z 6 buněk tabulka 2x4 či 4x2 – alespoň 7 z 8 buněk tabulka 2x5 či 5x2 – alespoň 8 z 10 buněk tabulka 3x3 – alespoň 8 z 9 buněk tabulka 3x4 či 4x3 – alespoň 10 z 12 buněk tabulka 3x5 či 5x3 – alespoň 12 z 15 buněk tabulka 4x4 – alespoň 13 z 16 buněk tabulka 4x5 či 5x4 – alespoň 16 z 20 buněk tabulka 5x5 – alespoň 20 z 25 buněk Testování nezávislosti – Pearsonův chí-kvadrát test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulky: příklad FA = 102 * 30 / 166 = 18,43 FB = 102 * 136 / 166 = 83,57 FC = 11,57 FD = 52,43         423,0 43,52 43,5254 57,11 57,1110 57,83 57,8382 43,18 43,1820 2222 2 )1(          84,3423,0 )1(2 95,0   Ano Ne S Ano 20 82 102 Ne 10 54 64 S 30 136 166 gen  Kontingenční tabulka v obrázku 15,6 84,4 Zemřelí Žijící % 20 80 Zemřelí Žijící %c: 49% d: 33% a: 12% b: 6% Gen: ANO Gen: NE Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řešení v softwaru Statistica  Datový soubor může být zadán 2 způsoby:  Původní data (co řádek, to subjekt charakterizovaný danými kategoriálními proměnnými),  Agregovaná data (kontingenční tabulka, četnosti všech kombinací kategorií 2 kategoriálních proměnných) – analýza agregovaných dat možná i pomocí webových kalkulátorů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 1: Řešení v softwaru Statistica I  Na hladině významnosti 0,05 testujte hypotézu o nezávislosti genu a stavu pacienta. Simultánní četnosti znázorněte graficky. • Původní datový soubor (co řádek, to subjekt) • V menu Statistics zvolíme Basic statistics, Vybereme Tables and banners (v češtině Kontingenční tabulky) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 1: Řešení v softwaru Statistica II • Vybereme proměnné, které chceme testovat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 1: Řešení v softwaru Statistica III • Na záložce Options zaškrtneme Expected frequencies (Očekávané četnosti) (k ověření podmínek dobré aproximace) • Zaškrtneme Pearsonův chí-kvadrát • Pokud chceme vypočítat i Cramérův koeficient zaškrtneme Phi & Cramer‘s V • Poté se vrátíme na záložku Advanced, kde a zvolíme Detailed two-way tables Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 1: Řešení v softwaru Statistica IV Tab.1: Pozorované četnosti Jsou splněny podmínky dobré aproximace? Tab. 3: Pearsonův chí-kvadrát p- hodnota Hodnota testové statistiky Počet stupňů volnosti Tab. 2: Očekávané četnosti Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 2: Řešení v softwaru Statistica I  Na hladině významnosti 0,05 testujte hypotézu o nezávislosti genu a stavu pacienta. Simultánní četnosti znázorněte graficky. • Agregovaný datový soubor • V menu Statistics zvolíme Basic statistics, vybereme Tables and banners (v češtině Kontingenční tabulky) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 2: Řešení v softwaru Statistica II • Vybereme proměnné, které chceme testovat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 2: Řešení v softwaru Statistica III • Zapneme váhy (vpravo ikonka černých vah w), jako váhy vybereme proměnnou četnost (tj. proměnnou, ve které jsou uvedeny počty případů jednotlivých kombinací kategorií) 2 3 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Způsob 2: Řešení v softwaru Statistica IV • Na záložce Options zaškrtneme Expected frequencies (Očekávané četnosti) (k ověření podmínek dobré aproximace) • Zaškrtneme Pearsonův chí-kvadrát • Pokud chceme vypočítat i Cramérův koeficient zaškrtneme Phi & Cramer‘s V • Poté se vrátíme na záložku Advanced, kde a zvolíme Detailed two-way tables Testování homogenity (shody struktury) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek  Motivace: Zajímá nás výskyt nominálního znaku u r nezávislých výběrů z r různých populací.  Příklad: Je zájem o sport stejný u děvčat jako u chlapců?  Nulová hypotéza: pravděpodobnostní rozdělení kategoriální proměnné je stejné v různých populací  Test: Pearsonův chí-kvadrát Dívky Chlapci Zájem o sport Ano a b a+b Ne c d c+d a+c b+d n Některé marginální četnosti (buď sloupcové, nebo řádkové) jsou předem pevně stanoveny Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Fisherův exaktní test  Využití ve čtyřpolní tabulce s nízkými četnostmi, které znemožňují použití Pearsonova chí-kvadrát testu.  Patří mezi neparametrické testy pracující s daty na nominální škále, v nejjednodušší podobě ve dvou třídách: pozitivní/negativní, úspěch/neúspěch apod.  Nulová hypotéza předpokládá rovnoměrné zastoupení sledovaného znaku u dvou nezávislých souborů.  Slovo exaktní (přímý) znamená, že se přímo vypočítává pravděpodobnost odmítnutí, resp. platnosti nulové hypotézy. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Fisherův exaktní test  Výpočet „přesné“ p-hodnoty, která zde hraje roli testové statistiky:  spočítá se parciální pravděpodobnost čtyřpolní tabulky p1:  Spočítá se pa všech možných tabulek při zachování marginálních četností (řádkové a sloupcové součty) a výsledná p-hodnota je součtem pa menších nebo stejných jako p1, která přísluší pozorované tabulce. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková Fisherův exaktní test – podrobněji  Založen na výpočtu „přesné“ p-hodnoty (pravděpodobnosti, s jakou bychom dostali stejný nebo ještě extrémnější výsledek při zachování součtu řádků i sloupců v tabulce).  Příklad: Chceme ověřit vztah dvou typů nežádoucích účinků, které jsou sumarizovány následující tabulkou:  Postup: Všechny varianty tabulky při zachování součtu řádků a sloupců: 2 3 6 4 NÚ I NÚ II ano ne ano ne 0 5 8 2 1 4 7 3 2 3 6 4 3 2 5 5 4 1 4 6 5 0 3 7 Pravděpodobnosti výskytu jednotlivých tabulek: 0,007 0,093 0,326 0,392 0,163 0,019 Oboustranná p-hodnota (sečtení pravděpodobností stejných nebo menších než je pravděpodobnost pozorované varianty): p = 0,326 + 0,093 + 0,007 + 0,163 + 0,019 = 0,608 0,007 0,093 0,326 0,163 0,019 Řešení v softwaru Statistica: Fisherův exaktní test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Na záložce Options zaškrtneme Fisher exact • Výstupní tabulka Pro jednostranný test Pro oboustranný test Fisherův exaktní test na webu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková • 2 x 2 tabulky: http://graphpad.com/quickcalcs/contingency1/ • 2 x 3 tabulky: http://www.vassarstats.net/fisher2x3.html • 2 x 5 (nebo menší) tabulky: http://www.quantitativeskills.com/sisa/statistics/fiveby2.htm • 3 x 3 tabulky: http://vassarstats.net/fisher3x3.html Test hypotézy o symetrii (McNemarův test pro čtyřpolní tabulku) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek  Motivace: Na osobách sledujeme binární proměnnou před pokusem a po něm, cílem je zjistit, zda došlo ke změně v rozdělení této proměnné.  Analýza párových dichotomických proměnných  Nulová hypotéza: , pokus nemá vliv na výskyt daného znaku  Testová statistika: pokud je větší než kritická hodnota rozdělení o jednom stupni volnosti (vhodné pro počty údajů b+c > 8), pak nulovou hypotézu zamítáme po + - nj. před + a b a+b - c d c+d n.k a+c b+d n Četnostní tabulka Tabulka teoretických pravděpodobností po + před + p11 p12 p1. - p21 p22 p2. p.1 p.2 cb cb    2 2 )1(  jiij pp  2  McNemarův test: příklad I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Zjistěte, zda úspěch našich sportovců na olympiádě vede ke změně postojů žáků ke sportování. Nulová hypotéza: Počet žáků, kteří změní svůj postoj pozitivním směrem, je pouze náhodně odlišný od počtu žáků, kteří změní svůj postoj negativním směrem. Závěr: Úspěch našich sportovců má pozitivní vliv na postoj žáků vzhledem k provozování sportu. Postoj po olympiádě + Postoj před olympiádou + 5 3 8 - 16 2 18 21 5 26 58,7 163 )1163( 2 2     84,3)12/)1((2 1  kkvTabulky: H0 zamítnuta Stupně volnosti Řešení v softwaru Statistica: McNemarův test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Na záložce Options zaškrtneme McNemar (2x2) • Výstupní tabulka Datový soubor Výstupní kontingenční tabulka 2 hodnoty testových statistik a p-hodnoty, podle toho, kde jsou ve výstupní kontingenční tabulce uloženy četnosti, u kterých jsme při opakovaném měření zaznamenali rozdílné výsledky (A/D nebo B/C) Společný příklad – testování homogenity Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Očkování proti chřipce se zúčastnilo 460 dospělých, z nichž 240 dostalo očkovací látku proti chřipce a 220 dostalo placebo. Na konci experimentu onemocnělo 100 lidí chřipkou, 20 z nich bylo z očkované skupiny a 80 z kontrolní skupiny. Je to dostatečný důkaz, že očkovací látka byla účinná? Nulová hypotéza: Procento výskytu chřipky je v očkované a kontrolní skupině stejné. 1. Vytvořte si na základě zadání datový soubor v softwaru STATISTICA (agregovaná data ve formě kontingenční tabulky). 2. Testujte platnost nulové hypotézy pomocí Pearsonova chí-kvadrát testu. 3. Testujte platnost nulové hypotézy pomocí Fisherova exaktního testu. 4. Který z testů je vhodné použít a proč? Základní rozhodování o výběru statistických testů - jednovýběrový binomický test Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýběrový t-test Párový t-test Dvouvýběrový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Wilcoxonův / znaménkový test Wilcoxonův / znaménkový test MannůvWhitneyho / mediánový t. KruskalůvWallisův test / mediánový t. Jednovýběrový binomický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita E. Janoušová, L. Dušek Jednovýběrový binomický test Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková • test pro podíl u jednoho výběru • Liší se podíl (p) pacientů s výskytem sledovaného jevu od předpokládané (referenční) hodnoty (π)? • např. liší se procento pacientů s nežádoucími účinky léčby od předpokládaného procenta? • výpočet: https://www.medcalc.org/calc/test_one_proportion.php Jednovýběrový binomický test – příklad Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, E. Koriťáková • Příklad: Z 50 studentů, kteří si zvolilo maturitu z matematiky, ji v letošním roce neudělalo 12. Ověřte, zda podíl neúspěšných studentů je stejný jako v předchozím roce, kdy byla neúspěšnost 5%. • Tzn. hypotézy budou mít tvar: a • Řešení: • π = 5% • p = 12/50 = 0,24 => 24% • Závěr: Podíl neúspěšných studentů je statisticky významně odlišný od podílu v předchozím roce. pH :0 pH :1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Korelace a regrese Pearsonův korelační koeficient Spearmanův korelační koeficient Základy korelační analýzy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Proč hodnotit vztah dvou spojitých veličin?  Vztah mezi dvěma spojitými veličinami v jedné skupině: 1. Chceme zjistit, jestli mezi nimi existuje vztah – např. jestli vyšší hodnoty jedné veličiny znamenají nižší hodnoty jiné veličiny; 2. Chceme predikovat hodnoty jedné veličiny na základě znalosti hodnot jiných veličin; 3. Chceme kvantifikovat vztah mezi dvěma spojitými veličinami – např. pro použití jedné veličiny namísto druhé veličiny. Korelační a regresní analýza  Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické.  Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Základní rozhodování o výběru statistických testů - korelační analýza Typ dat Spojitá x spojitá data Spojitá x kategoriální data Kategoriální x kategoriální data Jeden výběr Dva výběry Tři a více výběrů (nepárově) Jeden výběr Více výběrů Párová data Nepárová data Pearsonův korelační koeficient Jednovýběrový t-test Párový t-test Dvouvýběrový t-test ANOVA Párová data Nepárová data Chí-kvadrát test Spearmanův korelační koeficient Wilcoxonův / znaménkový test Wilcoxonův / znaménkový test MannůvWhitneyho / mediánový t. KruskalůvWallisův test / mediánový t. Jednovýběrový binomický test McNemarův test Fisherův exaktní test Parametrické testy Neparametrické testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita E. Janoušová, L. Dušek Vizuální hodnocení vztahu dvou proměnných  Nejjednodušší formou je bodový graf (x‐y graf), tzv. scatterplot.  Vztah výšky a váhy studentů Biostatistiky pro matematické biology – jaro 2010: Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Korelační koeficienty  Korelační koeficient (r) – kvantifikuje míru vztahu mezi dvěma spojitými veličinami (X a Y).  Pearsonův korelační koeficient – parametrický, hodnotí míru lineární závislosti mezi 2 spojitými proměnnými,  Spearmanův korelační koeficient – neparametrický, hodnotí míru lineární pořadové závislosti mezi 2 spojitými proměnnými.  Hodnota r je kladná, když vyšší hodnoty X souvisí s vyššími hodnotami Y, naopak hodnota r je záporná, když nižší hodnoty X souvisí s vyššími hodnotami Y.  Nabývá hodnot od -1 do 1: r = 0 → nekorelované r > 0 → kladně korelované r < 0 → záporně korelované Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Korelační koeficienty - ukázky r = 1,0 r = -0,9 r = 0,4 r = 0,05 Y X Y X Y X Y X Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina, E. Koriťáková Test hypotézy H0: r = 0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina  K měření těsnosti lineárního vztahu 2 spojitých proměnných r = 0 → nekorelované r > 0 → kladně korelované r < 0 → záporně korelované  H0: proměnné X, Y jsou nezávislé náhodné veličiny (r = 0) HA: proměnné X, Y nejsou nezávislé náhodné veličiny (r ≠ 0)  Testování pomocí intervalu spolehlivosti nebo výpočet testové statistiky (srovnání s kritickou hodnotou nebo výpočet p-hodnoty) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Problémy s výpočtem r Problém více skupin Nelineární vztah X Y X r = 0,981 (p < 0,001) r = 0,761 (p = 0,032) Y Problém velikosti výběru Y X Y X r = 0,891 (p = 0,214) r = 0,212 (p = 0,008) Odlehlá hodnota −2 0 2 4 −2−1012345 Pozorované hodnoty x Pozorovanéhodnotyy Odlehlá hodnota r = 0,36 p = 0,009 r = 0,36 (p = 0,009) Může způsobit, že korelace vyjde významně, i když ve skutečnosti tam žádný vztah není! Může způsobit, že korelace bude méně významná (či dokonce nevýznamná), i když ve skutečnosti tam vztah je! Pearsonův korelační koeficient: r = 0,65 (p = 0,029) Spearmanův korelační koeficient: rS = 0,95 (p < 0,001) Problémy s výpočtem Pearsonova kor. koef. I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina, E. Koriťáková Problémy s výpočtem Pearsonova kor. koef. II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, T. Pavlík,, E. Koriťáková • Při srovnání dvou spojitých proměnných je nutné vykreslovat bodový graf, protože histogramy pro jednotlivé proměnné zvlášť nám nemusejí odhalit odlehlé hodnoty! Histogram of x x Frequency -20 -10 0 10 20 30 05101520 Histogram of y y Frequency -40 -20 0 20 40 60 051015 Histogram of x x -20 -10 0 10 20 30 Histogram of y y Frequency -40 -20 0 20 40 60 051015 -20 -10 0 10 20 -40-2002040 x y Řešení v softwaru Statistica: Pearsonův korelační koeficient I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Prozkoumejte lineární vztah mezi výškou a váhou u 13 studentů. Testujte hypotézu, že jsou tyto proměnné nezávislé. 1. Záložka Statistics 2. Basic Statistics 3. Correlation matrices 4. Potvrdíme: OK Řešení v softwaru Statistica: Pearsonův korelační koeficient II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina 5. Vybereme spojité proměnné pro hodnocení vztahu (váha a výška) ve One variable list. Na záložce Options můžeme vybrat formu výstupu (pouze phodnoty, matice korelačních koeficientů a p-hodnot ap.). 6. Summary: Correlations Jedna z možných výstupních tabulek: p-hodnota < 0,05 - test hypotézy H0: r = 0, lze vypsat i konkrétní hodnotu (změna formy výstupu na záložce Options – skutečnou p-hodnotu zjistíme zatrhnutím Display r, p-values, and N’s Pearsonovy korelační koeficienty Řešení v softwaru Statistica: Pearsonův korelační koeficient III Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Záložka Quick / Advanced umožňuje vykreslit různé druhy grafů (2D, 3D v případě více proměnných, matice bodových grafů s histogramy na diagonále ap.). Jsou v daném případě splněny předpoklady (dvourozměrné normální rozdělení, absence odlehlých pozorování, lineární vztah)? Na záložce Color maps můžeme získat matici korelačních koeficientů (nebo příslušných p-hodnot) obarvenou dle odpovídající barevné škály. Vhodné zejména při zkoumání vztahů mezi více spojitými proměnnými. Řešení v softwaru Statistica: Spearmanův korelační koeficient I Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Prozkoumejte pořadový vztah mezi výškou a váhou u 13 studentů. Testujte hypotézu, že jsou tyto proměnné nezávislé. 1. Záložka Statistics 2. Nonparametrics 3. Correlations 4. Potvrdíme: OK Řešení v softwaru Statistica: Spearmanův korelační koeficient II Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina 5. Výběr proměnných – Variables – Select variables (vyska, vaha) – OK 6. Pod možností Compute můžeme vybrat formu výstupu (čtvercová matice Square matrix, příp. detailní výsledky). 7. Lze vykreslit i matici bodových grafů s histogramy na diagonále (Scatterplot matrix for all variables). Jedna z forem výstupní tabulky: p-hodnota <0,05 - test hypotézy H0: r = 0, lze vypsat i konkrétní hodnotu přepnutím Compute na Detailed report Spearmanovy korelační koeicienty Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Testování nezávislosti Testování homogenity Samostatný úkol 1. Příklad k procvičení 1. Testujte hypotézu, že barva vlasů a barva očí spolu nesouvisí. K dispozici jsou údaje od 6 800 mužů (Yule, G. U., Kendall, M.G.: An Introduction to the Theory of Statistics, 14th ed. Griffin, London, 1950). 2. Vypočítejte Cramérův koeficient a interpretujte jej. Světlá Kaštanová Černá Zrzavá Celkem Modrá 1768 807 189 47 2811 Šedá nebo zelená 946 1387 746 53 3132 Tmavohnědá 115 438 288 16 857 Celkem 2829 2632 1223 116 6800 Nezapomeňte ověřit podmínky dobré aproximace! 2. Příklad k procvičení A B 0 AB Celkem Eskade 33 6 56 5 100 Annandale 54 14 52 5 125 Nithsdale 98 35 115 5 253 Celkem 185 55 223 15 478 1. Ve Skotsku byla provedena studie, která měla prokázat, zda procentuální zastoupení krevních skupin na celém území je homogenní nebo není. V oblasti Eskdale bylo náhodně vybráno 100 osob, v Annadale 125 osob a v Nithsdale 253 osob (Osborn J. F., 1979, Statistical Exersice in Medical Research, Blackwell Scientific publications, Oxford) Nezapomeňte ověřit podmínky dobré aproximace! Výsledky k samostatnému úkolu Testování nezávislosti Testování homogenity 1. Příklad k procvičení 1. Testujte hypotézu, že barva vlasů a barva očí spolu nesouvisí. K dispozici jsou údaje od 6 800 mužů (Yule, G. U., Kendall, M.G.: An Introduction to the Theory of Statistics, 14th ed. Griffin, London, 1950). 2. Vypočítejte Cramérův koeficient a interpretujte jej. Výsledky: chí-kvadrát = 1073,51 p < 0,001 … na hladině významnosti zamítáme nulovou hypotézu o nezávislosti barvy očí a barvy vlasů (před provedením testu jsme zkontrolovali podmínky dobré aproximace), Cramérův koeficient = 0,28 … mezi barvou očí a barvou vlasů je slabá závislost. 2. Příklad k procvičení 1. Ve Skotsku byla provedena studie, která měla prokázat, zda procentuální zastoupení krevních skupin na celém území je homogenní nebo není. V oblasti Eskdale bylo náhodně vybráno 100 osob, v Annadale 125 osob a v Nithsdale 253 osob (Osborn J. F. , 1979, Statistical Exersice in Medical Research, Blackwell Scientific publications, Oxford) Výsledky: chí-kvadrát = 10,454 P = 0,107 … nelze zamítnout nulovou hypotézu, že procentuální zastoupení krevních skupin na celém území je homogenní / stejné (před provedením testu jsme zkontrolovali podmínky dobré aproximace).