logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody Test nezávislosti Test homogenity VIII. Kontingenční tabulky logo-IBA Opakovanie Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek logo-IBA Jak vznikají informace ? – různé typy dat znamenají různou informaci Kolikrát ? Podíl hodnot větší/menší než specifikovaná hodnota ? O kolik ? Větší, menší ? Rovná se ? Procenta odvozené hodnoty Data poměrová Data intervalová Data ordinální Data nominální Spojitá data Diskrétní data Kategoriální otázky Otázky „Ano/Ne“ Samotná znalost typu dat ale na dosažení informace nestačí …………. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: schéma analýzy Nezávislé uspořádání neparametrické testy testy: ANO NE ANO t-test nezávislý aproximace Man - Whitney Mediánový test normalita ? homogenita rozptylu ? NE transformace NE c2 test Kolmogorov-Smirnov test Shapiro-Wilks test F-test logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Dvouvýběrové testy: schéma analýzy Párové uspořádání neparametrické testy testy: ANO Diference D t-test párový Znaménkový test Wilcoxonův test normalita ? NE transformace NE c2 test Kolmogorov-Smirnov test Shapiro-Wilks test logo-IBA Diskrétne dáta a kontingenčná tabuľka Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Motivácia —Pri spracovaní dát sa často stretávame s úlohou zistiť, či dva znaky nominálneho alebo ordinárneho typu sú stochasticky nezávislé. — —Príklad: ÷Závisí farba vlasov na farbe očí ÷Či sú poradia žiakov v dvoch rôznych predmetoch nezávislé ÷Či sú známky z matematiky a z biológie nejakým spôsobom závislé — — — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenčná tabuľka —Majme dva znaky X s počtom variant r a Y s počtom variant s — — — — — — — —n j. – marginálna absolútna četnosť —n jk – simultánna absolútna četnosť — njk /n – pravdepodobnosti (mariginálne alebo simultánne) — — y y[1] … y[s] nj. x njk x[1] n11 … n1s n1. … ... … … … x[r] nr1 … nrs nr. n.k n.1 … n.s n logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace —Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými. Základním způsobem testování je tzv. chi-square test, který srovnává pozorované četnosti kombinací kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi proměnnými náhodný. —Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem daným určitým pravidlem (typickým příkladem je Hardy-Weinbergova rovnováha v genetice) —Specifickým typem výstupů odvozených z kontingenčních tabulek jsou tzv. odds ratia a relativní rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobrej zhody – multinomické rozdelenie —Môže nastať len určitý počet situácií ( nejaké kategórie, z ktorých vyberáme). —Vždy musí nastať nejaká situácia (musíme vybrať jednu možnosť). —Nemôžu nastať dve situácie zároveň (vyberáme vždy len jednu možnosť). —Napr. Poranenie- ľahké, stredné, ťažké. —Jedno poranenie nemôže byť ľahké a ťažké zároveň a poranenie musí patriť do jednej kategórie. —Chceme testovať, či teoretická pravdepodobnosť je rovnaká ako v nazbieraných dátach. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody - základní teorie pozorovaná četnost očekávaná četnost očekávaná četnost = + 2 pozorovaná četnost očekávaná četnost očekávaná četnost 1. jev 2. jev - 2 - + … pozorovaná četnost očekávaná četnost očekávaná četnost = 2 - ∑ Porovnávame s tabuľkovou hodnotou a zamietame, ak je vyrátaná hodnota väčšia ako tabuľková logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody: příklad I H0: Pozorovaná frekvence pro jednotlivé barvy květů jsou vzorkem populace mající poměr mezi žlutými a červenými květy 3 :1. Součet frekvencí u obou barev květů (fi) se rovná 100 a pozorované frekvence u kategorií barvy budou srovnány s očekávanými frekvencemi (uvedeny v závorkách): Ověřte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v poměru žlutá : červená = 3 : 1. Kategorie barvy Žlutá Červená n f poz. 84 16 100 f oček. 75 25 St. volnosti = n = k - 1 = 1 Zamítáme hypotézu shody srovnávaných četností Při testování H0 jsme použili matematický zápis (0,025 < P < 0,05). Z tabulek c2 rozložení vidíme, že pravděpodobnost překročení hranice 2,706 je 0,1 (10 %), což může být stručně zapsáno jako P (c2 ³ 2,706) = 0,10. Dále lze zjistit pro P (c2 ³ 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové statistiky c2 = 4,320. Pro tento případ lze tedy psát 0,025 < P (c2 ³ 4,320) < 0,05; a jednodušeji 0,025 < P < 0,05. Jde v podstatě o přibližné určení hranic chyby 1. druhu. logo-IBA ü Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0. Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a očekávaných frekvencí pro více kategorií sledovaného znaku: žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité n f poz. 152 39 53 6 250 f oček. 140,6250 46,8750 46,8750 15,6250 n = k - 1 = 3 Zamítáme hypotézu shody pozorovaných četností s očekávanými Test dobré shody: příklad II logo-IBA ü Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu existence štěpného poměru 9 : 3 : 3 pro první tři kategorie semen: Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích hypotéz: žluté/hladké žluté/vrásčité zelené/hladké n f poz. 152 39 53 244 f oček. 146,400 48,800 48,800 n = k - 1 = 2 Nezamítáme hypotézu shody pozorovaných četností s očekávanými. Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní typy = 1:15 zelené/vrásčité ostatní n f poz. 6 244 250 f oček 15,625 234,375 n = k - 1 = 1 Zamítáme hypotézu shody pozorovaných četností s očekávanými. Test dobré shody: příklad III logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody: příklad IV - využití aditivity testu U 193 párů dvojčat byly zjištěny následující poměry pohlaví: 56 Ch - Ch 72 Ch – H 65 H - H ü Za předpokladu, že narození chlapečka má stejnou pravděpodobnost jako narození holčičky, lze očekávat poměry pro výše uvedené skupiny = 0,25 : 0,5 : 0,25. Ověřte tento předpoklad na uvedeném vzorku populace. ? S 193 párů 1/4 : 1/2 : 1/4 očekávané četnosti = 48,25 : 96,50 : 48,25 Proč lze v předchozím případě očekávat zamítnutí H0? Testujte následující hypotézy: 1) Jsou relativní počty párů se shodným pohlavím ve shodě s očekávanými četnostmi? (ignorujte Ch –H páry) 2) Je relativní četnost kombinace Ch - Ch a H - H párů oproti párům s rozdílným pohlavím ve shodě s očekávanými četnostmi? S 121 párů 1 : 1 očekávané četnosti = 60,5 : 60,5 S 193 párů 1 : 1 očekávané četnosti = 96,5 : 96,5 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Města - zatížení exhalacemi - třídy (A > B > C > D) Svět: A : B : C : D = 2 : 3 : 6 : 4 Konkrétní země (n = 184 měst): A : B : C : D = 32 : 151 : 182 : 116 H0: shoda fi a Fi a = 0,05 FA: 64,13 FC: 192,39 FB: 96,19 FD: 128,27 Zamítáme hypotézu shody pozorovaných četností s očekávanými. Příspěvek kategorií A, B, C, D k celkové hodnotě c2 Tmavý šikmo nahoru % Tmavý šikmo nahoru A B C D A B C D Test dobré shody: příklad V logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test dobré shody – binomické data Binomické jevy (1/0) pozorovaná četnost očekávaná četnost očekávaná četnost = + 2 pozorovaná četnost očekávaná četnost očekávaná četnost I. jev 1 II. jev 2 - 2 - Příklad 10 000 lidí hází mincí rub: 4 000 případů (R) líc: 6 000 případů (L) Lze výsledek považovat za statisticky významně odlišný (nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ? Rozdíl je vysoce statisticky významný (p << 0,001] Tabulková hodnota: logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test nezávislosti —Sledujeme dva znaky. —Tieto znaky nadobúdajú len konečné množstvo hodnôt. ¡Napríklad: farba vlasov: - svetlá, gaštanová, čierna, hrdzavá ¡Napríklad: farba očí: modrá, šedá-zelená, hnedá — —Chceme testovať, či sú tieto znaky nezávislé —H0: znak 1 a znak 2 sú nezávislé proti H1: sú na sebe závislé ¡H0: farba vlasov a farba očí sú na sebe nezávislé ¡H1: farba vlasov a farba očí sú na sebe závislé —H0 zamietame, ak je vyrátaná hodnota väčšia ako príslušná tabuľková alebo porovnaním p-hodnoty a hladiny významonosti logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test nezávislosti H0 :Nezávislost dvou jevů A a B Kontingenční tabulka 2 x 2 N = a + b + c + d + - Podíl (+) + a b - c d Podíl (+) B A p1 p2 Očekávané četnosti: logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Kontingenční tabulky: příklad FA = 102 * 30 / 166 = 18,43 FB = 102 * 136 / 166 = 83,57 FC = 11,57 FD = 52,43 Ano Ne S Ano 20 82 102 Ne 10 54 64 S 30 136 166 gen … Kontingenční tabulka v obrázku Gen: ANO Gen: NE logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek R x C kontingenční tabulka Výběr: N lidí ze sociologického průzkumu (delikventi) Jev A: Původ z rozvrácených rodin Jev B: Stupeň zločinnosti I < II < III < IV I. II. III. IV. S číslo 1 ANO a b c d NE e f g h S A B číslo2 Stupně volnosti: (R-1) * (C-1) = 1 * 3 = 3 Tabulky: Očekávané četnosti: logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test homogenity —Pravdepodobnosť výskytu znaku v stĺpcoch nezávisí na riadkoch —Stĺpce napr.: krvné skupiny (0, A, B, AB) —Riadky napr.: kraje —H0: Zastúpenie jednotlivých krvných skupín je v každom kraji rovnaký — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Test homogenity: příklad Bylo provedeno 6 nezávislých výběrů z populace mladých mužů, kteří v dětství onemocněli těžkým zánětem mozkových blan. H0: V této populaci se vyskytují praváci a leváci v poměru 1 : 1. Pomocí c2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých pokusů testujících tutéž hypotézu. Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti výběrových populací a na základě výsledků tohoto testu rozhodněte o dalším postupu. Následující tabulka obsahuje původní data a výsledek testování (v závorkách jsou uvedeny očekávané četnosti): Vzorek Praváci Leváci n c2 St. volnosti 1 3 (7) 11 (7) 14 4,5714 1 2 4 (8) 12 (8) 16 4,000 1 3 15 (10) 5 (10) 20 5,000 1 4 14 (9) 14 (9) 18 5,5556 1 5 13 (8,5) 4 (8,5) 17 4,7647 1 6 17 (11) 5 (11) 22 6,5455 1 Jednoduchým testováním lze zjistit, že všechny testy pro jednotlivé výběry jsou významné, což znamená, že ani v jednom případě nebyla potvrzena shoda očekávaných a pozorovaných četností. Test homogenity štěpného poměru v zkoumaných populacích rovněž vedl k zamítnutí možnosti sloučit jednotlivé výběry a posuzovat je jako celek (kromě testovaného poměru 1 : 1 neexistuje tedy v datech žádný jiný jednotný štěpný poměr mezi oběma vlastnostmi. V případě, že by tento test neprokázal odchylky mezi jednotlivými výběrovými populacemi, bylo by možné jednotlivé odběry sloučit a posuzovat jako homogenní vzorek. logo-IBA ü Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jev: Úmrtnost na leukemii Předpoklad: P = 0,6 Absolutní četnost jevu označena ri Sledovalo s autorů z s zemí: Autor ni ri pi 1 2 . . . s Test shody reálného r Test homogenity binomických rozložení Po možném sloučení s výběrů Test homogenity binomických rozložení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek c2 test - příklad složitější kontingenční tabulky I Caffeine consumption and marital status in antenatal patiens (from Martin and Bracken, 1987) Caffeine consumption (mg/day) Marital status 0 1 - 150 151 - 300 > 300 Total Married 652 1537 598 242 3029 Divorced, separed or widowed 36 46 38 21 141 Single 218 327 106 67 718 Total 906 1910 742 330 3888 Caffeine consumption and marital status data Caffeine consumption (mg/day) Marital status 0 1 - 150 151 - 300 > 300 Total Married 22 % 51 % 20 % 8 % 3029 (100 %) Divorced, separed or widowed 26 % 33 % 27 % 15 % 141 (100 %) Single 30 % 46 % 15 % 9 % 718 (100 %) Total 23 % 49 % 19 % 8 % 3888 (100 %) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Contributions of each cell Caffeine consumption (mg/day) Marital status 0 1 - 150 151 - 300 > 300 Total Married 4,11 1,61 0,69 0,89 7,30 Divorced, separed or widowed 0,30 7,82 4,57 6,82 19,51 Single 15,36 1,88 7,02 0,60 24,86 Total 19,77 11,31 12,28 8,31 51,66 Expected frequencies Caffeine consumption (mg/day) Marital status 0 1 - 150 151 - 300 > 300 Total Married 705,8 1488 578,1 257,1 3029 Divorced, separed or widowed 32,9 69,3 26,9 12,0 141 Single 167,3 352,7 137 60,9 718 Total 906 1910 742 330 3888 c2 test - příklad složitější kontingenční tabulky II logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek c2 test - příklad frakcionace složitější kontingenční tabulky I Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola Celkem 0 983 383 2892 4258 A 679 416 2625 3720 B 134 84 570 788 Celkem 1796 883 6087 8766 Vypočítejte testovou charakteristiku pro tuto kontingenční tabulku a otestujte nulovou hypotézu nezávislosti jevů (c2 = 40,54; 4 st. volnosti) logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní tabulky do podoby procentického zastoupení kategorií: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola 0 983 383 2892 A 679 416 2625 B 134 84 570 Celkem 1796 883 6087 Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou žaludku. Pacienti s vředy mají mnohem častěji krevní skupinu 0. Z této tabulky je patrné: Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi. Sestavte tuto tabulku a otestujte nulovou hypotézu. (c2 = 5,64 (2 st. v.), P je přibližně rovna 0,06) c2 test - příklad frakcionace složitější kontingenční tabulky II logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek • Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. Dalším logickým krokem v podrobné analýze je testování shody relativních četností výskytu krevních skupin A a B mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je c2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B. • Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (c2 = 34,29; 1 st. vol.). Lze tedy shrnout, že vysoká hodnota původního c2 se 4 st. volnosti byla způsobena zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy. c2 test - příklad frakcionace složitější kontingenční tabulky III logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Srovnání St. volnosti c2 0, A, B skupina u pacientů s rakovinou (r) x kontrola (k) 2 5,64 A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k) 1 0,68 0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k) 1 34,29 Celkem 4 40,61 Průběh hodnocení lze shrnout do tabulky: Celkový součet testových statistik c2 (40,61) odpovídá přibližně původní hodnotě c2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpali informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečními vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé. c2 test - příklad frakcionace složitější kontingenční tabulky IV