VIII. KONTINGENČNÉ TABUĽKY Anotácia •Analýza kontingenčných tabuliek umožňuje analyzovať väzbu medzi dvoma kategoriálnymi premennými. Základným spôsobom testovania je tzv. chi-square test, ktorý porovnáva pozorované četnosti kombinácií kategórií oproti očakávaným četnostiam, ktoré vychádzajú z teoretickej situácie, kedy je vzťah medzi premennými náhodný. •Test dobrej zhody je využívaný tiež na porovnanie pozorovaných četností oproti očakávaným četnostiam daných určitým pravidlom (typickým príkladom je Hardy-Weinbergova rovnováha v genetike) •Špecifickým typom výstupov odvodených z kontingenčných tabuliek sú tzv. odds ratia a relatívne riziká, využívané často v medicíne na identifikáciu a popis rizikových skupín pacientov. Test dobrej zhody - základná teória pozorovaná četnosť očakávaná četnosť očakávaná četnosť = + 2 pozorovaná četnosť očakávaná četnosť očakávaná četnosť 1. jav 2. jav - 2 - + … pozorovaná četnosť očakávaná četnosť očakávaná četnosť = 2 - ∑ Test dobrej zhody - základná teória Binomické javy (1/0) pozorovaná četnosť očakávaná četnosť očakávaná četnosť = + 2 pozorovaná četnosť očakávaná četnosť očakávaná četnosť I. jav 1 II. jav 2 - 2 - Príklad 10 000 ľudí hádže mincou rub: 4 000 prípadov (R) líce: 6 000 prípadov (L) ü Výsledok je možné považovať za štatisticky významne odlišný (alebo neodlišný) od očakávaného pomeru R : L = 1 : 1 ? ? Rozdiel je vysoko štatisticky významný (p << 0,001] Tabuľková hodnota: Kontingenčné tabuľky H0 :Nezávislosť dvoch jevov A a B Kontingenčná tabuľka 2 x 2 N = a + b + c + d + - Podiel (+) + a b - c d Podiel (+) B A p1 p2 Očakávané četnosti: Kontingenčné tabuľky: príklad FA = 102 * 30 / 166 = 18,43 FB = 102 * 136 / 166 = 83,57 FC = 11,57 FD = 52,43 Áno Nie S Áno 20 82 102 Nie 10 54 64 S 30 136 166 gén … Kontingenčná tabuľka v obrázku Gen: ÁNO Gen: NE R x C kontingenčná tabuľka Výber: N ľudí zo sociologického prieskumu (delikventi) Jav A: Pôvod z rozvrátených rodín Jav B: Stupeň zločinnosti I < II < III < IV I. II. III. IV. S číslo 1 ÁNO a b c d NIE e f g h S A B číslo2 Stupne voľnosti: (R-1) * (C-1) = 1 * 3 = 3 Tabuľky: Očakávané četnosti: Test dobrej zhody: príklad I H0: Pozorovaná frekvence pro jednotlivé barvy květů jsou vzorkem populace mající poměr mezi žlutými a červenými květy 3 :1. Součet frekvencí u obou barev květů (fi) se rovná 100 a pozorované frekvence u kategorií barvy budou srovnány s očekávanými frekvencemi (uvedeny v závorkách): Ověřte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v poměru žlutá : červená = 3 : 1. Kategorie barvy Žlutá Červená n f poz. 84 16 100 f oček. 75 25 St. voľnosti = n = k - 1 = 1 Zamietame hypotézu zhody porovnávaných četností Pri testovaní H0 sme použili matematický zápis (0,025 < P < 0,05). Z tabuliek c2 rozložení vidíme, že pravdepodobnosť prekročenia hranice 2,706 je 0,1 (10 %), čo môže byť stručne zapísané ako P (c2 ³ 2,706) = 0,10. Ďalej je možné zistiť pre P (c2 ³ 3,841) = 0,05. V riešenej úlohe sme dospeli k hodnote testovej štatistiky c2 = 4,320. Pre tento prípad môžme teda písať 0,025 < P (c2 ³ 4,320) < 0,05; a jednoduchšie 0,025 < P < 0,05. Ide v podstate o približné určenie hraníc chyby 1. druhu. ü Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a dále postup při testování H0. Tento príklad je rozšírením problému z príkladu 1 na porovnanie pozorovaných a očakávaných frekvencí pre viac kategórií sledovaného znaku: žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité n f poz. 152 39 53 6 250 f oček. 140,6250 46,8750 46,8750 15,6250 n = k - 1 = 3 Zamítáme hypotézu shody pozorovaných četností s očekávanými Test dobrej zhody: príklad II Predpokladajme, že chceme pre dáta z predchádzajúcej úlohy testovať hypotézu existencie štiepneho pomeru 9 : 3 : 3 pre prvé tri kategórie semien: ü Zložitejšie príklady riešené porovnávaním frekvencií je možné rozdeliť na testovanie dielčích hypotéz: žluté/hladké žluté/vrásčité zelené/hladké n f poz. 152 39 53 244 f oček. 146,400 48,800 48,800 n = k - 1 = 2 Nezamítáme hypotézu shody pozorovaných četností s očekávanými. Teraz otestujeme hypotézu štiepneho pomeru kategórií zelené/vrásčité: ostatné typy = 1:15 zelené/vrásčité ostatní n f poz. 6 244 25 f oček 15,625 234,375 n = k - 1 = 1 Zamítáme hypotézu shody pozorovaných četností s očekávanými. Test dobrej zhody: príklad III Test dobrej zhody: príklad IV - využitie aditivity testu U 193 párů dvojčat byly zjištěny následující poměry pohlaví: 56 Ch - Ch 72 Ch – H 65 H - H ü Za predpokladu, že narodenie chlapčeka má rovnakú pravdepodobnosť ako narodenie dievčatka, môžme očakávať pomery pre výššie uvedené skupiny = 0,25 : 0,5 : 0,25. Overte tento predpoklad na uvedenom vzorku populácie. ? S 193 párov 1/4 : 1/2 : 1/4 očakávané četnosti = 48,25 : 96,50 : 48,25 Prečo môžeme v predchádzajúcom prípade očakávať zamietnutie H0? Testujte nasledujúce hypotézy: 1) Sú relatívne počty párov so zhodným pohlavím v zhode s očakávanými četnosťami? (ignorujte Ch –H páry) 2) Je relatívna četnosť kombinácie Ch - Ch a H - H párov oproti párom s rozdielnym pohlavím v zhode s očakávanými četnosťami? S 121 párů 1 : 1 očekávané četnosti = 60,5 : 60,5 S 193 párů 1 : 1 očekávané četnosti = 96,5 : 96,5 Města - zatížení exhalacemi - třídy (A > B > C > D) Svět: A : B : C : D = 2 : 3 : 6 : 4 Konkrétní země (n = 184 měst): A : B : C : D = 32 : 151 : 182 : 116 H0: shoda fi a Fi a = 0,05 FA: 64,13 FC: 192,39 FB: 96,19 FD: 128,27 Zamítáme hypotézu shody pozorovaných četností s očekávanými. Příspěvek kategorií A, B, C, D k celkové hodnotě c2 Tmavý šikmo nahoru % Tmavý šikmo nahoru A B C D A B C D Test dobrej zhody: príklad V c2 test - příklad složitější kontingenční tabulky I Caffeine consumption and marital status in antenatal patiens (from Martin and Bracken, 1987) Caffeine consumption (mg/day) Marital status 0 1 - 150 151 - 300 > 300 Total Married 652 1537 598 242 3029 Divorced, separed or widowed 36 46 38 21 141 Single 218 327 106 67 718 Total 906 1910 742 330 3888 Caffeine consumption and marital status data Caffeine consumption (mg/day) Marital status 0 1 - 150 151 - 300 > 300 Total Married 22 % 51 % 20 % 8 % 3029 (100 %) Divorced, separed or widowed 26 % 33 % 27 % 15 % 141 (100 %) Single 30 % 46 % 15 % 9 % 718 (100 %) Total 23 % 49 % 19 % 8 % 3888 (100 %) Contributions of each cell Caffeine consumption (mg/day) Marital status 0 1 - 150 151 - 300 > 300 Total Married 4,11 1,61 0,69 0,89 7,30 Divorced, separed or widowed 0,30 7,82 4,57 6,82 19,51 Single 15,36 1,88 7,02 0,60 24,86 Total 19,77 11,31 12,28 8,31 51,66 Expected frequencies Caffeine consumption (mg/day) Marital status 0 1 - 150 151 - 300 > 300 Total Married 705,8 1488 578,1 257,1 3029 Divorced, separed or widowed 32,9 69,3 26,9 12,0 141 Single 167,3 352,7 137 60,9 718 Total 906 1910 742 330 3888 c2 test - příklad složitější kontingenční tabulky II c2 test - příklad frakcionace složitější kontingenční tabulky I Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními skupinami u lidí. Konkrétní data jsou uvedena v tabulce: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola Celkem 0 983 383 2892 4258 A 679 416 2625 3720 B 134 84 570 788 Celkem 1796 883 6087 8766 Vypočítejte testovou charakteristiku pro tuto kontingenční tabulku a otestujte nulovou hypotézu nezávislosti jevů (c2 = 40,54; 4 st. volnosti) K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní tabulky do podoby procentického zastoupení kategorií: Krevní skupina Žaludeční vředy Rakovina žaludku Kontrola 0 983 383 2892 A 679 416 2625 B 134 84 570 Celkem 1796 883 6087 Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou žaludku. Pacienti s vředy mají mnohem častěji krevní skupinu 0. Z této tabulky je patrné: Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi. Sestavte tuto tabulku a otestujte nulovou hypotézu. (c2 = 5,64 (2 st. v.), P je přibližně rovna 0,06) c2 test - příklad frakcionace složitější kontingenční tabulky II • Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. Dalším logickým krokem v podrobné analýze je testování shody relativních četností výskytu krevních skupin A a B mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je c2 = 0,68 (1 st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B. • Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (c2 = 34,29; 1 st. vol.). Lze tedy shrnout, že vysoká hodnota původního c2 se 4 st. volnosti byla způsobena zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy. c2 test - příklad frakcionace složitější kontingenční tabulky III Srovnání St. volnosti c2 0, A, B skupina u pacientů s rakovinou (r) x kontrola (k) 2 5,64 A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k) 1 0,68 0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k) 1 34,29 Celkem 4 40,61 Průběh hodnocení lze shrnout do tabulky: Celkový součet testových statistik c2 (40,61) odpovídá přibližně původní hodnotě c2 (40,54). Což platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpali informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní skupiny 0 u lidí s žaludečními vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé. c2 test - příklad frakcionace složitější kontingenční tabulky IV Kontingenčná tabuľka 2 x 2: Riešenie pri nedostatočnej veľkosti vzorky Test analyzuje všetky možné 2 x 2 tabuľky, ktoré dávajú rovnakú sumu riadkov a stĺpcov ako tabuľka zdrojová. Algoritmus každej tabuľke priraďuje pravdepodobnosť, že taká situácia nastane, ak je H0 pravdivá. Yates' corection Fisher's exact test H0: Nezávislost jevů Spectacle wearing among juvenile delinquents and non-delinquents who failed a vision test (Weindling et al., 1986) Spectacle wearers Juvenile delinquents Non- deliquents Total Yes 1 5 6 No 8 2 10 Total 9 7 16 a b c d P ( I ) 0 6 9 1 0,00087 ( II ) 1 5 8 2 0,02360 ( III ) 2 4 7 3 0,15734 ( IV ) 3 3 6 4 0,36713 ( V ) 4 2 5 5 0,33042 ( VI ) 5 1 4 6 0,11014 ( VII ) 6 0 3 7 0,01049 Total 0,99999 Pravdepodobnosť náhodného vzniku variant tabuľky Všetkny možné varianty tabuľky s danou sumou riadkov a stĺpcov 0 6 9 1 1 5 8 2 2 4 7 3 6 0 3 7 5 1 4 6 4 2 5 5 3 3 6 4 (I) (II) (III) (IV) (V) (VI) (VII) Kontingenčná tabuľka 2 x 2: Riešenie pri nedostatočnej veľkosti vzorky 2 x 2 frekvenčná tabuľka pre párové usporiadanie: Mc Nemar's test Príklad: Porovnanie 2 metód stanovenia antigénu v krvi (antigén vždy prítomný) H0: metoda 1 = metoda 2 Metoda 1 Metoda 2 Frekvence úspěch úspěch 202 úspěch neúspěch 60 neúspěch úspěch 42 neúspěch neúspěch 10 H0 nezamietnutá