Janoušová, Dušek: Analýza dat pro neurovědy logo-MU logo-IBA Kontingenční tabulky – ukázka finálního popisu a vizualizace 1 Skupina Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 1 (0,4%) 7 (3,0%) 176 (76,5%) 46 (20,0%) 230 (100,0%) MCI 13 (3,2%) 85 (20,9%) 201 (49,5%) 107 (26,4%) 406 (100,0%) AD 9 (4,6%) 34 (17,3%) 90 (45,7%) 64 (32,5%) 197 (100,0%) Celkem 23 (2,8%) 126 (15,1%) 467 (56,1%) 217 (26,1%) 833 (100,0%) <60 let 60-70 let n = 230 n = 406 n = 197 CN MCI AD Věk: Skupina: 70-80 let ≥80 let Janoušová, Dušek: Analýza dat pro neurovědy logo-MU logo-IBA Kontingenční tabulky – hypotézy •Kontingenční tabulky umožňují testování různých hypotéz: • •Nezávislost a shoda struktury (Pearsonův chí-kvadrát test, Fisherův exaktní test) ‐Jeden výběr, dvě charakteristiky nebo více výběrů, jedna charakteristika – obdoba nepárového uspořádání ‐Př.: pacienti s AD – pohlaví × vzdělání (VŠ, SŠ, ZŠ); pacienti s AD v několika nemocnicích × věková struktura ‐ •Symetrie (McNemarův test) ‐Jeden výběr, opakovaně jedna charakteristika – obdoba párového uspořádání ‐Př.: MMSE v normě a pod normou na začátku studie a dva roky po zahájení studie • 2 Janoušová, Dušek: Analýza dat pro neurovědy logo-MU logo-IBA Pearsonův chí-kvadrát test •Založen na myšlence srovnání pozorovaných a očekávaných četností kategorií dvou proměnných. •Pozorované četnosti jednotlivých kategorií první proměnné a druhé proměnné nám vyjadřují nij. •Očekávané četnosti jednotlivých kategorií lze vypočítat pomocí: • ‖(ni. je součet hodnot v řádku, n.j je součet hodnot ve sloupci) •Výpočet testové statistiky: • • •Nulovou hypotézu o nezávislosti dvou kategoriálních proměnných zamítáme na hladině významnosti α, když • 3 Janoušová, Dušek: Analýza dat pro neurovědy logo-MU logo-IBA Pearsonův chí-kvadrát test: Chceme zjistit, jestli existuje vztah mezi typem onemocnění a věkovými kategoriemi v našem souboru. 4 Typ onemocnění Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 1 7 176 46 230 MCI 13 85 201 107 406 AD 9 34 90 64 197 Celkem 23 126 467 217 833 Tabulka pozorovaných četností: Typ onemocnění Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 230 MCI 406 AD 197 Celkem 23 126 467 217 833 Tabulka očekávaných četností: Testová statistika: asi tady i zkopírovat výsledek ze Statisticy Janoušová, Dušek: Analýza dat pro neurovědy logo-MU logo-IBA Pearsonův chí-kvadrát test •Příklad: Chceme zjistit, jestli existuje vztah mezi typem onemocnění a věkovými kategoriemi v našem souboru. • •Postup: Typ onemocnění Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 1 7 176 46 230 MCI 13 85 201 107 406 AD 9 34 90 64 197 Celkem 23 126 467 217 833 Tabulka pozorovaných četností: Typ onemocnění Věk Celkem <60 let 60-70 let 70-80 let ≥80 let CN 6,4 34,8 128,9 59,9 230 MCI 11,2 61,4 227,6 105,8 406 AD 5,4 29,8 110,4 51,3 197 Celkem 23 126 467 217 833 Tabulka očekávaných četností: ... Testová statistika: → zamítáme H0 o nezávislosti → Vztah mezi typem onemocnění a věkovými kategoriemi je statisticky významný. 5 asi tady i zkopírovat výsledek ze Statisticy Janoušová, Dušek: Analýza dat pro neurovědy logo-MU logo-IBA Předpoklady Pearsonova chí-kvadrát testu •Nezávislost jednotlivých pozorování •Alespoň 80 % buněk musí mít očekávanou četnost (eij) větší než 5 •100 % buněk musí mít očekávanou četnost (eij) větší než 2 • •Může nám pomoci slučování kategorií, ale můžeme slučovat jen slučitelné kategorie! • 6 -třeba sloučení u těch kategorií věku by bylo možné, ale nebylo by možné například sloučit AD a CN dohromady (a u slučování věku by bylo možné sloučit sousední kategorie, ne třeba věk <50 s věkem >80 apod.) -nesplnění předpokladů – M-L chí-kvadrát (maximum likelihood) -Yatesova [jates] korekce – pro malé vzorky pro čtyřpolní tabulky (používá se ale hlavně u G-testu, protože ten počítá s logaritmy, tak se tam přičítá 0,5, aby v případě nulových hodnot buněk nebyl problém s logaritmem) Janoušová, Dušek: Analýza dat pro neurovědy logo-MU logo-IBA Fisherův exaktní test •Určen pro čtyřpolní tabulky, je vhodný i pro tabulky s malými četnostmi – pro ty, které nesplňují předpoklad Pearsonova chí-kvadrát testu. •Založen na výpočtu „přesné“ p-hodnoty (pravděpodobnosti, s jakou bychom dostali stejný nebo ještě extrémnější výsledek při zachování součtu řádků i sloupců v tabulce). •Příklad: Chceme ověřit vztah dvou typů nežádoucích účinků, které jsou sumarizovány následující tabulkou: •Postup: Všechny varianty tabulky při zachování součtu řádků a sloupců: • • 7 2 3 6 4 NÚ I NÚ II ano ne ano ne 0 5 8 2 1 4 7 3 2 3 6 4 3 2 5 5 4 1 4 6 5 0 3 7 Pravděpodobnosti výskytu jednotlivých tabulek: 0,007 0,093 0,326 0,392 0,163 0,019 Oboustranná p-hodnota (sečtení pravděpodobností stejných nebo menších než je pravděpodobnost pozorované varianty): p = 0,326 + 0,093 + 0,007 + 0,163 + 0,019 = 0,608 0,007 0,093 0,326 0,163 0,019 -vzorec výpočtu pravděpodobností jednotlivých variant neuvádím, protože je složitý a pro pochopení podstaty testu není důležitý Janoušová, Dušek: Analýza dat pro neurovědy logo-MU logo-IBA Fisherův x Pearsonův test •Pearsonův chí-kvadrát test lze použít na jakoukoliv kontingenční tabulku, ALE je nutné hlídat předpoklady: 100% očekávaných četností větších než 2 a 80 % očekávaných četností větších než 5 – u čtyřpolní tabulky to znamená, že všechny očekávané četnosti musí být větší než 5. • •Nedodržení předpokladů pro Pearsonův chí-kvadrát test může stejně jako u t-testu a analýzy rozptylu vést k nesmyslným závěrům! • •Pro hodnocení čtyřpolních tabulek je Fisherův exaktní test standardem v klinických analýzách. • 8