11 Testování nezávislosti v kontingenčních tabulkách 11.1 Kontingenční tabulky • (Xi, Yi),..., (Xn, Yn) ... dvourozměrný náhodný výběr rozsahu n • X, Y ... nominální znaky: • znak X ... r variant: rrpj,... X[ry, znak Y ... s variant: y^,... y^ Kontingenční tabulka (KT) • Absolutní četnosti v KT — rijk ... absolutní simultánní četnosti j-té varianty znaku X a k-té varianty znaku Y — rij. = riji + ... rijS ... absolutní marginální četnosti j-té varianty znaku X — n.k = nik + • • • nrk ... absolutní marginální četnosti k-té varianty znaku Y Pearsonův x2 test • asymptotický test — musíme ověřit podmínku dobré aproximace — chisq.test(data, correct=F)$expected — alespoň 80 % případů musí být > 5 a zbylých 20 % nesmí klesnout pod 2. • Hq : X, Y jsou stochasticky nezávislé. • Hi : X, Y nejsou stochasticky nezávislé. > > > w nÍn k • porovnávame pozorované četnosti rijk a teoretické četnosti - dvojice variant {x\j],y[k]j • za platnost H0 si jsou n~k a J' 'k podobné n • Testovací statistika: r s / njn h\1 K = W [Ujk ~' j=i k=i n Kritický obor: W = (Xi-a((r ~ — °°) chisq.test(data, correct=F) Měření závislosti, Cramérův koeficient • Cramérův koeficient _ y n(m — 1) kde m = min{r, s}. Cramérův koeficient interpretace 0 - 0.1 zanedbatelná závislost 0.1 - 0.3 slabá závislost 0.3 - 0.7 střední závislost 0.7- 1 silná závislost • cramersV(data) z knihovny Isr 11.2 Čtyřpolní kontingenční tabulky • náhodné veličiny X, Y mají pouze 2 varianty —> čtyřpolní kontingenční tabulka • značení: riufl =, ní2 = b, n2± = c, n22 = d 11.2.1 Pearsonův x2 test • viz výše; asymptotický test • kritický obor: W = (xf_a(l),oo) • chisq.test(data, correct=F) 11.2.2 Fisherův faktoriálový test • přesný test • fisher.test(data) 2 Podíl šancí ve čtyřpolní KT • pokus se provádí za dvojích různých okolností a může skončit buď úspěchem nebo neúspěchem • 1.okolnost: podíl počtu úspěchů ku počtu neúspěchů: - • op .. . teoretický podíl šancí — X, Y nezávislé —> potom op = 1 • OR ... výběrový podíl šancí ™ = i = £ bc a • Závislost X, Y je tím silnější, čím více se OR (op) liší od 1. • OR resp. op G (0; oo) —> preferujeme logaritmus podílu šancí • \n(OR) resp. ln(op) G (—oo; oo) Test podílem šancí • Hq : X, Y jsou stochasticky nezávislé ... In op = 0 • Hi : X, Y nejsou stochasticky nezávislé ... In op 7^ 0. • Testová statistika • 2.okolnost: podíl počtu úspěchů ku počtu neúspěchů: ^ \nOR • Kritický obor: W = (—00; —«1-^/2} U (ui_a/2] 00) • 100(1 — a)% asymptotický interval spolehlivosti 3