11 Testování nezávislosti v kontingenčních tabulkách 11.1 Kontingenční tabulky • jeden výběr ... dva nominální znaky X a Y • znak X ... r variant; znak Y ... s variant Kontingenční tabulka (KT) • rijk . . . absolutní simultánní četnosti j-té varianty znaku X a k-té varianty znaku Y • rij. = riji + ... rijS ... absolutní marginální četnosti j-té varianty znaku X • n.k = nik + • • • nrk ... absolutní marginální četnosti k-té varianty znaku Y Znak X Znak Y Ľ V[i] ■ ■ ■ V[s] x{1] nn ... nls ni. X[r] ns. E n.i ... n.r n Pearsonův %2 test • asymptotický test — musíme ověřit podmínku dobré aproximace — chisq.test(data, correct = F)$expected — alespoň 80 % případů musí být > 5 a zbylých 20 % nesmí klesnout pod 2. • Hq : X, Y jsou stochasticky nezávislé. • Hi : X, Y nejsou stochasticky nezávislé. • porovnávame pozorované četnosti a teoretické četnosti dvojice variant [xy],y\k\j • za platnosti Hq si jsou rijk a podobne n • Testovací statistika: r s f ^ K rij.n.k j=l k=l n Kritický obor: W = (Xi-a((r ~ — °°) chisq.test(data, correct = F) 1 Měření závislosti, Cramérův koeficient • Cramérův koeficient v = J ,K 1V y n(m — 1) kde m = min{r, s}. Cramérův koeficient interpretace 0 - 0.1 zanedbatelná závislost 0.1 - 0.3 slabá závislost 0.3 - 0.7 střední závislost 0.7- 1 silná závislost • lsr::cramersV(data) 11.2 Ctyřpolní kontingenční tabulky • náhodné veličiny X, Y mají pouze 2 varianty —> ctyřpolní kontingenční tabulka • značení: nu = a, rtvi = b, ri2i = c, n22 = d Znak X Znak Y y\i\ vm Ľ X[2] a b c d a + b c + d E a + c b + d n 11.2.1 Pearsonův x2 ^es^ • asymptotický test; viz výše • kritický obor: W = (x2-a{t), oo) 11.2.2 Fisherův faktoriálový test • přesný test • fisher.test(data) 2 Podíl šancí ve čtyřpolní KT • pokus se provádí za dvojích různých okolností a může skončit buď úspěchem nebo neúspěchem Okolnost I II Ľ úspěch neúspěch a b c d a + b c + d Ľ a + c b + d n • 1.okolnost: podíl počtu úspěchů ku počtu neúspěchů: -c • 2.okolnost: podíl počtu úspěchů ku počtu neúspěchů: ^ • op ... teoretický podíl šancí — X, Y nezávislé —y potom op = 1 • OR ... výběrový podíl šancí k, bc a • Závislost X, Y je tím silnější, čím více se OR (op) liší od 1. • OR resp. op G (0; oo) (nesymetrický interval) —y preferujeme logaritmus podílu šancí • ln(O.R) resp. ln(op) G (—oo; oo) Test podílem šancí • Hq : X, Y jsou stochasticky nezávislé ... op = 1 —^ ln op = 0 • Hi : X, Y nejsou stochasticky nezávislé ... op = 1 —^ ln op ^ 0. • Testová statistika \nOR T0 = a T b T c T d Kritický obor: W = (—oo; —Ui_a/2) U {ui_a/2; oo) 100(1 — a)% asymptotický interval spolehlivosti (ä, h) = | ln OR - \l i + i + i + iUl_„/2; ln OR - J1- + i + i + I1Ill/2 3