Kontingenční tabulky a testy nezávislosti nominálních veličin Nechť X,Y jsou dvě nominální náhodné veličiny (tj. obsahová interpretace je možná jenom u relace rovnosti). Nechť X nabývá variant x[1], ..., x[r] a Y nabývá variant y[1], ..., y[s]. Označme: [ ] [ ]( )kjjk yYxXP =∧==π … simultánní pravděpodobnost dvojice variant (x[j], y[k]) [ ]( )j.j xXP ==π … marginální pravděpodobnost varianty x[j] [ ]( )kk. yYP ==π … marginální pravděpodobnost varianty y[k] Simultánní a marginální pravděpodobnosti zapíšeme do kontingenční tabulky: y x πjk y[1] ... y[s] πj. x[1] π11 ... π1s π1. ... ... ... ... ... x[r] πr1 ... πrs πr. π.k π.1 ... π.s 1 Pořídíme dvourozměrný náhodný výběr (X1, Y1), ..., (Xn, Yn) rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (X, Y). Zjištěné absolutní simultánní četnosti njk dvojice variant (x[j], y[k]) uspořádáme do kontingenční tabulky: y x njk y[1] ... y[s] nj. x[1] n11 ... n1s n1. ... ... ... ... ... x[r] nr1 ... nrs nr. n.k n.1 ... n.s n nj. = nj1 + ... + njs je marginální absolutní četnost varianty x[j] n.k = n1k + ... + nrk je marginální absolutní četnost varianty y[k] Simultánní pravděpodobnost πjk odhadneme pomocí simultánní relativní četnosti n n p jk jk = , marginální pravděpodobnosti πj. a π.k odhadneme pomocí marginálních relativních četností n n p .j .j = a n n p k. k. = . Testování hypotézy o nezávislosti Testujeme nulovou hypotézu H0: X, Y jsou stochasticky nezávislé náhodné veličiny proti alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny. Kdyby náhodné veličiny X, Y byly stochasticky nezávislé, pak by platil multiplikativní vztah r,,1j K=∀ , s,,1k K=∀ : πjk = πj. π.k neboli n n n n n n k..jjk ⋅= , tj. n nn n k..j jk = . Číslo n nn k..j se nazývá teoretická četnost dvojice variant (x[j], y[k]). Testová statistika: ∑∑= =       − = r 1j s 1k k..j 2 k..j jk n nn n nn n K . Platí-li H0, pak K se asymptoticky řídí rozložením χ2 ((r-1)(s-1)). Kritický obor: ( )( )( ) )∞−−χ= α− ,1s1rW 1 2 . Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti α, když K ≥ χ2 1-α((r-1)(s-1)). Podmínky dobré aproximace Rozložení statistiky K lze aproximovat rozložením χ2 ((r-1)(s-1)), pokud teoretické četnosti n nn k..j aspoň v 80% případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Není-li splněna podmínka dobré aproximace, doporučuje se slučování některých variant. Měření síly závislosti Cramérův koeficient: )1m(n K V − = , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je k 1, tím je závislost mezi X a Y těsnější, čím blíže je k 0, tím je tato závislost volnější. Význam hodnot Cramérova koeficientu: mezi 0 až 0,1 … zanedbatelná závislost, mezi 0,1 až 0,3 … slabá závislost, mezi 0,3 až 0,7 … střední závislost, mezi 0,7 až 1 … silná závislost. Carl Harald Cramér (1893 – 1985): Švédský matematik Čtyřpolní tabulky Nechť r = s = 2. Pak hovoříme o čtyřpolní kontingenční tabulce a používáme označení: n11 = a, n12 = b, n21 = c, n22 = d. YX y[1] y[2] nj. x[1] a b a+b x[2] c d c+d n.k a+c b+d n Test nezávislosti ve čtyřpolní tabulce Testovou statistiku pro čtyřpolní kontingenční tabulku lze zjednodušit do tvaru: ( ) ( )( )( )( )dbcadcba bcadn K 2 ++++ − = . Platí-li hypotéza o nezávislosti veličin X, Y, pak K se asymptoticky řídí rozložením χ2 (1). Kritický obor: ( ) )∞χ= α− ,1W 1 2 Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když K∈W. Pro čtyřpolní tabulku navrhl R. A. Fisher přesný (exaktní) test nezávislosti známý jako Fisherův faktoriálový test. Princip spočívá v tom, že pomocí kombinatorických úvah se vypočítají pravděpodobnosti toho, že při daných marginálních četnostech dostaneme tabulky, které se od nulové hypotézy odchylují aspoň tak, jako daná tabulka. Statistický software poskytuje p-hodnotu pro Fisherův přesný test. Jestliže vyjde p ≤ α, pak hypotézu o nezávislosti zamítáme na hladině významnosti α. Fisherův test se používá při malých rozsazích výběrů (pokud n ≤ 20 nebo pokud 20 < n ≤ 40 a některá z teoretických četností je menší než 5). Podíl šancí ve čtyřpolní kontingenční tabulce okolnostiVýsledek pokusu I II nj. úspěch a b a+b neúspěch c d c+d n.k a+c b+d n Poměr počtu úspěchů ku počtu neúspěchů za okolností I je c a (šance na úspěch za okolností I). Poměr počtu úspěchů ku počtu neúspěchů za okolností II je d b (šance na úspěch za okolností II). Podíl těchto dvou poměrů je podíl šancí: bc ad d b c a OR == . Pokud OR =1, pak okolnosti nemají vliv na výskyt jevu. Pokud OR > 1, pak za okolností I je vyšší šance na výskyt jevu než za okolností II. Pokud OR < 1, pak za okolností I je nižší šance na výskyt jevu než za okolností II. Podíl šancí považujeme za odhad neznámého teoretického podílu šancí 2112 2211 o ππ ππ =ρ . Jsou-li veličiny X, Y nezávislé, pak k..jjk ππ=π , tudíž teoretický podíl šancí 1=ορ . Závislost veličin X, Y bude tím silnější, čím více se ορ bude lišit od 1. Avšak )∞∈ορ ,0 , tedy hodnoty ορ jsou kolem 1 rozmístěny nesymetricky. Z tohoto důvodu často používáme logaritmus teoretického či výběrového podílu šancí. Interval spolehlivosti pro podíl šancí Logaritmus teoretického podílu šancí oρ má přibližně normální rozložení a směrodatná odchylka jeho odhadu, tj. logaritmu podílu šancí OR, je d 1 c 1 b 1 a 1 +++ . Meze 100(1-α)% asymptotického intervalu spolehlivosti pro ln oρ jsou 2/12/1 u d 1 c 1 b 1 a 1 ORln,u d 1 c 1 b 1 a 1 ORln α−α− +++++++− . Odlogaritmováním dostaneme meze 100(1-α)% asymptotického intervalu spolehlivosti pro oρ:         ++++=        +++−= α−α− 2/12/1 u d 1 c 1 b 1 a 1 ORlnexph,u d 1 c 1 b 1 a 1 ORlnexpd Testování nezávislosti ve čtyřpolních tabulkách pomocí podílu šancí Na asymptotické hladině významnosti α testujeme hypotézu H0: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. oρ = 1) proti alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. oρ ≠ 1). Testování nezávislosti lze provést pomocí 100(1-α)% asymptotického intervalu spolehlivosti pro podíl šancí ορ :         ++++=        +++−= α−α− 2/12/1 u d 1 c 1 b 1 a 1 ORlnexph,u d 1 c 1 b 1 a 1 ORlnexpd Jestliže interval spolehlivosti neobsahuje 1, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti α . Relativní riziko ve čtyřpolní kontingenční tabulce okolnostiVýsledek pokusu I II nj. úspěch a b a+b neúspěch c d c+d n.k a+c b+d n Poměr počtu úspěchů za okolností I ku celkovému počtu úspěchů a neúspěchů je ca a + (riziko úspěchu za okolností I). Poměr počtu úspěchů za okolností II ku celkovému počtu úspěchů a neúspěchů je db b + (riziko úspěchu za okolností II). Podíl těchto dvou rizik je relativní riziko: ( ) ( )cab dba db b ca a RR + + = + += . Pokud RR =1, pak okolnosti nemají vliv na výskyt jevu. Pokud RR > 1, pak okolnosti I zvyšují četnost výskytu jevu. Pokud RR < 1, pak okolnosti I snižují četnost výskytu jevu. Relativní riziko považujeme za odhad neznámého teoretického relativního rizika 112 211 r • • ππ ππ =ρ . Interval spolehlivosti pro relativní riziko Logaritmus teoretického rizika rρ má přibližně normální rozložení a směrodatná odchylka jeho odhadu, tj. logaritmu relativního rizika RR, je ( ) ( )dbb d caa c db 1 b 1 ca 1 a 1 + + + = + −+ + − . Meze 100(1-α)% asymptotického intervalu spolehlivosti pro ln rρ jsou ( ) ( ) ( ) ( ) 2/12/1 u dbb d caa c RRln,u dbb d caa c RRln α−α− + + + + + + + − . Odlogaritmováním dostaneme meze 100(1-α)% asymptotického intervalu spolehlivosti pro rρ: ( ) ( ) ( ) ( )         + + + +=        + + + −= α−α− 2/12/1 u dbb d caa c RRlnexph,u dbb d caa c RRlnexpd . Testování nezávislosti ve čtyřpolních tabulkách pomocí relativního rizika Na asymptotické hladině významnosti α testujeme hypotézu H0: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. rρ = 1) proti alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. rρ ≠ 1). Testování nezávislosti lze provést pomocí 100(1-α)% asymptotického intervalu spolehlivosti pro relativní riziko rρ: ( ) ( ) ( ) ( )         + + + +=        + + + −= α−α− 2/12/1 u dbb d caa c RRlnexph,u dbb d caa c RRlnexpd . Jestliže interval spolehlivosti neobsahuje 1, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti α .