Teorie potřebná ke zpracování datových souborů o zoonózách a) Interval spolehlivosti pro pravděpodobnost úspěchu b) Testování hypotézy o nezávislosti dvou nominálních veličin a Cramérův koeficient c) Podíl šancí ve čtyřpolní kontingenční tabulce d) Interval spolehlivosti pro podíl šancí a) Interval spolehlivosti pro pravděpodobnost úspěchu Asymptotické rozložení statistiky odvozené z výběrového průměru Nechť X1, ..., Xn je náhodný výběr z rozložení A( ϑ ) a nechť je splněna podmínka ( ) 91n >ϑ−ϑ . Pak statistika ( ) n 1 M U ϑ−ϑ ϑ− = konverguje v distribuci k náhodné veličině se standardizovaným normálním rozložením. Vysvětlení: Protože X1, ..., Xn je náhodný výběr z rozložení A( ϑ ), bude mít statistika ∑= = n 1i in XY (výběrový úhrn) rozložení Bi(n, ϑ ). Yn má střední hodnotu E(Yn) = n ϑ a rozptyl D(Yn) = ( )ϑ−ϑ1n . Podle centrální limitní věty se standardizovaná statistika ( )ϑ−ϑ ϑ− = 1n nY U n asymptoticky řídí standardizovaným normálním rozložením N(0,1). Pokud čitatele i jmenovatele podělíme n, dostaneme vyjádření: ( ) ( ) ( ) ( )1,0N n 1 M n 1 X n 1 n 1n n Y U n 1i i 2 n ≈ ϑ−ϑ ϑ− = ϑ−ϑ ϑ− = ϑ−ϑ ϑ− = ∑= Vzorec pro meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametr ϑ: Meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametr ϑ jsou: 2/12/1 u n )m1(m mh,u n )m1(m md α−α− − += − −= . Vysvětlení: Pokud rozptyl ( ) ( ) n 1 MD ϑ−ϑ = nahradíme odhadem ( ) n M1M − , konvergence náhodné veličiny U k veličině s rozložením N(0,1) se neporuší. Tedy         − +<ϑ< − −= =             < − ϑ− <−≤α−Ξ∈ϑ∀ α−α− α−α− 2/12/1 2/12/1 u n )M1(M Mu n )M1(M MP u n )M1(M M uP1: (Tyto meze lze vypočítat ve STATISTICE pomocí modulu Analýza síly testu.) b) Testování hypotézy o nezávislosti dvou nominálních veličin a Cramérův koeficient Testujeme nulovou hypotézu H0: X, Y jsou stochasticky nezávislé náhodné veličiny proti alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny. Přitom X má r variant a Y s variant. Kdyby náhodné veličiny X, Y byly stochasticky nezávislé, pak by platil multiplikativní vztah r,,1j K=∀ , s,,1k K=∀ : πjk = πj. π.k neboli n n n n n n k..jjk ⋅= , tj. n nn n k..j jk = . Číslo n nn k..j se nazývá teoretická četnost dvojice variant (x[j], y[k]). Testová statistika: ∑∑= =       − = r 1j s 1k k..j 2 k..j jk n nn n nn n K . Platí-li H0, pak K se asymptoticky řídí rozložením χ2 ((r-1)(s-1)). Kritický obor: ( )( )( ) )∞−−χ= α− ,1s1rW 1 2 . Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti α, když K ≥ χ2 1-α((r-1)(s-1)). Podmínky dobré aproximace Rozložení statistiky K lze aproximovat rozložením χ2 ((r-1)(s-1)), pokud teoretické četnosti n nn k..j aspoň v 80 % případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20 % neklesnou pod 2. Není-li splněna podmínka dobré aproximace, doporučuje se slučování některých variant. Měření síly závislosti Cramérův koeficient: )1m(n K V − = , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je k 1, tím je závislost mezi X a Y těsnější, čím blíže je k 0, tím je tato závislost volnější. Význam hodnot Cramérova koeficientu: mezi 0 až 0,1 … zanedbatelná závislost, mezi 0,1 až 0,3 … slabá závislost, mezi 0,3 až 0,7 … střední závislost, mezi 0,7 až 1 … silná závislost. c) Podíl šancí ve čtyřpolní kontingenční tabulce okolnostiVýsledek pokusu I II nj. úspěch a b a+b neúspěch c d c+d n.k a+c b+d n Poměr počtu úspěchů ku počtu neúspěchů za okolností I je c a (šance na úspěch za okolností I). Poměr počtu úspěchů ku počtu neúspěchů za okolností II je d b (šance na úspěch za okolností II). Podíl těchto dvou poměrů je podíl šancí: bc ad d b c a OR == . Pokud OR =1, pak okolnosti nemají vliv na výskyt jevu. Pokud OR > 1, pak za okolností I je vyšší šance na výskyt jevu než za okolností II. Pokud OR < 1, pak za okolností I je nižší šance na výskyt jevu než za okolností II. Podíl šancí považujeme za odhad neznámého teoretického podílu šancí 2112 2211 o ππ ππ =ρ . d) Interval spolehlivosti pro podíl šancí Logaritmus teoretického podílu šancí oρ má přibližně normální rozložení a směrodatná odchylka jeho odhadu, tj. logaritmu podílu šancí OR, je d 1 c 1 b 1 a 1 +++ . Meze 100(1-α)% asymptotického intervalu spolehlivosti pro ln oρ jsou 2/12/1 u d 1 c 1 b 1 a 1 ORln,u d 1 c 1 b 1 a 1 ORln α−α− +++++++− . Odlogaritmováním dostaneme meze 100(1-α)% asymptotického intervalu spolehlivosti pro oρ:         ++++=        +++−= α−α− 2/12/1 u d 1 c 1 b 1 a 1 ORlnexph,u d 1 c 1 b 1 a 1 ORlnexpd (Tyto meze lze ve STATISTICE vypočítat pomocí modulu Pokročilé lineární/nelineární modely – Zobecněné lineární/nelineární modely – Logitový model.)