5. Testování exponenciálního a Poissonova rozložení 5.1. Věta (test dobré shody – viz přednáška 2) H0: náhodný výběr X1, …, Xn pochází z rozložení s distribuční funkcí Φ(x) H1: non H0 Testová statistika: ( ) ( )1pr np npn K 2 r 1j j 2 jj −−χ≈ − = ∑= , když H0 platí r … počet třídicích intervalů ( 1jj u,u + ve spojitém případě resp. počet variant x[j] v diskrétním případě. nj … absolutní četnost j-tého třídicího intervalu resp. j-té varianty. pj … pravděpodobnost, že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat v j-tém třídicím intervalu resp. j-tou variantou. p … počet odhadovaných parametrů testovaného rozložení. Kritický obor: ( ) )∞−−χ= α− ,1prW 1 2 ⇒∈ WK H0 zamítáme na asymptotické hladině významnosti α. Podmínky dobré aproximace: npj ≥ 5, j = 1, ..., r. Při nesplnění těchto podmínek se doporučuje slučování některých třídicích intervalů resp. variant. 5.2. Příklad: Byla zjišťována doba životnosti 45 součástek (v hodinách). Ze získaných údajů byl vypočten výběrový průměr m = 99,93 h a výběrový rozptyl s2 = 7328,9 h2 . Máme k dispozici roztříděné údaje: Doba životnosti Počet součástek ( 50,0 15 ( 100,50 14 ( 150,100 6 ( 200,150 5 ( 250,200 2 ( 300,250 1 ( 350,300 1 ( 400,350 1 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že doba životnosti se řídí exponenciálním rozložením. Řešení: 93,99 1 m 1ˆ ==λ , testujeme H0: X1, …, X45 ~       93,99 1 Ex proti H1: non H0. Počítáme pravděpodobnosti ∫ + − = 1j j u u 93,99 x j dxe 93,99 1 p , j = 1, 2, …, 8 j ( 1jj u,u + nj pj npj = 45pj 1 ( 50,0 15 0,3937 17,72 2 ( 100,50 14 0,2387 10,74 3 ( 150,100 6 0,1447 6,51 4 ( 200,150 5 0,0878 3,95 5 ( 250,200 2 0,0532 2,39 6 ( 300,250 1 0,0323 1,45 7 ( 350,300 1 0,0196 0,88 8 ( 400,350 1 0,0119 0,53 Vidíme, že pro j = 4, …, 8 nejsou splněny podmínky dobré aproximace. Posledních 5 intervalů tedy sloučíme do jednoho. Dostaneme novou tabulku j ( 1jj u,u + nj pj npj = 45pj 1 ( 50,0 15 0,3937 17,7157 2 ( 100,50 14 0,2387 10,7413 3 ( 150,100 6 0,1447 6,5127 4 ( 400,150 10 0,2046 9,2084 Testová statistika: ( ) ( ) ( ) ( ) ( ) 5133,1 2084,9 2084,910 5127,6 5127,66 7413,10 7413,1014 7157,17 7157,1715 np npn K 2222r 1j j 2 jj = = − + − + − + − = − = ∑= Kritický obor: ( ) ) ( ) ) )∞=∞−−χ=∞−−χ= α− ,9915,5,114,1prW 95,0 2 1 2 ⇒∉ WK H0 nezamítáme na asymptotické hladině významnosti 0,05. 5.3. Poznámka: V MATLABu se test dobré shody pro exponenciální rozložení provádí pomocí funkce tds_exp.m. 5.4. Příklad: Sledujeme rozložení počtu pacientů, kteří během 75 dnů přijdou na zubní pohotovost. Osmihodinovou pracovní dobu rozdělíme do půlhodinových intervalů a v každém intervalu zjistíme počet příchozích pacientů (máme 16 x 75 = 1200 intervalů). Počet pacientů 0 1 2 3 4 5 6 7 8 a víc četnost 79 188 282 275 196 114 45 10 11 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že počet příchozích pacientů během půl hodiny se řídí Poissonovým rozložením. Řešení: ( ) 7992,281171064551144196327522821188079 1200 1 mˆ =⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅==λ , testujeme H0: X1, …, X1200 ~ Po(2,7992) proti H1: non H0. Počítáme pravděpodobnosti 7992,2 j j e !j 7992,2 p − = , j = 0, 1, …, 7, ∑= −= 7 0j j8 p1p . j 0 1 2 3 4 5 6 7 8 nj 79 188 282 275 196 114 45 10 11 npj 73,0329 204,4313 286,1186 266,9646 186,8195 104,5878 48,7931 19,5114 9,7406 Podmínky dobré aproximace jsou splněny. Testová statistika: ( ) ( ) ( ) ( ) 5019,8 7406,9 7406,911 4313,204 4313,204188 0329,73 0329,7379 np npn K 222r 1j j 2 jj = − ++ − + − = − = ∑= K Kritický obor: ( ) ) ( ) ) )∞=∞−−χ=∞−−χ= α− ,067,14,119,1prW 95,0 2 1 2 ⇒∉ WK H0 nezamítáme na asymptotické hladině významnosti 0,05. 5.5. Poznámka: V MATLABu se test dobré shody pro Poissonovo rozložení provádí pomocí funkce tds_poiss.m. 5.6. Věta: Darlingův (jednoduchý) test exponenciálního rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z exponenciálního rozložení. Označme M výběrový průměr a S2 výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Ex(λ) je E(X) = 1/λ a rozptyl je D(X) = 1/λ2 . Test založíme na statistice ( ) 2 2 M S1n K − = , která se v případě platnosti H0 asymptoticky řídí rozložením χ2 (n-1). Kritický obor: ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 . Jestliže WK ∈ , H0 zamítáme na asymptotické hladině významnosti α. 5.7. Příklad: Pro data z příkladu 5.2. proveďte na hladině významnosti 0,05 Darlingův test. Řešení: n = 45, m = 99,93 h, s2 = 7328,9 h2 Testová statistika: ( ) 2924,32 93,99 91,732844 M S1n K 22 2 = ⋅ = − = Kritický obor: ( ) ( ) ) ( ) ( ) ) ∪=∞χ∪χ=∞−χ∪−χ= α−α ,202,64575,27,0,4444,0,1n1n,0W 975,0 2 025,0 2 2/1 2 2/ 2 Protože se testová statistika nerealizuje v kritickém oboru, hypotézu o exponenciálním rozložení nezamítáme na asymptotické hladině významnosti 0,05. 5.8. Věta: Jednoduchý test Poissonova rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z Poissonova rozložení. Označme M výběrový průměr a S2 výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Po(λ) je E(X) = λ a rozptyl je D(X) = λ. Test založíme na statistice ( ) M S1n K 2 − = , která se v případě platnosti H0 asymptoticky řídí rozložením χ2 (n-1). Kritický obor: ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 . Jestliže WK ∈ , H0 zamítáme na asymptotické hladině významnosti α. 5.9. Příklad: Pro data z příkladu 5.4. proveďte na hladině významnosti 0,05 jednoduchý test Poissonova rozložení. Řešení: Nejprve musíme vypočítat realizaci výběrového průměru a výběrového rozptylu: ( ) 7992,281171064551144196327522821188079 1200 1 mˆ =⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅+⋅==λ ( ) ( ) ( )[ ] 6594,27992,28117992,211887992,2079 1199 1 s 2222 =−⋅++−⋅+−⋅= K ( ) 1,1139 7882,2 6594,21199 M S1n K 2 = ⋅ = − = Kritický obor: ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 )∞∪= ;86,129693,1104;0 H0 nezamítáme na asymptotické hladině významnosti 0,05. 5.10. Poznámka: Darlingův test i jednoduchý test Poissonova rozložení můžeme v MATLABu provést pomocí funkce darling.m. 5.11. Poznámka: Pro výpočet kvantilů Pearsonova chí-kvadrát rozložení pro počet stupňů volnosti nad 30 můžeme použít aproximační vzorec: ( ) ( )22 1n2u 2 1 n −+≈χ αα . Pro kvantily z příkladu 5.9. dostáváme: ( ) ( ) ( ) 46,1104239796,1 2 1 111992u 2 1 1199 22 025,0025,0 2 =+−=−⋅+≈χ ( ) ( ) ( ) 42,1296239796,1 2 1 111992u 2 1 1199 22 975,0975,0 2 =+=−⋅+≈χ 5.12. Poznámka: Pro vizuální posouzení, zda naše data pocházejí z exponenciálního rozložení, lze také použít P-P graf. Způsob konstrukce: spočteme standardizované hodnoty s mx z i i − = , i = 1, ..., n a uspořádáme je podle velikosti z(1) ≤ … ≤ z(n). Na vodorovnou osu vyneseme hodnoty distribuční funkce exponenciálního rozložení ( )( ) ( )iz i e1z λ− −=Φ , i = 1, …, n a na svislou osu hodnoty empirické distribuční funkce ( )( ) n i zF in = , i = 1, …, n. Pokud se body (Φ(z(i)), F(z(i))) řadí kolem hlavní diagonály čtverce [0,1] x [0,1], lze soudit, že data pocházejí z exponenciálního rozložení.