Cvičení 5 s návodem Příklady na testování exponenciálního a Poissonova rozložení Teoretická část I. Test dobré shody Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z rozložení s distribuční funkcí Φ(x). Testová statistika ( ) ∑= − = r 1j j 2 jj np npn K se za platnosti nulové hypotézy asymptoticky řídí rozložením χ2 (r-p-1), kde p je počet odhadovaných parametrů daného rozložení. Přitom nj je absolutní četnost j-tého třídicího intervalu pro veličinu X resp. j-té varianty veličiny X, npj je teoretická četnost j-tého třídicího intervalu pro veličinu X resp. j-té varianty veličiny X. Platí-li nulová hypotéza, pak pj = Φ(uj+1) - Φ(uj) resp. [ ]( ) ( ) [ ] [ ]( )j xx jj xXPxlimxp j ==Φ−Φ= −→ . Kritický obor: ( ) )∞−−χ= α− ,1prW 1 2 . Jestliže WK ∈ , H0 zamítáme na asymptotické hladině významnosti α. Aproximace se považuje za vyhovující, když npj ≥ 5, j = 1, ..., r. Při nesplnění podmínky npj ≥ 5, j = 1, ..., r je třeba některé intervaly resp. varianty slučovat. II. Jednoduchý test exponenciálního rozložení (Darlingův test) Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z exponenciálního rozložení. Testová statistika ( ) 2 2 M S1n K − = , která se v případě platnosti H0 asymptoticky řídí rozložením χ2 (n-1). Přitom M je výběrový průměr a S2 je výběrový rozptyl daného náhodného výběru. Kritický obor: ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 . Jestliže WK ∈ , H0 zamítáme na asymptotické hladině významnosti α. III. Jednoduchý test Poissonova rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z Poissonova rozložení. Testová statistika ( ) M S1n K 2 − = , která se v případě platnosti H0 asymptoticky řídí rozložením χ2 (n-1). Přitom M je výběrový průměr a S2 je výběrový rozptyl daného náhodného výběru. Kritický obor: ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 . Jestliže WK ∈ , H0 zamítáme na asymptotické hladině významnosti α. Příklad 1.: V systému hromadné obsluhy byla sledována doba obsluhy 70 zákazníků (v min). Výsledky jsou uvedeny v tabulce rozložení četností: Doba obsluhy Počet zákazníků (0, 3] 14 (3,6] 16 (6,9] 10 (9,12] 9 (12,15] 8 (15,18] 5 (18,21] 3 (21,24] 5 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z exponenciálního rozložení. Použijte: a) test dobré shody, b) Darlingův test exponenciálního rozložení Řešení: Testujeme H0: náhodný výběr X1, …, X70 pochází z Ex(λ) proti H1: non H0. Ad a) Nejprve odhadneme parametr λ exponenciálního rozložení: [ ] ( ) 1122,0 5,2255,4165,114 70 1 xn n 1 1 m 1ˆ r 0j jj = ⋅++⋅+⋅= ==λ ∑= K Pravděpodobnost, že náhodná veličina s rozložením Ex(λ), kde λ = 0,1122 se bude realizovat v intervalu ( 1jj u,u + je pj = Φ(uj+1) - Φ(uj), j = 1, …, r-1, pr = 1 - Φ(uj) (součet pj musí být 1, tedy horní mez posledního třídicího intervalu klademe ∞), kde ( ) x e1x λ− −=Φ . Střed posledního třídicího intervalu bude ve stejné vzdálenosti od ur jako je střed předposledního třídicího intervalu. Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. ( 1jj u,u + x[j] nj pj npj (0, 3] 1,5 14 0,2858 20,0033 (3,6] 4,5 16 0,2041 14,2871 (6,9] 7,5 10 0,1458 10,2044 (9,12] 10,5 9 0,1041 7,2884 (12,15] 13,5 8 0,0744 5,2056 (15,18] 16,5 5 0,0531 3,7181 (18,21] 19,5 3 0,0378 2,6556 (21, 24] 22,5 5 0,0271 1,8967 Podmínky dobré aproximace nejsou splněny, sloučíme tedy intervaly (15,18] až (21,24] . ( 1jj u,u + x[j] nj pj npj (nj - npj)2 / npj (0, 3] 1,5 14 0,2818 20,0033 1,8017 (3,6] 4,5 16 0,2041 14,2871 0,2054 (6,9] 7,5 10 0,1458 10,2044 0,0041 (9,12] 10,5 9 0,1041 7,2884 0,4020 (12,15] 13,5 8 0,0744 5,2056 1,5000 (15,24] 19,5 13 0,1181 8,2704 2,7047 Testová statistika K = 1,8017 + … + 2,7047 = 6,6178, r = 6, p = 1, r – p – 1 = 4, χ2 0,95(4) = 9,4877. Testová statistika se nerealizuje v kritickém oboru )∞= ,4877,9W , na asymptotické hladině významnosti 0,05 nelze zamítnout hypotézu, že doba obsluhy se řídí exponenciálním rozložením. Ad b) Nejprve musíme vypočítat realizaci výběrového průměru a výběrového rozptylu: ( ) 9143,85,2255,4165,114 70 1 m =⋅++⋅+⋅= K ( ) ( ) ( )[ ] 1447,419143,85,2259143,85,4169143,85,119 69 1 s 2222 =−⋅++−⋅+−⋅= K Testová statistika: ( ) 7265,35 9143,8 1447,4169 M S1n K 22 2 = ⋅ = − = . Kritický obor: ( ) ( ) ) )∞∪=∞χ∪χ= ,8565,939242,47;0,6969,0W 975,0 2 025,0 2 . H0 zamítáme na asymptotické hladině významnosti 0,05. Řešení pomocí MATLABu: Ad a) Úkol vyřešíme pomocí funkce tds_exp.m. Přitom již zohledníme, že při původním třídění do 8 intervalů nebyly splněny podmínky dobré aproximace a budeme pracovat se 6 intervaly. Zadáme vektor mezí uj= [0 3 6 9 12 15 24] ', vektor pozorovaných četností nj = [14 16 10 9 8 13] ' a hladinu významnosti alfa=0.05. Zavoláme funkci tds_exp: [zamitnuti,K,p,lambda]=tds_exp(uj,nj,alfa) Dostaneme výsledek: zamitnuti = 0 K = 6.6178 p = 0.1575 lambda = 0.1122 Protože p-hodnota je větší než hladina významnosti 0,05, H0 nezamítáme na asymptotické hladině významnosti 0,05. Ad b) Použijeme funkci darling.m. Zadáme vstupní vektor středů původních třídicích intervalů společně s absolutními četnostmi třídicích intervalů: X= [1.5 14;4.5 16;7.5 10;10.5 9;13.5 8;16.5 5;19.5 3;22.5 5] Zavoláme funkci darling: [zamitnuti,K,p,lambda]=darling(X) Dostaneme výsledek: zamitnuti = 1 K = 35.7265 p = 6.1430e-004 lambda = 0.1122 Darlingův test zamítá hypotézu o exponenciálním rozložení na asymptotické hladině významnosti 0,05. Příklad 2.: Na jistém nádraží byl sledován počet přijíždějících vlaků za 1 h. Pozorování bylo prováděno celkem 15 dnů (tj. 360 h) a výsledky jsou uvedeny v tabulce: Počet vlaků za 1 hodinu 0 1 2 3 4 5 6 7 a víc četnost 27 93 103 58 50 21 6 2 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že počet přijíždějících vlaků za 1 h se řídí Poissonovým rozložením, a to a) testem dobré shody, b) jednoduchým testem Poissonova rozložení. Řešení: Testujeme H0: náhodný výběr X1, …, X360 pochází z Po(λ) proti H1: non H0. Ad a) Nejprve odhadneme parametr λ Poissonova rozložení: [ ] ( ) 3,272193027 360 1 xn n 1 mˆ r 0j jj =⋅++⋅+⋅===λ ∑= K Pravděpodobnost, že náhodná veličina s rozložením Po(λ), kde λ = 2,3 bude nabývat hodnot 0, 1, ..., 7 a víc je ( )6107 3,2 jj j ppp1p0,1,...,6,j,e !j 3,2 e !j p ++−=== λ = −λ− K . Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j nj pj npj 0 27 0,1003 36,0932 1 93 0,2306 83,0143 2 103 0,2652 95,4665 3 58 0,2033 73,1910 4 50 0,1169 43,0848 5 21 0,0538 19,3590 6 6 0,0216 7,4210 7 a víc 2 0,0094 3,3703 Podmínky dobré aproximace nejsou splněny, sloučíme tedy varianty 6 a 7 a víc. j nj pj npj (nj - npj)2 / npj 0 27 0,1003 36,0932 2,2909 1 93 0,2306 83,0143 1,2012 2 103 0,2652 95,4665 0,5945 3 58 0,2033 73,1910 3,1529 4 50 0,1169 43,0848 1,4887 5 21 0,0538 19,3590 0,1391 6 a víc 8 0,0300 10,7912 0,7220 K = 2,2909 + 1,2012 + … + 0,7220 = 9,5892, r = 7, p = 1, r – p – 1 = 5, χ2 0,95(5) = 11,0705. Protože 9,5892 < 11,0705, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Nepodařilo se tedy prokázat, že počty přijíždějících vlaků za 1 h se neřídí Poissonovým rozložením. Ad b) Nejprve musíme vypočítat realizaci výběrového průměru a výběrového rozptylu: ( ) 3,272193027 360 1 m =⋅++⋅+⋅= K ( ) ( ) ( )[ ] 121448,23,2723,21933,2027 359 1 s 2222 =−⋅++−⋅+−⋅= K Testová statistika: ( ) 1304,331 3,2 121448,2359 M S1n K 2 = ⋅ = − = , Kritický obor: ( ) ( ) ) )∞∪=∞χ∪χ= ,4,4134,308,0,359359,0W 975,0 2 025,0 2 H0 nezamítáme na asymptotické hladině významnosti 0,05. Řešení pomocí MATLABu: Ad a) Použijeme funkci tds_poiss.m. Opět zohledníme, že při původním zadání nebyly splněny podmínky dobré aproximace a použijeme tedy jenom 7 variant. Zadáme vektor variant xj = [0:6]' a vektor pozorovaných četností nj = [27 93 103 58 50 21 8]'. Zavoláme funkci tds_poiss: [zamitnuti,K,p,lambda]=tds_poiss(xj,nj,alfa) Dostaneme výsledek: zamitnuti = 0 K = 9.6033 p = 0.0873 lambda = 2.2944 H0 tedy nezamítáme na asymptotické hladině významnosti 0,05. Ad b) Použijeme funkci darling.m. Zadáme vstupní vektor variant xj=[0:7]' společně s absolutními četnostmi těchto variant nj=[27 93 103 58 50 21 6 2]' a utvoříme matici X: X= [xj nj]; Zavoláme funkci darling: [zamitnuti,K,p,lambda]=darling(X,’poiss’) Dostaneme výsledek: zamitnuti = 0 K = 331.1304 p = 0.2968 lambda = 2.3 Další možnosti ověřování exponenciálního rozložení: využití funkce probplot (pravděpodobnostně – pravděpodobnostní graf), Kolmogorovův – Smirnovův test (funkce kstest, musíme znát parametr lambda). Použití K-S testu a P-P plotu: Vygenerujeme 100 hodnot z exponenciálního rozložení se střední hodnotou 2: x=exprnd(2,100,1); Provedeme porovnání výběrové distribuční funkce s distribuční funkcí exponenciálního rozložení se střední hodnotou 2: [h,p,ksstat]=kstest(x,[x,expcdf(x,2)]) Význam výstupních parametrů: h = 0, když nezamítáme hypotézu o exponenciálním rozložení Ex(2) na hladině významnosti 0,05, h = 1, když tuto hypotézu zamítáme. p je odpovídající p-hodnota ksstat je hodnota testové statistiky. probplot(‘Exponential‘, x) Příklady k samostatnému řešení: 1. Máme k dispozici 10 údajů o době mezi poruchami určitého zařízení (v hodinách): 14 25 196 205 64 237 162 84 121 38 Na hladině významnosti 0,05 rozhodněte pomocí Darlingova testu, zda lze rozložení doby do poruchy považovat za exponenciální. [Nulovou hypotézu nezamítáme na hladině významnosti 0,05, p-hodnota = 0,2546] 2. Česká obchodní inspekce provedla šetření ve 22 sběrnách druhotných surovin. Zjišťovala počet závad, které se v jednotlivých sběrnách vyskytly. Výsledky jsou uvedeny v tabulce: Počet závad 0 1 2 3 Počet sběren 7 5 4 6 Na hladině významnosti 0,05 rozhodněte pomocí a) testu dobré shody (ověřte splnění podmínek dobré aproximace), b) jednoduchého testu, zda lze rozložení počtu závad považovat za Poissonovo. [Nulovou hypotézu nezamítáme na hladině významnosti 0,05, a) p-hodnota = 0,1125, b) p-hodnota = 0,7732]