Cvičení 5 - Příklady na testování exponenciálního a Poissonova rozložení I. Test dobré shody H0: náhodný výběr X1, ..., Xn pochází z rozložení s distribuční funkcí Φ(x). Testová statistika ( ) = − = r 1j j 2 jj np npn K ≈ χ2 (r-p-1), když H0 platí. Přitom: r je počet variant resp. počet třídicích intervalů veličiny X, p je počet odhadovaných parametrů daného rozložení, nj je absolutní četnost j-tého třídicího intervalu pro veličinu X resp. j-té varianty veličiny X, npj je teoretická četnost j-tého třídicího intervalu pro veličinu X resp. j-té varianty veličiny X. Platí-li nulová hypotéza, pak pj = Φ(uj+1) - Φ(uj) resp. [ ]( ) ( ) [ ] [ ]( )j xx jj xXPxlimxp j ==Φ−Φ= −→ . Kritický obor: ( ) )∞−−χ= α− ,1prW 1 2 . Jestliže WK ∈ , H0 zamítáme na asymptotické hladině významnosti α. Aproximace se považuje za vyhovující, když npj ≥ 5, j = 1, ..., r. Při nesplnění podmínky npj ≥ 5, j = 1, ..., r je třeba některé intervaly resp. varianty slučovat. II. Jednoduchý test exponenciálního rozložení (Darlingův test) H0: náhodný výběr X1, ..., Xn pochází z exponenciálního rozložení. Testová statistika ( ) 2 2 M S1n K − = ≈ χ2 (n-1), když H0 platí. Přitom M je výběrový průměr a S2 je výběrový rozptyl daného náhodného výběru. Kritický obor: ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 . Jestliže WK ∈ , H0 zamítáme na asymptotické hladině významnosti α. III. Jednoduchý test Poissonova rozložení H0: náhodný výběr X1, ..., Xn pochází z Poissonova rozložení. Testová statistika ( ) M S1n K 2 − = ≈ χ2 (n-1), když H0 platí. Kritický obor: ( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1 2 2/ 2 . Jestliže WK ∈ , H0 zamítáme na asymptotické hladině významnosti α. IV. Test hypotézy o střední hodnotě Poissonova rozložení H0: λ = λ0 proti H1: λ ≠ λ0. Testová statistika: = = n 1i i0 XT ~ Po(nλ0) za platnosti H0. p-hodnota = 2 min{Φ(t0),1-Φ(t0)}, kde Φ(t0) je hodnota distribuční funkce rozložení Po(nλ0). Je-li p ≤ α, H0 zamítáme na hladině významnosti α ve prospěch H1. V. Test hypotézy o shodě středních hodnot dvou Poissonových rozložení H0: λ1 = λ2 proti H1: λ1 ≠ λ2. Předpokládá se splnění podmínky λi > 9, i = 1, 2. Testová statistika: )1,0(N n M n M MM T 2 2 1 1 21 0 ≈ + − = , když H0 platí p-hodnota = 2 min{Φ(t0),1-Φ(t0)}, kde Φ(t0) je hodnota distribuční funkce rozložení N(0,1). Je-li p ≤ α, H0 zamítáme na hladině významnosti α ve prospěch H1. VI. Test hypotézy o střední hodnotě exponenciálního rozložení H0: 1/λ = 1/λ0 proti H1: 1/λ ≠ 1/λ0. Testová statistika: = = n 1i i0 XT ~ Er(n, λ0), když H0 platí. p-hodnota = 2 min{Φ(t0),1-Φ(t0)}, kde Φ(t0) je hodnota distribuční funkce rozložení Er(n, λ0). Je-li p ≤ α, H0 zamítáme na hladině významnosti α ve prospěch H1. Příklad 1.: V systému hromadné obsluhy byla sledována doba obsluhy 70 zákazníků (v min). Výsledky jsou uvedeny v tabulce rozložení četností: Doba obsluhy Počet zákazníků (0, 3] 14 (3,6] 16 (6,9] 10 (9,12] 9 (12,15] 8 (15,18] 5 (18,21] 3 (21,24] 5 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z exponenciálního rozložení. Použijte: a) test dobré shody, b) Darlingův test exponenciálního rozložení Řešení: Testujeme H0: náhodný výběr X1, …, X70 pochází z Ex(λ) proti H1: non H0. Ad a) Odhadneme parametr λ: [ ] ( ) 1122,0 5,2255,4165,114 70 1 xn n 1 1 m 1ˆ r 0j jj = ⋅++⋅+⋅= ==λ = K Pravděpodobnost, že náhodná veličina s rozložením Ex(λ), kde λ = 0,1122 se bude realizovat v intervalu ( 1jj u,u + je pj = Φ(uj+1) - Φ(uj), j = 1, …, r-1, pr = 1 - Φ(uj) (součet pj musí být 1, tedy horní mez posledního třídicího intervalu klademe ∞), kde ( ) x e1x λ− −=Φ . Střed posledního třídicího intervalu bude ve stejné vzdálenosti od ur jako je střed předposledního třídicího intervalu. Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. ( 1jj u,u + x[j] nj pj npj (0, 3] 1,5 14 0,2858 20,0033 (3,6] 4,5 16 0,2041 14,2871 (6,9] 7,5 10 0,1458 10,2044 (9,12] 10,5 9 0,1041 7,2884 (12,15] 13,5 8 0,0744 5,2056 (15,18] 16,5 5 0,0531 3,7181 (18,21] 19,5 3 0,0378 2,6556 (21, 24] 22,5 5 0,0271 1,8967 Podmínky dobré aproximace nejsou splněny, sloučíme tedy intervaly (15,18] až (21,24] . ( 1jj u,u + x[j] nj pj npj (nj - npj)2 / npj (0, 3] 1,5 14 0,2818 20,0033 1,8017 (3,6] 4,5 16 0,2041 14,2871 0,2054 (6,9] 7,5 10 0,1458 10,2044 0,0041 (9,12] 10,5 9 0,1041 7,2884 0,4020 (12,15] 13,5 8 0,0744 5,2056 1,5000 (15,24] 19,5 13 0,1181 8,2704 2,7047 K = 1,8017 + … + 2,7047 = 6,6178, r = 6, p = 1, r – p – 1 = 4, χ2 0,95(4) = 9,4877. K∉ )∞= ,4877,9W  na asymptotické hladině významnosti 0,05 nelze zamítnout hypotézu, že doba obsluhy se řídí exponenciálním rozložením. Ad b) ( ) 9143,85,2255,4165,114 70 1 m =⋅++⋅+⋅= K ( ) ( ) ( )[ ] 1447,419143,85,2259143,85,4169143,85,119 69 1 s 2222 =−⋅++−⋅+−⋅= K Testová statistika: ( ) 7265,35 9143,8 1447,4169 M S1n K 22 2 = ⋅ = − = . Kritický obor: ( ) ( ) ) )∞∪=∞χ∪χ= ,8565,939242,47;0,6969,0W 975,0 2 025,0 2 . H0 zamítáme na asymptotické hladině významnosti 0,05. Řešení pomocí MATLABu: Ad a) Úkol vyřešíme pomocí funkce tds_exp.m. Přitom již zohledníme, že při původním třídění do 8 intervalů nebyly splněny podmínky dobré aproximace a budeme pracovat se 6 intervaly. Zadáme vektor mezí uj= [0 3 6 9 12 15 24] ', vektor pozorovaných četností nj = [14 16 10 9 8 13] ' a hladinu významnosti alfa=0.05. Zavoláme funkci tds_exp: [zamitnuti,K,p,lambda]=tds_exp(uj,nj,alfa) Dostaneme výsledek: zamitnuti=0, K=6.6178, p=0.1575, lambda=0.1122 Protože p-hodnota je větší než hladina významnosti 0,05, H0 nezamítáme na asymptotické hladině významnosti 0,05. Ad b) Použijeme funkci darling.m. Zadáme vstupní vektor středů původních třídicích intervalů společně s absolutními četnostmi třídicích intervalů: X= [1.5 14;4.5 16;7.5 10;10.5 9;13.5 8;16.5 5;19.5 3;22.5 5] Zavoláme funkci darling: [zamitnuti,K,p,lambda]=darling(X) Dostaneme výsledek: zamitnuti=1, K=35.7265, p=6.1430e-004, lambda=0.1122 Darlingův test zamítá hypotézu o exponenciálním rozložení na asymptotické hladině významnosti 0,05. Příklad 2.: Na jistém nádraží byl sledován počet přijíždějících vlaků za 1 h. Pozorování bylo prováděno celkem 15 dnů (tj. 360 h) a výsledky jsou uvedeny v tabulce: Počet vlaků za 1 hodinu 0 1 2 3 4 5 6 7 a víc četnost 27 93 103 58 50 21 6 2 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že počet přijíždějících vlaků za 1 h se řídí Poissonovým rozložením, a to a) testem dobré shody, b) jednoduchým testem Poissonova rozložení. Řešení: Testujeme H0: náhodný výběr X1, …, X360 pochází z Po(λ) proti H1: non H0. Ad a) Nejprve odhadneme parametr λ Poissonova rozložení: [ ] ( ) 3,272193027 360 1 xn n 1 mˆ r 0j jj =⋅++⋅+⋅===λ = K Pravděpodobnost, že náhodná veličina s rozložením Po(λ), kde λ = 2,3 bude nabývat hodnot 0, 1, ..., 7 a víc je ( )6107 3,2 jj j ppp1p0,1,...,6,j,e !j 3,2 e !j p ++−=== λ = −λ− K . Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky: j nj pj npj 0 27 0,1003 36,0932 1 93 0,2306 83,0143 2 103 0,2652 95,4665 3 58 0,2033 73,1910 4 50 0,1169 43,0848 5 21 0,0538 19,3590 6 6 0,0216 7,4210 7 a víc 2 0,0094 3,3703 Podmínky dobré aproximace nejsou splněny, sloučíme tedy varianty 6 a 7 a víc. j nj pj npj (nj - npj)2 / npj 0 27 0,1003 36,0932 2,2909 1 93 0,2306 83,0143 1,2012 2 103 0,2652 95,4665 0,5945 3 58 0,2033 73,1910 3,1529 4 50 0,1169 43,0848 1,4887 5 21 0,0538 19,3590 0,1391 6 a víc 8 0,0300 10,7912 0,7220 K = 2,2909 + 1,2012 + … + 0,7220 = 9,5892, r = 7, p = 1, r – p – 1 = 5, χ2 0,95(5) = 11,0705. Protože 9,5892 < 11,0705, H0 nezamítáme na asymptotické hladině významnosti 0,05. Ad b) ( ) 3,272193027 360 1 m =⋅++⋅+⋅= K ( ) ( ) ( )[ ] 121448,23,2723,21933,2027 359 1 s 2222 =−⋅++−⋅+−⋅= K Testová statistika: ( ) 1304,331 3,2 121448,2359 M S1n K 2 = ⋅ = − = , Kritický obor: ( ) ( ) ) )∞∪=∞χ∪χ= ;4,4134,308;0,359359,0W 975,0 2 025,0 2 H0 nezamítáme na asymptotické hladině významnosti 0,05. Řešení pomocí MATLABu: Ad a) Použijeme funkci tds_poiss.m. Opět zohledníme, že při původním zadání nebyly splněny podmínky dobré aproximace a použijeme tedy jenom 7 variant. Zadáme vektor variant xj = [0:6]' a vektor pozorovaných četností nj = [27 93 103 58 50 21 8]'. Zavoláme funkci tds_poiss: [zamitnuti,K,p,lambda]=tds_poiss(xj,nj,alfa) Dostaneme výsledek: zamitnuti=0, K=9.6033, p=0.0873, lambda=2.2944 H0 tedy nezamítáme na asymptotické hladině významnosti 0,05. Ad b) Použijeme funkci darling.m. Zadáme vstupní vektor variant xj=[0:7]' společně s absolutními četnostmi těchto variant nj=[27 93 103 58 50 21 6 2]' a utvoříme matici X: X= [xj nj]; Zavoláme funkci darling: [zamitnuti,K,p,lambda]=darling(X,’poiss’) Dostaneme výsledek: zamitnuti=0, K=331.1304, p=0.2968, lambda=2.3 Příklad 3.: Ve firmě mají kopírku, která se v průměru porouchá 3x za týden. Přestěhovali ji do vyššího podlaží, kde je hůře přístupná. Během následujících šesti týdnů zaznamenali tyto počty poruch: 3, 4, 2, 1, 1, 2. Na hladině významnosti 0,05 testujte hypotézu, že a) počty poruch kopírky po přestěhování mají Poissonovo rozložení (použijte jednoduchý test Poissonova rozložení), b) střední hodnota počtu poruch kopírky po přestěhování je nižší než před přestěhováním. Řešení: Ad a) Testujeme H0: náhodný výběr X1, …, X6 pochází z Po(λ) proti H1: non H0. ( ) 1667,2 6 13 211243 6 1 m ==+++++= 3667,1 6 13 2 6 13 3 5 1 s 22 2 =               −+      −= K Testová statistika: ( ) 1538,3 1667,2 3667,15 M S1n K 2 = ⋅ = − = Kritický obor: ( ) ( ) ) )∞∪=∞χ∪χ= ;8325,128312,0;0,55,0W 975,0 2 025,0 2 H0 nezamítáme na asymptotické hladině významnosti 0,05. Ad b) Testujeme H0: λ = 3 proti H1: λ < 3. Známe n = 6, m = 13/6, λ0 = 3, α = 0,05, nλ0 = 18 Realizace testové statistiky: t0 = 3+4+2+1+1+2 = 13 p-hodnota = Φ(13) = poisscdf(13,18) = 0,1426 Na hladině významnosti 0,05 nezamítáme nulovou hypotézu. Příklad 4.: Adam si zaznamenával počty e-mailů, které mu přišly během týdne, bylo jich 126. Jeho přítelkyni Barboře přišlo za týden 112 e-mailů. Za předpokladu, že počty e-mailů se řídí Poissonovým rozložením, na asymptotické hladině významnosti 0,05 testujte hypotézu, že střední hodnota počtu e-mailů, které dostane Adam za den, je stejná jako střední hodnota počtu e-mailů, které dostane Barbora za den. Řešení: Testujeme H0: λ1 = λ2 proti H1: λ1 ≠ λ2. Realizace testové statistiky: 9075,0 7 34 1618 7 7 122 7 7 126 7 112 7 126 n m n m mm t 2 2 1 1 21 0 = − = + − = + − = Kritický obor: )( ∞∪−∞−= ,96,196,1,W H0 nezamítáme na asymptotické hladině významnosti 0,05. Příklady k samostatnému řešení: 1. Máme k dispozici 10 údajů o době mezi poruchami určitého zařízení (v hodinách): 14 25 196 205 64 237 162 84 121 38 Na hladině významnosti 0,05 rozhodněte pomocí Darlingova testu, zda lze rozložení doby do poruchy považovat za exponenciální. [Nulovou hypotézu nezamítáme na hladině významnosti 0,05, p-hodnota = 0,2546] 2. Česká obchodní inspekce provedla šetření ve 22 sběrnách druhotných surovin. Zjišťovala počet závad, které se v jednotlivých sběrnách vyskytly. Výsledky jsou uvedeny v tabulce: Počet závad 0 1 2 3 Počet sběren 7 5 4 6 Na hladině významnosti 0,05 rozhodněte pomocí a) testu dobré shody (ověřte splnění podmínek dobré aproximace), b) jednoduchého testu, zda lze rozložení počtu závad považovat za Poissonovo. [Nulovou hypotézu nezamítáme na hladině významnosti 0,05, a) p-hodnota = 0,1125, b) p-hodnota = 0,7732]