5. Testování exponenciálního a Poissonova rozložení 5.1. Věta (test dobré shody – viz přednáška 2) H0: náhodný výběr X1, …, Xn pochází z rozložení s distribuční funkcí Φ(x) H1: non H0 Testová statistika: ( ) ( )1pr np npn K 2 r 1j j 2 jj −−χ≈ − = = , když H0 platí r … počet třídicích intervalů ( 1jj u,u + ve spojitém případě resp. počet variant x[j] v diskrétním případě. nj … absolutní četnost j-tého třídicího intervalu resp. j-té varianty. pj … pravděpodobnost, že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat v j-tém třídicím intervalu resp. j-tou variantou. p … počet odhadovaných parametrů testovaného rozložení. Kritický obor: ( ) )∞−−χ= α− ,1prW 1 2 ∈ WK H0 zamítáme na asymptotické hladině významnosti α. Podmínky dobré aproximace: npj ≥ 5, j = 1, ..., r. Při nesplnění těchto podmínek se doporučuje slučování některých třídicích intervalů resp. variant. 5.2. Příklad: Byla zjišťována doba životnosti 45 součástek (v hodinách). Ze získaných údajů byl vypočten výběrový průměr m = 99,93 h a výběrový rozptyl s2 = 7328,9 h2 . Máme k dispozici roztříděné údaje: Doba životnosti Počet součástek ( 50,0 15 ( 100,50 14 ( 150,100 6 ( 200,150 5 ( 250,200 2 ( 300,250 1 ( 350,300 1 ( 400,350 1 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že doba životnosti se řídí exponenciálním rozložením. Řešení: 93,99 1 m 1ˆ ==λ , testujeme H0: X1, …, X45 ~       93,99 1 Ex proti H1: non H0. Počítáme pravděpodobnosti  + − = 1j j u u 93,99 x j dxe 93,99 1 p , j = 1, 2, …, 8 j ( 1jj u,u + nj pj npj = 45pj 1 ( 50,0 15 0,3937 17,72 2 ( 100,50 14 0,2387 10,74 3 ( 150,100 6 0,1447 6,51 4 ( 200,150 5 0,0878 3,95 5 ( 250,200 2 0,0532 2,39 6 ( 300,250 1 0,0323 1,45 7 ( 350,300 1 0,0196 0,88 8 ( 400,350 1 0,0119 0,53 Vidíme, že pro j = 4, …, 8 nejsou splněny podmínky dobré aproximace. Posledních 5 intervalů tedy sloučíme do jednoho. Dostaneme novou tabulku j ( 1jj u,u + nj pj npj = 45pj 1 ( 50,0 15 0,3937 17,7157 2 ( 100,50 14 0,2387 10,7413 3 ( 150,100 6 0,1447 6,5127 4 ( 400,150 10 0,2046 9,2084 Testová statistika: ( ) ( ) ( ) ( ) ( ) 5133,1 2084,9 2084,910 5127,6 5127,66 7413,10 7413,1014 7157,17 7157,1715 np npn K 2222r 1j j 2 jj = = − + − + − + − = − = = Kritický obor: ( ) ) ( ) ) )∞=∞−−χ=∞−−χ= α− ,9915,5,114,1prW 95,0 2 1 2 ∉ WK H0 nezamítáme na asymptotické hladině významnosti 0,05. 5.3. Poznámka: V MATLABu se test dobré shody pro exponenciální rozložení provádí pomocí funkce tds_exp.m. function [zamitnuti,K,p,lambda]=tds_exp(uj,nj,alfa) % test dobre shody k overeni exponencialniho rozlozeni % syntaxe: [zamitnuti,K,p,lambda]=tds_exp(uj,nj,alfa) % vstupni parametry: % uj ... sloupcovy vektor s mezemi tridicich intervalu % nj ... sloupcovy vektor absolutnich cetnosti tridicich intervalu % alfa ... hladina vyznamnosti testu % vystupni parametry: % zamitnuti ... =0, kdyz H0 nezamitame % =1, kdyz H0 zamitame % K ... hodnota testove statistiky % p ... p-hodnota testu % lambda ... odhad parametru exponencialniho rozlozeni delka=size(uj); delka=delka(:,1); dti=diff(uj/2); xj=[uj(1:delka-1)+dti]; n=sum(nj); lambda=n/(nj'*xj); npj=[n*diff(expcdf(uj,1/lambda))]; %test podminek dobre aproximace....hodnota 1 pro poruseni if sum(npj<5)>0 poruchy_podminek=(npj<5)' error('Nejsou splneny podminky dobre aproximace.') end; K=sum((nj-npj).^2./npj); kvantil=chi2inv(1-alfa,size(nj,1)-2); p=1-chi2cdf(K,size(nj,1)-2); zamitnuti=(p % zamitnuti ... =0, kdyz H0 nezamitame % =1, kdyz H0 zamitame % K ... hodnota testove statistiky % p ... p-hodnota testu % lambda ... odhad parametru Poissonova rozlozeni n=sum(nj); r=size(xj,1); lambda=sum(nj'*xj)/n; pj=poisspdf(xj(1:r-1),lambda); pj=[pj;1-sum(pj)]; npj=n*pj; %test podminek dobre aproximace....hodnota 1 pro poruseni if sum(npj<5)>0 poruchy_podminek=(npj<5)' error('Nejsou splneny podminky dobre aproximace.') end; K=sum((nj-npj).^2./npj); kvantil=chi2inv(1-alfa,size(nj,1)-2); p=1-chi2cdf(K,size(nj,1)-2); zamitnuti=(p ZAMITAME hypotezu o shode rozdeleni % zamitnuti=0 => hypotezu o shode rozdeleni NEZAMITAME % K = hodnota testoveho kriteria % p = p-hodnota testu % lambda = odhadnuty parametr rozdeleni % (c) Ondrej Petrik, 10.03.2010 if (nargin==1) distrib='exp'; end if (nargin<3) alfa=0.05; end [a,b]=size(X); if(a 0 je konstanta. Na hladině významnosti α testujeme H0: λ = λ0 proti H1: λ ≠ λ0 (resp. proti H1: λ < λ0 resp. H1: λ > λ0) Stanovíme testovou statistiku = = n 1i i0 XT , která se za platnosti H0 řídí rozložením Po(nλ0). Vypočteme p-hodnotu: p = Φ(t0) pro levostrannou alternativu (v MATLABu: p = poisscdf(t0, lambda)), p = 1 - Φ(t0) pro pravostrannou alternativu (v MATLABu: p = 1 - poisscdf(t0, lambda)), p = 2 min{Φ(t0), 1 - Φ(t0)} pro oboustrannou alternativu (v MATLABu: p = 2*min(poisscdf(t0, lambda), 1- poisscdf(t0, lambda)). Je-li p ≤ α, H0 zamítáme na hladině významnosti α ve prospěch H1. (Parametr lambda ve funkci poisscdf se vypočítá jako nλ0.) Upozornění: Je-li nλ0 ≥ 30, lze využít aproximaci rozložení výběrového úhrnu = n 1i iX rozložením N(nλ0, nλ0) a následně ho standardizovat. Testová statistika 0 0 n 1i i 0 n nX T λ λ− = = má za platnosti H0 asymptoticky rozložení N(0,1). 5.14. Příklad na levostrannou alternativu Je známo, že u jisté značky auta se vyskytne porucha průměrně 3x za dva roky. Předpokládáme, že počet poruch se řídí Poissonovým rozložením. Výrobce uvedl na trh nový model, o němž tvrdí, že je méně poruchový. U 10 náhodně vybraných nových modelů bylo zjištěno celkem 8 poruch během jednoho roku. Na hladině významnosti 0,05 ověřte tvrzení výrobce. Řešení: Y – počet poruch starého modelu auta během roku, Y ~ Po(λ0), kde λ0 = 1,5. X – počet poruch nového modelu auta během roku, X ~ Po(λ). Na hladině významnosti α = 0,05 testujeme H0: λ = 1,5 proti H1: λ < 1,5. Pořídíme náhodný výběr rozsahu 10 z rozložení Po(λ), kde bylo zjištěno, že realizace testové statistiky 8xt 10 1i i0 == = . Testová statistika = = 10 1i i0 XT se za platnosti H0 řídí rozložením Po(15). Vypočteme p-hodnotu pro levostrannou alternativu: ( ) 0374,0)15,8(poisscdfe !k 15 tp 8 0k 15 k 0 ===Φ= = − Protože 0,0374 ≤ 0,05, H0 zamítáme na hladině významnosti 0,05. S rizikem omylu nejvýše 5 % jsme prokázali, že tvrzení výrobce automobilů je pravdivé. I když není splněna podmínka dobré aproximace ( 30155,110n 0 <=⋅=λ ), pokusíme se využít testovou statistiku 0 0 n 1i i 0 n nX T λ λ− = = . Její realizace je 8074,1 15 158 t0 −= − = , p-hodnota = Φ(-1,8074) = 0,0354. Protože 0,0354 ≤ 0,05, H0 zamítáme na asymptotické hladině významnosti 0,05. 5.15. Příklad na pravostrannou alternativu Na jistém úseku silnice byla dlouhodobě omezena rychlost na 50 km/h. V této době zde byly zaznamenány počty dopravních nehod v jednotlivých měsících roku: měsíc I II III IV V VI VII VIII IX X XI XII počet nehod 2 2 1 0 0 2 3 2 2 1 1 1 Po zrušení omezení rychlosti se na tomto úseku opět zaznamenávaly počty nehod: měsíc I II III IV V VI VII VIII IX X XI XII počet nehod 3 2 1 1 0 2 3 4 4 0 2 2 Za předpokladu, že počty nehod se řídí Poissonovým rozložením, testujte na hladině významnosti 0,05 hypotézu, že zrušení omezení rychlosti vedlo ke zvýšení počtu nehod. Řešení: Y – počet nehod za měsíc v době omezení rychlosti, Y ~ Po(λ0), kde λ0 = 17/12. X – počet nehod za měsíc v době zrušení omezení rychlosti, X ~ Po(λ). Na hladině významnosti 0,05 testujeme H0: λ = 17/12 proti H1: λ > 17/12. Pořídíme náhodný výběr rozsahu 12 z rozložení Po(λ), kde bylo zjištěno, že realizace testové statistiky 24xt 12 1i i0 == = . Testová statistika = = 12 1i i0 XT se za platnosti H0 řídí rozložením Po(17). Vypočteme p-hodnotu pro pravostrannou alternativu: ( ) 0406,0)17,24(poisscdf1e !k 17 1t1p 24 0k 17 k 0 =−=−=Φ−= = − Protože 0,0406 ≤ 0,05, H0 zamítáme na hladině významnosti 0,05. S rizikem omylu nejvýše 5 % se prokázalo, že zrušení omezení rychlosti vedlo ke zvýšení počtu nehod. 5.16. Příklad na oboustrannou alternativu Zákazníci jisté specializované prodejny si za týden stěžují v průměru 5,5x na kvalitu zboží. Lze předpokládat, že počet stížností má Poissonovo rozložení. Majitel prodejny změnil dodavatele zboží a po této změně zjistil, že v následujících osmi týdnech byl celkový počet stížností na kvalitu zboží roven 32. Na hladině významnosti 0,05 testujte hypotézu, že změna dodavatele měla vliv na průměrný počet stížností za týden. Řešení: Y – počet stížností za týden před změnou dodavatele, Y ~ Po(λ0), kde λ0 = 5,5. X – počet stížností za týden po změně dodavatele, X ~ Po(λ). Na hladině významnosti 0,05 testujeme H0: λ = 5,5 proti H1: λ ≠ 5,5. Pořídíme náhodný výběr rozsahu 8 z rozložení Po(λ), kde bylo zjištěno, že realizace testové statistiky 32xt 8 1i i0 == = . Testová statistika = = 8 1i i0 XT se za platnosti H0 řídí rozložením Po(44). Vypočteme p-hodnotu pro oboustrannou alternativu: ( ) ( )( ) ( ) ( ) 0731,00365,01;0365,0min2)44,32(poisscdf1),44,32(poisscdfmin2 e !k 44 1,e !k 44 min2t1,tmin2p 32 0k 44 k32 0k 44 k 00 =−=−= =      −=Φ−Φ=  = − = − Protože 0,0731 > 0,05, H0 nezamítáme na hladině významnosti 0,05. Nepodařilo se prokázat, že by změna dodavatele měla vliv na průměrný počet stížností za týden. 5.17. Testování shody parametrů dvou Poissonových rozložení Nechť X1, …, Xn1 je náhodný výběr z rozložení Po(λ1) a Y1, …, Yn2 je na něm nezávislý náhodný výběr z rozložení Po(λ2). Předpokládáme, že λi > 9, i = 1, 2. Na asymptotické hladině významnosti α testujeme H0: λ1 = λ2 proti H1: λ1 ≠ λ2 (resp. proti H1: λ1 < λ2 resp. H1: λ1 > λ2). Označme M1, M2 výběrové průměry obou výběrů. Testová statistika 2 2 1 1 21 0 n M n M MM T + − = se za platnosti H0 asymptoticky řídí rozložením N(0,1). Vypočteme realizaci t0 testové statistiky a stanovíme kritický obor W. )( ∞∪−∞−= α−α− ,uu,W 2/12/1 pro oboustrannou alternativu, ( α−−∞−= 1u,W pro levostrannou alternativu, )∞= α− ,uW 1 pro pravostrannou alternativu. Pokud t0 ∈ W, H0 zamítáme na asymptotické hladině významnosti α a přijímáme H1. Můžeme též vypočítat p-hodnotu: p = 2 min{Φ(t0), 1 - Φ(t0)} pro oboustrannou alternativu (v MATLABu: p = 2*min(normcdf(t0,0,1), 1- normcdf(t0,0,1)). p = Φ(t0) pro levostrannou alternativu (v MATLABu: p = normcdf(t0,0,1)), p = 1 - Φ(t0) pro pravostrannou alternativu (v MATLABu: p = 1 - normcdf(t0,0,1)), Je-li p ≤ α, H0 zamítáme na hladině významnosti α ve prospěch H1. 5.18. Příklad na oboustrannou alternativu Po dobu 40 dnů jsou sledovány počty zákazníků na dvou pobočkách České pošty, označme je A a B. Na pobočku A přišlo 4800 zákazníků, na pobočku B přišlo 5120 zákazníků. Za předpokladu, že počty zákazníků se řídí Poissonovým rozložením, na asymptotické hladině významnosti 0,05 testujte hypotézu, že střední hodnoty denního počtu zákazníků na těchto dvou pobočkách se neliší. Řešení: X – denní počet zákazníků na pobočce A, X ~ Po(λ1), X1, …, X40 je náhodný výběr z Po(λ1), kde λ1 odhadneme realizací výběrového průměru 120 40 4800 m1 == . Y – denní počet zákazníků na pobočce B, Y ~ Po(λ2), Y1, …, Y40 je náhodný výběr z Po(λ2), kde λ2 odhadneme realizací výběrového průměru 128 40 5120 m2 == . Oba odhady jsou větší než 9. Testujeme H0: λ1 = λ2 proti H1: λ1 ≠ λ2. Vypočteme realizaci testové statistiky: 2129,3 40 128 40 120 128120 n m n m mm t 2 2 1 1 21 0 −= + − = + − = . Kritický obor: )( ∞∪−∞−= ,96,196,1,W . Protože t0 ∈ W, H0 zamítáme na asymptotické hladině významnosti 0,05. 5.19. Testování hypotéz o střední hodnotě 1/λ exponenciálního rozložení Nechť X1, …, Xn je náhodný výběr z rozložení Ex(λ) a λ0 > 0 je konstanta. Na hladině významnosti α testujeme H0: 1/λ = 1/λ0 proti H1: 1/λ ≠ 1/λ0 (resp. proti H1: 1/λ < 1/λ0 resp. H1: 1/λ > 1/λ0) Stanovíme testovou statistiku = = n 1i i0 XT , která se za platnosti H0 řídí rozložením Er(n, λ0). Vypočteme p-hodnotu: p = Φ(t0) pro levostrannou alternativu (v MATLABu: p = gamcdf(t0, n, 1/lambda)), p = 1 - Φ(t0) pro pravostrannou alternativu (v MATLABu: p = 1 - gamcdf(t0, n, 1/lambda)), p = 2 min{Φ(t0), 1 - Φ(t0)} pro oboustrannou alternativu (v MATLABu: p = 2*min(gamcdf(t0, n, 1/lambda), 1- gamcdf(t0, n, 1/lambda)). Je-li p ≤ α, H0 zamítáme na hladině významnosti α ve prospěch H1. Upozornění: Je-li n/λ ≥ 30, lze využít aproximaci rozložení standardizovaného výběrového průměru rozložením N(0, 1). Testová statistika 2 0 0 0 n/1 /1M T λ λ− = má za platnosti H0 asymptoticky rozložení N(0,1). 5.20. Příklad na pravostrannou alternativu Je známo, že životnost baterií vyrobených z materiálu A se řídí exponenciálním rozložením se střední hodnotou 3 týdny. Výrobce je přesvědčen, že baterie vyrobené z materiálu B budou mít větší střední hodnotu doby životnosti. Ukázalo se, že průměrná doba životnosti 10 náhodně vybraných baterií vyrobených z materiálu B byla 4,5 týdne. Na hladině významnosti 0,05 ověřte tvrzení výrobce. Řešení: Časová jednotka = 1 týden. Y – doba životnosti baterií vyrobených z materiálu A, Y ~ Ex(λ0), kde λ0 = 1/3. X - doba životnosti baterií vyrobených z materiálu B, X ~ Ex(λ). Na hladině významnosti 0,05 testujeme H0: λ = 1/3 proti H1: λ > 1/3. Pořídíme náhodný výběr rozsahu 10 z rozložení Ex(λ), kde bylo zjištěno, že realizace testové statistiky 45xt 10 1i i0 == = . Testová statistika = = 10 1i i0 XT se za platnosti H0 řídí rozložením Er(10, 1/3). Vypočteme p-hodnotu pro pravostrannou alternativu: ( ) 0699,0)3,10,45(gamcdf1dxe 3 1 !9 3 x 1t1p 45 0 3 x 9 0 =−=⋅       −=Φ−=  − Protože 0,0699 > 0,05, H0 nezamítáme na hladině významnosti 0,05. Nepodařilo se prokázat, že použití materiálu B by vedlo ke zvýšení střední hodnoty životnosti baterií. Protože je splněna podmínka dobré aproximace ( 30310 n =⋅= λ ), můžeme využít testovou statistiku 2 0 0 0 n/1 /1M T λ λ− = . Její realizace je 5811,1 109 35,4 t0 = − = , p-hodnota = 1 – Φ(1,5811) = 0,0569. Protože 0,0569 > 0,05, H0 nezamítáme na asymptotické hladině významnosti 0,05. 5.21. Poznámka: Máme-li dva nezávislé náhodné výběry z exponenciálních rozložení, pak pro test hypotézy o shodě středních hodnot těchto dvou rozložení lze za splnění podmínek dobré aproximace použít postup popsaný v 5.17.