Testování exponenciálního a Poissonova rozložení Test dobré shody Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z rozložení s distribuční funkcí (x). Je-li distribuční funkce spojitá, pak data rozdělíme do r třídicích intervalů 1jj u,u , j = 1, ..., r. Zjistíme absolutní četnost nj j-tého třídicího intervalu a vypočteme pravděpodobnost pj, že náhodná veličina X s distribuční funkcí (x) se bude realizovat v j-tém třídicím intervalu. Platí-li nulová hypotéza, pak pj = (uj+1) - (uj). Má-li distribuční funkce nejvýše spočetně mnoho bodů nespojitosti, pak místo třídicích intervalů použijeme varianty x[j], j = 1, ..., r. Pro variantu x[j] zjistíme absolutní četnost nj a vypočteme pravděpodobnost pj, že náhodná veličina X s distribuční funkcí (x) se bude realizovat variantou x[j]. Platí-li nulová hypotéza, pak j xx jj xXPxlimxp j . Testová statistika: r 1j j 2 jj np npn K . Platí-li nulová hypotéza, pak K 2(r-1-p), kde p je počet odhadovaných parametrů daného rozložení. (Např. pro normální rozložení p = 2, protože z dat odhadujeme střední hodnotu a rozptyl.) Nulovou hypotézu zamítáme na asymptotické hladině významnosti , když K 2 1-(r-1-p). Aproximace se považuje za vyhovující, když npj 5, j = 1, ..., r. Upozornění: Hodnota testové statistiky K je silně závislá na volbě třídicích intervalů. Navíc při nesplnění podmínky npj 5, j = 1, ..., r je třeba některé intervaly resp. varianty slučovat, což vede ke ztrátě informace. Jednoduchý test exponenciálního rozložení (Darlingův test) Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z exponenciálního rozložení. Označme M výběrový průměr a S2 výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Ex() je E(X) = 1/ a rozptyl je D(X) = 1/2. Test založíme na statistice 2 2 M S1n K , která se v případě platnosti H0 asymptoticky řídí rozložením 2(n-1). Kritický obor: ,1n1n,0W 2/1 2 2/ 2 . Jestliže WK , H0 zamítáme na asymptotické hladině významnosti . Jednoduchý test Poissonova rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z Poissonova rozložení. Označme M výběrový průměr a S2 výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Po() je E(X) = a rozptyl je D(X) = . Test založíme na statistice M S1n K 2 , která se v případě platnosti H0 asymptoticky řídí rozložením 2(n-1). Kritický obor: ,1n1n,0W 2/1 2 2/ 2 . Příklad 1.: Byla zkoumána doba životnosti 45 součástek (v hodinách). Výsledky jsou uvedeny v tabulce rozložení četností: Doba životnosti Počet součástek (0, 50] 15 (50, 100] 14 (100, 150] 6 (150, 200] 5 (200, 250] 2 (250, 300] 1 (300, 350] 1 (350, 400] 1 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z exponenciálního rozložení. Použijte a) test dobré shody, b) Darlingův test exponenciálního rozložení (využijte toho, že z původních dat byl vypočten průměr m = 99,93 a rozptyl s2 = 7328,91). Řešení: ad a) Zadáme vektor xj = [0:50:400]' a vektor pozorovaných četností nj = [15 14 6 5 2 1 1 1]'. Celkový rozsah souboru je n = sum(nj) a parametr lambda = 99.93. Vypočteme teoretické četnosti npj=n*diff(expcdf(xj,lambda)) Protože nejsou splněny podmínky dobré aproximace pro j = 4, 5, 6, 7, 8, je třeba sloučit třídicí intervaly 4 až 8 do jednoho. Dostaneme novou tabulku rozložení četností Doba životnostiPočet součástek (0, 50] 15 (50, 100] 14 (100, 150] 6 (150, 400] 10 Zadáme nový vektor xj = [0 50 100 150 400]' a nový vektor pozorovaných četností nj = [15 14 6 10]'. Znovu vypočteme teoretické četnosti npj=n*diff(expcdf(xj,lambda)). Nyní již jsou splněny podmínky dobré aproximace. Vypočítáme testovou statistiku K=sum((njnpj).^2./npj) a kvantil 21pr 95,0 2 1 2 pomocí funkce chi2inv(0.95,2). Protože testová statistika K = 1,5153 se nerealizuje v kritickém oboru ,9915,5W , H0 nezamítáme na asymptotické hladině významnosti 0,05. ad b) Testovou statistiku K vypočteme podle vzorce 2 2 M S1n K . Kritický obor má tvar: ;1n1n;0W 2/1 2 2/ 2 . V našem případě K = 32,2924, ,;202,64575,27;0W H0 tedy nezamítáme na asymptotické hladině významnosti 0,05. Samostatný úkol: Vypočtěte p-hodnotu pro jednoduchý test exponenciálního rozložení. Pro oboustrannou alternativu se počítá podle vzorce p = 2min{(K), 1- (K)}, kde je distribuční funkce rozložení, kterým se řídí testová statistika, když H0 platí. (p = 0,1912). Příklad 2.: Studujeme rozložení počtu pacientů, kteří během 75 dnů přijdou na pohotovost. Osmihodinovou pracovní dobu rozdělíme do půlhodinových intervalů a v každém intervalu zjistíme počet příchozích pacientů: Počet pacientů Pozorovaná četnost 0 79 1 188 2 282 3 275 4 196 5 114 6 45 7 10 8 7 9 3 10 1 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z Poissonova rozložení. Použijte a) test dobré shody, b) jednoduchý test Poissonova rozložení. Řešení: ad a) Postupujeme podobně jako v příkladu 1, ale místo funkce expcdf použijeme funkci poisspdf, abychom vypočítali hodnoty pravděpodobnostní funkce Poissonova rozložení v bodech 0 až 10. Odhad parametru lambda získáme jako vážený průměr počtu pacientů (m = 2,7992). Protože nejsou splněny podmínky dobré aproximace, je třeba sloučit poslední tři varianty do jedné. Počet pacientůPozorovaná četnost 0 79 1 188 2 282 3 275 4 196 5 114 6 45 7 10 8 a víc 11 Upozornění: 7 0x x18 K = 8,502, ,067,14W , H0 nezamítáme na asymptotické hladině významnosti 0,05. ad b) M S1n K 2 , kde m = 2,7992, s2 = 2,6594 K = 1139,1, ,;86,129693,1104;0W H0 nezamítáme na asymptotické hladině významnosti 0,05. Samostatný úkol: Vypočtěte p-hodnotu pro jednoduchý test Poissonova rozložení. (p = 0,2187) Další možnosti ověřování exponenciálního rozložení - využití funkce probplot (pravděpodobnostně - pravděpodobnostní graf), Kolmogorovův - Smirnovův test (funkce kstest). Použití K-S testu Vygenerujeme 100 hodnot z exponenciálního rozložení s parametrem 2: x=exprnd(2,100,); Provedeme porovnání výběrové distribuční funkce s distribuční funkce exponenciálního rozložení Ex(2): [h,p,ksstat]=kstest(x,[x,expcdf(x,2)]) Význam výstupních parametrů: h = 0, když nezamítáme hypotézu o exponenciálním rozložení Ex(2) na hladině významnosti 0,05, h = 1, když tuto hypotézu zamítáme. p je odpovídající p-hodnota ksstat je hodnota testové statistiky.