Příklady na testování hypotéz Příklad 1.: Za 2. světové války byl Londýn bombardován řízenými střelami. Jeho jižní část byla rozdělena na oblasti o ploše 0,25 km^2 a bylo zkoumáno, kolik řízených střel dopadlo na každou z těchto oblastí. Počet střel 0 1 2 3 4 a víc Počet oblastí 229 211 93 35 8 Na asymptotické hladině významnosti testujte hypotézu, že počet řízených střel, které dopadly na jednu oblast, se řídí Poissonovým rozložením. Úkol vyřešte a) pomocí testu dobré shody, b) pomocí jednoduchého testu Poissonova rozložení (zde uveďte i odpovídající p-hodnotu) Řešení: a) Test dobré shody Odhad parametru λ získáme jako vážený průměr m = 0,9271. Vypočteme hodnoty pravděpodobnostní funkce rozložení Po(0,9271) v bodech 0, 1, 2, 3 a π(4) získáme jako . Pak vyčíslíme teoretické četnosti np[j]: 227,9268 211,3071 97,9496 30,2692 8,5473. Všechny teoretické četnosti jsou větší než 5, jsou tedy splněny podmínky dobré aproximace a lze vypočítat realizaci testové statistiky = 1,0301. Kritický obor . Testová statistika se nerealizuje v kritickém oboru, hypotézu o Poissonově rozložení tedy nezamítáme na asymptotické hladině významnosti 0,05. Pomocí funkce plot můžeme graficky současně znázornit pozorované relativní četnosti a hodnoty teoretické pravděpodobnostní funkce: plot(xj,nj./n, 'o', xj,pj,'*') b) Jednoduchý test Poissonova rozložení Testovou statistiku K vypočteme podle vzorce . Kritický obor má tvar: . Realizaci výběrového průměru již známe, m = 0,9271. Vypočítáme realizaci výběrového rozptylu: s^2 = 0,9234. Po dosazení do vzorce pro testovou statistiku dostaneme K = 572,6966. Dále . Testová statistika se nerealizuje v kritickém oboru, hypotézu o Poissonově rozložení tedy nezamítáme na asymptotické hladině významnosti 0,05. Odpovídající p-hodnota je 0,9614. Příklad 2.: Bylo zkoumáno 43 automobilů téže značky a měřena vzdálenost (v tisících km), kterou ujely, než se vyskytla první vážná porucha: 5 48 7 30 15 18 7 1 15 90 25 17 32 3 2 27 19 16 74 9 8 11 12 21 8 9 58 14 24 12 1 5 13 69 23 4 10 3 2 83 6 10 5 Na asymptotické hladině významnosti testujte hypotézu, že počet km se řídí exponenciálním rozložením s parametrem λ = 0,056 (tzn., že střední hodnota počtu ujetých kilometrů do první vážné poruchy je 17 857). Úkol vyřešte a) pomocí jednoduchého testu exponenciálního rozložení, b) pomocí Kolmogorovova – Smirnovova testu. Řešení: a) Jednoduchý test exponenciálního rozložení Testovou statistiku K vypočteme podle vzorce . Kritický obor má tvar: . V našem případě m = mean(x) = 20,2558, s^2 = var(x) = 506,4806, K = 51,8457, H[0] tedy nezamítáme na asymptotické hladině významnosti 0,05. Odpovídající p-hodnota je 0,2839. b) K-S test K-S test má syntaxi [H,P,KSSTAT,CV] = kstest(X,cdf,alpha,tail) Význam výstupních parametrů: Parametr H … 0, když nulovou hypotézu nezamítáme na hladině významnosti alpha H … 1, když nulovou hypotézu zamítáme na hladině významnosti alpha Parametr P … odpovídající p-hodnota Parametr KSSTAT … realizace testové statistiky K-S testu (tj. absolutní hodnota maximálního rozdílu mezi distribuční funkcí testovaného spojitého rozložení a výběrovou distribuční funkcí). Parametr CV … ta hodnota testové statistiky, pro kterou by se již nulová hypotézy zamítla na hladině významnosti alpha. Význam vstupních parametrů: Parametr X … vektor s realizacemi náhodného výběru. Parametr cdf … matice, která má dva sloupce, v prvním jsou hodnoty X, ve druhém hodnoty distribuční funkce testovaného spojitého rozložení v bodech X. Parametr alpha … zvolená hladina významnosti testu (implicitně 0,05). Parametr tail … specifikuje typ testu. Pokud není udán, je implicitně 0 a provede se oboustranný test. Je-li tail = -1, alternativa tvrdí, že výběrová distribuční funkce je stochasticky menší než testovaná distribuční funkce a je-li tail = 1, alternativa tvrdí, že výběrová distribuční funkce je stochasticky větší než testovaná distribuční funkce. Upozornění: K-S test předpokládá, že testovaná distribuční funkce je plně specifikována včetně všech případných parametrů. Nejsou-li parametry rozložení předem známy a odhadují se z dat, musí se použít Lilieforsova varianta K-S testu. MATLAB však má implementovanou Lilieforsovu variantu pouze pro normální rozložení. V našem případě zadáme příkaz: [H,P,KSSTAT,CV] = kstest(x,[x,expcdf(x,1/0.056])) Dostaneme H = 0 (tedy nulovou hypotézu nezamítáme na hladině významnosti 0,05), P = 0,9277 (odpovídající p-hodnota je blízká 1, je podstatně větší než 0,05), KSSTAT = 0,0814 (naopak testová statistika se realizuje nízkou hodnotou, tedy rozdíl mezi výběrovou distribuční funkcí a distribuční funkcí rozložení Ex(0,056) je malý), CV = 0,2028 ( testová statistika by se musela realizovat hodnotou aspoň 0,2028, abychom na hladině významnosti 0,05 mohli zamítnout hypotézu o rozložení Ex(0,056)). Graficky můžeme posoudit shodu mezi výběrovou distribuční funkcí a distribuční funkcí rozložení Ex(0,056) pomocí příkazů: xx=[0:1:100]'; cdfplot(x) hold on plot(xx,expcdf(xx,1/0.056),'r--') Příklad 3.: Jsou dány realizace náhodného výběru rozsahu 10 ze spojitého rozložení: 12 7 18 5 11 7 1 7 3 3. Shodu mezi výběrovou distribuční funkcí a distribuční funkcí exponenciálního rozložení posuďte pomocí pravděpodobnostně – pravděpodobnostního grafu. Řešení: Pravděpodobnostně – pravděpodobnostní graf má syntaxi probplot('distname', X), kde distname je název testovaného rozložení (v našem případe exponential)