12. Porovnání empirického a teoretického rozložení Motivace Možnost použití statistických testů je podmíněna nějakými předpoklady o datech. Velmi často je to předpoklad o typu rozložení, z něhož získaná data pocházejí. Mnoho testů je založeno na předpokladu normality. (Testování normality bylo probráno v přednášce č. 4.) Opomíjení předpokladů o typu rozložení může v praxi vést i ke zcela zavádějícím výsledkům, proto je nutné věnovat tomuto problému patřičnou pozornost. Testy dobré shody pro diskrétní a spojité rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z rozložení s distribuční funkcí Φ(x). a) Je-li distribuční funkce spojitá, pak data rozdělíme do r třídicích intervalů , j = 1, ..., r. Zjistíme absolutní četnost n[j] j-tého třídicího intervalu a vypočteme pravděpodobnost p[j], že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat v j-tém třídicím intervalu. Platí-li nulová hypotéza, pak p[j] = Φ(u[j+1]) - Φ(u[j]). b) Má-li distribuční funkce nejvýše spočetně mnoho bodů nespojitosti, pak místo třídicích intervalů použijeme varianty x[[j]], j = 1, …, r. Pro variantu x[[j] ]zjistíme absolutní četnost n[j] a vypočteme pravděpodobnost p[j], že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat variantou x[[j]]. Platí-li nulová hypotéza, pak . Testová statistika: . Platí-li nulová hypotéza, pak K ≈ χ^2(r-1-p), kde p je počet odhadovaných parametrů daného rozložení. (Např. pro normální rozložení p = 2, protože z dat odhadujeme střední hodnotu a rozptyl.) Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když testová statistika K ≥ χ^2[1-α](r-1-p). Aproximace se považuje za vyhovující, když teoretické četnosti np[j]≥ 5, j = 1, ..., r. Upozornění: Hodnota testové statistiky K je silně závislá na volbě třídicích intervalů. Navíc při nesplnění podmínky np[j] ≥ 5, j = 1, ..., r je třeba některé intervaly resp. varianty slučovat, což vede ke ztrátě informace. Příklad: Testování shody empirického a teoretického rozložení při úplně specifikovaném problému Byl zjišťován počet poruch určitého zařízení za 100 hodin provozu ve 150 disjunktních 100 h intervalech. Výsledky měření: Počet poruch za 100 hodin provozu 0 1 2 3 4 a víc Absolutní četnost 52 48 36 10 4 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že náhodný výběr X[1], ..., X[150] pochází z rozložení Po(1,2). Řešení: Pravděpodobnost, že náhodná veličina s rozložením Po(λ), kde λ = 1,2 bude nabývat hodnot p[0], ..., p[4] a víc je . Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j n[j] p[j] np[j] (n[j] - np[j])^2/ np[j] 0 52 0,301 150.0,301=45,15 1,039 1 48 0,361 150.0,361=54,15 0,698 2 36 0,217 150.0,217=32,55 0,366 3 10 0,087 150.0,087=13,05 0,713 4 4 0,034 150.0,034=5,1 0,237 Podmínky dobré aproximace jsou splněny, všechny teoretické četnosti jsou větší než 5. K = 1,039 + 0,698 + 0,713 + 0,237 = 3,053, r = 5, χ^2[0,95](4) = 9,488. Protože 3,053 < 9,488, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Načteme datový soubor poruchy.sta. Proměnná POCET obsahuje počet poruch, proměnná CETNOST pak absolutní četnosti zjištěného počtu poruch. Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POCET – klikneme na ikonu se závažím – Proměnná vah CETNOST – Stav Zapnuto – OK – záložka Parametry - Lambda 1,2 - Výpočet. V záhlaví výstupní tabulky je uvedena hodnota testového kritéria (3,03371), počet stupňů volnosti = 3 a p-hodnota (0,38646). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Počet stupňů volnosti 3 však neopovídá tomu, že známe parametr λ, ve skutečnosti je počet stupňů volnosti 4. Proto pro výpočet p-hodnoty otevřeme nový datový soubor o jedné proměnné a jednom případu. Do Dlouhého jména napíšeme =1-IChi2(3,03371;4). Dostaneme p-hodnotu 0,5522. Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení V grafu jsou patrné určité rozdíly mezi hodnotami pravděpodobnostní a četnostní funkce, ale tyto rozdíly nejsou příliš velké. Příklad: Testování shody empirického a teoretického rozložení při neúplně specifikovaném problému V tabulce jsou roztříděny fotbalové zápasy určité soutěže podle počtu vstřelených branek. Počet branek 0 1 2 3 4 a více Součet Počet zápasů 19 30 17 10 8 84 Na hladině významnosti 0,05 testujte hypotézu, že jde o výběr z Poissonova rozložení. Výpočet pomocí systému STATISTICA: Načteme datový soubor branky.sta. Proměnná POCET obsahuje počet vstřelených branek, proměnná CETNOST pak počet zápasů, v nichž bylo dosaženo zjištěného počtu branek. Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POCET – klikneme na ikonu se závažím – Proměnná vah CETNOST – Stav Zapnuto – OK – Výpočet. V tomto případě je parametr λ Poissonova rozložení neznámý, je odhadnut pomocí výběrového průměru a odhad činí 1,5. Dále je v záhlaví výstupní tabulky uvedena hodnota testového kritéria (Chí kvadrát = 2,07051), počet stupňů volnosti r – p – 1 = 5 – 1 – 1 = 3 a p-hodnota (0,5578). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. Poznámka k testu dobré shody: Tento test může být použit i v těch případech, kdy rozložení, z něhož daný náhodný výběr pochází, neodpovídá nějakému známému rozložení (např. exponenciálnímu, normálnímu, Poissonovu, ...), ale je určeno intuitivně nebo na základě zkušenosti. Příklad: Ve svých pokusech pozoroval J.G. Mendel 10 rostlin hrachu a na každé z nich počet žlutých a zelených semen. Výsledky pokusu: číslo rostliny 1 2 3 4 5 6 7 8 9 10 počet žlutých semen 25 32 14 70 24 20 32 44 50 44 počet zelených semen 11 7 5 27 13 6 13 9 14 18 celkem 36 39 19 97 37 26 45 53 64 62 Z genetických modelů vyplývá, že pravděpodobnost výskytu žlutého semene by měla být 0,75 a zeleného 0,25. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že výsledky Mendelových pokusů se shodují s modelem. Řešení: Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j n[j] p[j] np[j] (n[j] - np[j])^2/ np[j] 1 25 0,75 36.0,75=27 0,148148 2 32 0,75 39.0,75=29,25 0,258547 10 44 0,75 62.0,75=46,5 0,134409 K = 0,148148 + 0,258547 + ... + 0,134409 = 1,797495, r = 10, χ^2[0,95](9) = 16,9. Protože 1,797495 < 16,9, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Načteme datový soubor Mendel hrach.sta. Proměnná celkem obsahuje celkový počet semen, X obsahuje pozorovaný počet žlutých semen a Y vypočítané teoretické četnosti žlutých semen (v našem případě X*0,75). Statistiky – Neparametrická statistika – Pozorované versus očekávané χ^2 – OK - Pozorované četnosti X, Očekávané četnosti Y - OK – Výpočet. Dostaneme tabulku: Ve výstupní tabulce najdeme hodnotu testové statistiky (Chi-Kvadr = 1,797495), počet stupňů volnosti (sv = 9) a odpovídající p-hodnotu, kterou porovnáme se zvolenou hladinou významnosti. V našem případě je p-hodnota 0,99428, takže nulová hypotéza se nezamítá na asymptotické hladině významnosti 0,05. Příklad: Při 60 hodech kostkou jsme dosáhli těchto výsledků: 9 x jednička, 11 x dvojka, 10 x trojka, 13 x čtyřka, 11 x pětka a 6 x šestka. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že kostka je homogenní. Řešení: n = 60 j n[j] p[j] np[j] (n[j] - np[j])^2 (n[j] - np[j])^2/ np[j] 1 9 1/6 10 1 1/10 2 11 1/6 10 1 1/10 3 10 1/6 10 0 0 4 13 1/6 10 9 9/10 5 11 1/6 10 1 1/10 6 6 1/6 10 16 16/10 K = 2,8, r = 6, p = 0, χ^2[0,95](5) = 11,07. Protože K < 11,07, H[0] nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Načteme datový soubor kostka.sta. Proměnná celkem obsahuje X obsahuje pozorované četnosti jednotlivých čísel 1, …, 6 a Y vypočítané teoretické četnosti (v našem případě 10). Statistiky – Neparametrická statistika – Pozorované versus očekávané χ^2 – OK - Pozorované četnosti X, Očekávané četnosti Y - OK – Výpočet. Dostaneme tabulku: Ve výstupní tabulce najdeme hodnotu testové statistiky (Chi-Kvadr = 2,8), počet stupňů volnosti (sv = 5) a odpovídající p-hodnotu, kterou porovnáme se zvolenou hladinou významnosti. V našem případě je p-hodnota 0,730786, takže nulová hypotéza se nezamítá na asymptotické hladině významnosti 0,05. Příklad: Ze záznamů autosalónu byl ve 100 náhodně vybraných dnech zjištěn počet prodaných aut. Počet prodaných aut za den 0 1 2 3 4 5 a víc Počet dnů 9 43 29 11 5 3 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že počet prodaných aut za den se řídí Poissonovým rozložením. Řešení: Parametr λ Poissonova rozložení neznáme, odhadneme ho pomocí výběrového průměru. . Pravděpodobnost, že náhodná veličina X ~ Po(1,7) bude nabývat hodnot p[j], j = 0,1,2,3,4,5 a víc, je j n[j] p[j] np[j] (n[j] - np[j])^2 (n[j] - np[j])^2/ np[j] 0 9 0,1827 18,27 85,9329 4,7035 1 43 0,3106 31,06 142,5636 4,5899 2 29 0,264 26,4 6,76 0,2561 3 11 0,1496 14,96 15,6816 1,0482 4 5 0,0636 6,36 1,8496 0,2908 5 3 0,0296 2,96 0,0016 0,0005 K = 10,8891, r = 6, p = 1, χ^2[0,95](4) = 9,488. Protože K ≥ 9,488, H[0] zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Načteme datový soubor autosalon.sta. Proměnná POCET obsahuje počet prodaných aut, proměnná CETNOST pak počet dnů, v nichž byl prodán zjištěný zjištěného počet aut. Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POCET – klikneme na ikonu se závažím – Proměnná vah CETNOST – Stav Zapnuto – OK – Výpočet. V záhlaví výstupní tabulky uvedena hodnota testového kritéria (10,73029), počet stupňů volnosti 3 a p-hodnota (0,01328). Nulová hypotéza se tedy zamítá na asymptotické hladině významnosti 0,05. Vidíme, že nesouhlasí počet stupňů volnosti, měl by být 4. Proto p-hodnotu vypočteme zvlášť. Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do Dlouhého jména napíšeme =1-IChi2(10,73029;4). Dostaneme p-hodnotu 0,0298. Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. V tomto případě jsou patrné značné rozdíly mezi pozorovanými a teoretickými četnostmi. Jednoduchý test exponenciálního rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z exponenciálního rozložení. Označme M výběrový průměr a S^2 výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Ex(λ) je E(X) = 1/λ a rozptyl je D(X) = 1/λ^2. Test založíme na statistice , která se v případě platnosti H[0] asymptoticky řídí rozložením χ^2(n-1). Kritický obor: . Jestliže , H[0 ]zamítáme na asymptotické hladině významnosti α. Příklad: Byla zkoumána doba životnosti 45 součástek (v hodinách). Zjistili jsme, že průměrná doba životnosti činila m = 99,93 h a rozptyl s^2 = 7328,91 h^2. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z exponenciálního rozložení. Řešení: Testová statistika: Kritický obor: Protože se testová statistika nerealizuje v kritickém oboru, hypotézu o exponenciálním rozložení nezamítáme na asymptotické hladině významnosti 0,05. Jednoduchý test Poissonova rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z Poissonova rozložení. Označme M výběrový průměr a S^2 výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Po(λ) je E(X) = λ a rozptyl je D(X) = λ. Test založíme na statistice , která se v případě platnosti H[0] asymptoticky řídí rozložením χ^2(n-1). Kritický obor: . Příklad: Studujeme rozložení počtu pacientů, kteří během 75 dnů přijdou na pohotovost. Osmihodinovou pracovní dobu rozdělíme do půlhodinových intervalů a v každém intervalu zjistíme počet příchozích pacientů: Počet pacientů Pozorovaná četnost 0 79 1 188 2 282 3 275 4 196 5 114 6 45 7 10 8 7 9 3 10 1 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z Poissonova rozložení. Řešení: Nejprve musíme vypočítat realizaci výběrového průměru a výběrového rozptylu: , Kritický obor: H[0] nezamítáme na asymptotické hladině významnosti 0,05. Příklad: Jsou známy počty občanů města Brna podle měsíce narození (stav k 31.12.2001). měsíc narození počet osob leden 32309 únor 30126 březen 35010 duben 34761 květen 34955 červen 32883 červenec 33255 srpen 31604 září 31173 říjen 30536 listopad 28571 prosinec 29467 celkem 384650 Na asymptotické hladině významnosti 0,05 ověřte hypotézu, že pravděpodobnost narození je pro všechny měsíce stejná. (Pravděpodobnost narození pro libovolný měsíc získáte tak, že počet dnů v tomto měsíci podělíte počtem dnů v roce.) Počty narozených lidí v jednotlivých měsících roku rovněž znázorněte graficky. Výpočet pomocí systému STATISTICA: Načteme datový soubor obyvatele_brna.sta. Tento soubor má tři proměnné (X, X1 a Y) a 12 případů. Proměnná X obsahuje absolutní četnosti z předchozí tabulky. Proměnné X1 obsahuje relativní četnosti, tj. v jejím Dlouhém jméně je napsáno = X/384650. Proměnná Y obsahuje očekávané relativní četnosti, tj. její hodnoty jsou vždy počet dní v měsíci/365. Statistiky – Neparametrická statistika – Pozorované versus očekávané χ^2 – OK - Pozorované četnosti X1, Očekávané četnosti Y - OK – Výpočet. Dostaneme tabulku: Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když K ≥ χ^2[1-α](r-1-p). V našem případě je r = 12, p = 0. Protože K = 0,0039282 < 19,675,nezamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. Výpočet doplníme sloupkovým diagramem pozorovaných relativních četností a očekávaných relativních četností.