Kapitola 11.: Porovnání empirického a teoretického rozložení Cíl kapitoly Po prostudování této kapitoly budete umět - testovat hypotézu, že daný náhodný výběr pochází z rozložení s danou diskrétní či spojitou distribuční funkcí - ověřovat podmínky dobré aproximace pro testy dobré shody - pomocí jednoduchých testů testovat hypotézu, že daný náhodný výběr pocházi z exponenciálního či Poissonova rozložení Časová zátěž Na prostudování této kapitoly a splnění úkolů s ní spojených budete potřebovat asi 4 hodiny studia. 11.1. Motivace Možnost použití statistických testů je podmíněna nějakými předpoklady o datech. Velmi často je to předpoklad o typu rozložení, z něhož získaná data pocházejí. Mnoho testů je založeno na předpokladu normality. (Testování normality bylo probráno ve 2. kapitole.) Opomíjení předpokladů o typu rozložení může v praxi vést i ke zcela zavádějícím výsledkům, proto je nutné věnovat tomuto problému patřičnou pozornost. V této kapitole se seznámíme s testem dobré shody, který je (po splnění určitých předpokladů) použitelný k ověření shody empirického rozložení s jakýmkoliv teoretickým rozložením. Tato univerzálnost je ovšem provázena poněkud sníženou silou testu. Proto byly pro některá rozložení vyvinuty speciální testy využívající charakteristických vlastností těchto rozložení. Zde uvedeme tzv. jednoduché testy exponenciálního a Poissonova rozložení. 11.2. Testy dobré shody 11.2.1. Popis testu Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z rozložení s distribuční funkcí Φ(x). a) Je-li distribuční funkce spojitá, pak data rozdělíme do r třídicích intervalů  1jj u,u  , j = 1, ..., r. Zjistíme absolutní četnost nj j-tého třídicího intervalu a vypočteme pravděpodobnost pj, že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat v j-tém třídicím intervalu. Platí-li nulová hypotéza, pak pj = Φ(uj+1) - Φ(uj). b) Má-li distribuční funkce nejvýše spočetně mnoho bodů nespojitosti, pak místo třídicích intervalů použijeme varianty x[j], j = 1, …, r. Pro variantu x[j] zjistíme absolutní četnost nj a vypočteme pravděpodobnost pj, že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat variantou x[j]. Platí-li nulová hypotéza, pak          j xx jj xXPxlimxp j   . Testová statistika:      r 1j j 2 jj np npn K . Platí-li nulová hypotéza, pak K ≈ χ2 (r-1-p), kde p je počet odhadovaných parametrů daného rozložení. (Např. pro normální rozložení p = 2, protože z dat odhadujeme střední hodnotu a rozptyl.) Pokud žádný parametr nemusíme odhadovat, hovoříme o úplně specifikovaném problému. Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když K ≥ χ2 1-α(r-1-p). Aproximace se považuje za vyhovující, když npj ≥ 5, j = 1, ..., r. Upozornění: Při nesplnění podmínky npj ≥ 5, j = 1, ..., r je třeba některé intervaly resp. varianty slučovat, což vede ke ztrátě informace. Ve spojitém případě je hodnota testové statistiky K silně závislá na volbě třídicích intervalů 11.2.2. Příklad: (Testování shody empirického a teoretického rozložení při úplně specifikovaném problému) Ze souboru rodin s pěti dětmi bylo náhodně vybráno 84 rodin a byl zjišťován počet chlapců: Počet chlapců 0 1 2 3 4 5 Počet rodin 3 10 22 31 14 4 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozložení počtu chlapců se řídí binomickým rozložením Bi(5; 0,5). Řešení: Pravděpodobnost, že náhodná veličina s rozložením Bi(5; 0,5) bude nabývat hodnot p0, ..., p5 je ,50,1,j, 32 1 j 5 pj        . Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j nj pj npj 0 3 0,03125 84.0,03125=2,625 1 10 0,15625 84.0,15625=13,125 2 22 0,3125 84.0,3125=26,25 3 31 0,3125 84.0,3125=26,25 4 14 0,15625 84.0,15625=13,125 5 4 0,03125 84.0,03125=2,625 Podmínky dobré aproximace nejsou splněny, sloučíme tedy první dvě varianty a poslední dvě varianty. j nj pj npj   j 2 jj np npn  0 a 1 13 0,1875 84.0,1875=15,75 0,480159 2 22 0,3125 84.0,3125=26,25 0,688095 3 31 0,3125 84.0,3125=26,25 0,859524 4 a 5 18 0,1875 84.0,1875=15,75 0,321429 Vypočteme realizaci testové statistiky: K = 0,48059 + 0,688095 + 0,859524 + 0,321429 = 2,3492, počet tříd r = 4, počet odhadovaných parametrů p = 0, r – p - 1 = 3, kritický obor         ;8147,7,3,1prW 95,0 2 1 2 Protože WK  , nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor se dvěma proměnnými a čtyřmi případy. Proměnná nj obsahuje zjištěné četnosti (po sloučení variant), proměnná npj pak teoretické četnosti. Statistiky – Neparametrická statistika – Pozorované vs. očekávané χ2 – OK – Proměnné – Pozorované četnosti nj, očekávané četnosti npj – OK – Výpočet. Pozorované vs. očekávané četnosti (T abulka1) Chi-Kvadr. = 2,349206 sv = 3 p = ,503161 Případ pozorov. nj očekáv. npj P - O (P-O)^2 /O C: 1 C: 2 C: 3 C: 4 Sčt 13,0000015,75000 -2,75000 0,480159 22,0000026,25000 -4,25000 0,688095 31,0000026,25000 4,75000 0,859524 18,0000015,75000 2,25000 0,321429 84,0000084,00000 0,00000 2,349206 V záhlaví výstupní tabulky je uvedena hodnota testového kritéria (2,349206), počet stupňů volnosti = 3 a p-hodnota (0,503161). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. 11.2.3. Příklad: (Testování shody empirického a teoretického rozložení při neúplně specifikovaném problému – diskrétní případ) V tabulce jsou roztříděny fotbalové zápasy určité soutěže podle počtu vstřelených branek. Počet branek 0 1 2 3 4 a víc Počet zápasů 19 30 17 10 8 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že jde o výběr z Poissonova rozložení. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor s dvěma proměnnými a 5 případy. Proměnná POCET obsahuje počet vstřelených branek, proměnná CETNOST pak počet zápasů, v nichž bylo dosaženo zjištěného počtu branek. Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POCET – klikneme na ikonu se závažím – Proměnná vah CETNOST – Stav Zapnuto – OK – - Výpočet. Proměnná:POCET, Rozdělení:Poissonovo, Lambda = 1,500 (branky.sta) Chí-kvadrát = 2,07051, sv = 3, p = 0,55790 Kategorie Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. Pozorované - Očekáv. <= 0,00000 1,00000 2,00000 3,00000 < Nekonečno 19 19 22,61905 22,619018,74294 18,7429422,31302 22,3130 0,25706 30 49 35,71429 58,333328,11440 46,8573333,46952 55,7825 1,88560 17 66 20,23810 78,571421,08580 67,9431325,10214 80,8847 -4,08580 10 76 11,90476 90,476210,54290 78,4860312,55107 93,4358 -0,54290 8 84 9,52381 100,0000 5,51397 84,00000 6,56424 100,0000 2,48603 V tomto případě je parametr λ Poissonova rozložení neznámý, je odhadnut pomocí výběrového průměru a odhad činí 1,5. Podmínky dobré aproximace jsou splněny, dokonce všechny teoretické četnosti jsou větší než 5. Dále je v záhlaví výstupní tabulky uvedena hodnota testového kritéria (2,07051), počet stupňů volnosti r – p – 1 = 5 – 1 – 1 = 3 a p- hodnota (0,5578). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. -1 0 1 2 3 4 5 Kategorie (horní meze) 0 5 10 15 20 25 30 35 Početpozorování 11.2.4. Příklad: (Testování shody empirického a teoretického rozložení při neúplně specifikovaném problému – spojitý případ) U 48 studentek VŠE v Praze byla zjišťována výška (v cm): 165170170179170168174162167165170173183176165168 171178168168169163172184176175176169168170166160 167162162166170168155162169166160169165163168163 Pomocí testu dobré shody testujte na hladině významnosti 0,05 hypotézu, že data pocházejí z normálního rozložení. Pomocí N-P grafu posuďte vizuálně předpoklad normality. Výpočet pomocí systému STATISTICA: Statistiky - Prokládání rozdělení – ponecháme implicitní nastavení na normální rozložení – OK – Proměnná X – OK – na záložce Parametry změníme Počet kategorií na 7 (podle Sturgesova pravidla) – Výpočet. Proměnná: X, Rozdělení:Normální (vyska.sta) Chí-kvadrát = 1,09280, sv = 1 (uprav.) , p = 0,29585 Horní hranice Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. Pozorované - Očekáv. <= 157,14286 162,28571 167,42857 172,57143 177,71429 182,85714 < Nekonečno 1 1 2,08333 2,0833 1,19706 1,19706 2,49387 2,4939 -0,19706 6 7 12,50000 14,5833 5,51484 6,7118911,48924 13,9831 0,48516 12 19 25,00000 39,583313,46220 20,1740928,04624 42,0293 -1,46220 19 38 39,58333 79,166715,89146 36,0655533,10721 75,1366 3,10854 6 44 12,50000 91,6667 9,07700 45,1425518,91042 94,0470 -3,07700 2 46 4,16667 95,8333 2,50365 47,64620 5,21594 99,2629 -0,50365 2 48 4,16667 100,0000 0,35380 48,00000 0,73708 100,0000 1,64620 Při tomto roztřídění dat do 7 intervalů nejsou splněny podmínky dobré aproximace, ve třech intervalech jsou teoretické četnosti pod 5. Změníme tedy dolní mez na 159 a horní na 178. Proměnná: X, Rozdělení:Normální (vyska.sta) Chí-kvadrát = 3,85268, sv = 4, p = 0,42631 Horní hranice Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. Pozorované - Očekáv. <= 161,71429 164,42857 167,14286 169,85714 172,57143 175,28571 < Nekonečno 3 3 6,25000 6,25005,722996 5,7230011,92291 11,9229 -2,72300 7 10 14,58333 20,83335,675946 11,3989411,82489 23,7478 1,32405 9 19 18,75000 39,58337,862633 19,2615716,38048 40,1283 1,13737 11 30 22,91667 62,50008,812455 28,0740318,35928 58,4876 2,18755 8 38 16,66667 79,16677,991516 36,0655516,64899 75,1366 0,00848 3 41 6,25000 85,41675,863558 41,9291012,21575 87,3523 -2,86356 7 48 14,58333 100,00006,070896 48,0000012,64770 100,0000 0,92910 V tomto případě jsou podmínky dobré aproximace splněny. Testová statistika se realizuje hodnotou 3,85268, p-hodnota je 0,42631, tedy na asymptotické hladině významnosti 0,05 hypotézu o normalitě nezamítáme. Podívejme se ještě na histogram s proloženou Gaussovou křivkou: Na záložce Základní výsledky zvolíme Graf pozorovaného a očekávaného rozdělení. Proměnná: X, Rozdělení:Normální Chí-kvadrát test = 3,85268, sv = 4, p = 0,42631 160,1429 162,8571 165,5714 168,2857 171,0000 173,7143 176,4286 179,1429 Kategorie (horní meze) 0 2 4 6 8 10 12 14 Početpozorování 11.3. Jednoduchý test exponenciálního a Poissonova rozložení 11.3.1. Jednoduchý test exponenciálního rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z exponenciálního rozložení. Označme M výběrový průměr a S2 výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Ex(λ) je E(X) = 1/λ a rozptyl je D(X) = 1/λ2 . Test založíme na statistice   2 2 M S1n K   , která se v případě platnosti H0 asymptoticky řídí rozložením χ2 (n-1). Kritický obor:       ,1n1n,0W 2/1 2 2/ 2 . Jestliže WK  , H0 zamítáme na asymptotické hladině významnosti α. 11.3.2. Příklad Byla zkoumána doba životnosti 45 součástek (v hodinách). Průměrná životnost byla m = 99,93 a rozptyl s2 = 7328,91. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z exponenciálního rozložení. Řešení: Testovou statistiku K vypočteme podle vzorce   2 2 M S1n K   . Kritický obor má tvar:       ;1n1n;0W 2/1 2 2/ 2 . V našem případě K = 32,2924, ,;202,64575,27;0W  H0 tedy nezamítáme na asymptotické hladině významnosti 0,05. 11.3.3. Jednoduchý test Poissonova rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z Poissonova rozložení. Označme M výběrový průměr a S2 výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Po(λ) je E(X) = λ a rozptyl je D(X) = λ. Test založíme na statistice   M S1n K 2   , která se v případě platnosti H0 asymptoticky řídí rozložením χ2 (n-1). Kritický obor:       ,1n1n,0W 2/1 2 2/ 2 . Jestliže WK  , H0 zamítáme na asymptotické hladině významnosti α. 11.3.4. Příklad Studujeme rozložení počtu pacientů, kteří během 75 dnů přijdou na pohotovost. Osmihodinovou pracovní dobu rozdělíme do půlhodinových intervalů a v každém intervalu zjistíme počet příchozích pacientů: Počet pacientů Pozorovaná četnost 0 79 1 188 2 282 3 275 4 196 5 114 6 45 7 10 8 7 9 3 10 1 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z Poissonova rozložení. Řešení: Celkový počet pacientů je n = 1200. Realizaci výběrového průměru M získáme jako vážený průměr počtu pacientů (m = 2,8033) a realizaci výběrového rozptylu S2 získáme jako vážený rozptyl počtu pacientů (s2 = 2,7086). Testovou statistiku vypočteme podle vzorce   M S1n K 2   , tedy K = 1158,5, kritický obor              ;86,129693,1104;0 ,11991199,0,1n1n,0W 975,0 2 025,0 2 2/1 2 2/ 2 Protože testová statistika se nerealizuje v kritickém oboru, H0 nezamítáme na asymptotické hladině významnosti 0,05. Shrnutí K ověření shody empirického rozložení s teoretickým rozložením se používají různé metody. Zvláštní postavení mezi nimi zaujímají metody zaměřené na ověřování normality dat. S nimi jsme se seznámili ve 2. kapitole. Obecně je na ověření předpokladu o typu rozložení, z něhož pochází daný náhodný výběr, určen chí-kvadrát test dobré shody. Ten je založen na porovnání empirických četností jednotlivých variant či třídicích intervalů s tzv. teoretickými četnostmi. Velké odchylky mezi empirickými a teoretickými četnostmi vedou k velkým hodnotám testového kritéria a tudíž k zamítnutí nulové hypotézy. Test dobré shody lze aplikovat pouze při splnění předpokladů dobré aproximace. Pro ověřování shody empirických dat s exponenciálním či Poissonovým rozložením byly vyvinuty jednoduché testy, které využívají pouze znalosti rozsahu výběru, výběrového průměru a výběrového rozptylu. Kontrolní otázky 1. Popište provedení testu dobré shody pro náhodný výběr z diskrétního rozložení a pro náhodný výběr ze spojitého rozložení. 2. Jakým rozložením se asymptoticky řídí testová statistika testu dobré shody v případě platnosti nulové hypotézy? 3. Za jakých podmínek lze použít test dobré shody? 4. Popište jednoduchý test exponenciálního rozložení a Poissonova rozložení. Autokorekční test 1. Při 600 hodech kostkou byly zjištěny tyto četnosti: 85 x jednička, 99 x dvojka, 91 x trojka, 108 x čtyřka, 119 x pětka, 98 x šestka. Příspěvek šestky do testové statistiky K je a) 0,04 b) 0 c) 4 2. Uvažme zadání z otázky 1. Pokud je pravdivá hypotéza, že kostka je homogenní, pak testová statistika K se asymptoticky řídí chí-kvadrát rozložením s počtem stupňů volnosti a) 4 b) 6 c) 5 3. Na základě náhodného výběru rozsahu 537 z diskrétního rozložení je na asymptotické hladině významnosti 0,01 testem dobré shody ověřována hypotéza, že tento výběr pochází z Poissonova rozložení, přičemž parametr  není znám. V datech se vyskytuje 5 variant náhodné veličiny X. Kritický obor pro test nulové hypotézy má tvar: a)  ;838,12072,0;0W b)  ;838,12W c)  ;348,9W 4. Jednoduchým testem provedeným na hladině významnosti 0,05 chceme ověřit hypotézu, že náhodný výběr rozsahu 43 pochází z exponenciálního rozložení, přičemž výběrový průměr nabyl hodnoty 20,2558 a výběrová směrodatná odchylka 22,5051. Testová statistika se realizuje hodnotou a) 51,8457 b) 2,3037 c) 46,664 Správné odpovědi: 1a) 2c) 3b) 4a) Příklady 1. Ve svých pokusech pozoroval J. G. Mendel 10 rostlin hrachu a na každé z nich počet žlutých a zelených semen. Výsledky pokusu: č. rostliny 1 2 3 4 5 6 7 8 9 10 počet žlutých 25 32 14 70 24 20 32 44 50 44 počet zelených 11 7 5 27 13 6 13 9 14 18 celkem 36 39 19 97 37 26 45 53 64 62 Z genetických modelů vyplývá, že pravděpodobnost výskytu žlutého semene by měla být 0,75 a zeleného 0,25. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že výsledky Mendelových pokusů se shodují s modelem. Výsledek: Testová statistika K = 1,797495, kritický obor     ;9,16,9W 95,0 2¨ , nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. 2. Při 60 hodech kostkou jsme dosáhli těchto výsledků: 9 x jednička, 11 x dvojka, 10 x trojka, 13 x čtyřka, 11 x pětka a 6 x šestka. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že kostka je homogenní. Výsledek: Testová statistika K = 2,8, kritický obor     ;07,11,5W 95,0 2 , nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. 3. Ze záznamů autosalónu byl ve 100 náhodně vybraných dnech zjištěn počet prodaných aut. Počet prodaných aut za den 0 1 2 3 4 5 a víc Počet dnů 9 43 29 11 5 3 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že počet prodaných aut za den se řídí Poissonovým rozložením. Výsledek: Odhad parametru λ získaný pomocí výběrového průměru je 1,7. Testová statistika K = 10,8891, kritický obor     ;488,9,4W 95,0 2 , nulovou hypotézu zamítáme na asymptotické hladině významnosti 0,05. 4. Při parlamentních volbách získaly 4 nejsilnější strany 30%, 20%, 15% a 10% hlasů, zbytek hlasů byl rozdělen mezi ostatní strany. Při volbách do obecního zastupitelstva v jedné obci získaly zmíněné strany (ve stejném pořadí) 1400, 900, 900 a 600 hlasů z 5000 odevzdaných hlasů. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozložení hlasů při parlamentních a místních volbách (v uvedené obci) je stejné. Výsledek: Testová statistika K = 68,67, kritický obor     ;488,9,4W 95,0 2 , nulovou hypotézu zamítáme na asymptotické hladině významnosti 0,05. S rizikem omylu nejvýše 5% jsme prokázali, že rozložení hlasů při parlamentních volbách a volbách v uvedené obci se liší.