9. cvičení: Porovnání empirického a teoretického rozložení Úkol 1.: Ze souboru rodin s pěti dětmi bylo náhodně vybráno 84 rodin a byl zjišťován počet chlapců: Počet chlapců 0 1 2 3 4 5 Počet rodin 3 10 22 31 14 4 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozložení počtu chlapců se řídí binomickým rozložením Bi(5; 0,5). Výsledek: Podmínky dobré aproximace nejsou splněny, sloučíme tedy první dvě varianty a poslední dvě varianty. Realizace testové statistiky: K = 2,3492, kritický obor ( ) ) ( ) ) )∞=∞χ=∞−−χ= α− ;8147,7,3,1prW 95,0 2 1 2 . Protože WK ∉ , nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor se dvěma proměnnými a čtyřmi případy. Proměnná nj obsahuje zjištěné četnosti (po sloučení variant), proměnná npj pak teoretické četnosti. Statistiky – Neparametrická statistika – Pozorované vs. očekávané χ2 – OK – Proměnné – Pozorované četnosti nj, očekávané četnosti npj – OK – Výpočet. Pozorované vs. očekávané četnosti (Tabulka1) Chi-Kvadr. = 2,349206 sv = 3 p = ,503161 Případ pozorov. nj očekáv. npj P - O (P-O)^2 /O C: 1 C: 2 C: 3 C: 4 Sčt 13,00000 15,75000 -2,75000 0,480159 22,00000 26,25000 -4,25000 0,688095 31,00000 26,25000 4,75000 0,859524 18,00000 15,75000 2,25000 0,321429 84,00000 84,00000 0,00000 2,349206 V záhlaví výstupní tabulky je uvedena hodnota testového kritéria (2,349206), počet stupňů volnosti = 3 a p-hodnota (0,503161). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Úkol 2.: Na jistém nádraží byl sledován počet přijíždějících vlaků za 1 h. Pozorování bylo prováděno celkem 15 dnů (tj. 360 h) a výsledky jsou uvedeny v tabulce: Počet vlaků za 1 hodinu 0 1 2 3 4 5 6 7 a víc četnost 27 93 103 58 50 21 6 2 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že počet přijíždějících vlaků za 1 h se řídí Poissonovým rozložením, a to a) testem dobré shody, b) jednoduchým testem Poissonova rozložení. Výsledek: Ad a) Podmínky dobré aproximace nejsou splněny, sloučíme varianty 6 a 7 a víc. Realizace testové statistiky: K = 9,5892, kritický obor ( ) ) ( ) ) )∞=∞χ=∞−−χ= α− ;0705,11,5,1prW 95,0 2 1 2 . Protože WK ∉ , nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Ad b) Realizace testové statistiky: K = 331,1304, kritický obor: ( ) ( ) ) )∞∪=∞χ∪χ= ,4,4134,308,0,359359,0W 975,0 2 025,0 2 . H0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Načteme datový soubor vlaky.sta. Ad a) Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POCET – klikneme na ikonu se závažím – Proměnná vah CETNOST – Stav Zapnuto – OK – Výpočet. Proměnná: pocet, Rozdělení:Poissonovo, Lambda = 2,29444 (vlaky.sta) Chí-kvadrát = 9,60335, sv = 5, p = 0,08729 Kategorie Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. <= 0,00000 1,00000 2,00000 3,00000 4,00000 5,00000 < Nekonečno 27 27 7,50000 7,5000 36,29426 36,2943 10,08174 10,0817 93 120 25,83333 33,3333 83,27517 119,5694 23,13199 33,2137 103 223 28,61111 61,9444 95,53512 215,1045 26,53753 59,7513 58 281 16,11111 78,0556 73,06667 288,1712 20,29630 80,0476 50 331 13,88889 91,9444 41,91185 330,0831 11,64218 91,6897 21 352 5,83333 97,7778 19,23288 349,3160 5,34247 97,0322 8 360 2,22222 100,0000 10,68405 360,0000 2,96779 100,0000 V tomto případě je parametr λ Poissonova rozložení neznámý, je odhadnut pomocí výběrového průměru a odhad činí 2,29444. Dále je v záhlaví výstupní tabulky uvedena hodnota testové statistiky (Chí kvadrát = 9,60335), počet stupňů volnosti r – p – 1 = 7 – 1 – 1 = 5 a p-hodnota (0,0879). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. Proměnná: pocet, Rozdělení:Poissonovo, Lambda = 2,29444 Chí-kvadrát test = 9,60335, sv = 5, p = 0,08729 -1 0 1 2 3 4 5 6 7 Kategorie (horní meze) 0 20 40 60 80 100 120 Početpozorování Ad b) Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnná počet – OK – zapneme proměnnou vah cetnost – OK. Na záložce Detailní výsledky zaškrtneme Počet platn., Průměr, Rozptyl – Výpočet. K výstupní tabulce přidáme za proměnnou Rozptyl tři nové proměnné, a to Test. Stat., Kvantil1, Kvantil 2. Do Dlouhého jména proměnné Test. Stat. napíšeme: =(v1-1)*v3/v2 Do Dlouhého jména proměnné Kvantil 1 napíšeme: =VChi2(0,025;359) Do Dlouhého jména proměnné Kvantil 2 napíšeme: =VChi2(0,975;359) Dostaneme výslednou tabulku: Popisné statistiky (vlaky.sta) Proměnná N platných Průměr Rozptyl Test. Kvantil 1 Kvantil 2 pocet 360 2,294444 2,074621 324,6053 308,4009 413,3862 Vidíme, že testová statistika se nerealizuje v kritickém oboru )∞∪= ,4,4134,308,0W , tedy H0 nezamítáme na asymptotické hladině významnosti 0,05. (Malé rozdíly mezi ručním výpočtem a výpočtem ve STATISTICE plynou ze zaokrouhlovacích chyb.) Úkol 3.: Jsou známy počty občanů města Brna podle měsíce narození (stav k 31.12.2001). měsíc narození počet osob leden 32309 únor 30126 březen 35010 duben 34761 květen 34955 červen 32883 červenec 33255 srpen 31604 září 31173 říjen 30536 listopad 28571 prosinec 29467 celkem 384650 Na asymptotické hladině významnosti 0,05 ověřte hypotézu, že počty narozených jsou pro všechny měsíce stejné. Počty narozených lidí v jednotlivých měsících roku rovněž znázorněte graficky. Výpočet pomocí systému STATISTICA: Načteme datový soubor obyvatele_brna.sta. Tento soubor má tři proměnné (počet, délka měsíce a teor. počet) a 12 případů. Proměnná počet obsahuje absolutní četnosti z předchozí tabulky. Proměnná délka měsíce obsahuje počty dnů v jednotlivých měsících roku. Proměnná teor. počet obsahuje teoretické četnosti, tj. její hodnoty získáme tak, že do jejího Dlouhého jména napíšeme: =384650/(365/v2) Statistiky – Neparametrická statistika – Pozorované versus očekávané χ2 – OK - Pozorované četnosti počet, Očekávané četnosti teor. počet - OK – Výpočet. Dostaneme tabulku: Pozorované vs. očekávané četnosti (obyvatele_brna.sta) Chi-Kvadr. = 1506,153 sv = 11 p = 0,000000 POZN.: Nestejné součty pozor. a oček. četností Případ pozorov. pocet očekáv. teor. pocet P - O (P-O)^2 /O C: 1 C: 2 C: 3 C: 4 C: 5 C: 6 C: 7 C: 8 C: 9 C: 10 C: 11 C: 12 Sčt 32309,0 32668,9 -359,90 3,965 30126,0 29507,4 618,60 12,969 35010,0 32668,9 2341,10 167,766 34761,0 31615,1 3145,93 313,043 34955,0 32668,9 2286,10 159,976 32883,0 31615,1 1267,93 50,851 33255,0 32668,9 586,10 10,515 31604,0 32668,9 -1064,90 34,713 31173,0 31615,1 -442,07 6,181 30536,0 32668,9 -2132,90 139,254 28571,0 31615,1 -3044,07 293,099 29467,0 32668,9 -3201,90 313,821 384650,0 384650,0 -0,00 1506,153 Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když K ≥ χ2 1-α(r-1-p). V našem případě je r = 12, p = 0 a ( ) .675,19112 95,0 =χ Protože K = 1506,153 ≥19,675, zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. S rizikem omylu nejvýše 5 % jsme prokázali, že obyvatelé Brna se rodí v průběhu roku nerovnoměrně. Výpočet doplníme sloupkovým diagramem pozorovaných četností a očekávaných četností. Pozorované a teoretické počty obyvatel Brna narozených v jednotlivých měsících roku pozorov. očekáv. leden únor březen duben květen červen červenec srpen září říjen listopad prosinec 28000 29000 30000 31000 32000 33000 34000 35000 36000 Komentář: Největší rozdíly mezi pozorovanými a očekávanými relativními četnostmi jsou v prosinci, dubnu a listopadu, naopak nejmenší v lednu a září. Úkol 4.: Firma, která vlastní několik supermarketů, se zajímá, zda zákazníci dávají přednost některému dnu v týdnu pro nákup. Náhodně bylo vybráno 300 zákazníků, kteří měli říci, který den v týdnu nejčastěji nakupují v supermarketu. Výsledky: Den pondělí úterý středa čtvrtek pátek sobota neděle Počet 10 20 40 40 80 60 50 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že žádný den v týdnu nemá při nakupování v supermarketu přednost před jinými dny. Návod: Načteme datový soubor nakupy.sta. Proměnná X obsahuje pozorované absolutní četnosti a Y vypočítané teoretické četnosti (v našem případě 300/7). Statistiky – Neparametrické statistiky – Pozorované vs. očekávané χ2 – Proměnné Pozorované X, Očekávané Y, OK – Výpočet. Dostaneme tabulku: Pozorované vs. očekávané četnosti (nakupy.sta) Chi-Kvadr. = 78,00000 sv = 6 p = ,000000 Případ pozorov. X očekáv. Y P - O (P-O)^2 /O C: 1 C: 2 C: 3 C: 4 C: 5 C: 6 C: 7 Sčt 10,0000 42,8571 -32,8571 25,19048 20,0000 42,8571 -22,8571 12,19048 40,0000 42,8571 -2,8571 0,19048 40,0000 42,8571 -2,8571 0,19048 80,0000 42,8571 37,1429 32,19048 60,0000 42,8571 17,1429 6,85714 50,0000 42,8571 7,1429 1,19048 300,0000 300,0000 0,0000 78,00000 Komentář: Ve výstupní tabulce najdeme hodnotu testové statistiky (Chi-Square = 78) a odpovídající p-hodnotu, kterou porovnáme se zvolenou hladinou významnosti. V našem případě je p-hodnota velmi malá, takřka nulová, takže nulová hypotéza se zamítá na asymptotické hladině významnosti 0,05. S rizikem omylu nejvýše 5 % jsme tedy prokázali, že zákazníci nakupují během týdne nerovnoměrně. Příklad k samostatnému řešení: D rybníka bylo umístěno 5 pastí, přičemž každá past svítila jiným světlem (bílým, žlutým, modrým, zeleným, červeným). Do těchto pastí se chytilo 56, 72, 41, 53 a 38 jedinců. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že barva světla v pasti nemá vliv na počet chycených jedinců. Výsledek: Testová statistika nabývá hodnoty 14,1154, kritický obor je )∞= ;488,9W , tedy na asymptotické hladině významnosti 0,05 nulovou hypotézu zamítáme. S rizikem omylu nejvýše 0,05 jsme prokázali, že barva světla v pasti má vliv na počet chycených jedinců.