Téma 8: Parametrické úlohy o jednom náhodném výběru z normálního rozložení a dvourozměrného normálního rozložení Úkol 1.: Vlastnosti výběrového průměru z normálního rozložení Předpokládejme, že velký ročník na vysoké škole má výsledky ze statistiky normálně rozloženy kolem střední hodnoty 72 bodů se směrodatnou odchylkou 9 bodů. Najděte pravděpodobnost, že průměr výsledků náhodného výběru 10 studentů bude větší než 80 bodů. Návod: Xi, ..., Xio je náhodný výběr z N(72, 81). Počítáme P(M > 80), přičemž výběrový průměr M er2 81 má normální rozložení se střední hodnotou E(M) = [i = 72 a rozptylem D(M) = — = — = n 10 8,1. Tedy P(M > 80) = 1 - P(M < 80) = 1 - 0(80), kde 0(80) je hodnota distribuční funkce rozložení N(72; 8,1) v bodě 80. Vytvoříme datový soubor o jedné proměnné a o jednom případu. Do Dlouhého jména této proměnné napíšeme =1 - INormal(80;72;sqrt(8,l)). Zjistíme, že 1 - 0(80) = 0,00247005. Funkce JNormal(x;u;G) počítá hodnotu distribuční funkce rozložení N(u,g2) v bodě x. 1 Proml 1 0,00247 Úkol k samostatnému řešení: Lze předpokládat, že hmotnost pomerančů dodávaných do obchodní sítě se řídí normálním rozložením se střední hodnotou 170 g a směrodatnou odchylkou 12 g. Jaká je pravděpodobnost, že celková hmotnost devíti náhodně vybraných pomerančů balených do síťky překročí 1,5 kg? Výsledek: Hledaná pravděpodobnost je 0,797. Úkol 3.: Intervaly spolehlivosti pro parametry u, g2 normálního rozložení Z populace stejně starých selat téhož plemene bylo vylosováno šest selat a po dobu půl roku jim byla podávána táž výkrmná dieta. Byly zaznamenávány průměrné denní přírůstky hmotnosti v Dg. Z dřívějších pokusuje známo, že v populaci mívají takové přírůstky normální rozložení, avšak střední hodnota i rozptyl se měnívají. Přírůstky v Dg: 62, 54, 55, 60, 53, 58. a) Najděte 95% empirický levostranný interval spolehlivosti pro neznámou střední hodnotu [i při neznámé směrodatné odchylce g. b) Najděte 95% empirický interval spolehlivosti pro směrodatnou odchylku g. Návod: Vytvoříme datový soubor o 4 proměnných a 6 případech. První proměnnou nazveme hmotnost, druhou dmi, třetí dm2 a čtvrtou hm2. Do proměnné hmotnost zapíšeme zjištěné údaje. Pomocí Popisných statistik zjistíme realizace výběrového průměru a výběrové směrodatné odchylky. Proměnná hmotnost Popisné statistiky Průměr Tsm. odch 57,00000 3,577709 D9] ad a) Dolní mez 100(l-a)% empirického levostranného intervalu spolehlivosti pro [i při neznámém a2 je m —— ^(n -1), tedy v našem případě 57 3,577709 /n Vó Do Dlouhého jména proměnné dmi zapíšeme výraz = 57 - 3,577709* VStudent(0,95;5)/sqrt(6) Funkce VStudent(x;df) počítá x-kvantil rozložení t(df). Dostaneme výsledek 54,05682, tedy [i > 54,06 Dg s pravděpodobností aspoň 0,95 1^(5) =54,06 ad b) Meze 100(l-a)% empirického oboustranný intervalu spolehlivosti pro g při neznámém f i------- /------- > UJSOU v n -1 s v n -1 s Do Dlouhého jména proměnné dm2 zapíšeme výraz =3,577709*sqrt(5)/sqrt(VChi2(0,975;5)). Vyjde 2,233235. Podobně do Dlouhého jména proměnné hm2 zapíšeme výraz =3,577709*sqrt(5)/sqrt(VChi2(0,025;5)) Vyjde 8,774739 . Funkce VChi2(x;nu) počítá x-kvantil rozložení x2(nu). Dostaneme výsledek: 2,23 g < c < 8,77 g s pravděpodobností aspoň 0,95. 1 dm1 2 dm2 3 hm2 54,05683(2,233235 8,774739 Upozornění: STATISTIC A verze 8 umí počítat meze 100(l-a)% empirického intervalu spolehlivosti pro neznámou směrodatnou odchylku při neznámé střední hodnotě: v Popisných statistikách zaškrtneme Meze sp. směr. odch. Dostaneme tabulku: Proměnná Popisné statistiky (Tabulkal) Spolehlivost Spolehlivost Sm.Odch. Sm.Odch. -95.000% +95.000% Proml 2,233234 8,774739 Úkol k samostatnému řešení: Při provádění určitého pokusu bylo zapotřebí udržovat v laboratoři konstantní teplotu 26,5°C. Teplota byla v jednom pracovním týdnu 46x namátkově kontrolována v různých denních a nočních hodinách. Z výsledků měření byly vypočteny realizace výběrového průměru a výběrové směrodatné odchylky: m = 26,33°C, s 0,748°C. Za předpokladu, že výsledky měření teploty se řídí rozložením N(u,g2), vypočtěte 95% empirický interval spolehlivosti a) pro střední hodnotu [i b) pro směrodatnou odchylku g. Výsledek: ad a) 26,11°C < n < 26,55°C s pravděpodobností aspoň 0,95. ad b) 0,62°C < g < 0,94°C s pravděpodobností aspoň 0,95. Úkol 4.: Testování hypotézy o střední hodnotě \i Systematická chyba měřícího přístroje se eliminuje nastavením přístroje a měřením etalonu, jehož správná hodnota je [i = 10,00. Nezávislými měřeními za stejných podmínek byly získány hodnoty: 10,24 10,12 9,91 10,19 9,78 10,14 9,86 10,17 10,05, které považujeme za realizace náhodného výběru rozsahu 9 z rozložení N(u, o2). Je možné při riziku 0,05 vysvětlit odchylky od hodnoty 10,00 působením náhodných vlivů? Návod: Na hladině významnosti 0,05 testujeme hypotézu Ho: [i = 10 proti oboustranné alternativě Hi: [i ^ 10. Jde o úlohu na jednovýběrový t-test. Ten je ve STATISTICE implementován. Vytvoříme datový soubor o jedné proměnné a devíti případech, kam zapíšeme naměřené hodnoty. 1. způsob: V Základních statistikách a tabulkách vybereme t-test, samostatný vzorek. Do Referenční hodnoty zapíšeme 10. Ve výstupu se podíváme na hodnotu testového kritéria a na p-hodnotu. Pokud p-hodnota bude menší nebo rovna 0,05, zamítneme hypotézu H0: (J, = 10 ve prospěch oboustranné alternativní hypotézy Hi: [i ^ 10 na hladině významnosti 0,05. V opačném případě Ho nezamítáme. V našem případě je Proměnná Test průměrů vůči referenční konstantě (hodnotě) Průměr ISm.odch. N Sm.chyba Referenční I t I SV konstanta | P Proml 10,05111 0,162669 9 0,054223 10,00000 0,942611 8 0,373470 Protože p-hodnota 0,373470 > 0,05 nulovou hypotézu nezamítáme na hladině významnosti 0,05. S rizikem omylu nejvýše 5% lze tedy odchylky od hodnoty 10 vysvětlit působením náhodných vlivů. Všimněme si ještě hodnoty testového kriteria: t0 = 0,942611. Kritický obor W = (- oo, - Va/2 (n -1)> u (Va/2 (n -1), oo) = (- oo, -10 975 (s)) u (t0 975 (s), qo) = = (-oč, - 2,306) ^j (2,306, oo) Protože t0 č W, nezamítáme na hladině významnosti 0,05 hypotézu H0 . 2. způsob: V Základních statistikách a tabulkách vypočteme průměr a směrodatnou odchylku. Pak použijeme Testy rozdílů: r, %, průměry - OK - vybereme Rozdíl mezi dvěma průměry (normální rozdělení) - zaškrtneme Výběrový průměr vs. Střední hodnota - do políčka Prl napíšeme 10,05111, do políčka SmOdl napíšeme 0,162669, do políčka NI napíšeme 9, do políčka Pr2 napíšeme 10 - Výpočet. Dostaneme p-hodnotu 0,3735, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Úkol k samostatnému řešení: Při kontrole balicího automatu, který má plnit cukrem balíčky o hmotnosti 1000 g, byly při přesném převážení 5 balíčků zjištěny tyto odchylky (v gramech) od požadované hodnoty: 3, -2, 2, 0, 1. Na hladině významnosti 0,05 testujte hypotézu, že automat nemá systematickou odchylku od požadované hodnoty. Výsledek: Protože p-hodnota je 0,405023, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Úkol 5.: Testování hypotézy o směrodatné odchylce o U 25 náhodně vybraných dvoulitrových lahví s nealkoholickým nápojem byl zjištěn přesný objem nápoje. Výběrový průměr činil m = 1,99 1 a výběrová směrodatná odchylka s = 0,1 1. Předpokládejme, že objem nápoje v láhvi je náhodná veličina s normálním rozložením. Na hladině významnosti 0,05 ověřte tvrzení výrobce, že směrodatná odchylka je 0,08 1. Návod: Na hladině významnosti 0,05 testujeme hypotézu Ho: g = 0,08 proti oboustranné alternativě Hi: c ^ 0,08 neboli H0: g2 = 0,0064 proti oboustranné alternativě Hi: g2 ^ 0,0064. Jde o úlohu i - i- • m i • r- m-lis z^-u,i na test o rozptylu. Vypočteme realizaci testového kriteria tn =-------— =-------— = 37,5 . c 0,082 Jelikož hodnota testového kritéria 37,5 neleží v kritickém oboru W = (O;x2o,o25 (24)^ (x2o,975(24); oo) = (u; 12,4) u (39,4; 00), nejsme oprávněni na hladině významnosti 0,05 zamítnout tvrzení výrobce.) V systému STATISTIC A otevřeme datový soubor o třech proměnných a jednom případu. Do Dlouhého jména první proměnné napíšeme vzorec pro výpočet testového kritéria: =24*0,1A2/0,08A2 Další dvě proměnné nám poslouží k výpočtu kvantilů Pearsonova % - rozložení. Do Dlouhého jména druhé proměnné napíšeme =VChi2(0,025;24) a do Dlouhého jména třetí proměnné napíšeme =VChi2(0,975;24) Úkol 6.: Interval spolehlivosti pro rozdíl parametrů ui - U2 dvourozměrného rozložení Bylo vylosováno 6 vrhů selat a z nich vždy dva sourozenci. Jeden z nich vždy dostal náhodně dietu č. 1 a druhý dietu č. 2. Přírůstky v Dgjsou následující: (62,52), (54,56), (55,49), (60,50), (53,51), (58,50). Za předpokladu, že uvedené dvojice tvoří náhodný výběr z dvourozměrného rozložení s vektorem středních hodnot (ui, u^) a jejich rozdíly se řídí normálním rozložením, sestrojte 95% interval spolehlivosti pro rozdíl středních hodnot. Návod: Vytvoříme datový soubor o třech proměnných a šesti případech. Do proměnných vl a v2 zapíšeme naměřené přírůstky, do proměnné v3 uložíme rozdíly vl - v2. Ve STATISTICE je implementován výpočet oboustranného intervalu spolehlivosti pro u, když a2 neznáme. Pomocí Popisných statistik zjistíme meze 95% intervalu spolehlivosti pro střední hodnotu proměnné v3 tak, že zaškrtneme Meze spolehl, prům. Proměnná Popisné statistiky Int. spolehl. 1 Int. spolehl. -95,000% +95,000% Prom3 0,626461 10,70687 Dostaneme výsledek: 0,63 Dg < \x < 10,71 Dg s pravděpodobností aspoň 0,95. Úkol 7.: Testování hypotézy o rozdílu parametrů ui- \i2 dvourozměrného rozložení Bylo vybráno šest nových vozů téže značky a po určité době bylo zjištěno, o kolik mm se sjely jejich levé a pravé přední pneumatiky. Výsledky: (1,8; 1,5), (1,0; 1,1), (2,2; 2,0), (0,9; 1,1), (1,5; 1,4), (1,6; 1,4). Za předpokladu, že uvedené dvojice tvoří náhodný výběr z dvourozměrného rozložení s vektorem středních hodnot (ui, (j,2) a jejich rozdíly se řídí normálním rozložením, testujte na hladině významnosti 0,05 hypotézu, že obě pneumatiky se sjíždějí stejně rychle. Návod: Označme [i = ui - U2. Na hladině významnosti 0,05 testujeme hypotézu H0: (J, = 0 proti oboustranné alternativě Hi: u. ^ 0. Jde o úlohu na párový t-test.Ten je ve STATISTICE implementován. Vytvoříme datový soubor o dvou proměnných a šesti případech. Do proměnných vl a v2 zapíšeme naměřené přírůstky. V Základních statistikách vybereme t-test, závislé vzorky. Zadáme názvy obou proměnných a ve výstupu se podíváme na hodnotu testového kritéria a na p-hodnotu. Proměnná t-test pro závislé vzorky (Tabulkal) Označ, rozdíly jsou významné na hlad. p < ,05000 Průměr Sm.odch. N Rozdíl Sm.odch. rozdílu t sv P X 1,500000 0,489898 Y 1,416667 0,331160 6 0,083333 0,194079 1,051758 5 0,341062 Protože p-hodnota 0,341062 > 0,05, nezamítáme na hladině významnosti 0,05 hypotézu, že obě přední pneumatiky se sjíždějí stejně rychle. Všimněme si ještě hodnoty testového kriteria: t0 = 1,051758. Kritický obor W = (-oo, - Va/2 (n -1)> ^ (va/2 (n -1), oo) = (-oo, -10^975 (5)) ^ (t0^975 (5), oo) = = (- oo, - 2,5706) ^j (2,5706, oo) Protože t0 č W, nezamítáme na hladině významnosti 0,05 hypotézu H0 . Úkol k samostatnému řešení: Zkouška ze statistiky se skládá z písemné části, v níž je možno získat maximálně 20 bodů a z ústní části, kde je možno získat maximálně 10 bodů. Výsledky 20 náhodně vybraných studentů (X - počet bodů z písemné části, Y - počet bodů z ústní části): Č. St. 1 2 3 4 5 6 7 8 9 10 X 6 11 8 18 6 11 6 3 14 7 Y 4 7 6 8 3 5 6 4 9 8 č. st. 11 12 13 14 15 16 17 18 19 20 X 17 12 8 4 15 20 13 5 10 0 Y 10 9 6 5 7 10 8 6 7 3 Na hladině významnosti 0,05 testujte hypotézu, že rozdíl středních hodnot počtu bodů v písemné a ústní části se liší o 3 body proti oboustranné alternativě. Výsledek: Hodnota testové statistiky = 0,178431, p-hodnota = 0,806273, na hladině významnosti 0,05 tedy nezamítáme nulovou hypotézu.