Téma 6.: Základní pojmy matematické statistiky Příklad 1.: Ve 12 náhodně vybraných prodejnách ve městě byly zjištěny následující ceny určitého výrobku (v Kč): 102, 99, 106, 103, 96, 98, 100, 105, 103, 98, 104, 107. Těchto 12 hodnot považujeme za realizace náhodného výběru X1, ..., X12 z rozložení, které má střední hodnotu µ a rozptyl σ2 . a) Určete nestranné bodové odhady neznámé střední hodnoty µ a neznámého rozptylu σ2 . b) Najděte výběrovou distribuční funkci F12(x) a nakreslete její graf. Řešení: Vypočteme realizaci výběrového průměru ( ) 75,10110799102 12 1 m =+++= K Kč Vypočteme realizaci výběrového rozptylu: ( ) ( ) ( )[ ] 39,1275,10110775,1019975,101102 11 1 s 2222 =−++−+−= K Kč2 Pro usnadnění výpočtu hodnot výběrové distribuční funkce F12(x) uspořádáme ceny podle velikosti: 96, 98, 98, 99, 100, 102, 103, 103, 104, 105, 106, 107. Číselnou osu rozdělíme na 11 intervalů a v každém intervalu stanovíme hodnotu výběrové distribuční funkce. 1)x(F:071x 691,0 12 11 )x(F:107x106 38,0 12 10 )x(F:106x105 75,0 12 9 )x(F:105x104 6,0 12 8 )x(F:104x103 5,0 12 6 )x(F:103x102 641,0 12 5 )x(F:102x001 3,0 12 4 )x(F:001x99 25,0 12 3 )x(F:99x89 308,0 12 1 )x(F:98x96 0)x(F:96x 12 12 12 12 12 12 12 12 12 12 12 =≥ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ =< 96 98 99 100 102 103 104 105 106 107 x -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 F12(x) Výpočet pomocí systému STATISTICA: Otevřeme datový soubor 12_cen.sta. Výpočet realizace výběrového průměru a výběrového rozptylu: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – vybereme Průměr a Rozptyl – Výpočet. Dostaneme tabulku: Popisné statistiky (12_cen.sta) Proměnná Průměr Rozptyl ceny 101,7500 12,38636 Výpočet hodnot výběrové distribuční funkce: Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK – Možnosti – ponecháme zaškrtnuté pouze Kumulativní relativní četnosti – Výpočet. Ke vzniklé tabulce přidáme jeden případ před první případ (do sloupce Kategorie napíšeme 95, do sloupce Kumulativní rel. četnost napíšeme 0 ) a jeden případ za poslední případ (do sloupce Kategorie napíšeme 108, do sloupce Kumulativní rel. četnost napíšeme 100). Proměnnou Kumulativní rel. četnost podělíme 100: do jejího Dlouhého jména napíšeme = v2/100. Kategorie Kumulativní rel. četnost 95 96 98 99 100 102 103 104 105 106 107 108 0,0000 0,0833 0,2500 0,3333 0,4167 0,5000 0,6667 0,7500 0,8333 0,9167 1,0000 1,0000 Kreslení grafu výběrové distribuční funkce: Nastavíme se kurzorem na proměnnou Kumulativní rel. četnost, klikneme pravým tlačítkem – Grafy bloku dat – Spojnicový graf: celé sloupce. Ve vytvořeném grafu odstraníme značky, spojnici změníme na schodovitou a upravíme měřítko na vodorovné ose od 1 do 12. 96 98 99 100 102 103 104 105 106 107 ceny výrobku -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 Výběrovádistribučnífunkce Příklad 2.: Přírůstky cen akcií v % na burze v New Yorku u 10 náhodně vybraných společností dosáhly těchto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Odhadněte střední hodnotu a směrodatnou odchylku růstu cen akcií a dále odhadněte pravděpodobnost růstu cen akcií aspoň o 8,5 %. Data jsou uložena v souboru akcie.sta. Výsledky: Průměrný růst cen akcií odhadujeme na 8 % se směrodatnou odchylkou 3,97 %. Dále, u 40 % akcií vzrostla cena aspoň o 8,5 %. Příklad 3.: Bylo zkoumáno 9 vzorků půdy s různým obsahem fosforu (veličina X). Hodnoty veličiny Y označují obsah fosforu v obilných klíčcích (po 38 dnech), jež vyrostly na těchto vzorcích půdy. číslo vzorku 1 2 3 4 5 6 7 8 9 X 1 4 5 9 11 13 23 23 28 Y 64 71 54 81 76 93 77 95 109 Těchto 9 dvojic hodnot považujeme za realizace náhodného výběru (X1,Y1), ..., (X9,Y9) z dvourozměrného rozložení s kovariancí σ12 a koeficientem korelace ρ. Najděte bodové odhady kovariance σ12 a koeficientu korelace ρ. Výpočet pomocí systému STATISTICA: Otevřeme datový soubor fosfor.sta. Výpočet výběrové kovariance: Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty & klasifikační analýza – Proměnné – Proměnné pro analýzu: X, YX – OK – OK – zvolíme Kovarianční matice. Dostaneme tabulku: Kovariance (Tabulka18) Proměnná X Y X Y 91,7500 130,0000 130,0000 284,2500 Vidíme, že výběrová kovariance veličin X, Y se realizuje hodnotou 130. (Výběrový rozptyl proměnné X resp. Y nabyl hodnoty 91,75 resp. 284,25.) Výpočet výběrového koeficientu korelace: Místo Kovarianční matice vybereme Korelační matice. Korelace (Tabulka18) Proměnná X Y X Y 1,000000 0,804989 0,804989 1,000000 Výběrový koeficient korelace veličin X, Y nabyl hodnoty 0,805, tedy mezi veličinami x, Y existuje silná přímá lineární závislost. Příklad 4.: Pět mužů zjistilo a zapsalo svou hmotnost (v kg) a výšku (v cm): Číslo muže 1 2 3 4 5 Hmotnost 76 86 73 84 79 Výška 170 177 169 174 175 Najděte nestranný bodový odhad rozptylu hmotnosti, rozptylu výšky a kovariance hmotnosti a výšky. Vypočtěte rovněž realizaci výběrového koeficientu korelace hmotnosti a výšky. Výsledky: Výběrový rozptyl hmotnosti se realizuje hodnotou 29,3, výběrový rozptyl výšky 11,5 a výběrová kovariance hmotnosti a výšky se realizuje hodnotou 16,5. Výběrový koeficient korelace hmotnosti a výšky nabývá hodnoty 0,8989. Příklad 5.: Při kontrolních zkouškách životnosti 16 žárovek byl stanoven odhad m = 3000 h střední hodnoty jejich životnosti. Z dřívějších zkoušek je známo, že životnost žárovky se řídí normálním rozložením se směrodatnou odchylkou σ = 20 h. Vypočtěte a) 99% empirický interval spolehlivosti pro střední hodnotu životnosti b) 90% levostranný empirický interval spolehlivosti pro střední hodnotu životnosti c) 95% pravostranný empirický interval spolehlivosti pro střední hodnotu životnosti. Upozornění: Výsledek zaokrouhlete na jedno desetinné místo a vyjádřete v hodinách a minu- tách. Řešení: ad a) 1,298757583,2 16 20 3000u n md 995,0 =−= σ −= , 9,301257583,2 16 20 3000u n mh 995,0 =+= σ += 2987 h a 6 min < µ < 3012 h a 54 min s pravděpodobností 0,99 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných d, h a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,995;0;1) Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,995;0;1) ad b) 6,299328155,1 16 20 3000u n md 9,0 =−= σ −= 2993 h a 36 min < µ s pravděpodobností 0,9 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné d a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,9;0;1) ad c) 8,300995996,1 16 20 3000u n mh 975,0 =+= σ += 3009 h a 48 min > µ s pravděpodobností 0,95 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné h a jednom případu. Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,975;0;1) Užitečný odkaz: na adrese http://www.prevody-jednotek.cz je program, s jehož pomocí lze převádět různé fyzikální jednotky, v našem případě hodiny na minuty. Příklad 6.: Víme, že výška hochů ve věku 9,5 až 10 let má normální rozložení s neznámou střední hodnotou µ a známým rozptylem σ2 = 39,112 cm2 . Dětský lékař náhodně vybral 15 hochů uvedeného věku, změřil je a vypočítal realizaci výběrového průměru m = 139,13 cm. Podle jeho názoru by výška hochů v tomto věku neměla přesáhnout 142 cm s pravděpodobností 0,95. Lze tvrzení lékaře akceptovat? Řešení: Testujeme H0: µ = 142 proti H1: µ < 142 na hladině významnosti 0,05. a) Test provedeme pomocí kritického oboru. Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku U = n M σ µ− ~ N(0, 1). Testová statistika tedy bude T0 = n cM σ − a bude mít rozložení N(0, 1), pokud je nulová hypotéza pravdivá. Vypočítáme realizaci testového kritéria: t0 = 7773,1 15 112,39 14213,139 −= − . Stanovíme kritický obor: W = ( ( ( ( 6449,1,u,u,u, 95,005,0 −∞−=−∞−=∞−=∞− α . Protože -1,7773 ∈ W, H0 zamítáme na hladině významnosti 0,05. Tvrzení lékaře lze tedy akceptovat s rizikem omylu 5 %. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(1-α)% empirického pravostranného intervalu spolehlivosti pro střední hodnotu µ při známém rozptylu σ2 jsou: (-∞, h) = (-∞, m + n σ u1-α). V našem případě dostáváme: h = 139,13 + 15 112,39 u0,95 = 139,13 + 15 112,39 1,645 = 141,79. Protože 142 ∉(-∞; 141,79), H0 zamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty p = P(T0 ≤ t0) = Φ(-1,7773) = 0,0378 Jelikož 0,0378 ≤ 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05. Při řešení tohoto příkladu použijeme systém STATISTICA pouze jako inteligentní kalkulátor.