Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu Příklad 1.: Bylo zkoumáno 9 vzorků půdy s různým obsahem fosforu (veličina X). Hodnoty veličiny Y označují obsah fosforu v obilných klíčcích (po 38 dnech), jež vyrostly na těchto vzorcích půdy. číslo vzorku 1 2 3 4 5 6 7 8 9 X 1 4 5 9 11 13 23 23 28 Y 64 71 54 81 76 93 77 95 109 Těchto 9 dvojic hodnot považujeme za realizace náhodného výběru (X1,Y1), ..., (X9,Y9) z dvourozměrného rozložení se středními hodnotami µ1, µ2, rozptyly σ1 2 , σ2 2 a koeficientem korelace ρ. Najděte bodové odhady těchto číselných charakteristik, tj. realizace výběrových průměrů, výběrových rozptylů a výběrového koeficientu korelace. Výpočet pomocí systému STATISTICA: Otevřeme datový soubor fosfor.sta o dvou proměnných X a Y 9 případech. V proměnné X jsou zjištěné hodnoty obsahu fosforu v půdě a v Y v obilných klíčcích. Výpočet výběrových průměrů a výběrových rozptylů: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X, Y – na záložce Detailní výsledky vybereme Průměr, Rozptyl – Výpočet. Dostaneme tabulku: Popisné statistiky (fosfor.sta) Proměnná Průměr Rozptyl X Y 13 91,75 80 284,25 Vidíme, že výběrové průměry veličin X, Y se realizují hodnotami 13 a 80, výběrové rozptyly pak nabývají hodnot 91,75 a 284,25. Výpočet výběrového koeficientu korelace: Aktivujeme Popisné statistiky – Storno – Korelační matice – OK – 2 seznamy – 1. seznam proměnných X, 2. seznam proměnných Y – OK – Výpočet. Korelace (fosfor.sta) Označ. korelace jsou významné na hlad. p < ,05000 N=9 (Celé případy vynechány u ChD) Proměnná Y X 0,804989 Výběrový koeficient korelace veličin X, Y nabyl hodnoty 0,805, tedy mezi veličinami x, Y existuje silná přímá lineární závislost. Vzorce pro meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu µ normálního rozložení při známém rozptylu σ2 : Oboustranný: 2/1u n md α− σ −= , 2/1u n mh α− σ += . Levostranný: α− σ −= 1u n md , pravostranný: α− σ += 1u n mh . Příklad 2.: Při kontrolních zkouškách životnosti 16 žárovek byl stanoven odhad m = 3000 h střední hodnoty jejich životnosti. Z dřívějších zkoušek je známo, že životnost žárovky se řídí normálním rozložením se směrodatnou odchylkou σ = 20 h. Vypočtěte a) 99% empirický interval spolehlivosti pro střední hodnotu životnosti b) 90% levostranný empirický interval spolehlivosti pro střední hodnotu životnosti c) 95% pravostranný empirický interval spolehlivosti pro střední hodnotu životnosti. Upozornění: Výsledek zaokrouhlete na jedno desetinné místo a vyjádřete v hodinách a minutách. Řešení: ad a) 1,298757583,2 16 20 3000u n md 995,0 =−= σ −= , 9,301257583,2 16 20 3000u n mh 995,0 =+= σ += 2987 h a 6 min < µ < 3012 h a 54 min s pravděpodobností 0,99 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných d, h a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,995;0;1) Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,995;0;1) ad b) 6,299328155,1 16 20 3000u n md 9,0 =−= σ −= 2993 h a 36 min < µ s pravděpodobností 0,9 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné d a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,9;0;1) ad c) 8,300995996,1 16 20 3000u n mh 975,0 =+= σ += 3009 h a 48 min > µ s pravděpodobností 0,95 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné h a jednom případu. Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,975;0;1) Užitečný odkaz: na adrese http://www.prevody-jednotek.cz je program, s jehož pomocí lze převádět různé fyzikální jednotky, v našem případě hodiny na minuty. Základní poznatky o testování hypotéz Předpokládáme, že testujeme nulovou hypotézu H0: h(ϑ ) = c, kde Rc∈ buď proti oboustranné alternativě H1: h(ϑ ) ≠ c nebo proti levostranné alternativě H1: h(ϑ ) < c nebo proti pravostranné alternativě H1: h(ϑ ) > c. Testování pomocí kritického oboru Najdeme testovou statistiku T0 = T0(X1, ..., Xn). Množina všech hodnot, jichž může testová statistika nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). W a V jsou odděleny kritickými hodnotami (pro danou hladinu významnosti α je lze najít ve statistických tabulkách). Jestliže číselná realizace t0 testové statistiky T0 padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti α a znamená to skutečné vyvrácení testované hypotézy. Jestliže t0 padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. Stanovení kritického oboru pro danou hladinu významnosti α: Označme tmin (resp. tmax) nejmenší (resp. největší) hodnotu testového kritéria. Kritický obor v případě oboustranné alternativy má tvar W = ( )max2/12/min t),T(K)T(K,t α−α ∪ , kde Kα/2(T) a K1-α/2(T) jsou kvantily rozložení, jímž se řídí testové kritérium T0, je-li nulová hypotéza pravdivá. Kritický obor v případě levostranné alternativy má tvar: W = ( )T(K,tmin α . Kritický obor v případě pravostranné alternativy má tvar: W = )max1 t),T(K α− . Testování pomocí intervalu spolehlivosti Sestrojíme 100(1-α)% empirický interval spolehlivosti pro parametrickou funkci h(ϑ ). Pokryje-li tento interval hodnotu c, pak H0 nezamítáme na hladině významnosti α, v opačném případě H0 zamítáme na hladině významnosti α. Pro test H0 proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. Pro test H0 proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti. Pro test H0 proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti. Testování pomocí p-hodnoty p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy: je-li p ≤ α, pak H0 zamítáme na hladině významnosti α, je-li p > α, pak H0 nezamítáme na hladině významnosti α. Způsob výpočtu p-hodnoty: Pro oboustrannou alternativu p = 2 min{P(T0 ≤ t0), P(T0 ≥ t0)}. Pro levostrannou alternativu p = P(T0 ≤ t0). Pro pravostrannou alternativu p = P(T0 ≥ t0). Příklad 3.: Víme, že výška hochů ve věku 9,5 až 10 let má normální rozložení s neznámou střední hodnotou µ a známým rozptylem σ2 = 39,112 cm2 . Dětský lékař náhodně vybral 15 hochů uvedeného věku, změřil je a vypočítal realizaci výběrového průměru m = 139,13 cm. Podle jeho názoru by výška hochů v tomto věku neměla přesáhnout 142 cm s pravděpodobností 0,95. Lze tvrzení lékaře akceptovat? Řešení: Testujeme H0: µ = 142 proti H1: µ < 142 (to je tvrzení lékaře) na hladině významnosti 0,05. a) Test provedeme pomocí kritického oboru. Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku U = n M σ µ− ~ N(0, 1). Testová statistika tedy bude T0 = n cM σ − a bude mít rozložení N(0, 1), pokud je nulová hypotéza pravdivá. Vypočítáme realizaci testové statistiky: t0 = 7773,1 15 112,39 14213,139 −= − . Stanovíme kritický obor: W = ( ( ( ( 6449,1,u,u,u, 95,005,0 −∞−=−∞−=∞−=∞− α . Protože -1,7773 ∈ W, H0 zamítáme na hladině významnosti 0,05. Tvrzení lékaře lze tedy akceptovat s rizikem omylu 5 %. Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných t0 a kvantil a jednom případu. Do Dlouhého jména proměnné t0 napíšeme =(139,13-142)/sqrt(39,112/15). Do Dlouhého jména proměnné kvantit napíšeme =VNormal (0,05;0;1). Dostaneme tabulku: 1 t0 2 kvantil 1 -1,7773482 -1,6448536 Protože se testová statistika realizuje v kritickém oboru, nulovou hypotézu zamítáme na hladině významnosti 0,05. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(1-α)% empirického pravostranného intervalu spolehlivosti pro střední hodnotu µ při známém rozptylu σ2 jsou: (-∞, h) = (-∞, m + n σ u1-α). V našem případě dostáváme: h = 139,13 + 15 112,39 u0,95 = 139,13 + 15 112,39 1,645 = 141,79. Protože 142 ∉(-∞; 141,79), H0 zamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné h a jednom případu. Do Dlouhého jména proměnné h napíšeme =139,13+sqrt(39,112/15)*VNormal(0,95;0;1) 1 h 1 141,786052 Protože číslo 142 nepatří do intervalu (-∞; 141,79), H0 zamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty p = P(T0 ≤ t0) = Φ(-1,7773) = 0,0378 Jelikož 0,0378 ≤ 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné p a jednom případu. Do Dlouhého jména proměnné p napíšeme =INormal(-1,7773;0;1) 1 p 1 0,03775945 Protože p-hodnota je menší než 0,05, H0 zamítáme na hladině významnosti 0,05.