Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu, kovariance a koeficientu korelace Příklad 1.: Bylo zkoumáno 9 vzorků půdy s různým obsahem fosforu (veličina X). Hodnoty veličiny Y označují obsah fosforu v obilných klíčcích (po 38 dnech), jež vyrostly na těchto vzorcích půdy. číslo vzorku 1 2 3 4 5 6 7 8 9 X 1 4 5 9 11 13 23 23 28 Y 64 71 54 81 76 93 77 95 109 Těchto 9 dvojic hodnot považujeme za realizace náhodného výběru (X[1],Y[1]), ..., (X[9],Y[9]) z dvourozměrného rozložení s kovariancí σ[12] a koeficientem korelace ρ. Najděte bodové odhady výběrové kovariance σ[12] a výběrového koeficientu korelace ρ. Sestrojte 95% interval spolehlivosti pro ρ. Výpočet pomocí systému STATISTICA: Otevřeme datový soubor fosfor.sta o dvou proměnných X a Y 9 případech. V proměnné X jsou zjištěné hodnoty obsahu fosforu v půdě a v Y v obilných klíčcích. Výpočet výběrové kovariance: Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, nezávisle proměnná X – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky – Kovariance. Dostaneme tabulku: Vidíme, že výběrová kovariance veličin X, Y se realizuje hodnotou 130. (Výběrový rozptyl proměnné X resp. Y nabyl hodnoty 91,75 resp. 284,25.) Výpočet výběrového koeficientu korelace: V menu Další statistiky vybereme Korelace. Výběrový koeficient korelace veličin X, Y nabyl hodnoty 0,805, tedy mezi veličinami x, Y existuje silná přímá lineární závislost. Upozornění: Výběrový koeficient korelace lze pomocí systému STATISTICA vypočítat i jiným způsobem: Statistika – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – X, Y – OK – Výpočet. Ve výsledné tabulce máme též realizace výběrových průměrů a směrodatných odchylek. Statistiky – Analýza síly testu – Odhad intervalu - Jedna korelace, t-test – OK – Pozorované R: 0,805, N: 15, Spolehlivost: 0,95 – Výpočetní algoritmus: zaškrtneme Fisherova Z (původní) – Vypočítat. Zjistíme, že Dolní mez = 0,4982, Horní mez = 0,9327. Znamená to, že 0,4982 < ρ < 0,9327 s pravděpodobností 0,95. Vzorce pro meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu μ normálního rozložení při známém rozptylu σ^2: Oboustranný: , . Levostranný: , pravostranný: . Příklad 2.: Při kontrolních zkouškách životnosti 16 žárovek byl stanoven odhad m = 3000 h střední hodnoty jejich životnosti. Z dřívějších zkoušek je známo, že životnost žárovky se řídí normálním rozložením se směrodatnou odchylkou σ = 20 h. Vypočtěte a) 99% empirický interval spolehlivosti pro střední hodnotu životnosti b) 90% levostranný empirický interval spolehlivosti pro střední hodnotu životnosti c) 95% pravostranný empirický interval spolehlivosti pro střední hodnotu životnosti. Upozornění: Výsledek zaokrouhlete na jedno desetinné místo a vyjádřete v hodinách a minutách. Řešení: ad a) , 2987 h a 6 min < μ < 3012 h a 54 min s pravděpodobností 0,99 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných d, h a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,995;0;1) Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,995;0;1) ad b) 2993 h a 36 min < μ s pravděpodobností 0,9 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné d a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,9;0;1) ad c) 3009 h a 48 min > μ s pravděpodobností 0,95 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné h a jednom případu. Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,975;0;1) Užitečný odkaz: na adrese http://www.prevody-jednotek.cz je program, s jehož pomocí lze převádět různé fyzikální jednotky, v našem případě hodiny na minuty. Základní poznatky o testování hypotéz Předpokládáme, že testujeme nulovou hypotézu H[0]: h( ) = c, kde buď proti oboustranné alternativě H[1]: h( ) c nebo proti levostranné alternativě H[1]: h( ) < c nebo proti pravostranné alternativě H[1]: h( ) > c. Testování pomocí kritického oboru Najdeme testovou statistiku T[0] = T[0](X[1], ..., X[n]). Množina všech hodnot, jichž může testová statistika nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). W aV jsou odděleny kritickými hodnotami (pro danou hladinu významnosti α je lze najít ve statistických tabulkách). Jestliže číselná realizace t[0] testové statistiky T[0] padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti α a znamená to skutečné vyvrácení testované hypotézy. Jestliže t[0] padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. Stanovení kritického oboru pro danou hladinu významnosti α: Označme t[min] (resp. t[max]) nejmenší (resp. největší) hodnotu testového kritéria. Kritický obor v případě oboustranné alternativy má tvar W = , kde K[α][/2](T) a K[1-α/2](T) jsou kvantily rozložení, jímž se řídí testové kritérium T[0], je-li nulová hypotéza pravdivá. Kritický obor v případě levostranné alternativy má tvar: W = . Kritický obor v případě pravostranné alternativy má tvar: W = . Testování pomocí intervalu spolehlivosti Sestrojíme 100(1-α)% empirický interval spolehlivosti pro parametrickou funkci h( ). Pokryje-li tento interval hodnotu c, pak H[0] nezamítáme na hladině významnosti α, v opačném případě H[0] zamítáme na hladině významnosti α. Pro test H[0] proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. Pro test H[0] proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti. Pro test H[0] proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti. Testování pomocí p-hodnoty p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy: je-li p ≤ α, pak H[0] zamítáme na hladině významnosti α, je-li p > α, pak H[0] nezamítáme na hladině významnosti α. Způsob výpočtu p-hodnoty: Pro oboustrannou alternativu p = 2 min{P(T[0] ≤ t[0]), P(T[0] ≥ t[0])}. Pro levostrannou alternativu p = P(T[0] ≤ t[0]). Pro pravostrannou alternativu p = P(T[0] ≥ t[0]). Příklad 3.: Víme, že výška hochů ve věku 9,5 až 10 let má normální rozložení s neznámou střední hodnotou μ a známým rozptylem σ^2 = 39,112 cm^2. Dětský lékař náhodně vybral 15 hochů uvedeného věku, změřil je a vypočítal realizaci výběrového průměru m = 139,13 cm. Podle jeho názoru by výška hochů v tomto věku neměla přesáhnout 142 cm s pravděpodob- ností 0,95. Lze tvrzení lékaře akceptovat? Řešení: Testujeme H[0]: μ = 142 proti H[1]: μ < 142 (to je tvrzení lékaře) na hladině významnosti 0,05. a) Test provedeme pomocí kritického oboru. Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku U = ~ N(0, 1). Testová statistika tedy bude T[0] = a bude mít rozložení N(0, 1), pokud je nulová hypotéza pravdivá. Vypočítáme realizaci testové statistiky: t[0] = . Stanovíme kritický obor: W = . Protože -1,7773 W, H[0] zamítáme na hladině významnosti 0,05. Tvrzení lékaře lze tedy akceptovat s rizikem omylu 5 %. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(1-α)% empirického pravostranného intervalu spolehlivosti pro střední hodnotu μ při známém rozptylu σ^2 jsou: (-∞, h) = (-∞, m + u[1-α]). V našem případě dostáváme: h = 139,13 + u[0,95] = 139,13 + 1,645 = 141,79. Protože 142 (-∞; 141,79), H[0] zamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty p = P(T[0] ≤ t[0]) = Φ(-1,7773) = 0,0378 Jelikož 0,0378 ≤ 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05. Při řešení tohoto příkladu použijeme systém STATISTICA pouze jako inteligentní kalkulátor.