Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu Příklad 1.: Postupně se zkouší spolehlivost čtyř přístrojů. Další se zkouší jen tehdy, když předchozí je spolehlivý. Každý z přístrojů vydrží zkoušku s pravděpodobností 0,8. Náhodná veličina X udává počet zkoušených přístrojů. Vypočtěte střední hodnotu a rozptyl náhodné veličiny X. Řešení: X nabývá hodnot 1, 2, 3, 4 a její pravděpodobnostní funkce je: π(1) = 0,2, π(2) = 0,8*0,2 = 0,16, π(3) = 0,8^2*0,2 = 0,128, π(4) = 0,8^3*0,2 + 0,84 = 0,512, π(x) = 0 jinak E(X) = 1*0,2 + 2*0,16 + 3*0,128 + 4*0,512 = 2,952 D(X) = 1^2*0,2 + 2^2*0,16 + 3^2*0,128 + 4^2*0,512 – 2,952^2 = 1,4697 Postup ve STATISTICE: Otevřeme nový datový soubor o dvou proměnných X a cetnost a čtyřech případech. Do proměnné X napíšeme 1, 2, 3, 4, do proměnné cetnost napíšeme 200, 160, 128, 512. Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – zavedeme proměnnou vah cetnost – OK - Proměnné X – OK – Detailní výsledky - zaškrtneme Průměr, Rozptyl – Výpočet. Rozptyl však musíme upravit, musíme ho vynásobit číslem 999/1000. Do výstupní tabulky tedy přidáme za proměnnou Rozptyl novou proměnnou a do jejího Dlouhého jména napíšeme =v3*999/1000 Příklad 2. (k samostatnému řešení): Náhodná veličina X udává počet ok při hodu kostkou. Pomocí systému STATISTICA vypočtěte její střední hodnotu a rozptyl. Výsledek: E(X) = 3,5, D(X) = 2,9167 Příklad 3.: Ve 12 náhodně vybraných prodejnách ve městě byly zjištěny následující ceny určitého výrobku (v Kč): 102, 99, 106, 103, 96, 98, 100, 105, 103, 98, 104, 107. Těchto 12 hodnot považujeme za realizace náhodného výběru X[1], ..., X[12] z rozložení, které má střední hodnotu μ a rozptyl σ^2. Určete nestranné bodové odhady neznámé střední hodnoty μ a neznámého rozptylu σ^2. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné (nazveme ji X) a 12 případech. Do proměnné X napíšeme zjištěné ceny. Výpočet realizace výběrového průměru a výběrového rozptylu: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – vybereme Průměr a Rozptyl – Výpočet. Dostaneme tabulku: Příklad 4.: Bylo zkoumáno 9 vzorků půdy s různým obsahem fosforu (veličina X). Hodnoty veličiny Y označují obsah fosforu v obilných klíčcích (po 38 dnech), jež vyrostly na těchto vzorcích půdy. číslo vzorku 1 2 3 4 5 6 7 8 9 X 1 4 5 9 11 13 23 23 28 Y 64 71 54 81 76 93 77 95 109 Těchto 9 dvojic hodnot považujeme za realizace náhodného výběru (X[1],Y[1]), ..., (X[9],Y[9]) z dvourozměrného rozložení s kovariancí σ[12] a koeficientem korelace ρ. Najděte bodové odhady výběrové kovariance σ[12] a výběrového koeficientu korelace ρ. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných X a Y 9 případech. Do proměnných X a Y zapíšeme zjištěné hodnoty obsafu fosforu v půdě a v obilných klíčcích. Výpočet výběrové kovariance: Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, nezávisle proměnná X – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky – Kovariance. Dostaneme tabulku: Vidíme, že výběrová kovariance veličn X, Y se realizuje hodnotou 130. (Výběrový rozptyl proměnné X resp. Y nabyl hodnoty 91,75 resp. 284,25.) Výpočet výběrového koeficientu korelace: V menu Další statistiky vybereme Korelace. Výběrový koeficient korelace veličin X, Y nabyl hodnoty 0,805, tedy mezi veličinami x, Y existuje silná přímá lineární závislost. Upozornění: Výběrový koeficient korelace lze pomocí systému STATISTICA vypočítat i jiným způsobem: Statistika – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – X, Y – OK – Výpočet. Ve výsledné tabulce máme též realizace výběrových průměrů a směrodatných odchylek. Vzorce pro meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu μ normálního rozložení při známém rozptylu σ^2: Oboustranný: , . Levostranný: . Pravostranný: . Příklad 5.: Při kontrolních zkouškách životnosti 16 žárovek byl stanoven odhad m = 3000 h střední hodnoty jejich životnosti. Z dřívějších zkoušek je známo, že životnost žárovky se řídí normálním rozložením se směrodatnou odchylkou σ = 20 h. Vypočtěte a) 99% empirický interval spolehlivosti pro střední hodnotu životnosti b) 90% levostranný empirický interval spolehlivosti pro střední hodnotu životnosti c) 95% pravostranný empirický interval spolehlivosti pro střední hodnotu životnosti. Upozornění: Výsledek zaokrouhlete na jedno desetinné místo a vyjádřete v hodinách a minutách. Řešení: ad a) , 2987 h a 6 min < μ < 3012 h a 54 min s pravděpodobností 0,99 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných d, h a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,995;0;1) Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,995;0;1) ad b) 2993 h a 36 min < μ s pravděpodobností 0,9 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné d a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,9;0;1) ad c) 3009 h a 48 min > μ s pravděpodobností 0,95 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné h a jednom případu. Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,975;0;1) Užitečný odkaz: na adrese http://www.prevody-jednotek.cz je program, s jehož pomocí lze převádět různé fyzikální jednotky, v našem případě hodiny na minuty. Základní poznatky o testování hypotéz Předpokládáme, že testujeme nulovou hypotézu H[0]: h( ) = c, kde buď proti oboustranné alternativě H[1]: h( ) c nebo proti levostranné alternativě H[1]: h( ) < c nebo proti pravostranné alternativě H[1]: h( ) > c. Testování pomocí kritického oboru Najdeme testovou statistiku T[0] = T[0](X[1], ..., X[n]). Množina všech hodnot, jichž může testová statistika nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). W aV jsou odděleny kritickými hodnotami (pro danou hladinu významnosti α je lze najít ve statistických tabulkách). Jestliže číselná realizace t[0] testové statistiky T[0] padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti α a znamená to skutečné vyvrácení testované hypotézy. Jestliže t[0] padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. Stanovení kritického oboru pro danou hladinu významnosti α: Označme t[min] (resp. t[max]) nejmenší (resp. největší) hodnotu testového kritéria. Kritický obor v případě oboustranné alternativy má tvar W = , kde K[α][/2](T) a K[1-α/2](T) jsou kvantily rozložení, jímž se řídí testové kritérium T[0], je-li nulová hypotéza pravdivá. Kritický obor v případě levostranné alternativy má tvar: W = . Kritický obor v případě pravostranné alternativy má tvar: W = . Testování pomocí intervalu spolehlivosti Sestrojíme 100(1-α)% empirický interval spolehlivosti pro parametrickou funkci h( ). Pokryje-li tento interval hodnotu c, pak H[0] nezamítáme na hladině významnosti α, v opačném případě H[0] zamítáme na hladině významnosti α. Pro test H[0] proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. Pro test H[0] proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti. Pro test H[0] proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti. Testování pomocí p-hodnoty p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy: je-li p ≤ α, pak H[0] zamítáme na hladině významnosti α, je-li p > α, pak H[0] nezamítáme na hladině významnosti α. Způsob výpočtu p-hodnoty: Pro oboustrannou alternativu p = 2 min{P(T[0] ≤ t[0]), P(T[0] ≥ t[0])}. Pro levostrannou alternativu p = P(T[0] ≤ t[0]). Pro pravostrannou alternativu p = P(T[0] ≥ t[0]). Příklad 6.: Víme, že výška hochů ve věku 9,5 až 10 let má normální rozložení s neznámou střední hodnotou μ a známým rozptylem σ^2 = 39,112 cm^2. Dětský lékař náhodně vybral 15 hochů uvedeného věku, změřil je a vypočítal realizaci výběrového průměru m = 139,13 cm. Podle jeho názoru by výška hochů v tomto věku neměla přesáhnout 142 cm s pravděpodob- ností 0,95. Lze tvrzení lékaře akceptovat? Řešení: Testujeme H[0]: μ = 142 proti H[1]: μ < 142 (to je tvrzení lékaře) na hladině významnosti 0,05. a) Test provedeme pomocí kritického oboru. Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku U = ~ N(0, 1). Testová statistika tedy bude T[0] = a bude mít rozložení N(0, 1), pokud je nulová hypotéza pravdivá. Vypočítáme realizaci testové statistiky: t[0] = . Stanovíme kritický obor: W = . Protože -1,7773 W, H[0] zamítáme na hladině významnosti 0,05. Tvrzení lékaře lze tedy akceptovat s rizikem omylu 5 %. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(1-α)% empirického pravostranného intervalu spolehlivosti pro střední hodnotu μ při známém rozptylu σ^2 jsou: (-∞, h) = (-∞, m + u[1-α]). V našem případě dostáváme: h = 139,13 + u[0,95] = 139,13 + 1,645 = 141,79. Protože 142 (-∞; 141,79), H[0] zamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty p = P(T[0] ≤ t[0]) = Φ(-1,7773) = 0,0378 Jelikož 0,0378 ≤ 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05. Při řešení tohoto příkladu použijeme systém STATISTICA pouze jako inteligentní kalkulátor.