Téma 6.: Základní pojmy matematické statistiky Vlastnosti důležitých statistik odvozených z jednorozměrného náhodného výběru: Nechť X[1], ..., X[n ]je náhodný výběr z rozložení se střední hodnotou μ, rozptylem σ^2 a distribuční funkcí Φ(x). Nechť n ≥ 2. Označme výběrový průměr, výběrový rozptyl, pro libovolné, ale pevně dané označme počet těch veličin X[1], …, X[n], které jsou ≤ x hodnotu výběrové distribuční funkce. Pak pro libovolné hodnoty parametrů μ , σ^2 a libovolné, ale pevně dané reálné číslo x platí: E(M) = μ, E(S[n]^2) = σ^2, E(F[n](x)) = Ф(x), Znamená to, že - výběrový průměr M je nestranným odhadem střední hodnoty μ, - výběrový rozptyl S^2 je nestranným odhadem rozptylu σ^2, - pro libovolné, ale pevně dané je výběrová distribuční funkce F[n](x) nestranným odhadem distribuční funkce Φ(x). Příklad 1.: Ve 12 náhodně vybraných prodejnách ve městě byly zjištěny následující ceny určitého výrobku (v Kč): 102, 99, 106, 103, 96, 98, 100, 105, 103, 98, 104, 107. Těchto 12 hodnot považujeme za realizace náhodného výběru X[1], ..., X[12] z rozložení, které má střední hodnotu μ a rozptyl σ^2. a) Určete nestranné bodové odhady neznámé střední hodnoty μ a neznámého rozptylu σ^2. b) Najděte výběrovou distribuční funkci F[12](x) a nakreslete její graf. Řešení: Vypočteme realizaci výběrového průměru Kč Vypočteme realizaci výběrového rozptylu: Kč^2 Pro usnadnění výpočtu hodnot výběrové distribuční funkce F[12](x) uspořádáme ceny podle velikosti: 96, 98, 98, 99, 100, 102, 103, 103, 104, 105, 106, 107. Číselnou osu rozdělíme na 11 intervalů a v každém intervalu stanovíme hodnotu výběrové distribuční funkce. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné (nazveme ji X) a 12 případech. Do proměnné X napíšeme zjištěné ceny. Výpočet realizace výběrového průměru a výběrového rozptylu: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – vybereme Průměr a Rozptyl – Výpočet. Dostaneme tabulku: Výpočet hodnot výběrové distribuční funkce: Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK – Možnosti – ponecháme zaškrtnuté pouze Kumulativní relativní četnosti – Výpočet. Ke vzniklé tabulce přidáme jeden případ před první případ (do sloupce Kategorie napíšeme 95) a jeden případ za poslední případ (do sloupce Kategorie napíšeme 107). Proměnnou Kumulativní rel. četnost podělíme 100: do jejího Dlouhého jména napíšeme = v2/100. Kreslení grafu výběrové distribuční funkce: Nastavíme se kurzorem na proměnnou Kumulativní rel. četnost, klikneme pravým tlačítkem – Grafy bloku dat – Spojnicový graf: celé sloupce. Ve vytvořeném grafu odstraníme značky, spojnici změníme na schodovitou a upravíme měřítko na vodorovné ose od 1 do 12. Vlastnosti důležitých statistik odvozených z dvourozměrného náhodného výběru: Nechť (X[1],Y[1]), ..., (X[n],Y[n]) je náhodný výběr z dvourozměrného rozložení s kovariancí σ[12] a koeficientem korelace ρ. Označme výběrovou kovarianci, výběrový koeficient korelace. Pak pro libovolné hodnoty parametrů σ[12 ]a ρ platí: E(S[12]) = σ[12], E(R[12]) ≈ ρ (shoda je vyhovující pro n ≥ 30). Znamená to, že výběrová kovariance S[12] je nestranným odhadem kovariance σ[12], avšak výběrový koeficient korelace R[12] je vychýleným odhadem koeficientu korelace ρ. Příklad 2.: Bylo zkoumáno 9 vzorků půdy s různým obsahem fosforu (veličina X). Hodnoty veličiny Y označují obsah fosforu v obilných klíčcích (po 38 dnech), jež vyrostly na těchto vzorcích půdy. číslo vzorku 1 2 3 4 5 6 7 8 9 X 1 4 5 9 11 13 23 23 28 Y 64 71 54 81 76 93 77 95 109 Těchto 9 dvojic hodnot považujeme za realizace náhodného výběru (X[1],Y[1]), ..., (X[9],Y[9]) z dvourozměrného rozložení s kovariancí σ[12] a koeficientem korelace ρ. Najděte bodové odhady výběrové kovariance σ[12] a výběrového koeficientu korelace ρ. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných X a Y 9 případech. Do proměnných X a Y zapíšeme zjištěné hodnoty obsafu fosforu v půdě a v obilných klíčcích. Výpočet výběrové kovariance: Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, nezávisle proměnná X – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky – Kovariance. Dostaneme tabulku: Vidíme, že výběrová kovariance veličn X, Y se realizuje hodnotou 130. (Výběrový rozptyl proměnné X resp. Y nabyl hodnoty 91,75 resp. 284,25.) Výpočet výběrového koeficientu korelace: V menu Další statistiky vybereme Korelace. Výběrový koeficient korelace veličin X, Y nabyl hodnoty 0,805, tedy mezi veličinami x, Y existuje silná přímá lineární závislost. Upozornění: Výběrový koeficient korelace lze pomocí systému STATISTICA vypočítat i jiným způsobem: Statistika – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – X, Y – OK – Výpočet. Ve výsledné tabulce máme též realizace výběrových průměrů a směrodatných odchylek. Vzorce pro meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu μ normálního rozložení při známém rozptylu σ^2: Oboustranný: , . Levostranný: . Pravostranný: . Příklad 3.: Při kontrolních zkouškách životnosti 16 žárovek byl stanoven odhad m = 3000 h střední hodnoty jejich životnosti. Z dřívějších zkoušek je známo, že životnost žárovky se řídí normálním rozložením se směrodatnou odchylkou σ = 20 h. Vypočtěte a) 99% empirický interval spolehlivosti pro střední hodnotu životnosti b) 90% levostranný empirický interval spolehlivosti pro střední hodnotu životnosti c) 95% pravostranný empirický interval spolehlivosti pro střední hodnotu životnosti. Upozornění: Výsledek zaokrouhlete na jedno desetinné místo a vyjádřete v hodinách a minutách. Řešení: ad a) , 2987 h a 6 min < μ < 3012 h a 54 min s pravděpodobností 0,99 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných d, h a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,995;0;1) Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,995;0;1) ad b) 2993 h a 36 min < μ s pravděpodobností 0,9 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné d a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,9;0;1) ad c) 3009 h a 48 min > μ s pravděpodobností 0,95 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné h a jednom případu. Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,975;0;1) Užitečný odkaz: na adrese http://www.prevody-jednotek.cz je program, s jehož pomocí lze převádět různé fyzikální jednotky, v našem případě hodiny na minuty. Základní poznatky o testování hypotéz Předpokládáme, že testujeme nulovou hypotézu H[0]: h( ) = c, kde buď proti oboustranné alternativě H[1]: h( ) c nebo proti levostranné alternativě H[1]: h( ) < c nebo proti pravostranné alternativě H[1]: h( ) > c. Testování pomocí kritického oboru Najdeme testovou statistiku T[0] = T[0](X[1], ..., X[n]). Množina všech hodnot, jichž může testová statistika nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). W aV jsou odděleny kritickými hodnotami (pro danou hladinu významnosti α je lze najít ve statistických tabulkách). Jestliže číselná realizace t[0] testové statistiky T[0] padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti α a znamená to skutečné vyvrácení testované hypotézy. Jestliže t[0] padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. Stanovení kritického oboru pro danou hladinu významnosti α: Označme t[min] (resp. t[max]) nejmenší (resp. největší) hodnotu testového kritéria. Kritický obor v případě oboustranné alternativy má tvar W = , kde K[α/2](T) a K[1-α/2](T) jsou kvantily rozložení, jímž se řídí testové kritérium T[0], je-li nulová hypotéza pravdivá. Kritický obor v případě levostranné alternativy má tvar: W = . Kritický obor v případě pravostranné alternativy má tvar: W = . Testování pomocí intervalu spolehlivosti Sestrojíme 100(1-α)% empirický interval spolehlivosti pro parametrickou funkci h( ). Pokryje-li tento interval hodnotu c, pak H[0] nezamítáme na hladině významnosti α, v opačném případě H[0] zamítáme na hladině významnosti α. Pro test H[0] proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. Pro test H[0] proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti. Pro test H[0] proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti. Testování pomocí p-hodnoty p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy: je-li p ≤ α, pak H[0] zamítáme na hladině významnosti α, je-li p > α, pak H[0] nezamítáme na hladině významnosti α. Způsob výpočtu p-hodnoty: Pro oboustrannou alternativu p = 2 min{P(T[0] ≤ t[0]), P(T[0] ≥ t[0])}. Pro levostrannou alternativu p = P(T[0] ≤ t[0]). Pro pravostrannou alternativu p = P(T[0] ≥ t[0]). Příklad 4.: Víme, že výška hochů ve věku 9,5 až 10 let má normální rozložení s neznámou střední hodnotou μ a známým rozptylem σ^2 = 39,112 cm^2. Dětský lékař náhodně vybral 15 hochů uvedeného věku, změřil je a vypočítal realizaci výběrového průměru m = 139,13 cm. Podle jeho názoru by výška hochů v tomto věku neměla přesáhnout 142 cm s pravděpodob- ností 0,95. Lze tvrzení lékaře akceptovat? Řešení: Testujeme H[0]: μ = 142 proti H[1]: μ < 142 na hladině významnosti 0,05. a) Test provedeme pomocí kritického oboru. Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku U = ~ N(0, 1). Testová statistika tedy bude T[0] = a bude mít rozložení N(0, 1), pokud je nulová hypotéza pravdivá. Vypočítáme realizaci testového kritéria: t[0] = . Stanovíme kritický obor: W = . Protože -1,7773 W, H[0] zamítáme na hladině významnosti 0,05. Tvrzení lékaře lze tedy akceptovat s rizikem omylu 5 %. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(1-α)% empirického pravostranného intervalu spolehlivosti pro střední hodnotu μ při známém rozptylu σ^2 jsou: (-∞, h) = (-∞, m + u[1-α]). V našem případě dostáváme: h = 139,13 + u[0,95] = 139,13 + 1,645 = 141,79. Protože 142 (-∞; 141,79), H[0] zamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty p = P(T[0] ≤ t[0]) = Φ(-1,7773) = 0,0378 Jelikož 0,0378 ≤ 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05. Při řešení tohoto příkladu použijeme systém STATISTICA pouze jako inteligentní kalkulátor.