Téma 7.: Aplikace Moivreovy - Laplaceovy věty. Základní pojmy matematické statistiky. Moivreova - Laplaceova věta tvrdí, že za určitých podmínek lze binomické rozložení aproximovat standardizovaným normálním rozložením. Aproximace se považuje za vyhovující, když jsou splněny podmínky: Na základě Moivreovy – Laplaceovy věty se používá aproximativní vzorec, který složitý výpočet distribuční funkce binomického rozložení nahrazuje jednoduchým hledáním v tabulkách hodnot distribuční funkce standardizovaného normálního rozložení. Máme náhodnou veličinuY[n] ~ Bi(n, J). Pak pravděpodobnostní funkce pro y = 0, 1, …, n, distribuční funkce - složitý výpočet Aproximativní vzorec: . Příklad 1.: Pravděpodobnost úspěchu při jednom pokusu je 0,3. S jakou pravděpodobností lze tvrdit, že počet úspěchů ve 100 pokusech bude v mezích od 20 do 40? Řešení: Y[100] – počet úspěchů v posloupnosti n = 100 opakovaných nezávislých pokusů, pravděpodobnost úspěchu J = 0,3, Y[100] ~ Bi(100, 0,3), E(Y[100]) = = 30, D(Y[100]) = = 21. Vidíme, že podmínky dobré aproximace jsou splněny, protože Aproximativní výpočet: Postup ve STATISTICE: Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do dlouhého jména této proměnné napíšeme =INormal(10/sqrt(21);0;1)- INormal(-11/sqrt(21);0;1) OK. (Funkce INormal(x;mu;sigma) poskytuje hodnotu distribuční funkce v bodě x normálního rozložení se střední hodnotou mu a směrodatnou odchylkou sigma.) Dostaneme výsledek 0,977263. Přesný výpočet: Postup ve STATISTICE: Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do Dlouhého jména této proměnné napíšeme =IBinom(40;0,3;100)- IBinom(19;0.3;100) – viz Téma 4, 1a) 4. položka. (Funkce IBinom(x;p;n) poskytuje hodnotu distribuční funkce v bodě x binomického rozložení s parametry p a n.) Příklad 2.: Pravděpodobnost, že zakoupený elektrospotřebič bude vyžadovat opravu během záruční doby, je rovna 0,2. Jaká je pravděpodobnost, že během záruční doby bude nutno ze 400 prodaných spotřebičů opravit více než 96? Řešení: n = 400, J = 0,2, úspěch je nutnost opravy v záruční době nJ = 80, nJ(1-J) = 64 aproximativní výpočet: P(Y[400] > 96) » 1 - INormal(16/8;0;1) = 0,022750 přesný výpočet: P(Y[400] > 96) = 1 – IBinom(96;0,2;400) = 0,021389 Příklad 3.: Pravděpodobnost narození chlapce je 0,515. Jaká je pravděpodobnost, že mezi 10 000 novorozenci bude a) stejně nebo více děvčat než chlapců b) chlapců od 5000 do 5300? Řešení: n = 10000, J = 0,515, úspěch je narození chlapce nJ = 5150, nJ(1-J) = 2497,75 Úkol (a) aproximativní výpočet: P(Y[10000 ]≤ 5000) » INormal(-150/sqrt(2497,75);0;1) = 0,001344 přesný výpočet: P(Y[10000 ]≤ 5000) = IBinom(5000;0,515;10000) = 0,001391 Úkol (b) aproximativní výpočet: P(4999 < Y[10000 ] ≤ 5300) » INormal(150/sqrt(2497,75);0;1) -INormal(-151/sqrt(2497,75);0;1) = 0,997399 přesný výpočet: P(4999 < Y[10000 ] ≤ 5300) = IBinom(5300;0;1) – IBinom(4999;0;1) = 0,997400 Příklad 4.: Pravděpodobnost, že určitý typ výrobku má výrobní vadu, je 0,05. Jaká je pravděpodobnost, že ze série 1000 výrobků bude mít výrobní vadu nejvýše 70? Řešení: n = 1000, J = 0,05, úspěch je zhotovení vadného výrobku nJ = 50, nJ(1-J) = 47,5 aproximativní výpočet: P(Y[1000 ]≤ 70) » INormal(20/sqrt(47,5);0;1) = 0,998145 přesný výpočet: P(Y[1000 ]≤ 70) = IBinom(70;0,05;1000) = 0,997670 Vlastnosti důležitých statistik odvozených z jednorozměrného náhodného výběru: Nechť X[1], ..., X[n ]je náhodný výběr z rozložení se střední hodnotou μ, rozptylem σ^2 a distribuční funkcí Φ(x). Nechť n ≥ 2. Označme výběrový průměr, výběrový rozptyl, pro libovolné, ale pevně dané označme počet těch veličin X[1], …, X[n], které jsou ≤ x hodnotu výběrové distribuční funkce. Pak pro libovolné hodnoty parametrů μ , σ^2 a libovolné, ale pevně dané reálné číslo x platí: E(M) = μ, E(S[n]^2) = σ^2, E(F[n](x)) = Ф(x), Znamená to, že M je nestranným odhadem μ, S^2 je nestranným odhadem σ^2, pro libovolné, ale pevně dané je výběrová distribuční funkce F[n](x) nestranným odhadem Φ(x). Příklad 5.: Ve 12 náhodně vybraných prodejnách ve městě byly zjištěny následující ceny určitého výrobku (v Kč): 102, 99, 106, 103, 96, 98, 100, 105, 103, 98, 104, 107. Těchto 12 hodnot považujeme za realizace náhodného výběru X[1], ..., X[12] z rozložení, které má střední hodnotu μ a rozptyl σ^2. Určete nestranné bodové odhady neznámé střední hodnoty μ a neznámého rozptylu σ^2. Řešení: Vypočteme realizaci výběrového průměru Kč Vypočteme realizaci výběrového rozptylu: Kč^2 Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné (nazveme ji X) a 12 případech. Do proměnné X napíšeme zjištěné ceny. Statistika – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – vybereme Průměr a Rozptyl – Výpočet. Dostaneme tabulku: Vlastnosti důležitých statistik odvozených z dvourozměrného náhodného výběru: Nechť (X[1],Y[1]), ..., (X[n],Y[n]) je náhodný výběr z dvourozměrného rozložení s kovariancí σ[12] a koeficientem korelace ρ. Označme výběrovou kovarianci a výběrový koeficient korelace. Pak pro libovolné hodnoty parametrů σ[12 ]a ρ platí: E(S[12]) = σ[12], E(R[12]) ≈ ρ (shoda je vyhovující pro n ≥ 30). Znamená to, že výběrová kovariance S[12] je nestranným odhadem kovariance σ[12], avšak výběrový koeficient korelace R[12] je vychýleným odhadem koeficientu korelace ρ. Příklad 6.: Bylo zkoumáno 9 vzorků půdy s různým obsahem fosforu (veličina X). Hodnoty veličiny Y označují obsah fosforu v obilných klíčcích (po 38 dnech), jež vyrostly na těchto vzorcích půdy. číslo vzorku 1 2 3 4 5 6 7 8 9 X 1 4 5 9 11 13 23 23 28 Y 64 71 54 81 76 93 77 95 109 Těchto 9 dvojic hodnot považujeme za realizace náhodného výběru (X[1],Y[1]), ..., (X[9],Y[9]) z dvourozměrného rozložení s kovariancí σ[12] a koeficientem korelace ρ. Najděte bodové odhady kovariance σ[12] a koeficientu korelace ρ. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných X a Y 9 případech. Do proměnných X a Y zapíšeme zjištěné hodnoty obsafu fosforu v půdě a v obilných klíčcích. Výpočet výběrové kovariance: Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, nezávisle proměnná X – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky – Kovariance. Dostaneme tabulku: Vidíme, že výběrová kovarince veličn X, Y se realizuje hodnotou 130. (Výběrový rozptyl proměnné X resp. Y nabyl hodnoty 91,75 resp. 284,25.) Výpočet výběrového koeficientu korelace: V menu Další statistiky vybereme Korelace. Výběrový koeficient korelace veličin X, Y nabyl hodnoty 0,805, tedy mezi veličinami x, Y existuje silná ořímá lineární závislost. Upozornění: Výběrový koeficient korelace lze pomocí systému STATISTICA vypočítat i jiným způsobem: Statistika – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – X, Y – OK – Výpočet. Ve výsledné tabulce máme též realizace výběrových průměrů a směrodatných odchylek. Vzorce pro meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu μ při známém rozptylu σ^2: Oboustranný: , . Levostranný: . Pravostranný: . Příklad 7.: Při kontrolních zkouškách životnosti 16 žárovek byl stanoven odhad m = 3000 h střední hodnoty jejich životnosti. Z dřívějších zkoušek je známo, že životnost žárovky se řídí normálním rozložením se směrodatnou odchylkou σ = 20 h. Vypočtěte a) 99% empirický interval spolehlivosti pro střední hodnotu životnosti b) 90% levostranný empirický interval spolehlivosti pro střední hodnotu životnosti c) 95% pravostranný empirický interval spolehlivosti pro střední hodnotu životnosti. Upozornění: Výsledek zaokrouhlete na jedno desetinné místo a vyjádřete v hodinách a minutách. Řešení: ad a) , 2987 h a 6 min < μ < 3012 h a 54 min s pravděpodobností aspoň 0,99 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných d, h a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,995;0;1) Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,995;0;1) ad b) 2993 h a 36 min < μ s pravděpodobností aspoň 0,9 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné d a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,9;0;1) ad c) 3009 h a 48 min > μ s pravděpodobností aspoň 0,95 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné h a jednom případu. Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,975;0;1) Užitečný odkaz: na adrese http://www.prevody-jednotek.cz je program, s jehož pomocí lze převádět různé fyzikální jednotky, v našem případě hodiny na minuty.