Cvičení 5.: Bayesův vzorec, příklady na normální rozložení, výpočet číselných charakteristik Bayesův vzorec Jevy H[1], …, H[n ]tvoří úplný systém hypotéz, tj. navzájem se vylučují a přitom vyčerpávají všechny možnosti. Jev A s hypotézami nesouvisí. Počítáme pravděpodobnost některé hypotézy za podmínky, že nastal jev A: , k = 1, …, n, kde . Vzorový příklad: U jistého druhu elektrického spotřebiče se s pravděpodobností 0,01 vyskytuje výrobní vada. U spotřebiče s touto výrobní vadou dochází v záruční lhůtě k poruše s pravděpodobností 0,5. Výrobky, které tuto vadu nemají, se v záruční lhůtě porouchají s pravděpodobností 0,01. Jaká je pravděpodobnost, že výrobek, který se v záruční lhůtě porouchá, bude mít dotyčnou výrobní vadu? Řešení: H[1] - výrobek má dotyčnou výrobní vadu H[2] - výrobek nemá tuto výrobní vadu A - výrobek se v záruční době porouchá Pak je: P(H[1]) = 0,01, P(H[2]) = 0,99, P(A/H[1]) = 0,5, P(A/H[2]) = 0,01 P(A) = P(H[1]).P(A/H[1]) + P(H[2]).P(A/H[2]) = 0,01.0,5 + 0,99.0,01 = 0,0149 Příklady k samostatnému řešení: 1. Ve společnosti je 45% mužů a 55% žen. Výšku nad 190 cm má 5% mužů a 1% žen. Náhodně vybraná osoba je vyšší než 190 cm. Jaká je pravděpodobnost, že je to žena? Návod: A … osoba měří více než 190 cm, H[1] … osoba je žena, H[2] … osoba je muž. Počítáme P(H[1]/A). Výsledek: 0,1964 2. Potřebu smrkových sazenic kryje lesní závod produkcí dvou školek. První školka kryje 75% výsadby, přičemž ze 100 sazenic je 80 první jakosti. Druhá školka kryje výsadbu z 25%, přičemž na 100 sazenic připadá 60 první jakosti. Jaká je pravděpodobnost, že náhodně vybraná sazenice první jakosti pochází z produkce první školky? Návod: A … sazenice je 1. jakosti, H[1] … sazenice pochází z 1. školky, H[2] … sazenice pochází z 2. školky. Počítáme P(H[1]/A). Výsledek: 0,8 Příklady na normální rozložení Náhodná veličina X ~ N(μ, σ^2) má hustotu . Pro μ = 0, σ^2 = 1 se jedná o standardizované normální rozložení, píšeme U ~ N(0, 1). Hustota pravděpodobnosti má v tomto případě tvar φ(u) = . Použití systému STATISTICA pro výpočet distribuční funkce: První možnost: Ve volbě Rozdělení vybereme Z (Normální), do okénka průměr napíšeme hodnotu μ a do okénka Sm. Odch. napíšeme hodnotu σ. Hodnotu distribuční funkce v bodě x zjistíme tak, že do okénka označeného X napíšeme dané x a po kliknutí na Výpočet se v okénku p objeví hodnota disriubuční funkce. Druhá možnost: Výpočet hodnoty distribuční funkce pomocí funkcí implementovaných v položce „Dlouhé jméno“: Otevřeme nový datový soubor o jedné proměnné a jednom případu. V položce „Dlouhé jméno“ této proměnné použijeme funkci INormal(x;mu;sigma). Příklad 1.: Výsledky u přijímacích zkoušek na jistou VŠ jsou normálně rozloženy s parametry μ = 550 bodů, σ = 100 bodů. S jakou pravděpodobností bude mít náhodně vybraný uchazeč aspoň 600 bodů? Řešení: X – výsledek náhodně vybraného uchazeče, X ~ N(550, 100^2), P(X ≥ 600) = 1 – P(X ≤ 600) + P(X = 600) = 1 – P(X ≤ 600) = 1 – P = 1 - P = 1 – Φ(0,5) = 1 – 0,69146 = 0,30854. Návod na výpočet pomocí systému STATISTICA: První možnost: Do okénka průměr napíšeme 550, do okénka Sm. Odch. napíšeme 100, do okénka X napíšeme 600, zaškrtneme 1-Kumul. p a v okénku p se objeví 0,308538. Druhá možnost: Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do dlouhého jména této proměnné napíšeme =1-INormal(600;550;100). Dostaneme 0,3085. Příklad 2: Životnost baterie v hodinách je náhodná veličina, která má normální rozložení se střední hodnotou 300 hodin a směrodatnou odchylkou 35 hodin. Jaká je pravděpodobnost, že náhodně vybraná baterie bude mít životnost a) aspoň 320 hodin? b) nejvýše 310 hodin? Výsledek: ad a) ad b) Příklad 3.: Na výrobní lince jsou automaticky baleny balíčky rýže o deklarované hmotnosti 1000 g. Působením náhodných vlivů hmotnost balíčků kolísá. Lze ji považovat za náhodnou veličinu, která se řídí normálním rozložením se střední hodnotou 996 g a směrodatnou odchylkou 18 g. Jaká je pravděpodobnost, že náhodně vybraný balíček rýže neprojde výstupní kontrolou, jestliže je povolená tolerance g od deklarované hmotnosti 1000 g? Výsledek: Výpočet kvantilů Příklad 1.: Nechť U ~ N(0, 1). Najděte medián a horní a dolní kvartil. Návod na výpočet pomocí systému STATISTICA: První možnost: Do okénka průměr napíšeme 0, do okénka Sm. Odch. napíšeme 1, do okénka p napíšeme pro medián 0,5, pro dolní kvartil 0,25 a pro horní kvartil 0,75. V okénku X se objeví 0 pro medián, -0,67449 pro dolní kvartil a 0,67449 pro horní kvartil. Ilustrace pro horní kvartil: Šedá plocha pod grafem hustoty má velikost 0,75 a hodnota distribuční funkce v bodě 0,67449 je 0,75 (značeno šrafovaně). Druhá možnost: Otevřeme nový datový soubor o třech proměnné a jednom případu. Do dlouhého jména první proměnné napíšeme =VNormal(0,5;0;1). Dostaneme 0. Do dlouhého jména druhé proměnné napíšeme =VNormal(0,25;0;1). Dostaneme -0,67449. Do dlouhého jména třetí proměnné napíšeme =VNormal(0,75;0;1). Dostaneme 0,67449. Příklad 2.: Nechť X ~ N(3, 5). Najděte dolní kvartil. Návod na výpočet pomocí systému STATISTICA: První možnost: Do okénka průměr napíšeme 3, do okénka Sm. Odch. napíšeme 2,236, do okénka p napíšeme 0,25 a v okénku X se objeví 1,4918. Druhá možnost: Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do dlouhého jména této proměnné napíšeme =VNormal(0,25;3;sqrt(5)). Dostaneme 1,491795. Pearsonovo rozložení chí-kvadrát s n stupni volnosti χ^2(n) Nechť X[1], ..., X[n ]jsou stochasticky nezávislé náhodné veličiny, X[i ]~ N(0, 1), i = 1, ..., n. Pak náhodná veličina X = X[1]^2 + ... + X[n]^2 ~ χ^2(n). Příklad 3.: Určete χ^2[0,025](25). Návod na výpočet pomocí systému STATISTICA: První možnost: Do okénka sv. napíšeme 25 a do okénka p napíšeme 0,025. V okénku Chi 2 se objeví 13,11972. Šedá plocha pod grafem hustoty má velikost 0,025 a hodnota distribuční funkce v bodě 13,11972 je 0,025 (značeno šrafovaně). Druhá možnost: Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do dlouhého jména této proměnné napíšeme =VChi2(0,025;25). Dostaneme 13,1197. Studentovo rozložení s n stupni volnosti t(n) Nechť X[1], X[2 ]jsou stochasticky nezávislé náhodné veličiny, X[1 ]~ N(0, 1), X[2] ~ χ^2(n). Pak náhodná veličina X = ~ t(n). Příklad 4.: Určete t[0,99](30) a t[0,05](14). Návod na výpočet pomocí systému STATISTICA: První možnost: Do okénka sv. napíšeme 30 (resp. 14) a do okénka p napíšeme 0,99 (resp. 0,05). V okénku t se objeví 2,457262 (resp. -1,761310). Ilustrace pro t[0,05](14): Šedá plocha pod grafem hustoty má velikost 0,05 a hodnota distribuční funkce v bodě -1,76131 je 0,05 (značeno šrafovaně). Druhá možnost: Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do dlouhého jména této proměnné napíšeme =VStudent(0,99;30) (resp. VStudent(0,05;14)). Dostaneme 2,457262 (resp. -1,76131). Fisherovo-Snedecorovo rozložení s n[1] a n[2] stupni volnosti F(n[1], n[2]) Nechť X[1], ..., X[n ]jsou stochasticky nezávislé náhodné veličiny, X[i ]~ χ^2(n[i]), i = 1, 2. Pak náhodná veličina X = ~ F(n[1], n[2]). Příklad 5.: Určete F[0,975](5, 20) a F[0,05](2, 10). Návod na výpočet pomocí systému STATISTICA: První možnost: Do okénka sv1 napíšeme 5 (resp. 2), do okénka sv2 napíšeme 20 (resp. 10) a do okénka p napíšeme 0,975 (resp. 0,05). V okénku F se objeví 3,289056 (resp. 0,05156). Ilustrace pro F[0,975](5, 20): Šedá plocha pod grafem hustoty má velikost 0,975 a hodnota distribuční funkce v bodě 3,289056 je 0,975 (značeno šrafovaně). Druhá možnost: Otevřeme nový datový soubor o jedné proměnné a dvou případech Do dlouhého jména první proměnné napíšeme =VF(0,975;5;20), do dlouhého jména druhé proměnné napíšeme =VF(0,05;2;10).Dostaneme 3,2891 (resp. 0,05156). Výpočet střední hodnoty a rozptylu Příklad 1.: Postupně se zkouší spolehlivost čtyř přístrojů. Další se zkouší jen tehdy, když předchozí je spolehlivý. Každý z přístrojů vydrží zkoušku s pravděpodobností 0,8. Náhodná veličina X udává počet zkoušených přístrojů. Vypočtěte střední hodnotu a rozptyl náhodné veličiny X. Řešení: X nabývá hodnot 1, 2, 3, 4 a její pravděpodobnostní funkce je: π(1) = 0,2, π(2) = 0,8*0,2 = 0,16, π(3) = 0,82*0,2 = 0,128, π(4) = 0,83*0,2 + 0,84 = 0,512, π(0) = 0 jinak E(X) = 1*0,2 + 2*0,16 + 3*0,128 + 4*0,512 = 2,952 D(X) = 1^2*0,2 + 2^2*0,16 + 3^2*0,128 + 4^2*0,512 – 2,952^2 = 1,4697 Postup ve STATISTICE: Otevřeme nový datový soubor o dvou proměnných X a cetnost a čtyřech případech. Do proměnné X napíšeme 1, 2, 3, 4, do proměnné cetnost napíšeme 200, 160, 128, 512. Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – zavedeme proměnnou vah cetnost – OK - Proměnné X – OK – Detailní výsledky - zaškrtneme Průměr, Rozptyl – Výpočet. Rozptyl však musíme upravit, musíme ho přenásobit číslem 999/1000. Do výstupní tabulky tedy přidáme za proměnnou Rozptyl novou proměnnou a do jejího Dlouhého jména napíšeme =v3*999/1000 Příklad 2.: Náhodná veličina X udává počet ok při hodu kostkou. Pomocí systému STATISTICA vypočtěte její střední hodnotu a rozptyl. Výsledek: E(X) = 3,5, D(X) = 2,9167 Příklad 3.: Náhodná veličina X udává příjem manžela (v tisících dolarů) a náhodná veličina Y příjem manželky (v tisících dolarů. Je známa simultánní pravděpodobnostní funkce π(x,y) diskrétního náhodného vektoru (X,Y): π(10,10) = 0,2, π(10,20) = 0,04, π(10,30) = 0,01, π(10,40) = 0, π(20,10) = 0,1, π(20,20) = 0,36, π(20,30) = 0,09, π(20,40) = 0, π(30,10) = 0, π(30,20) = 0,05, π(30,30) = 0,1, π(30,40) = 0, π(40,10) = 0, π(40,20) = 0, π(40,30) = 0, π(40,40) = 0,05, π(x,y) = 0 jinak. Vypočtěte koeficient korelace příjmů manžela a manželky. Postup ve STATISTICE: Vytvoříme nový datový soubor o třech proměnných X, Y, cetnost a 16 případech. Do proměnné X napíšeme 10, 10, 10, 10, 20, 20, 20, 20, 30, 30, 30, 30, 40, 40, 40, 40, do proměnné Y 4x pod sebe 10, 20, 30, 40 a do proměnné cetnost 20, 4, 1, 0, 10, 36, 9, 0, 0, 5, 10, 0, 0, 0, 0, 5. Statistiky - Základní statistiky/tabulky – zavedeme proměnnou vah cetnost – OK - Korelační matice – OK – 1 seznam proměnných – X, Y – OK.