4 Diskrétní a spojité náhodné veličiny 4.1 Binomické rozdělení Bin(iV, p) • Bernoulliho pokusy X\,..., : — Xi = 1 ... událost nastala; Xi = 0... událost nenastala; i = 1,..., N. — Pr(X2 = 1) = p — Pr(Xl = 0) = l-p = q • Binomické rozdělení: — X... počet událostí v posloupnosti TV nezávislých Bernoulliho pokusů, přičemž pravděpodobnost nastání události v každém pokusu je vyjádřena parametrem p. ~ E,"i*i = X~mn(N,p). -6 = (N,p) — pravděpodobnostní funkce: p(x) = (^jpx(l-p)N-x x = 0,1,..., N; — vlastnosti: E[X] = Np; Var[X] = Np(l - p) — dbinom(x, N, p), pbinom(x, N, p) Dataset 1: Počet chlapců v rodinách s 12 dětmi V rámci studie poměru pohlaví u lidí z roku 1889 bylo na základě záznamů z nemocnic v Sasku zaznamenáno rozdělení počtu chlapců v čtrnáctičlenných rodinách. Mezi M = 6115 rodinami a N = 12 dětmi byla pozorována početnost chlapců. Údaje ze studie jsou uvedeny v následující tabulce. _n_|| 0 1 2 3 4 5 6 7 8 9 10 11 12 || ]T mobserved || 3 24 1Ô4 286 670 1Ô33 1343 1112 829 478 181 45 7 II 6115 Příklad 4.1. Výpočet parametru p binomického modelu Vezměte údaje z datasetu 1. Předpokládejme, že náhodná veličina X popisující počet chlapců v rodinách s dvanácti dětmi pochází z binomického rozdělení s parametrem TV = 12. Vypočítejte odhad pravděpodobnosti výskytu chlapců v rodinách s dvanácti dětmi. Řešení příkladu 4.1 Pravděpodobnost p výskytu chlapců v rodinách s dvanácti dětmi odhadneme pomocí vzorce počet narozených chlapců J2n-onmobserved p=------ =--—--. Mj celkový počet narozených dětí N M [1] 0.5192 1 Interpretace výsledků: Pravděpodobnost výskytu chlapců v rodinách s dvanácti dětmi je .............................. (..............................%)• 1 Příklad 4.2. Pozorované a očekávané početnosti v binomickém modelu Za předpokladu, že počet chlapců v rodinách s dvanácti dětmi pochází z binomického rozdělení s parametry TV = ............................. a p = ............................. odhadněte očekávané početnosti chlapců v rodinách s dvanácti dětmi a porovnejte je s pozorovanými početnostmi. Řešení příkladu 4.2 0 1 2 3 4 5 6 7 8 9 10 11 12 m . obs 3 24 104 286 670 1033 1343 1112 829 478 181 45 7 m . exp 1 12 72 259 628 1085 1367 1266 854 410 133 26 2 1200 % iooo H o oS 800 - 0 1 600 1 400 H a 200 0 pozorované očekávané 10 počet starších sourozenců Obrázek 1: Porovnání pozorovaných a očekávaných početností v Poissonově modelu Příklad 4.3. Výpočet pravděpodobností za předpokladu binomického modelu Za předpokladu, že náhodná veličina X popisující počet chlapců v rodinách s dvanácti dětmi pochází z binomického rozdělení s parametry TV = ............................. a p = ............................. vypočítejte pravděpodobnost, že v rodině s dvanácti dětmi bude a. právě devět chlapců, b. nejvýše čtyři chlapci, c. alespoň osm chlapců, d. čtyři, pět, šest, nebo sedm chlapců. Řešení příkladu 4.3 [1] 0 067 [1] 0 1589 [1] 0 2331 [1] 0 7108 Interpretace výsledků: Pravděpodobnost, že v rodině bude právě devět chlapců, je .............................%. Pravděpodobnost, že v rodině budou nejvýše čtyři chlapci, je .............................%. Pravděpodobnost, že v rodině bude alespoň osm chlapců, je.............................%. Pravděpodobnost, že v rodině bude čtyři, pět, šest, nebo sedm chlapců, je.............................%. 2 Příklad 4.4. Graf pravděpodobnostní a distribuční funkce binomického modelu Nakreslete graf pravděpodobnostní funkce a graf distribuční funkce binomického rozdělení Bin(iV,p), kde N = 12 ap = 0.5192. Řešení příkladu 4.4 o.o - N = 12. d = 0.5192 N = 12. d =0.5192 Obrázek 2: Pravděpodobnostní a distribuční funkce binomického modelu 4.2 Poissonovo rozdělení Po (A) • X ... počet událostí, které nastanou v jednotkovém časovém intervalu, přičemž k událostem dochází náhodně, jednotlivě a vzájemně nezávisle. Střední počet těchto událostí je vyjádřen parametrem A > 0. • X ~ Po(A) • 9 = \ • pravděpodobnostní funkce: P(x) = —re a; = 0,1,...; x\ • vlastnosti: E[X] = A; Var[X] = A • dpois(x, lambda), ppois(x, lambda) Příklad 4.5. Výpočet parametru A Poissonova modelu Načtete datový soubor 17-anova-newborns.txt a odstraňte z něj neznámá pozorování. Zaměřte se na znak X =počet starších sourozenců novorozence. Za předpokladu, že náhodná veličina X popisující počet starších sourozenců novorozence pochází z Poissonova rozdělení parametrem A odhadněte střední hodnotu počtu starších sourozenců A. Řešení příkladu 4.5 Střední hodnotu počtu starších sourozenců odhadneme pomocí vzorce počet starších sourozenců ~Ž2íLi x% A =--- = -. (2) počet novorozenců TV [1] 0.9428365 9 Interpetace výsledků: Střední hodnota počtu starších sourozenců novorozenců v datovém souboru A =......... 3 Příklad 4.6. Porovnání pozorovaných a očekávaných početností v Poissonově modelu Za předpokladu, že počet starších sourozenců novorozenců pochází z Poissonova rozdělení s parametrem A =....... ..................... odhadněte očekávané početnosti starších sourozenců a porovnejte je s pozorovanými početnostmi. Řešení příkladu 4.6 0 1 2 3 4 5 6 7 8 9 m . obs 590 511 175 48 23 17 10 4 3 1 m . exp 538 508 239 75 18 3 1 0 0 0 600 o • 0 pozorované 500 f očekávané 400 300 • 200 t 100 ! 9. Řešení příkladu 4.8 a 0.2 - x = 0.9428 i—i—i—i—i—i—i—i—i—i—r -1 012345678 9+ x x = 0.9428 Obrázek 4: Pravděpodobnostní a distribuční funkce Poissonova modelu 4.3 Normální rozdělení N(fi, a2) • X\,..., Xn ... nezávislé náhodné veličiny • Normální rozdělení - X ~ N(fi,a2) - hustota - vlastnosti E[X] = fj,; Vax[X] = a2 - dnorm(x, mu, sigma), pnorm(x, mu, sigma), rnorm(M, mu, sigma), qnorm(alpha, mu, sigma) • Standardizované normální rozdělení - X ~ 7Y(0,1) - 0 = (o,i)T - hustota f(x) = 4>{x) = xeR. — vlastnosti E[X] = 0; Var[X] = 1 — dnorm(x), pnorm(x), rnorm(M), qnorm(alpha) • Vlastnosti normálního rozdělení — Věta 1: Nechť X\,... ,Xn jsou nezávislé náhodné veličiny z normálního rozdělení N(p,, oo, p —> 0.5: X ~ Bin(V,p) X ~ iV(/x, cr2), kde /i = Np a cr2 = JVp(l — p). • Haldova podmínka: Nechť X ~ Bin(7V,p) a platí, že Np > 5 a JV(1 — p) > 5. Potom rozdělení náhodné proměnné X můžeme aproximovat normálním rozdělením X ~ N(Np, Np(l —p)). • Výše zmíněný poznatek je také znám jako Moivre-Laplaceova věta. Příklad 4.13. Aproximace binomického modelu normálním modelem Předpokládejme, že pravděpodobnost výskytu dermatoglyfického vzoru vír na palci pravé ruky u mužů české populace p = 0.533. 1. Jaká je pravděpodobnost, že ve vybraném vzorku 10 mužů bude výskyt dermatoglyfického vzoru mrna palci pravé ruky (a) alespoň u sedmi mužů; (b) nejvýše u pěti mužů; (c) u osmi nebo devíti mužů. 2. Jaká je pravděpodobnost, že ve vybraném vzorku 100 mužů bude výskyt dermatoglyfického vzoru wrna palci pravé ruky (a) alespoň u 56; (b) nejvýše u 53 mužů; (c) u 60-85 mužů. Požadované pravděpodobnosti vypočítejte exaktně na základě binomického rozdělení a aproximačně na základě normálního rozdělení. Výsledné hodnoty navzájem porovnejte. Řešení příkladu 4.13 alespoň 7 ní sjvyse 5 8-9 binomické 0.2313 0.5396 0 0801 normálni 0.1449 0.4172 0 0353 alespoň 56 nejvýše 53 60-85 binomické 0.3304 0.5151 0.1067 normálni 0.2942 0.4760 0.0896 7 Interpretace výsledků: Pravděpodobnost výskytu dermatoglyfického vzoru vír alespoň u sedmi mužů z deseti je .............................% (resp..............................%). Pravděpodobnost, výskytu vzoru vír nejvýše u pěti mužů z deseti je.............................% (resp..............................%). Pravděpodobnost, výskytu vzoru víru osmi nebo devíti mužů z deseti je .............................% (resp..............................%). Protože Haldova podmínka dobré aproximace ........................splněna, ........................ bychom aproximaci binomického rozdělení normálním rozdělením použít. Pravděpodobnost výskytu dermatoglyfického vzoru vír alespoň u 56 mužů ze sta je..............................% (resp. ............................%). Pravděpodobnost výskytu vzoru vír nejvýše u 53 mužů ze stáje .............................% (resp. .............................%). Pravděpodobnost výskytu vzoru vír u 60-85 mužů ze sta je .............................% (resp. .............................%). Protože Haldova podmínka dobré aproximace..............................splněna,............................ aproximaci binomického rozdělení normálním rozdělením použít. Příklad 4.14. Aproximace binomického modelu normálním modelem Předpokládejme, že pravděpodobnost výskytu dermatoglyfického vzoru vír na palci pravé ruky u mužů české populace p = 0.533. Pro N = 10 a N = 100 vykreslete graf pravděpodobnostní funkce binomického rozdělení a aproximujte jej křivkou funkce hustoty normálního rozdělení. Hodnoty obou funkcí porovnejte. Řešení příkladu 4.14 0.25 0.20 0.15 0.10 0.05 -0.00 - 0--O' -6 \ N = 10; p = 0.533 N= 100; p = 0.533 Obrázek 5: Aproximace binomického modelu normálním modelem 8