Ustav matematiky a statistiky Prírodovedecká fakulta Masarykova univerzita Aplikovaná statistika I Téma 4: Diskrétni náhodné veličiny Veronika Bendová bendova.veroonikaQgmail.com Uvod a motivace • motivace: reálna situace (data) —>• popíšeme ji nějakým známým rozdělením —>- z dat odhadneme parametry rozdělení —> stanovíme nové závěry na základě vlastností rozdělení • různé typy dat —► různé typy rozdělení • diskrétní data —>• diskrétní rozdělení • binomické rozdělení . . . Bin(/V, p) • alternativní rozdělení ... Alt(p) • Poissonovo rozdělení ... Poiss(A) • spojitá data —>■ spojité rozdělení • normální rozdělení .. . A/(p, a ) • standardizované normální A/(0, 1) • dvourozměrné normální A/2(/x, Z) • + (spojitá) rozdělení testovacích statistik • Pearsonovo chi-kvadrátové rozděení ... x in) • Studentovo t-rozdělení . . . t(n) • Fisherovo-Snedecorovo F-rozdělení .. . F(ni, r>2) 1 / 18 Základy pravděpodobnosti • experiment —>■ založen na náhodném pokusu m porodní hmotnost: náhodný pokus = zvážení 1 novorozence • vzdelaní matky: náhodný pokus = dotaz na jednu matku • číslo na kostce: náhodný pokus = hod kostkou • základní prostor Q = množina všech možných výsledků • pôrodní hmotnost: 0 — oo; 0 — 6000g • počet starších sourozenců: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 a více • kostka . . . 1—6 • jev = výsledek náhodného pokusu • hodila jsem kostkou —>• nastal jev: (a) padla 5; (b) padlo liché číslo; (c) padlo číslo < 2 • zvážila jsem novorozence —>■ nastal jev: (a) vážil 2 654g; (b) vážil více než 2 500g, a pod. • pravděpodobnost • vyjadřuje, jak velká je naděje, že nějaký jev nastane • Pr(A) = Pr(nastal jev A) • Pt{A) G (0;1>; resp. (0%;100%> • příklad: hod kostkou • Pr(padne 1) = 1/6 . . . 16.7 % • Pr(padne liché číslo) = 1/2 ... 50% • Pr(padne 3, 4, 5 nebo 6) = 2/3 . . . 66.67 % • Pr(padne 7) = 0 . . . 0 % 2/ Náhodné veličiny • víc než výsledek nás často zajímají jeho číselné interpretace • náhodná veličina X = pravidlo, které zobrazuje základní prostor možných výsledku do množiny reálných čísel • /-tá realizace náh. veličiny X se značí x; • X . . . počet puntíků na vrchní straně kostky: xi = 4, X2 = 1 ... • Y ... dokončené vzdelaní; yi = 1 (ZŠ), 3/2 = 3 (SŠm) ... • Y ... počet starších sourozenců y\ — 0, yi — 2 ... • X . . . porodní hmotnost v g; x\ = 3470, X2 — 3240 ... • Y . . . největší šířka mozkovny v mm; y\ — 145, 3/2 = 139 .. . • dva typy náhodných veličin • diskrétní náhodné veličiny • spojité náhodné veličiny 3/18 Diskrétní náhodné veličiny • ze své podstaty nabývají převážně celých hodnot • počet sourozenců: 0, 3, 2, ... ; novorozenec nemůže mít 2.4 sourozence • hod kostkou: padne 1, 2, 3, 4, 5, 6; nemůže padnout 3.5 • Pr(X = 4) = . . . • Pr(X < 4) = . . . • Pr(X > 4) = Pr(X > 5) = . . . • Pr(3 < X < 5) = . . . • pravděpodobnostní funkce p(x) • p(x) = Pr(X = x) • pravděpodobnostní funkce pro případ hodu kostkou 0.20 0.15 a: o.io 0.05 o oo 3 4 5 x nezáporná: Pr(x) > 0; normovaná: Yl^i Pr(^ — x/) — 1 4/18 • distribuční funkce F(x) • F (x) = Pr(X < x) • distribuční funkce pro případ hodu kostkou 1.0 - •—> 0.8 - •-o _ 0.6 -ÍL. 0.4 - •-o •-o •-o 0.2 - •-o 0.0 - <—o I I I I I I I I 0 1 2 3 4 5 6 7 x • komplementarita: P r (X > x) = 1 - Pr(X < x) = 1 • -F(x) 5/18 Binomické rozdělení • Bernoulliho pokusy Xi, . . . , X/v • X; = 1 ... událost nastala; X, = 0... událost nenastala; / = 1, . . . , N • Pr(X, = 1) = p • Pr(X, = 0) = 1 - p • Binomické rozdělení • X. . . počet událostí v posloupnosti N nezávislých Bernoulliho pokusů, přičemž pravděpodobnost nastání události v každém pokusu je vyjádřena parametrem p • počet chlapců v rodině s 12 dětmi • celkový počet prstů (na obou rukou), na nichž se alespoň jednou objevil vzor vír • E^X, = X~Bin(/V,p) • 0 = (N,p) • pravděpodobnostní funkce p{x)=(Nx)px{l-p)N-x x = 0,l,...,A/ • vlastnosti: E[X] = A/p; Var[X] = A/p(l - p) • dbinom(x, N, p), pbinom(x, N, p) 6/18 Dataset: Počet chlapců v rodinách s 12 dětmi V rámci studie poměru pohlaví u lidí z roku 1889 bylo na základě záznamů z nemocnic v Sasku zaznamenáno rozdělení počtu chlapců v čtrnáctičlenných rodinách. Mezi M = 6115 rodinami s N = 12 dětmi byla pozorována početnost chlapců. Údaje ze studie jsou uvedeny v následující tabulce. _n_|| 0 1 2 3 4 5 6 7 8 9 10 11 12 ]T mobserved || 3 24 ÍÔ4 286 670 ÍÔ33 1343 1112 829 478 181 45 7 6115 Příklad 4.1. Výpočet parametru p binomického rozdělení Předpokládejme, že náhodná veličina X popisující počet chlapců v rodinách s dvanácti dětmi pochází z binomického rozdělení s parametrem N — 12. Vypočítejte odhad pravděpodobnosti výskytu chlapců v rodinách s dvanácti dětmi. Řešení příkladu 4.1 Pravděpodobnost p výskytu chlapců v rodinách s dvanácti dětmi odhadneme pomocí vzorce Ä počet narozených chlapců 5ľľ=n nmobserved P — -;-;-; = -■ celkový počet narozených dětí NM 7/18 N <- 12 n <- 0:N m.obs <- c(3, 24, 104, 286, 670, 1033, 1343, 1112, 829, 478, 181, 45, 7) M <- sum (m . obs ) p <- sum(n * m.obs) / (N * M) # 0.519215 (p <- round(p, 4)) [1] 0.5192 Interpretace výsledku: Pravděpodobnost výskytu chlapců v rodinách s dvanácti dětmi je ..............................(..............................%)■ Přiklad 4.2. Pozorované a očekávané početnosti v binomickém rozdělení Za předpokladu, že počet chlapců v rodinách s dvanácti dětmi pochází z binomického rozdělení s parametry N = ............. a p = ............. odhadněte očekávané početnosti chlapců v rodinách s dvanácti dětmi a porovnejte je s pozorovanými početnostmi. v Řešení příkladu 4.2 m.exp <- round(dbinom(0:12, 12, p) * 6115) tab <- data.frame(rbind(m.obs, m.exp)) names(tab) <- 0:12 01234 5 6 789 10 11 12 m.obs 3 24 104 286 670 1033 1343 1112 829 478 181 45 7 m. exp 1 12 72 259 628 1085 1367 1266 854 410 133 26 2 14 par(mar = c(4, 4, 1, 1)) 15 plot(0:12, m.obs, type = 'h'} col = 'red', xlab = '', 16 ylab = 'absolutní četnosti', las = 1) 17 lines (0:12, m.exp, type = 'h', lty = 2, col = 'black') 18 points(0:12, m.obs, pen = 21, col = 'darkred', bg = 'red') 19 points(0:12, m.exp, pen = 21, col = 'black', bg = 'black') 20 mt ext ( ' počet starsich sourozenců', side = 1, line = 2.4) 21 legend('topright ' , pch = c(21, 21), col = c('darkred', 'black'), 22 pt.bg = cC'red', 'black'), legend = c('pozorovane', 'očekávané'), 23 bty = 'n') • pozorované • očekávané i-r 0 2 4 6 8 10 12 počet starsich sourozenců 9/18 1200 % 1000 o % 800 0 E -t—1 1 400 600 - 200 0 - Príklad 4.3. Výpočet pravděpodobností za předpokladu binomického rozdělení Za předpokladu, že náhodná veličina X popisující počet chlapců v rodinách s dvanácti dětmi pochází z binomického rozdělení s parametry N = ............. a p = ............. vypočítejte pravděpodobnost, že v rodině s dvanácti dětmi bude (a) právě devět chlapců, (b) nejvýše čtyři chlapci, (c) alespoň osm chlapců, (d) čtyři, pět, šest, nebo sedm chlapců. Řešení příkladu 4.3 (a) pravděpodobnost, že v rodině s 12 dětmi bude právě devět chlapců 24 N <- 12 25 p <- 0.5192 26 dbinomO, N, p) # 0.06703911 (b) pravděpodobnost, že v rodině s 12 dětmi budou nejvýše čtyři chlapci 27 sum(dbinom(0:4, N, p)) # 0.1588736 28 pbinom(4, N, p) # 0.1588736 10/18 (c) pravděpodobnost, že v rodině s 12 dětmi bude alespoň osm chlapců 1 - pbinom(7, N, p) # 0.2330869 sum(dbinom(8:12, N, p)) # 0.2330869 (d) pravděpodobnost, že v rodině s 12 dětmi bude čtyři, pět, šest, nebo sedm chlapců sum(dbinom (4:7, N, p)) # 0.7107605 pbinom(7, N, p) - pbinom(3, N, p) # 0.7107605 Interpretace výsledků: Pravděpodobnost, že v rodině bude právě devět chlapců, je ....................%. Pravděpodobnost, že v rodině budou nejvýše čtyři chlapci, je ....................%. Pravděpodobnost, že v rodině bude alespoň osm chlapců, je ....................%. Pravděpodobnost, že v rodině bude čtyři, pět, šest, nebo sedm chlapců, je ....................%. Příklad 4.4. Graf pravděpodobnostní a distribuční funkce binomického rozdělení Nakreslete graf pravděpodobnostní funkce a graf distribuční funkce binomického rozdělení Bin(/V, p), kde N = 12 a p = 0.5192. Řešení příkladu 4.4 33 x <- 0:N 34 px <- dbinom(x, N, p) 35 parCmar = c(4, 4, 1, 1)) 36 plotU, px, type = >h>, ylim = c(0, 0.25), xlab = ylab = 'pU)5, las = 37 pointsU, px , col = 'reď, pch = 19) 38 mtext(5x', side = 1, line = 2) 39 mtextCN = 12, p = 0.5192', side = 1, line = 3) 1) 4 6 8 x N = 12, p = 0.5192 10 12 x 1.0 0.8 0.6 - 0.4 0.2 0.0 N = 12, p = 0.5192 12/18 Poissonovo rozdělení • X ... počet událostí, které nastanou v jednotkovém časovém intervalu, přičemž k událostem dochází náhodně, jednotlivě a vzájemně nezávisle. Střední počet těchto událostí je vyjádřen parametrem A > 0 • počet starších sourozenců • počet úmrtí v důsledku kopnutí koněm v Pruských armádních jednotkách • počet revizních operací kolenního koubu • X ~ Poiss(A) • 0 = A • pravděpodobnostní funkce p(x) - —-e~A x = 0,1, . . . x! • vlastnosti: E[X] = A; Var[X] = A • dpois(x, lambda), ppois(x, lambda) 13/18 Příklad 4.5. Výpočet parametru A Poissonova rozdělení Načtete datový soubor 17-anova-newborns-2.txt a odstraňte z něj neznámá pozorování. Zaměřte se na znak X =počet starších sourozenců novorozence. Za předpokladu, že náhodná veličina X popisující počet starších sourozenců novorozence pochází z Poissonova rozdělení parametrem A odhadněte střední hodnotu počtu starších sourozenců A. Řešení příkladu 4.5 Střední hodnotu počtu starších sourozenců odhadneme pomocí vzorce počet starších sourozenců Y2h=i xi A = počet novorozenců N 40 data <- read.delim(J17-anova-newborns-2.txt5) 41 data <- na.omit(data) 42 prch <- data$prch.N 43 N <- length(prch) # 1381 44 (lambda <- sum(prch) / N) # 0.9427951 [1] 0.9427951 45 Interpetace výsledků: Střední hodnota počtu starších sourozenců novorozenců v datovém souboru A = ........................... 14/18 Príklad 4.6. Porovnání pozorovaných a očekávaných početností v Poissonově rozdělení Za předpokladu, že počet starších sourozenců novorozenců pochází z Poissonova rozdělení s parametrem A =................................ odhadněte očekávané početnosti starších sourozenců a porovnejte je s pozorovanými početnostmi. Řešení příkladu 4.6 46 m.obs <- data.frame(table(prch))$Freq 47 m.exp <- round(c(dpois(0:9, lambda)) * N) 48 tab <- data.frame(rbind(m.obs, m.exp)) 49 names(tab) <- 0:9 0 1 23456789 m.obs 590 510 175 48 23 17 10 4 3 1 m.exp 538 507 239 75 18 3 1 0 0 0 50 51 52 53 parCmar = c(4, 4, 1, 1)) 54 plot(0:9, m.obs, type = 5h', ...) # zelene vertikálni cary 55 lines(0:9, m.exp, ...) # černe vert. cary 56 points(0:9, m.obs, ...) # zelene body 57 points(0:9, m.exp, ...) # černe body 58 mtext(...) # popisek osy x 59 legend (...) # doplněni legendy 15/18 600 500 to ° 400 ■= 300 g 200 100 o o m o pozorované < • očekávané • • * 8 § • • • T 2 4 6 8 počet starších sourozenců Přiklad 4.7. Výpočet pravděpodobností za předpokladu Poissonova rozdělení Za předpokladu, že data pochází z Poissonova rozdělení s parametrem A = ............................. určete pravděpodobnost, novorozenec má (a) dva, tři nebo čtyři starší sourozence; (b) alespoň čtyři starší sourozence; (c) nejvýše dva starší sourozence; (d) právě jednoho staršího sourozence. Řešení příkladu 4.7 (a) pravděpodobnost, že novorozenec má dva, tři nebo čtyři starší sourozence sum(dpois (...)) ppois (...) - ppois(. . . ) (b) pravděpodobnost, že novorozenec má alespoň čtyři starší sourozence 62 1 - ppois(...) # 0.01567936 (c) pravděpodobnost, že novorozenec má nejvýše dva starší sourozence 63 ppois (...) # 0.9299142 64 sum(dpois(...)) # 0.9299142 (d) pravděpodobnost, že novorozenec má právě jednoho staršího sourozence 65 dpois (...) # 0.3672541 Interpretace výsledů: Pravděpodobnost, že novorozenec má dva, tři nebo čtyři starší sourozence je ...............%. Pravděpodobnost, že novorozenec má alespoň čtyři starší sourozence je ...............%. Pravděpodobnost, že novorozenec má nejvýše dva starší sourozence je ...............%. Pravděpodobnost, že novorozenec má jednoho staršího sourozence je .................%. 17 / 18 Příklad 4.8. Graf pravděpodobnostní a distribuční funkce Poissonova rozdělení Nakreslete graf pravděpodobnostní a distribuční funkce Poissonova rozdělení Poiss(0.9428) v hodnotách x = 0, 1, 2, 3, 4, 5, 6, 7, 8, a x > 9. Řešení příkladu 4.8 66 N <- 9 67 x <- 0:N 68 px <- dpoisCx, lambda) # pstni fce rozděleni Poiss(lambda) v hodnotách x 69 par(...) # nastaveni okraju 5, 4, 1, 1 70 plot(x, px, type = ylim = c(0, 0.45), ...) # zelene vertikálni cary 71 points(x, px, ...) # zelene body 72 box(...) # rámeček okolo grafu 73 mtext (. . .) # popisek osy x 74 mtext (bquote (paste (lambda == 0.9428)), side = 1, line = 3) # druhy popisek osy x 0.4 0.3 ^ 0.2 0.1 0.0 1.0 - 0.8 - 0.6 - 0.4 -0.2 o.o H o—o o—o n—i—i—i—i—i i i i i r -1 12345678 ^ = 0.9428 X= 0.9428 18/18