Zadání příkladů — Statistická inference I — 2016 Příklad 20 (standardizované normální rozdělení). Vypočítejte kritické hodnoty u{a) rozdělení ÍV(0,1), kde a = 0.1, 0.05, 0.01, 0.025 a 0.005. Na výpočet pravděpodobnosti pod kvantilem se používá funkce pnorm(Q). Na výpočet pravděpodobnosti nad kritickou hodnotou se používá funkce l-pnorm(Q). Jelikož je standardizované normální rozdělení symetrické okolo nuly, u{a) = m(1 — a). Příklad 21 (Studentovo t-rozdělení). Vypočítejte kritické hodnoty Studentova t-rozdělení se stupni volnosti df = 10, tj. tdf(a), kde a = 0.1, 0.05, 0.01, 0.025 a 0.005. Na výpočet pravděpodobnosti pod kvantilem se využívá funkce pt(Q,df). Na výpočet pravděpodobnosti nad kritickou hodnotou se využívá funkce l-pt(Q.df). Jelikož Studentovo í-rozdělení je symetrické okolo nuly, í5 mn || 447 132 42 21 3 2 Vypočítejte očekávané početnosti dělníků za předpokladu, že početnosti úrazů na dělníka X mají Poissonovo rozdělení s parametrem J2„ nmn X J2n m" 0.47. (4) Ozn. X ~ Poiss(X). ## 0 12 3 4 5+ ## pozorované 447 132 42 21 3 2 ## očekávané 406 189 44 7 1 0 4 Pozorované a očekávané poc. úrazu mezi delniky v továrne očekávané pozorované ## [1] 0.6908308 ## [1] 0.4683702 Příklad 30 (binomické rozdělení, simulační studie). Vygenerujte pseudonáhodná čísla X (početnosti úspěchů) opakovaná M-krát (M = 1000) z Bin(N,p), kde N = 5 a p = 0.5. Vytvořte tabulku vygenerovaných (simulovaných) i teoretických relativních početností (pro n = 0,1,..., 5). Superponujte histogram vygenerovaných pseu-donáhodných čísel s teoretickou pravděpodobnostní funkcí. ## 0 1 2 3 4 5 ## simulovane 0.036 0.155 0.329 0.288 0.160 0.032 ## teoretické 0.031 0.156 0.312 0.312 0.156 0.031 Pseudonah. cisla X~Bin(5,0.5) _ CM X úspechy X 5 Příklad 31 (normální rozdělení, simulační studie). Na základě simulační studie prověřte, že pokud X ~ iV(150, 6.25), potom Xn ~ JV(150, ^p). Použijte n = 30. Pro každou simulaci X vypočítejte aritmetické průměry xm, m = 1,2,..., M, kde M = 500 000. Superponujte je histogramem v relativní škále s teoretickou křivkou hustoty pro Xn. Vypočítejte Pr(X„ > 151) ze simulovaných dat a porovnejte tento výsledek s teoretickou (očekávanou) pravděpodobností. Řešení viz obrázek ??. ## [1] "teoretická:" "0.1855" ## [1] "simulovaná:" "0.18616" ## [1] "teoretická:" "0.0142" ## [1] "simulovaná:" "0.01374" ## [1] "teoretická:" "0" ## [1] "simulovaná:" "2e-05" i-1-1-1-1 146 148 150 152 154 149.0 149.5 150.0 150.5 151.0 Příklad 32 (normální rozdělení, simulační studie). Nechť X ~ N(/j,\, a'f) a Y ~ N(/j,2, o^)- Potom Xni —Yn, 2 2 N(fii — /i2, + ^|). Generujte pseudonáhodná čásla X a Y rozdělení N(fij, a'^), j = 1, 2, kde /ii = 100, Eľ=i^ľ)eK2. Příklad 34 (testovací statistika, simulační studie). Na základě simulační studie prověřte, že pokud náhodná proměnná X má asymptoticky binomické rozdělení Bin(N, p), potom testovací statistika X/N-p — —. y/p(í-p)/N má asymptoticky normální rozdělení ÍV(0,1). Použijte p = 0.1, 0.5, 0.9 a 1, a iV = 5, 10, 30, 50 a 100. Okomentujte výsledky ve spojitosti s Haldovou podmínkou Np(l — p) > 9. Pro každou simulaci X vypočítejte zyy,m, m = 1,2,..., M, kde M = 1000. Superponujte histogram vygenerovaných testovacích statistik v relativní škále s teoretickou křivkou hustoty Zyy- -1 0 1 2 3 4 5 6 -3 -2 -1 0 1 2 3 -6 -5 -4 -3 -2 -1 0 1 realizace statistiky Zw realizace statistiky Zw realizace statistiky Zw N=5 , p= 0.1 , Hp=0.45 N=5 , p= 0.5 , Hp= 1.25 N= 5 , p= 0.9 , Hp= 0.45 7 -3 -2 -1 0 1 2 3 4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 realizace statistiky Zw realizace statistiky Zw realizace statistiky Zw N=50 , p= 0.1 , Hp=4.5 N=50,p=0.5,Hp=12.5 N= 50 , p= 0.9 , Hp= 4.5 8 -3 -2 -1 0 1 2 3 4 -4 -2 0 2 4 -4 -3 -2 -1 0 1 2 3 realizace statistiky Zw realizace statistiky Zw realizace statistiky Zw N= 100 , p= 0.1 , Hp=9 N= 100 , p=0.5 , Hp= 25 N= 100 , p= 0.9 , Hp= 9 Příklad 34 mluví o použití jednovýběrové testovací statistiky pro parametr binomického rozdělení (pravděpodobnost) pro různé pravděpodobnosti a různé početnosti. Pokud není Haldova odmínka splněná,není možné testovací statistiku použít. Příklad 35 (testovací statistika, simulační studie). Na základě simulační studie prověřte, že pokud a) X ~ N(n, cr2), kde fi = 0, cr2 = 1; b) X ~ [(1 - p)N(fJ,, cr2) + PN(fl, cr2)], kde fj, = 0, cr2 = 1, p = 0.05, cr2 = 2, potom testovací statistika F = í-n~12^s má asymptoticky Xn-i rozdělení o n — 1 stupních volnosti. Použijte rozsahy náhodných výběrů n = 15 a n = 100. Pro každou simulaci X vypočítejte Fpozm, m = 1,2,..., M, kde M = 1000. Superponujte histogram vygenerovaných testovacích statistik v relativní škále s teoretickou křivkou hustoty F. 9 X~(1-p)N(0,1)+p*N(0,2) X~(1-p)N(0,1)+p*N(0,2) o 03 CO o —, C3 CD O O CM O O O T ~i-1-r~ 10 20 30 40 50 realizace testovací statistiky F n=15 —I 60 o co o O - o 03 O O o o o 50 T 100 150 realizace testovací statistiky F n=100 200 Příklad 36 (hypergeometrické rozdělení). Koupili jsme 10 cibulek červených tulipánů a 5 cibulek žlutých tulipánů. Zasadili jsme 8 náhodně vybraných cibulek. a) Jaká je pravděpodobnost, že žádná nebude cibulka žlutých tulipánů? b) Jaká je pravděpodobnost, že jsme zasadili všech 5 cibulek žlutých tulipánů? c) Jaká je pravděpodobnost, že aspoň dvě budou cibulky žlutých tulipánů? Příklad 37 (hypergeometrické rozdělení). Dítě dostalo sáček, v němž bylo 5 červených a 5 žlutých bonbónů. Dítě náhodně vybralo ze sáčku 6 bonbónů. Jaká je pravděpodobnost, že mezi vybranými bonbóny budou právě 2 Příklad 38 (multinomické rozdělení — definice). Nechť TV je počet nezávislých identických pokusů a v každém z nich může nastat J > 2 navzájem disjunktních událostí s možnými odpověďmi X^ = 1 (událost nastala) nebo Xíj = 0 (událost nenastala), kde i = 1,2,..., N a j j-té události v i-tém pokuse Pr(Xij = 1) = pj 1,2,..., J. Potom X} = J2?=i X,, j — ^i=1 slij - Pravděpodobnost nastání j=\t>3 — 1- Náhodná proměnná X = (X\,... ,Xj)T má (J-rozměrné) multinomické rozdělení s parametry Nap, t.j. X ~ Multj(7V, p). Pravděpodobnost, že Xj je rovné nějakému číslu rij zapisujeme jako Pr(X1=x1,...,Xj = xJ) NI NI ne n j jsou realizace Xj. Potom n = (n\, ri2, ■ ■ ■, nj)T. Pro marginální rozdělení Npj, rozptyl Var[Xj kde N = J2j=i Xj, X,■ > 0 a x j píšeme Xj ~ Bin(A^, pj), kde střední hodnota E[Xj —NpiPj, korelační koeficient Cor[X{, Xj] = (— PíPj)/\/pí(Í —pi)pj(l ~Pj)- Střední hodnota E[K rianční matice Var[X] = -/V(DP — ppT), kde Dp = diag(p) a Npj(1—pj), kovariance Cov[Xi,Xj] = Np a kova- (Dp - ppT)a Pi(l-Pi) pokud i=j -PíPj pokud i ^ j. 10 Příklad 39 (multinomické rozdělení). Mějme proměnnou barva vlasů (blond - B1H, hnědá - BrH, zrzavá -RH) a proměnnou barva očí (modrá - B1E, hnědá - BrE, zelená - GE). Jejich interakce jsou uspořádané v tabulce jako Xi (B1H-B1E), X2 (BlH-BrE), Xa (B1H-GE), X4 (BrH-BlE), X5 (BrH-BrE), X6 (BrH-GE), X7 (RH-B1E), X8 (RH-BrE), Xg (RH-GE). Předpokládejme, že máme náhodný výběr s rozsahem N = 100. Pravděpodobnosti pj, j = 1,..., 9 viz následující tabulka. Barva vlasů / barva očí modrá (B1E) hnědá (BrE) zelená (GE) blond (B1H) 0.12 0.15 0.03 hnědá (BrH) 0.22 0.34 0.04 zrzavá (RH) 0.06 0.01 0.03 Vypočítejte E[X2], E[X$], Var[X2], Var[X8], Cov[X2,X8] a Cor[X2,X8]. Příklad 40 (součinové multinomické rozdělení — definice). Nechť Nk je počet nezávislých identických pokusů a v každém z nich může nastat J > 2 navzájem disjunktních událostí s možnými odpověďmi Xkji = 1 (událost nastala) anebo Xkji = 0 (událost nenastala), kde i = 1,2,..., Nk, k = 1, 2,..., K a j = 1, 2,..., J. Nechť Xkj = Yli^i Xkji a ~ž2k=i = N. Pravděpodobnost nastání (j)-té události v i-tém pokuse fc-té skupinyje Vi(Xkji = 1) = Pkj = Pj\k, 12j=i Pkj = 1- Náhodná proměnná X^ = (Xki, Xk2, ■ ■ ■, Xkj)T má (J-rozměrné) multinomické rozdělení s parametry Nk a = (pki, ■ ■ ■ ,Pkj)T, t.j. X^ ~ Multj(iVfc, p^).Realizace náhodné proměnné X^ označujeme jako Xfc. Potom Xkj = rikj a navíc n^ = (riki, rik2, ■ ■ ■, nkj)T■ Nechť X^ jsou nezávislé, potom X = (Xi, X2,..., X^-)T má součinové multinomické rozdělení s parametry Ok = Pk, k = 1,2,... ,K. Příklad 41 (součinové multinomické rozdělení). 1. Mějme data z příkladu 39 a náhodný výběr s rozsahy iVi = 30 pro blond barvu vlasů, 7V2 = 60 pro hnědou barvu vlasů a N$ = 10 pro zrzavou barvu vlasů. Označme interakce proměnných následovně: X\\ = X^i (B1H-B1E), Xi2 = X2\i (BlH-BrE), X13 = X^i (B1H-GE), X2i = X1]2 (BrH-BlE), X22 = X2|2 (BrH-BrE), X23 = X3]2 (BrH-GE), X31 = X1]3 (RH-B1E), X32 = X2la (RH-BrE), X33 = X3|3 (RH-GE), kde Xi = (Xn,X12,X13)T, X2 = (X21,X22,X230)T a X3 = (X3i, X32, X33)T. Potom X = (Xi,X2,X3)T má součinové multinomické rozdělení s K = 3, iVi = 30, J\ = 3, N2 = 60, J2 = 3 a 7V3 = 10, J3 = 3. Zápis s Xj\k, kde j = 1, 2, 3 a k = 1, 2, 3 zvýrazňuje fakt, že rozdělení je podmíněno barvou vlasů, t.j. rozdělení ve sloupcích tabulky je podmíněné jejím řádkem. Realizace Xj\k značíme jako nj\k, pravděpodobnosti ekvivalentní Xj\k = Xj\k značíme jako pj\k = pkj. Vypočítejte podmíněné pravděpodobnosti Pj\k, očekávané početnosti Nkpkj, Var[X22], Var[X32], Var[X23], Cov[X22, X32], Cov[X22,X32] aCor[X22,X32], Cor[X22, X23]. 2. Celý postup zopakujte pro JVi = 20, N2 = 30 a N3 = 50. Příklad 42 (součinové multinomické rozdělení). Mějme proměnnou barva vlasů (blond - B1H, hnědá - BrH, zrzavá - RH) a proměnnou barva očí (modrá - B1E, hnědá - BrE, zelená - GE). Jejich interakce jsou uspořádané v tabulce jako Xx (B1H-B1E), X2 (BlH-BrE), X3 (B1H-GE), XA (BrH-BlE), X5 (BrH-BrE), X6 (BrH-GE), X7 (RH-B1E), X8 (RH-BrE), X9 (RH-GE). Jim odpovídají pravděpodobnosti p3, j = 1,..., 9 Barva vlasů / barva očí modrá (B1E) hnědá (BrE) zelená (GE) blond (B1H) 0.12 0.15 0.03 hnědá (BrH) 0.22 0.34 0.04 zrzavá (RH) 0.06 0.01 0.03 X = (Xi, X2,..., Xg)T ~ Multg(7V, p). Transformujte multinomický model na součinový multinomický model následovně: 1. vypočítejte řádkově marginální pravděpodobnosti pj/, 2. vypočítejte sloupcově marginální pravděpodobnosti p,k; 11 3. podmíněné pravděpodobnosti pj\k = pkj', Jakému číslu jsou rovné sumy Yl^=iPj\k Pro každé fc? 12