Zadání příkladů - cvičení č.l - 15-9-23
Příklad č.l (porovnání dvou typů modelů) (přednáška)
Model rozděleni pravděpodobností je modelem náhodné proměnné X, např. (1) model rozdělení pravděpodobnosti náhodné proměnné X šířka dolní čelisti, nebo (2) model rozdělení pravděpodobnosti náhodné proměnné X hrubost kožních řas u dospělých zdravých žen. Statistický model je modelem náhodné proměnné Y\X (Y kauzálně závisí na X), např. (1) model závislosti náhodné proměnné Y šířka dolní čelisti na proměnné X pohlaví, nebo (2) model závislosti náhodné proměnné Y hrubost kožních řas u dospělých zdravých žen na proměnné X BMI. Všimněme si, že náhodné proměnné označujeme X anebo Y podle toho, jaký model je charakterizuje.
Příklad č.2 (jednoduchý náhodný výběr)
V jednoduchém náhodném výběru o rozsahu n z populace s konečným rozsahem N má každý prvek stejnou pravděpodobnost vybrání. Pokud vybíráme bez vracení (opakování), mluvíme o jednoduchém náhodném výběru bez vraceni (Dalgaard, 2008). Pokud vybíráme s vracením, mluvíme o jednoduchém náhodném výběru s vracením. Mějme množinu M. s N = 10 prvky a chceme z ní vybrat n = 3 prvky (a) bez vracení, (b) s vracením. Kolik máme možností? Jak vypadá jedna takováto možnost, pokud M = {1,2,..., 10}? Zopakujte to samé pro N = 100, n = 30 a množinu M = {1,2,..., 100}.
Příklad č.3 (jednoduchý náhodný výběr)
Mějme skupinu lidí označených identifikačními čísly (ID) od 1 do 30. Vyberte (a) náhodně 5 lidí z 30-ti bez návratu, (b) náhodně 5 lidí ze 30-ti s návratem a nakonec (c) náhodně 5 lidí ze 30-ti bez návratu, přičemž lidé s ID od 28-mi do 30-ti mají pravděpodobnost vybrání 4x vyšší než lidé s ID od 1 do 27.
Příklad č.4 (normální rozdělení)
Mějme náhodnou proměnnou X (může to být např. výška postavy desetiletých dívek) a předpokládejme, že tato náhodná proměnná má normální rozdělení s parametry fi (střední hodnota) a a2 (rozptyl), což zapisujeme jako X ~ N(fi,a2), fi = 140.83, a2 = 33.79. Normální rozdělení představuje model rozdělení pravděpodobnosti pro tuto náhodnou proměnnou. Vypočítejte pravděpodobnost Pr(a < X < b) = Pľ(X < b) - PľX < a) = Fx(b) - Fx(a), kde a = - ka, b = + ka, k = 1, 2, 3. Nakreslete hustotu rozdělení pravděpodobnosti, vybarvěte oblast mezi body a a b a popište osy x a y tak, jako je uvedeno na obrázku 1.
120   130   140   150   160   170 120   130   140   150   160   170 120   130   140   150   160 170
vyska (cm) vyska (cm) vyska (cm)
Pr(135.02<X<146.64)=68.27 Pr(129.2<X<152.46)=95.45 Pr(123.39<X<158.27)=99.73
1
Obrázek 1: Míry normálního rozdělení; křivka hustoty s vybarveným obsahem pod touto křivkou mezi příslušnými kvantily na ose x; obsah je rovný pravděpodobnosti výskytu subjektů s danou výškou v rozpětí těchto kvantilů.
Dostaneme pravidlo 68.27 — 95.45 — 99.73 (tzv. míry normálního rozdělení.
Příklad č.5 (normální rozdělení)
Mějme X ~ N(fi, a2), kde fi = 150, a2 = 6.25. Vypočítejte a = fi — Xi_a/2<J a b = ^+Xi_a/2U tak, aby Pr(a < X < b) = 1 — a, byla rovná 0.9, 0.95, 0.99. Číslo Xi_a/2 je kvantil normovaného normálního rozdělení, t.j. Pr(Z = < x\-a, Z ~ N(0,1). Nakreslete hustotu rozdělení pravděpodobnosti, vybarvěte oblast mezi body a a b a popište osy x a, y tak, jako je uvedeno na obrázku 2.
135      140      145      150      155      160      165 135     140     145     150     155     160     165 135    140    145    150    155    160 165
vyska (cm) vyska (cm) vyska (cm)
Pr(145.89<X<154.11 )=0.9 Pr(145.1 <X<154.9)=0.95 Pr(143.56<X<156.44)=0.99
Obrázek 2: Upravené míry normálního rozdělení; křivka hustoty s vybarveným obsahem pod touto křivkou mezi příslušnými kvantily na ose x; obsah je rovný pravděpodobnosti výskytu subjektů s danou normovanou výškou v rozpětí těchto kvantilů.
Dostaneme pravidlo 90 — 95 — 99 (tzv.upravené míry normálního rozdělení. Použili jsme nerovnost Pr(ua/2<z<u1_a/2 = — = 1 — a, kde $ je distribuční funkce normálního normo-
vaného rozdělení a všeobecně (a G (0,1/2); v příkladě a = 0.1, 0.05 a 0.01.
Příklad č.6 (normální rozdělení)
Předpokládejme model normálního rozdělení N(132,132) pro systolický krevní tlak. Jaká část populace (v %) bude mít hodnoty vyšší než 160 mm Hg?
Příklad č.7 (binomické rozdělení)
Předpokládejme, že počet lidí upřednostňujících léčbu A před léčbou B se řídí modelem binomického rozdělení s parametry N (rozsah náhodného výběru) a p (pravděpodobnost výskytu), ozn. Bin(N,p), kde N = 20, p = 0.5, t.j. lidé preferují oba dva typy léčby stejnou měrou, (a) Jaká je pravděpodobnost, že 16 a více pacientů upřednostní léčbu A před léčbou Bl (b) Jaká je pravděpodobnost, že 16 a více
2
a zároveň 4 a méně pacientů upřednostní léčbu A před léčbou B! Příklad č.8 (binomické rozdělení)
Předpokládejme, že Pr(mr) = 0.533 = p\ je pravděpodobnost výskytu dermatoglyfického vzoru vír na palci pravé ruky mužů české populace a Pr(ostatni) = 0.467 = P2 je pravděpodobnost výskytu ostatních vzorů na palci pravé ruky mužů české populace, přičemž X je počet vírů a ľ je počet ostatních vzorů, kde X ~ 5m(iV,pi) aľ~ Bin(N,p2). Vypočítejte (1) Pr(X < 120), když N = 300 a (2) Pr(F < 120), když iV = 300.
Příklad č.9 (parametry) (přednáška)
Příklady parametrů 9 - střední hodnota fi, rozptyl a2, korelační koeficient p, pravděpodobnost p výskytu nějaké události, rozdíl dvou středních hodnot fii — fi2, podíl dvou rozptylů o\jo\^ rozdíl dvou korelačních koeficientů p\ — P2, rozdíl dvou pravděpodobností p\ — p2 apod.
Příklad č.10 (binomické rozdělení) (přednáška)
Pokud X ~ Bin(N,9), 9 = p G (0; 1), potom Je stejný pro všechny 9 a koinciduje s výběrovým prostorem y = {0,1,..., N}.
Příklad č.11 (počet členů v mnohorozměrném LRM) (z přednášky)
Mějme mnohorozměrný lineární regresní model C o 20-ti proměnných, ve kterém jsou obsaženy všechny možné interakce těchto proměnných (dvojné, trojné,...). Kolik členů (jednoduché regresory + všechny interakce) má takový model?
Příklad č.ll (aproximace binomického rozdělení normálním)
Nechť Pr(muz) = p = 0.515 znamená pravděpodobnost výskytu mužů v populaci a Pr(zena) = q = 0.485 pravděpodobnost výskytu žen. Nechť X je počet mužů a Y počet žen. Za předpokladu modelu Bin(N,p) vypočítejte (a) Pr(X < 3) pokud N = 5, (b) Pr(X < 5), pokud N = 10 a (c) Pr(X < 25), pokud N = 50. Porovnejte vypočítané pravděpodobnosti s pravděpodobnostmi aproximovanými normálním rozdělením N(Np, Npq).
Nakreslete hustotu rozdělení pravděpodobnosti normálního rozdělení a superponujte ji pravděpodobnostní funkcí binomického rozdělení tak, jak je uvedeno na obrázku 3. Nakreslete distribuční funkci normálního rozdělení a superponujte ji distribuční funkcí binomického rozdělení tak, jak je uvedeno na obrázku 3.
Nakonec zvolte parametr p = 0.1 a vygenerujte analogické grafy hustoty a distribuční funkce pro tento nový parametr. Z obrázků je vidět, že pro p blížící se k 1 nebo k 0 je potřebné mít větší početnosti než pro p blízké hodnotě 0.5. Viz obrázek 4.
3
0 1 2 3 4 5 0 2 4 6 8        10 0        10       20       30       40 50
Bin(5,0.515) Bin(10,0.515) Bin(50,0.515)
Bin(5,0.515)
Bin(10,0.515)
Bin(50,0.515)
Obrázek 3: Aproximace binomického rozdělení normálním pro p = 0.515 a N = 5,10 a 50; spojnicový graf superponovaný hustotou (první řádek) a distribiční funkcí (druhý řádek).
4
0 1 2 3 4 5 0 2 4 6 8        10 0        10       20       30       40 50
Bin(5,0.1) Bin(10,0.1) Bin(50,0.1)
Obrázek 4: Aproximace binomického rozdělení normálním pro p = 0.515 a N = 5,10 a 50; spojnicový graf superponovaný hustotou (první řádek) a distribiční funkcí (druhý řádek).
Příklad č.12 (normální rozdělení)
Model pro náhodný výběr Xi,X2,... ,Xn je z N(fi,a2) a říkáme, že Xi,X2,... ,Xn pochází z normálního rozdělení, t.j. X ~ N(fi,a2). Parametr modelu N(fi,a2) je vektor 0 = (fi,a2). Hustota tohoto rozdělení má tvar
1 (z-m)2
/(x) = e "^2— ,rr G M.
Příklad č.13 (standardizované normální rozdělení)
Model pro náhodný výběr Xi,X2, \dots,Xn pochází ze standardizovaného normálního rozdělení, t.j. X ~ N(fi,a2), kde fi = 0, a2 = 1. Parametr modelu N(fi,a2) je vektor 0 = (0,1). Hustota tohoto rozdělení má tvar
1 £Í
0(rr) = -^=e * ,x eR.
Příklad č.14 (dvojrozměrné normální rozdělení)
Náhodný vektor (X, Y)T má dvojrozměrné normální rozdělení
iV2(^,S), kde » = (^,^)r a S = ( °* pa\a2 s hustotou
/(X'y)-2ny/o**Ul-ŕ)       l   2(1-/*) l     CTf CT1CT2 CT|
5
9999999999999^
kde (x, y) G M2, fij G ÍR, ^ > O, j = 1,2, p G (—1,1) jsou parametry. Potom 6 = (/ii,/12, o"2, o"|, p). Výraz v exponentu můžeme zapsat jako
_ 1 / x - /i! \T /   of     po-i0-2 \  1 / x _ /ii \ 2 V Ž/ - P2 y   V P^i^     of    /     \V-fJ-2 )'
Marginální rozdělení1 jsou X ~ N (pi, o^) a "K ~ a?" (/í2, čt|), p je koeficient korelace2(Viz obrázek 5) Příklad č.15 (dvojrozměrné normální rozdělení)
(1) Nakreslete hustotu dvojrozměrného normálního rozdělení a^a*, E) pomocí funkce image() a superponujte ho s konturovým grafem hustoty toho stejného rozdělení pomocí funkce contour(). (2) Nakreslete hustotu dvojrozměrného normálního rozdělení N2(n, S) pomocí funkce persp(). Hustotu rozsekejte na 12 intervalů, kde hodnoty v těchto intervalech budou odpovídat barvám terrain.colors(12). Použijte následující parametry:
•	Pl	= 0,	P2	= o,	01	= 1,02 =	1.	»P =	0;
•	Pl	= 0,	P2	= o,	01	= 1,02 =	1.	>P =	0.5;
•	Pl	= 0,	P2	= 0,	0"!	= 1-2, 02	=	1,P	= 0.5
Vzorové řešení je uvedeno na obrázku 5.
1 Marginální rozdělení je rozdělení náhodné proměnné, zde X nezávisle na y a naopak Y nezávisle na X.
2Z tohoto příkladu je zřejmé, že na dostatečný popis dvojrozměrného normálního rozdělení potřebujeme pět parametrů, t.j. střední hodnotu a rozptyl pro marginální rozdělení náhodných proměnných X a Y a korelační koeficient p = p(X,Y) popisující sílu lineárního vztahu X &Y.
6
H! = O, n2 = O, o, = 1, o2 = 1, p = O
Hi = O, n2 = O, o, = 1, o2 = 1, p = 0.5
H, = 0, n2 = 0, o, = 1, o2 = 1.2, p = 0.5
Obrázek 5: Hustoty dvojrozměrného normálního rozdělení při různých parametrech (první řádek -konturový graf; druhý řádek - perspektivní trojrozměrný graf v podobě plochy); čím je p odlišnější od nuly, tím více se kontury liší od kruhů (mění se na elipsy); se zvyšujícím se rozdílem mez o\ a o"2 se zvětšuje rozdíl rozptýlení koncentrických kruhů ve směru jednotlivých os (říkáme, že rozdíl variability proměnných laľse zvětšuje.)
Příklad č.17 (standardizované normální rozdělení)
Náhodný vektor (X, Y)T má dvojrozměrné normální rozdělení
N2 (0, S), kde 0 = (0, 0)T aS - ' 9
s hustotou
0 (x, y) = f (x, y) =-- exp
p 1
x2 — 2pxy + y2
kde (x,y)T G IR2, p G (—1,1) jsou parametry, potom 0 = (0,0,1, l,p). Výraz v exponentu můžeme psát jako
í ŕ x \   i 1   p \ (x
2\yJ \ p 1/ \y
marginální rozdělení jsou obě N(0,1) a p je koeficient korelace.
7
Příklad č. 18 (standardizované normální rozdělení)
Nechť náhodnou proměnnou X ~ N(pi, af) je největší výška mozkovny (skuli.pH; v mm) a náhodnou proměnnou Y ~ N(p2,a2) je morfologická výška tváře (face.H; v mm). Nechť X a Y mají dvojrozměrné normální rozdělení s parametry (pi, p2)T a a\ a P Jsou parametry kovarianční matice S. Když od náhodné proměnné X odpočítáme její střední hodnotu p\ a tento rozdíl podělíme odmocninou z rozptylu (o"i), dostaneme náhodnou proměnnou Zx, která má asymptoticky normální rozdělení se střední hodnotou p\ = 0 a rozptylem o\ = 1, což zapisujeme jako Zx ~ N(0,1). Pokud od náhodné proměnné Y odečteme její střední hodnotu p2 a tento rozdíl podělíme odmocninou z rozptylu (o"2), dostaneme náhodnou proměnnou Zy, která má asymptoticky normální rozdělení se střední hodnotou /i2 = 0a rozptylem o\ = 1, což zapisujeme jako Zy ~ ÍV(0,1). Potom (Zx, Zy)t má standardizované dvourozměrné normální rozdělení N2(fi, S) s parametry [i = (0,0)T a o\ = 1, o"2 = 1 a p jsou parametry kovarianční matice S.
Příklad č.19 (dvourozměrné normální rozdělení)
Simulaci pseudonáhodných čísel z N2(fi, S) můžeme v R vytvořit následujícími způsoby:
1. použitím funkce mvrnorm() z knihovny MASS;
2. použitím funkce rmvnorm() z knihovny mvtnorm
3. použitím funkce rnorm() a následujícího algoritmu:
Nechť X1 ~ ÍV(0,1) a X2 ~ ÍV(0,1); potom (Yi, F2)T ~ iV2(/x, S), kde fi = (fiu p2)T je vektor středních hodnot a o\ a a| a p jsou parametry kovarianční matice S, přičemž síla lineárního vztahu Yi a Y2 je daná velikostí a znaménkem p; = aiXi + p± &Y2 = a2(pXi + a/1 — p2X2) + P2- Nasimulujte pseudonáhodná čísla Yi a Y2 z ^(a*, S). Vypočítejte dvourozměrný jádrový odhad hustoty (Yi, Y"2)T pomocí funkce kde2d(). Nakreslete jej také pomocí funkce image() a superponujte jej konturovým grafem hustoty dvourozměrného normálního rozdělení N2(n,H) pomocí funkce contour(). Hustotu rozsekejte na 12 intervalů, kde hodnoty v těchto intervalech budou odpovídat barvám terrain.colors(12). Při simulaci použijte následující parametry:
(a)	pi	= 0,	^2	= 0,	01	= 1,	0-2 =	1, p =	0; (1) n = 50, (2) n = 500
(b)	pi	= 0,	^2	= 0,	o"i	= 1,	0-2 =	1, p =	0.5; (1) n = 50, (2) n = 500
(c)	pi	= 0,	^2	= 0,	O"!	= 1,	a2 =	1.2, p	= 0.5; (1) n = 50, (2) n = 500
Vzorové řešení viz obrázek 6.
8
Simulace pseudonahodnych cisel z N2(u., I) _funkce mvrnorm; N = 300_
i-1-1-1-1-1-1-r
-3-2-10 1 2 3
(i! = 0, [i2 = 0, a-i = 1, o2 = 1, p = 0
Simulace pseudonahodnych cisel z N2(u., I) funkce rmvnorm; N = 300
0		0	
o V		\X° °	CM -
o / y i 7 offff		iV\r^\ 00 \\\\ \ \ °	
ID olgl o     A Jtí^		vil A jo J o o	
•			
o	v          O o Tr^o.o2—■ 0	° 0	^ -
-3-2-10 1 2 3
Hi = 0, n2 = 0, o, = 1, o2 = 1, p = 0
Simulace pseudonahodnych cisel z N2(^i, E) funkce rnorm; N = 300
Hi =0, n2 = 0, o, = 1, o2 = 1, p = 0
Simulace pseudonahodnych cisel
funkce mvrnorm; N = 300
Simulace pseudonahodnych cisel
funkce rmvnorm; N = 300
Simulace pseudonahodnych cisel
funkce rnorm; N = 300
Hi = 0, p-2 = 0, o, = 1, o2 = 1, p = 0
Hi = 0, p-2 = 0, o, = 1, o2 = 1, p = 0
-3-2-10 1 2
Hi =0, n2 = 0, o, = 1, o2 = 1, p = 0
Obrázek 6: Hustoty dvourozměrného normálního rozdělení Příklad č.23 (binomické rozdělení, binomický experiment)
Experiment sestávající z fixního počtu Bernoulliho experimentů (ozn. N) se nazývá binomický experiment. Pravděpodobnost úspěchu označme p, pravděpodobnost neúspěchu q = 1 — p. Náhodná proměnná X je počet pozorovaných úspěchů po dobu experimentu. Pravděpodobnost X = x za podmínky, že X pochází z binomického rozdělení Bin(N,p), píšeme jako
Pr(X = x)
x
px(l-p)
N-x
x = 0,l,...,N
(1)
(Ugarte a kol. 2008). Střední hodnota E[X] = Np a rozptyl Var[X] = Np(l — p). Naprogramujte a zobrazte v R pravděpodobnostní funkci a (kumulativní) distribuční funkci pro 5m(5,0.5). Řešení viz obrázek 7.
9
Pravdepodobnosti funkce binomického rozděleni Bin(5,0.5)
Distribuční funkce binomického rozděleni Bin(5,0.5)
Obrázek 7: Pravděpodobnostní a distribuční funkce binomického rozdělení Bin(5, 0.5)
10