Ústav matematiky a statistiky Přírodovědecká fakulta Masarykova univerzita Štatistická inferencia I a II Zadania príkladov a domácich úloh a niektoré riešenia Stanislav Katina katina@math.muni.cz 3. júna 2014 Obsah 1 Model rozdelenia pravdepodobnosti a štatistický model 1 1.1 Simulačný experiment ako nástroj štúdia teoretických vlastností modelov....... 14 1.2 Štatistika .......................................... 16 1.3 Funkcia vierohodnosti ................................... 17 2 Charakteristiky polohy a variability 21 3 Testovanie hypotéz 22 3.1 Testy dobrej zhody..................................... 24 3.2 Asymptotické testy o jednom parametri.......................... 26 Katina, S., 2013: Štatistická inferencia I a II 1 1 Model rozdelenia pravdepodobnosti a štatistický model Príklad 1 (porovnanie dvoch typov modelov) Model rozdelenia pravdepodobností je modelom náhodnej premennej X, napr. model rozdelenia pravdepodobnosti náhodnej premennej X šírka dolnej čeľuste alebo (2) model rozdelenia pravdepodobnosti náhodnej premennej X hrúbka kožných rias u dospelých zdravých žien. Statistický model je modelom náhodnej premennej Y\X (Y kauzálne závisí na X), napr. (1) model závislosti náhodnej premennej Y šírka dolnej čeľuste závislá na premennej X pohlavie alebo (2) model náhodná premenná Y hrúbka kožných rias u dospelých zdravých žien závislá na premennej X BMI. Všimnime si, že náhodné premenné označujeme X alebo Y podľa toho, aký model ich charakterizuje. pred. Príklad 2 (jednoduchý náhodný výber) V jednoduchom náhodnom výbere s rozsahom n z populácie s konečným rozsahom N má každý prvok rovnakú pravdepodobnosť vybratia. Ak vyberáme bez vrátenia, hovoríme o jednoduchom náhodnom výbere bez vrátenia1. Ak vyberáme s vrátením, hovoríme o jednoduchom náhodnom výbere s vrátením2. Majme množinu Ai s N = 10 prvkami a chceme z nej vybrať n = 3 prvkov (a) bez vrátenia a (b) s vrátením. Koľko máme možností? Ako vyzerá jedna takáto možnosť, ak ide o množinu M. = {1, 2,..., 10}. Zopakujte to isté pre N = 100, n = 30 a množinu M = {1,2,..., 100}. cvič. Riešenie a j v ® (a) Spolu máme (^) možných náhodných výberov. Ak N = 10 a n = 3, potom kombinačné číslo (n) = (NNn)!n! = (3°) = 120 možností- Ak N = 100 a n = 30, potom (^) = (^) = 2.937234 x 1025 možností. choose(10,3) # počet všetkých možných výberov bez vrátenia choose(100,30) library(utils) combn(10,3) # počet všetkých možných výberov bez vrátenia combn(100,30) sample(x=l:10,size=3,replace = FALSE) # jednoduchý náhodný vyber bez vrátenia sample(x=l:100,size=30,replace = FALSE) (b) Spolu máme ^N+n~1^ možných náhodných výberov. Ak N = 10 a n = 3, potom ^N+n~1^ = ^0 = (10+3-1) = 220 možností. Ak N = 100 a n = 30, potom f^-1) = (100+f-1) = 2.009491 x 1029 možností. choose(10+3-1,3) # počet všetkých možných výberov s vratenim choose(100+30-l,30) library(utils) combn(10+3-l,3) # počet všetkých možných výberov s vratenim combn(100+30-l,30) sample(x=l:10,size=3,replace = TRUE) # jednoduchý náhodný vyber s vratenim sample(x=l:100,size=30,replace = TRUE) Príklad 3 (jednoduchý náhodný výber) Nech je skupina ľudí označená identifikačnými číslami (ID) od 1 do 30. Vyberte (a) náhodne 5 ľudí z 30 bez návratu, (b) náhodne 5 ľudí z 30 s návratom a nakoniec (c) náhodne 5 ľudí z 30 bez návratu, kde ľudia s ID od 28 do 30 majú pravdepodobnosť vybratia 4x väčšiu ako ľudia s ID od 1 do 27. cvič. 1 Kombinácie bez opakovania n-tej triedy z N prvkov množiny A4. 2Kombinácie s opakovaním n-tej triedy z N prvkov množiny A4. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 2 Riešenie v <& sample(x=l:30,size=5,replace = FALSE) sample(x=l:30,size=5,replace = TRUE) sample(x=l:30,size=5, prob=c(rep(l/39,27),rep(4/39,3)), replace = FALSE) Príklad 4 (normálne rozdelenie) Majme náhodnú premennú X (môže to byť napr. výška postavy 10- ročných dievčat) a predpokladáme, že má normálne rozdelenie s parametrami fi (stredná hodnota) a a2 (rozptyl), čo zapisujeme ako X ~ N(fi,a2), fi = 140.83, a2 = 33.79. Normálne rozdelenie predstavuje model rozdelenia pravdepodobnosti pre túto náhodnú premennú. Vypočítajte pravdepodobnosť Pr(a < X < b) = Pr(X < b)-Pi (X < a) = Fx {b)-Fx (a), kde a = fi-ka, b = fi + ka, k = 1,2,3.3 pred. Riešenie (aj v ®); (pozri obrázok 1) a = fi-a = 135.0171, b = fi + a = 146.6429, Pr (\X - /x| > a) = 0.3173, Pr (\X - /i| < a) = 1 - 0.3173 = 0.6827, a = /i-2a= 129.2042, b = /i + 2a = 152.4558, Pr (\X - fi\ > 2a) = 0.0455, Pr (\X - fj,\ < 2a) = 1 - 0.0455 = 0.9545, a = /j - 3a = 123.3913, b = /j + 3a = 158.2687, Pr (\X - /x| > 3a) = 0.0027, Pr (\X - /x| < 3a) = 1 - 0.0027 = 0.9973. Alternatívny výpočet cez štandardizované normálne rozdelenie (syn. normálne normované rozdelenie) je nasledovný: mu <- 0 sig <- 1 bin <- seq(mu-3*sig,mu+3*sig,by=sig) pnorm(bin[7]) - pnorm(bin[1]) # 0.9973002 pnorm(bin[6]) - pnorm(bin[2]) # 0.9544997 pnorm(bin[5]) - pnorm(bin[3]) # 0.6826895 Dostaneme pravidlo 68.27 — 95.45 — 99.73 (tzv. "miery normálneho rozdelenia"). Príklad 5 (normálne rozdelenie) Majme X ~ N(fi,a2), kde fi = 150, a2 = 6.25. Vypočítajte a = fi — Xi_aa a b = fi + X\_aa tak, aby Pr (a < X < b) = 1 — a, bola rovná 0.90, 0.95 a 0.99. Číslo xi-a Je kvantil normálneho normovaného rozdelenia, t.j. Pr(Z = < Xi_a) = 1 — a, Z ~ N(0,1). pred. Riešenie (aj v <Ä); (pozri obrázok 2) Pr (/x — Xi-aa < X < fi + Xi-aa) = Pr (X < fi + Xi-aa) — Pr (X < fi — Xi-aa) = 1 — a = 0.9. Z-transformáciou4 na normálne normované rozdelenie dostaneme Pr(— x\-a < X < xi-a) = 0.9, kde 11- xx-a(j-ii _ _Xi_a^ n+x1-a(T-n _ Xl_a^ xi_a = x09 = 1.64, t.j. 90.00 % dát leží v intervale /x± 1.64a. Pr (a < X < b) = 0.95. Potom x0,95 = 1.96, t.j. 95.00 % dát leží v intervale /i ± 1.96a. Pr (a < X < b) = 0.99. Potom x0,99 = 2.58, t.j. 99.00 % dát leží v intervale ± 2.58a. 3Pravdepodobnosť Pr (a < X < b) — Pr (a < X < b), pretože pravdepobnosť v bode (tu a a b) je rovná nule pre spojité premenné, t.j. Pr(a) — Pr(6) — 0. Pre diskrétne premenné to neplatí. 4Z-transformácia je spôsob transformácie náhodnej premennej X ~ N (/i, c2) pomocou centrovania strednou hodnotou /i a normovania smerodajnou odchýlkou a, kde Z — ; Z ~ N(0,1). (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 3 Obr. 1: Miery normálneho rozdelenia; krivka hustoty s vyfarbeným obsahom pod touto krivkou medzi príslušnými kvantilmi na osi x; obsah je rovný pravdepodobnosti výskytu subjektov s danou výškou v rozpätí týchto kvantilov Q95 <- qnorm(0.95,0,l) # 1.644854 Q05 <- qnorm(0.05,0,l) # -1.644854 Q975 <- qnorm(0.975,0,l) # 1.959964 Q025 <- qnorm(0.025,0,l) # -1.959964 Q995 <- qnorm(0.995,0,l) # 2.575829 Q005 <- qnorm(0.005,0,l) # -2.575829 normovaná výska normovaná výska normovaná výska Pr(-1.6449 160) = Pr > 16°-132) = Pr > 2.154) = 0.016. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 4 (l-pnorm(160,mean=132,sd=13))*100 # 1.562612 °/„ z.transf <- (160-132)/13 (l-pnorm(z.transf))*100 # 1.562612 °/„ Teda asi 1.6 % populácie z N (132,132) bude mať systolický krvný tlak väčší ako 160 mm Hg. Príklad 7 (binomické rozdelenie) Predpokladajme, že počet ľudí uprednostňujúcich liečbu A pred liečbou B sa správa podľa modelu binomického rozdelenia s parametrami p (pravděpodobnost výskytu udalosti) a N (rozsah náhodného výberu), ozn. Bin (N,p), kde N = 20,p = 0.5, t.j. ľudia preferujú oba typy liečby rovnako, (a) Aká je pravdepodobnosť, že bude 16 a viac pacientov uprednostňovať liečbu A pred liečbou B? (b) Aká je pravdepodonosť, že bude 16 a viac a zároveň 4 alebo menej pacientov uprednostňovať liečbu A pred liečbou B ? pred. Riešenie (aj v Qt) (a) Pr(X > 16) = l-£ťMi<15Pr (X = Xi) = l-£ťMi<15 ©^'(l-p)""*' = l"IU 16), ale my potrebujeme Pr(X > 16). Preto <®-kód upravíme nasledovne l-pbinom(15,size=20,prob=0.5) # 0.005908966 sum(choose(20,16:20)*0.5-(16:20)*0.5-(20-16:20)) # 0.005908966 (b) Pr(X < A, X > 16) = 1 - E^ 5 a Nq > 5, kde q = l—p, potom rozdelenie náhodnej premennej X môžeme aproximovat' normálnym rozdelením , kde V ~ N(Np, Npq). pred. 0.5, t.j. Pi — p2 a pod. pred. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 5 Príklady minimálnych N pre fixované p potrebných na aproximáciu P 0.1 0.2 0.3 0.4 0.5 Q 0.9 0.8 0.7 0.6 0.5 N 51 26 17 13 11 Príklad 11 (aproximácia binomického rozdelenia normálnym) 5Nech Pľ(muž) = 0.515 znamená pravdepodobnosť výskytu mužov v populácií a Pľ(žena) = 0.485 pravdepodobnosť výskytu žien. Nech X je počet mužov a Y počet žien. Za predpokladu modelu Bin(N,p) vypočítajte (a) Pr(X < 3), ak N = 5, (b) Pr(X < 5), ak N = 10 a (c) Pr(X < 25), ak N = 50. Porovnajte vypočítané pravdepodobnosti s pravdepodobnosťami aproximovanými normálnym rozdelením N(Np, Npq). cvič. Riešenie (aj v 0, j = 1,2, p E (—1,1) sú parametre, potom 0 = (pi, p2, crf, a2, p). Výraz v exponente môžeme písať ako _}_fx-pi\T í o\ paľa2\ 1íx-p1\ 2\y-p2j A J yy-^J' marginálne rozdelenia6 sú X ~ N (p±,af) a Y ~ N (p2, u2), P Je koeficient korelácie7(pozri obrázok 5). Príklad 15 (dvojrozmerné normálne rozdelenie) Nech náhodnou premennou X je najväčšia výška mozgovne (skull.pH; v mm) a náhodnou premennou Y je morfologická výška tváre (face.H; v mm). Nech E [X] = p\ je stredná hodnota najväčšej výšky mozgovne a Var[X] = o\ je rozptyl najväčšej výšky mozgovne, E [Y] = p2 je stredná hodnota morfologickej výšky tváre a Var [Y] = a2 je rozptyl morfologickej výšky tváre. Predpokladajme, že najväčšia výška mozgovne X má normálne rozdelenie N(p1} af) a morfologická výška tváre Y má normálne rozdelenie N(p2, a%). Potom (X, Y)T má dvojrozmerné normálne rozdelenie N2 (fi, S) s parametrami [i = (p1} p2)T, čo je vektor stredných 6Margináne rozdelenie je rozdelenie marginálnej náhodnej premennej, tu X nezávisle na y a naopak Y nezávisle na X. 7 Z tohto príkladu je zrejmé, že na dostatočný popis dvojrozmerného normálneho rozdelenia potrebujeme päť parametrov, t.j. strednú hodnotu a rozptyl pre marginálne rozdelenie náhodných premenných X s. Y s. korelačný koeficient p — p(X,Y) popisujúci silu lineárneho vzťahu X a Y. CV1C. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 7 JTík_ t-1-1-r 10 15 t-1-1-r 10 15 Obr. 4: Aproximácia binomického rozdelenia normálnym pre p = 0.1 a N = 5,10 a 50; spojnicový graf superponovaný hustotou (prvý riadok) a distribučnou funkciou (druhý riadok) hodnôt a o\, o\ a p, čo sú parametre kovaríančnej matice S, kde sila lineárneho vzťahu týchto dvoch premenných je daná veľkosťou a znamienkom p. Možno predpokladať, že oba rozmery spolu pomerne silno korelujú (p bude číslo blížiace sa jednotke) a tvar dvojrozmernej hustoty sa bude blížiť prostrednému stĺpcu na obrázku 5. cvič. Príklad 16 (štandardizované dvojrozmerné normálne rozdelenie) Náhodný vektor (X, Y)T má dvojrozmerné normálne rozdelenie N2 (0, S), kde 0 = (0, 0)T a S = f1 ? s hustotou (x,y) = f (x, y) 2n^l-p2 exp x2 — 2pxy + y2 2(1-P2) kde (x, y)T G IR2, p G (—1,1) sú parametre, potom 6 = (0, 0,1,1, p). Výraz v exponente môžeme písať ako i. f x \ f 1 p \ / x 2 \yJ \p 1J \y. marginálne rozdelenia sú obe N (0,1) a p je koeficient korelácie. Príklad 17 (štandardizované dvojrozmerné normálne rozdelenie) Nech náhodnou premennou X ~ N(p1}af) je najväčšia výška mozgovne (skull.pH; v mm) a náhodnou premennou Y ~ N(p2, Vi- = Yýj=4Pj> P3- = Y^9j=7Pj> O3) stĺpcové marginálne pravdepodobnosti p.\ = p\ +P4 + Pi, P-2 = P2 +Pľ> +P8, P-3 = P3 +P6 +P9; (c) podmienené pravdepodobností p^ = pkj; (d) podmienené pravdepodobnosti pk\j = Pjt; (d) akému číslu sú rovné sumy Yýj=iPj\k Pre každé k a Yýk=iPk\j Pre každé j? farba vlasov/farba očí modrá (BIE) hnedá (BrE) zelená (GE) blond (BIH) 0.12 0.15 0.03 hnedá (BrH) 0.22 0.34 0.04 ryšavá (RH) 0.06 0.01 0.03 Riešenie (čiastkové) Marginálne pravdepodobnosti sú Pr (BIH) = 0.3, Pr (BrH) = 0.6, Pr (RH) = 0.1, Pr (BIE) = 0.4, Pr (BrE) = 0.5, Pr (GE) = 0.1. Podmienené pravdepodobnosti p^y sú Pr (BIH\BIE) = Pr (BIH n BIE) / Pr (BIE) = 0.12/0.4 = 0.3, Pr (BIH\BIE) = Pr (BIH), Pr (BrH\BlE) = 0.22/0.4 = 0.55, Pľ(BrH) = 0.6. Ak vieme, že niekto má modré oči, potom bude menej pravdepodobné, že má hnedé vlasy v porovnaní s tým, keď nevieme, akej farby má oči. Teda Pt(BIE\BIH) = 0.12/0.3 = 0.4, Pľ(BlE\BlH) = Pt(BIE), Pr (BrE\BlH) = Pľ(BrE), Pľ(GE\BlH) = Pľ(GE). Informácia, že má niekto blond vlasy, nám nedáva ďalšiu informáciu o farbe jeho očí. Binomické, multinomické a súčinové multinomické rozdelenie sú vhodné v prípadoch, keď máme počet pokusov N nie príliš velký a pravdepodobnosti výskytu udalostí p nie príliš malé. V opačnom prípade je vhodné Poissonovo rozdelenie. Príklad 23 (Poissonovo rozdelenie; počet havárií za týždeň) Ak každý z 50 miliónov ľudí šoféruje auto v Taliansku budúci týždeň nezávisle, potom pravdepodobnosť smrtí pri autonehode bude 0.000002, kde počet úmrtí má binomické rozdelenie Bin(50míl, 0.000002) alebo limitné Poissonovo rozdelenie s parametrom 50míl x 0.000002 = 100. pred. Príklad 24 (Poissonovo rozdelenie; pruské armádne jednotky) Nech početností úmrtí X ako následok kopnutia koňom v Pruských armádnych jednotkách, má Poissonovo rozdelenie s parametrom X, t.j. X ~ Poiss(X). Pravdepodobnosť, že niekto bude smrteľne zranený v danom dní je extrémne malá. Majme 10 vojenských jednotiek za 20-ročnú periódu s rozsahom M = 200 (200 = 10 x 20), kde popri početnostiach úmrtí n = 1,2,3,4, > 5, v danej jednotke a v danom roku, zaznamenávame aj početností vojenských jednotiek mn pri danom n, kde M = ^mn (pozri tabuľku). Vypočítajte očakávané početnosti, za prepokladu X ~ Poiss(X), kde X = ^n™" ■ DÚ (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 13 n 0 1 2 3 4 5+ mn 109 65 22 3 1 0 Príklad 25 (Poissonove rozdelenie; tri typy havárií) Nech n\ je počet ľudí, ktorí zahynú pri automobilovej nehode, n2 je počet ľudí, ktorí zahynú pri havárii lietadla, n3 je počet ľudí, ktorí zahynú pri havárii vlaku v Taliansku budúci týždeň. Potom Poissonov model pre X2, X3) vytvára nezávislé poissonovské náhodné premenné s parametrami (Ai, A2, A3) a X\ + X2 + X3 ~ Poiss(Ai + A2 + A3). Príklad 26 (podiel chlapcov a dievčat v rodinách) Nech X predstavuje početnosť chlapcov medzi deťmi v rodinách. Tu môžeme predpokladať, že X ^ Bin(N,p), t.j. rodina môže mať vychýlený pomer pohlaví detí v smere ku chlapcom alebo dievčatám. V realite teda môžeme mať príliš veľa rodín len s chlapcami alebo len s dievčatami a nemáme dostatok rodín s pomerom pohlaví blízkym 51 : 49 (pomer chlapcov ku dievčatám). Z toho nám vyplýva, že rozptyl početnosti chlapcov bude v skutočnosti väčší ako rozptyl predpokladaný binomickým modelom Bin(N,p). Príklad 27 (overdispersion v binomickom modeli) V klasickej štúdii pomeru pohlaví u ľudí z roku 1889 na základe záznamov z nemocníc v Sasku Geissler zaznamenal rozdelenie počtu chlapcov v rodinách. Medzi M = 6115 rodinami s N = 12 deťmi pozoroval nasledovné početnosti chlapcov (n sú početnosti chlapcov a mn početnosti rodín s n chlapcami) n 0 1 2 3 4 5 6 7 8 9 10 U 12 mn 3 24 104 286 670 1033 1343 1112 829 478 181 45 7 Vypočítajte mn za predpokladu, že početnosti chlapcov X v rodinách majú binomické rozdelenie s parametrami n Riešenie n=0 nmn NM 0.5192 a N = 12, ozn. X ~ Bin(N,n) n 0 1 2 3 4 5 6 7 8 9 10 11 12 očakávané mn 1 12 72 258 628 1085 1367 1266 854 410 133 26 2 Keď porovnáme pozorované mn a vypočítané (teoretické) mn zistíme, že pozorované poukazujú na overdispersion, t.j. máme väčšie početnosti rodín s malým a velkým množstvom chlapcov v porovnaní s teroretickými početnosťami. Príklad 28 (overdispersion v Poissonovom modeli) Majme početnosti úrazov n medzi robotníkmi v továrni, kde početnosti robotníkov mn pri danom n pozri v tabuľke. n 0 1 2 3 > 4 mn 447 132 42 21 5 Vypočítajte očakávané početnosti robotníkov za predpokladu, že početnosti úrazov na robotníka X majú Poissonove rozdelenie s parametrom A = Riešenie 0.47, ozn. X ~ Poiss(X). n 0 1 2 3 > 4 očakávané mn 406 189 44 7 1 Keď porovnáme pozorované mn a vypočítané (teoretické, očakávané) mn zistíme, že pozorované poukazujú na overdispersion, t.j. máme viac robotníkov bez úrazu ako aj viac robotníkov s väčším množstvom úrazov v porovnaní s teroretickými početnosťami. pred. pred. cvic. cvic. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 14 1.1 Simulačný experiment ako nástroj štúdia teoretických vlastností modelov Príklad 29 (binomický experiment, simulačná štúdia) Vygenerujte pseudonáhodné čísla opakované M-krát (M = 1000,) z 5m(5,0.5). Vytvorte tabulku vygenerovaných ako aj teoretických realizácií (pre n = 0,1,... ,5), superponujte histogram vygenerovaných realizácií s pravdepodobnostnou funkciou teoretických realizácií (pozri obrázok 9). cvič. Riešenie r 0 1 2 3 4 5 simulované realizácie teoretické realizácie 0.031 0.031 0.158 0.156 0.302 0.312 0.324 0.312 0.161 0.156 0.024 0.031 úspechy teoretické realizácie superponované vygenerovanými Obr. 9: Teoretické realizácie (relatívne početnosti) z Bin(5,0.5) superponované vygenerovanými (M = 1000,n = 5); histogram superponovaný spojnicovým grafom Príklad 30 (CLV pre binomické rozdelenie) 8Na základe CLV môžeme tvrdiť, že pre náhodnú premennú X^ platí = *N~Np = ~ JV(0,1); t.j. X^ má pre dostatočne vetké N asymptoticky ^Np(l-p) normálne rozdelenie X^ ~ N(Np, Np(l — p)). Ukážte, že CLV platí pre X^ ~ Bin(N,p), ak N = 100, p = 1/2, na tri desatinné miesta. cvič. Riešenie (aj v CH) E[XN] = Np = 50, y/Var [XN] = y/Np(l-p) = y/E. Ak YN = XN/N, potom Prflyjv - 1/2| < e) = 0.236, kde e = 0.02. Pr(0.48 < Ywo < 0.52) = Pr(48 < X100 < 52) = Pr(48.5 < X100 < 51.5) = pr(^° < ^ < 5M_50)? Me ^ _ N^ 5)- pbinom(51,100,.5) - pbinom(48,100,.5) # 0.2356466 pnorm(51.5,50,5) - pnorm(48.5,50,5) # 0.2358228 Výsledky sa zhodujú na tri desatinné miesta. Všeobecne platí Xm ~ N(M/2, M/4) a Ym = Xm/M ~ iV(l/2,1/(4M)). 8Príklad hovorí o tom, ako dobre normálne rozdelenie aproximuje binomické pri rozsahu N — 100, čo je dôležité pri testovaní hypotéz. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 15 Príklad 31 (CLV pre normálne rozdelenie) 9Na základe simulačnej štúdie (M=500000) preverte, že ak Xn ~ iV(150, 6.25), potom Xn ~ iV(150, 6.25/n) pre n = 30. Vypočítajte Pr(Xn > 151) zo simulovaných dát a porovnajte tento výsledok s teoretickou (očakávanou) pravdepodobnosťou. cvič. Riešenie (aj v ®) (pozri obrázok 10) Pr(Xn > 151) = Pr(Jf0^ > Jfe^) ~ $(2.190890) = 0.01422987. l-pnorm((151-150)/sqrt(6.25/30)) # 0.01422987 M <- 500000; n <- 30 x <- rnorm(M*n,150,sqrt(6.25)) x.mat <- matrix(x,M) x.bar <- rowMeans(x.mat) mean(x.bar > 151) # 0.014238 hist(x.bar, probability = TRUE, col="gray", main="", ylab="hustota",xlab="simulovane výberové priemery") curve(dnorm(x,150,sqrt(6.25/30)),from=147,to=152,lwd=2, add = TRUE) Pri dostatočne veľkom počte opakovaní vidíme zhodu medzi teoretickým a simulovaným rozdelením Xn na tri desatine miesta (pri výpočte zadanej pravdepodobnosti). 1 148 149 150 151 152 simulovane výberové priemery Obr. 10: Teoretické realizácie z iV(150, 6.25/30) v podobe krivky hustoty superponované vygenerovanými (M = 500000, n = 30) v podobe histogramu Príklad 32 (CLV pre normálne rozdelenie, jeden náhodný výber) 10Majme náhodné výbery s rozsahmi n = 2,5,20, 50,100 a 500 z rozdelení (a) N(fi, a2), fi = 0, a2 = 1, (b) Exp(X), X = 1/3, (c) Unif (min, max), min = 0,max = 1, (d) zmes dvoch N(/2,a2): 0.1 x ÍV(0,10) + 0.9 x ÍV(0,1). Použite na simuláciu náhodných výberov (počet simulácií je M = 1000,), pre každú simuláciu vypočítajte aritmetické priemery xm, m = 1, 2,..., M a zobrazte ich do histogramu superponovaného krivkou hustoty teoretického rozdelenia N(fi,a2/n) prislúchajúceho danej simulácii. cvič. 9Príklad hovorí o tom, že ak má náhodná premenná Xn normálne rozdelenie, bude mať normálne rozdelenie aj aritmetický priemer Xn, čo je dôležité pri testovaní hypotéz. 10Príklad slúži na zistenie vlastností rozdelenia aritmetického priemeru pri rôznych situáciách. Exp(X) je exponenciálne rozdelenie s parametrom A, Unif (min, max) je rovnomerné rozdelenie s parametrami min a max. Zmes dvoch normálnych rozdelení predstavuje 10% prímes normálneho rozdelenia s väčším rozptylom rovným a2 — 10 v normálnom rozdelení s menším rozptylom rovným a2 — 1, čím sme docielili výskyt 10 % odľahlých pozorovaní. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 16 Príklad 33 (CLV pre normálne rozdelenie, dva náhodné výbery) 11 Preverte normalitu roz- _ _ _ _ 2 2 delenia rozdielu Xni — Yn2, teda Xni — Yn2 ~ N(fii — fJ>2,-^ + pomocou simulačnej štúdie. Generujte pseudonáhodné čísla M = 1000-krát z rozdelení N\fij, a2), j = 1,2, kde p,\ = 100, a± = 10, fi2 = 50,(72 = 9 pre (a) n\ = A,n2 = 5; (b) n\ = 100, n2 = 81. Pre prípad (a) aj (b) vypočítajte Pr(Xni — Yri2) < 52 na základe empirického (zo simulácie) a teoretického rozdelenia Xni — Yri2. D Ú Pri dostatočne veľkom počte opakovaní vidíme zhodu medzi teoretickým a simulovaným rozdelením Xni — Yn2 na dve desatine miesta (pri výpočte zadanej pravdepodobnosti; pozri obrázok 11). \ -A ls— 46 48 50 52 54 simulovane rozdelenie rodielov priemerov Obr. 11: Teoretické realizácie rozdelenia X. rovanými v podobe histogramu (M ni 1000, ni Yn2 v podobe krivky hustoty superponované vygene- 100, n2 1.2 Štatistika Príklad 34 (štatistika) 12Majme náhodný výber {X\,X2,...,Xn)T, kde Xi G M,i = 1,2,... ,n, potom príkladmi štatistík sú: Tx = Y™=1 Xt eR,T2 = f™=1 X2 E M+U{0}; T3 = (^U Xi, Eľ=i X2) E R2. pred. Príklad 35 (CLV pre binomické rozdelenie, testovacia štatistika) 13Ak náhodná premenná X ~ Bin(N,p), preverte normalitu rozdelenia Z, kde testovacia štatistika Z = x/n~p = ^ N(0,1) V(p(i-p)/w testovacej štatistiky pomocou simulačnej štúdie (p = 0,0.1,0.5,0.9,1; N = 5,10,30,50,100; M = 1000,). Okomentujte výsledky v spojitosti s Haldovou podmienkou Np(l — p) > 9. cvič. Príklad 36 (CLV pre normálne rozdelenie, testovacia štatistika) Zistite pomocou simulačnej štúdie (počet opakovaní M = 1000,), či testovacia štatistika F = ^1~^}S má asymptoticky Xn-i rozdelenie s n — 1 stupňami volnosti, ak (a) X ~ N(fi,a2), kde fi = 0, o-2 = 1 a (b) X ~ Exp(X) (exponenciálne rozdelenie s parametrom A = 1), kde E [X] = 1 a a2 = 1. Rozsahy náhodných výberov sú pre oba prípady n = 15 a n = 100. DU ^^Príklad slúži na zistenie vlastností rozdelenia rozdielu dvoch aritmetických priemerov pri rôznych situáciách. 12Statistiky teda môžu byť náhodné premenné alebo náhodné vektory ktoré sumarizujú informáciu o dátach, zjednodušujú pohľad na ne a umožňujú na ich základe dáta jednoduchšie popísať a ľahšie interpretovať. 13Príklad hovorí o použití jednovýberovej testovacej štatistiky pre parameter binomického rozdelenia (pravdepodobnosť) pre rôzne pravdepodobnosti a rôzne početnosti. Ak Haldova podmienka nie je splnená, nie je možné testovaciu štatistiku použiť. 14Príklad hovorí o použití j ednovýberovej testovacej štatistiky pre parameter normálneho rozdelenia (rozptyl) pre rôzne teoretické rozdelenia a rôzne rozsahy náhodných výberov. Ak sú výchylky od normality príliš vellcé, nie je možné testovaciu štatistiku použiť. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 17 Riešenie Vieme, že stredná hodnota E [F] = n — 1 a V^arfF] = 2{n — 1), t.j. chceme, aby sa výsledky simulačnej štúdie priblížili týmto teoretickým výsledkom (pozri tabulku). odhady počítané pri simulácii E[S2] Var[S2] E[F] Var[F] normálne rozdelenie, n = 15 0.9900 0.1451 13 .8599 28.4403 exponenciálne rozdelenie, n = 15 1.0637 0.6629 14 .8920 129.9219 normálne rozdelenie, n = 100 0.9952 0.0202 98 .5274 198.3750 exponenciálne rozdelenie, n = 100 0.9958 0.0766 98 .5866 750.4624 Pri dostatočne veľkom počte opakovaní vidíme zhodu medzi teoretickým a simulovaným rozdelením F, len ak ide o dáta z normálneho rozdelenia (pozri obrázok 12). -1—i—i—i—i—i 10 20 30 40 50 60 -1-1-1-1-1-1 10 20 30 40 50 60 —T- 50 —I— 100 I— 150 —I 200 I 50 —I— 100 I— 150 —I 200 Obr. 12: Teoretické realizácie rozdelenia F superponované vygenerovanými (empirickými) pre X ~ ÍV(0,1) (ľavý stĺpec) a X ~ Exp{l) (pravý stĺpec) (M = 1000, n = 15 (horný riadok), n = 100 (dolný riadok); histogram empirického rozdelenia realizácií v relatívnej škále superponovaný krivkou hustoty normálneho rozdelenia 1.3 Funkcia vierohodnosti Príklad 37 (princípy vierohodnosti) Majme binomické rozdelenie (N je fixované a náhodná premenná je počet úspechov) a negatívne binomického rozdelenia (počet úspechov je fixovaný vopred a náhodná premenná je počet zlyhaní pozorovaný pred zastavením sekvencie pokusov). Ak x\ je počet úspechov a X2 počet neúspechov a 9 pravdepodobnosť úspechu, potom fi (xi, 9) = {^j 9*1 (1 - 9)X2 ,x1 = l,2,...,n a Í2(x2,9) = (Xl +2 ~ ^(l - 0r,x2 = 1,2,..., kde funkcia vierohodnosti pre oba prípady bude L{9) = c9Xl(l — 9)X2. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 18 Príklad 38 (binomické rozdelenie, maximálne vierohodný odhad p) Nech X ~ Bin{N,p) a realizácie X sú x = n. Predpokladajme, že sme pozorovali (a) x = 2, (b) x = 10 a (c) x = 18 úspechov v N = 20 pokusoch. Pomocou CH vypočítajte maximálne vierohodný odhad p. Výsledok zobrazte do grafu spolu s funkciou vierohodnosti. cvič. Riešenie (pozri obrázok 13) (a) p = x/N = 2/20 = 0.1, (b) p = x/iV = 10/20 = 0.5, (c) p = x/N = 18/20 = 0.9. Logaritmus funkcie vierohodnosti pre p má tvar /((p|x) = n log (p) + (N — n) log(l —p), kde p G (0,1). n-1-1-r 0.0 0.2 0.4 0.6 pravděpodobnost p maximum v bode p - 0.1 n-1-1-r 0.0 0.2 0.4 0.6 pravděpodobnost p maximum v bode p - 0.5 n-1-1-1-1-r 0.0 0.2 0.4 0.6 0.8 1.0 pravděpodobnost p maximum v bode p - 0.9 Obr. 13: Funkcia vierohodnosti pre X ~ Bin(N,p) {p = 0.1,0.5,0.9 a N = 20) Z grafov (Obr. 13) je zreteľné, že funkcia vierohodnosti pre p je symetrická len pre p = 0.5, pre ostatné p je asymetrická. Naviac pre p a 1 — p dostaneme grafy, ktoré možno transformovať jeden na druhý pomocou osi zrkadlenia definovanej ako vertikálna priamka v p = 0.5. Príklad 39 (maximálne vierohodné odhady; Poissonovo rozdelenie) Každý rok za posledných päť rokov boli v nejakom meste registrované 3, 2, 5, 0 a 4 zemetrasenia za rok. Za predpokladu, že počet zemetrasení za rok X má Poissonovo rozdelenie, odhadnite jeho parameter X, ktorý predstavuje očakávanú početnosť zemetrasení za rok. cvič. Riešenie Pomocou logaritmu funkcie vierohodnosti / (A|x) = Y^iLixi^nA — N\,N = 5, vieme vypočítať A = = x, ktorý je rovný 2.8. Vo všeobecnosti píšeme funkciu vierohodnosti pre Poissonove rozdelenie s parametrom A a pozorovanými početnosťami mn ako L(A|x) = rinřC"' kde pn = Pr(X = n) = e~x\n/n\ a logaritmus funkcie vierohodnosti ako /(A|x) = — A^nmn + ^nnmnlnA. Maximálne vierohodný odhad Príklad 40 (overdispersion v binomickom modeli, pokrač.) Majme početnosti úrazov n medzi robotníkmi v továrni, kde početnosti robotníkov mn pri danom n pozri v tabulke. n 0 i 2 3 4 > 5 mn 447 132 42 21 3 2 (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 19 Vypočítajte mn za predpokladu, že početností úrazov na robotníka X majú negatívne binomické rozdelenie s parametrami a a -k. cvič. Riešenie Aby sme mohli fitovať negatívne binomické rozdelenie, potrebujeme funkciu vierohodnosti L(a,7r|x) = Pr(X = x)E-om" (Pr(X > 5))"^5 . a jej logaritmus 4 /(a,7r|x) = ^mnlnPr(X = x) + m>5 ln (Pr(X > 5)) . n=0 Numerickou optimalizáciou dostaneme a = 0.84 a n = 0.64. Pomer zlyhaní // = ^r®- = 0.47. Keď porovnáme pozorované mn a vypočítané (teoretické) mn zistíme, že početnosti sú veľmi podobné (pozri tabulku). n 0 1 2 3 4 > 5 očakávané mn 446 134 44 15 5 3 Príklad 41 (kvadraticá aproximácia funkcie vierohodnosti) (í) Nakreslite škálovaný logaritmus funkcie vierohodnosti binomického rozdelenia. Na x-ovej osi bude p a na y-ovej osi /*(p|x) = /(p|x) — max(/(p|x)). Porovnajte /*(p|x) s kvadratickou aproximáciou vypočítanou pomocou Taylo-rovho rozvoja ln(^|ľj*j) « —|X(p)(p — p)2. (2) Nech skóre funkcia S (p) = JMnL(p|x). Keď zoberieme deriváciu kvadratickej aproximácie uvedenej vyššie, dostaneme S (p) ~ —X(p)(p — p) alebo —T~1l2(p)S(p) ~ X1/2(p)(p — p). Potom zobrazením pravej strany na x-ovej osi a ťavej strany na y-ovej osi dostaneme asymptoticky lineárnu funkciu s jednotkovým sklonom. Asymptoticky tiež platí X1^2(p)(p — p) ~ N(0,1). Je postačujúce mať rozsah x-vej osi (—2,2), pretože funkcia je asymptoticky (lokálne) lineárna na tomto intervale. Rozumne škálujte y-ovú os. Zobrazte pre (a) n = 8, N = 10, (b) n = 80, N = 100 a (c) n = 800, N = 1000 (p E (0.5,0.99);. Okomentujte rozdiely medzi (a), (b) a (c). Grafické riešenie je na obrázku 14. D U Príklad 42 (Fisherova informačná matica pre parametre N(fi,a2)) Nech X ~ N(fi,a2). Čomu je rovná pozorovaná Fisherova informačná matica X(&), kde 0 = (jl, a2) ? Riešenie Logaritmus funkcie vierohodnosti má tvar n 1 n l(p,a2) = --ma2 - — ^(xi -p)2. 2 2a2 Derivácie funkcie vierohodnosti v fi a a2 budú nasledovné d 1 n Sl(tl,V2) = —/((/X,(72)|X) = -^^(Xi - fl), i=l S2(fi,a2) = ^Z((^,o-2)|x) = --^ + T^ýľOci - pý í=i Potom x(/^2)=(f i 2ď 0 -2- / ' (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 20 "ň i i i i i i i i i i i i i r -2-1012 -2-1012 -2-1012 skalovana 6 skalovana 6 skalovana 6 (a) linearita skoré funkcie (b) linearita skoré funkcie (c) linearita skoré funkcie Obr. 14: Porovnanie škálovaného logaritmu funkcie vierohodnosti (plná čiara) s jeho kvadratickou aproximáciou (čiarkovaná čiara) v prvom riadku a porovnanie škálovanej skóre funkcie a priamky s nulovým interceptom a jednotkovým sklonom v druhom riadku Príklad 43 (profilová vierohodnosť; normálne rozdelenie) Profilová funkcia vierohodností pre fi počítaná pre každé fixované fi, kde maximálne vierohodný odhad a2 bude a2 = ^ Yľi=i(xi ~ A4)2> má tvar L(/x|x) = c (ô2 Yn/2, kde c je nejaká konštanta. L(/x|x) nie je identická s odhadnutou funkciou vierohodnosti L(fi,a2 = íx2|x) = cexp (—^2 ^2n=i(xí ~ A4)2) > t.j. s rezom L(/x, ct2|x) v bode Obe funkcie vierohodnosti budú veľmi podobné, ak je rozptyl o2 dobre odhadnutý. V opačnom prípade sa preferuje profilová funkcia vierohodnosti. Profilová funkcia vierohodností pre a2 je rovná L(o-2|x) = c(o-2)~n/2exp (-2^2 Yľi=i(xi -ž)2) = c(a2yn/2 exp(-na2/(2a2)). pred. Príklad 44 (maximálne vierohodný odhad fi a a2) 15 Vygenerujte pseudonáhodné čísla z X ~ N (A, 1), n = 1000. (a) Napíšte profilovú funkciu vierohodností pre p a o2 a preverte, či sú simulované maximálne vierohodné odhady p a o2 dostatočne blízko k ich skutočným hodnotám. Nakreslite grafy Z(//|x) a l(a2\x), kde zvýrazníte polohu simulovaných maxím týchto funkcií, (b) Napíšte funkciu vierohodností pre 0 = (fi, a2) a preverte, čí je simulovaný maximálne vierohodný odhad 0 = (fi, a2) dostatočne blízko k jeho skutočnej hodnote. cvič. Riešenie (pozri obrázok 15) Logaritmus funkcie vierohodnosti pre jednotlivé parametre má tvar Z(/i|x) = -f ln(27r) - f \na2 - ^ (£ľ=i x2 - 2p£ľ=i xt + n/i2), kde p G (2,6), a, = 1; Z(tr2|x) = -f ln(27r) - f lna2 - S^ig^!, kde ^ = A,a G (0.5,1.5); /((/x)(j2)|x) = -f ln(27r) -f ln a2 - ^JX^ > kde A* £ (2,6) a a G (0.5,1.5). Výsledky simulácie: // = 4.019708 a a2 = 1.000038. 15Ak náhodná premenná X nebude mať normálne rozdelenie, funkcia vierohodnosti pre strednú hodnotu nemusí mať symetrický parabolický tvar okolo strednej hodnoty. Odhad strednej hodnoty môže byť potom vychýlený. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 21 Obr. 15: Funkcia vierohodnosti pre fi a a2 (X ~ N (A, 1)); odhad strednej hodnoty (aritmetický priemer) a odhad rozptylu sú označené zvislou čiarkovanou čiarou a v nich má funkcia vierohodnosti maximum 2 Charakteristiky polohy a variability Príklad 45 (argument minima; DÚ) Vygenerujte pseudonáhodné čísla X ~ N(fi,a2), n = 1000, fi = 0,a2 = 1. Vygenerované čísla ozn. x,-ni = 1, 2,..., 1000. Nájdite numericky také c, ktoré minimalizuje (a) sumu štvorcov odchýlok E^0^ — c)2, t.j. c\ = arg minvc Y^í^=l (xí ~ c)2 a (b) sumu absolútnych odchýlok Y^í^=l \xí ~ c\> t-3- c2 = arg niinvc £^=1° \%i — c\. Za c dosadzujte postupne (1) všetky x^ (x^ sú usporiadané Xi podlá veľkosti od najmenšieho po najväčšie) a vybrané charakteristiky polohy ako (2) aritmetický priemer, (3) nejaké kvantily xp, kde p G (0,1) a pod. Nakreslite obrázok závislosti (a) sumy štvorcov odchýlok na x^, t.j. body [x j, y j], kde yj = Y^í^=l(xí ~ x(j))2 a (b) sumu absolútnych odchýlok na x^, t. j. body [x^,yj], kde y j = \xí — ^0") | - Podobné obrázky nakreslite aj pre xp namiesto x^. Príklad 46 (vygenerované pásy normality; cvič., DÚ) Na základe vygenerovaných pseudoná-hodných čísel X ~ N(fi,a2), n = 50,fi = 0,a2 = 1, kde M = 1000 odhadnite (a) hustotu i-tej realizácie pomocou funkcie density () (ponechajte argument n=512 a nastavte from=-3 a to=3), (b) distribučnú funkciu i-tej realizácie pomocou (a) a funkcie cumsumO a (c) empirické kvantily i-tej realizácie pomocou funkcie qqnorm(). Vygenerované čísla Xij,i = 1,2,..., 1000 aj = 1, 2,..., 50 uložte do matice X, ktorá bude mať rozmery 1000 x 50. Odhadnuté hustoty a distribučné funkcie uložte do matíc H a D, ktoré bude mať rozmery 1000 x 512 a empirické kvantily do matice K, ktorá bude mať rozmery 1000 x 50. Pre každú z matíc H, D a K vypočítajte 2?0.o5 a 2^0.95 P° stĺpcoch a zobrazte ich ako pásy pomocou funkcie polygonO. Do obrázkov vkreslíte (a) teoretickú hustotu, (b) teoretickú distribučnú funkciu a (c) kvantilovú priamku (pomocou funkcie qqlineO) červenou farbou. Obrázky usporiadajte ako trojicu vedľa seba. Dáta, ktorých normalitu chceme graficky testovať budú (1) X ~ N(0,1), n = 50, (2) X ~ pN(0,1) + (1 - p)N(0,A), n = 50 a p = 0.95 a (3) X ~ pN(0,1) + (1 — p)N(0,A), n = 50 a p = 0.9. Zobrazte separátne (í), (2) a (3) do grafov (a), (b) a (c). Okomentujte. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 22 3 Testovanie hypotéz Príklad 47 (MC experiment pre IS; cvič., DÚ) Nech (a) X ~ N(0,1) a (b) X ~ [pN(0,1) + (1 —p)N(0,4)]; A;de p = 0.9, t.j. ide o zmes dvoch normálnych rozdelení X ~ N(0,1) a X ~ ÍV(0,4) v pomere 9:1. Vygenerujte M = 100 náhodných výberov s rozsahom n = 500 a vypočítajte 100(1 — a)% IS pre /i. Zistíte, koľko IS obsahuje strednú hodnotu /i = 0. Toto číslo podelené M predstavuje simulovanú hladinu významnosti a. Okomentujte. Príklad 48 (tri typy testovacích štatistík; DÚ) Predpokladajme, že X ~ N(fi,a2), kde a2 je známa. Testujme Hq : 9 = 9q oproti H\ : 9 ^ 9q, kde 9 = fi. Ukážte, že všetky tri testovacie štatistiky sú rovnaké, t.j. Um = U w = U s- 2. Uw = n<^; 3. Us = n^^. Príklad 49 (pred., DÚ) Predpokladajme, že X ~ N(fi,a2), kde a2 je známa. Nech 9 = fi. Testujme tri typy hypotéz 1. H01 : h = Ho oproti Hu : /i ^ Ho> 2. H02 : fJ, < Ho oproti H12 : H > Ho', 3- H03: /i> Ho oproti H13 : /i < Ho i (a) Vypočítajte pravdepodobnosti chýb druhého druhu PrM( CHDD) pri danej alternatíve pre všetky tri typy hypotéz, t.j. /3U, (312 a (313. (b) Vypočítajte a zobrazte silofunkcie pre všetky tri typy hypotéz, t.j. 1 — (3u(h)> 1 — 0i2(h) a l — /$i3 (/•*)■ Pre zobracovanie si zvoľte /io = 0, /1 G (—10,10),0 = 6.4, a = 0.05 a n = 10,20,30,40 a 50 (jeden obrázok pre každú z hypotéz (í), (2) a (3)). Načrtnutému zodpovedá nasledovná situácia #o #i W P((i) H = Ho H ŕ Vo Wi = {Zw; \ZW\ > ua/2} $ (ua/2 - lj^^-^/ň H < /i0 H> Vo W2 = {Zw; Zw > ua} $ (ua + ^^^/n) H > no H < Vo VV3 = {Zw; Zw < -ua} $ (ua - ^^^/n) I3(h) v tabuľke pre H$i oproti Hu je približná (často sa používa v praxi namiesto presnej /3(/x)), jej zodpovedajúca presná silofunkcia je definovaná ako: 1 " M < $ (u^/2 + fL=^^ + $ [u^a/2 ~ = $ («l-a/2 ~ ^^VA + $ («l-«/2 + Potom o" / \ a n> ^ Mg/2 + Uf3 ^2 //ÍV2_+_^y _ ^ Mg/2 + M/3 y j2 H~ Ho (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 23 Nech Z je nejaká testovacia štatistika a zyy je jej realizácia (pozorovaná, vypočítaná testovacia štatistika), potom p-hodnotu počítame nasledovne: Í2Pr(Z > \zw\\H0), ak Hi : fi ^ fi0 Pr(Z > zw\H0), ak Hi : v > Vo • Pr(Z < zw\H0), ak Hx : fi < /x0 100(1 — a)% empirické IS pre všetky tri typy hypotéz majú nasledovný tvar: Hq Hi hranice (d, h) pre 100(1 — a)% empirický IS fl = fl0 VÝVO CSx-a = |/X0 : VO e (x - ua/2^,x + ua/2^j j /i < /i0 v > Vo CSi-a = |/x0 : Vo e (x - ua^, oo) j V>Vo V < Vo CSx-a = |/x0 : /io £ (-oo,x + ua-^j j Príklad 50 (jednovýberový Z-test strednej hodnoty /x; DÚ) Porovnajte presnú a približnú si-lofunkciu pre test Hq : fi = //q (oproti H\ : fi ^ fiQ, ak a2 je známe) nakreslením oboch do jedného obrázka pre n = 20, Vo = 0 a a = 1. Okomentujte. Príklad 51 (vylepšená vierohodnosť pomocou g{9)\ DÚ) Nakreslite (a) logaritmus funkciu vierohodnosti parametra p binomického rozdelenia Bin(N,p), kde N = 10 a n = 8, superponovaný jeho kvadratickou aproximáciou. Nakreslite (b) logaritmus funkciu vierohodnosti g{p) = logit(p) = ln j— (pri rovnakom zadaní N a n ako v (a)) superponovaný jeho kvadratickou aproximáciou. Je funkcia vierohodnosti g{p) regulárnejšia ako funkcia vierohodnosti pre p? (c) Vypočítajte Waldov a vierohod-nostný 100 x (1 — a) % empirický IS pre p. (d) Vypočítajte Waldov 100 x (1 — a) % empirický IS pre g{p) z (a) a (b) a transformujte ho späť do originálnej škály, (e) Ukážte, že vierohodnostný IS pre p v škále p je identický s vierohodnostným IS v škále g{p) z (a) a (b) po jeho spätnej transformácii do originálnej škály. Okomentujte. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 24 3.1 Testy dobrej zhody Príklad 52 (%2-test dobrej zhody) Majme dáta Grades, ktoré reprezentujú S AT skóre (n = 200) náhodne vybranej vzorky študentov z jednej univerzity v USA. Otestujte na hladine významnosti a = 0.05, či majú dáta normálne rozdelenie. Použite intervaly (fi — 3a, fi — 2a), (fi — 2a,fi — a), (fi — a, fi), (fi, fi + a), (fi + a, fi + 2a) a (fi + 2a, fi + 3a). Nakreslite histogram použitím vyššie spomenutých intervalov a superponujte ho s očakávanými hodnotami S AT skóre v každej kategórii, keď F0(x) ~ N(/2,a2). cvič. 1200 1400 Obr. 16: Histogram superponovaný s očakávanými hodnotami SAT skóre Príklad 53 (%2-test dobrej zhody; pokrač.) Zopakujte výpočet z predchádzajúceho príkladu na intervaloch definovaných pomocou hraníc: (a) kvartilové hranice - xmin,x0,25,Xo.5o,x0,75,xmax; (b) decilové hranice - xmin, x0A, x0.2, ■ ■■, ŕžrj.8, ^0.9, xmax. Nakreslite histogram použitím vyššie spomenutých intervalov a superponujte ho s očakávanými hodnotami S AT skóre v každej kategórii, keď Fq(x) ~ N(fi,a2). Porovnajte výsledky s výsledkami predchádzajúceho príkladu. DU Príklad 54 (%2-test dobrej zhody) Johann Gregor Mendel vo svojich pokusoch s krížením rastlín hrachu (Pisum sativum) študoval dedičnosť siedmych rôznych znakov. V každom z pokusov, pri sledovaní jedného znaku, získal po krížení dvoch čistých línií (t. j. dominantného homozygota A A s re-cesívnym homozygotom aa) generáciu, v ktorej mali všetky rastliny rovnaký fenotyp (t.j. heterozygoti Aa). Po ich samooplodnení (čo je prirodzený spôsob rozmnožovania hrachu) získal ďalšiu generáciu, v ktorej sa vyskytovali sledované znaky v dvoch formách, a to zakaždým v pomere veľmi blízkom 3:1. Jedným zo znakov, ktoré študoval, bola farba semien. Po krížení 258 hybridov získal celkove 8023 semien, z ktorých 6022 bolo žltých a 2001 zelených (Matalová 2008). Otestujte platnosť fenotypového štiepneho pomeru 3 : 1 na hladine významnosti a = 0.05. pred Príklad 55 (%2-test dobrej zhody) x2-test dobrej zhody: DU (a) Otestujte zhodu početností úmrtí X ako následok kopnutia koňom v Pruských armádnych jednotkách (pozri príklad 100) s Poissonovým rozdelením s parametrom X, t.j. X ~ Poiss(X) na hladine významnosti a = 0.05. Pozrite príklad 24 (DU v Štatistickej inferencii I). n 0 1 2 3 4 5+ mn 109 65 22 3 i 0 očakávané mn 108.7 66.3 20.2 4.1 0.6 0.1 (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 25 (b) Otestujte zhodu početností chlapcov X v rodinách s binomickým rozdelením s parametrami N a 7T; t.j. X ~ Bin(N,iT) na hladine významnosti a = 0.05. Pozrite príklad 27. n 0 1 2 3 4 5 6 7 8 9 10 11 12 mn 3 24 104 286 670 1033 1343 1112 829 478 181 45 7 očakávané mn 1 12 72 258 628 1085 1367 1266 854 410 133 26 2 (c) Otestujte zhodu početností úrazov medzi robotníkmi X (pozri príklad 106 a 132) (1) s Poissonovým rozdelením s parametrom X, t.j. X ~ Poiss(X) a (2) s negatívne binomickým rozdelním s parametrami a a-k, t.j. Negbinom(a,-k) na hladine významnosti a = 0.05. Pozrite príklad 28 a 40. n 0 1 2 3 > 4 mn 447 132 42 21 5 (1) očakávané mn 406 189 44 7 1 (2) očakávané mn 446 134 44 15 8 Príklad 56 (Kolmogorov-Smirnovov test dobrej zhody) Majme výšky n = 12 náhodne vybraných 10-ročných dievčat x = (131,132,135,141,141,141,141,142,143,146,146,151)T. Otestujte na hladine významnosti a = 0.05, či majú dáta normálne rozdelenie, kde F0(x) ~ N(fi,a2). Pozri.: Funkciu ecdf () (použitie v podobe Fn <- ecfd(vyska) ; FnX <- Fn(vyska)) nie je možné použiť, pretože pri zhodách je posunutá Fn(xi_i) vypočítaná z Fn(x,j) nesprávna. Ak je hypotéza zložená, Kolmogorov-Smirnovov test je veľmi konzervatívny. Avšak Dn môžeme použiť na výpočet, ak odhadneme parametre príslušného rozdelenia, kde Fq(x) substituujeme za Fq(x). Potom však nastávajú problémy s rozdelením Dn. Problém rieši modifikácia Kolmogorovho-Smirnovovho testu, kedy sa tento test nazýva Lillieforsov test normality, použitím MC simulácií, kde kritické hodnoty označíme D${a). Pri testovaní sa často používa Dallal-Wilkinsonova aproximácia p-hodnoty v podobe 0.974598 1.67997, p-hodnota = exp(-7.01256D2(n+2.78019)+2.99587DnV/n + 2.78019-0.1221194 + n pre n G (5,100) a p-hodnotu < 0.1. Ak je n > 100, potom Dn vo vyššie uvedenom vzorci nahradíme Dm = Dn(-^)0Ag, kde m je skutočný rozsah a n substituujeme číslom 100. Ak p-hodnota > 0.1, potom Dn nahradíme -Dmod = F)n(\Jn — 0.01 + 0.%'b\fn). Podľa velkosti -Dmod vypočítame p-hodnotu nasledovne: • ak -Dmod ^ 0.302, p-hodnota = 1, • ak Anod < 0.5, p-hódíota = 2.76773 - 19.828315Dmod + 80.709644Dmod - 138.55152Dmod + 81.218052Dmod, • ak Dmod < 0.9, p-hódííota = -4.901232 +40.662806Dmod - 97.490286£>mod + 94.029866£>mod - 32.35571 lDmod, • ak Anod < 1-31, cvic. p-hodnota = 6.198765 - 19.558097Dmod + 23.186922Dmod - 12.234627£>mod + 2.423045D mod' (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 26 3.2 Asymptotické testy o jednom parametri Príklad 57 (minimálny rozsah N) Vypočítajte minimálny rozsah n pre p = 0.1, 0.2,..., 0.9, po = 0 pri a = 0.05, f3 = 0.8 a obojstrannej alternatíve Hu. Skontrolujte, či je splnená Haldova podmienka. Ak nie je, doplňte minimálne N, ktoré túto podmienku spĺňa. cvič. Riešenie: p 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 N 71 32 19 12 8 6 4 2 1 Np(l -p) 6.39 5.12 3.99 2.88 2.00 1.44 0.84 0.32 0.09 9/(p(l - -P)) 100 57 43 38 36 38 43 57 100 Príklad 58 (minimálny rozsah N) Vypočítajte minimálny rozsah N pre p = 0.1, 0.2,..., 0.9, po vždy o 0.1 menšie ako p, pri a = 0.05, f3 = 0.8 a obojstrannej alternatíve Hlľ. Skontrolujte, či je splnená Haldova podmienka. Ak nie je, doplňte minimálne N, ktoré túto podmienku spĺňa. cvič. Riešenie: p 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Po 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 p(l -P) 0.09 0.16 0.21 0.24 0.25 0.24 0.21 0.16 0.09 N 71 126 165 189 197 189 165 126 71 Np(l -P) 6.39 20.16 34.65 45.36 49.25 45.36 34.65 20.16 20.16 9/(p(l - -P)) 100 57 43 38 36 38 43 57 100 Príklad 59 (pravdepodobnosť pokrytia) Nech X ~ Bin{N,p), kde N = 30 a p = 0.8 a pravdepodobnosť úspechu p = || = 0.8, kde x = 24 a N = 30. Waldov 95% empirický DIS pre p je rovný (d, h) = (0.657,0.943). Vypočítajte pravdepodobnosť pokrytia tohoto intervalu. Pozn.: pravdepodobnosť pokrytia Waldovho 95% DIS pre p vypočítame nasledovne Pr(pokrytie) = Pr(X = Npj : p G Waldov 95% DIS pre p j), kde p j G M. j = {^j,^j,...,1 — ^j}, t. j. ide o súčet takých funkčných hodnôt pravdepodobnostnej funkcie v bodoch Npj, kde p G Waldovmu 95% DIS pre pj. Výsledky usporiadajte do tabulky, ktorej stĺpce budú x j, pj, d j (dolná hranica Waldovho 95% DIS pre pj), h j (horná hranica Waldovho 95% DIS pre pj), Pr(pokrytie) a pokrytie (indikácia toho, či p patrí alebo nepatrí Waldovmu 95% DIS pre Pj). cvič. Príklad 60 (pravdepodobnosť pokrytia) Nech X,j_ ~ Bin(N,p,j). Vypočítajte pravdepodobnosti pokrytia Waldovho 95% DIS pre každé pit kde pi patria množine M.j = (^,1 — jf), sú ekvidištantne vzdialené medzi a 1-| a ich počet M = 5000. Nakreslite obrázok, kde na x-ovej osi budú p,t a na y-ovej osi pravdepodobnosť pokrytia Pľi(pokrytie). Zvoľte (a) N = 30, (b) N = 100 a (c) N = 1000. Pozn.: pravdepodobnosti pokrytia Waldovho 95% DIS pre pi vypočítame nasledovne Pľi(pokrytie) = Pr(X = Npj : pi G Waldov 95% DIS pre p j), kde p j G M. j = {jj, jf,... ,1 — jf}, t.j. ide o súčet takých funkčných hodnôt pravdepodobnostnej funkcie v bodoch Npj, kde pi G Waldovmu 95% DIS pre p j. cvič. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 27 na Waldov 95% Príklad 61 (pravdepodobnosť pokrytia) Nech X,j_ ~ Bin(N ,p,j). Vypočítajte pravdepodobností pokrytia: (a) víerohodnostného 95% DIS, (b) skóre 95% DIS, (c) spätne tranformovaného Waldovho 95% DIS pre g(pi) s hranicami (dg\hg^) DIS pre pi s hranicami {[[g{d^))^1, (g(hg^))^1^, kde (1) g{pi) = (2) g{pi g{pí) = arcsin(^p~) pre každé pi, kde p,t patria množine M.j = (jj, 1 — sú ekvidištantne vzdialené medzi | a 1-| a ich počet M = 5000. Nakreslite obrázok, kde na x-ovej osi budú pi a na y-ovej osi pravdepodobnosť pokrytia Pľi(pokrytie). Zvoľte (a) N = 30, (b) N = 100 a (c) N = 1000. Pozn.: pravdepodobnosti pokrytia 95% DIS pre pi vypočítame nasledovne ln a (3) Pľi(pokrytie) 1 Pr(X = Npj : p,, G 95% DIS pre Pj), kde pj G M. j = {-^, jf,..., 1 — -^}; t.j. ide o súčet takých funkčných hodnôt pravdepodobnostnej funkcie v bodoch Npj, kde pi G 95% DIS pre pj. Pre tie DIS, ktoré majú pre p = 0 a p = 1 nenulovú šírku, môžeme použiť M.j = (77, -j^)- Príklad 62 (nezávislosť fi a a2; pravdepodobnosť pokrytia) Nech X ~ N(fi,a2), kde fi = 20 a a2 = 100. Vypočítajte Pearsonov korelačný koeficient r^ s pomocou simulačnej štúdie (M = 100000,). Nakreslite rozptylový graf {xí,s,j), kde i = 1,2,..., M (sivou farbou). Dokreslite do grafu také body, pre ktoré platí tyy,i = také body (xí,s,j), pre ktoré tw, ako podiel J (tjy,í < t. < tn-i(a/2) (čiernou farbou) ako aj hranice, ktoré definujú tn-i(a/2). Vypočítajte pravdepodobnosť pokrytia 95% DIS pre fi i(a/2)) /M. Zvoľte (a) n = 5, (b) n = 50 a (c) n = 100. DU cv1c. aritmeticky priemer n=5, r= 0.003959 Obr. 17: Rozptylový graf xi} si? i = 1, 2,..., M, M = 100000 pre n = 5 (vľavo), n = 50 (v strede) a n = 100 (vpravo) Príklad 63 (nezávislosť fi a a2; pravdepodobnosť pokrytia) Nech X ~ \pN(u, af) + (1 — p) N (u, o"|)], kde p = 0.9, fi = 20, o\ = 100 a o\ = 400. Vypočítajte Pearsonov korelačný koeficient rx s pomocou simulačnej štúdie (M = 100000). Nakreslite rozptylový graf (xi, Si), kde i = 1,2,..., M (sivou farbou). Dokreslite do grafu také body, pre ktoré platí tw^ = ^f^\/n < tn_1(a/2) (čiernou farbou) ako aj hranice, ktoré definujú také body {x,i,s,j), pre ktoré tw,i = tn_1(a/2). Vypočítajte pravdepodobnosť pokrytia 95% DIS pre fi ako podiel '^2iI {tw,i < tn-i(a/2)) /M. Zvoľte (a) n = 5, (b) n = 50 a (c) n = 100. DU (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 28 Príklad 64 (necentrálne t-rozdelenie) Nakreslíte distribučnú funkciu necentrálneho t-rozdelenia tn-i,\, kde ô = fi — po a X = 5/(a/\/n). Použite fiQ = 0,ô=l,a = 1.4 a n = 26. Vypočítajte pravdepodobnosť nad kvantilom rco.975 pod krivkou hustoty tohoto rozdelenia. cvič. Príklad 65 (necentrálne t-rozdelenie) Nakreslite hustoty jedného centrálneho a štyroch necen-trálnych t-rozdelení ín-i5A (5 = p — Po a X = ô/(oj\fn)) do jedného obrázka tak, aby boli odlíšiteľné farbou alebo typom čiary. Použite //q = 0, ô = 0, 0.5, 0.8,1 a 1.2, a = 1.4 a n = 26. cvič. Príklad 66 (sila a silofunkcia) Použite 500, ak a = 0.05, o je neznáme. Použite ® na simuláciu empirickej Pľ(CHPD), kde počet simulácií je M = 10000 a rozsah náhodného výberu je n = 20 pre jednovýberový Študentov t-test o strednej hodnote fi. Použite funkciu t. test(x, alternatíve = "greater", mu = muO) a pre každú testovaciu štatistiku tm,m = 1, 2,..., M vypočítajte p-hodnotu a jej štandardnú chybu za platnosti Hq. Ide o zistenie relatívnej početnosti p zamietnutých Hq na hladine významnosti a = 0.05 medzi M testami, kde p = Pľ(CHPD) = 1(Ho^ametame) _ cvič. Príklad 68 (vierohodnostný DIS pre fi) Majme dáta one-sample-mean-skull.txt a premennú dĺžka lebky skull.L v mm starovekej egyptskej mužskej populácie, o ktorej predpokladáme, že má normálne rozdelenie N(fi,a2). Vypočítajte vierohodnostný 95% empirický DIS pre strednú hodnotu dĺžky lebky fi pomocou 15% cut-off relatívnej (štandardizovanej) funkcie vierohodnosti £(0|x) = DÚ L(0\x)/L(0\x) a porovnajte ho s vierohodnostným 95% empirický DIS pre fi. cvič. (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 29 Príklad 69 (MC odhad koeficientu spoľahlivosti 1 — a) Vypočítajte v *H MC odhad koeficientu spoľahlivosti (pravdepodobnosti pokrytia) pre pravostranný (horný) 95% JIS pre a2 pri M = 1000 a n = 20. Tento JIS je ekvivalentný s testom Hq2 oproti H\2- (&) Nech x ~ N(0,4), (b) x ~ X2(2) a (c) x ~ [pN(0,4) +(1 - p)iV(0,9), kde p = 0.9. cvič. Príklad 70 (minimálny rozsah súboru) Vypočítajte v ® minimálny rozsah náhodného výberu pre test Hq% : a2 > o~q oproti H\3 : a2 < o\ pri a = 0.05 a 1 — f3 = 0.8, ak podiel ^ je rovný (a) 1.1, (b) 1.5 a (c) 5. ° DÚ Príklad 71 (konvergencia p a £ k normálnemu rozdeleniu) Urobte v simuláciu pseudoná-hodných čísel z N2 (f-t, S), kde p\ = 0, /i2 = 0, o~\ = 1, a2 = 1 (pozri príklad 18), kde n = 5,10, 20,50 a 100, M = 10000. Použite (a) p = 0, (b) p = 0.50 a (c) p = 0.9. Pre každém = 1,2,..., M vypočítajte Pearsonov korelačný koeficient rm a Fisherovu Z-premennú z^m. Zobrazte histogramy simulovaných rm d <2R,m o, superponujte ich teoretickými hustotami prislúchajúcich normálnych rozdelení. cvič. Príklad 72 (porovnanie troch DIS v extrémnej situácii) Nech N = 25 študentov, ktorým sme položili otázku, či sú vegetariáni. Z nich x = 0 odpovedalo „áno ". Vypočítajte empirické 100 x (1 — a)% DIS (a) Waldov DIS, (b) skóre DIS a (c) vierohodnostný DIS pre p (1 — a = 0.95,). cvič. Príklad 73 (funkcia vierohodnosti v extrémnej situácii) Nakreslite funkciu vierohodnosti pre situáciu v predchádzajúcom príklade. DÚ Príklad 74 (pruské armádne jednotky) Majme x ~ Poiss(X). Vypočítajte (a) Waldov 95% DIS pre X, (b) skóre 95% DIS pre X a (c) vierohodnostný 95% DIS pre X (dáta pozri v príklade 55). cv1c. Príklad 75 (test o rozdiele stredných hodnotôt p,\ a /i2) Majme dáta two-samples-means-birth.txt, premennú pôrodná hmotnost birth.W v gramoch novorodencov (chlapcov) narodených cvič. v krajskej nemocnici v priebehu jedného roka a premennú počet starších súrodencov o.sib.N, ktorá nadobúda hodnoty 0 (žiadny) a 1 (jeden). Predpokladáme, že premenná birth. W chlapcov so žiadnym starším súrodencom má normálne rozdelenie N(p\, af) a birth. W chlapcov s jedným starším súroden com má normálne rozdelenie N(p2,&2)- (a) Otestujte hypotézu o zhode stredných hodnôt p,\ a /i2 na hladine významnosti a = 0.05. (b) Vypočítajte 100 x (1 — a)% empirický DIS pre rozdiel stredných hodnôt pi — P2, kde koeficient spoľahlivosti 1 — a = 0.95. Použite (1) Waldovu testovaciu štatistiku Tyy pri predpoklade (1.1) rovnosti a (1.2) nerovnosti rozptylov, (2) testovaciu štatistiku pomerom vierohodnosti Ulr pri predpoklade (2.1) rovnosti a (2.2) nerovnosti rozptylov a DIS prislúchajúce (1.1), (1.2), (2.1) a (2.2). DÚ Zhrnutie kapitoly o testoch o dvoch pravdepodobnostiach '2Pr(Zw > \zw\\HQ), ak Hx p-hodnota = ^ Pr(Zw > zw\H0), ak H\ Pr(Zw < zw\H0), ak Hx ln RR Ý lnRRo lnRR > lnRRo ln RR < lnRRo Hq Hi hranice (d, h) pre 100(1 — a)% empirický IS ln RR = ln RR0 ln RR ^ ln RR0 CSľ-a = {ln RR0 : ln RR0 G (ln ŔR - ua/2sg, ŔR + ua/2sg^ } ln RR < ln RR0 ln RR > ln RR0 CS^a = {ln RR0 : ln RR0 G (ln ŔR - uasg, 00) } ln RR > ln RR0 ln RR < ln RR0 CS^ = {ln RR0 : ln RR0 G (-00, ln ŔR + uas6 (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 30 (2Pr(Zw>\zw\\H0),ak H1 p-hodnota = < Pr(Zw > zw\H0), ak Hx \Px{Zw < zw\H0), ak Hi hranice (d,h) pre 100(1 H0 Hi RR = RRo RR 7^ RRo CSi—a RR <5 RRo RR > RRo CSi—a RR > RRq RR < RRq CSi—a RR RRo RR > RRo RR < RRo a)% empirický IS RR0 : RR0 G [RR - ua/2sg, lnRR RR0 : RRo G ^RR — uasg, oo RR0 : RR0 G (O, RR + uasg u, a/2Sg H0 ln OR = ln ORn p-hodnota = Hi lnOR^ InORo 2Pr(Zw > \zw\\H0), ak Hi Pr(Zw > zw\H0), ak Hi Pr(Zw < zw\H0), ak Hx hranice (d, h) pre 100(1 — a)% empirický IS lnOR^ ln OR0 InOR > InORo InOR < InORo ln OR < ln OR0 ln OR > ln OR0 ln OR > ln OR0 ln OR < ln OR0 p-hodnota = Ho Hi OR = OR0 OR Ý ORo OR < OR0 OR > OR0 OR > ORn OR < ORn CSi_a = |ln OR0 : ln OR0 G [\n OR - ua/2sg, ln OR CSi-a = |ln ORo : ln ORo G f ln OR — uasg, oo CSi-a = i ln ORo : ln ORo G í —oo, ln OR + uasg 2Pr(Zw > \zw\\H0), ak Hx : OR ^ OR0 Pi{Zw > zw\H0), ak Hi : OR > OR0 Pľ(Zw < zw\H0), ak Hi : OR < OR0 hranice (d, h) pre 100(1 — a)% empirický IS u, a/2Sg CSi-a CSi-a ORo : ORo G OR u, a/2*g S„, OR + Un/oS a/2*g ORo : ORo G ( OR — uasg, oo OR0 : OR0 G (0,OR + Mas9 Príklad 76 (maximálne vierohodné odhady; nádor prsníka) Majme početnosti subjektov Xi, ktoré majú rozšírené metastázy nádoru prsníka, kde X\ ~ Bin(Ni,pi) a početnosti subjektov X2, ktoré majú lokalizované metastázy nádoru prsníka, kde X2 ~ Bin(N2,p2). (la) Aplikujte funkciu vierohodnosti L(0|xi,X2), kde O = (pi,p2)T na dáta v tabuľke a vypočítajte 9. (lb) Nakreslite funkciu vierohodnosti ako funkciu pi a p2 [superpozícia contourO a image()]. (2a) Aplikujte funkciu vierohodnosti L(0|x1,x2); kde O = (9,i])T, logaritmus pomeru šancí 9 = ln p^/[ilp^) a rušivý parameter r\ = ln na dáta v tabuľke a vypočítajte 9. (2b) Nakreslite funkciu vierohodnosti ako funkciu 9 a i] [superpozícia contourO a image()]. (2c) Vypočítajte vierohodnostný 95% DIS pre 9 pomocou metodiky 15% cut-off štandardizovanej profilovej funkcie vierohodnosti. DIS dokreslite do jedného obrázka k profilovej funkcii vierohosnoti v jej 15% cut-off. metastázy rozšírené lokalizované spolu áno 5 1 6 nie 10 9 19 spolu 15 10 25 (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 31 Príklad 77 (jednovýberový test stredných hodnôt) Toto nie je DÚ, len informácia o dátach. Hodnotený súbor: Z archívnych materiálov (Schmidt 1888) máme k dispozícii pôvodné krani-ometrické údaje o dĺžke a šírke lebky zo starovekej egyptskej populácie. Súčasne máme k dispozícii priemerné hodnoty oboch rozmerov, hodnoty smerodajnej odchýlky a počty prípadov vzorky z novovekej egyptskej populácie (dĺžka lebky: xm = 177.568 mm, ľčf = 171.962 mm; sm=7.526 mm, Sf=7.052 mm; nm=88, ríf = 52 a šírka lebky: ľčm = 136.402 mm, ľčf = 131.038 mm; sm = 6.411 mm, Sf = 5.361 mm; nm = 87, ríf = 52). Súbor dát: one-sample-mean-skull-mf.txt Popis premenných: id - poradové číslo; pop - populácie (egant - egyptská staroveká); sex - pohlavie (m - muž, f - žena); skull.L - najväčšia dĺžka mozgovne (mm), t.j. priama vzdialenosť kraniometrických bodov glabella a opisthocranion; skull.B - najväčšia šírka mozgovne (mm), t.j. vzdialenosť oboch kraniometrických bodov euryon. Biologické súvislosti: Brachycefalizácia, resp. debrachycefalizácia (t.j. relatívne skracovanie či predlžovanie lebky), patrí medzi prejavy sekulárneho trendu. Tieto zmeny lebky/hlavy korelujú so zmenami kostí končatín a dávajú sa do súvislostí so zmenami vonkajších životných podmienok i genetického zloženia populácie. Napriek tomu, že pomer šírky a dĺžky lebky závisí od oboch rozmerov, ukazuje sa, že zmeny v tvare lebky ovplyvňujú predovšetkým zmeny v jej šírke. Ciele: (A) zistiť, či sa dĺžka lebky starovekej egyptskej populácie líši v strednej hodnote od novovekej egyptskej populácie (zvlášť u mužov a u žien); (B) zistiť, či sa šírka lebky starovekej egyptskej populácie líši v strednej hodnote od novovekej egyptskej populácie (zvlášť u mužov a u žien). (3. júna 2014) Katina, S., 2013: Štatistická inferencia I a II 32 Príklad 78 (dvojvýberový test stredných hodnôt) Toto nie je DÚ, len informácia o dátach. Hodnotený súbor: Máme k dispozícii údaje o pôrodnej hmotnosti prvorodených a druhorodených chlapcov, novorodencov narodených v krajskej nemocnici v priebehu jedného roka (Alánová 2008). Novorodencov narodených vo vyššom poradí sme z tohto porovnania vylúčili. Súbor dát: two-samples-means-birth.txt Popis premenných: o. sib.N - počet starších súrodencov (0 - žiadny, 1 - jeden); birth.W - pôrodná hmotnosť (g). Biologické súvislosti: Z niektorých štúdií vyplýva, že medzi prvorodenými a druhorodenými novorodencami môžu byť rozdiely v pôrodnej hmotnosti. Prvorodení by potom mali mať nižšiu pôrodnú hmotnosť než deti narodené ako druhé v poradí. Ciele: (A) zistiť, či sa pôrodná hmotnosť prvorodených a druhorodených chlapcov z jednej pôrodnice a sezóny v priemere líši. (3. júna 2014)