Ústav matematiky a statistiky Přírodovědecká fakulta Masarykova univerzita Štatistická inferencia II Zadania príkladov na cvčenia Stanislav Katina katina@math.muni.cz 6. mája 2015 Katina, S., 2015: Štatistická inferencia II 1 Definícia 1 (asymptotické rozdelenie poriadkovej štatistiky) Nech , X(2), ■ ■ ■, X(n) sú poriadkové štatistiky náhodného výberu X1}X2,..., Xn. Majme pravdepodobnosť a, kde F(ta) = a. ^(j) 24 lnn ' Príklad 1 (rozptyl poriadkovej štatistiky) (a) Pomocou delta metódy odvoďte rozptyl poriadkovej štatistiky v definícii 1. (b) Pomocou definície 1 odvoďte rozptyl poriadkovej štatistiky, ak Príklad 2 (graf distribučnej funkcie a jej IS) Nakreslite graf distribučnej funkcie N "(//, a2), kde fi = 0 a a2 = 1. Do grafu dokreslite 95% pás spoľahlivosti pre F (x). Jeho hranice vypočítajte pomocou simulácie pseudonáhodných čísel z N(0,1) pri n = 50, kde Fn(x) je odhadnutá z dát. Teoretická distribučnú funkciu $(A) naprogramujte v alebo použite knižnicu kolmim a funkciu pkolm(); help k tejto funkcii je prístupný na http://cran.r-project.org/web/packages/kolmim/index.html. Príklad 3 (%2-test dobrej zhody) Majme dáta Grades z knižnice PASWR, ktoré reprezentujú SAT skóre (n = 200) náhodne vybranej vzorky študentov z jednej univerzity v USA. Otestujte na hladine významnosti a = 0.05, či majú dáta normálne rozdelenie. Použite intervaly (fi — 3a, fi — 2a), (fi — 2a, fi — a), (fi — a, fi), (fi, fi + a), (fi + a, fi + 2a) a (/x + 2a, fi + 3a). Nakreslite histogram použitím vyššie spomenutých intervalov a superponujte ho s očakávanými hodnotami SAT skóre v každej kategórii, keď Fq(x) ~ N(fi,a2). Príklad 4 (%2-test dobrej zhody) Johann Gregor Mendel vo svojich pokusoch s krížením rastlín hrachu (Pisum sativum) študoval dedičnosť siedmych rôznych znakov. V každom z pokusov, pri sledovaní jedného znaku, získal po krížení dvoch čistých línií (t. j. dominantného homozygota A A s re-cesívnym homozygotom aa) generáciu, v ktorej mali všetky rastliny rovnaký fenotyp (t.j. heterozygoti Aa). Po ich samooplodnení (čo je prirodzený spôsob rozmnožovania hrachu) získal ďalšiu generáciu, v ktorej sa vyskytovali sledované znaky v dvoch formách, a to zakaždým v pomere veľmi blízkom 3:1. Jedným zo znakov, ktoré študoval, bola farba semien. Po krížení 258 hybridov získal celkove 8023 semien, z ktorých 6022 bolo žltých a 2001 zelených. Otestujte platnosť fenotypového štiepneho pomeru 3 : 1 na hladine významnosti a = 0.05. Príklad 5 (%2-test dobrej zhody; početnosti úmrtí) Otestujte zhodu početností X Pruských ar- DU mádnych jednotiek, v ktorých nastalo n úmrtí zapríčinených kopnutím koňom za rok (pozri príklad zo Síl) s Poissonovým rozdelením s parametrom X, t.j. X ~ Poiss(X) na hladine významnosti a = 0.05. Príklad 6 (x2-test dobrej zhody; početnosti chlapcov) Otestujte zhodu početností rodín X s DU n chlapcami (pozri príklad zo Síl) s binomickým rozdelením s parametrami N a-k, t.j. X ~ Bin(N, -k) na hladine významnosti a = 0.05. Príklad 7 (x2-test dobrej zhody; úrazy robotníkov) Otestujte zhodu početností robotníkov X DU s n úrazmi v továrni (pozri príklad zo Síl) (a) s Poissonovým rozdelením s parametrom X, t.j. X ~ Poiss(X) a (b) s negatívne binomickým rozdelním s parametrami a a-k, t.j. Negbinom{a,-k) na hladine významnosti a = 0.05. konverguje k 0. Potom je poriadková štatistika X(j) normálne '{(j)] =ta a rozptylom a\ = "2(!. Ak X ~ N(ji, a2), potom X ~ N'((i, a2). (6. mája 2015) Katina, S., 2015: Štatistická inferencia II 2 Príklad 8 (x2-test dobrej zhody; fetálna aktivita) Nech X predstavuje početností päťsekun-dových intervalov (z 240) v posledných 2/3 iarchavosti zaznamenaných ultrazvukom, v ktorých sa plod ovce n-krát pohol (pozri tabuľku). Vypočítajte očakávané početnosti za predpokladu, že X ~ Poiss(X). Otestujte zhodu pozorovaných a teoretických početností na hladine významnosti a = 0.05. Tabuľka 1: Pozorované početnosti mn päť sekundových intervalov v posledných 2/3 ťarchavosti zaznamenaných ultrazvukom, v ktorých sa plod ovce n-krát pohol n 0 1 2 3 4 5 6 7 pozorované mn 182 41 12 2 2 0 0 1 Príklad 9 (Kolmogorov-Smirnovov test dobrej zhody) Majme výšky n = 12 náhodne vybraných 10-ročných dievčat x = (131,132,135,141,141,141,141,142,143,146,146,151)T. Otestujte na hladine významnosti a = 0.05, či majú dáta normálne rozdelenie, kde F0(x) ~ N(fi,a2). Príklad 10 (nezávislosť fi a a2; pravdepodobnosť pokrytia) Nech X ~ N(fi,a2), kde fi = 20 a a2 = 100. Vypočítajte Pearsonov korelačný koeficient r^ s pomocou simulačnej štúdie. Nakreslite sivou farbou rozptylový graf (xm,sm), kde m = 1,2, ...,M, kde M = 100000. Dokreslite do grafu čiernou farbou také body, pre ktoré platí ty^ 1 < tn_1(a/2), ako aj hranice, ktoré definujú také body (xm,sm), pre ktoré tw,m = tn-i(a/2). Vypočítajte pravdepodobnosť pokrytia 95% DIS pre fi ako podiel I {tyv,m < tn-i(a/2)) /M. Zvoľte (a) n = 5, (b) n = 50 a (c) n = 100. Príklad 11 (nezávislosť fi a a2; pravdepodobnosť pokrytia) Nech X ~ [pN(fi, af) + (l—p) N(fi, o"|)], kde p = 0.9, fi = 20, o\ = 100 ao\ = 400. Vypočítajte Pearsonov korelačný koeficient s pomocou simulačnej štúdie. Nakreslite sivou farbou rozptylový graf (xm,sm), kde m = 1,2, ...,M, < kde M = 100000. Dokreslite do grafu čiernou farbou také body, pre ktoré platí tw,m ŕn_i(oí/2); ako aj hranice, ktoré definujú také body (xm,sm), pre ktoré tw,m = tn-i(a/2). Vypočítajte pravdepodobnosť pokrytia 95% DIS pre fi ako podiel I {tyv,m < tn-i(a/2)) /M. Zvoľte (a) n = 5, (b) n = 50 a (c) n = 100. Príklad 12 (necentrálne t-rozdelenie) Nakreslite distribučnú funkciu necentrálneho t-rozdele-nia ín-i5A; kde ô = fi — fiQ a A = 8j(ol\fn). Použite fiQ = 0, ô = 1, a = 1.4 a n = 26. Vypočítajte pravdepodobnosť nad kvantilom rco.975 P°d krivkou hustoty tohoto rozdelenia. Príklad 13 (necentrálne t-rozdelenie) Nakreslite hustoty jedného centrálneho a štyroch necen-trálnych t-rozdelení ín-i5A (5 = ^ — fJ>o a X = ô/(oj\fn)) do jedného obrázka tak, aby boli odlíšiteľné farbou alebo typom čiary. Použite fiQ = 0, ô = 0, 0.5, 0.8,1 a 1.2, a = 1.4 a n = 26. Nech X ~ N(fi, a2), kde a2je naznáma. Testujme Hqi : /x = //q vs. Hu : /x ^ //q. Potom n w n lr n ln 1 Uw n aUs n nUw ČŤT w (6. mája 2015) Katina, S., 2015: Štatistická inferencia II 3 Príklad 14 (pravdepodobnosť empirickej CHPD) Nech X ~ N(fi,a2), kde fi = 0 a a2 = 2.52. Testujte Hq : fi = 0 oproti Hu : /1 / 0 na a = 0.05, a2 je neznáme. Použite na simuláciu empirickej Pľ(CHPD), kde počet simulácii je M = 10000 a rozsah náhodného výberu jen = 5,10,20,30,50,100,500,1000. uLR,m = nln(l + ^) a (3) us,m = n+u^, početnosť p zamietnutých Hqi na hladine významnosti a Vypočítajte testovacie štatistiky (1) uyy^m = -^rt 'uWm, kde m 1,2, (2) M. Vypočítajte relatívnu 1 W,m' 0.05 medzi M testami, kde p Pr(CHPD) y I(Hí) zamietame) t-> ■/ ' 7 77 7 7? 7 ' 7 7 7 - 1 ' ■ ——i-j--. Porovnajte výsledky vzhladom na rychlost konvergencie s rastúcim Príklad 15 (pravdepodobnosť empirickej CHPD t-testu) Nech X ~ N(fi,a2), kde fi = 500 a a2 = 100. Testujte Hq : fi = 500 oproti H\ : fi > 500, ak a = 0.05, a je neznáme. Použite <@ na simuláciu empirickej Pľ(CHPD), kde počet simulácii je M = 10000 a rozsah náhodného výberu je n = 20 pre jednovýberový Študentov t-test o strednej hodnote fi. Použite funkciu t.test(x, alternatíve = "greater", mu = muO) a pre každú testovaciu štatistiku tm, m = 1, 2,..., M vypočítajte p-hodnotu a jej štandardnú chybu za platnosti Hq. Ide o zistenie relatívnej početnosti p zamietnutých Hq na hladine významnosti a = 0.05 medzi M testami, kde p = Pľ(CHPD) Em=i ^(^0 zamietame) m Príklad 16 (pravdepodobnosť teoretickej CHPD pri danom n) Nech X ~ N(fi,a2), kde a2je naznáma. Majme Hqi : /x = //q vs. Hu : /i / uq. Nakreslite tri vyššie uvedené pravdepodobnosti ako funkcie n, t.j. (í) a\y(n), (2) aiR^n) a (3) a,s(n), kde n G (1,1000). Označte v grafe také n, pre ktoré a (n) prvýkrát prekročí hranicu 0.052 pre Uw a Ulr zhora a hranicu 0.048 pre U s zdola. Porovnajte výsledky vzhľadom na rýchlosť konvergencie s rastúcim n. Vypočítajte podiely nyy/ns a nm/ns a okomentujte. Príklad 17 Nech X (a) Vypočítajte silu 1 — (3 pre uq za predpokladu, že o = 2.5. N (u, a2), kde odhady x = 4 a s2 = 2.892. Rozsah náhodného výberu n = 25. 2.5 a fiľ =4 (ui predstavuje hodnotu fi za platnosti H\) (b) Použite na simuláciu hustoty rozdelenia £n_i5A testovacích štatistík = Xms Mo \fn (ne-centrálne t-rozdelenie s n — 1 stupňami voľnosti a parametrom necentrality X), kde n = 25, A = 3, m = 1, 2,..., M, pri M = 20000 opakovaniach. Na základe tohoto rozdelenia vypočítajte silu testu pre u0 = 2.5 a uľ = 4 (pozri obrázok 45). (1) X ~ iV(4,2.52) a (2) X ~ [pN(4, 2.52) + (1 -p)iV(4,4.52)], kde p = 0.9. Príklad 18 (empirická silofunkcia t-testu) Nech (a) X pochádza z normálneho rozdelenia, X ~ N(ui, 1002), a (b) X pochádza zo zmesi dvoch normálnych rozdelení, X ~ \pN(ui, 1002) + (1 — p)N(ui, 2002)], kde p = 0.9. Rozsah náhodného výberu n = 20. Použite ® na simuláciu empirickej silofunkcie pre jednovýberový Študentov t-test. Testujeme Hq : fi = 500 oproti H\ : u ^ 500, kde fiľ = 450,460,640, 650 (ide o obojstrannú alternatívu). Použite funkciu t.test(x,mu=500), na výpočet každej testovacej štatistiky tm,m = 1,2, ...,M, kde M = 10000, vypočítajte p-hodnotu korešpondujúcu tm a porovnajte ju s hladinou významnosti a = 0.05. Tak získate empirickú silofun-kciu 1 — ) pri danej alternatíve. Do grafu zakreslite 1 — fl(ui) pri danej alternatíve ako aj ich štandardné chyby SE[1 — fl(ui)] = y ^ /3(^->/3(^1-> v podobe chybovej úsečky 1—(3(fii)±SE[l — Do grafu vkreslite aj teoretickú silofunkciu 1 — fl(ui), Ui G (450,650) (použite funkciu power.t.testQ). (6. mája 2015) Katina, S., 2015: Štatistická inferencia II 4 Príklad 19 (MC odhad koeficientu spoľahlivosti 1 — a) Vypočítajte v MC odhad koeficientu spoľahlivostí (pravdepodobností pokrytia) pre pravostranný (horný) 95% JIS pre a2 pri m = 1000 a n = 20. Tento JIS je ekvivalentný s testom Hq2 oproti H\2- (a) Nech X ~ iV(0,4); (b) X ~ x2(2) a (c) X ~ [pN(0,A) +(1 - p)N(0, 9)], kde p = 0.9. Príklad 20 (minimálny rozsah súboru) Vypočítajte v ^5$ minimálny rozsah náhodného výberu 2 pre test H03 : a2 > o\ oproti H13 : a2 < o\ pri a = 0.05 a 1 — f3 = 0.8, ak podiel ^ je rovný (a) 1.1, (b) 1.5 a (c) 5. Príklad 21 (minimálny rozsah n) Vypočítajte minimálny rozsah n pre p = 0.1, 0.2,..., 0.9, Po = 0 pri a = 0.05, 1 — f3 = 0.8 a obojstrannej alternatíve Hu- Príklad 22 (minimálny rozsah n) Vypočítajte minimálny rozsah n pre p = 0.1,0.2,... ,0.9, po vždy o 0.1 menšie ako p, pri a = 0.05, f3 = 0.8 a obojstrannej alternatíve Hu. Príklad 23 (konvergencia p a £ k normálnemu rozdeleniu) Urobte v <@ simuláciu pseudo-náhodných čísel z ^(a*, S), kde p\ = 0,p2 = 0, o\ = l,o"2 = 1 (pozri príklad zo Síl), kde n = 5,10,20,50 a 100, m = 10000. Použite (a) p = 0, (b) p = 0.50 a (c) p = 0.9. Pre každé m = 1,2,..., m, vypočítajte Pearsonov korelačný koeficient rm a Físherovu Z-premennú z^m. Zobrazte histogramy simulovaných rm a z^m a superponujte ich teoretickými hustotami prislúchajúcich normálnych rozdelení. Príklad 24 (minimálny rozsah N) Vypočítajte minimálny rozsah n pre p = 0.1, 0.2,..., 0.9, Po = 0 pri a = 0.05, f3 = 0.8 a obojstrannej alternatíve Hu. Skontrolujte, čí je splnená Haldova podmienka. Ak nie je, doplňte minimálne N, ktoré túto podmienku spĺňa. Príklad 25 (minimálny rozsah N) Vypočítajte minimálny rozsah N pre p = 0.1,0.2,..., 0.9, po vždy o 0.1 menšie ako p, pri a = 0.05, f3 = 0.8 a obojstrannej alternatíve Hu. Skontrolujte, čí je splnená Haldova podmienka. Ak nie je, doplňte minimálne N, ktoré túto podmienku spĺňa. Príklad 26 (pravděpodobnost pokrytia) Nech X ~ Bin(N,p), kde N = 30 a p = 0.8 a pravdepodobnosť úspechu p = || = 0.8, kde x = 24 a N = 30. Waldov 95% empirický DIS pre p je rovný (d, h) = (0.657,0.943). Vypočítajte pravdepodobnosť pokrytia tohoto intervalu. Pozn.: pravdepodobnosť pokrytia Waldovho 95% DIS pre p vypočítame nasledovne Pľ(pokrytíe) = ^2,- Pr(X = Npj : p G Waldov 95% DIS pre p j), kde p j G M. j = {^j,^j,...,l — ^j}, t. j. ide o súčet takých funkčných hodnôt pravděpodobnostně] funkcie v bodoch Npj, kde p G Waldovmu 95% DIS pre pj. Výsledky usporiadajte do tabulky, ktorej stĺpce budú x j, p j, d j (dolná hranica Waldovho 95% DIS pre p j), h j (horná hranica Waldovho 95% DIS pre pj), Pľ(pokrytíe) a pokrytie (indikácia toho, čí p patrí alebo nepatrí Waldovmu 95% DIS pre pj). Príklad 27 (pravděpodobnost pokrytia) Nech X,j_ ~ Bin(N,pi). Vypočítajte pravdepodobnosti pokrytia (a) Waldovho 95% DIS a (b) skóre 95% DIS pre každé pi, kde pi patria množine Aij = {jjil — jj)> sú ekvidištantne vzdialené medzi | al-| a ich počet m = 5000. Nakreslite obrázok, kde na osí x budú pi a na osí y pravdepodobnosť pokrytia Vi^pokrytie). Zvoľte (a) N = 30, (b) N = 100 a (c) N = 1000. Pozn.: pravdepodobností pokrytia Waldovho 95% DIS pre pi vypočítame nasledovne (6. mája 2015) Katina, S., 2015: Štatistická inferencia II 5 Pľi(pokrytíe) = ^2,- Pr(X = Npj : pi G Waldov 95% DIS pre p j), kde p j G M. j = {-^, jj,..., 1 — -^}, t.j. ide o súčet takých funkčných hodnôt pravděpodobnostně] funkcie v bodoch Npj, kde pi G Waldovmu 95% DIS pre pj. Príklad 28 (pravdepodobnosť pokrytia, ak o\ = a2 sú neznáme) Nech X j ~ N(fij,a2), kde j = 1,2, fii = 20, fi2 = 35 a a2 = 100. Pomocou simulačnej štúdie (M = 100000,) vypočítajte pravdepodobnosť pokrytia 95% DIS pre [i\ — fi2 ako podiel Y^,m=i / {tyv,m < ^d/(Qí/2)) /M, kde £jy,m sú testovacie štatistiky klasického dvojvýberového t-testu. Zvoľte (a) n = 5, (b) n = 50 a (c) n = 100. Príklad 29 (pravdepodobnosť pokrytia, ak o\ ý °~2 sú neznáme) Nech X j ~ N(fij,a2), kde j = 1,2, fii = 20, fi2 = 35, o\ = 100 a a2 = 150. Pomocou simulačnej štúdie (M = 100000,) vypočítajte pravdepodobnosť pokrytia 95% DIS pre fi± — fi2 ako podiel Y^,m=i1 {tw,m < tdf(ct/2)) /M, kde tjy,m sú (1) testovacie štatistiky klasického dvojvýberového t-testu a (2) testovacie štatistiky Wel-chovho dvojvýberového t-testu. Zvoľte (a) n = 5, (b) n = 50 a (c) n = 100. Príklad 30 (pravdepodobnosť pokrytia, ak o\ = o\ sú neznáme) Nech X j ~ \pN(uj, a2) + (1 - p)N(i2j,al)}, kde p = 0.9, j = 1,2, ^ = 20, fi2 = 35, a2 = 100 a a2a = 400. Pomocou simulačnej štúdie (M = 100000,) vypočítajte pravdepodobnosť pokrytia 95% DIS pre fi± — fi2 ako podiel Y^,m=i I (tw,m < ^d/(Qí/2)) /M, kde £jy,m sú testovacie štatistiky klasického dvojvýberového t-testu. Zvoľte (a) n = 5, (b) n = 50 a (c) n = 100. Príklad 31 (pravdepodobnosť pokrytia, ak o\ ý °~2 sú neznáme) Nech X j ~ [pN(fij,a2) + (1 - p)N{N, a2a)}, kde p = 0.9, j = 1, 2, ^ = 20, fj,2 = 35, a2 = 100, a2 = 150, a2la = 400 a a2a = 450. Pomocou simulačnej štúdie (M = 100000,) vypočítajte pravdepodobnosť pokrytia 95% DIS pre l^i — 1^2 ako podiel ^2^=1I(tw,m < tdf(ci/2)) /M, kde tw,m sú (1) testovacie štatistiky klasického dvojvýberového t-testu a (2) testovacie štatistiky Welchovho dvojvýberového t-testu. Zvoľte (a) n = 5, (b) n = 50 a (c) n = 100. Príklad 32 (sila a silofunkcia testu rozdielu stredných hodnôt) Použite^ na simuláciu hustoty rozdelenia testovacej štatistiky T^a dvojvýberového testu rozdielu stredných hodnôt fi± — fi2 za platnosti dvojstrannej alternatívy Hu pri M = 20000 opakovaniach. Túto hustotu v podobe histogramu v relatívnej škále zakreslite do obrázka a superponujte ju s teoretickou hustotou. Vypočítajte silu za platnosti alternatívy Hlľ : fiľ — fi2 = 2, kde n\ = n2 = 25. Použite (a) klasický dvojvýberový t-test a (b) Welchov dvojvýberový t-test. (1) Xx ~ iV(4,2.52), X2 ~ iV(2,2.52) a (2) Xx ~ [piV(4, 2.52) + (1 -p)iV(4,4.52)], X2(2,4.52), kde p = 0.9. Príklad 33 (maximálne vierohodné odhady; nádor prsníka) Majme početnosti subjektov X\, ktoré majú rozšírené metastázy nádoru prsníka, kde X\ ~ Bin(Ni,pi) a početnosti subjektov X2, ktoré majú lokalizované metastázy nádoru prsníka, kde X2 ~ Bin{N2,p2). (a) Aplikujte funkciu vierohodnosti L(0|xi,X2), kde 6 = (8,r])T, logaritmus pomeru šancí 6 = ln ^/[il^] a rušivý parameter r/ = ln j— na dáta v tabuľke a vypočítajte 6. (b) Nakreslite funkciu vierohodnosti ako aj profilovú funkciu vierohodnosti a DIS. Zopakujte pre n1=6an2 = 0. (c) Vypočítajte vierohodnostný 95% DIS pre 9 pomocou metodiky 15% cut-off štandardizovanej profilovej funkcie vierohodnosti. DIS dokreslite do jedného obrázka k profilovej funkcii vierohosnoti v jej 15% cut-off. (6. mája 2015) Katina, S., 2015: Štatistická inferencia II 6 Tabuľka 2: Početnosti subjektov s rozšírenými a lokalizovanými metastázami metastázy rozšírené lokalizované spolu áno 5 1 6 nie 10 9 19 spolu 15 10 25 Príklad 34 (sila ANOVA F-testu a minimálny rozsah) Majme štyri populácie, ktorých stredné hodnoty sú fiľ = 390, u2 = 405, u$ = 415 a /x4 = 410. Predpokladajme, že ~ N(uj, a2). (a) Vypočítajte silu 1 — f3 ANOVA F-testu rovnosti stredných hodnôt za predpokladu, že K = 6, a2 = 202 a a = 0.05. (b) Vypočítajte silu 1 — f3 ANOVA F-testu rovnosti stredných hodnôt za predpokladu, že K = 6, a2e = 102 a a = 0.05. (c) Použite