Ústav matematiky a statistiky Přírodovědecká fakulta Masarykova univerzita Štatistická inferencia II Zadania domácich úloh Stanislav Katina katina@math.muni.cz 6. mája 2015 Katina, S., 2015: Štatistická inferencia II 1 Inštrukcie k DÚ: Odovzdáva sa jeden pdf súbor nazvaný priezvisko-meno-text-statinf-ll-2015.pdf (obsahuje riešenia príkladov, obrázky, <®-kód napísaný v TgXu), jeden zdrojový súbor naprogramovaných funkcií priezvisko-meno-source-statinf-l 1-2015.r a jeden súbor ^-kódu konkrétnych zadaní z DÚ priezvisko-meno-priklady-statinf-l 1-2015.r, ktorý používa tento zdrojový kód. Na písanie ®-kódu odporúčam TfrjX balíček listings a vytvoreniu prostredia v hlavičke dokumentu ako \lstset{language=R, 7 nastavenie jazyka R bas i cstyle =\f ootnot e s ize \ ttf amily , 7 typ pisma R-kodu commentstyle=\ttfamily\color{farbal}, 7 farba komentára k funkciám numberstyle=\color{farba2}\footnotesize , 7 farba a velkost cislovania numbers=left, 7 cislovanie vlavo stepnumber=1, 7 cislovanie po krokoch jedna frame=leftline, 7 vytvorenie lavej hraničnej čiary breaklines=true} 7 zalomenie riadkov a potom v texte medzi begin a end. DU je potrebné odovzdat 7 dni pred termínom skúšky, na ktorý sa prihlásite. Príklad 1 (odvodenie testovacích štatistík) Nech X r H01 : fi = fi0 vs. Hu : fi ^ fiQ. Odvoďte testovacie štatistiky (1) Uw použitím Uw=(0- 60)T1(6)(6 - 0O) a (2) Us použitím U s = (S(e0))T(l(60))-1S(e0). N(fi,a2), kde a2je naznáma. Majme Príklad 2 (pravdepodobnosť teoretickej CHPD pri danom n) Odvoďte pravdepodobnosti (1) aw, (2) aLR a (3) as. I Príklad 3 (Fisherova miera informácie) Vypočítajte Fisherovu mieru informácie T(g(p)), kde (a) g(p) = ln ^ a (b) g(p) = arcsin(^p). Príklad 4 (Fisherova miera informácie) Porovnajte DIS pre p použitím (a) Waldovho DIS, (b) vierohodnostného DIS, (c) skóre DIS, (d) transformovaného Waldovho DIS pre g (p) = (f) transformovaného Waldovho DIS pre g{p) = ln:^, (d) transformovaného Waldovho DIS pre g{p) = arcsin(^), kde (1) N = 1400 a p = 0.05, (2) N = 40 a p = 0.05, (3) N = 1400 a p = 0.25, (4) TV = 40 ap = 0.25, (5) N = 1400 a p = 0.5, (6) N = 40 a p = 0.5. (6. mája 2015) Katina, S., 2015: Štatistická inferencia II 2 Príklad 5 (Fisherova miera informácie) Majme dvojrozmerné normálne rozdelenie. Odvoďte pozorovanú Fisherovu informačnú maticu 1(0), kde 0 = (fi1,fÍ2,af,a%,p)T. Pomocou nej vypočítajte rozptyly jednotlivých elementov 0. Príklad 6 (pravdepodobnosť pokrytia) Nech Xi ~ Bin(N,pi). Vypočítajte pravdepodobnosti pokrytia: (a) vierohodnostného 95% DIS a (b) spätne tranformovaného Waldovho 95% DIS pre g(pí) s hrani- cami (ď-g\h>g>) na Waldov95% DIS pre pi s hranicami ((g(dg )) 1, (g(hg )) 1j, kde (í) g(pi) = (2) g(pi) = ln a (3) g(pi) = arcsin(^pí) pre každé pi, kde pi patria množine M.j = 1 — sú ekvidištantne vzdialené medzi a 1-| a ich počet M = 5000. Nakreslite obrázok, kde na x-ovej osi budú pi a na y-ovej osi pravdepodobnosť pokrytia Pľi(pokrytie). Zvoľte (a) N = 30, (b) N = 100 a (c) N = 1000. Pozn.: pravdepodobnosti pokrytia 95% DIS pre pi vypočítame nasledovne Pľi(pokrytie) = ^2,- Pr(X = Npj : pi g 95% DIS pre p j), kde p j g M. j = {-^, jf,..., 1 — -^}, t.j. ide o súčet takých funkčných hodnôt pravděpodobnostně] funkcie v bodoch Npj, kde pi g 95% DIS pre pj. Pre tie DIS, ktoré majú pre p = 0 a p = 1 nenulovú i = I o. K\ 11 \ n ' n r šírku, môžeme použit, M.j - Príklad 7 (test o pomere šancí) Majme dáta two-samples-probabilities-sexratio.txt, premennú počet starších súrodencov o.sib.N a pohlavie sex. Predpokladáme, že početnosť chlapcov, ak nemajú staršieho súrodenca, Xm>0 ~ Bin(Nm>o,pm>o); početnosť chlapcov, ak ho majú, Xm>1 ~ Bin(Nm>i,pm>i); početnosť dievčat, ak nemajú staršieho súrodenca, Xjyo ~ Bin(Nf}o,pfto); početnosť dievčat, ak ho majú, Xfti ~ Bin(Nfti,pfti). (a) Otestujte hypotézu o pomere šancí narodenia chlapca (ak nemá staršieho súrodenca voči situácii, že ho má) použitím testu pomerom vierohodnosti na hladine významnosti a = 0.05. (b) Vypočítajte 100 x (1 — a)% empirický DIS pre tento pomer šancí pomocou metodiky 15% cut-off štandardizovanej (profilovej) funkcie vierohodnosti, kde koeficient spoľahlivosti 1 — a = 0.95. (c) Nakreslite funkciu vierohodnosti ako aj profilovú funkciu vierohodnosti a DIS. Aproximácia binomického rozdelenia Poissonovým rozdelením. Nech Xj ~ Bin(Nj,pj),j = 1,2, kde p j sú veľmi malé čísla a N j sú velké čísla. Parametrom záujmu je relatívne riziko 9 = P\JP2- Preto môžeme predpokladať, že X\ ~ Poiss(X1), Xľ = Nipi a X2 ~ Poiss(\2), A2 = N2P2- Tiež môžeme situáciu zjednodušiť použitím Ni ~ N2. Potom funkcia vierohodnosti bude mať tvar L(0|xi,x2) = e-(JVlPl+JV2P2)(iVipi)ni(iV2P2)n!! = ce-p2{Nl9+N2)9nip%1+n2 kde 0 = (9,p2)T, c = N'^N'^2 (maximalizácia L(0|xi,X2) nezávisí na c) a profilová funkcia vierohodnosti L(0|Xl,x2) N19 + N2J V N^ + N: Príklad 8 (maximálne vierohodné odhady; nové liek vs. placebo) Predpokladajme, že početnosť subjektov s infarktom myokardu (IM) X\ v skupine A (nový liek) má binomické rozdelenie s parametrami N\ api, t.j. X\ ~ Bin(N1,p1), a počet subjektov s IM v skupine B (placebo) má tiež binomické rozdelenie s parametrami N2 ap2, t.j. X2 ~ Bin(N2,P2)■ Pozorovali sme nľ = 139 z celkového (6. mája 2015) Katina, S., 2015: Štatistická inferencia II 3 počtu Ni = 11037 subjektov a n2 = 239 z celkového počtu N2 = 11034 subjektov. Kedže Ni a N2 sú vysoké čísla a pravdepodobností IM malé čísla, môžeme predpokladať, že X\ ~ Poiss(Xi), Ai = N±pi a X2 ~ Poiss(X2), X2 = N2p2. Zjednodušme situáciu použitím N± N2. (a) Aplikujte funkciu vierohodnosti L(0|xi,X2), kde O = (0,p2)T a relatívne riziko 9 = p±/p2 na dáta v tabuľke - pre (1) IM ako aj (2) pre mozgovú mŕtvicu (MM), (b) Nakreslite profilové funkcie vierohodnosti pre každú skupinu, (c) Vypočítajte vierohodnostný 95% DIS pre (1) 9im a (2) 9mm pomocou metodiky 15% cut-off štandardizovanej funkcie vierohodnosti. Tabuľka 1: Početnosti subjektov s infarktom myokardu a mozgovou mŕtvicou v skupine A a B skupina IM MM spolu skupina A 139 119 11037 skupina B 239 98 11034 (6. mája 2015)