5 Bodové a intervalové odhady parametrů 5.1 Úvod do matematické statistiky V rámci kapitol 2 a 3 jsme se seznámili se základními metodami popisné statistiky. Připomeňme si, že tyto metody slouží výhradně k seznámení se s datovým souborem, k pochopení podstaty předložených dat a zjištění jejich základních vlastností. Je důležité si uvědomit, že výsledky a závěry metod popisné statistiky se vztahují pouze a jedině k předloženému datovému souboru a jeho hranice nikdy nepřekročí. Snahou každého výzkumníka je však naopak poznat a používat metody, které jsou schopné hranice datového souboru překročit a umožnit mu rozšíření informací získaných na základě datového souboru na celou zkoumanou populaci. V praxi totiž častokrát nemáme možnost zkoumat výskyt nějaké vlastnosti v celé populaci, neboť zkoumaná populace může být velmi rozsáhlá a nasbírání hodnot od každého subjektu z této populace by bylo časově i finančně velmi náročné. Z tohoto důvodu je pro nás mnohem jednodušší sestavit pouze reprezentativní vzorek subjektů ze zkoumané populace, který svým složením jednak dostatečně pokrývá celou populaci a jednak dostatečně reprezentuje její stěžejní rysy. Tento reprezentativní vzorek potom vyhodnotíme pomocí vhodných statistických metod a závěry platné pro reprezentativní vzorek následně rozšíříme na celou populaci (tento krok si v případě, že vybraný vzorek je skutečně reprezentativním vzorkem celé populace, můžeme dovolit). Reprezentativní vzorek, ve statistické terminologii nazývaný jako náhodný výběr, je soubor n stochasticky nezávislých náhodných veličin X\,... ,Xn, které se řídí stejným modelem L s parametry 9, tj. X\ ~ L(9), Xn ~ L(9). Protože každá dílčí náhodná veličina se řídí stejným modelem L(9), můžeme předpokládat, že celý náhodný výběr X\,... ,Xn se také řídí modelem L(9). V praxi může být modelem L(9) například alternativní model Alt(p), kde 9 = p, binomický model Bin(iV,p), kde 9 = (N,p)T, normální model N(fi, a2), kde 9 = (/i, cr2)T, apod. Konkrétní číselné realizace náhodného výběru X\,... Xn (značíme je malými písmeny x\,..., xn), tvoří datový soubor. V souvislosti s náhodným výběrem definujeme také pojem statistika, jako libovolnou funkci T = T(X\,..., Xn) náhodného výběru, která žádným způsobem nezávisí na parametru 9. Realizací statistiky t potom označujeme statistiku T vyhodnocenou v realizaci náhodného výběru, tj. t = T(x\,... ,xn). Příklad 5.1. Repezentativní vzorek Předpokládejme, že chceme provést studii zkoumající výšku žen ve věku 25-35 let v Jihomoravském kraji. V ideálním případě bychom oslovili všechny ženy v požadovaném věku s trvalým pobytem v Jihomoravském kraji, změřili jejich výšku, zaznamenali ji do tabulky a nasbíraná data statisticky vyhodnotili. Takový výzkum by byl však časově i finančně náročný a navíc není pravděpodobné, že bychom do studie dokázali zahrnout úplně všechny ženy Proto raději vytvoříme reprezentativní vzorek žen z Jihomoravského kraje o rozsahu například n = 1000. Aby byl vzorek reprezentativní, měl by rovnoměrně pokrývat ženy z celého Jihomoravského kraje. S využitím multihypergeometrického modelu modelu popsaného v kapitole 4 můžeme vypočítat, že pro zachování rovnoměrného pokrytí celého Jihomoravského kraje bychom měli oslovit přibližně 92 žen okresu Blansko, 320 žen z okresu Brno-město, 187 žen z okresu Brno-venkov, 98 žen z okresu Břeclav, 130 žen z okresu Hodonín, 77 žen z okresu Vyškov a 96 žen z okresu Znojmo. Volba žen v každém okrese by měla být čistě náhodná a měla by pokrývat celou věkovou kategorii 25-35 let. Reprezentativní vzorek, neboli náhodný výběr bude sestávat z n = 1000 náhodných veličin X\,... jXiooo, kde veličina X\ bude popisovat výšku první ženy, ..., Xiooo bude popisovat výšku tisící ženy. O každé náhodné veličině předpokládáme, že se řídí normálním modelem, tj. X\ ~ N(fi, a2), ..., Xiooo ~ N(fi, a2), kde střední hodnota jj, i rozptyl a2 jsou shodné pro všechny náhodné veličiny. Potom tedy také o celém náhodném výběru předpokládáme, že se řídí normálním modelem, tj. X\,..., Xn ~ N(fi, a2). Nyní se dostáváme do fáze, kdy všechny ženy změříme a zjistíme například, že první změřená žena měří 165 cm, druhá žena měří 168 cm, ..., tisící žena měří 163 cm. Zaznamenáním naměřených hodnot do tabulky získáme realizace náhodnách veličin X\ = 165, X'2 = 168, ..., aJiooo = 163, které společně tvoří datový soubor. Příklad 5.2. Jednorozměrné statistiky Mějme jeden náhodný výběr X\,..., Xn o rozsahu n > 2. Příkladem statistiky pro tento náhodný výběr může být například výběrový průměr Všimněme si, že ve vzorci 1 výběrového průměru vystupují pouze hodnoty náhodného výběru X\,..., Xn a rozsah n (1) i=l 1 náhodného výběru n. Libovolný parametr 9 (např. /i, a2, p, apod.) se ve vzorci nevyskytuje. Dalším příkladem jednorozměrné statistiky je výběrový rozptyl n s2=—[Y,^-My2- (2) i=l Opět si všimněme, že ve vzorci 2 výběrového rozptylu se vyskytují pouze hodnoty náhodného výběru X\,... ,Xn, rozsah náhodného výběru n a výběrový průměr M, který, jakožto statistika, je funkcí náhodného výběru. Žádný parametr se ve vzorci nevyskytuje. Výběrový rozptyl je tedy opět pouze funkcí náhodného výběru. Posledním příkladem statistiky, který si uvedeme, je výběrová směrodatná odchylka definovaná jako odmocnina z výběrového rozptylu, tj. S = (3) Výběrová směrodatná odchylka je statistikou, neboť jde pouze o odmocninou statistiky nazývané výběrový rozptyl. ★ Příklad 5.3. Dvourozměrné statistiky Nechť (X\, Y\),..., (Xn, Yn) je náhodný výběr z dvourozměrného rozdělení, M\ a M2 jsou výběrové průměry a S'f a S'2 jsou výběrové rozptyly. Příkladem dvourozměrné statistiky je výběrová kovariance -Si 2 1 ™ — YJ(Xl-M1)(Y-M2). (4) Všimněme si, že ve vzorci 4 výběrové kovariance vystupují kromě hodnot dvourozměrného náhodného výběru pouze výběrové průměry M\ a Mi, které jsou statistikami a tedy funkcemi náhodného výběru, a rozsah n. Proto je výběrová kovariance rovněž statistika. Druhým příkladem dvourozměrné statistiky je výběrový korelační koeficient Rvi - vm" sis, ■ {) Výběrový korelační koeficient je definován jako podíl výběrové kovariance, která je statistikou, a odmocniny ze součinu výběrových rozptylů Si a S2, které jsou rovněž statistikami. Žádný parametr ve vzorci 5 nefiguruje, proto je výběrový korelační koeficient též statistikou. 5.2 Bodové odhady parametrů Předpokládejme nyní, že náhodný výběr X\,..., Xn se řídí nějakým modelem L s parametrem 6, tj. X\,..., Xn ~ L(9). Skutečnou hodnotu parametru 9 neznáme a bohužel ji nikdy znát nebudeme. Jde o teoretickou hodnotu, kterou není možné přesně stanovit. Hodnotu parametru 9 můžeme ale na základě datového souboru alespoň odhadnout, přičemž můžeme stanovit buď bodový nebo intervalový odhad parametru 9. Bodovým odhadem parametru 9 je statistika T = T(X\,..., Xn), která nabývá hodnot blízkých hodnotě parametru 9, ať je hodnota tohoto parametru jakákoli. Neformálně vzato, bodovým odhadem parametru 9 je jedno konkrétní číslo, které získáme jako realizaci nějaké statistiky. V praxi se můžeme setkat s různými typy bodových odhadů. Nejlepším odhadem je tzv. nestranný bodový odhad parametru 9. Tento odhad skutečnou hodnotu parametru 9 ani nepodhodnocuje, ani nenadhodnocuje a proto je nejlepším možným typem bodového odhadu. Opakem nestranného odhadu je vychýlený odhad. Takový odhad skutečnou hodnotu parametru 9 buď systematicky podhodnocuje, nebo systematicky nadhodnocuje. Třetím typem odhadu je tzv asymptoticky nestranný odhad. Asymptoticky nestranný odhad parametru 9, stanovený na základě náhodného výběru s malým rozsahem n, je vychýlený, ale s rostoucím rozsahem náhodného výběru n jeho vychýlení klesá. Čím je tedy rozsah náhodného výběru použitého ke stanovení asymptotického odhadu parametru 9 větší, tím více se stanovený odhad blíží k nestrannému odhadu. Příklad 5.4. Bodový odhad parametru jj, a parametru a2 Předpokládejme nyní, že X\,..., Xn, n > 2 je náhodný výběr řídící se modelem L se střední hodnotou jj, a rozptylem a2, tj. jj, a a2 jsou parametry rozdělení L, jejichž přesnou hodnotu nebudeme nikdy znát. Nechť dále M je výběrový 2 průměr a S2 je výběrový rozptyl, tj. M a S2 jsou statistiky vypočítané na základě náhodného výběru X\,..., Xn. Potom výběrový průměr M je nestranným odhadem parametru p a výběrový rozptyl je nestranným odhadem parametru a2. Příklad 5.5. Bodový odhad parametru a\2 a parametru p Nechť (Xi, Yi),..., (Xn, Yn) je náhodný výběr řídící se dvourozměrným modelem L2 s kovariancí a\2 a koeficientem korelace p, tj. a\2 a p jsou parametry rozdělení L2, jejichž skutečnou hodnotu nebudeme nikdy znát. Nechť dále S12 je výběrové kovariance a R je výběrvý korelační koeficient, tj. S12 a R jsou statistiky vypočítané na základě dvourozměrného náhodného výběru. Potom výběrové kovariance je nestranným odhadem parametru a\2, zatímco výběrový korelační koeficient je asymptoticky nestranným odhadem parametru p. Příklad 5.6. Bodové odhady parametrů p, a2 a a normálního rozdělení Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Mějme náhodnou veličinu X popisující největší šířku mozkovny u skeletů mužského pohlaví. Za předpokladu, že se náhodná veličina X řídí normálním modelem se střední hodnotou p a rozptylem a2, tj. X ~ N(p,a2), stanovte nestranný bodový odhad (a) střední hodnoty p; (b) rozptylu a2; (c) směrodatné odchylky a. Řešení příkladu 5.6 Celkem máme k dispozici n = 216 náhodných veličin Xi,..., X2ie, přičemž veličina Xi popisuje největší šířku mozkovny u prvního skeletu, ..., X216 popisuje největší šířku mozkovny u dvěstěšestnáctého skeletu. Předpokládáme, že všechny náhodné veličiny se řídí normálním modelem se střední hodnotou p a rozptylem a2, tj. X\ ~ N(p, a2),..., X216 ~ N(p, a2). Protože se všechny náhodné veličiny řídí stejným modelem N(p, a2), předpokládáme, že celý datový soubor se řídí týmž modelem N(p,a2). Naměřením hodnoty největší šířky mozkovny každého skeletu jsme získali celkem 216 realizací náhodných veličin, konkrétně x\ = 145, 0:216 = 137. Těchto 216 realizací tvoří společně datový soubor. Skutečnou hodnotu parametrů p a a2 (resp. a) nebudeme nikdy znát. Jejich hodnoty ale můžeme odhadnout pomocí nestranných bodových odhadů. Bodový odhad parametru p stanovíme pomocí výběrového průměru, tj. lA 1 , , 29 632 m = - V Xi = —(124 + 127 + • • • + 149 + 149 = —— = 137.1852. n ^-^ 216 216 7=1 Bodový odhad parametru a2 stanovíme pomocí výběrového rozptylu, tj. 1 ™ s2 = -y^fc - m)2 i=l = ((124 - 137.1852)2 + (127 - 137.1852)2 + • • • + (149 - 137.1852)2 + (149 - 137.1852)2) = ((-13.1852)2 + (-10.1852)2 + • • • + 11.81482 + 11.81482) = 23.27717 = 23.2772. Konečně bodový odhad parametru a stanovíme pomocí výběrové směrodatné odchylky, neboli jako odmocninu z výběrového rozptylu, tj. s = v^2 = ^23.27717 = 4.824642 = 4.8246. Datový soubor načteme příkazem read.delim() a NA hodnoty odstraníme příkazem na.omit(). Pomocí operátoru [] vybereme z tabulky data pouze ty řádky, které se vztahují k mužským skeletům (data$sex == 'm') a sloupec obsahující údaje o největší šířce mozkovny 'skuli.B'. Hodnotu výběrového průměru, resp. výběrového rozptylu můžeme dopočítat pomocí softwaru Cš? přepisem vzorce 1, resp. 2 s použitím funkce sum(). Hodnotu výběrové směrodatné odchylky získáme odmocněním výběrového rozptylu s využitím funkce sqrt(). Druhou možností je vypočítat výběrový průměr pomocí funkce mean(), výběrový rozptyl pomocí funkce var() a výběrovou směrodatnou odchylku pomocí funkce sd(). 3 1 data <- read.delim('01-one - sample-mean - skull-mf.txt') 2 data <- na.omit(data) 3 # head (data) 4 skull.BM <- data[data$sex == 'm', 'skull.B'] 5 n <- length(skull.BM) 6 m.BM <- 1 / n * sum(skull.BM) 7 s2.BM <- 1 / (n - 1) * sum((skull.BM - m.BM) " 2) 8 s.BM <- sqrt(s2.BM) 9 10 mm.BM <- mean(skull.BM) 11 ss2.BM <- var(skull.BM) 12 ss.BM <- sd(skull.BM) 13 14 (tab <- data.frame(prumer = m.BM, rozptyl = s2.BM, sm.odch = s.BM)) prumer rozptyl sm.odch 1 137.1852 23.27717 4.824642 15 16 Interpretace výsledků: Nestranný odhad střední hodnoty největší šířky mozkovny pro skelety mužského pohlaví je 137.19 mm. Nestranný odhad rozptylu (resp. směrodatné odchylky) největší šířky mozkovny pro skelety mužského pohlaví je 23.28 mm2 (resp. 4.82 mm). To znamená, že největší šířka mozkovny skeletů mužského pohlaví se pohybuje okolo hodnoty 137.19 mm se směrodatnou odchylkou 4.82 mm. Poznámka: Všimněme si, že hodnota výběrového průměru vypočítaná v příkladu 5.6 je totožná s hodnotou aritmetického průměru vypočítanou v příkladu ??. Rozdíl je však v přístupu k výsledné hodnotě. V příkladu ?? jsme aritmetický průměr uvažovali jako hodnotu vztahující se pouze k datovému souboru. V příkladu 5.6 již pracujeme s informací, že výběrový průměr je nestranným odhadem střední hodnoty p normálního rozdělení a tedy je možné ji brát jako výsledek relevantní pro celou populaci skeletů mužského pohlaví starověké egyptské populace. Naopak srovnáme-li hodnotu výběrového rozptylu vypočítanou v příkladu 5.6 s hodnotou rozptylu vypočítanou v příkladu ??, vidíme, že výsledky se mírně liší. Konkrétně hodnoty vypočítané v příkladu 5.6 jsou nepatrně vyšší než hodnoty vypočítané v příkladu ??. Rozdíly v hodnotách jsou způsobeny použitím odlišných vzorců v obou příkladech. V příkladu ?? jsme k výpočtu rozptylu použili vzorec ^ XX^i ~~ M)2, který má sice lepší interpretaci (jde o aritmetický průměr kvadrátů odchylek naměřených hodnot Xi od průměrné hodnoty M), ale není nestranným odhadem parametru a2. Jde o odhad vychýlený, který systematicky skutečnou hodnotu parametru a2 podhodnocuje. Naopak v příkladu 5.6 jsme k výpočtu rozptylu použili vzorec ^j-j- ^2(Xi — M)2, který je nestranným odhadem parametru a2. Analogicky vidíme, že hodnota výběrové směrodatné odchylky vypočítané v příkladu 5.6 je nepatrně vyšší než hodnota směrodatné odchylky vypočítaná v příkladu ??. Směrodatná odchylka vypočítaná v příkladu ?? je opět vychýleným odhadem parametru tr, který skutečnou hodnotu parametru systematicky podhodnocuje. Naopak výběrová směrodatná odchylka vypočítaná v příkladu 5.6 je nestranným odhadem parametru a. Příklad 5.7. Bodové odhady parametrů a 12 a p dvourozměrného normálního rozdělení Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Mějme náhodnou veličinu X popisující největší šířku mozkovny a náhodnou veličinu Y popisující největší délku mozkovny u skeletů mužského pohlaví. Za předpokladu, že se náhodný vektor (X, Y)T řídí dvourozměrným normálním modelem, tj. (X, Y)T ~ (//,£), kde {i je vektor středních hodnot a S je varianční matice, stanovte (a) nestranný bodový odhad kovariance cr12; (b) asymptoticky nestranný bodový odhad korelačního koeficientu p. Řešení příkladu 5.7 Celkem máme k dispozici n = 216 dvojic náhodných veličin {X\, Y\)..., (X216, Yziq), přičemž veličina X\ popisuje největší šířku mozkovny u prvního skeletu, ..., X216 popisuje největší šířku mozkovny u dvěstěšestnáctého skeletu a veličina Y\ popisuje největší délku mozkovny u prvního skeletu, ..., y216 popisuje největší délku mozkovny u dvěstěšestnáctého skeletu. Předpokládáme, že všechny dvojice náhodných veličin se řídí dvourozměrným normálním modelem s vektorem středních hodnot [i a varianční maticí s, tj. (Xi, Y\) ~ .^(/i, £),..., (^2161 ^210) ~ -^(mj s). Protože se všechny dvojice náhodných veličin řídí stejným modelem ^(/i, S), předpokládáme, že celý datový soubor se řídí týmž modelem A^//, S). Naměřením hodnot největší šířky a největší délky mozkovny každého skeletu jsme 4 získali celkem 216 dvojic realizací náhodných veličin, konkrétně (xi,yi) = (145,188), ..., (2:21612/216) = (137,186). Těchto 216 dvojic realizací tvoří společně datový soubor. Skutečnou hodnotu parametrů a 12 a p nebudeme nikdy znát. Jejich hodnoty ale můžeme odhadnout pomocí bodových odhadů. Nestranný bodový odhad parametru a\2 stanovíme pomocí výběrové kovariance, tj. 1 ™ «12 = ^—j- 53(zí - TOiXž/i - rn2), i=l kde m\ = 137.1851 je výběrový průměr největší šířky mozkovny (viz příklad 5.6) a mi = 182.0324 je výběrový průměr největší délky mozkovny. Hodnotu výběrového průměru mi získáme analogickým postupem uvedeným v příkladu 5.6. Výběrovou kovarianci potom dopočítáme jako S12 = ^š((145 - 137.1851)(188 - 182.0324) + (139 - 137.1851)(172 - 182.0324) + ... • • • + (142 - 137.1851)(183 - 182.0324) + (137 - 137.1851)(186 - 182.0324)) = ^ (46.6356 - 18.2068 + • • • + 4.6588 - 0.7348) 1113.7037 =-—-= 5.1800172265 = 5.1800. Asymptoticky nestranný bodový odhad parametru p stanovíme pomocí výběrového korelačního koeficientu, tj. «12 «12 ÍRs rvi = —ř^Ť = -, 6) kde s 12 je výběrové kovariance (viz výše), s'f = 23.2772 je výběrový rozptyl největší šířky mozkovny (viz příklad 5.6) a s'2 = 40.7664 je výběrový rozptyl největší délky mozkovny. Hodnotu výběrového rozptylu s| získáme analogickým postupem uvedeným v příkladu 5.6. Výběrový korelační koeficient potom dopočítáme jako 5.1800 5.1800 5.1800 ri2 = , =-=-= 0.1682. V23.2772V40.7664 4.8246 x 6.3849 30.8046 Hodnotu výběrové kovariance, resp. výběrového korelačního koeficientu můžeme dopočítat pomocí softwaru S přepisem vzorce 4, resp. 5 s použitím funkcí sum() a sqrt(). Druhou možností je vypočítat výběrovou kovarianci pomocí funkce cov() a výběrový korelační koeficient pomocí funkce cor(). kovariance korelacni_koefi cient 1 5.180017 0.168157 17 18 Interpretace výsledků: Nestranný odhad kovariance největší šířky a délky mozkovny pro skelety mužského pohlaví je 5.18mm2. Asymptoticky nestranný odhad korelačního koeficientu největší šířky a délky mozkovny pro skelety mužského pohlaví je 0.1682. To znamená, že mezi největší šířkou a délkou mozkovny u skeletů mužského pohlaví existuje nízký stupeň přímé lineární závislosti. Poznámka: Všimněme si, že hodnota výběrového korelačního koeficientu vypočítaná v příkladu 5.7 je totožná s hodnotou korelačního koeficientu vypočítanou v příkladu ??. Rozdíl je však v přístupu k výsledné hodnotě. V příkladu ?? jsme korelační koeficient uvažovali jako hodnotu vztahující se pouze k datovému souboru. V příkladu 5.7 již pracujeme s informací, že výběrový korelační koeficient je asymptoticky nestranným odhadem parametru p dvourozměrného normálního rozdělení a tedy je možné jej brát jako výsledek relevantní pro celou populaci skeletů mužského pohlaví starověké egyptské populace. Neměli bychom však zapomínat na to, že výběrový korelační koeficient je pouze asymptoticky nestranným odhadem parametru p a tedy jeho vychýlení klesá s rozsahem náhodného výběru. Rozsah náhodného výběru mužských skeletů, n = 216, je však dostatečně vysoký a tedy odhad parametru p můžeme považovat za nestranný. Příklad 5.8. Bodový odhad vektoru středních hodnot [i a varianční matice £ dvourozměrného normálního rozdělení 5 Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Mějme náhodnou veličinu X popisující největší šířku mozkovny a náhodnou veličinu Y popisující největší délku mozkovny u skeletů mužského pohlaví. Za předpokladu, že se náhodný vektor (X, Y)T řídí dvourozměrným normálním modelem, tj. (X, Y)T ~ JV2(/i, S), kde {i je vektor středních hodnot a S je varianční matice, stanovte (a) nestranný bodový odhad vektoru středních hodnot [i; (b) asymptoticky nestranný bodový odhad varianční matice S. Řešení příkladu 5.8 Předpokládáme, že náhodný vektor (X, Y)T se řídí dvourozměrným normálním modelem, tj. (X, Y)T ~ -V^//, S) s vektorem středních hodnot {i = (pi,P2)T a varianční maticí \paia2 o\ ) \a12 of J ' kde /ii je střední hodnota náhodné veličiny X, p2 je střední hodnota náhodné veličiny Y, o\ je rozptyl náhodné veličiny X, a\ je rozptyl náhodné veličiny Y a p je korelační koeficient popisující vztah mezi veličinami X &Y. Z příkladů 5.6 a 5.7 známe výběrové průměry m\ = 137.1851 a m= 182.0324, které jsou nestrannými odhady středních hodnot p\ a /ig, výběrové rozptyly s\ = 23.2772 a s| = 40.7664, které jsou nestrannými odhady rozptylů a\ a oj, výběrové směrodatné odchylky s\ = 4.8246 a s2 = 6.3842, které jsou nestrannými odhady odchylek o\ a 02 a výběrový korelační koeficient r 12 = 0.1681, který je nestranným odhadem korelačního koeficientu p. Nestranným odhadem vektoru středních hodnot {i je potom vektor (137.1851,182.0324)T. Asymptoticky nestranným odhadem varianční matice £ je matice / 23.2772 0.1681 x 4.8246 x 6.3842\ _ Z23.2772 5.1800 \ ^0.1681 x 4.8246 x 6.3842 40.7664 ) ~ \ 5-1800 40.7664,) " ★ Příklad 5.9. Bodový odhad parametru p alternativního modelu Načtěte datový soubor 17-anova-newborns.txt a odstraňte z načtených dat NA hodnoty. Mějme náhodnou veličinu X popisující ženské pohlaví novorozenců. Za předpokladu, že náhodná veličina X pochází z alternativního rozdělení s parametrem p, tj. X ~ Alt(p), kde p je pravděpodobnost narození holčičky, stanovte bodový odhad parametru p. Řešení příkladu 5.9 Celkem máme k dispozici 1382 náhodných veličin X\,...,X1382, přičemž veličina X\ popisuje výskyt události narození holčičky (X\ = 1; úspěch), nebo výskyt události narození chlapečka (X\ = 0; neúspěch) u první matky, ..., Xi382 popisuje výskyt události narození holčičky (X1382 = 1; úspěch) nebo chlapečka (X1382 = 0; neúspěch) u tisící třísté osmdesáté druhé matky. Za předpokladu, že všechny náhodné veličiny se řídí alternativním modelem se stejným parametrem p, tj. X\ ~ Alt(p), ..., X1382 ~ Alt(p), se také celý náhodný výběr řídí týmž alternativním modelem, tj. X ~ Alt(p). Parametr p určuje pravděpodobnost narození holčičky u jedné matky. Skutečnou hodnotu parametru p nebudeme nikdy znát, můžeme ji ale odhadnout pomocí nestranného bodového odhadu. Vektor X obsahující údaje o pohlaví novorozenců je soubor 1 (narození holčičky) a 0 (narození chlapečka). Odhad parametru p získáme opět pomocí výběrového průměru, tj. 1 v^-\ 1 . . 663 . . ™=^Z)^ = T382 (0 + 0+--- + l + 0)=i382 =0-4797. (7) i=l Všimněme si, že odhad parametru p není nic jiného, než celkový počet narozených holčiček (čitatel vzorce 7) ku celkovému počtu všech novorozenců (jmenovatel vzorce 7), což je vlastně relativní četnost výskytu holčiček v datovém souboru. Výběrový průměr sestavený nad vektorem nul a jedniček je tedy roven relativní četnosti. Nejprve načteme datový soubor příkazem read.delim() a odstraníme NA hodnoty příkazem na.omit(). Dále do proměnné sex vložíme údaje o pohlaví. Bližším prozkoumáním vektoru sex zjistíme, že jde o proměnnou typu factor, která nabývá dvou úrovní, a sice úrovně 1 (s popiskem 'f (female)) a úrovně 2 (s popiskem 'm' (male)). 19 data <- read.delim('17-anova-newborns.txt') 20 data <- na.omit(data) 21 sex <- data$sex.C 22 head(sex) 6 [1] m m f m m m Levels: f m 23 24 Protože chceme vektor sex použít k odhadu parametru p, upravíme si jej nejprve do vhodné číselné podoby. Pomoci funkce as.numeric() převedeme faktor na číselný vektor a vložíme jej do proměnné pohlaví. Vidíme, že vektor pohlaví si zachoval původní kódování 1 = female, 2 = male. Ve vektoru pohlaví tedy změníme všechny hodnoty 2 na hodnoty 0, čímž dostaneme požadované kódování 0 = male, 1 = female. 25 pohlavi <- as.numeri c(sex) 26 pohlavi [pohlavi == 2] <- 0 27 head(pohlavi) [1] 0 0 10 0 0 28 Odhad parametru p nyní získáme buď přepisem vzorce 7, nebo funkcí mean(). Nakonec si ověříme že hodnota výběrového průměru je shodná s hodnotou relativní četnosti vypočítané pomocí původního faktoru sex. 29 N <- length(pohlavi) 30 m <- 1 / N * sum(pohlavi) 31 mm <- mean(pohlavi) 32 p <- sum(sex == 'f') /N 33 tab <- data.frame(m, mm, p) 34 round(tab, 4) m mm p 1 0.4797 0.4797 0.4797 35 36 Interpretace výsledků: Nestranný odhad pravděpodobnosti narození holčičky je 0.4797. To znamená, že k narození holčičky u jedné matky dojde s pravděpodobností 47.97% 7 5.3 Intervalové odhady parametrů Hodnotu parametru 9 modelu L, ze kterého pochází náhodný výběr X\,..., Xn zkusíme nyní odhadnout pomocí tzv. intervalového odhadu. Zatímco bodový odhad parametru 9 je jedno číslo (vypočítané na základě vhodné statistiky), intervalový odhad parametru 9 je interval (D, H), který s dostatečně velkou pravděpodobností pokrývá hodnotu parametru 9. Hranice intervalového odhadu tvoří opět vhodné statistiky, neboli funkce náhodného výběru, tj. D = D(xi,..., Xn) a H = H(Xi,..., Xn). Intervalový odhad nazýváme ve statistické terminologii jako interval spolehlivosti. Všechny zde prezentované intervaly spolehlivosti jsou intervaly spolehlivosti Waldova typu, nazývané zkráceně Waldovy intervaly spolehlivosti. Mějme nyní riziko a, což je koeficient nabývající hodnoty z intervalu (0,1). Tento koeficient určuje pravděpodobnost, s jakou interval spolehlivosti nepokrývá hodnotu parametru 9. Doplňkem k riziku a je tzv. koeficient spolehlivosti (1 — a) určující pravděpodobnost, s jakou interval spolehlivosti pokrývá hodnotu parametru 9. Podle potřeby volíme nejčastěji hodnotu rizika a = 0.1 (koeficient spolehlivosti 1 — a = 0.90, tj. pravděpodobnost, že interval spolehlivosti pokrývá hodnotu parametru 9 je 90%), a = 0.05 (koeficient spolehlivosti 1 — a = 0.95, tj. pravděpodobnost, že interval spolehlivosti pokrývá hodnotu parametru 9 je 95%) nebo a = 0.01 (koeficient spolehlivosti 1 — a = 0.99, tj. pravděpodobnost, že interval spolehlivosti pokrývá hodnotu parametru 9 je 99%). (1 — a)% pravděpodobnost, že interval spolehlivosti pokrývá hodnotu parametru 9 chápeme ve smyslu, že kdybychom nasbírali n náhodných výběrů a na základě každého z nich vypočítali intervalový odhad zkoumaného parametru 9, potom alespoň v (1 — a) x n případech by vypočítaný interval spolehlivosti pokrýval (obsahoval) skutečnou hodnotu parametru 9 a ve zbylých (a x n a méně) případech by interval spolehlivosti skutečnou hodnotu parametru 9 nepokrýval (neobsahoval). Příklad 5.10. Pravděpodobnost pokrytí 100 x (1 — a)% intervalu spolehlivosti Předpokládejme, že náhodná veličina X popisující největší šířku lebky novověké egyptské mužské populace, se řídí normálním modelem se střední hodnotou /i = 177.568 a rozptylem a2 = 7.5262, tj. X ~ 7V(177.568, 7.5262). Zde tedy na chvíli připusťme, že známe skutečnou hodnotu parametru /i i skutečnou hodnotu parametru a2. Představme si nyní, že jsme v rámci jednoho experimentu vybrali náhodný vzorek 250 mužů z novodobé egyptské populace a změřili největší šířku jejich lebky. Získali jsme náhodný výběr Xi = {X\^,..., Xi^so)- Na základě náhodného výběru jsme stanovili 95% Waldův empirický interval spolehlivosti pro parametr jj, a následně jsme zkontrolovali, zda skutečná hodnota parametru jj, = 177.568 náleží do vypočítaného intervalu spolehlivosti, nebo nikoli. Analogický experiment jsme následně zopakovali stokrát. V alespoň 95 případech ze 100 experimentů vypočítaný Waldův empirický interval spolehlivosti pokrývá skutečnou hodnotu parametru jj, = 177.568, zatímco v pěti a méně případech ze 100 experimentů vypočítaný interval spolehlivosti skutečnou hodnotu parametru jj, nepokrývá (viz obrázek 1). 179 -178 - 177 - 176 - 20 40 ~1~ 60 —r~ 80 100 experiment Obrázek 1: Pravděpodobnost pokrytí 95% Waldova empirického intervalů spolehlivosti pro parametr jj, normálního rozdělení při známém rozptylu a2 8 Naším cílem je nalézt takový interval spolehlivosti, který je jednak rozumně široký a který pokrývá skutečnou hodnotu parametru 9 s co největší pravděpodobností. Bohužel s rostoucí pravděpodobností pokrytí parametru 9 intervalem spolehlivosti roste také šířka tohoto intervalu. Proto volba výše pokrytí parametru 9 intervalem spolehlivosti je vždy otázka kompromisu. Představme si, že bychom chtěli sestrojit 100% interval spolehlivosti, tedy interval, který pokrývá parametr 9 se 100% pravděpodobností. Takový interval existuje a má tvar (—oo; oo) (se 100% pravděpodobností bude skutečná hodnota parametru 9 nabývat hodnoty mezi —oo a oo). Takový interval spolehlivosi nám však příliš platný není. Kdybychom se naopak rozhodli, že sestrojíme co nejpřesnější interval spolehlivosti, tj. interval, který bude mít co nejmenší šířku, sestrojili bychom 1% interval spolehlivosti. Šířka tohoto intervalu by byla tak malá, že by se intervalový odhad blížil bodovému odhadu. Ovšem pravděpodobnost, že skutečná hodnota parametru 9 náleží do toho úzkého intervalu by byla pouhé 1% (s 1% pravděpodobností skutečná hodnota parametru 9 náleží do intervalu spolehlivosti, ale s 99% pravděpodobností ne). Tento interval je tedy také ne příliš užitečný. Proto volíme hodnotu rizika a jako 0.1, 0.05 nebo 0.01, protože odpovídající koeficient spolehlivosti 1 — a (0.9, 0.95 nebo 0.99) zajišťuje přijatelnou šířku intervalu spolehlivosti při zachování velmi vysoké pravděpodobnosti pokrytí parametru 9. Jak je uvedeno výše, šířka intervalu spolehlivosti roste s rostoucím koeficientem spolehlivosti 1 — a, neboli s rostoucí pravděpodobností pokrytí parametru 9. Porovnáme-li tedy navzájem 90%, 95% a 99% interval spolehlivosti, bude šířka 90% intervalu spolehlivosti menší než šířka 95% intervalu spolehlivosti a ta bude menší než šířka 99% intervalu spolehlivosti. Příklad 5.11. Porovnání šířky Waldových empirických intervalů spolehlivosti Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Mějme náhodnou veličinu X popisující největší šířku mozkovny u skeletů mužského pohlaví. Za předpokladu, že náhodná veličina X pochází z normálního rozdělení se střední hodnotou jj, a rozptylem a2, tj. X ~ N(p,a2), vypočítejte 90%, 95% a 99% Waldův empirický interval spolehlivosti pro parametr jj,. Následně porovnejte šířky těchto intervalů. 99% IS 95% IS - 90% IS - 136.2 136.6 137.0 137.4 137.8 nejvetsi sirka mozkovny (mm) 138.2 Obrázek 2: Porovnání šířky 90%, 95% a 99% Waldova empirického intervalu spolehlivosti pro parametr jj, normálního modelu Poznámka: Přesný postup výpočtu intervalů spolehlivosti si názorně ukážeme později, v příkladu 5.12. Z obrázku 2 vidíme, že skutečně nejméně široký je 90% Waldův empirický interval spolehlivosti. Naopak nejširší je 99% Waldův empirický interval spolehlivosti. 95% Waldův empirický interval spolehlivosti má šířku větší než 90% interval spolehlivosti, ale menší než 99% interval spolehlivosti. Rozlišujeme tři základní typy intervalů spolehlivosti, a sice 100 x (1 — a)% oboustranný interval spolehlivosti (D, H) 9 pro parametr 9, 100x (1 — a)% levostranný interval spolehlivosti (D, oo) pro parametr 9 a lOOx (1—a)% pravostranný interval spolehlivosti (—oo, H) pro parametr 9. Ve všech třech případech je pravděpodobnost, že parametr 9 náleží do intervalu spolehlivosti, alespoň (1 — a) x 100%, tj. Pr(9 € IS) > (1 — a) x 100%. V rámci tohoto textu se zaměříme na konstrukci (oboustranného / levostranného / pravostranného) intervalu spolehlivosti pro parametry jj, a cr2 normálního modelu a parametru p alternativního modelu. Pro parametr p dvourozměrného normálního modelu existuje několik typů intervalů spolehlivosti. Jejich konstrukcí se budeme zabývat v kapitole ??. Nyní si představíme konkrétní tvary jednotlivých intervalů spolehlivosti. Na níže uvedené vzorce se potom budeme odkazovat v řešených příkladech. Předpokládejme nejprve, že náhodný výběr X\,..., Xn je náhodný výběr, který se řídí normálním modelem se střední hodnotou /i a rozptylem cr2, tj. X ~ N(fi,a2), kde parametr a2 známe. Nechť m značí realizaci výběrového průměru, cr směrodatnou odchylku vypočítanou jako a = Vcř2, ra je rozsah náhodného výběru a ua (resp.«a/2j ui-a/2, wi-a) je a-kvantil (resp. ^-kvantil, (1 — ^)-kvantil, (1 — a)-kvantil) standardizovaného normálního modelu. 100 x (1 — a)% oboustranný Waldův empirický interval spolehlivosti pro parametr /i, když a2 známe, má tvar (d,h) = (m - -^=«i_a/2, m - -^=ua/2). (8) Vra ' V™ 100 x (1 — a)% levostranný Waldův empirický interval spolehlivosti pro parametr /i, když a2 známe, má tvar (eř, oo) = (m--j=ui-a , oo). (9) V n 100 x (1 — a)% pravostranný Waldův empirický interval spolehlivosti pro parametr /i, když a2 známe, má tvar (—oo, h) = (—oo , m--y=ua). (10) Vra Hodnotu a-kvantilu standardizovaného normálního rozdělení ua vypočítáme pomocí softwaru příkazem qnorm(alpha) Analogicky můžeme získat hodnoty kvantilů «„/2, a «i_a/2- Poznámka: V praxi se se situací, kdy odhadujeme parametr střední hodnoty jj, a přitom známe skutečnou hodnotu rozptylu cr2, spíše nesetkáme. Jak jsme si uvedli, skutečná hodnota parametru a2 nám není známá. Intervalové odhady 8, 9 a 10 se tedy spíše využívají při simulačních studiích, v rámci kterých zkoumáme různé vlastnosti těchto odhadů (např. změnu polohy intervalu spolehlivosti při měnící se hodnotě parametru /i, nebo změnu šířky intervalu spolehlivosti při měnící se hodnotě parametru cr2, rozsahu náhodného výběru ra nebo koeficientu spolehlivosti 1 — a, apod.). Dále budeme tyto intervaly spolehlivosti využívat v sekci ?? zabývající se testováním hypotéz. Zde budeme interval spolehlivosti pro parametr /i když a2 známe používat v případě, kdy budeme porovnávat střední hodnotu našeho náhodného výběru se střední hodnotou publikovanou, společně se svým rozptylem, v literatuře. Předpokládejme nyní, že náhodný výběr Xi,... ,Xn je náhodný výběr, který se řídí normálním modelem se střední hodnotou /i a rozptylem cr2, tj. X ~ N(p, cr2), kde parametr a2 neznáme. Nechť m značí realizaci výběrového průměru, s značí realizaci výběrové směrodatné odchylky, raje rozsah náhodného výběru a íij_i(qí) (resp.í„_i (a/2), í„_i(l — a/2), í„_i(l — a)) je a-kvantil (resp. ^-kvantil, (1 — ^)-kvantil, (1 — a)-kvantil) Studentova modelu o ra — 1 stupních volnosti. 100 x (1 — a)% oboustranný Waldův empirický interval spolehlivosti pro parametr /i, když cr2 neznáme, má tvar (d, h) = (m- -U„_i(l - a/2), m - -^„^(a^)). (11) Vra V1 100 x (1 — a)% levostranný Waldův empirický interval spolehlivosti pro parametr /i, když a2 neznáme, má tvar g (d, oo) = (m--=í„_i(l — a), oo). (12) Vra 100 x (1 — a)% pravostranný Waldův empirický interval spolehlivosti pro parametr /i, když cr2 neznáme, má tvar g (-oo, h) = (-oo , m--=í„_i(a)). (13) Vra 10 Hodnotu a-kvantilu Studentova modelu s n — 1 stupni volnosti í„_i(a) vypočítáme pomocí softwaru příkazem qt(alpha, n-1). Analogicky můžeme získat hodnoty kvantilů í„_i(a/2), í„_i(1 — a) a í„_i(l — a/2). Předpokládejme dále, že Xi,..., Xn je náhodný výběr, který se řídí normálním modelem se střední hodnotou jj, a rozptylem a2, tj. X ~ N(p,a2), kde parametr /i neznáme. Nechť s2 značí realizaci výběrového rozptylu, n je rozsah náhodného výběru a xn-i (a) (resp.x5;_i(«/2)> xLiC1 ~ «/2)> ^xLiC1 ~ «)) Je a-kvantil (resp. f-kvantil, (1 — ^)-kvantil, (1 — a)-kvantil) \2 modelu o n — 1 stupních volnosti. 100 x (1 — a)% oboustranný Waldův empirický interval spolehlivosti pro parametr a2, když /i neznáme, má tvar (n — l)s2 (n — l)s ^{l-a/2)' xLi(«/2) 100 x (1 — a)% levostranný Waldův empirický interval spolehlivosti pro parametr a2, když /i neznáme, má tvar (d, oo) ' (n-l)s2 ,xLi(i-«) (15) 100 x (1 — a)% pravostranný Waldův empirický interval spolehlivosti pro parametr a , když fi neznáme, má tvar (o,h)=(o,^£y de) X„-i(a) Hodnotu a-kvantilu \2 modelu s n—1 stupni volnosti Xn-i (a) vypočítáme pomocí softwaru ® příkazem qchisq(alpha, n-1). Analogicky můžeme získat hodnoty kvantilů x^_i(tt/2), Xn-i(l — a) a Xn-i(l — a/2). Protože parametr rozptylu a2 je z definice vždy větší než 0, stanovuje se hodnota dolní hranice 100 x (1 — a)% pravostranného Waldova empirického intervalu spolehlivosti jako nula namísto nekonečna. Konečně předpokládejme, že Xi,..., Xn je náhodný výběr, který se řídí alternativním modelem s parametrem p, tj. X ~ Alt(p). Nechť m značí realizaci výběrového průměru, je rozsah náhodného výběru a ua (resp.«a/2j ui-a/2i ui-a) je a-kvantil (resp. ^-kvantil, (1 — ^)-kvantil, (1 — a)-kvantil) standardizovaného normálního modelu. 100 x (1 — a)% oboustranný Waldův empirický interval spolehlivosti pro parametr p má tvar , / míl—m) míl—m) \ . . (d,h)= I m - y---Wl_a/2 , m - y---ua/2 I . (17) 100 x (1 — a)% levostranný Waldův empirický interval spolehlivosti pro parametr p má tvar / / m(l — m) \ , s (ri,l)=(m-Y KN 7Ml-a,lj. (18) 100 x (1 — a)% pravostranný Waldův empirický interval spolehlivosti pro parametr p má tvar (0,h)=(o,m-J^Éu_y (19) Hodnotu a-kvantilu standardizovaného normálního rozdělení ua vypočítáme pomocí softwaru Crf příkazem qnorm(alpha). Analogicky můžeme získat hodnoty kvantilů «„/2, wi-a a ui-a/2- Protože parametr p značí pravděpodobnost úspěchu v jednom pokusu, platí, že p € (0,1), a tedy horní hranice levostranného Waldova empirického intervalu spolehlivosti je 1 (viz vzorec 18). Analogicky dolní hranice pravostranného Waldova empirického intervalu spolehlivosti je 0 (viz vzorec 19). Příklad 5.12. Intervalový odhad parametru jj, normálního modelu Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Mějme náhodnou veličinu X popisující největší šířku mozkovny u skeletů mužského pohlaví. Za předpokladu, že náhodná veličina X 11 pochází z normálního rozdělení se střední hodnotou /i a rozptylem tr2, tj. X ~ N(fi,a2), vypočítejte 90%, 95% a 99% Waldův empirický interval spolehlivosti pro parametr jj,. Řešení příkladu 5.12 Není-li v textu specifikován typ požadovaného intervalu spolehlivosti, počítáme vždy oboustranný interval spolehlivosti. Ze zadání víme, že chceme spočítat interval spolehlivosti pro parametr jj,. Dále si všimněme, že ze zadání příkladu není známá skutečná hodnota rozptylu a2. Naším úkolem je tedy vypočítat 90% (resp. 95%, či 99%) Waldův empirický oboustraný interval spolehlivosti pro parametr /i když a2 neznáme. Při výpočtu intervalů spolehlivosti budeme vycházet ze vzorce 11. Z příkladu 5.6 víme, že realizace výběrového průměru m = 137.1852 a rozsah náhodného výběru n = 216. Hodnotu směrodatné odchylky a odhadhneme pomocí výběrové směrodatné odchylky s = 4.8246 (viz příklad 11). Zbývá stanovit hodnotu kvantilu tn-\{a/2) a kvantilu í„_i(l — a/2) Studentova modelu. K tomu je potřeba nejprve dopočítat koeficient a. Ten vyjádříme, v případě výpočtu 90% Waldova empirického intervalu spolehlivosti, postupnými kroky z rovnice 100 x (1 — a) % = 90%. 100 x (1 - a)% = 90% 100 x (1 - a) = 90 1 - a = 0.90 1 - 0.90 = a a = 0.10 Pomocí softwaru CĚt a funkce qt() nyní stanovíme hodnotu kvantilu tn-\(a/2) = Í2is(0.10/2) = í2is(0.05) = qt(0.05,215) = -1.6520 a kvantilu í„_i(l - a/2) = í2is(l - 0.10/2) = í2i5(0.95) = qt(0.95,215) = 1.6520. Nyní již známe všechny potřebné hodnoty a můžeme dosadit do vzorce 11. (d,h) = m---=tn-i(l — a/2), m---j=tn-\{a/2) V případě výpočtu 95% Waldova empirického intervalu spolehlivosti, vyjádříme koeficient a z rovnice 100 x (1 — 100 x (1 - a)% = 95% 100 x (1 - a) = 95 1 - a = 0.95 1 - 0.95 = a a = 0.05 Pomocí softwaru ^Iť a funkce qt() stanovíme hodnotu kvantilu í„_i (a/2) = í2i5 (0.05/2) = Í215 (0.025) = qt(0.025, 215) = -1.9711 a kvantilu í„_i(l - a/2) = t215(l - 0.05/2) = í2i5(0.975) = qt(0.975, 215) = 1.9711. Hodnoty m, s a n jsme stanovili výše, zbývá tedy dosadit do vzorce 11. (d,h) = i m--r=í„_i(l — a/2), m---=tn-i(a/2) (-1.6520) = (137.1852 - 0.5436 , 137.1852 - (-0.5436)) = (136.6416, 137.7288) a) % = 95 %. (-1.9711) = (137.1852 - 0.6486 , 137.1852 - (-0.6486)) = (136.5366, 137.8338) 12 Konečně, v případě výpočtu 99% Waldova empirického intervalu spolehlivosti, vyjádříme koeficient a z rovnice 100 x (1 - a)% = 99%. 100 x (1 - a)% = 99% 100 x (1 - a) = 99 1 - a = 0.99 1 - 0.99 = a a = 0.01 Pomocí softwaru ustanovíme hodnotu kvantiluí„_i (a/2) = í2i5(0.01/2) = Í2is(0.005) = qt(0.005, 215) = -2.5989 a kvantilu í„_i(l - a/2) = t215(l - 0.01/2) = í2is(0.995) = qt(0.995, 215) = 2.5989. Hranice intervalu spolehlivosti dopočítáme analogicky jako v předchozích dvou případech dosazením do vzorce 11. s s (d,h) = Im--r=í„_i(l - a/2), m--7=tn_1(a/2) 4 8246 4 8246 137.1852 - *_ 2.5989, 137.1852 - "_(-2.5989) V2Í5 V2Í5 = (137.1852 - 0.8551, 137.1852 - (-0.8551)) = (136.3301, 138.0403) Datový soubor načteme příkazem read.delim() a NA hodnoty odstraníme příkazem na.omit(). Pomocí operátoru [] vybereme z tabulky data pouze ty řádky, které se vztahují k mužským skeletům (data$sex == 'm') a sloupec obsahující údaje o největší šířce mozkovny 'skuli.B'. Hodnotu výběrového průměru a výběrové směrodatné odchylky dopočítáme pomocí funkcí mean() a sd(), rozsah náhodného výběru stanovíme funkcí length(). Do proměnné alpha si vložíme všechny tři hodnoty koeficientů a, tj. 0.1, 0.05 i 0.01, najednou. Nyní přepisem vzorce 11, kde funkci qt() využijeme na výpočet a/2, resp. 1 — a/2 kvantilů Studentova rozdělení, a to současně pro všechny tři koeficienty a, získáme dolní, resp. horní hranice všech tří Waldových empirických intervalů spolehlivosti. 37 data <- read.delim('01-one - sample-mean - skull -mf .txt') 38 data <- na.omit(data) 39 40 skull.BM <- data[data$sex == 'm', 'skull.B'] 41 m <- mean(skull.BM) 42 s <- sd(skull.BM) 43 n <- length(skull.BM) 44 alpha <- c(0.1, 0.05, 0.01) 45 46 dh <- m - s / sqrt (n) * qt (1 - alpha / 2 , n - 1) 47 hh <- m - s / sqrt(n) * qt(alpha / 2, n - 1) 48 49 tab <- data.frame(d = dh, h = hh, row.names = c ( ' 907. DIS ' , ' 957. DIS ' , '997. DIS')) 50 round(tab, 4) d h 907. DIS 136.6429 137.7275 957. DIS 136.5381 137.8322 997. DIS 136.3320 138.0383 51 52 53 54 Interpretace výsledků: 90% Waldův empirický interval spolehlivosti pro parametr jj, má tvar (136.64 , 137.73) mm. To znamená, že 136.64 mm < jj, < 137.73 mm s pravděpodobností 90%. V 90 případech ze sta bude střední hodnota největší šířky mozkovny u skeletů mužského pohlaví nabývat hodnoty z intervalu (136.64, 137.73) mm. 95% Waldův empirický interval spolehlivosti pro parametr jj, má tvar (136.54, 137.83) mm. To znamená, že 136.54mm < jj, < 137.83mm s pravděpodobností 95%. V 95 případech ze sta bude střední hodnota největší šířky mozkovny u skeletů mužského pohlaví nabývat hodnoty z intervalu (136.54, 137.83) mm. 13 99% Waldův empirický interval spolehlivosti pro parametr jj, má tvar (136.33, 138.04) mm. To znamená, že 136.33 mm < jj, < 138.04 mm s pravděpodobností 99%. V 99 případech ze sta bude střední hodnota nej větší šířky mozkovny u skeletů mužského pohlaví nabývat hodnoty z intervalu (136.33, 138.04) mm. Příklad 5.13. Intervalový odhad parametru a2 normálního modelu Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Mějme náhodnou veličinu X popisující největší délku mozkovny u skeletů ženského pohlaví. Za předpokladu, že náhodná veličina X pochází z normálního rozdělení se střední hodnotou /i a rozptylem a2, tj. X ~ N(fi,a2), vypočítejte (a) 99%, oboustranný intervalový odhad; (b) 99% levostranný intervalový odhad; (c) 99% pravostranný intervalový odhad rozptylu a2. Řešení příkladu 5.13 Celkem máme k dispozici n = 109 náhodných veličin Xi,...,Xiog, přičemž veličina X\ popisuje největší délku mozkovny u prvního ženského skeletu, ..., veličina Xiog popisuje výšku největší délku mozkovny u sto devátého ženského skeletu. Předpokládáme, že všechny náhodné veličiny pochází z normálního rozdělení, tj. X\ ~ N(fi,a2), ..., Xiog ~ N(p, a2), a tedy i celý náhodný výběr pochází ze stejného normálního rozdělení, tj. X\,..., Xiog ~ N(p, a2). Naměřením hodnoty největší délky mozkovny každého skeletu jsme získali celkem 109 realizací náhodných veličin Xi,...,X\og. Těchto 109 realizací tvoří dohromady datový soubor. Skutečné hodnoty parametrů /i a a2 nebudeme nikdy znát, ale můžeme je odhadnout pomocí bodových nebo intervalových odhadů. V rámci tohoto příkladu se máme zaměřit na parametr rozptylu a2 a odhadnout jej pomocí všech tří typů intervalových odhadů. Všimněme si, že ze zadání neznáme skutečnou hodnotu parametru jj,. Budeme tedy sestrojovat 99% Waldovy empirické intervaly spolehlivosti pro rozptyl a2 když parametr /i neznáme, a tedy budeme vycházet ze vzorců 14, 15 a 16. Hodnotu parametru a2 odhadneme pomocí výběrohého rozptylu. K jeho výpočtu potřebujeme dopočítat výběrový průměr, tj. lA 1 , , 19 024 m = - V Xi = ——-(168 + 174 + • • • + 162 + 170 = —— = 174.5321. n ^-^ 109 109 7 = 1 Dosazením výběrového průměru m = 174.53 do vzorce 2 získáme hodnotu výběrového rozptylu, tj. ■Ti ~ m)2 i=l" = 77^ ((168 - 174.5321)2 + (174 - 174.5321)2 + • • • + (162 - 174.5321)2 + (170 - 174.5321)2) 108 = ((-6.5321)2 + (-0.5321)2 + • • • + (-12.5321)2 + (-4.5321)2) 108 = 38.6772 Výběrový rozptyl s2 = 38.6772, rozsah náhodného výběru n = 109. Zbývá stanovit hodnotu kvantilu x2l_1(a/2) a kvantilu Xn-i(l — a/2) X2 modelu. K tomu je potřeba nejprve dopočítat koeficient a, a to vyjádřením z rovnice 100 x (1 - a)% = 99%. s2 100 x (1 - a)% = 99% 100 x (1 - a) = 99 1 - a = 0.99 1 - 0.99 = a a = 0.01 Pomocí softwaru a funkce qchisq() nyní stanovíme hodnotu kvantilu Xn-i(a/ty = Xios(0-01/2) = Xios(0-005) = qchisq(0.005,108) = 73.8989 a kvantilu xí-i(l ~ a/2) = xíosi1 ~ 0.01/2) = xfosC0-995) = qchisq(0.995,108) = 149.5994. 14 Hranice 99% Waldova empirického oboustranného intervalu spolehlivosti vypočítáme dosazením do vzorce 14. (d, h) = U-i(l-"/2)' X2n-A<*/2)J í 108 x 38.6772 108 x 38.6772 V 149.5994 ' 73.8989 (27.9222, 56.5250) / (n - l)s2 (n - l)s2 \ ) Pro výpočet levostranného intervalu spolehlivosti stanovíme nejprve hodnotu kvantilu Xn-i(l~a)- Z předchozího odstavce již víme, že a = 0.01 a tedy xíLi(l - ") = Xwsi1 ~ °-01) = Xiosí0-99) = qchisq(0.99,108) = 145.0988. Hranice 99% Waldova empirického levostranného intervalu spolehlivosti vypočítáme dosazením hodnot do vzorce Pro výpočet pravostranného intervalu spolehlivosti stanovíme nejprve hodnotu kvantilu Xn-i(a)- Protože koeficient a je opět rovný hodnotě 0.01, bude kvantil xl-i(&) = Xiosi0-01) = Xiosi0-01) = qchisq(0.01,108) = 76.7736. Hranice 99% Waldova empirického pravostranného intervalu spolehlivosti vypočítáme dosazením hodnot do vzorce Datový soubor načteme příkazem read.delim() a NA hodnoty odstraníme příkazem na.omit(). Pomocí operátoru [] vybereme z tabulky data pouze ty řádky, které se vztahují k ženským skeletům (data$sex == 'f) a sloupec obsahující údaje o největší délce mozkovny 'skuli.Ľ. Hodnotu výběrové směrodatné odchylky dopočítáme funkcí sd(), rozsah náhodného výběru stanovíme pomocí funkce length(). Do proměnné alpha vložíme hodnotu koeficientu a = 0.01. Nyní přepisem vzorců 14, 15 a 16, kde funkci qchisq() využijeme na výpočet a/2, 1 — a/2, a a 1 — a kvantilů x'2 modelu získáme dolní a horní hranice všech tří Waldových empirických intervalů spolehlivosti. 55 data <- read.delim('01-one - sample-mean - skull-mf.txt') 56 data <- na.omit(data) 57 58 skull.LF <- data [data$sex == ' í ' , 'skull.Ľ] 59 n <- length(skull.LF) 60 s.LF <- sd(skull.LF) 61 alpha <- 0.01 62 63 dh <- (n - 1) * s.LF ~ 2 / qchisqd - alpha / 2, n - 1) 64 hh <- (n - 1) * s.LF " 2 / qchisq(alpha / 2, n - 1) 65 66 DH <- (n - 1) * s.LF ~ 2 / qchisqd - alpha, n - 1) 67 HH <- (n - 1) * s.LF " 2 / qchisq (alpha , n - 1) 68 69 (tab <- data.frame(d = round(c(dh, DH, 0), 4), 70 h = c(round(hh, 4), 'inf' , round(HH, 4)), 71 row. names = c ('997. DIS', '997. LIS', '997. PIS'))) 15. f 108 x 38.6772 V 145.0988 (28.7882, oo) 16. (0, 54.4085) 15 d h 997. DIS 27.9222 56.525 997. LIS 28.7882 inf 997. PIS 0.0000 54.4085 72 73 74 75 Poznámka: Horní hranice pravostranného Waldova empirického intervalu spolehlivosti je nekonečno. Abychom mohli tuto hodnotu zanést do tabulky výsledků, musíme ji zadat jako textový řetězec. Datové tabulky v softwaru však mají tu vlastnost, že hodnoty ve stejném sloupci musí být stejného typu, tedy buď jsou všechny hodnoty numerické, nebo jsou všechny hodnoty textové. Proto v okamžiku, kdy do sloupce h tabulky tab vložíme textový řetězec inf, software všechny numerické hodnoty v tomto sloupci automaticky převede na textové řetězce a tak se k nim od tohoto okamžiku také chová. Protože text nejde zaokrouhlit, není potom možné tabulku tab zaokrouhlit na čtyři desetinná místa. Proto musíme všechny hodnoty v tabulce zaokrouhlit dříve, než je do tabulky vložíme společně s textovým řetězcem inf. Interpretace výsledků: 99% Waldův empirický oboustranný interval spolehlivosti pro parametr a2 má tvar (27.92, 56.53) mm2. To znamená, že 27.92 mm2 < a2 < 56.53 mm2 s pravděpodobností 99%. V 99 případech ze sta bude rozptyl největší délky mozkovny u skeletů ženského pohlaví větší než 27.92mm2 a menší než 56.53mm2. 99% Waldův empirický levostranný interval spolehlivosti pro parametr a2 má tvar (28.79 , oo) mm2. To znamená, že a2 > 28.79 mm2 s pravděpodobností 99 %. V 99 případech ze sta bude rozptyl největší délky mozkovny u skeletů ženského pohlaví větší než 28.79mm2. 99% Waldův empirický pravostranný interval spolehlivosti pro parametr a2 má tvar (0 , 54.41) mm2. To znamená, že a2 < 54.41 mm2 s pravděpodobností 99 %. V 99 případech ze sta bude rozptyl největší délky mozkovny u skeletů ženského pohlaví menší než 54.41 mm2. Příklad 5.14. Intervalový odhad parametru a normálního modelu Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Mějme náhodnou veličinu X popisující největší šířku mozkovny u skeletů ženského pohlaví. Za předpokladu, že náhodná veličina X pochází z normálního rozdělení se střední hodnotou jj, a rozptylem a2, tj. X ~ N(p,a2), vypočítejte (a) 95%, oboustranný intervalový odhad směrodatné odchylky a. Řešení příkladu 5.14 V rámci tohoto příkladu se máme zaměřit na parametr směrodatné ochylky a. Žádný interval spolehlivosti pro směrodatnou odchylku ale neznáme. Vystačíme si tedy s tím, co máme k dispozici. Vypočítáme hranice 95% oboustranného Waldova empirického intervalu spolehlivosti pro parametr rozptylu a2. Jejich odmocněním získáme hranice 95% oboustranného Waldova empirického intervalu spolehlivosti pro parametr a. Budeme tedy vycházet ze vzorce 14. Hodnotu parametru a2 odhadneme pomocí výběrohého rozptylu. Nejprve tedy spočítáme výběrový průměr a následně výběrový rozptyl, tj. m /—/ 1 , N 14 622 xi = 77^(130 + 134 + • • • + 138 + 140) = —— = 134.1468. ^ luy iuy sž = —x E - m)2 i=l" = — ((130 - 134.1468)2 + (134 - 134.1468)2 H-----V (138 - 134.1468)2 + (140 - 134.1468)2) 108 = 77^ ((-4.1468)2 + (-0.1468)2 + • • • + (3.8532)2 + (5.8532)2) 108 = 22.0523 Výběrový rozptyl s2 = 22.0523, rozsah náhodného výběru n = 109. Zbývá stanovit hodnotu kvantilu x2l_1(a/2) a kvantilu ~~ a/2) X2 modelu. K tomu je potřeba nejprve dopočítat koeficient a, a to vyjádřením z rovnice 100 x (1 - a)% = 95%. 16 100 x (1 - a) % 100 x (1 - a) 1 — a 95% 95 0.95 1-0.95 a a 0.05 Pomocí softwaru ^ a funkce qchisq() nyní stanovíme hodnotu kvantilu \2l_1{a / 2) = Xios(0-05/2) = Xios(0-025) = qchisq(0.025,108) = 81.1329 a kvantilu xl-i(l - a/2) = xíosi1 ~ 0.05/2) = Xio8(0-975) = qchisq(0.975,108) = 138.6506. Hranice 95% Waldova empirického oboustranného intervalu spolehlivosti pro parametr a2 vypočítáme dosazením Konečně, hranice 95% Waldova empirického oboustranného intervalu spolehlivosti pro parametr a získáme odmocněním hranic intervalu spolehlivosti (17.1773, 29.3549), tj. Datový soubor načteme příkazem read.delim() a NA hodnoty odstraníme příkazem na.omit(). Pomocí operátoru [] vybereme z tabulky data pouze ty řádky, které se vztahují k ženským skeletům (data$sex == 'f') a sloupec obsahující údaje o největší šířce mozkovny 'skull.L'. Hodnotu výběrové směrodatné odchylky dopočítáme funkcí sd(), rozsah náhodného výběru stanovíme pomocí funkce length(). Do proměnné alpha vložíme hodnotu koeficientu a = 0.05. Nyní přepisem vzorce 14, kde pomocí funkce qchisq() vypočítáme a/2, 1 — a/2 kvantily \2 modelu získáme dolní a horní hranici 95% Waldova empirického oboustranného intervalu spolehlivosti pro parametr a2. Odmocněním obou hranic pomocí funkce sqrt() získáme hranice 95% Waldova empirického oboustranného intervalu spolehlivosti pro parametr a. 76 data <- read.delim('01-one - sample-mean - skull-mf.txt') 77 data <- na.omit(data) 78 79 skull.BF <- data[data$sex =='f ', 'skull.B'] 80 n <- length(skull.BF) 81 s.BF <- sd(skull.BF) 82 alpha <- 0.05 83 84 dh <- (n - 1) * s.BF " 2 / qchisqd - alpha / 2, n - 1) 85 hh <- (n - 1) * s.BF ~ 2 / qchisq(alpha / 2, n - 1) 86 87 dh.s <- sqrt(dh) 88 hh.s <- sqrt(hh) 89 90 tab <- data.frame(d = c(dh, dh.s), h = c(hh, hh.s), 91 row. names = c('95°/, DIS pro rozptyl', '95°/, DIS pro sm. odchylku') ) 92 round(tab, 4) do vzorce 14. (17.1773, 29.3549) (d,h)a = v7 (d, h)a2 ^(17.1773, 29.3549) (4.1446, 5.4180) 17 d h 957. DIS pro rozptyl 17.1774 29.3549 957, DIS pro srn.. odchylku 4.1446 5.4180 Interpretace výsledků: 95% Waldův empirický oboustranný interval spolehlivosti pro parametr a má tvar (4.14, 5.42) mm. To znamená, že 4.14 mm < a < 5.42 mm s pravděpodobností 95%. V 95 případech ze sta bude směrodatná odchylka nej větší šířky mozkovny u skeletů ženského pohlaví větší než 4.14 mm a menší než 5.42 mm. Příklad 5.15. Intervalový odhad parametru a2 normálního modelu Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Mějme náhodnou veličinu X popisující největší délku mozkovny u skeletů ženského pohlaví. Za předpokladu, že náhodná veličina X pochází z normálního rozdělení se střední hodnotou /i a rozptylem a2, tj. X ~ N(fi,a2), vypočítejte (a) 99%, oboustranný intervalový odhad; (b) 99% levostranný intervalový odhad; (c) 99% pravostranný intervalový odhad rozptylu a. Řešení příkladu 5.15 Hranice všech tří intervalů spolehlivosti získáme odmocněním hranic 99% Waldových empirických intervalů spolehlivosti pro rozptyl a2 vypočítaných v rámci příkladu 5.13. Konkrétně hranice 99% Waldova empirického oboustranného intervalu spolehlivosti pro parametr a vypočítáme jako (d, h) = ^(27.9222, 56.5250) = (5.2842, 7.5183) Hranice 99% Waldova empirického levostranného intervalu spolehlivosti pro parametr a vypočítáme jako (d, oo) = ^(28.7882, oo) = (5.3655, oo) Hranice 99% Waldova empirického pravostranného intervalu spolehlivosti pro parametr a vypočítáme jako (0,h) = ./(O, 54.4085) = (0, 7.3762) Odmocniny dolních resp. horních hranici 99% Waldových empirických intervalů spolehlivosti získáme pomoc funkce sqrt(). 96 dh <- sqrt(dh) 97 hh <- sqrt(hh) 98 99 DH <- sqrt(DH) 100 HH <- sqrt(HH) 101 102 (tab <- data.frame(d = round(c(dh, DH, 0), 4), 103 h = c(round(hh, 4), 'inf', round(HH, 4)), 104 row.names = c ('997. DIS', '997. LIS', '997. PIS'))) d h 105 997. DIS 5 2841 7.5183 106 997. LIS 5 3655 inf 107 997. PIS 0 0000 7.3762 108 Interpretace výsledků: 99% Waldův empirický oboustranný interval spolehlivosti pro parametr a má tvar (5.28, 7.52) mm. To znamená, že 5.28 mm < a < 7.52 mm s pravděpodobností 99%. V 99 případech ze sta bude rozptyl největší délky mozkovny u skeletů ženského pohlaví větší než 5.28 mm a menší než 7.52 mm. 99% Waldův empirický levostranný interval spolehlivosti pro parametr a má tvar (5.37, oo) mm. To znamená, že a > 5.37 mm s pravděpodobností 99%. V 99 případech ze sta bude rozptyl největší délky mozkovny u skeletů ženského pohlaví větší než 5.37 mm. 18 99% Waldův empirický pravostranný interval spolehlivosti pro parametr a má tvar (0, 7.38) mm. To znamená, že a < 7.38 mm s pravděpodobností 99%. V 99 případech ze sta bude rozptyl největší délky mozkovny u skeletů ženského pohlaví menší než 7.38 mm. Příklad 5.16. Intervalový odhad parametru p alternativního modelu Načtěte datový soubor 17-anova-newborns.txt a odstraňte z načtených dat NA hodnoty. Mějme náhodnou veličinu X popisující ženské pohlaví novorozenců. Za předpokladu, že náhodná veličina X pochází z alternativního rozdělení s parametrem p, tj. X ~ Alt(p), kde p je pravděpodobnost narození holčičky, stanovte (a) 95% oboustranný intervalový odhad parametru p; (b) 90% levostranný intervalový odhad parametru p; (c) 99% pravostranný intervalový odhad parametru p. Řešení příkladu 5.16 95% oboustranný intervalový odhad získáme pomocí 95% oboustranného Waldova empirického intervalu spolehlivosti. Z příkladu 5.9 víme, že realizace výběrového průměru to = 0.4797 a rozsah náhodného výběru N = 1382. Zbývá nám tedy dopočítat hodnotu a/2-kvantilu a 1 — a/2-kvantilu standardizovaného normálního rozdělení. Z rovnice 100 x (1 — a)% = 95% dopočítáme, že a = 0.05. Pomocí softwaru ^! zjistíme hodnoty kvantilů ua/2 = Mo.05/2 = «0.025 = —1.9600 a «i_a/2 = «1-0.05/2 = «0.975 = 1-9600. Dosazením hodnot do vzorce 17 získáme realizaci 95% oboustranného Waldova empirického intervalu spolehlivosti pro parametr p, tj. / /míl — to) /míl — to) \ (d,h) = I m - y-—-«i_a/2 , to - y-—-ua/2 I = (0-4797 - ;/°-4797(!q:0°-4797) 1.9600 , 0.4797 - J^^^^^O)) y V 1382 ' V 1382 v ' J = (0.4797 - 0.0263 , 0.4797 - (-0.0263)) = (0.4534, 0.5060) 90% levostranný intervalový odhad získáme pomocí 90% levostranného Waldova empirického intervalu spolehlivosti. Realizace výběrového průměru to = 0.4797 a rozsah náhodného výběru N = 1382. Zbývá nám tedy dopočítat hodnotu 1 — a-kvantilu standardizovaného normálního rozdělení. Z rovnice 100 x (1 — a)% = 90% dopočítáme, že a = 0.1. Pomocí softwaru zjistíme hodnotu kvantilu = «i_o.i = «o.9 = 1-2816. Dosazením hodnot do vzorce 18 získáme realizaci 90% levostranného Waldova empirického intervalu spolehlivosti pro parametr p, tj. / /0.4797(1 - 0.4797) \ = (°-4797 -V--1382-Zl-2816'1J = (0.4797 - 0.0172, 1) = (0.4625, 1) 99% pravostranný intervalový odhad získáme pomocí 99% pravostranného Waldova empirického intervalu spolehlivosti. Realizace výběrového průměru to = 0.4797 a rozsah náhodného výběru N = 1382. Zbývá tedy dopočítat hodnotu a-kvantilu standardizovaného normálního rozdělení. Z rovnice 100 x (1 — a)% = 99% dopočítáme, že a = 0.01. Pomocí softwaru zjistíme hodnotu kvantilu ua = «o.oi = —2.3263. Dosazením hodnot do vzorce 19 získáme realizaci 99% pravostranného Waldova empirického intervalu spolehlivosti pro parametr p, tj. 19 0.4797(1 - 0.4797) 1382 (-2.3263) = (0, 0.4797 - (-0.03126)) = (0, 0.5110) Nejprve načteme datový soubor příkazem read.delim() a odstraníme NA hodnoty příkazem na.omit(). Dále do proměnné sex vložíme údaje o pohlaví. Protože proměnná sex je typu factor s dvěma úrovněmi, úrovní 1 ('f; (female)) a úrovní 2 ('m', (male)), převedeme jej nejprve pomocí funkce as.numeric() na číselný vektor, který vložíme do proměnné pohlaví. Následně změníme všechny hodnoty 2 na hodnoty 0, čímž dostaneme požadované kódování 0 = male, 1 = female (viz příklad 5.9. 109 data <- read.delim('17-anova-newborns.txt') 110 data <- na.omit(data) 111 sex <- data$sex.C 112 pohlavi <- as.numeri c(sex) 113 pohlavi [pohlavi == 2] <- 0 Hranice 95% oboustranného Waldova empirického intervalu spolehlivosti nyní získáme přepisem vzorce 17 s použitím funkcí mean(), sd(), lengthQ a qnorm(). 114 alpha <- 0.05 115 N <- length(pohlavi) 116 m <- mean(pohlavi) 117 s <- sd(pohlavi) 118 119 dh <- m - sqrt(m * (1 - m) / N) * qnorm(l - alpha / 2) 120 hh <- m - sqrt (m * (1 - m) / N) * qnorm(alpha / 2) Dolní hranici 90% levostranného Waldova empirického intervalu spolehlivosti nyní získáme přepisem vzorce 18. 121 DH <- m - sqrt(m * (1 - m) / N) * qnorm(l - alpha) Horní hranici 99% pravostranného Waldova empirického intervalu spolehlivosti nyní získáme přepisem vzorce 19. Výsledné hranice všech tří intervalů spolehlivosti vložíme do jedné tabulky. 122 HH <- m - sqrt(m * (1 - m) / N) * qnorm(alpha) 123 tab <- data.frame(d = c(dh, DH, 0), h = c(hh, 1, HH), 124 row.names = c ('95°/. DIS', '907. LIS', '997. PIS')) 125 round(tab, 4) Interpretace výsledků: 95 % oboustranný Waldův empirický interval spolehlivosti pro parametr p má tvar (0.4534, 0.5061), což znamená, že 0.4534 < p < 0.5061 s pravděpodobností 95%. S 95% pravděpodobností se pravděpodobnost narození holčičky pohybuje v rozmezí 45.34% - 50.61 %. 90 % levostranný Waldův empirický interval spolehlivosti pro parametr p má tvar (0.4576, 1), což znamená, že 0.4576 < p < 1 s pravděpodobností 90%. S pravděpodobností 90% je pravděpodobnost narození holčičky větší než 99% pravostranný Waldův empirický interval spolehlivosti pro parametr p má tvar (0, 0.5018), což znamená, že 0 < p < 0.5018 s pravděpodobností 99%. S pravděpodobností 99% je pravděpodobnost narození holčičky menší 957. OIS 0.4534 0.5061 907. LIS 0.4576 1.0000 997. PIS 0.0000 0.5018 d h 126 127 128 129 45.76%. než 50.61 %. ★ 20