6 Číselné charakteristiky, Matematická statistika, Bodové a intervalové odhady parametrů 6.1 Číselné charakteristiky náhodných veličin • F (x), p(x), f (x) ... funkcionální charakteristiky — obsahují veškerou informaci o chování náh.veličiny • někdy nás zajímají pouze rysy chování náh.veličiny —y číselné charakteristiky — kvantily (x0.25, x0,5, x0.75, apod.) — střední hodnota — rozptyl / směrodatná odchylka — kovariance — korelace Kvantily vybraných spojitých rozdělení; a-kvantil • a-kvantil náh.veličiny X ... xa • obdoba a-kvantilu v popisné statistice • křivka hustoty: — plocha pod křivkou ... pst ... = 1 — tuto plochu rozdělíme na 2 části * tmavá plocha a * světlá plocha 1 — a • a-kvantil ... číslo, takové, že Pr(X < • pst, že náhodná veličina X je menší nebo rovna xa je rovna a • speciální kvantily — medián ... xq^ — l.kvartil ... x0.25 — 3.kvartil ... X0.75 • Standardizované normální rozdělení — * X ~ ÍV(0,1) * a-kvantil ... u(a) 1 * symetrické okolo 0 ... u(a) = —u(l — a) * qnorm(alpha) • x2 rozdělení s n stupni volnosti — (Pearsonovo rozdělení) - X ~ x2 (n) — Q-kvantil ... Xn(a) — nesymetrické - qchisq(alpha,n) • Studentovo rozdělení s n stupni volnosti - X ~ t(n) — a-kvantil ... tn(a) — symetrické okolo 0 .. . tn(a) = —tn(l — a) - qt(alpha.n) • Fisherovo rozdělení s rii a n2 stupni volnosti — (Fisherovo-Snedecorovo rozdělení) - X ~ F(n1,n2) - a-kvantil ... Fnun2(a) - nesymetrické, ale Fni,ri2(a) = —-———- — qf(alpha, nl, n2) Příklad 6.1. Najděte medián a horní a dolní kvartil náhodné veličiny U ~ ÍV(0,1). qnorm(0.5) qnorm(0.25) qnorm(0.75) Příklad 6.2. Najděte dolní kvart il náhodné veličiny X ~ N (3, 5). qnorm(0.25, 3, sqrt(5)) Příklad 6.3. Určete kvantil x|5(0.025). qchisq (0.025 , 25) Příklad 6.4. Určete kvantily ŕ30(0.99) a ŕ14(0.05). qt(0.99, 30) qt(0.05, 14) Příklad 6.5. Určete kvantily ^5,20(0.975) a F2,10(0.05). qf(0.975, 5,20) qf(0.05, 2,10) 2 6.2 Základní pojmy matematické statistiky • popisná statistika ... datový soubor —y závěry o datovém souboru • matematická statistika ... náhodný výběr —y statistiky —y závěry o tvaru rozdělení a parametrech • Xi,..., Xn - stoch.nezáv.náh.veličiny, které mají všechny stejné rozložení L{9) —y X±,..., Xn ... náhodný výběr rozsahu n z rozdělení L{9) • číselné realizace x1}... ,xn náh.výběru X1}...,Xn tvoří datový soubor • statistika = libovolná funkce náhodného výběru: T = T(Xi,..., Xn) • Statistiky - jednovýběrové: Nechť Xi,..., Xn je náhodný výběr, n > 2. 1. Výběrový průměr M = - V Xi i=l 2. Výběrový rozptyl i=i 3. Výběrová směrodatná odchylka 4. Výběrová distribuční funkce Fn(x) ... průměrný počet těch veličin XÍ7 pro něž platí Xi > x. Statistiky - dvouvýběrové: Nechť (Xi, Yi),... (Xn, Yn) je náhodný výběr z dvourozměrného rozdělení. M\ = - Y^H=i a 1. Výběrová kovariance S12 = -^—r Y^{Xt - M1)(Y - M2 n — 1 ^—' i=l 2. Výběrový koeficient korelace T3 _ S^ S1S2 6.3 Bodové a intervalové odhady parametrů • Xi... Xn ... náhodný výběr z rozdělení L{9) s parametrem 9. • 9 neznáme; chceme ho odhadnout • bodovým odhadem parametru 9 je nějaká vhodná statistika Tn = T(X\... Xn 3 • intervalovým odhadem parametru 9 je interval (D, H), kde D, H jsou fce náh.výběru D = D(X\... Xn), H = H(X\... Xn) a který s dostatečně velkou pstí pokrývá hodnotu parametru 9 • typy bodových odhadu 1. nestranný ... hodnotu parám. 9 ani nepodhodnocuje, ani nenadhodnocuje ... ETn = 9 2. vychýlený ... není-li odhad nestranný, je vychýlený 3. asymptotický ... s rostoucím n se jeho přesnost zvětšuje • vlastnosti bodových odhadu • Xi,... Xn ... náh. výběr se střední hodnotou p, rozptylem a2. 1. M je nestranný odhadem p ... EM = p 2. DM = sl n 3. S2 je nestranným odhadem a2 ... ES2 = a2 • (Xi, Yi),... (Xn, Yn) ...náhodný výběr z dvouroz. rozložení s kovariancí a 12 a koeficientem korelace p. 1. E(Si2) je nestranným odhadem a12 ... E(Si2) = o"12 2. ER\2 je asymptoticky nestranným odhadem p ... ER12 ~ p Příklad 6.6. Ve 12-ti náhodně vybraných internetových obchodech byly zjištěny následující ceny deskriptoru artefaktů (v Kč): 102,99,106,103,96,98,100,105,103,98,104,107. Těchto 12 hodnot považujeme za realizace náhodného výběru X1}..., X12 z rozdělení, které má střední hodnotu p a rozptyl a2. a) Určete nestranné bodové odhady neznámé střední hodnoty p a neznámého rozptylu a2. b) Najděte výběrovou distribuční funkci Fi2(x) a nakreslete její graf. ad a) Vypočteme realizaci výběrového průměru 1 m = —(102 + 99 + ••• + 107) = 101.75 Kč Vypočteme realizaci výběrového rozptylu: s2 = -L [(102 - 101.75)2 + (99 - 101.75)2 + • • • + (107 - 101.75)2] = 12.39 Kč2 x <- c(96, 98, 98, 99, 100, 102, 103, 103, 104, 105, 106, 107) n <- length(x) (m <- mean(x)) (s2 <- var(x)) # Výberová distribuční funkce t <- unique(sort(x)) y <- sort(x) 4 nt <- length(t) četnost <- NULL f or (i in 1: nt) { četnost [i] <- sum(y< = t [i] ) } Fx <- cetnost/n t(round(Fx, digits=4)) # graf výberové distribuční funkce x <- c(min(t)-1,t, max(t)+l) y <- c (0 , Fx , 1) plot(x, y, type='n', xlab='x', ylab='F(x)', main='Vyberovaudistribucniufunkce') abline(h=seq(0,1,by=0.1), col='grey85') abline(v=seq(95, 108,by=2), col='grey85 ' ) lines(x,y, type='s', col='red', lwd=2) arrows (96 , 0 , 95 , 0 , col = 'reď, lwd = 2, length=0.1) arrows(107,1,108,1, col='reď, lwd=2, length=0.1) Příklad 6.7. Z archivních materiálů (Schmidt, 1888) máme k dispozici původní kraniometricé údaje o výšce horní části tváře (v mm) u 13 mužů bantuské populace. Hodnoty výšky horní části tváře jsou 67, 67, 63, 68, 70, 70, 75, 74, 80, 77, 77, 67, 64. a) Odhadněte střední hodnotu, rozptyl a směrodatnou odchylku výšky horní části tváře. b) Odhadněte pravděpodobnost že výška tváře bantuského muže bude vyšší než 72 mm. x <- c (67, 67, 63, 68, 70, 70, 75, 74, 80, 77, 77, 67, 64) x <- sort(x) n <- length(x) s2 <- var(x) s <- sd(x) Tab <- data.frame(m=m, s2=s2, s=s, row.names='akcie') round(Tab, digits=2) # P(X>=70) pst <- sum(x>=70)/length(x) pst2 <- 1-sum(x<70)/length(x) round(pst,4) round(pst2 , 4) # 0.5385 Poznámka: Dodělat analogicky pro zbylé populace a dát jako procvičovací příklady. Příklad 6.8. Máme k dispozici antropometrické údaje mladých dospělých lidí, převážně studentů vysokých škol z Brna a Ostravy, konkrétně údaje o šířce hlavy (head.W), šířce tváře (bizyg.W) a šířce dolní čelisti (bigo.W). Dále máme u každého studenta uveden údaj o pohlaví (sex), přičemž v databázi máme celkem 75 mužů a 100 žen. Zaměřme se na údaje týkající se mužů. Najděte bodové odhady kovariance a korelace p pro náhodné proměnné X\ ... šířka hlavy a X2 ... šířka tváře. data <- read.delim('16-anova-head.txt', sep='\t') muzi <- data[data$sex=='m' , ] head.w <- muzi$head.W bizyg.w <- muzi$bizyg.W cov(head.w, bizyg.w) # 31.83 cor(head.w, bizyg.w) # 0.6785 plot(head.w, bizyg.w) 5 6.3.1 INTERVALY SPOLEHLIVOSTI • Xi... Xn ... náh.výběr z rozdělení L(6), 9 je parametr, a G (0,1) • interval (D, H) ... 100(1 — a)% oboustranný IS pro parám. 9 • interval (D, oo)... 100(1 — a)% levostranný IS pro parám. 9 • interval (—oo, H)... 100(1 — a)% pravostranný IS pro parám. 9 • a se nazývá riziko, (1 — a) se nazývá spolehlivost. 6.3.2 Konstrukce intervalů spolehlivosti • konečný tvar IS pro parám. 9 odvozujeme z příslušné pivotovy statistiky • pivotová statistika = statistika, jejíž rozdělení je známé a nezávisí na parametru 9 — používá se také k testování hypotéz • příklad odvození IS z pivotovy statistiky viz studijní materiály Příklad 6.9. Vezměte data z příkladu 7.3. Vypočítejte • 95 % empirický interval spolehlivosti pro střední hodnotu délky šířky čelisti u mužů. (106.4945; 109.132Í • 95 % pravostranný empirický interval spolehlivosti pro střední hodnotu šířky dolní čelisti u mužů (-oo; 109.1352). • 95 % levostranný empirický interval spolehlivosti pro střední hodnotu šířky dolní čelisti u mužů (106.4914; oo). data <- read.delim('16-anova-head.txt', sep='\t') muži <- data[data$sex=='m' , ] head.w <- muzi$head.W bizyg.w <- muzi$bizyg.W cov(head.w, bizyg.w) # 31.83 cor(head.w, bizyg.w) # 0.6785 plot(head.w, bizyg.w) data <- read.delim('16-anova-head.txt', sep='\t') muzi <- data[data$sex=='m',] head.w <- muzi$head.W bizyg.w <- muzi$bizyg.W bigo.w <- muzi$bigo.W m <- mean(bigo.w) s <- sd(bigo.w) alpha <- 0.05 n <- length(bigo.w) dh <- m-s/sqrt(m)*qt(1-alpha/2, n-1) hh <- m-s/sqrt(m)*qt(alpha/2, n-1) round(dh, 4) 6 round(hh, 4) dh <- m-s/sqrt(n)*qt(1-alpha, n-1) dh hh <- m-s/sqrt(n)*qt(alpha, n-1) hh Příklad 6.10. Při kontrolních zkouškách životnosti 16 žárovek byl stanoven odhad m = 3000 h střední hodnoty jejich životnosti. Z dřívějších zkoušek je známo, že životnost žárovky se řídí normálním rozdělením se směrodatnou odchylkou o = 20 h. Vypočtěte a) 99% empirický interval spolehlivosti pro střední hodnotu životnosti (2987.1; 3012.9); b) 90% levostranný empirický interval spolehlivosti pro střední hodnotu životnosti (29993.6; oo); c) 95 % pravostranný empirický interval spolehlivosti pro střední hodnotu životnosti (—oo; 3008.2). ad a) d = m - ^=«i_a = 3000 - 4=2.57583 = 2987.1 y/TE h = m - -^ua = 3000 + 4=2.57583 = 3012.9 . n V16 m <- 3000 s <- 20 n <- 16 # a) alpha <- 0.01 (dh <- m-s/sqrt(n)*qnorm(l-alpha/2)) (hh <- m-s/sqrt(n)*qnorm(alpha/2)) 2987h a 6 min < fi < 3012 h a 54 min s pravděpodobnostní 0.99. ad b) d = m - 4=«i-a = 3000 - 4==1-28155 = 2993.6 yi6 alpha <- 0.1 (dh <-m-s/sqrt(n)*qnorm(1-alpha)) 2993 h a 36 min < fi s pravděpodobnostní 0.9. ad c) a 20 h = m--=un = 3000 + -=1.95996 = 3008.2 n V16 alpha <- 0.05 (hh <- m-s/sqrt(n)*qnorm(alpha)) 3009 h a 48 min > fi s pravděpodobnostní 0.95. 7