Základní pojmy matematické statistiky popisná statistika ... datový soubor —> závěry o datovém souboru matematická statistika ... náhodný výběr —> statistiky —> závěry o tvaru rozdělení a parametrech Xi,... ,Xn - stoch.nezáv.náh.veličiny, které mají všechny stejné rozložení L{9) —> X±,... ,Xn ... náhodný výběr rozsahu n z rozdělení L{9) číselné realizace x±,... ,xn náh.výběru X±,..., Xn tvoří datový soubor statistika = libovolná funkce náhodného výběru: T = T(X±,..., Xn) Statistiky - jednovýběrové: Nechť Xi,..., Xn je náhodný výběr, n > 2. 1. Výběrový průměr M = n n n £—^ i=l 2. Výběrový rozptyl s2 = ^— J2(Xi - Mf n — 1 ^—' i=l 3. Výběrová směrodatná odchylka s = 4. Výběrová distribuční funkce Fn{x) .. .průměrný počet těch veličin Xi, pro něž platí Xí > x. Statistiky - dvouvýběrové: Nechť (X±, Y±),... (Xn, Yn) je náhodný výběr z dvourozměrného rozdělení. M\ = ^Yľi=i-^i a 1. Výběrová kovariance S12 = ——— itiXi - Mi)(1í - M2) n — 1 f-^ S12 S1S2 Bodové a intervalové odhady parametrů X\... Xn ... náhodný výběr z rozdělení L{0) s parametrem 6. parám. 9 neznáme; chceme ho odhadnout pomocí náh. výběru bodovým odhadem parametru 9 je nějaká vhodná statistika Tn = T{X\... Xn) intervalovým odhadem parametru 9 je interval (D, H), kde D, H jsou fce náh.výběru D = D{X\... Xn H = H{X\... Xn) a který s dostatečně velkou pstí pokrývá hodnotu parametru 9 typy bodových odhadů 1. nestranný ... hodnotu parám. 9 ani nepodhodnocuje, ani nenadhodnocuje ... ETn = 9 i=l 2. Výběrový koeficient korelace R12 1 2. vychýlený .. .není-li odhad nestranný, je vychýlený 3. asymptotický ... s rostoucím n se jeho přesnost zvětšuje • vlastnosti bodových odhadů • Xi,... Xn ... náh. výběr se střední hodnotou p, rozptylem a2. 1. M je nestranný odhadem p ... EM = p 2. DM = sl n 3. S2 je nestranným odhadem a2 ... ES2 = a2 • (Xi, Yi),... (Xn, Yn) ... náhodný výběr z dvourozměrného rozložení s kovariancí a 12 a koeficientem korelace p. 1. E(Si2) je nestranným odhadem a 12 ... E(S±2) = o\2 2. ER\2 je asymptoticky nestranným odhadem p ... ER12 ~ p Příklad 7.1. Ve 12-ti náhodně vybraných internetových obchodech byly zjištěny následující ceny deskriptoru artefaktů (v Kč): 102, 99,106,103, 96, 98,100,105,103, 98,104,107. Těchto 12 hodnot považujeme za realizace náhodného výběru X\,..., X12 z rozdělení, které má střední hodnotu p a rozptyl a2. a) Určete nestranné bodové odhady neznámé střední hodnoty p a neznámého rozptylu a2. b) Najděte výběrovou distribuční funkci F±2(x) a nakreslete její graf. ad a) Vypočteme realizaci výběrového průměru m = y^(102 + 99 + • • • + 107) = 101.75 Kč Vypočteme realizaci výběrového rozptylu: s2 = ^ [(102 - 101.75)2 + (99 - 101.75)2 + • • • + (107 - 101.75)2] = 12.39 Kč2 x <- c (96, 98, 98, 99, 100, 102, 103, 103, 104, 105, 106, 107) n <- length(x) (m <- mean(x)) (s2 <- var(x)) # Výberová distribuční funkce t <- unique(sort (x) ) y <- sort(x) nt <- length(t) četnost <- NULL f or(i in 1:nt ) { četnost[i] <- sum(y< = t [i]) } Fx <- cetnost/n t(round(Fx, digits=4)) # graf výberové distribucni funkce x <- c(min(t)-1,t, max(t)+l) y <- c(0,Fx , 1) plot(x, y, type='n', xlab='x', ylab='F(x)', main='Vyberovaudistribucni ufunkce') abline(h=seq(0,1,by=0.1), col='grey85') abline(v=seq(95, 108,by=2), col='grey85') lines(x,y, type='s', col='red', lwd=2) arrows (96,0,95,0, col='reď, lwd = 2, length = 0 arrows (107,1,108,1, col='reď, lwd = 2, length . 1) = 0.1) 2 Příklad 7.2. Přírůstky cen akcií v % na burze v New Yorku u 10 náhodně vybraných společností dosáhly těchto hodnot: 10,16, 5,10,12, 8,4, 6, 5,4. a) Odhadněte střední hodnotu, rozptyl a směrodatnou odchylku růstu cen akcií. b) Odhadněte pravděpodobnost růstu cen akcií aspoň o 8.5 %. x <- c(10, 16, 5, 10, 12, 8, 4, 6, 5, 4) x <- sort(x) n <- length(x) s2 <- var(x) s <- sd(x) Tab <- data.frame(m=m, s2 = s2, s = s , row.names='akcie') round(Tab, digits=2) # P(X>=8.5) pst <- sum(x> = 8.5)/length (x) pst <- 1-sum(x<8.5)/length(x) round(pst,4) Příklad 7.3. Bylo zkoumáno 9 vzorků půdy s různým obsahem fosforu (veličina X). Hodnoty veličiny Y označují obsah fosforu v obilných klíčcích (po 38 dnech), jež vyrostly na těchto vzorcích půdy. číslo vzorku 1 2 3 4 5 6 7 8 9 X 1 4 5 9 11 13 23 23 28 Y 64 71 54 81 76 93 77 95 109 Těchto 9 dvojic hodnot považujeme za realizace náhodného výběru (X±, Y±),..., (Xg, Yg) z dvourozměrného rozdělení s kovariancí o\2 a koeficientem korelace p. Najděte bodové odhady kovariance oyi a koeficientu korelace p. x <- c(l, 4, 5, 9, 11, 13, 23, 23, 28) y <- c(64, 71, 54, 81, 76, 93, 77, 95, 109) cov(x,y) cor (x , y) 7.1.1 INTERVALY SPOLEHLIVOSTI • X\... Xn ... náh.výběr z rozdělení L(B), B je parametr, a £ (0,1) • interval (D,H) — 100(1 — a)% oboustranný IS pro parám. 9 - pro každé B : P(D <9 fi s pravděpodobnostní 0.95. 4