Matematika IV - 11. přednáška Limitní vlastnosti, zákony velkých čísel, popisná statistika Michal Bulant Masarykova univerzita Fakulta informatiky 28. 4. 2008 • Martin Panák, Jan Slovák, Drsná matematika, e-text. • Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická statistika, Matfyzpress, 4. vydání, 2006, 230 stran, ISBN 80-867-3271-1. • Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Popisná statistika, Masarykova univerzita, 3. vydání, 2002, 48 stran, ISBN 80-210-1831-3. • Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. • střední hodnota E{X) , • rozptyl D(X) = E([X - E(X)]2) , směrodatná odchylka • kovariance C(X, Y) = E([X - E(X)][Y - E(Y)]), korelační koeficient R(X, Y) = C(X, Y)/\^D{X)'y/D{YJ)> Cauchyova nerovnost \R{X, V)| < 1, 9 kvantily, • další momenty (obecné, centrální) - momentová vytvořující funkce Mx(t) = E(éx) C ft a Pro nezávislé náhodné veličiny platí Mx+Y{t) = Mx(t)MY(t). a r-tý obecný moment i^'r náhodné veličiny X je v rozvoji Mx do exponenciální mocninné řady koeficient u K » Je-li Y=a+bX, pak MY{t) = eat Mx{bt). « Příklad Určete rozdělení součtu nezávislých náhodných veličin X~N(ßx,ax), Y~N(ßY,a2y). Řešení Z vlastností momentové vytvořující funkce dostáváme ŕ t2, Mx+Y(t) = exp(/xxŕ + ax—) exp(/jyr + aY — t2 exp((/xx + /xy)ř + (ax + <7y)—). Proto X + Y ~ A/(/xx + juy, o"x + ^y)- Příklad Určete konstantu c tak, aby funkce cxa e pro x > 0 a nulová jinde (a, b > 0 jsou parametry) byla hustotou náhodné veličiny. l*cSf9*f^l ^H Hustota musí splňovat /•oc 1= / cxa~xe ~bxdx = Jo /•oc Jo V ~ X2(m)> Pak m3 transformovaná náhodná veličina U X/k Y/m takzvané Fisher-Snedecorovo F-rozdělení F{k, tri) s k a m stupni volnosti. Studentovo t-rozdělení Jsou-li Z ~ A/(0, l)aX~ X2(n) nezávislé náhodné veličiny, pak má veličina 7 7 tzv. Studentovo t-rozdělení ŕ(n) s n stupni volnosti. Z\,..., Z/c ~ A/(0,1) .....nezávislé normované normální X£ = Y!tj=i Z? ~ X2(^) ■ ■ ■ ■ chĺ-kvadrát o k stupních volnosti X2/ k Fk m = v2 / ~ F(/c, m) . . F-rozdělení skám stupni volnosti Tfc = Áy= ~ ř(^)......t-rozdělení s /c stupni volnosti Zřejmě Z2 - x2(l) a T2 - F(l, /c). rozdělení střední hodnota rozptyl N(ß,a2) x2(k) t(k) F(k,m) LI k 0 m/(m - 2) a2 2k k/(k - 2) 2m2{k + m- 2)/k(m - 2)2(m - 4) S jedním případem limitní věty jsme se již setkali - de Moivre-Laplaceova věta říká, že binomické rozdělení Bi(n,p) lze za určitých podmínek aproximovat normovaným normálním rozdělením. Obvykle se k aproximaci přistupuje při splnění podmínky np(l — p) > 9. V této kapitole zformulujeme zobecnění této věty a rovněž další tvrzení umožňující odhadovat chování náhodných veličin při velkém počtu nezávislých opakování náhodného pokusu. Pro libovolné e > O platí P{\X - E(X)\ >e)< ^-. í Důkaz. * Budeme odhadovat rozptyl D{X) analogicky), označme přitom pro ve spojitém prípade (diskrétni stručnost ß = E{X) : /•oo D(X) = / (X J—oo -/x)2f(x)dx ~ J\x- (X-/x)2f(x)dx> -Ml>e ■/ |x— /tt|>£ f(x)dx = e2P(|X- fi\ >e). D Pomocí Čebyševovy nerovnosti můžeme odhadovat pravděpodobnost, s jakou se náhodná veličina s neznámým rozdělením odchýlí od své střední hodnoty o více než /(-násobek směrodatné odchylky (zřejmě je totiž P(\X — E(X)\ > ka) < p-). ' Příklad * Nechť je E{X) = p, D{X) O Odhadněte P(\X - [i\ Q Vypočtěte P(\X - ß\ X~A/(0,1). = a2. >3 3a), jestliže navíc víte, že O 1/9, Q 0,0027. Věta (Čebyševova) Necht jsou Xi, X2,... po dvou nezávislé náhodné veličiny, které mají všechny stejnou střední hodnotu ß a stejný rozptyl a2. Pak pro libovolné e > 0 platí lim P n—>oo 1 - n *■—' P i=l < e Říkáme, že posloupnost aritmetických průměrů konverguje podle pravděpodobnosti ke střední hodnotě ß. Speciálním případem této věty je Bernoulliova věta, která říká, že je-li Yn ~ Bi(n, p), pak posloupnost relativních četností Yn/n konverguje podle pravděpodobnosti k p. Věta (Bernoulliova) Pro náhodnou veličinu s binomickým rozdělením Yn ~ Bi(n,p) a pro libovolné e > 0 platí Yn >e < P(l-P) ne' Plyne snadno z Čebyševovy nerovnosti, neboť E^n/n) = p a D(V» = np(l-p)/n2 = p(l-p)/n. D Příklad Při zkoušce bylo zjištěno, že mezi 600 kontrolovanými studenty je 5 studentů, kteří neumí ani malou násobilku. Odhadněte praděpodobnost, že relativní četnost takových studentů se od jejich pravděpodobnosti výskytu liší o více než 0,01? (Můžete předpokládat, že pravděpodobnost výskytu studenta bez znalosti násobilky je menší než 0,02). Centrální limitní věta dá odpověď na otázku, proč je normální rozdělení nejdůležitějším rozdělením. Ukazuje totiž, že rozdělení součtu dostatečně velkého počtu nezávislých a stejně rozdělených náhodných veličin lze aproximovat normálním rozdělením. Necht je Vj, Y2,... posloupnost nezávislých stejně rozdělených náhodných veličin se střední hodnotou \x a rozptylem a2. Pak pro normované náhodné veličiny 1 V-V/-/X n <-^ a 1=1 platí lim P(S„ < x) = oo kde je distribuční funkce rozdělení A/(0,1). Příklad Mezi matematiky v ČR je jich 10% s příjmem přesahujícím celostátní průměr. Kolik matematiků je třeba pozvat na konferenci, aby s pravděpodobností aspoň 0,95 mezi nimi bylo 8 až 12 procent s nadprůměrným příjmem? Řešení V„ - Bi(n; 0,1), E(Y„) = 0,1 • n, D(Yn) = 0,1 • 0,9 • n. Pak 0, 95 < P(0, 08n < Yn < 0,12n) = /0,08-0,01 Vn-0,ln 0,12-0,01 ^/0709ň " ~ V07Ö9Ö ~ V07Ö9Ö -^ 0, 975, což je ekvivalentní ^/ň/15 > 1,96, tj. n > 865. Řešení (Pomocí Bernoulliovy nerovnosti) Nyní využijme Bernoulliovu nerovnost - ta dává Yn 0,1 <0,02 > 1 0,1 0,9 n ■ 0, 022 ' což má být alespoň 0,95. Odtud 0,09 n > 0, 05 • 0, 022 4500. Vidíme, že odhad prostřednictvím Bernoulliovy nerovnosti je podstatně slabší než odhad s využitím centrální limitní věty (resp. de Moivre-Laplaceovy věty). Statistika zkoumá jevy na rozsáhlých souborech případů a zkoumá statistické znaky jednotlivých statistických jednotek. Obvykle nelze testovat všechny jednotky základního souboru, proto se omezujeme na prozkoumání některého výběrového souboru rozsahu n. Předpokládejme, že jsme na n statistických jednotkách naměřili soubor hodnot X\,..., xn daného znaku. Znaky obvykle dělíme na kvalitativní (nominální, ordinální) a kvantitativní (intervalové, poměrové). Počtu prvků souboru říkáme rozsah. • absolutní (relativní) četnosti, četnostní tabulka • histogram • (výběrový) průměr, geometrický, harmonický průměr • medián, p-tý kvantil, percentu, kvartil • modus • rozptyl s^, resp. n/(n — l)s^ • rozpětí, kvartilové rozpětí, průměrná odchylka (od mediánu) • koeficient šikmosti, špičatosti Krabicový diagram, box plot O Value > BQIh řercenflle 9Ůth PercanlilB ŕS-th PercenSiiB ľ.lsc a n 2ith PeroanlilB lOth PencenlilB Value <1Dth Percentile.