Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Matematika III – 11. týden Kovariance, momentová funce a centrální limitní věta, zpět ke statistice Jan Slovák Masarykova univerzita Fakulta informatiky 5. 12. – 9. 12. 2016 Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Obsah přednášky 1 Literatura 2 Kovariance 3 Momentová funkce 4 Centrální limitní věta 5 Co potkáme 6 Výběry Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Kde je dobré číst? Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická pravděpodobnost statistika, Matfyzpress, 2006, 230pp. J. Slovák, M. Panák, M. Bulant, Matematika drsně a svižně, Muni Press, Brno 2013, v+773 s., elektronická edice www.math.muni.cz/Matematika_drsne_svizne Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. Marie Budíková, Tomáš Lerch, Štěpán Mikoláš, Základní statistické metody, Masarykova univerzita, 2005, 170 stran, ISBN 80-210-3886-1. Riley, K.F., Hobson, M.P., Bence, S.J. Mathematical Methods for Physics and Engineering, second edition, Cambridge University Press, Cambridge 2004, ISBN 0 521 89067 5, xxiii + 1232 pp. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Kovariance veličin Jsou-li X a Y dvě náhodné veličiny, pro které existují jejich konečné royptyly, pak definijeme jejich kovarianci vztahem cov(X, Y ) = E(X − E X)(Y − E Y ). Evidentně je cov(X, X) = var X a cov(X, Y ) = cov(Y , X). Theorem Nechť existují konečné rozptyly veličin X a Y . Pak cov(X, Y ) = E(XY ) − (E X)(E Y ) pro jakékoliv skaláry a, b, c, d platí cov(a + bX, c + dY ) = bd cov(X, Y ) var(X + Y ) = var X + var Y + 2 cov(X, Y ). Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Od kovariance snadno odvodíme tzv. korelační koeficient dvou náhodných veličin X a Y . Definujeme jej jako kovarianci příslušných normovaných veličin: ρX,Y = cov X − E X √ var X , Y − E Y √ var Y = cov(X, Y ) √ var X varY . Theorem ρa+bX,c+dY = sign(bd)ρX,Y , pro bd = 0 ρX,X = 1 ρX,Y = 0, pokud jsou veličiny X a Y nezávislé. pokud je ρX,Y definován, pak je roven jedné právě, když existují konstanty a, b, c tak, že P(aX + bY = c) = 1. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Varianční matice Uvažme náhodný vektor W = (X1, . . . , Xn) takový, že pro všechny jeho komponenty existuje rozptyl. Pak varianční matice var W je dána var W =     var X1 cov(X1, X2) . . . cov(X1, Xn) cov(X2, X1) var X2 . . . cov(X2, Xn) . . . cov(Xn, X1) cov(Xn, X2) . . . var Xn     . Theorem Pro náhodný vektor X, skaláry a, matice skalárů B platí var(a + BX) = B var XBT . Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Momenty Podobně jako rozptyl můžeme uvažovat výrazy vyšších řádů: µk = E Xk , µk = E(X − E X)k . Nazýváme je k-tý moment a k-tý centrální moment náhodné veličiny X. Momenty lze všechny dostat jako koeficienty v mocninné řadě následujícím způsobem. Pro volný reálný parametr t definujeme momentovou vytvořující funkci pro náhodnou veličinu X vztahem MX (t) = E etX . Tato funkce (za docela rozumných předpokladůná sledující věty) zcela určuje náhodné veličiny a má řadu užitečných vlastností (tj. stejná momentová funkce na nějakém netriviálním intervalu =⇒ stejná distribuční funkce). Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Theorem Nechť X je náhodná veličina pro kterou na intervalu (−a, a) existuje její analytická momentová vytvořující funkce. Pak na tomto intervalu je MX (t) dána absolutně konvergující řadou Mt(X) = ∞ k=0 tk k! E Xk . Theorem Pro součet náhodných veličin platí: MX+Y (t) = MX (t)MY (t). Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Momentová vytvořující funkce pro X ∼ Bi(0, 1) Často je jednodušší počítat momenty z jejich vytvořující funkce než přímo. Pro alternativní rozdělení náhodné veličiny Y ∼ A(p) spočteme snadno MY (t) = E etY = e0 (1 − p) + et p = p(et − 1) + 1. Protože je binomické rozdělení X ∼ Bi(n, p) dáno jako součet n alternativních rozdělení Yi ∼ A(p), je zjevně v tomto případě M(t) = MX (t) = (p(et − 1) + 1)n . Obecně platí µk = dr dtr MX (t)|t=0. Je tedy např. první moment binomického rozdělení skutečně np (první derivace M(t) v nule), což je střední hodnota. Druhý moment je np(1 − p), čímž jsme ověřili výsledek pro rozptyl. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Momentová vytvořující funkce pro Z ∼ N(0, 1) MZ (t) = ∞ −∞ etx 1 √ 2π exp(−x2 /2)dx = ∞ −∞ 1 √ 2π exp − x2 − 2tx + t2 − t2 2 dx = exp(t2 /2) ∞ −∞ 1 √ 2π exp − (x − t)2 2 dx = exp(t2 /2). (V předposledním řádku je integrálem dána pravděpodobnost jakékoliv hodnoty pro normální rozdělení, proto je to jednička.) Derivováním: (MZ ) (0) = 0 a (MZ ) (0) = (tet2/2) (0) = 1. Je tedy skutečně E Z = 0, var Z = 1. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Uvažme nezávislé náhodné veličiny Y1, Y2, . . . , které mají všechny stejné rozdělení se střední hodnotou 0 a rozptylem 1. Předpokládejme, že třetí absolutní moment E|Yi |3 je konečný. Pro náhodnou veličinu Sn = 1√ n n i=1 Yi spočtěme momentovou funkci (koeficient n−1/2 je volen tak, aby rozptyl Sn byl stále 1) MSn = n i=1 E e(t/ √ n)Yi = (MY (t/ √ n))n , kde MY je společná momentová funkce všech veličin Yi . Nyní MY (t/ √ n) = 1 + 0 t √ n + 1 t2 2n + o(t2 /n) a v limitě proto dostáváme lim n→∞ MSn (t) = lim n→∞ 1 + t2 2n + o(1/n) n = et2/2 . To je právě momentová funkce pro rozdělení N(0, 1)!. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Tím jsme skoro dokázali: Theorem (Centrální limitní věta) Nechť Y1, Y2, . . . jsou nezávislé náhodné veličiny se společnou střední hodnotou E Yi = µ, rozptylem var Yi = σ2 > 0 a konečným třetím absolutním momentem E|Yi |3. Pro distribuční funkce náhodných veličin Sn = 1 √ n n i=1 1 σ (Yi − µ) platí lim n→∞ P(Sn < x) = Φ(x), kde Φ(x) je distribuční funkce normálního rozdělení N(0, 1). Všimněme si: součty Xn = n i=1 Yi mají střední hodnotu nµ a rozptyl nσ2. Veličiny Sn jsou tedy právě normované veličiny Xn. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Pokud jsou Yi ∼ A(p) nezávislé, pak E(Yi )3 = p < ∞ a všechny podmínky centrální limitní věty jsou splněny, µ = p, σ2 = p(1 − p). Součtové veličiny Xn = n i=1 Yi pak představují právě binomická rozdělení Bi(n, p) a příslušné normované veličiny jsou Sn = 1 √ n n i=1 Yi − p p(1 − p) = Xn − np np(1 − p) . Podle centrální limitní věty má tato veličina pro velká n rozdělení velmi podobné rozdělení N(0, 1). Jinými slovy, rozdělení Bi(n, p) je velice blízké rozdělení N(np, np(1 − p)) pro velká n. To je obsahem tzv. Laplaceovy–Moivreovy věty. To jsme už viděli minule na obrázcích: Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Pro hodnoty Bi(5000, 0.5) je výsledek vidět na obrázku níže. Druhá křivka na obrázku je grafem funkce f (x) = e−x2/2. Aproximace binomického rozdělení normálním se často považuje v praxi za dostatečnou, jestliže np(1 − p) > 9 Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Při praktických průzkumech zpravidla věříme „zákonu velkých čísel“. Potřebujeme přitom rozhodnout, jak velký vzorek už postačuje. Typickým příkladem je např. tato úloha: Chceme zjistit poměr p osob s danou krevní skupinou A v populaci. U kolika osob je třeba krevní skupinu skutečně zjistit, abychom měli 90% pravděpodobnost, že naše zjištění se nebude lišit o více než 5%. Propočítáním zjistíme, že (nezávisle na p) vždy stačí odhadnout p = X/n, kde X je náhodná veličina udávající počet osob majících požadovanou skupinu, pro vzorek 270 lidí. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Rozdělení χ2 Ve statistice budeme pracovat s charakteristikami náhodných vektorů, které budou obdobné výběrovému průměru a rozptylu, ale také s relativními poměry takových charakteristik atd. Podíváme se teď na několik takových případů. Uvažme Z ∼ N(0, 1) a spočtěme hustotu fY (x) pro Y = Z2. Evidentě je fY (x) = 0 pro x ≤ 0, pro kladná x FY (x) = P(Y < x) = P(− √ x < Z < √ x) = √ x − √ x 1 √ 2π e−z2/2 dz = x 0 1 √ 2π t−1/2 e−t/2 dt. Hustotu dostaneme derivací fY (x) = d dx FY (x) = 1 √ 2π x−1/2 e−x/2 . Tomuto rozdělení se říká χ2 s jedním stupněm volnosti, píšeme Y ∼ χ2. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Gama rozdělení Y ∼ Γ(a, b) Výběrový rozptyl bude odpovídat součtům takovýchto nezávislých veličin. Uvažme hustotu (trochu obecnějšího tvaru než u χ2) fX (x) = cxa−1 e−bx pro x > 0, zatímco fX (x) = 0 pro nekladná x (χ2 odpovídá volbě a = b = 1/2). Je třeba volit c = ba Γ(a) a jde o rozdělení Γ(a, b). Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry k-tý moment takové veličiny X je E Xk = ∞ 0 xk ba Γ(a) xa−1 e−bx dx = Γ(a + k) Γ(a)bk ∞ 0 ba+k Γ(a + k) xa−1+k e−bx dx = Γ(a + k) Γ(a)bk (protože integrál z hustoty rozdělení Γ(a + k, b) v posledním upravovaném výrazu je nutně roven jedné) Zejména tedy vidíme, že E X = Γ(a+1) bΓ(a) = a b , zatímco var X = Γ(a + 2) b2Γ(a) − a2 b2 = (a + 1)a − a2 b2 = a b2 . Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Momentová vytvořující funkci pro všechny hodnoty −b < t < b je MX (t) = ∞ 0 etx ba Γ(a) xa−1 e−bx dx = ba (b − t)a ∞ 0 (b − t)a Γ(a) xa−1 e−(b−t)x dx = ba (b − t)a . Pro součet nezávislých rozdělení Y = X1 + · · · + Xn s rozděleními Xi ∼ Γ(ai , b) tedy okamžitě dostáváme momentovou vytvořující funkci (pro hodnoty |t| < b) MY (t) = b b − t a1+···+an , tj. Y ∼ Γ(a1 + · · · + an, b). (Velmi podstatný je přitom předpoklad, že všechna gamma rozdělení sdílí stejnou hodnotu b). Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry rozdělení χ2 Jako okamžitý důsledek nyní dostáváme hustotu rozdělení veličiny Y = Z2 1 + · · · + Z2 n , kde všechna Zi ∼ N(0, 1). Jde totiž o gamma rozdělení Y ∼ `(n/2, 1/2) a má hustotu fY (x) = 1 2n/2Γ(n/2) xn/2−1 e−x/2 . Tomuto speciálnímu případu gamma rozdělení říkáme rozdělení χ2 s n stupni volnosti. Značíme jej zpravidla Y ∼ χ2 n. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry F-rozdělení Při prorovnání výběrových rozptylů potkáme veličiny, které jsou dány podílem U = X/k Y /m X ∼ χ2 k a Y ∼ χ2 m. Náhodná veličina U = X/k Y /m má hustotu fU(u) fU(u) = Γ((k + m)/2) Γ(k/2)Γ(m/2) k m k/2 uk/2−1 1 + k m u −(k+m)/2 . Takovému rozdělení se říká Fisherovo-Snedecorovo rozdělení s k a m stupni volnosti, zkráceně také F-rozdělení. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry t-rozdělení Další potřebné rozdělení se objevuje při zkoumání podílu veličin Z ∼ N(0, 1) a X/n, kde X ∼ χ2 n (tj. zajímá nás poměr Z a směrodatné odchylky nějakého výběru). Dostaneme náhodnou veličinu T = Z X/n a hustotou fT (t) fT (t) = Γ((n + 1)/2) Γ(n/2) √ nπ 1 + t2 n −(n+1)/2 . Tomuto rozdělení říkáme Studentovo t-rozdělení s n stupni volnosti. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry matematická statistika Zkoumáme statistiky u nějakého výběru z daného základního souboru (populace). Matematická statistika se snaží postihnout, do jaké míry jsou zjištěné výsledky relevantní pro celou populaci, případně se ze zjištěných dat pokouší zjistit nebo upřesnit vhodný teoretický model pro chování celého souboru (a z něj pak třeba odhadovat pravděpodobnost nějakého budoucího jevu). Dva základní přístupy: frekvenční statistika (nebo také klasická statistika) bayesovská statistika. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry frekvenční přístup Vychází z matematické abstrakce, že skutečné pravděpodobnosti jsou dány četnostmi výskytů jevů v tak velkých vzorcích dat, že je můžeme dobře aproximovat nekonečnými modely a využít pro odhady spolehlivosti centrální limitní věty. Statistik zde na pravděpodobnost pohlíží jako na idealizaci relativní četnosti případů, v nichž se vyskytne určitý výsledek při opakovaných pokusech. Tato zdánlivá výhoda/rigoróznost se může ale rychle stát nevýhodou, jakmile se začneme zabývat spolehlivostí samotných dat a vhodností zvoleného experimentu. Stejně tak je obtížné frekvenční statistiku dobře použít pro odhad pravděpodobnosti výskytu jednorázového děje. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Máme k dispozici (velký) základní statistický soubor s N jednotkami, který nazýváme populace, a zároveň nějaký číselný znak pro každou z jednotek, tj. soubor hodnot (x1, . . . , xN). Z něj ovšem máme k dispozici pouze výběrový soubor s hodnotami (X1, . . . , Xn). Abychom se vyhnuli diskusi skutečné velikosti základního statistického souboru s N jednotkami, budeme předpokládat, že vybíráme položky výběrového souboru jednu po druhé a každou vybranou jednotku poté do populace vracíme. Zároveň předpokládáme, že každá položka má stejnou pravděpodbnost výběru 1/N. Hovoříme pak o náhodném výběru. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Pracujeme tedy s vektorem (X1, . . . , Xn) nezávislých náhodných veličin a všechny tyto veličiny mají stejné rozdělení pravděpodobnosti. Zejména tedy budou sdílet distribuční funkci FX (x) a momenty E Xi = µ, var Xi = σ2 . Dalším naším krokem musí být odvození charakteristik výběrového průměru ¯X a výběrového rozptylu S2 = 1 n − 1 n i=1 (Xi − ¯X)2 , přičemž následující věta dává hned zdůvodnění, proč volíme koeficient 1 n−1 místo 1 n . Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Theorem Pro výběrový průměr ¯X spočítaný z náhodného výběru rozsahu n z rozdělení s konečnou střední hodnotou µ a konečným rozptylem σ2 platí E ¯X = µ, var ¯X = 1 n σ2 . Pro výběrový rozptyl S2 platí E S2 = σ2 . Naším úkolem je odhadovat charakteristiky, jako jsou průměr µ hodnot znaku ¯x nebo jejich rozptyl σ2 pro celou populaci pomocí obdobných charakteristik pro náš daleko menší výběr, které budeme značit pomocí velkých písmen, např. ¯X, S2. Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Zde vstupuje do hry pravděpodobnost – budeme chtít znát pravděpodobnost přiblížení hodnot pro náš výběr těm pro celou populaci. Říkáme, že ¯X je nestranným odhadem střední hodnoty znaku pro populaci, zatímco výběrový rozptyl je nestranným odhadem rozptylu. V případě, že bychom realizovali výběr z populace bez vracení, bude výběrový průměr stále nestranným odhadem střední hodnoty, výběrový rozptyl ale již ne (vyskočí tam faktor (N − 1)/N). Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry V praktických úlohách je třeba znát nejen číselné charakteristiky výběrového průměru a rozptylu, ale jejich úplné rozdělení pravděpodobnosti. To můžeme samozřejmě odvodit, pouze známe-li konkrétní rozdělení pravděpodobnosti Xi . Jako užitečnou ilustraci se podíváme na náhodný výběr z normálního rozdělení. Výběrový průměr bude mít normální rozdělení a protože již známe jeho střední hodnotu a rozptyl, bude ¯X ∼ N(µ, 1 n σ2). O něco složitější je to s odvozením rozdělení pravděpodobnosti výběrového rozptylu. Uvažme vektor Z normovaných normálních veličin Zi = Xi − µ σ . Theorem Je-li (X1, . . . , Xn) náhodný výběr z rozdělení N(µ, σ2), pak jsou ¯X a S2 nezávislé veličiny a platí ¯X ∼ N(µ, 1 n σ2 ), n − 1 σ2 S2 ∼ χ2 n−1 . Literatura Kovariance Momentová funkce Centrální limitní věta Co potkáme Výběry Okamžitým důsledkem je, že normalizovaný výběrový průměr T = √ n ¯X − µ S má studentovo t-rozdělení pravděpodobnosti s n − 1 stupni volnosti.