Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Matematika III – 11. týden Momentové funkce, centrální limitní věta, příklady důležitých rozdělení Jan Slovák Masarykova univerzita Fakulta informatiky 24.-28. 11. 2014 Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Obsah přednášky 1 Literatura 2 Momentová funkce 3 Centrální limitní věta 4 Co potkáme ve statistice Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Plán přednášky 1 Literatura 2 Momentová funkce 3 Centrální limitní věta 4 Co potkáme ve statistice Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Kde je dobré číst? Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická pravděpodobnost statistika, Matfyzpress, 2006, 230pp. J. Slovák, M. Panák, M. Bulant, Matematika drsně a svižně, Muni Press, Brno 2013, v+773 s., elektronická edice www.math.muni.cz/Matematika_drsne_svizne Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. Marie Budíková, Tomáš Lerch, Štěpán Mikoláš, Základní statistické metody, Masarykova univerzita, 2005, 170 stran, ISBN 80-210-3886-1. Riley, K.F., Hobson, M.P., Bence, S.J. Mathematical Methods for Physics and Engineering, second edition, Cambridge University Press, Cambridge 2004, ISBN 0 521 89067 5, xxiii + 1232 pp. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Plán přednášky 1 Literatura 2 Momentová funkce 3 Centrální limitní věta 4 Co potkáme ve statistice Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Momenty Podobně jako rozptyl můžeme uvažovat výrazy vyšších řádů: µk = E Xk , µk = E(X − E X)k . Nazýváme je k-tý moment a k-tý centrální moment náhodné veličiny X. Momenty lze všechny dostat jako koeficienty v mocninné řadě následujícím způsobem. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Momenty Podobně jako rozptyl můžeme uvažovat výrazy vyšších řádů: µk = E Xk , µk = E(X − E X)k . Nazýváme je k-tý moment a k-tý centrální moment náhodné veličiny X. Momenty lze všechny dostat jako koeficienty v mocninné řadě následujícím způsobem. Pro volný reálný parametr t definujeme momentovou vytvořující funkci pro náhodnou veličinu X vztahem MX (t) = E etX . Tato funkce (za docela rozumných předpokladůná sledující věty) zcela určuje náhodné veličiny a má řadu užitečných vlastností (tj. stejná momentová funkce na nějakém netriviálním intervalu =⇒ stejná distribuční funkce). Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Theorem Nechť X je náhodná veličina pro kterou na intervalu (−a, a) existuje její analytická momentová vytvořující funkce. Pak na tomto intervalu je MX (t) dána absolutně konvergující řadou Mt(X) = ∞ k=0 tk k! E Xk . Theorem Pro součet náhodných veličin platí: MX+Y (t) = MX (t)MY (t). Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Momentová vytvořující funkce pro X ∼ Bi(0, 1) Často je jednodušší počítat momenty z jejich vytvořující funkce než přímo. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Momentová vytvořující funkce pro X ∼ Bi(0, 1) Často je jednodušší počítat momenty z jejich vytvořující funkce než přímo. Pro alternativní rozdělení náhodné veličiny Y ∼ A(p) spočteme snadno MY (t) = E etY = e0 (1 − p) + et p = p(et − 1) + 1. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Momentová vytvořující funkce pro X ∼ Bi(0, 1) Často je jednodušší počítat momenty z jejich vytvořující funkce než přímo. Pro alternativní rozdělení náhodné veličiny Y ∼ A(p) spočteme snadno MY (t) = E etY = e0 (1 − p) + et p = p(et − 1) + 1. Protože je binomické rozdělení X ∼ Bi(n, p) dáno jako součet n alternativních rozdělení Yi ∼ A(p), je zjevně v tomto případě M(t) = MX (t) = (p(et − 1) + 1)n . Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Momentová vytvořující funkce pro X ∼ Bi(0, 1) Často je jednodušší počítat momenty z jejich vytvořující funkce než přímo. Pro alternativní rozdělení náhodné veličiny Y ∼ A(p) spočteme snadno MY (t) = E etY = e0 (1 − p) + et p = p(et − 1) + 1. Protože je binomické rozdělení X ∼ Bi(n, p) dáno jako součet n alternativních rozdělení Yi ∼ A(p), je zjevně v tomto případě M(t) = MX (t) = (p(et − 1) + 1)n . Obecně platí µk = dr dtr MX (t)|t=0. Je tedy např. první moment binomického rozdělení skutečně np (první derivace M(t) v nule), což je střední hodnota. Druhý moment je np(1 − p), čímž jsme ověřili výsledek pro rozptyl. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Momentová vytvořující funkce pro Z ∼ N(0, 1) MZ (t) = ∞ −∞ etx 1 √ 2π exp(−x2 /2)dx = ∞ −∞ 1 √ 2π exp − x2 − 2tx + t2 − t2 2 dx = exp(t2 /2) ∞ −∞ 1 √ 2π exp − (x − t)2 2 dx = exp(t2 /2). (V předposledním řádku je integrálem dána pravděpodobnost jakékoliv hodnoty pro normální rozdělení, proto je to jednička.) Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Momentová vytvořující funkce pro Z ∼ N(0, 1) MZ (t) = ∞ −∞ etx 1 √ 2π exp(−x2 /2)dx = ∞ −∞ 1 √ 2π exp − x2 − 2tx + t2 − t2 2 dx = exp(t2 /2) ∞ −∞ 1 √ 2π exp − (x − t)2 2 dx = exp(t2 /2). (V předposledním řádku je integrálem dána pravděpodobnost jakékoliv hodnoty pro normální rozdělení, proto je to jednička.) Derivováním: (MZ ) (0) = 0 a (MZ ) (0) = (tet2/2) (0) = 1. Je tedy skutečně E Z = 0, var Z = 1. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Plán přednášky 1 Literatura 2 Momentová funkce 3 Centrální limitní věta 4 Co potkáme ve statistice Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Uvažme nezávislé náhodné veličiny Y1, Y2, . . . , které mají všechny stejné rozdělení se střední hodnotou 0 a rozptylem 1. Předpokládejme, že třetí absolutní moment E|Yi |3 je konečný. Pro náhodnou veličinu Sn = 1√ n n i=1 Yi spočtěme momentovou funkci (koeficient n−1/2 je volen tak, aby rozptyl Sn byl stále 1) MSn = n i=1 E e(t/ √ n)Yi = (MY (t/ √ n))n , kde MY je společná momentová funkce všech veličin Yi . Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Uvažme nezávislé náhodné veličiny Y1, Y2, . . . , které mají všechny stejné rozdělení se střední hodnotou 0 a rozptylem 1. Předpokládejme, že třetí absolutní moment E|Yi |3 je konečný. Pro náhodnou veličinu Sn = 1√ n n i=1 Yi spočtěme momentovou funkci (koeficient n−1/2 je volen tak, aby rozptyl Sn byl stále 1) MSn = n i=1 E e(t/ √ n)Yi = (MY (t/ √ n))n , kde MY je společná momentová funkce všech veličin Yi . Nyní MY (t/ √ n) = 1 + 0 t √ n + 1 t2 2n + o(t2 /n) a v limitě proto dostáváme lim n→∞ MSn (t) = lim n→∞ 1 + t2 2n + o(1/n) n = et2/2 . To je právě momentová funkce pro rozdělení N(0, 1)!. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Tím jsme skoro dokázali: Theorem (Centrální limitní věta) Nechť Y1, Y2, . . . jsou nezávislé náhodné veličiny se společnou střední hodnotou E Yi = µ, rozptylem var Yi = σ2 > 0 a konečným třetím absolutním momentem E|Yi |3. Pro distribuční funkce náhodných veličin Sn = 1 √ n n i=1 1 σ (Yi − µ) platí lim n→∞ P(Sn < x) = Φ(x), kde Φ(x) je distribuční funkce normálního rozdělení N(0, 1). Všimněme si: součty Xn = n i=1 Yi mají střední hodnotu nµ a rozptyl nσ2. Veličiny Sn jsou tedy právě normované veličiny Xn. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Pokud jsou Yi ∼ A(p) nezávislé, pak E(Yi )3 = p < ∞ a všechny podmínky centrální limitní věty jsou splněny, µ = p, σ2 = p(1 − p). Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Pokud jsou Yi ∼ A(p) nezávislé, pak E(Yi )3 = p < ∞ a všechny podmínky centrální limitní věty jsou splněny, µ = p, σ2 = p(1 − p). Součtové veličiny Xn = n i=1 Yi pak představují právě binomická rozdělení Bi(n, p) a příslušné normované veličiny jsou Sn = 1 √ n n i=1 Yi − p p(1 − p) = Xn − np np(1 − p) . Podle centrální limitní věty má tato veličina pro velká n rozdělení velmi podobné rozdělení N(0, 1). Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Pokud jsou Yi ∼ A(p) nezávislé, pak E(Yi )3 = p < ∞ a všechny podmínky centrální limitní věty jsou splněny, µ = p, σ2 = p(1 − p). Součtové veličiny Xn = n i=1 Yi pak představují právě binomická rozdělení Bi(n, p) a příslušné normované veličiny jsou Sn = 1 √ n n i=1 Yi − p p(1 − p) = Xn − np np(1 − p) . Podle centrální limitní věty má tato veličina pro velká n rozdělení velmi podobné rozdělení N(0, 1). Jinými slovy, rozdělení Bi(n, p) je velice blízké rozdělení N(np, np(1 − p)) pro velká n. To je obsahem tzv. Laplaceovy–Moivreovy věty. To jsme už viděli minule na obrázcích: Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Pro hodnoty Bi(5000, 0.5) je výsledek vidět na obrázku níže. Druhá křivka na obrázku je grafem funkce f (x) = e−x2/2. Aproximace binomického rozdělení normálním se často považuje v praxi za dostatečnou, jestliže np(1 − p) > 9 Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Při praktických průzkumech zpravidla věříme „zákonu velkých čísel“. Potřebujeme přitom rozhodnout, jak velký vzorek už postačuje. Typickým příkladem je např. tato úloha: Chceme zjistit poměr p osob s danou krevní skupinou A v populaci. U kolika osob je třeba krevní skupinu skutečně zjistit, abychom měli 90% pravděpodobnost, že naše zjištění se nebude lišit o více než 5%. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Při praktických průzkumech zpravidla věříme „zákonu velkých čísel“. Potřebujeme přitom rozhodnout, jak velký vzorek už postačuje. Typickým příkladem je např. tato úloha: Chceme zjistit poměr p osob s danou krevní skupinou A v populaci. U kolika osob je třeba krevní skupinu skutečně zjistit, abychom měli 90% pravděpodobnost, že naše zjištění se nebude lišit o více než 5%. Propočítáním zjistíme, že (nezávisle na p) vždy stačí odhadnout p = X/n, kde X je náhodná veličina udávající počet osob majících požadovanou skupinu, pro vzorek 270 lidí. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Plán přednášky 1 Literatura 2 Momentová funkce 3 Centrální limitní věta 4 Co potkáme ve statistice Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Rozdělení χ2 Ve statistice budeme pracovat s charakteristikami náhodných vektorů, které budou obdobné výběrovému průměru a rozptylu, ale také s relativními poměry takových charakteristik atd. Podíváme se teď na několik takových případů. Uvažme Z ∼ N(0, 1) a spočtěme hustotu fY (x) pro Y = Z2. Evidentě je fY (x) = 0 pro x ≤ 0, pro kladná x FY (x) = P(Y < x) = P(− √ x < Z < √ x) = √ x − √ x 1 √ 2π e−z2/2 dz = x 0 1 √ 2π t−1/2 e−t/2 dt. Hustotu dostaneme derivací fY (x) = d dx FY (x) = 1 √ 2π x−1/2 e−x/2 . Tomuto rozdělení se říká χ2 s jedním stupněm volnosti, píšeme Y ∼ χ2. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Gama rozdělení Y ∼ Γ(a, b) Výběrový rozptyl bude odpovídat součtům takovýchto nezávislých veličin. Uvažme hustotu (trochu obecnějšího tvaru než u χ2) fX (x) = cxa−1 e−bx pro x > 0, zatímco fX (x) = 0 pro nekladná x (χ2 odpovídá volbě a = b = 1/2). Je třeba volit c = ba Γ (a) a jde o rozdělení Γ(a, b). Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice k-tý moment takové veličiny X je E Xk = ∞ 0 xk ba Γ(a) xa−1 e−bx dx = Γ(a + r) Γ(a)br ∞ 0 xk ba+r Γ(a + r) xa−1+r e−bx dx = Γ(a + r) Γ(a)br (protože integrál z hustoty rozdělení Γ(a + r, b) v posledním upravovaném výrazu je nutně roven jedné) Zejména tedy vidíme, že E X = Γ(a+1) bΓ(a) = a b , zatímco var X = Γ(a + 2) b2Γ(a) − a2 b2 = (a + 1)a − a2 b2 = a b2 . Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice Momentová vytvořující funkci pro všechny hodnoty −b < t < b je MX (t) = ∞ 0 etx ba Γ(a) xa−1 e−bx dx = ba (b − t)a ∞ 0 xk (b − t)a Γ(a) xa−1 e−(b−t)x dx = ba (b − t)a . Pro součet nezávislých rozdělení Y = X1 + · · · + Xn s rozděleními Xi ∼ Γ(ai , b) tedy okamžitě dostáváme momentovou vytvořující funkci (pro hodnoty |t| < b) MY (t) = b b − t a1+···+an , tj. Y ∼ Γ(a1 + · · · + an, b). (Velmi podstatný je přitom předpoklad, že všechna gamma rozdělení sdílí stejnou hodnotu b). Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice rozdělení χ2 Jako okamžitý důsledek nyní dostáváme hustotu rozdělení veličiny Y = Z2 1 + · · · + Z2 n , kde všechna Zi ∼ N(0, 1). Jde totiž o gamma rozdělení Y ∼ `(n/2, 1/2) a má hustotu fY (x) = 1 2n/2Γ(n/2) xn/2−1 e−x/2 . Tomuto speciálnímu případu gamma rozdělení říkáme rozdělení χ2 s n stupni volnosti. Značíme jej zpravidla Y ∼ χ2 n. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice F-rozdělení Při prorovnání výběrových rozptylů potkáme veličiny, které jsou dány podílem U = X/k Y /m X ∼ χ2 k a Y ∼ χ2 m. Náhodná veličina U = X/k Y /m má hustotu fU(u) fU(u) = Γ((k + m)/2) Γ(k/2)Γ(m/2) k m k/2 uk/2−1 1 + k m u −(k+m)/2 . Takovému rozdělení se říká Fisherovo-Snedecorovo rozdělení s k a m stupni volnosti, zkráceně také F-rozdělení. Literatura Momentová funkce Centrální limitní věta Co potkáme ve statistice t-rozdělení Další potřebné rozdělení se objevuje při zkoumání podílu veličin Z ∼ N(0, 1) a X/n, kde X ∼ χ2 n (tj. zajímá nás poměr Z a směrodatné odchylky nějakého výběru). Dostaneme náhodnou veličinu T = Z X/n a hustotou fT (t) fT (t) = Γ((n + 1)/2) Γ(n/2) √ nπ 1 + t2 n −(n+1)/2 . Tomuto rozdělení říkáme Studentovo t-rozdělení s n stupni volnosti.