Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Matematika III – 12. týden Centrální limitní věta, příklady důležitých rozdělení, frekvenční a Bayesovská statistika, výběry z populací Jan Slovák Masarykova univerzita Fakulta informatiky 7.12.-11. 12. 2015 Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Obsah přednášky 1 Literatura 2 Centrální limitní věta 3 Co potkáme 4 Matematická statistika 5 Výběry z populací 6 Intervaly spolehlivosti Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Plán přednášky 1 Literatura 2 Centrální limitní věta 3 Co potkáme 4 Matematická statistika 5 Výběry z populací 6 Intervaly spolehlivosti Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Kde je dobré číst? Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická pravděpodobnost statistika, Matfyzpress, 2006, 230pp. J. Slovák, M. Panák, M. Bulant, Matematika drsně a svižně, Muni Press, Brno 2013, v+773 s., elektronická edice www.math.muni.cz/Matematika_drsne_svizne Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. Marie Budíková, Tomáš Lerch, Štěpán Mikoláš, Základní statistické metody, Masarykova univerzita, 2005, 170 stran, ISBN 80-210-3886-1. Riley, K.F., Hobson, M.P., Bence, S.J. Mathematical Methods for Physics and Engineering, second edition, Cambridge University Press, Cambridge 2004, ISBN 0 521 89067 5, xxiii + 1232 pp. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Plán přednášky 1 Literatura 2 Centrální limitní věta 3 Co potkáme 4 Matematická statistika 5 Výběry z populací 6 Intervaly spolehlivosti Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Uvažme nezávislé náhodné veličiny Y1, Y2, . . . , které mají všechny stejné rozdělení se střední hodnotou 0 a rozptylem 1. Předpokládejme, že třetí absolutní moment E|Yi |3 je konečný. Pro náhodnou veličinu Sn = 1√ n n i=1 Yi spočtěme momentovou funkci (koeficient n−1/2 je volen tak, aby rozptyl Sn byl stále 1) MSn = n i=1 E e(t/ √ n)Yi = (MY (t/ √ n))n , kde MY je společná momentová funkce všech veličin Yi . Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Uvažme nezávislé náhodné veličiny Y1, Y2, . . . , které mají všechny stejné rozdělení se střední hodnotou 0 a rozptylem 1. Předpokládejme, že třetí absolutní moment E|Yi |3 je konečný. Pro náhodnou veličinu Sn = 1√ n n i=1 Yi spočtěme momentovou funkci (koeficient n−1/2 je volen tak, aby rozptyl Sn byl stále 1) MSn = n i=1 E e(t/ √ n)Yi = (MY (t/ √ n))n , kde MY je společná momentová funkce všech veličin Yi . Nyní MY (t/ √ n) = 1 + 0 t √ n + 1 t2 2n + o(t2 /n) a v limitě proto dostáváme lim n→∞ MSn (t) = lim n→∞ 1 + t2 2n + o(1/n) n = et2/2 . To je právě momentová funkce pro rozdělení N(0, 1)!. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Tím jsme skoro dokázali: Theorem (Centrální limitní věta) Nechť Y1, Y2, . . . jsou nezávislé náhodné veličiny se společnou střední hodnotou E Yi = µ, rozptylem var Yi = σ2 > 0 a konečným třetím absolutním momentem E|Yi |3. Pro distribuční funkce náhodných veličin Sn = 1 √ n n i=1 1 σ (Yi − µ) platí lim n→∞ P(Sn < x) = Φ(x), kde Φ(x) je distribuční funkce normálního rozdělení N(0, 1). Všimněme si: součty Xn = n i=1 Yi mají střední hodnotu nµ a rozptyl nσ2. Veličiny Sn jsou tedy právě normované veličiny Xn. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Pokud jsou Yi ∼ A(p) nezávislé, pak E(Yi )3 = p < ∞ a všechny podmínky centrální limitní věty jsou splněny, µ = p, σ2 = p(1 − p). Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Pokud jsou Yi ∼ A(p) nezávislé, pak E(Yi )3 = p < ∞ a všechny podmínky centrální limitní věty jsou splněny, µ = p, σ2 = p(1 − p). Součtové veličiny Xn = n i=1 Yi pak představují právě binomická rozdělení Bi(n, p) a příslušné normované veličiny jsou Sn = 1 √ n n i=1 Yi − p p(1 − p) = Xn − np np(1 − p) . Podle centrální limitní věty má tato veličina pro velká n rozdělení velmi podobné rozdělení N(0, 1). Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Pokud jsou Yi ∼ A(p) nezávislé, pak E(Yi )3 = p < ∞ a všechny podmínky centrální limitní věty jsou splněny, µ = p, σ2 = p(1 − p). Součtové veličiny Xn = n i=1 Yi pak představují právě binomická rozdělení Bi(n, p) a příslušné normované veličiny jsou Sn = 1 √ n n i=1 Yi − p p(1 − p) = Xn − np np(1 − p) . Podle centrální limitní věty má tato veličina pro velká n rozdělení velmi podobné rozdělení N(0, 1). Jinými slovy, rozdělení Bi(n, p) je velice blízké rozdělení N(np, np(1 − p)) pro velká n. To je obsahem tzv. Laplaceovy–Moivreovy věty. To jsme už viděli minule na obrázcích: Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Pro hodnoty Bi(5000, 0.5) je výsledek vidět na obrázku níže. Druhá křivka na obrázku je grafem funkce f (x) = e−x2/2. Aproximace binomického rozdělení normálním se často považuje v praxi za dostatečnou, jestliže np(1 − p) > 9 Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Při praktických průzkumech zpravidla věříme „zákonu velkých čísel“. Potřebujeme přitom rozhodnout, jak velký vzorek už postačuje. Typickým příkladem je např. tato úloha: Chceme zjistit poměr p osob s danou krevní skupinou A v populaci. U kolika osob je třeba krevní skupinu skutečně zjistit, abychom měli 90% pravděpodobnost, že naše zjištění se nebude lišit o více než 5%. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Při praktických průzkumech zpravidla věříme „zákonu velkých čísel“. Potřebujeme přitom rozhodnout, jak velký vzorek už postačuje. Typickým příkladem je např. tato úloha: Chceme zjistit poměr p osob s danou krevní skupinou A v populaci. U kolika osob je třeba krevní skupinu skutečně zjistit, abychom měli 90% pravděpodobnost, že naše zjištění se nebude lišit o více než 5%. Propočítáním zjistíme, že (nezávisle na p) vždy stačí odhadnout p = X/n, kde X je náhodná veličina udávající počet osob majících požadovanou skupinu, pro vzorek 270 lidí. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Plán přednášky 1 Literatura 2 Centrální limitní věta 3 Co potkáme 4 Matematická statistika 5 Výběry z populací 6 Intervaly spolehlivosti Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Rozdělení χ2 Ve statistice budeme pracovat s charakteristikami náhodných vektorů, které budou obdobné výběrovému průměru a rozptylu, ale také s relativními poměry takových charakteristik atd. Podíváme se teď na několik takových případů. Uvažme Z ∼ N(0, 1) a spočtěme hustotu fY (x) pro Y = Z2. Evidentě je fY (x) = 0 pro x ≤ 0, pro kladná x FY (x) = P(Y < x) = P(− √ x < Z < √ x) = √ x − √ x 1 √ 2π e−z2/2 dz = x 0 1 √ 2π t−1/2 e−t/2 dt. Hustotu dostaneme derivací fY (x) = d dx FY (x) = 1 √ 2π x−1/2 e−x/2 . Tomuto rozdělení se říká χ2 s jedním stupněm volnosti, píšeme Y ∼ χ2. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Gama rozdělení Y ∼ Γ(a, b) Výběrový rozptyl bude odpovídat součtům takovýchto nezávislých veličin. Uvažme hustotu (trochu obecnějšího tvaru než u χ2) fX (x) = cxa−1 e−bx pro x > 0, zatímco fX (x) = 0 pro nekladná x (χ2 odpovídá volbě a = b = 1/2). Je třeba volit c = ba Γ(a) a jde o rozdělení Γ(a, b). Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti k-tý moment takové veličiny X je E Xk = ∞ 0 xk ba Γ(a) xa−1 e−bx dx = Γ(a + k) Γ(a)br ∞ 0 ba+k Γ(a + k) xa−1+k e−bx dx = Γ(a + k) Γ(a)bk (protože integrál z hustoty rozdělení Γ(a + k, b) v posledním upravovaném výrazu je nutně roven jedné) Zejména tedy vidíme, že E X = Γ(a+1) bΓ(a) = a b , zatímco var X = E X2 − (E X)2 = Γ(a + 2) b2Γ(a) − a2 b2 = (a + 1)a − a2 b2 = a b2 . Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Momentová vytvořující funkci pro všechny hodnoty −b < t < b je MX (t) = ∞ 0 etx ba Γ(a) xa−1 e−bx dx = ba (b − t)a ∞ 0 (b − t)a Γ(a) xa−1 e−(b−t)x dx = ba (b − t)a . Pro součet nezávislých rozdělení Y = X1 + · · · + Xn s rozděleními Xi ∼ Γ(ai , b) tedy okamžitě dostáváme momentovou vytvořující funkci (pro hodnoty |t| < b) MY (t) = b b − t a1+···+an , tj. Y ∼ Γ(a1 + · · · + an, b). (Velmi podstatný je přitom předpoklad, že všechna gamma rozdělení sdílí stejnou hodnotu b). Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti rozdělení χ2 Jako okamžitý důsledek nyní dostáváme hustotu rozdělení veličiny Y = Z2 1 + · · · + Z2 n , kde všechna Zi ∼ N(0, 1). Jde totiž o gamma rozdělení Y ∼ Γ(n/2, 1/2) a má hustotu fY (x) = 1 2n/2Γ(n/2) xn/2−1 e−x/2 . Tomuto speciálnímu případu gamma rozdělení říkáme rozdělení χ2 s n stupni volnosti. Značíme jej zpravidla Y ∼ χ2 n. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti F-rozdělení Při prorovnání výběrových rozptylů potkáme veličiny, které jsou dány podílem U = X/k Y /m X ∼ χ2 k a Y ∼ χ2 m. Náhodná veličina U = X/k Y /m má hustotu fU(u) fU(u) = Γ((k + m)/2) Γ(k/2)Γ(m/2) k m k/2 uk/2−1 1 + k m u −(k+m)/2 . Takovému rozdělení se říká Fisherovo-Snedecorovo rozdělení s k a m stupni volnosti, zkráceně také F-rozdělení. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti t-rozdělení Další potřebné rozdělení se objevuje při zkoumání podílu veličin Z ∼ N(0, 1) a X/n, kde X ∼ χ2 n (tj. zajímá nás poměr Z a směrodatné odchylky nějakého výběru). Dostaneme náhodnou veličinu T = Z X/n a hustotou fT (t) fT (t) = Γ((n + 1)/2) Γ(n/2) √ nπ 1 + t2 n −(n+1)/2 . Tomuto rozdělení říkáme Studentovo t-rozdělení s n stupni volnosti. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Plán přednášky 1 Literatura 2 Centrální limitní věta 3 Co potkáme 4 Matematická statistika 5 Výběry z populací 6 Intervaly spolehlivosti Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti matematická statistika Zkoumáme statistiky u nějakého výběru z daného základního souboru (populace). Matematická statistika se snaží postihnout, do jaké míry jsou zjištěné výsledky relevantní pro celou populaci, případně se ze zjištěných dat pokouší zjistit nebo upřesnit vhodný teoretický model pro chování celého souboru (a z něj pak třeba odhadovat pravděpodobnost nějakého budoucího jevu). Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti matematická statistika Zkoumáme statistiky u nějakého výběru z daného základního souboru (populace). Matematická statistika se snaží postihnout, do jaké míry jsou zjištěné výsledky relevantní pro celou populaci, případně se ze zjištěných dat pokouší zjistit nebo upřesnit vhodný teoretický model pro chování celého souboru (a z něj pak třeba odhadovat pravděpodobnost nějakého budoucího jevu). Dva základní přístupy: frekvenční statistika (nebo také klasická statistika) bayesovská statistika. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti frekvenční přístup Vychází z matematické abstrakce, že skutečné pravděpodobnosti jsou dány četnostmi výskytů jevů v tak velkých vzorcích dat, že je můžeme dobře aproximovat nekonečnými modely a využít pro odhady spolehlivosti centrální limitní věty. Statistik zde na pravděpodobnost pohlíží jako na idealizaci relativní četnosti případů, v nichž se vyskytne určitý výsledek při opakovaných pokusech. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti frekvenční přístup Vychází z matematické abstrakce, že skutečné pravděpodobnosti jsou dány četnostmi výskytů jevů v tak velkých vzorcích dat, že je můžeme dobře aproximovat nekonečnými modely a využít pro odhady spolehlivosti centrální limitní věty. Statistik zde na pravděpodobnost pohlíží jako na idealizaci relativní četnosti případů, v nichž se vyskytne určitý výsledek při opakovaných pokusech. Tato zdánlivá výhoda/rigoróznost se může ale rychle stát nevýhodou, jakmile se začneme zabývat spolehlivostí samotných dat a vhodností zvoleného experimentu. Stejně tak je obtížné frekvenční statistiku dobře použít pro odhad pravděpodobnosti výskytu jednorázového děje. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Bayesovský přístup Tento přístup můžeme brát jako příklad matematizace „selského rozumu“. Vstupujeme do procesu s jistým původním přesvědčením, které jsme připraveni postupně pozměňovat ve světle nových dat. Jako vstupní předpoklad máme nějaké rozdělení pravděpodobnosti pro odhadovaných parametr, samotná data považujeme za konstanty, které hrají roli hypotézy v podmíněné pravděpodobnosti výsledkem je upřesnění rozdělení pravděpodobnosti zkoumaného parametru. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Bayesovský přístup Tento přístup můžeme brát jako příklad matematizace „selského rozumu“. Vstupujeme do procesu s jistým původním přesvědčením, které jsme připraveni postupně pozměňovat ve světle nových dat. Jako vstupní předpoklad máme nějaké rozdělení pravděpodobnosti pro odhadovaných parametr, samotná data považujeme za konstanty, které hrají roli hypotézy v podmíněné pravděpodobnosti výsledkem je upřesnění rozdělení pravděpodobnosti zkoumaného parametru. Je zajímavé, že historicky byl zjevně první bayesovský přístup (např. Laplace a další již v 18. století), který byl prakticky zcela vystřídán frekvenční statistikou ve 20. století. V posledních desetiletích se však ale bayesovská statistika vrátila, společně s dalšími novými přístupy, do popředí zájmu. My se jí ale v tomtokurzu nebudeme zabývat. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Plán přednášky 1 Literatura 2 Centrální limitní věta 3 Co potkáme 4 Matematická statistika 5 Výběry z populací 6 Intervaly spolehlivosti Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Máme k dispozici (velký) základní statistický soubor s N jednotkami, který nazýváme populace, a zároveň nějaký číselný znak pro každou z jednotek, tj. soubor hodnot (x1, . . . , xN). Z něj ovšem máme k dispozici pouze výběrový soubor s hodnotami (X1, . . . , Xn). Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Máme k dispozici (velký) základní statistický soubor s N jednotkami, který nazýváme populace, a zároveň nějaký číselný znak pro každou z jednotek, tj. soubor hodnot (x1, . . . , xN). Z něj ovšem máme k dispozici pouze výběrový soubor s hodnotami (X1, . . . , Xn). Abychom se vyhnuli diskusi skutečné velikosti základního statistického souboru s N jednotkami, budeme předpokládat, že vybíráme položky výběrového souboru jednu po druhé a každou vybranou jednotku poté do populace vracíme. Zároveň předpokládáme, že každá položka má stejnou pravděpodbnost výběru 1/N. Hovoříme pak o náhodném výběru. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Pracujeme tedy s vektorem (X1, . . . , Xn) nezávislých náhodných veličin a všechny tyto veličiny mají stejné rozdělení pravděpodobnosti. Zejména tedy budou sdílet distribuční funkci FX (x) a momenty E Xi = µ, var Xi = σ2 . Dalším naším krokem musí být odvození charakteristik výběrového průměru ¯X a výběrového rozptylu S2 = 1 n − 1 n i=1 (Xi − ¯X)2 , přičemž následující věta dává hned zdůvodnění, proč volíme koeficient 1 n−1 místo 1 n . Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Theorem Pro výběrový průměr ¯X spočítaný z náhodného výběru rozsahu n z rozdělení s konečnou střední hodnotou µ a konečným rozptylem σ2 platí E ¯X = µ, var ¯X = 1 n σ2 . Pro výběrový rozptyl S2 platí E S2 = σ2 . Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Theorem Pro výběrový průměr ¯X spočítaný z náhodného výběru rozsahu n z rozdělení s konečnou střední hodnotou µ a konečným rozptylem σ2 platí E ¯X = µ, var ¯X = 1 n σ2 . Pro výběrový rozptyl S2 platí E S2 = σ2 . Naším úkolem je odhadovat charakteristiky, jako jsou průměr µ hodnot znaku ¯x nebo jejich rozptyl σ2 pro celou populaci pomocí obdobných charakteristik pro náš daleko menší výběr, které budeme značit pomocí velkých písmen, např. ¯X, S2. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Zde vstupuje do hry pravděpodobnost – budeme chtít znát pravděpodobnost přiblížení hodnot pro náš výběr těm pro celou populaci. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Zde vstupuje do hry pravděpodobnost – budeme chtít znát pravděpodobnost přiblížení hodnot pro náš výběr těm pro celou populaci. Říkáme, že ¯X je nestranným odhadem střední hodnoty znaku pro populaci, zatímco výběrový rozptyl je nestranným odhadem rozptylu. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Zde vstupuje do hry pravděpodobnost – budeme chtít znát pravděpodobnost přiblížení hodnot pro náš výběr těm pro celou populaci. Říkáme, že ¯X je nestranným odhadem střední hodnoty znaku pro populaci, zatímco výběrový rozptyl je nestranným odhadem rozptylu. V případě, že bychom realizovali výběr z populace bez vracení, bude výběrový průměr stále nestranným odhadem střední hodnoty, výběrový rozptyl ale již ne (vyskočí tam faktor (N − 1)/N). Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti V praktických úlohách je třeba znát nejen číselné charakteristiky výběrového průměru a rozptylu, ale jejich úplné rozdělení pravděpodobnosti. To můžeme samozřejmě odvodit, pouze známe-li konkrétní rozdělení pravděpodobnosti Xi . Jako užitečnou ilustraci se podíváme na náhodný výběr z normálního rozdělení. Výběrový průměr bude mít normální rozdělení a protože již známe jeho střední hodnotu a rozptyl, bude ¯X ∼ N(µ, 1 n σ2). O něco složitější je to s odvozením rozdělení pravděpodobnosti výběrového rozptylu. Uvažme vektor Z normovaných normálních veličin Zi = Xi − µ σ . Theorem Je-li (X1, . . . , Xn) náhodný výběr z rozdělení N(µ, σ2), pak jsou ¯X a S2 nezávislé veličiny a platí ¯X ∼ N(µ, 1 n σ2 ), n − 1 σ2 S2 ∼ χ2 n−1 . Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Okamžitým důsledkem je, že normalizovaný výběrový průměr T = √ n ¯X − µ S má studentovo t-rozdělení pravděpodobnosti s n − 1 stupni volnosti. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Plán přednášky 1 Literatura 2 Centrální limitní věta 3 Co potkáme 4 Matematická statistika 5 Výběry z populací 6 Intervaly spolehlivosti Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Velmi častou úlohou je pro spočtenou hodnotu ¯X výběrového průměru určit interval, ve kterém se skutečná hodnota průměru veličiny pro celou populaci nachází s předem danou (vysokou) pravděpodobností. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Velmi častou úlohou je pro spočtenou hodnotu ¯X výběrového průměru určit interval, ve kterém se skutečná hodnota průměru veličiny pro celou populaci nachází s předem danou (vysokou) pravděpodobností. Pro náhodnou veličinu X s normálním rozdělením máme její normovanou veličinu Z = X−E X√ var X . Normovaný výběrový průměr n veličin X ∼ N(0, 1) je ¯X−µ√ σ2/n a chceme najít takovýto interval pro pravděpodobnost 1 − α, α ∈ (0, 1). Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Velmi častou úlohou je pro spočtenou hodnotu ¯X výběrového průměru určit interval, ve kterém se skutečná hodnota průměru veličiny pro celou populaci nachází s předem danou (vysokou) pravděpodobností. Pro náhodnou veličinu X s normálním rozdělením máme její normovanou veličinu Z = X−E X√ var X . Normovaný výběrový průměr n veličin X ∼ N(0, 1) je ¯X−µ√ σ2/n a chceme najít takovýto interval pro pravděpodobnost 1 − α, α ∈ (0, 1). Potřebujeme tedy znát hodnotu z(α) takovou, že P(Z > z(α)) = α. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Velmi častou úlohou je pro spočtenou hodnotu ¯X výběrového průměru určit interval, ve kterém se skutečná hodnota průměru veličiny pro celou populaci nachází s předem danou (vysokou) pravděpodobností. Pro náhodnou veličinu X s normálním rozdělením máme její normovanou veličinu Z = X−E X√ var X . Normovaný výběrový průměr n veličin X ∼ N(0, 1) je ¯X−µ√ σ2/n a chceme najít takovýto interval pro pravděpodobnost 1 − α, α ∈ (0, 1). Potřebujeme tedy znát hodnotu z(α) takovou, že P(Z > z(α)) = α. Je-li F(x) spojitá rostoucí distribuční funkce naší veličiny, pak zjevně z(α) = F−1(1 − α). Pro normální rozdělení splňuje distribuční funkce Φ tento požadavek. Takto definovaným hodnotám z(α) se říká kritické hodnoty. Protože je hustota pro normální rozdělení symetrická kolem jeho střední hodnoty, dostáváme 1 − α = P(|Z| < z(α/2)). Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti 1 − α = P ¯X − µ σ2/n < z(α/2) = P ¯X − σ √ n z(α/2) < µ < ¯X + σ √ n z(α/2) což je interval s náhodnými konci, který s námi určenou pravděpodobností pokrývá neznámý parametr µ. V kontextu takových úloh hovoříme o intervalu spolehlivosti s koeficientem spolehlivosti 1 − α. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti 1 − α = P ¯X − µ σ2/n < z(α/2) = P ¯X − σ √ n z(α/2) < µ < ¯X + σ √ n z(α/2) což je interval s náhodnými konci, který s námi určenou pravděpodobností pokrývá neznámý parametr µ. V kontextu takových úloh hovoříme o intervalu spolehlivosti s koeficientem spolehlivosti 1 − α. Pro normální rozdělení je velice populární kritická hodnota z(0, 025) = 1, 96, která odpovídá naší úloze se zvolenou pravděpodobností 95%. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti 1 − α = P ¯X − µ σ2/n < z(α/2) = P ¯X − σ √ n z(α/2) < µ < ¯X + σ √ n z(α/2) což je interval s náhodnými konci, který s námi určenou pravděpodobností pokrývá neznámý parametr µ. V kontextu takových úloh hovoříme o intervalu spolehlivosti s koeficientem spolehlivosti 1 − α. Pro normální rozdělení je velice populární kritická hodnota z(0, 025) = 1, 96, která odpovídá naší úloze se zvolenou pravděpodobností 95%. Kritické hodnoty jsou dány pomocí tzv. kvantilové funkce F−1 (u) = inf{x ∈ R; F(x) ≥ u}, 0 < u < 1. Kvantilová funkce skutečně dává přímo příslušné kvantily, např. F−1(0, 5) je medián, atd. Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Example Před deseti lety byl uskutečněn rozsáhlý výzkum výšky desetiletých chlapců a zjistilo se, že střední výška byla µ0 = 136, 1cm se směrodatnou odchylkou σ = 6, 4cm. Nyní byly na náhodném výběru 15 desetiletých chlapců zjištěny následující výšky: 130, 140, 136, 141, 139, 133, 149, 151, 139, 136, 138, 142, 127, 139, 147. Je známo, že variabilita výšek v populaci se mění velice pomalu, zatímco výšky se mohou měnit rychle. Otázka: došlo ke změně střední výšky populace desetiletých chlapců? Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Example Před deseti lety byl uskutečněn rozsáhlý výzkum výšky desetiletých chlapců a zjistilo se, že střední výška byla µ0 = 136, 1cm se směrodatnou odchylkou σ = 6, 4cm. Nyní byly na náhodném výběru 15 desetiletých chlapců zjištěny následující výšky: 130, 140, 136, 141, 139, 133, 149, 151, 139, 136, 138, 142, 127, 139, 147. Je známo, že variabilita výšek v populaci se mění velice pomalu, zatímco výšky se mohou měnit rychle. Otázka: došlo ke změně střední výšky populace desetiletých chlapců? Ze zadání předpokládáme, že výběr 15 hodnot je z normálního rozdělení se známým rozptylem σ2 a otázku si upřesníme tak, že hledáme v jakém intervalu je nyní střední hodnota výšky populace se spolehlivostí 95% : Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Example Před deseti lety byl uskutečněn rozsáhlý výzkum výšky desetiletých chlapců a zjistilo se, že střední výška byla µ0 = 136, 1cm se směrodatnou odchylkou σ = 6, 4cm. Nyní byly na náhodném výběru 15 desetiletých chlapců zjištěny následující výšky: 130, 140, 136, 141, 139, 133, 149, 151, 139, 136, 138, 142, 127, 139, 147. Je známo, že variabilita výšek v populaci se mění velice pomalu, zatímco výšky se mohou měnit rychle. Otázka: došlo ke změně střední výšky populace desetiletých chlapců? Ze zadání předpokládáme, že výběr 15 hodnot je z normálního rozdělení se známým rozptylem σ2 a otázku si upřesníme tak, že hledáme v jakém intervalu je nyní střední hodnota výšky populace se spolehlivostí 95% : ¯x = 139, 133 a tedy interval spolehlivosti je (139, 133 − (6, 4/ √ 15)1, 96, 139, 133 + (6, 4/ √ 15)1, 96) = (135, 9, 142, 4). Literatura Centrální limitní věta Co potkáme Matematická statistika Výběry z populací Intervaly spolehlivosti Example Před deseti lety byl uskutečněn rozsáhlý výzkum výšky desetiletých chlapců a zjistilo se, že střední výška byla µ0 = 136, 1cm se směrodatnou odchylkou σ = 6, 4cm. Nyní byly na náhodném výběru 15 desetiletých chlapců zjištěny následující výšky: 130, 140, 136, 141, 139, 133, 149, 151, 139, 136, 138, 142, 127, 139, 147. Je známo, že variabilita výšek v populaci se mění velice pomalu, zatímco výšky se mohou měnit rychle. Otázka: došlo ke změně střední výšky populace desetiletých chlapců? Ze zadání předpokládáme, že výběr 15 hodnot je z normálního rozdělení se známým rozptylem σ2 a otázku si upřesníme tak, že hledáme v jakém intervalu je nyní střední hodnota výšky populace se spolehlivostí 95% : ¯x = 139, 133 a tedy interval spolehlivosti je (139, 133 − (6, 4/ √ 15)1, 96, 139, 133 + (6, 4/ √ 15)1, 96) = (135, 9, 142, 4). Protože tento interval pokrývá i populační průměr před deseti lety, nemůžeme na této hladině spolehlivosti tvrdit, že se populační výška změnila.