MVOll Statistika I 6. Transformace náhodné veličiny Jan Koláček (kolacek@math.muni.cz) Ústav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) MVOll Statistika I Motivační příklad Do výroby pracovních nástrojů vstupuje tyč délky Xcm. Ta je dále strojově opracována tak, že se její délka zdvojnásobí a je přišroubována k dalšímu dílu délky 10cm. Jaká bude celková délka pracovního nástroje? Zápis: X~/x, Y = 2X + 10 Y ~?, víme E(Y) = E(2X + 10) = 2E(X)+10 např. X~N(50,1), Y = 2X + 10^Y-?; E(Y) =2-50 + 10 = 110, D(Y) = 22 • D(X) = 4 Další otázky: Z ...délka druhého dílu, tj. X~fx, Z~fz, Y = 2X + Z, Y ~? A ... koeficient prodloužení tyče, tj. X ~/x, Z ~/z, A ~/^, Y = AX + Z Obecně: X ~/x/ Y = fc(X) /y =? nebo X = (Xi.....X„)' ~/x, Y = fc(X) /Y =? Jan Koláček (PřF MU) MV011 Statistika I 2/33 Obecná transformace Věta 1 Nechi X ~/x(x) a transformace y = h(x) je vzájemně jednoznačná (prostá a na), tj. když existuje derivace ^jh^1(y) a je spojitá. Pak platí fy(y)=fx(h-\y) dh-\y) (l) Příklad 2 (Lognormální rozdělení, Log rial distribution) Náhodná veličina X ~ N(0,1). Vypočtěte hustotu náhodné veličiny Y X~N(0,1) ^fx(x) = ^e-T, xgR y => x = ln(y)/ V > 0; derivace: — ^ ^ln(y) dy dy 1 y fr(y)=fx{h-\y)) dh-\y) dy V2n Jan Koláček (PřF MU) MV011 Statistika I 3/ Lineární transformace Příklad 3 (Lineární transformace) Necht náhodná veličina X je absolutně spojitá s hustotou fx(x). Nalezněte hustotu transformované náhodné veličiny Y = a + bX, kdea,b eK,b^ 0. Dva způsoby řešení: Dosazení do vzorce (1) K transformaci y = a + bx existuje inverzní transformace h 1(y) \, takže y-a která , i ■ ■ dh 1(y) i ma derivaci -— — - dy fr(y)=fx(h-1(y) dy fx y-a Jan Koláček (PřF MU) MV011 Statistika I 4/33 Lineární transformace Výpočet přes distribuční funkci My) = P(y < y) = P(a + bX0 P X > y-a \ _ — b 1-Fx y-a pro b < 0 Hustotu pak dostaneme jako derivaci distribuční funkce My) = dy F' y-a\ l _ X \ b = < —F> X y-a b 1 b 1 b /X(^)I Profc>0 x y-a\ 1 Jan Koláček (PřF MU) MV011 Statistika I 5/ Lineární transformace Věta 2 (Lineární transformace normálního rozdělení) Mějme náhodnou veličinu s normálním rozdělením X ~ N(/i,(72). Dále necht a, b £ R, b 7^ 0 jsou reálne konstanty. Potom náhodná veličina, která je lineárni transformací původní, má opět normální rozdělení, a to Y = u + bX ~ Nia + bfrlro2). Speciálně náhodná veličina U= ^—^ ~N(0,1) cr má standardizované normální rozdělení Jan Koláček (PřF MU) MV011 Statistika I 6/33 Příklad Příklad 4 (Standardizace normálního rozdělení) Při prodeji vánočních kaprů má hmotnost kapra v jedné z kádí přibližně normální rozdělení s parametry jí = 2,3 a cr2 = 0,32. a) Jaký podíl kaprů přesáhne svou hmotností2,6kg? b) Jaký podíl kaprů má hmotnost mezi 2,1 kg a 2,6 kg? c) Jak volit hmotnostní hranici, aby podíl kaprů přesahujících tuto hranici byl 10%?_ X .. . hmotnost kapra X ~ JV(2,3;0,32) a) Jaký podíl kaprů přesáhne svou hmotností 2,6 kg' P(X>2,6) = 1-P(X<2,6) = 1-P^ X-}i 2,6-2,3 cr ~ 03 = 1-P(U< 1) = 1-(1) = 1-0,84= 0,16 Jan Koláček (PřF MU) MV011 Statistika I 7/33 Příklad b) Jaký podíl kaprů má hmotnost mezi 2,1 kg a 2,6 kg? v ~ ' \ 0,3 cr - 0,3 = P| -| < U< 1 | = A = O(l) -0(-2/3) = O(l) - (1 -0(2/3)) = 0,84 + 0,74-1 = 0,58 c) Jak volit hmotnostní hranici, aby podíl kaprů přesahujících tuto hranici byl 10 %? ÍX-u c-2,3\ ŕ c-2,3 0,1 =P{X>c) = 1-P(-t<-—L. = !-' a ~ 0,3 ) \ 0,3 C ~+ =u0,9 = 1,28 c = 0,3 -1,28 + 2,3 = 2,684 Jan Koláček (PřF MU) MV011 Statistika I 8/33 Střední hodnota transformované n. v. Necht h(x) je borelovská funkce. Potom střední hodnota transformované náhodné veličiny Y = h(X) existuje právě když existuje a je konečný integrál ► Necht X ~ (M,p) je diskrétního typu, pak platí Y £ C\{Cí,A,P) ^> Yj h(x)p(x) absolutně konverguje. V tomto případě xeM EY = Eh(X) = E h(x)p(x) xeM Necht X r>u f(x) je absolutně spojitého typu. Potom EY existuje právě když je funkce h(x)f(x) integrovatelná vzhledem k Lebesgueově míře a přitom platí 00 / h(x)f(x)dx, tj. EY = Eh(X) g Ci(Cí,A,P) 4» h(x)f(x) je integrovatelná vzhledem k Lebesgueově míře. Př. Y = X2 EY = EX2 = J x2f{x)dx nebo EY = EX2 = £x2p(x) Jan Koláček (PřF MU) MV011 Statistika I 9/33 Příklad Příklad 5 Náhodná veličina X má binomické rozdělení X ~ Bi(n,6). Vypočtěte střední hodnotu náhodné veličiny Y = e . ľl EY = E(e2X) = E e2x ( n ) 0*(1 - e)n~x binom. věta ŕn ? , -i U ' de + 1 — 9 n—x Jan Koláček (PřF MU) MV011 Statistika I 10 / 33 Momentová vytvořující funkce Definice 4 Nechť X je náhodná veličina definovaná na {Cí,A,P). Pak funkce m : R —>> R daná vztahem m{t) = Eetx , t g R, se nazývá momentovou vytvořující funkcí náhodné veličiny X (moment-generating function). Definice 5 Nechť X je náhodná veličina definovaná na {Cí,A,P). Pak funkce ip : R —>> C daná vztahem ip(t) = Eeitx , ř g R, se nazývá charakteristickou funkcí náhodné veličiny X (characteristic function). Tj. ip(t) = m{ii) . Za předpokladu, že existují příslušné momenty náhodné veličiny X, tak existují i příslušné derivace momentové vytvořující funkce a platí mW(0) =EXk. Jan Koláček (PřF MU) MV011 Statistika I 11 / 33 Náhodná veličina X má binomické rozdělení X ~ Bi(n,9). Vypočtěte střední hodnotu náhodné veličiny X pomoci momentové vytvořující funkce. Z Příkladu 5 máme m(ŕ) = (0é + l -e)n. Podle předchozí věty je EX = m7(0). Derivujeme m'{ť) =n(6et+ l-6)n~1 6eK Takže EX = mf(0) = n Í6e0 + 1 - oY 9e° = n0. Příklad Náhodná veličina X má geometrické rozděleníX ~ Ge{Q). Vypočtěte střední hodnotu náhodné veličiny X. Pravděpodobnostní funkce geometrického rozdělení je tvaru p(x) (i-eye x = 0,1,2,..., e e (0,1) o jinak Z definice 00 00 EX = £ xp(x) = £ x(l - 0)x0 = ...? (viz tabule) x=0 x=0 Momentová vytvořující funkce 00 00 m(ř) = E " = 0Eiet(1- d)]X = T—m x=0 x=0 1 e 11 -é{i-e) Jan Koláček (PřF MU) MV011 Statistika I 13 / 33 Příklad Derivujeme Takže m'(t) = eil-e)é {> {i-é{i-e))2 EX = m'(0) = 1-6 9 Jan Koláček (PřF MU) MV011 Statistika I 14 Transformace náhodného vektoru Obecně: Y = h(Xv...,Xn) => Y ~? Konkrétně: Y = X1 + X2 Y ~? Věta 7 Jestliže náhodné veličiny spojitého typu X\ ~ /Xl a X2 ~ /x2 jsou nezávislé, pa/c náhodná veličina Y = X\ + Xi má hustotu 00 00 fr(y) = í fx^y - x2)fx2{x2)dx2 = J fx1{xi)fx2{y - x^dxx -00 -00 Hustotu fy (y) potom nazýváme konvolucí fconvolutionj hustot fx1 äfx2 a značíme fY(y) =fXl */x2 - Jan Koláček (PřF MU) MV011 Statistika I 15 / 33 Transformace normálního rozdělení Definice 8 (,\ rozdělení, Chi-square distribution) Řekneme, že náhodná veličina X má x rozdělení s v > 0 stupni volnosti, pokud její hustota má tvar fx(x) = 2zr(£) 0 ^-1 --x x>0 x < 0 a budeme psát 0 10 20 30 40 50 60 70 Jan Koláček (PřF MU) MV011 Statistika I 16 / 33 Transformace normálního rozdělení Věta 9 (Součet n nezávislých x veličin) Necht ..., Un jsou nezávislé náhodné veličiny se standardizovaným normálním rozdělením, t.j. Líz-^ N(0,1) pro i = l,...,n. Pak náhodná veličina K=f^UJ~X2(n) i=l má x2 rozdělení o n stupních volnosti. Jan Koláček (PřF MU) MV011 Statistika I 17 / 33 Transformace normálního rozdělení Definice 10 (Studentovo rozdělení, Student's distribution) Řekneme, že náhodná veličina X má Studentovo t rozdělení o v > 0 stupních volnosti, pokud její hustota je tvaru fx(x) = ľ v+1 r(í)r(*) v 1 2 V+1 f+ 1 pro x g R Pak píšeme X - t (v) Student „Posílám Vám kopii Studentových je kdy použije." William Sealy Gosset (13.6.1876 -16.10.1937) vystudoval Winchester College a poté matematiku a chemii na New College v Oxfordu hlavní sládek v pivovaru Arthur Guinness & Son v Dublinu zkoumal možnosti, jak statisticky testovat kvalitu surovin - zejména ječmene a chmele 1906 - 1907 pracoval v laboratoři K. Pear-sona vypracoval vlastní r-test pro malou velikost statistického souboru nesměl publikovat pod vlastním jménem, používal pseudonym Student tabulek, protože jste zřejmě jediný člověk, který W. Gosset v dopise R. A. Fisherovi Jan Koláček (PřF MU) MV011 Statistika I 19 / 33 Transformace normálního rozdělení Věta 11 (Podíl standardizovaného normálního a x2) Necht náhodné veličiny u ~ N(0,1) a k ~ X2(v) jsou nezávislé. Pak náhodná veličina u T ._ - t (v) Vk/v má Studentovo t-rozdělení o v stupních volnosti. Jan Koláček (PřF MU) MV011 Statistika I 20 / 33 Transformace normálního rozdělení Definice 12 (Fisherovo-Snedecorovo F rozdělení) Řekneme, že náhodná veličina X má Fisherovo-Snedecorovo F rozdělení o v\ > 0 a 1/2 > 0 stupních volnosti, pokud její hustota je tvaru fx(x) v\ +V2 2 r(£TO) o v2 "1 y2 y>0, y<0. Pak píšeme X ~ F(v1,v2) ■ -1 -0.5 0.5 1 1.5 Jan Koláček (PřF MU) MV011 Statistika I 21 / 33 Transformace normálního rozdělení Věta 13 (Podíl dvou nezávislých x2) Necht K\ a K2 jsou nezávislé náhodné veličiny a i = 1,2. Pak náhodná veličina F = ~ F(t/i,V2) rni Fisherovo-Snedecorovo F rozdělení ov\ a V2 stupních volnosti. Jan Koláček (PřF MU) MV011 Statistika I 22 / 33 Motivační příklad Necht náhodná veličina X\ značí výsledek hodu kostkou. Popište rozdělení této veličiny. Necht X2 značí výsledek hodu druhou kostkou. Popište rozdělení veličiny X\ +X2 Dále popište rozdělení veličiny X\ + X2 + X3. Xi 3 4 p(x) 1 1 6 6 l 6 1 6 1 1 6 6 Xi + X2 2 3 4 5 6 7 8 9 10 11 12 p(x) l 62 2 3 4 62 62 62 5 62 6 62 5 4 62 62 3 62 2 62 l 62 Xi + X2 + X3 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 3 6 lo 15 21 25 27 27 25 21 15 lo 6 3 1 63 63 63 63 63 63 63 63 63 63 63 63 63 63 63 63 Jan Koláček (PřF MU) MV011 Statistika I 23 / 33 n = 1 0.18 0.16 0.14 0.12 0.10 0.0B 0.05 0.04 0.02 0.00 ÍJ 123456 pW 0.18 0.15 0.14 0.12 0.10 0.08 0.05 0.04 0.02 0.00 0.18 0.16 0.14 0.12 0.10 0.08 0.05 0.04 0.02 0.00 n = 2 7 12 n = 3 - 1 ' 6 1 1 ll |. II II 1/3 n i n mi \rm m\ \m hi in iiiiiiiiiip i. PM 0.18 0.16 0.14 0.12 0.10 0.08 0.05 0.04 0.02 0.00 n = A 73 / 648 w] \ n ■ II IIH ■ n PM-0.18 0.16-0.14-0.12-0.10-0.08-0.05 0.04-0.02-0.00- 14 n = 5 24 65/648 ll. 17J.8 30k 10,11 18£ Jan Koláček (PřF MU) MV011 Statistika I 24 / 33 Centrální limitní věta Značení 1 n n r 1 1=1 Věta 14 (Lindebergova-Lévyho CLV, Central Limit Theorem) Necht {Xn}™=1 je posloupnost nezávislých náhodných veličin se stejným rozdělením se střední hodnotou ]i a nenulovým rozptylem o2. Potom náhodné veličiny (Xn -y)\fň U y = cr mají asymptoticky standardizované normální rozdělení N(0,1), což budeme značit Ife ~ N(0,l). Jan Koláček (PřF MU) MV011 Statistika I 25 / 33 Centrální limitní věta Příklad 9 Zatížení letadla s 64 místy nemá překročit 6000 kg. Jaká je pravděpodobnost, že při plném obsazení bude tato hodnota překročena, má-li hmotnost cestujícího střední hodnotu 90 kg a směrodatnou odchylku 10 kg? Xj ... hmotnost z-tého cestujícího, E(XZ-) = 90, D(XZ-) = 100, i = 1,.. .,64 Y = Xi + 64 + X64= EX,-, P(Y> 6000) =? CLV Proto n ZXiBiNinEiX&nDiXi)) i=i Ľ X,-n£(Xi) i=l_ N(0,1) x - nf^,r \ - „/Y-64-90 6000-64-90 P(Y > 6000) = 1 - P I J^X; < 6000 I = 1 -P ( -^=- < = 1 - 0(3) = 1 - 0,9985 = 0,0015 V64 • 100 V64 • 100 Jan Koláček (PřF MU) MV011 Statistika I 26 / 33 Centrální limitní věta Příklad 10 Předpokládejme, že žák má při písemce stejnou šanci dostat kteroukoli ze známek 1-5. Jaká je pravděpodobnost, že průměr známek ve třídě se 40 žáky bude lepší než 2,5 ? Xi ... známka i-tého žáka, E(Xť) = 1(1+ 2 + 3 + 4 +5) = 3, D(Xf) = ±(22 + l + 0 + l+22) =2, i = 1,...,40 Y=i EX,-, P(Y< 2,5) =? i=i CLV Proto n EXi^N(nE(Xi),nD(Xi)) z=l 1 n n Ľ X,-E(Xř) V n N(0,1) P(Y < 2,5) =P I ^-=2 < 2,5 3 2_ 40 2_ 40 <Í>(-V5 = 1 - (VŠ) = 1 - 0,98713 = 0,013 Jan Koláček (PřF MU) MV011 Statistika I 27 / 33 Centrální limitní věta Věta 15 (Integrální věta Moivre-Laplaceova) Necht náhodná veličina Yn udává počet úspěchů v posloupnosti délky n nezávislých alternativních pokusů s pravděpodobností úspěchu 9. Pak náhodné veličiny Yn-nd A N(0,1). Jan Koláček (PřF MU) MV011 Statistika I 28 / 33 Příklad Příklad 11 (Anketa) Při anketě rozdáme 160 dotazníků. Pravděpodobnost, že se nám vrátí dotazník vyplněný, je 0,7. Jaká je pravděpodobnost, že se nám vrátí alespoň 100 vyplněných dotazníků? Xj ... z-tý dotazník se vrátí vyplněný, Xz- £ {0,1}, Xz- ~ A(0,7), z = 1,.. .,160 160 počet vyplněných dotazníků ze 160 rozdaných, Y ~ £>z(160;0,7), Y = E z=l E(Y) = 160-0,7 = 112, D(Y) = 160-0,7-0,3 = 33,6 P(Y > 100) = ©0,71000,360 + (lo?)0^ 71010,359 + • • • + (^)0,71600,3° =? Oprava na spojitost a užití CLV: Y — 112 99 5 — 112 P(Y > 100) = P(Y > 99) = P(Y > 99,5) = 1 - P ( _ < ' V'3376 ~ 0(2,0702) = 0,98 Jan Koláček (PřF MU) MV011 Statistika I 29 / 33 Příklad Příklad 12 (Anketa) Kolik lístků musíme v předchozím příkladě rozdat, aby pravděpodobnost, že se jich vrátí minimálně 100 vyplněných byla alespoň 0,99? Yn ... počet vyplněných dotazníků z n rozdaných, Yn ~ £>z(n;0,7) E(Yn) = n-0,7, D(Yn) = n-0,7-0,3 P(Yn > 100) = P(Yn > 99) = P(Yn > 99,5) Řešíme nerovnici 1 -P Yw-«-0,7 y/n- 0,7- 0,3 < P(Y„ > 99,5) > 0,99 99,5-n-0,7 V" - 0,7- 0,3 99,5 -n- 0,7 V«- 0,7- 0,3 > 0,99 < 0,01 99,5-n-0,7 VK1jjm < "0,01 - -«0,99 - "2,326 ^ 0,7 • n - 2,326 • ^ŤX^ň - 99,5 > 0 _ 1,07± 16,72 1,2 - TÄ n > 161,5 Jan Koláček (PřF MU) MV011 Statistika I 30 / 33 Příklad Příklad 13 (Oslava) Kupujeme chlebíčky na oslavu, které se zúčastní 100 lidí. Označíme X, počet snědených chlebíčků i-tého účastníka oslavy a ze zkušenosti víme, že E(X,-) = 3 a D(Xj) = 3. Kolik musíme koupit chlebíčků, aby s pravděpodobností0,95 nedošly? X, ... počet snědených chlebíčků z'-tého účastníka oslavy, E(X{) = 3, D(X,) = 3, /' = 1,..., 100 Y = X1 + -- Hledáme c tak, aby P(Y < c) = 0,95 100 i -i- • • • + Xioo = D X, ... počet všech snědených chlebíčků i=i 0,95 = P(Y < c) „ , Y - 100 • 3 c - 100 • 3 Vwb~3 Vwb~3 = o c-300 V3ÔÔ 300 -s/300 0,95 •-300 = «0,95 = 1,645 ^> c = 300 + 1,645 • VŠÔÔ = 328,49. Jan Koláček (PřF MU) MV011 Statistika I 31 / 33 Příklad Příklad 14 (Pojištovna) Pojišťovna má 1000 klientů stejné věkové skupiny. Pravděpodobnost úmrtí klienta této skupiny v daném roce je 0,01. Každý klient zaplatí pojistné 1200 Kč ročně. Jaká je pravděpodobnost, že pojišťovna nebude mít daném roce zisk, když v případě úmrtí klienta vyplatí jeho rodině 80 000 Kč? ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ Xj ... i-tý klient zemře, X; g {0,1}, Xť ~ A(0,01), i = 1,..., 1000 Y 1000 .. počet úmrtí v daném roce, Y ~ Bi(l 000; 0,01), Y = £Xj i=l E(Y) = 1000 • 0,01 = 10, D(Y) = 1000 • 0,01 • 0,99 = 9,9 Oprava na spojitost a užití CLV: P(80000 • Y > 1000 • 1200) P(Y > 15) = P(Y > 14,5) 14,5-10 =1-P[U< V^9 = 1 -O 4,5 0(1,43) = 0,0763. Jan Koláček (PřF MU) MV011 Statistika I 32 / 33 Příklad Příklad 15 (Síťový disk) Počítačový správce poskytuje 100 uživatelům neomezené místo na sítovém disku. Označme X; počet MB obsazených i-tým uživatelem. Z předchozích zkušeností víme, že EXj = 1200 a DXj = 160 000. Jakou kapacitu musí mít síťový disk, aby byla překročena s pravděpodobností 0,01? X{ ... počet MB obsazených /'-tým uživatelem, EX, = 1200, DX; = 160000. 100 + Xioo = E X,- i=i y = x1 + • Hledáme c tak, aby P(Y < c) = 0,99 obsazené místo na disku 0,99 = P(Y < c) = P ŕ Y -100 -1200 c -100 -1200 V VlOO • 160000 ~ VlOO-160000 = O 120 000 4000 120 000 4000 c - 120 000 0,99 4000 w0/99 = 2,326 => c = 120 000 + 2,326 • 4 000 = 129 304 M Jan Koláček (PřF MU) MV011 Statistika I 33 / 33