MV011 Statistika I 5. Číselné charakteristiky náhodné veličiny Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) MV011 Statistika I Motivační příklad Příklad 1 Uvažujme hru, kde účastník hry roztočí „ kolo štěstí". Každé pole tohoto kola definuje výhru (v Kč), která bude vyplacena hráči v případě, že na toto pole ukazuje šipka po zastavení kola. Za každou hru zaplatí hráč provozovateli 1 Kč. Budeme hrát? Tj. jaká je „očekávaná" výhra? Y .. . zisk z jedné hry, X ... částka, kterou si vytočíme Zřejmě Y = X — 1. / \ 0 / 0 \ 2 /\ / 4 \ \ 2 / \ 0 / 1 \v X 0 12 4 p(x) lili 2 8 4 8 „Očekávaná" výhra EY = EX 1 = 0---hl---1-2---1-4- - 2 8 4 8 1 8 = - = 0,125 > 0. Jan Koláček (PřF MU) MV011 Statistika I 2/38 Střední hodnota Definice 1 Nechť X je náhodná veličina definovaná na {Cí,A,P) a nechť existuje integrál J X(oj) dP(co) < oo. Potom číslo EX = J X(co) dP(co) nazýváme střední hodnotou náhodné veličiny X (Expected Value, Mean) Značení: C\{Cí,A,P) ... množina všech náhodných veličin definovaných na (n,A,P), které mají konečné střední hodnoty. Jan Koláček (PřF MU) MV011 Statistika I 3/38 Střední hodnota Věta 2 (Výpočet) Necht X je náhodná veličina na {Cí,A,P). Pak platí 00 X e Ci (O, A,P) / xdF(x) < oo. V tomto případě je EX = J xdF(x) 00 ► Necht X ~ (M,p) Je diskrétního typu, pak platí X £ £i(n,*A,P) <^> xp{x) absolutně konverguje. V tomto případě ► Necht X ~ f(x) je absolutně spojitého typu, pak platí X £ C\{Cí,A,P) ^> xf(x) je integrovatelná vzhledem k Lebesgueově míre. V tomto případě je EX Jan Koláček (PřF MU) MV011 Statistika I 4/38 Střední hodnota Věta 3 (Vlastnosti) Necht X,Xi,X2 jsou náhodné veličiny definované na pravděpodobnostním prostoru {Cí,A,P), a,a\,ai £ R. Potom EX existuje <^> E|X| existuje. ► Jestliže P(X = a) = 1 EX = a. ► Existují-li EX\, EX2 =^> E(aiXi + #2X2) = aiEXi + a^EX^. ► A/ec/?r existují EXlt EX2 a p/aŕ/'Xi < X2 EXX < EX2. Necht \X\\ < X2 a EX2 existuje => EXi existuje. ► A/ec/?r P(X > 0) = 1 EX > 0. Věta 4 (Střední hodnota součinu nezávislých náhodných veličin) Necht X\,..., Xn jsou nezávislé náhodné veličiny definované na (O, A, P) a nechi existují střední hodnoty EX\,..., EXn. Pak platí n YlEXi i=l Jan Koláček (PřF MU) MV011 Statistika I 5/2 Příklad Příklad 2 (Střední hodnota Alternativního rozdělení) Mějme náhodnou veličinu X ~ A{Q), 6 £ (0,1) s pravděpodobnostní funkcí (1-6 x = 0 p(x) = < 6 x = 1 [O jinak. Vypočtěte střední hodnotu. EX = xp(x) = 0 • (1-9) + 1-6= 0. x=0 Jan Koláček (PřF MU) MV011 Statistika I 6/38 Příklad Příklad 3 (Střední hodnota Binomického rozdělení) Mějme náhodnou veličinu X ~ Bi(n,9), n G N, 9 G (0,1) s pravděpodobnostní funkcí ((nx)ex(l-9)n-x xG M= {0,l,...,n} [0 j/na/c. Vypočřéře střední hodnotu. Nebo X=£Y;, Yí~A(0), i = l,...,n z=l EX =E^Yi = Y^EYi= n9. i'=l /'=! Ex = £>(x)=£>("y(i-0) n—x n9. Jan Koláček (PřF MU) MV011 Statistika I 7/38 Příklad Příklad 4 Biatlonista střílí nezávisle na sobě do terče, přičemž pravděpodobnost zásahu při každém výstřelu je 2/3. Jaká je očekávaná hodnota počtu zasažených terčů ze 300 pokusů? X ... počet zásahů, X ~ Bi(300,2/3) EX = n6 = 300 • 2/3 = 200 . Jan Koláček (PřF MU) MV011 Statistika I 8/38 Příklad Příklad 5 (Střední hodnota Poissonova rozdělení) Mějme náhodnou veličinu X ~ Po(A), A > 0 s pravděpodobnostní funkcí A A X p(x) XI o x GM = {0,1,...} jinak. Vypočtěte střední hodnotu. 00 00 EX = xp(x) x=0 = YLxe x=0 A Ax 00 A A 00 sw&sř. y = x — 1 00 y=0 —7 = A. A x—1 i(x-l)! f N/" 1= E yeM Jan Koláček (PřF MU) MV011 Statistika I 9/ Příklad Příklad 6 (Střední hodnota Rovnoměrného rozdělení) Mějme náhodnou veličinu X ~ Rs(a,b), a < b, a,b £ R s hustotou /(*) bh xe(afb) 0 jinak. Vypočtěte střední hodnotu. 00 EX = / xf(x)dx = / x—^-—dx = -r^-J J b — a b — a 00 a T J a b2 — ď b — a 1 (b-a)(b + a) a + b b — a Jan Koláček (PřF MU) MV011 Statistika I 10 / 38 Příklad Příklad 7 (Střední hodnota Normálního rozdělení) Mějme náhodnou veličinu s normálním rozdělením X ~ N(/i,(72) s hustotou /(*) = v/2 71(7 exp \ (x — ]i 2 cr •00 xf(x)dx ■xč 2 V cr ; dx. 00 00 Položíme-li y (7 , tj. x = oy + ^ a dx = crdy, pak 2 EX = •00 -00 1 I X—}1 1 ~2 l ~1T~ -Xč v »00 dx = V2n 1 2 (cry + ]í)e~^ dy »00 0" V2n ye zy2dy+}i 00 .7 —00 '00 -00 1,,2 2^ dy ^. O (lichá funkce) =1 (hustota Y~N(0,1)) Jan Koláček (PřF MU) MV011 Statistika I 11/38 Motivační příklad Příklad 8 Chceme koupit do naší továrny novou linku, která bude balit mouku do 1 kg sáčků. Navštívili jsme dva výrobce těchto linek. U každého jsme si nechali vyrobit 5 balíčků a ty pak zvážili, abychom zjistili přesnost balení. linka A 975 960 1030 990 1045 linka B 965 965 1020 995 1055 Pro kterého výrobce se rozhodneme? E (A) = (975 + 960 + 1030 + 990 + 1045) /5 = 1000 E(B) = (965 + 965 + 1020 + 995 + 1055)/5 = 1000 E{A) = E(B) =>? Jan Koláček (PřF MU) MV011 Statistika I 12 / 38 Motivační příklad S\ = l (975 - 1000)2 + (960 - 1000)2 + (1030 - 1000)2 + (990 - 1000)2 + (1045 - 1000)2} /5 = 1050 S| = {(965 - 1000)2 + (965 - 1000)2 + (1020 - 1000)2 + (995 - 1000)2 + (1055 - 1000)2} /5 = 1180 S2A 0 DX = EX2 - (EX)2 ► Jestliže P(X = a) = 1, pa/c DX = 0 ► D(a1 + a2X) = ^DX Necht Xi,X2 jsol/ nezávislé náhodné veličiny, pak D(Xi + X2) = DXi + DX2 Jan Koláček (PřF MU) MV011 Statistika I 15 / 38 Příklad Příklad 9 Vypočtěte rozptyl pro náhodný pokus točení kola štěstí z Příkladu 1 X 0 12 4 p(x) lili 2 8 4 8 EX = §, dy = d{x-1) = dx 1) DX = E(X-EX)2 9\2 1 9\2 1 DX='°-8 2 + »"8 8+ 119 ~64~ = 1,8594 2) DX = EX2 - (EX) EX2 = 02^ + 12^ + 2 o Jan Koláček (PřF MU) MV011 Statistika I 16 / 38 Příklad Příklad 10 (Rozptyl Alternativního rozdělení) Mějme náhodnou veličinu X ~ A{9), 9 £ (0,1) s pravděpodobnostní funkcí p(x) = < 1-9 x = 0 9 x = l 0 jinak. Vypočtěte rozptyl. EX2 = X2V(X) = O2 - (1 — 9) + l2 - 9 = 9. EX = 9 x=0 viz Příklad 2. DX = EX2 - E2X = 9-9A = 9(1-9). Nebo DX =E(X-EX)2 = J^(x-9)2p(x) = (0-9)2(l-9) + (l-9)29 = 9(1-9). Jan Koláček (PřF MU) MV011 Statistika I 17/38 Příklad Příklad 11 (Rozptyl Binomického rozdělení) Mějme náhodnou veličinu X ~ Bz(n,0), n £ N, 9 G (0,1) s pravděpodobnostní funkcí (Cx)ex(l-9)n-x XGM= {0,l,...,n} [0 J/na/c. Vypočtete rozptyl. n i=l n n dx = Dj2yi = EDyi = ne(i-e). i=l i=l Jan Koláček (PřF MU) MV011 Statistika I 18 / 38 Příklad Příklad 12 (Rozptyl Poissonova rozdělení) Mějme náhodnou veličinu X ~ Po(A) s pravděpodobnostní funkcí A A X p(x) = 0 x GM = {0,1,...,} jinak. Vypočtěte rozptyl. DX = EX2 - (EX)2, EX = A (viz příklad 5) 00 00 a x 00 A x -2 _ „2„ŕ„\ _ X-1 „2„-AA__-A »—1 ' ' ' A EX2 = £ x2p(x) = X] *VA^- = E tx(x ~l)+A x=0 x=0 x=0 Y" 00 A e ^ x(x x=0 i) a X 00 l)(x-2)! A ^ Ax ) *~7 x=0 x* :EX=A Jan Koláček (PřF MU) MV011 Statistika I 19 / 38 Příklad 00 II OO II- 2 2__—a V-1 A , i _ „-a 12 ^ A Ex2 = e-Ar7 . *=2(*-2)! 00 a2E y=0 a ^ (y)J =1= E j/GM a + a, takže DX = A2 + A - A2 = A . Jan Koláček (PřF MU) MV011 Statistika I 20 Příklad Příklad 13 (Rozptyl Rovnoměrného rozdělení) Mějme náhodnou veličinu X ~ Rs(a,b), a < b, a,b £ R s hustotou f(x) 0 jinak. Vypočtěte rozptyl. 00 EX = x f(x)dx = / r a b — a 1 (b-a)(b2 +ab + a2) dx = b — a x- J a b3 — cr b — a b2 + ab + a2 b — a o o b2 + ab + a2 f a + b DX = EX - E2X = ^--1 {b-a) 12 Jan Koláček (PřF MU) MV011 Statistika I 21 / 38 Příklad Příklad 14 (Rozptyl normálního (Gaussova) rozdělení) Mějme náhodnou veličinu s normálním rozdělením X ~ N(}i,cr2) s hustotou V2 na exp 1 f x — ]i 2 cr oo oo 1/X_^x2 DX = E(X-EX)2 = J (x-EX)2f(x)dx = J ^=^(x - ^2e~2K — J dx 00 00 Položíme-li y tj. x — ]i = cry a dx = crdy, potom »00 DX=.L^ix->,)e 1 ( X—fl 2~ l[~> dx sudá funkce •00 2 / ^Ly2e-h2dy. 1/271' Jan Koláček (PřF MU) MV011 Statistika I 22 / 38 Příklad Položme \y2 = t, tj. y = V2ř a ydy = dt. Pak X = cr 00 />00 2 / 2 3 Vlte^dt = cr2^= n~xe~lát a1, v71 Jo ř0 ^2/1 v'«- jo protože »oo 3 i ^-Vř = r(l)=r(i + i) = ir(i) = i^. Jan Koláček (PřF MU) MV011 Statistika I 23 Cebyševova nerovnost Věta 8 (Cebyševova nerovnost, (Chebyshev's inequality)) Necht X je náhodná veličina s konečným druhým momentem. Potom pro libovolné e > 0 platí P(\X-EX\ >e)< DX Jan Koláček (PřF MU) MV011 Statistika I 24 / 38 Příklad Příklad 15 Biatlonista střílí nezávisle na sobě do terče, přičemž pravděpodobnost zásahu při každém výstřelu je 2/3. Odhadněte pravděpodobnost, že ze 300 pokusů bude mít 185 až 215 zásahů. X ... počet zásahů, X ~ Bi(300,2/3) EX = 300 • 2/3 = 200, DX = 300 • 2/3 • 1/3 = 66,66 Odhad P(185 < X < 215) P(185 - 200 < X - 200 < 215 - 200) P(-15 < X - EX < 15) = P(|X - EX\ < 15) 1 -P(\X-EX\ > 16) > 1 — 66,66 ~Í62~ = 0,7396 Přesně P(185 < X < 215) 300' 185 + 2 3 '300 215 185 1 3 115 I \ 225 + 1 3 300' 186 75 186 1 3 114 + ... = 0,9694 Jan Koláček (PřF MU) MV011 Statistika I 25 / 38 Kovariance a korelační koeficient Definice 9 Kovariancí (Covariance) dvou náhodných veličin x a y nazýváme číslo c(x, y) = e(x — ex) (y - ey) číslo r(x,y) c(x,y) Vdxdy nazýváme korelační koeficient (Correlation coefficient) Jan Koláček (PřF MU) MV011 Statistika I 26 / 38 Kovariance a korelační koeficient Věta 10 Necht náhodné veličiny X a Y mají sdruženou distribuční funkci F(x,y). Pak OO 00 C(X,Y)= í í (x-EX)(y-EY)dF(x,y) 00 —00 Necht náhodné veličiny jsou diskrétního typu, tj. (X, Y)7 ~ (M,p(x,y)), pak platí C(X,Y) = £ (x-EX)(y-EY)p(x/y) (jc,y)eM Necht náhodné veličiny jsou absolutně spojitého typu, tj. (X, Y)7 ~ /(*/]/)/ pak platí 00 00 C(X, Y) = / / (x - EX) (y - EY)/(x, y)dxdy 00 —00 Jan Koláček (PřF MU) MV011 Statistika I 27 / 38 Kovariance a korelační koeficient Věta 11 (Vlastnosti kovariance a korelace) Necht X a Y jsou náhodné veličiny, d\,a2,b\,b2 £ Potom ► C(X,X) = DX a R(X,X) = 1. ► C(X, Y) = C(Y,X) a ]?(X, Y) = R(Y,X). C(X, Y) = E(XY) - (EX)(EY) . Jsou-li náhodné veličiny X a Y nezávislé, pak C(X, Y) = i?(X, Y) = 0. ► |C(X,Y)| < VDXDY a |K(X,Y)| < 1- ► C(ai + a2X, fci + fc2 Y) = a2b2C{Xf Y) + a2X, &! + b2Y) = R(X, Y)sign(a2b2), je-li a2 ^ 0 a b2 ^ 0. ► D(X +Y) = DX + DY + 2C(X,Y). ► R(X, Y) = 1 <^> existují konstanty a a b > 0 ŕa/cové, že P(Y = a + &X) = 1 R(X, Y) = -1 existují konstanty a a b < 0 ŕa/cové, že P(Y = a + &X) = 1 Jan Koláček (PřF MU) MV011 Statistika I 28 / 38 Příklad Příklad 16 Náhodný vektor (X, Y) má rovnoměrné diskrétní rozdělení na množině G = {[0,0]; [1,0]; [0,1]}. Vypočtěte C(X, Y) a R(X, Y). n,V) ~ ^ 0 jinak "X. Y X 0 1 Px(x) 0 1 1/3 1/3 1/3 0 2/3 1/3 Pr(y) 2/3 1/3 1 Jan Koláček (PřF MU) MV011 Statistika I 29 / 38 Příklad EX = 0-1 + 1-1 = 1 = EY i i E(XY) = E L x-y-p(x,y) = 0- 0- ±+ 0- l- ± + l- 0- ± + l- l- 0 = 0 x=Oy=0 C(X, Y) = E(XY) - (EX)(EY) = O - ±± = -i E(X2)=02.| + l2.I = i = ^2) DX = E(X2) - (EX)2 = I- i = | = DY R«y) = J§? = f ■ Jan Koláček (PřF MU) MV011 Statistika I 30 Příklad Náhodný vektor (X, Y) má rovnoměrné spojité rozdělení na množině G = {(x,y) G (0;1) x (0;l>;x + y < 1}. Vypočtěte C(X,Y) a R(X,Y) c = 2 f (x, y) ^(y) 2 pro (x, y) G G 0 jinak l—x fx{x)= J 2dy = 2{l-x) o i-y / 2áx = 2(l-y) o EX = Jx-2(l-x)dx = 2 J(x-x2)dx = 2 o o n 1 J 0 = - = EY 3 Jan Koláček (PřF MU) MV011 Statistika I 31 / 38 Příklad E(XY) = 1 pl—x rl xy-2dydx = / x[yz] ro Jo o rl rl / x(l—x)2dx = / (x3 — 2x2 + x)dx Jo Jo 2il-x j q ha- x- 2x3 x2 n 1 Jo 12 c(x, y) = e(xy) - (ex)(ey) = ^ - j j = e (x2) = y x2 • 2 (1 - x) dx = 2 J(x2-x3)dx = 2 o DX = e(x2) - (ex)2 C(X,Y) o n 1 Jo = 7 = e (y2 6 r(x,y) Vdxdy i 36 18 -l_I-X-ny Jan Koláček (PřF MU) MV011 Statistika I 32 Příklad Příklad 18 Mějme dvourozměrný diskrétní náhodný vektor (X, Y) ~ (M,p), kde M = MxxMY = {0,1} x {-1,0,1} P(x,y) = ji (x,y)e{(o,o),(i,-i),(i,i)}, 0 jinak. Vypočtěte korelační koeficient a marginální pravděpodobnostní funkce. \ y x \ -10 1 Px(*) 0 0 i 0 1 3 i i 0 i 3 u 3 2 3 py(y) 111 3 3 3 1 EX = 0 • £ + 1 • f = EY = (—1) • i + O 2 " 3 1 + 1 3 ^ -1 4 = 0 E(XY) = O • O • - + 1 • ( 3 i i „ = -3 + 3=° 1) ■ - + 1 3 Tj. C(X, Y) = E(XY) - (EX)(EY) = 0- 0= 0 X, Y jsou nekorelované. Jan Koláček (PřF MU) MV011 Statistika I 33 / 38 Příklad Avšak nejsou nezávislé, neboť např. p(0,0) = i ^ px(0).pY(0) = \-\ = \- Pokud bychom si ihned všimli, že platí vztah X = Y2, lze ihned počítat C(X, Y) = E(XY) - (EX) (EY) = EY: =o E y3 My) yGMy ("1)3-Í + 0S-Í + l3-5 = 0 Je třeba si uvědomit, že • korelace je mírou lineárního vztahu; • nulová korelace neimplikuje nezávislost, ale značí pouze, že mezi náhodnými veličinami neexistuje lineární vztah, což nevylučuje možnost jiného funkčního vztahu. Jan Koláček (PřF MU) MV011 Statistika I 34/38 Kvantily a další číselné charakteristiky Definice 12 Nechť Fje distribuční funkcí a oc G (0,1). Potom funkce F_1(tt) = Q(a) = inf{x G R : F(x) > oc] se nazývá kvantilová funkce (Quantile function) a číslo OL Q(«) se nazývá #-kvantilem (ft-quantile) rozdělení s distribuční funkcí F(x) Poznámka 13 Pokud je distribuční funkce F spojitá a rostoucí, pak kvantilová funkce F_1 je inverzní funkcí k distribuční funkci F'. Za těchto předpokladů také platí vztah P(Xoc/2 < X < X1_oc/1) = 1-CÍ. Jan Koláček (PřF MU) MV011 Statistika I 35 / 38 Kvantily a další číselné charakteristiky Mezi často používané kvantily patří xo,25 = Q(0,25) se nazývá dolní kvartil (1st Quartile) Xo,5 = Q(0,5) medián (Median) Xo,75 = Q(0,75) horní kvartil (3rd Quartile) V souvislosti s kvantily se také často uvádí interkvartilové rozpětí (Interquartile Range) IQR = Xq/75 — ^0,25 jako charakteristika variability náhodné veličiny X. Nejznámějším kvantilem je medián x = Xo,5» který udává polohu poloviny rozdělení. Další charakteristikou míry polohy je modus x (Mode). Definice 14 ► Nechť X r>u (M,p) je diskrétního typu, pak x značí libovolné Xj G M, pro které platíP(X = x) >P(X = Xi), i = 1,2,... ► Nechť X r>u f(x) je absolutně spojitého typu, pak x značí libovolné x G R, pro které platí/(£) >f(x), x G R. Jan Koláček (PřF MU) MV011 Statistika I 36 / 38 Kvantily a další číselné charakteristiky Definice 15 Koeficient šikmosti (Skewness) je definován jako 7i = 1*3 (DX) 3/2 E(X-EX): 3/2 modus median modus Jan Koláček (PřF MU) 37 / 38 Kvantily a další číselné charakteristiky Definice 16 Koeficient špičatosti (Kurtosis) je definován jako 72 H E(X-EX)4 _ (DX) (DX) Jan Koláček (PřF MU) MV011 Statistika I 38 / 38