M3121 Pravděpodobnost a statistika I M4122 Pravděpodobnost a statistika II (prednášky) 1. Pravdepodobnostný priestor M3121 je základný kurz teórie pravdepodobnosti, na ktorý nadväzuje M4122, v ktorom sú základy matematickej štatistiky. Skúšať sa bude látka obidvoch semestrov naraz v lete. Cvičenia sú veľmi dôležité. Podmienky získania kreditov v ZS: ­ maximálne 2 neospravedlnené neúčasti na cvičeniach (prípadná jedna ďalšia sa dá kompenzovať spočítaním príkladov) a súčasne ­ zisk minimálne 9 bodov z dvoch písomiek (každá je ohodnotená maximálne 10 bodmi). História (stručne) teórie pravdepodobnosti sa nájde na www.math.muni.cz/budikova/prf/historie.pdf Literatúra: Dupač, V., Hušková, M., Pravděpodobnost a matematická statistika, Karolinum, Praha, 2001. Zvára, K., Štěpán, J., Pravděpodobnost a matematická statistika, Matfyzpress, Praha, 2001. Teória pravdepodobnosti je matematická disciplína, ktorá modeluje a popisuje náhodný pokus ­ pokus, ktorého výsledok dopredu nepoznáme. Teda výsledok pokusu nie je jednoznačne určený podmienkami, za ktorých je realizovaný. Napr. hod kockou. Pokusy, ktorých výsledok je jednoznačne daný podmienkami sa volajú deterministické. My budeme popisovať tzv. stochastické pokusy. Pritom presnejšie nás zaujímajú také náhodné pokusy, pri ktorých je náhoda akási "regulárna". Konkrétne ak A je ľubovoľný sledovaný náhodný jav, tak požadujeme, aby vykazoval pri opakovanej nezávislej realizácii náhodného pokusu tzv. štatistickú stabilitu, t.j. aby relatívna početnosť fn(A) = nA n výskytu javu A v postupnosti n nezávislých pokusov (pričom nA je počet nastatí javu A) sa príliš nemenil a s rastúcim n mal "tendenciu" držať sa nejakej konštanty. Obrazne (nepresne) zapísané limn fn(A) = p(A). Toto neplatí (úplne) napr. o futbalovom zápase, o predpovedi počasia, atď. Budeme teda budovať matematickú teóriu ­ model náhodného (štatisticky stabilného) pokusu. Značenie: ... Množina všetkých možných "najjemnejších" výsledkov náhodného pokusu, ktoré ešte treba rozlišovať. Predpokladáme, že vždy je neprázdna. voláme priestor elementárnych javov. ... Elementárny jav, prvok ; môže byť konečná, spočítateľná aj nespočítateľná; je "najjemnejší" výsledok náhodného pokusu. A, B, A1, A2, ..., An ... náhodné javy (udalosti) ... nemožný jav 1 2 ... istý jav A B ... jav, ktorý nastane ak nastane alebo A alebo B A B ... jav, ktorý nastane ak nastane aj A aj B A - B ... jav, ktorý nastane ak nastane A a nenastane B A = Ac = - A ... opačný jav k javu A n i=1 Ai ... nastane, ak nastane aspoň jeden z javov A1, ..., An i=1 Ai ... nastane, ak nastane aspoň jeden z javov A1, A2, ... n i=1 Ai ... nastane, ak nastanú všetky javy A1, ..., An i=1 Ai ... nastane, ak nastanú všetky javy A1, A2, ... exp = 2 ... systém všetkých podmnožín Pri náhodnom pokuse okrem priestoru elementárnych javov musíme mať zadaný (popísaný) aj systém náhodných javov. Definícia 1.1. Nech je ľubovoľná neprázdna množina. Neprázdny systém A podmnožín množiny sa nazýva -algebra, ak platí (1.1) (i) A A = Ac A (1.2) (ii) A1, A2, ... A = i=1 Ai A (-aditivita). Ukazuje sa rozumná požiadavka odrážajúca naše skúsenosti, aby systém náhodných javov A v popisovanom náhodnom pokuse bol -algebrou podmnožín množiny elementárnych javov . Dvojicu (, A) nazývame javové pole a ľubovoľný prvok A A nazývame náhodný jav (vzhľadom k (, A)). Poznámka (, A) s volá aj merateľný priestor. Poznámka - elementárny jav nie je náhodným javom, ale {} ako podmnožina je náhodným javom ak patrí do A. Povieme, že náhodný jav A nastal, ak (elementárny) výsledok pokusu bol , pričom A. S náhodnými javmi narábame preto ako s množinami. Platia tu de Morganove vzorce (1.3) i 1 Ai = i 1 Ai (1.4) i 1 Ai = i 1 Ai. (Dôkaz (1.3): i 1 Ai / i 1 Ai i 1 platí / Ai i 1 platí Ai i 1 Ai. Dôkaz (1.4) si urobte sami.) Veta 1.1. Nech (, A) je javové pole. Potom platí (1.5) A, A, 3 a pre ľubovoľné prirodzené n a A1, ..., An, A, B A (1.6) n i=1 Ai A, n i=1 Ai A, A - B A, a tiež (1.7) A1, A2, ... A = n=1 An A. Dôkaz: A je neprázdny systém, teda A A. Z (1.1) vyplýva, že A A. Z (1.2) vyplýva, že ak A = A1 A, A = A2 A, A3 = A1, A4 = A1, ..., tak A1 A2 A3 ... = A. Z (1.1) tiež = A. Ďalej ak A1, A2, ..., An A a tiež = An+1, = An+2, ... A, tak z (1.2) A1 A2 ...An ... = n i=1 Ai A. Ak A1, A2, ..., An A, teda A1, A2, ..., An A, a n i=1 Ai A, ale podľa de Morganovho pravidla (1.4) je n i=1 Ai = n i=1 Ai a preto n i=1 Ai A, ale podľa (1.1) n i=1 Ai A, pričom n i=1 Ai = n i=1 Ai. Teraz nech A, B A. Z (1.1) B A a z množinovej rovnosti A - B = A B dostávame, že A - B A. Nech A1, A2, ... A. Preto aj A1, A2, ... A, teda n=1 An A a pomocou (1.1) a de Morganových pravidiel aj n=1 An = n=1 An A. Definícia 1.2. Majme postupnosť náhodných javov {An} n=1. Hornou limitou postupnosti javov {An} n=1 nazývame množinu všetkých , ktoré patria do nekonečne veľa javov An. Označujeme ju lim supn An. (Inak povedané lim supn An nastane práve vtedy ak nastane nekonečne veľa javov An.) Definícia 1.3. Majme postupnosť náhodných javov {An} n=1. Dolnou limitou postupnosti javov {An} n=1 nazývame množinu všetkých , ktoré patria do všetkých An s výnimkou konečného počtu týchto javov. Označujeme ju lim infn An. (Inak povedané lim infn An nastane práve vtedy ak nastanú všetky javy An s výnimkou konečne veľa týchto javov.) Lema 1.1. Ak {An} n=1 je postupnosť náhodných javov na (, A), tak lim infn An lim supn An. Dôkaz: Zrejmý z definícií 1.2 a 1.3. Veta 1.2. Ak {An} n=1 je postupnosť náhodných javov na (, A), tak platí (1.8) lim sup n An = n=1 k=n Ak, (1.9) lim inf n An = n=1 k=n Ak, (1.10) lim sup n An = lim inf n An. 4 Dôkaz: lim supn An patrí do nekonečne veľa javov An pre n 1 k n, že Ak n 1 je k=n Ak n=1 k=n Ak. lim infn An patrí do každej An s výnimkou konečného počtu Ai n 1, že k=n Ak n=1 k=n Ak. lim supn An neplatí, že patrí do nekonečne veľa javov An neplatí, že n 1 k n, že Ak n 1 k n / Ak n 1 k n Ak n 1, že k=n Ak n=1 k=n Ak = lim infn An. Definícia 1.3. Majme postupnosť náhodných javov {An} n=1. Povieme, že postupnosť {An} n=1 má limitu A, ak A = lim supn An = lim infn An. Označujeme A = limn An. Poznámka. Ak A1, A2, ... A a A = lim supn = lim infn = n=1 k=n Ak A (teda limita je z A). Samozrejme z Vety 1.2 vyplýva, že aj lim supn An A a lim infn An A. Veta 1.3. Nech {An} n=1 je postupnosť náhodných javov na (, A). Ak A1 A2 .... Potom limn An a platí limn An = n=1 An. Dôkaz: k=n Ak = An, preto lim infn An n=1 k=n Ak = n=1 An, čiže lim infn An = n=1 An. Aj lim supn An = n=1 An, lebo z Lemy 1.1 n=1 An = lim infn An lim supn An a naopak ak lim supn An patrí do nekonečne veľa An n=1 An, čiže lim supn An n=1 An. Preto limn An = n=1 An. Veta 1.4. Nech {An} n=1 je postupnosť náhodných javov na (, A). Ak A1 A2 .... Potom limn An a platí limn An = n=1 An. Dôkaz: k=n Ak = An, preto lim supn An n=1 k=n Ak = n=1 An, čiže lim supn An = n=1 An. Aj lim infn An = n=1 An, lebo z Lemy 1.1 lim infn An lim supn An = n=1 An a naopak ak n=1 An patrí do všetkých An lim infn An, čiže n=1 An lim infn An. Preto limn An = n=1 An. Veta 1.5. Nech S je neprázdny systém podmnožín . potom existuje množinová -algebra (S) taká, že platí (i) S (S), (ii) ak je A množinová -algebra taká, že S A , tak (S) A . Dôkaz: Položme (S) prienik množinových -algebier obsahujúcich S. Potom S (S) a zrejme je (S) aj -algebrou. Definícia 1.4. Nech S je neprázdny systém podmnožín , (S) je prienik množinových -algebier obsahujúcich S. (S) sa nazýva minimálna množinová -algebra generovaná systémom S. Borelovské množiny. Položme = (-, ) = R, S = {(-, x >, x R} exp = exp R Minimálna množinová -algebra (S) = B generovaná systémom S sa volá borelovská (množinová) -algebra v R. Jej prvky sa nazývajú borelovské množiny. 5 Poznamenávame len, že borelovská -algebra v R je totožná aj s minimálnou množinovou -algebrou generovanou systémom množín S všetkých intervalov tvaru < a, b), kde a < b (pozri napr. Riečan, B., O pravdepodobnosti a miere, Alfa, Bratislava, 1972, str. 46). Analogicky definujeme Bn . = Rn , S = {(-, x1 > ×... × (-, xn >, x1, ..., xn R}, (S) = Bn je borelovská (množinová) -algebra v Rn . Definícia 1.5. (Axiomatická definícia pravdepodobnosti.) Nech (, A) je javové pole a P reálna množinová funkcia definovaná na A s vlastnosťami (i) P() = 1 (normovaná) (ii) A A P(A) 0 (nezáporná) (iii) ak {An} n=1 je postupnosť po dvoch disjunktných (nezlučiteľných) náhodných javov (t.j. n An A : An Am = pre n = m), tak P ( n=1) = n=1 P(An) (-aditívna). Potom funkciu P nazývame pravdepodobnosťou (na A) a trojicu (, A, P) pravdepodobnostným priestorom. Poznámka. Axiomatickú definíciu pravdepodobnosti a pravdepodobnostný priestor zaviedol N.A.Kolmogorov v roku 1933. Poznámka. Pravdepodobnostný priestor je matematickým modelom (regulárneho) náhodného pokusu. Príklad 1.1. Nech je konečná množina elementárnych javov, t.j. = {1, ..., n}, A = exp . Pre A = {i1 , ..., ik } nech P(A) = k j=1 P({ij }), pričom i P({i}) 0, n i=1 P({i}) = 1. Potom (, A, P) je pravdepodobnostný priestor. Špeciálne: Ak v Príklade 1 je P({i}) = 1 n pre i = 1, 2, ..., n, tak hovoríme o klasickom pravdepodobnostnom pokuse (klasickej definícii pravdepodobnosti, klasickom pravdepodobnostnom priestore), pričom P(A) = |A| || (|A| je počet elementárnych javov v A). Váhová definícia pravdepodobnosti: Nech je nanajvýš spočítateľná množina, teda = {1, ..., n, ...}, A = exp , P(A) = ij A P({ij }), pričom n P({n}) = pn 0 a n=1 P({n}) = 1. Geometrická definícia pravdepodobnosti: Nech Bn je borelovská množina, ktorej Lebesgueova miera () je konečná a kladná, A = Bn () (systém všetkých borelovských podmnožín ), pravdepodobnosť P(A) = (A) () pre A A. 6 2. Vlastnosti pravdepodobnosti Veta 2.1. Nech (, A, P) je pravdepodobnostný priestor. Potom pravdepodobnosť P má nasledujúce vlastnosti: (i) P() = 0 (ii) A, B A, A B = = P(A B) = P(A) + P(B) (iii) A, B A, A B = P(B - A) = P(B) - P(A) (subtraktívnosť) (iv) A, B A, A B = P(A) P(B) (monotónnosť) (v) A A = 0 P(A) 1 (vi) A A = P(A) = 1 - P(A) (vii) A, B A = P(A B) = P(A) + P(B) - P(A B) (viii) A1, ..., An A = P ( n i=1 Ai) = n i=1 P(Ai)- - n-1 i=1 n j=i+1 P(Ai Aj) + n-2 i=1 n-1 j=i+1 n k=j+1 P(Ai Aj Ak) + ...+ +(-1)n+1 P(A1 A2 ... An) (ix) A1, ..., An A = P ( n i=1 Ai) n i=1 P(Ai) Dôkaz: (i) P() = P( ...) = P() + P() + ... = 1 = P() = 0; (ii) A, B A, A B = = P(A B ...) = P(A) + P(B) + P() + ... = P(A) + P(B); (iii), (iv) A, B A, A B = B = A (B - A) (nezlučiteľné). Teda P(B) = P(A)+P(B-A) a preto P(B-A) = P(B)-P(A), ale aj P(A) = P(B)-P(B-A). Keďže P(B - A) 0, je P(B) P(A); (v) A A, A, A = (z (i),(iv)) 0 = P() P(A) P() = 1; (vi) A A, A A = = (z (ii)) 1 = P() = P(A A) = P(A) + P(A), čiže P(A) = 1 - P(A); (vii) A, B A, teda sa dá písať A B = [A - (A B)] (A B) [B - (A B)] (disjunktné) = P(A B) = P(A - (A B)) + P(A B) + P(B - (A B)) = (z (iii)) P(A)-P(AB)+P(AB)+P(B)-P(AB) = P(A)+P(B)-P(AB); (viii) indukciou pomocou (vii) (pozri napr. Riečan, B., O pravdepodobnosti a miere, Alfa, Bratislava, 1972) (ix) P ( n i=1 Ai) = P n-1 i=1 Ai +P(An)-P An n-1 i=1 Ai P n-1 i=1 Ai + P(An) P n-1 i=1 Ai = P n-2 i=1 Ai +P(An-1)-P An-1 n-2 i=1 Ai P n-2 i=1 Ai + P(An-1) ... P(A1 A2) = P(A1) + P(A2) - P(A1 A2) P(A1) + P(A2) a sčítaním máme P ( n i=1 Ai) P(A1) + P(A2) + ... + P(An). 7 Veta 2.2. Nech (, A) je javové pole, P reálna množinová funkcia definovaná na A s vlastnosťami (i) P() = 1 (ii) A A P(A) 0 (iii) A, B A, A B = = P(A B) = P(A) + P(B) (aditivita, nie -aditivita) Potom nasledujúce vlastnosti sú ekvivalentné (1) P je pravdepodobnosť na (, A) (2) A1, A2, ... A, An An+1 = limn P(An) = P ( i=1 Ai) (spojitosť zdola) (3) A1, A2, ... A, An An+1 = limn P(An) = P ( i=1 Ai) (spojitosť zhora) (4) A1, A2, ... A, An An+1, n=1 An = = limn P(An) = 0 (spojitosť zhora v ). Dôkaz: (1) = (2) P je -aditívna, teda ak B1, B2, ... A, Bi Bj = pre i = j = P ( i=1 Bi) = i=1 P(Bi). Položme B1 = A1, B2 = A2 - A1, B3 = A3 - A2, ... . Platí i=1 Ai = i=1 Bi a Bi Bj = pre i = j. Dostávame P ( i=1 Ai) = P ( i=1 Bi) = n=1 P(Bn) = limn n i=1 P(Bi) = limn[P(B1) + P(B2) + ... + P(Bn)] = limn[P(A1) + P(A2) - P(A1) + ... + P(An) - P(An-1)] = limn P(An). (2) = (3) An An+1, preto An An+1 a podľa (2) limn P(An) = P i=1 Ai = P i=1 Ai (de Morgan) = 1-P ( n=1 An). Teda limn P(An) = limn[1P(An)] = 1 - [1 - P ( n=1 An)] = P ( n=1 An). (3) = (4) Ak A1, A2, ... A, An An+1, n=1 An =, tak limn P(An)=P ( i=1 Ai) = P() = 0. (4) = (1) Nech B1, B2, ... A. Platí Bi Bj = pre i = j. Ďalej platí P ( i=1 Bi) = P (B1 ... Bn-1 i=n Bi). Ak označíme i=n Bi = Cn, potom Cn Cn+1 a n=1 Cn = (lebo n=1 Cn = n=1 i=n Bi = lim supn Bn = { : patrí do nekonečne veľa Bi} = , lebo Bi sú po dvoch disjunktné). Teda podľa (4) limn P(Cn) = 0. Počítajme pre ľubovoľné n 2: P ( i=1 Bi) = n-1 i=1 P(Bi) + P(Cn) (aditivita P). Preto platí: P ( i=1 Bi) = limn P ( i=1 Bi) = limn[ n-1 i=1 P(Bi) + P(Cn)] = limn n-1 i=1 P(Bi) + limn P(Cn) = i=1 P(Bi). 8 Veta 2.3. Nech (, A, P) je pravdepodobnostný priestor, An A, n = 1, 2, ... a existuje limn An = A. Potom P(limn An) = limn P(An). Dôkaz: Pre reálnu číselnú postupnosť {an} n=1 platí: a je hromadným bodom {an} n=1 ak a je limitou nejakej vybranej podpostupnosti z postupnosti {an} n=1. Množina hromadných bodov každej reálnej postupnosti má najväčší a najmenší prvok. Najväčší prvok je lim supn an a najmenší prvok je lim infn an. Postupnosť {an} n=1 má limitu práve vtedy ak lim supn an = lim infn an = limn an (Jarník, V., Diferenciální počet II, Academia, Praha, 1976). Ďalej označme i=n Ai = Bn, i=n Ai = Cn, P(Bn) = bn, P(Cn) = cn. Zrejme Bn Bn+1, Cn Cn+1, n = 1, 2, .... Podľa Vety 1.3 limn bn = limn P(Bn) = P( n=1 Bn) a podľa Vety 1.4 limn cn = limn P(Cn) = P( n=1 Cn). Z predpokladov vety tiež A = limn An = lim infn An = lim supn An. Počítajme: P(limn An) = P(lim infn An) = P ( n=1 i=n Ai) = P ( n=1 Bn) = limn P(Bn) = limn bn = lim infn bn = lim infn P ( i=n Ai) lim infn P(An) lim supn P(An) lim supn P ( i=n Ai) = lim supn P(Cn) = lim sup cn = limn cn = limn P(Cn) = P ( n=1 Cn) = P ( n=1 i=n Ai) = P(lim supn An) = P(limn An). Preto všade platí rovnosť a P(limn An) = lim infn P(An) = lim supn P(An) = (Jarník) limn P(An). Veta 2.4. (Borelova-Cantelliho lema) Nech An, n = 1, 2, ... je postupnosť náhodných javov na (, A, P) a n=1 P(An) < . Potom P(lim supn An) = 0. Dôkaz: 0 P(lim supn An) = P ( n=1 i=n Ai) = limn P ( i=n Ai) (Veta 2.2, lebo { i=n Ai} n=1 je klesajúca postupnosť. Platí tiež: i=n Ai = An An+1 ... = An (An+1 - An) (An+2 - n+1 i=n Ai) (An+3 - n+2 i=n Ai) ..., pričom An, An+1 - An, An+2 - n+1 i=n Ai, ... sú disjunktné. Preto limn P( i=n Ai) = limn P((An (An+1 - An) (An+2 - n+1 i=n Ai) ...) = limn(P(An)+P(An+1-An)+P(An+2- n+1 i=n Ai)+...) limn i=n P(Ai) = = limn( i=1 P(Ai) - n-1 i=1 P(Ai)) = i=1 P(Ai) - i=1 P(Ai) = 0. Teda P(lim supn An) = 0. 9 3. Podmienená pravdepodobnosť Príklad 3.1. Majme urnu s a čiernymi a b bielymi guľkami. Guľku po vytiahnutí nevrátime späť. Označme náhodný jav B1 ­ v prvom ťahu vytiahneme bielu guľku B2 ­ v druhom ťahu vytiahneme bielu guľku Zaujíma nás pravdepodobnosť, s akou v druhom ťahu vytiahneme bielu guľku, ak vieme, že v prvom ťahu sme vytiahli bielu guľku. Riešenie: P(B1) = a a + b . Podobne P(B2|B1) = b - 1 a + b - 1 . Označenie P(B2|B1) znamená podmienená pravdepodobnosť nahodného javu B2 ak nastal náhodný jav B1. Platí tiež P(B1 B2) = b(b - 1) (a + b)(a + b - 1) , lebo všetkých možností (výsledkov) dvoch ťahov je b(b - 1 + a) + a(b + a - 1) = b2 - b + ab + ab + a2 - a = (a + b)(a + b - 1) a "priaznivých" b(b - 1). (bi1, bi2) (bi1, bi3) . . . (bi1, bib) (bi1,č1) . . . (bi1,ča) (bi2, bi1) (bi2, bi3) . . . (bi2, bib) (bi2,č1) . . . (bi2,ča) ... (bib, bi1) (bib, bi2) . . . (bib, bib-1) (bib,č1) . . . (bib,ča) (č1, bi1) (č1, bi2) . . . (č1, bib) (č1,č2) . . . (č1,ča) ... (ča, bi1) (ča, bi2) . . . (ča, bib) (ča,č1) . . . (č1,ča-1) Môžeme ale písať P(B2|B1) = P(B2 B1) P(B1) = b(b-1) (a+b)(a+b-1) b a+b = b - 1 a + b - 1 . Teda ohraničili sme sa namiesto na B1 (bi1, bi2) (bi1, bi3) . . . (bi1, bib) (bi1,č1) . . . (bi1,ča) (bi2, bi1) (bi2, bi3) . . . (bi2, bib) (bi2,č1) . . . (bi2,ča) ... (bib, bi1) (bib, bi2) . . . (bib, bib-1) (bib,č1) . . . (bib,ča) a z náhodného javu B2 berieme "len tú časť, ktorá je v B1". 10 Definícia 3.1. Majme pravdepodobnostný priestor (, A, P) a B A je vybraný náhodný jav taký, že P(B) > 0. Podmienená pravdepodobnosť náhodného javu A A za podmienky nastatia náhodného javu B je (3.1) P(A|B) = P(A B) P(B) . Poznámka. Z (3.1) vyplýva (3.2) P(A B) = P(A|B)P(B) pričom sa predpokladá, že P(B) > 0. Pretože A B B, teda P(B) = 0 = P(AB) = 0, vzťah (3.2) má význam aj pre P(B) = 0. Vzťah (3.2) je "symetrický" aj pre A, teda (3.3) P(A B) = P(B|A)P(A). Z (3.2) a (3.3) máme (3.4) P(A|B)P(B) = P(B|A)P(A). Označenie: Nech jav B A je pevne daný, pričom P(B) > 0. Definujme PB : A < 0, 1 > PB(A) = P(A|B). Veta 3.1 PB je pravdepodobnosť na (, A) (pre každý jav B, pre ktorý je P(B) > 0). Dôkaz: PB() = P(B ) P(B) = P(B) P(B) = 1, PB(A) = P(A B) P(B) 0 pre A A An A, n = 1, 2, ..., Ai Aj = pre i = j, potom PB i=1 Ai = P ( i=1 Ai B) P(B) = P ( i=1(Ai B)) P(B) = = i=1 P(Ai B) P(B) = i=1 P(Ai|B) = i=1 PB(Ai). Veta 3.2 Platí (i) P(A|) = P(A) pre A A (ii) P ( n i=1 Ai) = P(A1)P(A2|A1)P(A3|A2 A1)...P(An|A1 A2 ...An-1) ak P n-1 i=1 Ai > 0 (veta o násobení pravdepodobnosti). Dôkaz: (i) P(A|) = P(A ) P() = P(A) P() = P(A); 11 (ii) Z (3.2) je P ( n i=1 Ai) = P An n-1 i=1 Ai = P An| n-1 i=1 Ai P n-1 i=1 Ai = P An| n-1 i=1 Ai P An-1 n-2 i=1 Ai = P An| n-1 i=1 Ai P An-1| n-2 i=1 Ai P n-2 i=1 Ai = ... = P(A1)P(A2|A1)P(A3|A2 A1)...P(An|A1 A2 ... An-1). Definícia 3.2. Majme pravdepodobnostný priestor (, A, P). Náhodné javy A1, A2, ... A tvoria úplný systém javov, ak platí (3.5) Ai Aj = , i = j, a i=1 Ai = . Poznámka. Úplný systém javov môže byť aj konečný. Veta 3.3. (Vzorec pre úplnú pravdepodobnosť) Nech A1, A2, ... je úplný systém javov v pravdepodobnostnom priestore (, A, P) taký, že (3.6) P(Ai) > 0, i = 1, 2, ... . Potom platí (3.7) P(B) = i=1 P(B|Ai)P(Ai). Dôkaz: P(B) = P(B ) = P (B i=1 Ai) = P ( i=1(B Ai)) = i=1 P(B Ai) = i=1 P(B|Ai)P(Ai) (podľa (3.2)) Veta 3.4. (1. Bayesov vzorec) Nech A1, A2, ... je úplný systém javov v pravdepodobnostnom priestore (, A, P) taký, že P(Ai) > 0, i = 1, 2, ... . Ak P(B) > 0, tak platí (3.8) P(Aj|B) = P(B|Aj)P(Aj) i=1 P(B|Ai)P(Ai) , j = 1, 2, ... . Dôkaz: Pre ľubovoľné j je pomocou (3.2) a (3.7) P(Aj|B) = P(B Aj) P(B) = P(B|Aj)P(Aj) i=1 P(B|Ai)P(Ai) . Veta 3.5. (2. Bayesov vzorec) Nech A1, A2, ... je úplný systém javov v pravdepodobnostnom priestore (, A, P) taký, že P(Ai) > 0, i = 1, 2, ... . Ďalej A A, že P(A) > 0 a B A. Platí (3.9) P(B|A) = {i: P (AAi)>0} P(Ai)P(A|Ai)P(B|A Ai) i=1 P(A|Ai)P(Ai) . 12 Dôkaz: spravte si sami. Poznámka. Vety 3.3, 3.4 a 3.5 platia aj v prípade, že úplny systém javov je konečný. Poznámka. P(Aj) v Bayesových vzorcoch sú tzv. apriorné pravdepodobnosti a P(Aj|B) aposteriórne pravdepodobnosti (po vykonaní pokusu s výsledkom B). Poznámka. V prípade 1. Bayesovho vzorca ide o riešenie situácie, keď máme hypotézy A1, ..., ktoré sa navzájom vylučujú, ale vyčerpávajú všetky možnosti. Poznáme ich (apriorné) pravdepodobnosti P(Ai). Nastal jav A a poznáme pravdepodobnosti P(A|Ai). Pýtame sa na (aposteriórne; nové, ktoré berú do úvahy skutočnosť, že mastal A) pravdepodobnosti P(Ai|A) V prípade 2. Bayesovho vzorca ak nastal jav A, pýtame sa na pravdepodobnosť javu B. Poznámka. Nie je vždy jednoduché voliť správny pravdepodobnostný model pre výpočet podmienených pravdepodobností. Príklad 3.2. (Lekárska diagnostika) Vieme, že určitou (konkrétnou) chorobou Ch trpí 1% populácie. Choroba je diagnostikovaná na základe vyšetrenia, ktorého spoľahlivosť je (i) 95% ak vyšetrovaná osoba trpí chorobou Ch (ii) 70 % ak vyšetrovaná osoba netrpí chorobou Ch. Vyšetrujeme náhodne zvolenú osobu. Určte pravdepodobnosť správnej diagnózy, ak výsledok vyšetrenia je (a) pozitívny (podľa výsledku vyšetrenia je osoba chorá) (b) negatívny (podľa výsledku vyšetrenia je osoba zdravá). Riešenie: Označme jav A ­ vyšetrovaná osoba trpí chorobou Ch (je chorá) B ­ výsledok vyšetrovania je pozitívny Zo zadania vieme P(A) = 0.01 (pravdepodobnosť, že vybraná osoba je chorá) Táto pravdepodobnosť sa volá prevalencia alebo tiež apriorná pravdepodobnosť choroby Vyšetrenie (spoľahlivosť vyšetrenia) sa charakterizuje dvomi charakteristikami, a síce pravdepodobnosťou P(B|A) = 0.95 tzv. citlivosť testu alebo aj senzitivita testu pravdepodobnosťou P(B|A) = 0.7 tzv. špecificita testu. (a) Máme určiť vlastne P(A|B) (lebo v tomto prípade výsledok testu bol pozitívny, teda test hovorí, že vyšetrovaná osoba je chorá (diagnóza je, že pacient je chorý) a my máme určiť pravdepodobnosť správnej dignózy). Zo zadania vieme, že P(A) = 0.01, P(A) = 0.99, P(B|A) = 0.95 a P(B|A) = 1 - P(B|A) = 1 - 0.7 = 0.3. Podľa Bayesovho vzorca (A, A sú hypotézy) P(A|B) = P(A)P(B|A) P(A)P(B|A) + P(A)P(B|A) = 0.01 0.95 0.01 0.95 + 0.99 0.3 = 0.030995. Je to aj aposteriórna pravdepodobnosť, že pacient je chorý, ak výsledok testu bol pozitívny. Je to prekvapivý výsledok. Čakali by sme "omnoho lepší" výsledok. 13 Celkom máme 29 700 + 950 = 30 650 pozitívnych výsledkov, z toho správne pozitívnych je 950, čiže P(A|B) = 950 30650 = 0.030995. (b) Analogicky (zase A, A sú hypotézy) P(A|B) = P(A)P(B|A) P(A)P(B|A) + P(A)P(B|A) = 0.99 0.7 0.99 0.7 + 0.01 0.05 = 0.99928. Je to aposteriórna pravdepodobnosť, že pacient nie je chorý, ak výsledok testu bol negatívny. Naozaj celkovo máme 69 300 + 50 = 69 350 negatívnych výsledkov, z toho správne negatívnych je 69 300 a teda pravdepodobnosť správnej diagnózy u negatívnych výsledkov testu je P(A|B) = 69300 69350 = 0.99928. Nezávislosť náhodných javov Definícia 3.3. Majme pravdepodobnostný priestor (, A, P). Náhodné javy A, B A sú nezávislé (vzhľadom k pravdepodobnosti P) ak P(AB) = P(A)P(B). Definícia 3.4. Majme pravdepodobnostný priestor (, A, P). Náhodné javy A1, A2, ..., An A sú skupinovo (združene) nezávislé (vzhľadom k pravdepodobnosti P) ak pre ľubovoľné k {1, 2, ..., n} a ľubovoľnú skupinu indexov {i1, ..., ik} {1, 2, ..., n} platí P k j=1 Aij = k j=1 P(Aij ). Náhodné javy A1, A2, ... A sú po dvoch nezávislé, ak každé dva sú nezávislé. 14 Poznámka. Zrejme ľubovoľný jav A A a jav istý sú nezávislé. Takisto ľubovoľný jav A A a jav nemožný sú nezávislé. Poznámka. Pozor, je rozdiel medzi disjunktnými (nezlučiteľnými) javmi (nemôžu naraz nastať, A B = ) a nezávislými javmi (tu treba pravdepodobnosť). Príklad 3.3. V urne sú 4 lístky {000, 110, 101, 011}. Náhodné javy Ai {náhodne vytiahnutý lístok má na i-tom mieste 1}, i = 1, 2, 3, sú po dvoch nezávislé, ale nie sú (združene) nezávislé, lebo P(A1) = P(A2) = P(A3) = 1 2 P(A1 A2) = P(A1 A3) = P(A2 A3) = 1 4 P(A1 A2 A3) = 0. Veta 3.6. Nech A1, A2, ..., An A sú združene nezávislé javy. Platí (i) Ľubovoľná postupnosť ~A1, ~A2, ..., ~An, kde ~Ak = Ak alebo ~Ak = Ak je postupnosť združene nezávislých javov; (ii) P ( n k=1 Ak) = 1 - n k=1 (1 - P(Ak)). Dôkaz: (i) Ak A1, A2 sú nezávislé, tak P(A1 A2) = P(A1 - (A1 A2)) = P(A1) - P(A1 A2) = = P(A1) - P(A1)P(A2) = P(A1)(1 - P(A2)) = P(A1)P(A2), teda A1, A2 sú nezávislé. Tak isto P(A1 A2) = P((A1 A2)) = 1-P(A1 A2) = 1-P(A1)-P(A2)+P(A1 A2) = = 1 - P(A1) - P(A2) + P(A1)P(A2) = (1 - P(A1))(1 - P(A2)) = P(A1)P(A2), čiže aj A1 a A2 sú nezávislé. Dôkaz dokončíme indukciou (pozri Riečan, B., O pravdepodobnosti a miere, Alfa, Bratislava, 1972, alebo Dupač, Hušková, Pravděpodobnost a matematická statistika). (ii) Z de Morganových pravidiel a z (i) 1 - P n k=1 Ak = P n k=1 Ak = P n k=1 Ak = n k=1 (1 - P(Ak)) . Veta 3.7. (Borelovo lema) Nech A1, A2, ... A je postupnosť nezávislých javov. Potom P(lim sup n An) = 0 1 podľa toho, či rad n=1 P(An) konverguje alebo diverguje. Dôkaz: Ak n=1 P(An) < = P(lim supn An) = 0 podľa Borelovej-Cantelliho lemy (Ai ani nemusia byť nezávislé). 15 Ak n=1 P(An) = , tak P(lim supn An) = P ( n=1 k=n Ak) = P ( n=1 Bn) = (kde Bn = k=n Ak Bn+1) = (Veta 2.2. (3)) limn P(Bn) = (Bn = An (An An+1) (An An+1 An+2) ...) = (Veta 2.2. (2)) limn limN P N k=n Ak = = (de Morgan) limn limN P N k=n Ak = = limn limN 1 - P N k=n Ak = = (nezávislosť) 1 - limn limN N k=n P(Ak) = = 1 - limn limN N k=n(1 - P(Ak)) 1 - limn limN e- PN k=n P (Ak) (lebo 0 P(Ak) = xk 1 a 1 - xk e-xk , teda N k=n(1 - xk) N k=n e-xk , čiže - N k=n(1 - xk) - N k=n e-xk = -e- PN k=n P (Ak) ). Pretože n=1 P(An) = , čiže limN N n=1 P(An) = a aj limN N n=k P(An) = pre každé n. Teda limn limN N n=k P(An) = a limn limN e- PN n=k P (An) = 0. Dostávame P(lim supn An) = 1. 16 4. Náhodná veličina Snažíme sa výsledok pokusu vyjadriť číslom (počet padnutých šestiek na 10 kockách; doba po ktorú svieti žiarovka; počet baktérií v jednotkovom objeme vody; atď.). Snažíme sa "pretransformovať" výsledok pokusu, náhodné javy na číselnú os. Pravdepodobnostný priestor "zobraziť" na číselnú os tak, aby sa dala spočítať pravdepodobnosť všetkým "rozumným" množinám reálnych čísel. Teda chceme nájsť vhodné zobrazenie (, A, P) R pričom prepokladáme, že (, A, P) máme dané, určené napr. verbálne (slovne). Ukazuje sa rozumné vziať na reálnej osi borelovskú -algebru B a hľadať vhodné zobrazenie X : (, A) (R, B) tak, aby sme mohli spočítať (udať) pravdepodobnosť každej borelovskej množiny B B. Zadefinujme si takúto "vhodnú"funkciu. Definícia 4.1. Majme daný pravdepodobnostný priestor (, A, P). Reálnu funkciu X definovanú na pre ktorú platí (4.1) B B = { : X() B} A nazývame náhodná veličina. Náhodnú veličinu niekedy voláme aj náhodná premenná. Funkciu X splňujúcu (4.1) nazývame merateľná funkcia, prvky -algebry B merateľné množiny. Množinu { : X() B} zapisujeme (skrátene) {X B} alebo {X-1 (B)}. Je zrejmé, že náhodnou veličinou X zobrazíme elemenárny výsledok pokusu na reálne číslo. Keď sa zrealizuje elemenárny jav , tak realizácia náhodnej veličiny je (reálne číslo) x = X(). Keď máme zadanú (určenú) náhodnú veličinu X, tak pre každú borelovskú množinu B B vieme určiť { : X() B} = {X-1 (B)}. Špeciálne pre každé reálne číslo x je { : X() (-, x)} = {X < x} A. Poznámka. Dá sa ukázať, že k tomu, aby X bola náhodná veličina je nutné a stačí, aby x R {X < x} A. Keď máme daný pravdepodobnostný priestor (, A, P) (matematicky popísaný náhodný pokus) a náhodnu veličinu X (t.j. reálnu funkciu s vlastnosťou (4.1)), tak každej borelovskej (merateľnej) množine B vieme priradiť (určiť) pravdepodobnosť predpisom PX (B) = P{ : X() B} = P({-1 (B)}). Definícia 4.2. Množinová funkcia (4.2) PX (B) = P({X-1 (B)}), B B sa nazýva rozdelenie pravdepodobnosti náhodnej veličiny X. Rozdelenie pravdepodobnosti náhodnej veličiny X je teda pravdepodobnostná miera (pravdepodobnosť) na -algebre B borelovských množín indukovaná náhodnou veličinou X. Presvedčte sa, že naozaj PX sp´lňa všetky tri vlastnosti z Definície 1.5. 17 Poznámka. Pri náhodnom pokuse - hode kockou náhodnú veličinu fyzicky zrealizujeme tak, že na jednotlivé steny kocky nakreslíme bodky. Môžeme na jednotlivé steny kocky aj napísať (nejaké konkrétne) čisla. Ak sme každej stene kocky priradili určité čislo, zostrojili sme istú nahodnú veličinu. Iný priklad na náhodnú veličinu je merací prístroj (napríklad voltmeter). Určitému napätiu v sieti priradí číslo hodnotu napätia. V reálnej elektrickej sieti aj konštantné napätie nie je "pevné", ale fluktuuje (vplyvom náhodných porúch). Náhodná veličina teda je pevne daná funkcia, ktorá ale svoje hodnoty nadobúda "nahodne". Pravdepodobnostné správanie sa náhodnej veličiny X, teda rozdelenie pravdepodobnosti náhodnej veličiny X je určené systémom pravdepodobností P({X < x}), x R. Pravdepodobnostné správanie sa nahodnej veličiny úplne a jednoznačne popisuje distribučná funkcia. Definícia 4.3. Nech X je náhodná veličina definovaná na (, A, P). Reálna funkcia FX(x) = P({X < x}) = P({ : X() < x}) sa nazýva distribučná funkcia náhodnej veličiny X. (Budeme značiť aj F(x), ak nedochádza k nedorozumeniu.) Veta 4.1. Distribučná funkcia je (i) neklesajúca (ii) spojitá zľava (iii) limx- F(x) = 0, limx F(x) = 1. Dôkaz: (i) Zvoľme reálne a < b. Zrejme {X < b} = { : X() < b} = {X < a} {a X < b} pričom posledné dva javy sú nezlučiteľné. Podľa aditívnej vlastnosti pravdepodobnosti je P({X < b}) = P({X < a}) + P({a X < b}), čiže 0 P({a X < b}) = P({X < a}) - P({X < b}) = FX(b) - FX(a), teda FX(b) FX(a). (ii) Pre ľubovoľné (ale pevné) x nech {xi} i=1 je akákoľvek postupnosť taká, že konverguje zľava k x (teda limxnx- ). Označme Bi = (-, xi), i = 1, 2, ..., a B = (-, x). Platí i=1 Bi = B, pričom Bi Bi+1. Ďalej nech Ai = { : X() < xi} a A = { : X() < x}. Zrejme i=1 Ai = A, Ai Ai+1. Zo spojitosti zdola pravdepodobnosti dostávame FX(x) = PX(B) = P(A) = P i=1 Ai = lim i P(Ai) = 18 = lim i PX(Bi) = lim i FX(xi). (iii) Vezmime ľubovoľnú {xi} i=1 takú, že xn -. Pri označení Bn, An z (ii) tentokrát Ai Ai+1 a i=1 Ai = . Preto lim n FX(xn) = lim n PX(Bn) = lim n P(An) = 0 Ak teraz vezmeme ľubovoľnú {xi} i=1 takú, že xn . Pri označení Bn, An z (ii) je Ai Ai+1 a lim n FX(xn) = lim n PX(Bn) = lim n P(An) = P n=1 An = P() = 1. Veta 4.2. Pre distribučnú funkciu FX platí (4.3) P({X = x}) = FX(x + 0) - FX (x), x R. (FX(x + 0) = limyx+ FX(y) (limita sprava).) Dôkaz: Platí {X x} = {X = x} {X < x} a ak vezmeme ľubovoľnú {xi} i=1 takú, že xn x+ , tak {X x} = n=1{X < xn}, pričom {X < xn} {X < xn+1}. Zo spojitosti pravdepodobnosti zhora platí P({X x}) = P n=1 {X < xn} = lim n P({X < xn}) = = lim n F(xn) = FX(x + 0), (pričom zo spojitosti pravdepodobnosti zhora vyplýva, že limn P({X < xn}) existuje a je jediná pre akúkoľvek postupnosť {xi} i=1 takú, že xn x+ ). Preto P({X = x}) = P({X x}) - P({X < x}) = FX(x + 0) - FX(x). Dôsledok. FX() je spojitá v x práve vtedy ak P({X = x}) = 0 (lebo FX() je zľava spojitá vždy a sprava práve ak P({X = x}) = 0). Veta 4.3. Distribučná funkcia má najviac spočitateľne veľa bodov nespojitosti (skokov). Dôkaz: Označme Cn = { množina bodov, v ktorých má FX() skok väčší ako 1 n }. Veľkosť skoku v bode x je vlastne (podľa (4.3)) FX(x + 0) - FX(x) = P({X = x}) a Cn = {x R : P({X = x}) > 1 n }. Pretože hodnoty pravdepodobnosti ležia v intervale < 0, 1 >, môže mať Cn najviac (n - 1) prvkov. Množina bodov C = {x : FX () má v bode x nejaký skok} = n=2 Cn. Pretože C je spočitateľným zjednotením konečných množín, je nanajvýš spočita- teľná. 19 Lebesgueova - Stieltjesova miera Stručne si povieme o Lebesgueovej - Stieltjesovej miere. Majme danú reálnu funkciu F s vlastnosťami (i) neklesajúca (ii) spojitá zľava. Majme systém S všekých intervalov tvaru < a, b), kde a < b. Potom je množinová funkcia definovaná na S predpisom (< a, b)) = F(b)-F(a) -aditívna. (dôkaz pozri napr. Riečan, B., O pravdepodobnosti a miere, Alfa, Bratislava, 1972, Veta 5.2.1). Z teórie miery potom existuje práve jedna miera F definovaná na systéme B všetkých borelovských množín taka, že F (< a, b)) = F(b) - F(a) (dôkaz pozri napr. Riečan, B., O pravdepodobnosti a miere, Alfa, Bratislava, 1972, Veta 5.2.2). Miera F sa nazýva Lebesgueova - Stieltjesova miera indukovaná funkciou F. Dá sa ukázať, že ak navyše platí, že limx- F(x) = 0, limx F(x) = 1, tak F je pravdepodobnosť na (R, B). Poznamenávame len, že ak za funkciu F() zvolíme funkciu F(x) = x, tak F sa volá Lebesgueova miera. Poznámka. Lebesgueova-Stieltjesova miera sa zavádza všeobecnejšie pre funkcie F ktoré sú neklesajúce a spojité zľava (nemusia byť len distribučné funkcie). Pre nás je dôležitý prípad keď F je distribučná funkcia. Poznámka. Ak máme náhodnú veličinu X a jej distribučnú funkciu FX, tak na systéme S intervalov < a, b), kde a < b je PX(< a, b)) = P({a X < b}) = FX(b) - FX (a) = F (< a, b)) a preto pravdepodobnostná miera F je totožná s rozdelením pravdepodobnosti PX (podrobnejšie pozri napr. v Riečan, B., O pravdepodobnosti a miere, Alfa, Bratislava, 1972). Z teórie integrálu pre každú B B je PX(B) = FX (B) = B dFX (x) (Lebesgueov-Stieltjesov integrál) = = B dFX = B dFX(x) (iné značenie). Platí aj nasledujúca veta ("opak" Vety 4.1): Veta 4.4. Nech F je neklesajúca, spojitá zľava a limx- F(x) = 0, limx F(x) = 1. Potom existuje náhodná veličina X tak, že F je jej distribučná funkcia. Dôkaz: Povedali sme, že F je pravdepodobnosť na (R, B) a preto (R, B, F ) je pravdepodobnostný priestor. Definujme teraz na R náhodnú veličinu X vzťahom X(x) = x. Je zrejmé, že X je náhodná veličina, lebo ak B B, tak X-1 (B) = B je borelovská množina. Nech G je distribučná funkcia náhodnej veličiny X, potom G(x) = F ({X-1 ((-, x))) = F ((-, x)) = = lim n F (< x - n, x)) = lim n (F(x) - F(x - n)) = F(x) - lim n F(x - n) = F(x). Teda F je distribučná funkcia náhodnej veličiny X. 20 5. Diskrétne náhodné veličiny (náhodné veličiny diskrétneho typu) Náhodným veličinám zodpovedajú určité distribučné funkcie (teda aj určité Lebesgueove-Stieltjesove miery). Definícia 5.1. Nech {pi} i=1 je rad kladných čísel takých, že i=1 pi = 1 a M = {xi} i=1 je (ľubovoľná) postupnosť rôznych reálnych čísel. Funkcia (xi, pi) i=1 na {xi} i=1 sa nazýva pravdepodobnostná funkcia. Poznamenajme len, že postupnosť {xi} môže byť aj konečná. Poznámka Pravdepodobnostná funkcia môže byť chápaná aj ako (xi, pi)iJ , kde J je konečná alebo spočitateľná indexová množina. Veta 5.1. Nech (xi, pi) i=1 je pravdepodobnostná funkcia. Položme F(x) = xi 0 tak, aby sa v (x-, x) nenachádzalo žiadne z čísel x1, ..., xn-1. Potom pre y (x - , x > je F(x) - F(y) = {xi: y xi m0 je zm < zm0 ). Preto m > m0 je 0 F(zm) F(zm0 ) = {xi: xi 0, pritom pre tieto hodnoty je P({X = xi}) = pi a pre ľubovoľné x / {x1, x2, ...} je P({X = x}) = 0. Samozrejme platí pre ľubovoľné x R, že P({X = x}) = F(x + 0) - F(x). Predchádzajúce úvahy majú aj takú interpretáciu, že ak máme reálnu funkciu X, ktorá nadobúda hodnoty z množiny M = {x1, x2, ...} s pravdepodobnosťami P({X = xi}) = pi, pričom pi > 0, i = 1, 2, ... a i=1 pi = 1, tak X je náhodná premenná s rozdelením pravdepodobnosti (5.1). Príklady diskrétnych náhodných veličín Náhodná veličina s alternatívnym rozdelením pravdepodobnosti (Alternatívne rozdelenie pravdepodobnosti) Majme M = {0, 1}, (teda x1 = 0, x2 = 1) a ďalej p1 = 1 - , p2 = , pričom < 0, 1 >. Nazveme 0- neúspech a 1-úspech. Potom funkcia X (schválne nehovoríme kde je definovaná), ktorá nadobúda hodnoty 0 a 1 s pravdepodobnosťami P(X = 0) = 1 - a P(X = 1) = je náhodná premenná. Rozdelenie pravdepodobnosti tejto náhodnej premennej sa nazýva alternatívne rozdelenie pravdepodobnosti s parametrom a píšeme X A(). Modelujeme (matematicky popisujeme) ním situáciu, keď máme pokus s dvomi možnými výsledkami "úspechom" a "neúspechom". Pravdepodobnosť úspechu je a neúspechu 1 - . Jej distribučná funkcia je Ľahko skonštruujeme v tomto prípade priestor elementárnych javov = {1, 2} a -algebru náhodných javov A = {{}, {1}, {2}, }. Pravdepodobnosť P({}) = 0, P({1}) = 1 - , P({2}) = , P(}) = 1. Náhodná veličina X je definovaná nasledovne: X(1) = 0, X(2) = 1. Pravda, toto všetko už "nepotrebujeme". Stačí nám poznať pravdepodobnostnú funkciu náhodnej veličiny X. 22 Binomické rozdelenie pravdepodobnosti Majme M = {0, 1, 2, ..., n} (teda x1 = 0, x2 = 1, ..., xn+1 = n) a px+1 = p(x) = n x x (1 - )n-x > 0 pre x = 0, 1, 2, ..., n, < 0, 1 >. Zrejme n+1 j=1 pj = n x=0 n x x (1 - )n-x = [ + (1 - )]n = 1. Náhodná veličina X, ktorá nadobúda hodnoty {0, 1, ..., n} s pravdepodobnosťami P(X = x) = n x x (1-)n-x , x = 0, 1, ..., n má binomické rozdelenie pravdepodobnosti s parametrami n, . Označujeme X Bi(n, ). Ak uvažujeme experiment, ktorý pozostáva z n nezávislých alternatívnych pokusov, v ktorých nás zaujíma len nastatie alebo nenastatie náhodného javu A (pravdepodobnosť nastatia javu A v jednotlivom alternatívnom pokuse je < 0, 1 >), potom X - počet nastania náhodného javu A v experimente je x x = 0, 1, 2..., n, je diskrétna náhodná veličina a X Bi(n, ). Dokážte to ako cvičenie. Poissonovo rozdelenie pravdepodobnosti Majme M = {0, 1, 2, ..., } a px+1 = p(x) = e- x x! > 0 pre x = 0, 1, 2, ..., > 0. Zrejme j=1 pj = x=0 e- x x! = e- x=0 x x! = e- e = 1. Náhodná veličina X, ktorá nadobúda hodnoty {0, 1, ...} s pravdepodobnosťami P(X = x) = e- x x! , x = 0, 1, ..., má Poissonovo rozdelenie pravdepodobnosti s parametrom . Označujeme X Po(). Takáto náhodná veličina popisuje napríklad výskyt "riedkych javov", počet organizmov v jednotke pôdy, počet listov na strome, počet havárií, počet prerušení výroby, počet hovorov v telefónnej sieti, atď. Veta 5.1. (Poissonova) Ak Xn Bi(n, pn), kde limn npn = > 0, pn (0, 1) a X Po(), tak pre k = 0, 1, 2, ... platí lim n P({Xn = k}) = P({X = k}). Dôkaz: Pre k = 0, 1, 2, ... platí lim n P({Xn = k}) = lim n n k pk n(1 - pn)n-k = = lim n 1 k! npn(n - 1)pn...(n - k + 1)pn (1 - pn)k (1 - pn) n = k k! e- , 23 lebo (1 - pn)n = 1 - 1 1 pn n = 1 - 1 1 pn 1 pn npn e-1 = e- . Negatívne binomické rozdelenie pravdepodobnosti a geometrické rozdelenie pravdepodobnosti Majme M = {0, 1, 2, ..., } a px+1 = p(x) = x + r - 1 r - 1 pr (1 - p)x = = x + r - 1 x pr (1 - p)x > 0 pre x = 0, 1, 2, ..., p (0, 1), r N. Z Taylorovho rozvoja (MacLaurinov rad) funkcie (1 - z)-k = x=0 [(1 - z)-k ] (x) z=0 x! zx = = j=0 k + j - 1 j zj , k N, |z| < 1 zrejme x=0 x + r - 1 r - 1 pr (1 - p)x = pr x=0 x + r - 1 r - 1 (1 - p)x = pr (1 - (1 - p))-r = 1. Náhodná veličina X, ktorá nadobúda hodnoty {0, 1, ...} s pravdepodobnosťami P(X = x) = x+r-1 r-1 pr (1 - p)x , x = 0, 1, ..., má negatívne binomické rozdelenie pravdepodobnosti s parametrami r, p. Označujeme X NeBi(r, p). Ak uvažujeme experiment, ktorý pozostáva z nezávislých alternatívnych pokusov, v ktorých nás zaujíma len nastatie alebo nenastatie náhodného javu A-úspech (pravdepodobnosť nastatia úspechu v jednotlivom alternatívnom pokuse je p (0, 1)), potom X - počet neúspechov, ktoré predchádzajú r-tému úspechu je diskrétna náhodná veličina a X NeBi(r, p) s hodnotami x = 0, 1, 2, ..., . Dokážte to ako cvičenie. Špeciálnym prípadom negatívneho binomického rozdelenia pre r = 1 je geometrické rozdelenie pravdepodobnosti. Náhodná veličina X, ktorá nadobúda hodnoty {0, 1, ...} s pravdepodobnosťami P(X = x) = p(1-p)x , x = 0, 1, ..., p (0, 1), má geometrické rozdelenie pravdepodobnosti s parametrom p. Označujeme X Ge(p). Ak uvažujeme experiment, ktorý pozostáva z nezávislých alternatívnych pokusov, v ktorých nás zaujíma len nastatie alebo nenastatie náhodného javu A-úspech (pravdepodobnosť nastatia úspechu v jednotlivom alternatívnom pokuse je p (0, 1)), potom X - počet neúspechov pred prvým úspechom je diskrétna náhodná veličina, X Ge(p) s hodnotami x = 0, 1, 2, ... . 24 Hypergeometrické rozdelenie pravdepodobnosti Majme N N, (N 2) súčiastok, z ktorých je A N chybných, pričom N > A. Zo všetkých N súčiastok náhodne vyberieme n N súčiastok (bez vrátenia), pričom n N. Náhodná premenná X - počet chybných súčiastok medzi n vytiahnutými má hypergeometrické rozdelenie pravdepodobnosti s parametrami N, A, n. Označujeme to X Hg(N, A, n). Samozrejme musíme sa presvedčiť, že takto popísaná funkcia X je skutočne náhodná premenná a definovať hypergeometrické rozdelenie pravdepodobnosti. Najprv si uvedomme, že môžu nastať práve 4 prípady, a síce (i) n A, n N - A (počet dobrých súčiastok) vtedy X nadobúda hodnoty x {0, 1, ..., n} (ii) n A, n > N-A vtedy X nadobúda hodnoty x {n-(N-A) = n-N+A (najmenej chybných), n - N + A + 1, ..., n (najviac chybných) } (iii) n > A, n N - A vtedy X nadobúda hodnoty x {0, 1, ..., A} (iv) n > A, n > N - A vtedy X nadobúda hodnoty x {n - N + A, n - N + A + 1, ..., A} Teda x- počet chybných súčiastok medzi n vytiahnutými je z intervalu < k1, k2 >, kde k1 = max(0, n - N + A) a k2 = min(A, n). Počet možných vytiahnutých n-tíc je N n . Medzi n vybratými súčiastkami (teda vo vybratej n-tici) je x chybných A x spôsobmi a ku každému spôsobu je N - A n - x možností vybratia bezchybných, teda (5.2) P({X = x}) = A x N - A n - x N n , x < max(0, n - N + A), min(A, n) >. Dôkaz toho, že (5.2) je rozdelenie pravdepodobnosti vyplýva z identity (5.3) min{n,A} =max{0,n-N+A} N - A n - A = N n , ktorú dokažeme pomocou nasledujúcej lemy. Najprv si ale zadefinujeme klesajúci faktoriál reálneho čísla x. Ak k N0, x R, tak klesajúci faktoriál x(0) = 0 a pre k N je x(k) = x(x - 1)...(x - k + 1). Teraz kombinačné číslo n k môžeme písať ako n(k) k! a "rozšírili" sme pojem kombinačného čísla n k tak, že namiesto n N0 môžeme uvažovať n R (samozrejme k N0 zostáva v platnosti). 25 Lema 5.1 Pre ľubovoľné reálne čísla x, y a n N0 platí (5.4) n k=0 x k y n - k = x + y n (Cauchyho kombinatorický vzorec). Dôkaz: 1. Pre n = 0 je identita zrejmá. 2. Nech teda platí pre nejaké n N a dokážeme, že (5.5) n+1 k=0 x k y n + 1 - k = x + y n + 1 . Vieme, že pre ľubovoľné a R, n N0 je a n + 1 = a - n n + 1 a n , teda x + y n + 1 = x + y - n n + 1 x + y n , preto počítajme x + y - n n + 1 n k=0 x k y n - k = 1 n + 1 n k=0 [y - n + k + x - k] x k y n - k = = 1 n + 1 n k=0 x k y n - k y - n + k n - k + 1 (n - k + 1) + + n k=0 x k x - k k + 1 y n - k (k + 1) = = 1 n + 1 n k=0 x k y n - k + 1 (n - k + 1) + n k=0 x k + 1 y n - k (k + 1) = = 1 n + 1 x 0 y n + 1 (n + 1) + n k=1 x k y n - k + 1 (n - k + 1)+ + n-1 k=0 x k + 1 y n - k (k + 1) + x n + 1 y 0 (n + 1) = = 1 n + 1 x 0 y n + 1 (n + 1) + n k=1 x k y n - k + 1 (n - k + 1)+ + n j=1 x j y n - j + 1 j + x n + 1 y 0 (n + 1) = = 1 n + 1 x 0 y n + 1 (n + 1) + n k=1 x k y n - k + 1 (n + 1)+ + x n + 1 y 0 (n + 1) = n+1 k=0 x k y n + 1 - k = x + y n + 1 . 26 6. Spojité náhodné veličiny (náhodné veličiny (absolútne) spojitého typu) Najprv si zopakujeme určité tvrdenia z matematickej analyzy týkajúce sa absolútne spojitej funkcie. Definícia 6.1. Funkcia F() je absolútne spojitá (na R), ak k ľubovoľnému > 0 existuje také > 0, že pre každú postupnosť a1 < b1 < a2 < b2 < ... < an < bn takú že n i=1(bi - ai) < platí n i=1 |F(bi) - F(ai)| < . Vlastnosti absolútne spojitej funkcie: (i) Ak je F absolútne spojitá, tak je spojitá. (ii) Ak je F absolútne spojitá, tak má skoro všade (vzhľadom na Lebesgueovu mieru) vlastnú deriváciu. Táto derivácia je integrovateľná v Lebesgueovom zmysle a platí F(x) = x a F (t)dt + F(a) pre každé a R. (iii) Ak je F absolútne spojitá a platí F (x) = 0 skoro všade (vzhľadom na Lebesgueovu mieru), potom je F konštantná skoro všade (vzhľadom na Lebesgueovu mieru). (iv) Ak je F neurčitým integrálom funkcie f (v Lebesgueovom zmysle, teda F(x) = f(x)dx), potom je F absolútne spojitá a platí F (x) = f(x) skoro všade (vzhľadom na Lebesgueovu mieru). (v) Ak je F absolútne spojitá, tak má na každom konečnom intervale < a, b > konečnú variáciu, t.j. sup N j=1 |F(xj)-F(xj-1)| < , pričom supremum sa berie cez všetky N a konečné postupnosti a = x0 < x1 < ... < xN = b. Teraz si zadefinujeme absolútne spojitú náhodnú veličinu. Definícia 6.2. Povieme, že náhodná veličina X definovaná na (, A, P) je absolútne spojitého typu (spojitá), ak existuje (nezáporná) integrovateľná funkcia f() taká, že pre každú borelovskú množinu B B je PX(B) = B f(x)dx. Funkciu f nazývame hustotou rozdelenia pravdepodobnosti (hustotou) náhodnej veličiny X. Veta 6.1. (Vlastnosti hustoty.) Nech X je náhodná veličina absolútne spojitého typu, f je jej hustota a F jej distribučná funkcia. Potom (i) f(x)dx = 1; (ii) F(x) = x - f(t)dt; (iii) F() je absolútne spojitá funkcia; (iv) hustota f() je určená jednoznačne skoro všade vzhľadom k Lebesgueovej miere, t.j. ak f a g sú hustoty náhodnej veličiny X, tak ({x : f(x) = g(x)}) = 0, kde je Lebesgueova miera; (v) existuje F (x) skoro všade vzhľadom k Lebesgueovej miere a funkcia g(x) = F (x) je hustota náhodnej veličiny X; (vi) pre a < b platí F(b) - F(a) = b a f(x)dx a tiež P({a X < b}) = P({a < X < b}) = P({a < X b}) = P({a X b}) = b a f(x)dx; 27 (vii) ak existuje v bode x derivácia F (x) = f(x), potom P(x- h 2 X < x+ h 2 ) = hf(x) + o(h), kde o(h) je taká funkcia, pre ktorú platí limh0 o(h) h = 0; (viii) f(x) 0 pre každé x R skoro všade vzhľadom k Lebesgueovej miere. Dôkaz: (i) Ak má X hustotu f, tak z definície aboslútne spojitej náhodnej veličiny vyplýva, že B B PX(B) = B f(x)dx. Ak vezmeme B = R, tak 1 = PX({R}) = R f(x)dx = - f(x)dx. (ii) Vieme, že F(x) = P({X < x}) = PX((-, x)) = x - f(t)dt. (iii) Tvrdenie z matematickej analyzy: Ak pre funkciu F platí F(x) = x - f(t)dt pre každé x R, tak F je absolútne spojitá na R. (iv) Ak f a g sú hustoty náhodnej veličiny X, tak pre každú B B platí PX (B) = B f(x)dx = B g(x)dx. Z toho dostávame, že pre každú B B platí B (f(x) - g(x))dx = 0, čiže ({x : f(x) = g(x)}) = 0. (v) Tvrdenie je dôsledkom absolútnej spojitosti ((ii) vlastnosť absolútne spojitej funkcie). (vi) Podľa Vety 4.1., Vety 6.1.(ii) a aditívnej vlastnosti integrálu platí P({a X < b}) = F(b) - F(a) = b f(t)dt - b f(t)dt = b a f(t)dt. Distribučná funkcia F je absolútne spojitá, preto je spojitá a pre každé x R podľa (4.3) platí P(X = x) = 0, z čoho ľahko dostaneme ostatné vzťahy. (vii) Ak napíšeme pre ľubovoľné h > 0 a x také, že existuje F (x) = f(x) o(h) h = P ({x- h 2 X b. 28 Interpretácia takejto náhodnej veličiny je názorná: Istota (jednotková pravdepodobnosť) je na intervale (a, b) rovnomerne "rozprestrená". Náhodná veličina s exponenciálnym rozdelením Nech náhodný jav A sa vyskytuje v náhodných okamžikoch (napr. prerušenie výroby, vyhorenie žiarovky, prelet častice, atď.) Výskyty tohto náhodného javu A v neprekrývajúcich sa časových intervaloch sú nezávislé, teda pre t1 < t2 < t3 < t4 P(A nastane v (t1, t2) (t3, t4)) = P(A nastane v (t1, t2))P(A nastane v (t3, t4)). Označme Q(t) ­ pravdepodobnosť, že sledovaný jav A nenastane v priebehu časového intervalu ďlžky t Ak t1, t2 sú ďlžky dvoch na seba nadväzujúcich časových intervalov, tak Q(t1 + t2) = Q(t1)Q(t2). Nech Q je diferencovateľná funkcia času a pre t = 0 nadobúda maximum, teda Q(0) = 1. Pre t > 0, t > 0 je ln Q(t + t) = ln Q(t) + ln Q(t), čiže (ln Q(t)) = lim t0+ ln Q(t + t) - ln Q(t) t = lim t0+ ln Q(t) t = = lim t0+ ln Q(0 + t) - ln Q(0) t = [ln Q(t)]t=0 = (ide o deriváciu sprava, ktorú označíme -, pričom > 0). Máme teda diferenciálnu rovnicu s počiatočnou podmienkou d ln Q(t) dt = Q(0) = 1. Jej riešenie je Q(t) = e-t . Označme X ­ náhodnú veličinu ­ čas, keď nastane prvýkrát sledovaný jav Zrejme FX(t) = P({X < t}) = P(jav A nastane v čase (0, t)) = 1 - Q(t) (tuná Q(t) je pravdepodobnosť, že sledovaný jav nenastane v intervale (0, t)), teda FX (t) = 1 - e-t , ak t > 0 0, ak t 0. Náhodná veličina X má exponenciálne rozdelenie pravdepodobnosti s parametrom a označujeme X ex(). Jej hustota je fX (t) = e-t , ak t > 0 0, ak t 0 (dostaneme derivovaním F). 29 Náhodná veličina s normálnym rozdelením (normálna náhodná veličina, gaussovská náhodná veličina) Ak má náhodná veličina X hustotu f(x) = 1 2 e (x - )2 22 , (-, ), 2 > 0, tak povieme, že X má normálne (Gaussovo, gaussovské) rozdelenie pravdepodobnosti s parametrami , 2 a píšeme X N(, 2 ). V prípade = 0 a = 1 ide o standardizovanú normálnu náhodnú veličinu, čo označujeme X N(0, 1). Jej hustota je f(x) = 1 2 e - x2 2 . Normálne rozdelenie má náhodná veličina, ktorá vznikla súčtom veľkého počtu nezávislých náhodných veličín (o rozdelenia ktorých stači predpokladať určité veľmi všeobecné predpoklady). Normálne rozdelenie má veľmi dôležitú úlohu v teórii pravdepodobnosti a matematickej štatistike. Napríklad normálne rozdelená je náhodná chyba meracieho prístroja, chyba pri streľbe na cieľ, telesná výška jedincov homogénnej populácie, atď. Poznamenávame len, že skutočnosť, že f(x) je hustota vyplýva z rovnosti 0 e-a2 x2 dx = 2a , a > 0. Náhodná veličina s gama rozdelením Ak má náhodná veličina X hustotu f(x) = ap (p) e-ax xp-1 , ak x > 0 0, ak x 0 a > 0, p > 0, tak povieme, že X má gama rozdelenie pravdepodobnosti s parametrami a, p. Gama funkcia (a) je definovaná predpisom (a) = 0 xa-1 e-x dx, a > 0. Jej najčastejšie používané vlastnosti sú (a + 1) = a(a), (1 2 ) = , (n) = (n - 1)! pre n N. 5. Náhodná veličina s beta rozdelením Ak má náhodná veličina X hustotu f(x) = 1 B(a,b) xa-1 (1 - x)b-1 , ak 0 < x < 1 0, inak 30 a > 0, b > 0, tak povieme, že X má beta rozdelenie pravdepodobnosti s parametrami a, b. Beta funkcia B(a, b) je definovaná predpisom B(a, b) = 1 0 xa-1 (1-x)b-1 dx, a > 0, b > 0. Vzťah medzi gama a beta funkciou je vyjadrený nasledovne: B(a, b) = (a)(b) (a + b) . Poznámka o distribučných funkciách Diskrétne a spojité náhodné veličiny (resp. distribučné funkcie diskrétnych a spojitých náhodných veličín) predstavujú dve prakticky veľmi dôležité triedy. Vo všeobecnosti ale o distribučných funkciách platí veta (nebudeme ju dokazovať, pozri napr. Rudin, W., Analýza v reálném a komplexním oboru, Academia, Praha, 1977) Veta 6.2. Nech X je náhodná veličina s distribučnou funkciou F. Potom F sa dá napísať v tvare F(x) = a1F(x) + a2Fa(x) + a3Fs(x) a1, a2, a3 0, a1 + a2 + a3 = 1, pričom F() je distribučná funkcia diskrétnej náhodnej veličiny, Fa() je distribučná funkcia absolútne spojitej náhodnej veličiny a Fs() je distribučná funkcia singulárne spojitej náhodnej veličiny. Povieme, že F je singulárne spojitá, ak je spojitá a pritom existuje borelovská množina B Lebesgueovej miery 0 a F miery 1. Takáto funkcia má skoro všade (vzhľadom na Lebesgueovu mieru) deriváciu rovnú 0 a je spojitá v R. Napríklad Cantorova funkcia je spojitá, diferencovateľná, rastúca, deriváciu má nulovú s výnimkou množiny Lebesgueovej miery 0. Takáto funkcia funkcia je spojitá a nie je absolútne spojitá. 31 7. Náhodné vektory Máme často nielen jednu náhodnú veličinu, ale súčasne niekoľko náhodných veličín. Zaujíma nás, či niektoré z nich spolu "akosi" súvisia, či (zname) hodnoty jednej náhodnej veličiny (resp. určitej skupiny náhodných veličín) vedia niečo povedať o hodnote inej náhodnej veličiny (iných náhodných veličín). Snažíme sa vyšetrovať (aj) závislosť. Potrebujeme model, v ktorom pracujeme s niekoľkými náhodnými veličinami súčasne. Zopakujme si: (, A, P) je pravdepodobnostný priestor X : R, pre ktorú platí x R = { : X() < x} A je náhodná veličina. Rozšírme na mnohorozmerný prípad: (, A, P) je pravdepodobnostný priestor X = X1() X2() ... Xn() : Rn , a označme [X < x] = { : X1() < x1, ..., Xn() < xn}. Bn nech je najmenšia -algebra nad intervalmi tvaru (-, x1) × (-, x2) × ... × (-, xn) pre ľubovoľné x Rn (t.j. x = (x1, ..., xn) ). Nazývame ju borelovská -algebra v Rn . Definícia 7.1. Majme pravdepodobnostný priestor (, A, P). Reálna vektorová funkcia X() definovaná na s hodnotami v Rn , pre ktorú platí x Rn = [X < x] A sa nazýva náhodný vektor (vektor náhodných veličín, n-rozmerná náhodná veličina, vektorová náhodná veličina). Definícia 7.2. Nech X = (X1, ..., Xn) je n-rozmerný náhodný vektor definovaný na pravdepodobnostnom priestore (, A, P). Reálnu funkciu F(x1, x2, ..., xn) = P(X1 < x1, ..., Xn < xn) = P([X < x]) definovanú pre každé x Rn nazývame distribučnou funkciou náhodného vektora X. Označenie: (i) h F(x1, ..., xn) = F(x1, ..., xi-1, xi + h, xi+1, ..., xn) - F(x1, ..., xn) je diferencia funkcie F v premennej xi s krokom h 0. Ďalej označme rekurentne (j) hj (i) hi F(x1, ..., xn) = (j) hj [ (i) hi F(x1, ..., xn)] = 32 = (j) hj [F(x1, ..., xi-1, xi + hi, xi+1, ..., xn) - F(x1, ..., xn)] = = F(x1, ..., xi + hi, ..., xj + hj, ..., xn) - F(x1, ..., xj + hj, ..., xn)-[F(x1, ..., xi + hi, ..., xn) - F(x1, ..., xn)] = (i) hi (j) hj F(x1, ..., xn). Vlastnosti distribučnej funkcie popisuje nasledujúca veta Veta 7.1. Distribučná funkcia FX n-rozmerného náhodného vektora má tieto vlastnosti: (i) limxi, 1 i n FX(x1, ..., xn) = 1, (ii) pre i = 1, 2, ..., n je limxi- FX(x1, ..., xn) = 0, x1, ..., xi-1, xi+1, ...xn, (iii) FX je spojitá zľava v každej premennej, (iv) pre ľubovoľné reálne x1, ..., xn a ľubovoľné hk 0, (k = 1, 2, ..., n) platí (1) h1 (2) h2 ... (n) hn F(x1, ..., xn) 0. Dôkaz nájdeme napr. v (Dupač, V., Hušková, M., Pravděpodobnost a matematická statistika, Karolinum, Praha, 2001 alebo Rényi, A., Teorie pravděpodobnosti, Academia, Praha, 1972). Poznámka. Platí (1) h1 (2) h2 ... (n) hn F(x1, ..., xn) = P n i=1 {xi Xi < xi + hi} (dôkaz pozrite napr. v Dupač, V., Hušková, M., Pravděpodobnost a matematická statistika, Karolinum, Praha, 2001). Poznamenávame, že z (iv) a (ii) plynie, že FX je neklesajúca funkcia v každej premennej. Naopak to neplatí, t.j. ak je nejaká funkcia neklesajúca v každej premennej, neplynie z toho ešte (iv), lebo napr. vezmeme n = 2 a F(x1, x2) = 1 pre x1 0, x2 0, x1 + x2 1 a F(x1, x2) = 0 inak, potom F(x1, x2) je neklesajúca v každej premennej a (1) 1 (2) 1 F(0, 0) = (1) 1 [F(0, 1) - F(0, 0)] = F(1, 1) - F(0, 1) - F(1, 0) + F(0, 0) = 1 - 1 - 1 + 0 = -1, čo nemôže byť (podľa predchádzajúcej poznámky) P(0 X1 < 1, 0 X2 < 1), čiže táto funkcia F nie je distribučnou funkciou. Analogicky ako v jednorozmernom prípade definujeme Lebesgueovu-Stieltjesovu mieru F indukovanú distribučnou funkciou F na borelovských množinách Bn (položíme pre n-rozmerný interval < a1, b1)× < a2, b2) × ...× < an, bn), kde ai < bi, i = 1, 2, ..., n, mieru F ({< a1, b1)× < a2, b2) × ...× < an, bn)}) = (1) b1-a1 (2) b2-a2 ... (n) bn-an F(a1, ..., an) a jednoznačne ju rozšírime na všetky borelovské množiny v Rn tak, aby miera n-rozmerných intervalov bola zachovaná). Platí aj nasledujúca veta: Veta 7.2. Nech funkcia F(x1, ..., xn) sp´lňa podmienky (i)-(iv) Vety 7.1. Potom existuje pravdepodobnostný priestor (, A, P) a n-rozmerný náhodný vektor X tak, že FX = F. Dôkaz vety je analogický ako v jednorozmernom prípade. Definícia 7.3. Distribučná funkcia F (n premenných) sa nazýva diskrétna, ak existuje konečná alebo spočitateľná postupnosť M = {xm}mJ , kde J je konečná alebo spočitateľná indexová množina (pričom xm Rn sú navzájom rôzne) a zodpovedajúca postupnosť kladných čísel {pm}mJ tak, že mJ pm = 1 a F(x) = 33 xm 0, inak. Pretože (x, y) R2 platí fX,Y (x, y) = fX (x) fY (y), sú X a Y nezávislé. (b) hustota (X, Y ) je fX,Y (x, y) = c, ak (x.y) G 0, inak. Teda 1 = G fX,Y (x, y)dxdy = c 1 0 1-x 0 dy dx = c 1 0 (1 - x)dx = = c x - x2 2 1 0 = c 2 c = 2. Marginálne hustoty sú fX(x) = fX,Y (x, y)dy = 2 1-x 0 dy = 2 [y] 1-x 0 = 2(1 - x), ak x < 0, 1) 0, inak. Analogicky fY (y) = 2(1 - y), ak y < 0, 1 > 0, inak. Platí, že (x, y) < 0, 1)× < 0, 1 > okrem (x, y) : x < 0, 1 2 >, y = 1-2x 2(1-x) je fX,Y (x, y) = fX (x)fY (y). Množina na ktorej fX,Y (x, y) = fX (x)fY (y) je kladnej Lebesgueovej miery (nie je Lebesgueovej miery 0). Preto X a Y nie sú nezávislé. 9. Rozdelenie pravdepodobnosti transformovaných náhodných veličín Veta 9.1. Nech X je náhodná veličina a h borelovsky merateľná funkcia. Potom h(X) je náhodná veličina. Dôkaz: Nech B B je ľubovoľná borelovská množina. Označme h-1 (B) = {t R : h(t) B}. Pretože h je borelovsky merateľná, je h-1 (B) B. Potom ale { : h(X()) B} = { : X() h-1 (B)} A. Veta 9.2. Nech zobrazenie h : Rn Rm je borelovsky merateľné, t.j. B Bm je {x = (x1, ..., xn) Rn : h(x1, ..., xn) B} Bn . Nech X = (X1, ..., Xn) je n-rozmerný náhodný vektor na (, A, P). Potom Y = h(X) je m-rozmerný náhodný vektor. Dôkaz: Nech B Bm . Potom z merateľnosti h vyplýva, že h-1 (B) = {x Rn : h(x) B} Bn . Preto { : h(X()) B} = { : X() h-1 (B)} A. 39 V ďalšom sa budeme zaoberať rozdelením pravdepodobnosti transformovaných náhodných veličín, resp. transformovaných náhodných vektorov. Poznámka. Pracovať budeme s Lebesgueovým integrálom z borelovsky merateľnej funkcie vzhľadom k Lebesgueovej-Sieljesovej miere F na borelovskej množine A, t.j. budeme pracovať s integrálom I = A (t)dF (t) ozn. = A (t)dF(t). Keď pracujeme s Lebesgueovym integrálom vzhľadom k Lebesgueovej miere, tak I = A (t)d(t) ozn. = A (t)dt. Poznámka. Pokiaľ je distribučná funkcia F funkciou "skokovitou", t.j. je to distribučná funkcia diskrétnej náhodnej veličiny s pravdepodobnostnou funkciou (xi, pi)iJ (J je konečná alebo spočitateľná), je I = A (t)dF(t) = xiA (xi)pi. Ak je F distribučná funkcia spojitej náhodnej veličiny s hustotou f(), tak I = A (t)dF(t) = A (t)f(t)dt, pričom posledný integrál je Lebesgueov integrál s Lebesgueovou mierou. Veta 9.3. Nech náhodná veličina X má distribučnú funkciu FX a h je borelovsky merateľná funkcia. Ak označíme FY distribučnú funkciu náhodnej veličiny Y = h(X), potom y R je FY (y) = By dFX(x), kde By = {x R : h(x) < y}. Dôkaz: Pre ľubovoľné y R položme By = {x R : h(x) < y} a dostávame FY (y) = P(Y < y) = P(h(X) < y) = P(X By) = PX(By) = = By dFX (x) = By dFX(x). Poznámka. (a) Majme diskrétnu náhodnú veličinu X s pravdepodobnostnou funkciou (xi, p (X) i )iJ a h nech je (borelovsky) merateľná. Označme ďalej B y = {x R : y = h(x)}. Pravdepodobnostná funkcia náhodnej veličiny Y = h(X) je (yj, p (Y ) j )jK, kde MY = {yj}jK = {h(xi) : i J}, (h(xi) sú navzájom rôzne) a p (Y ) j = P(Y = yj) = P(h(X) = yj) = P(X Byj ) = PX(B yj ) = {xiByj } p (X) i . 40 (b) Ak X je (absolútne) spojitá náhodná veličina s hustotou fX a distribučnou funkciou FX, Y = h(X), kde h je merateľná a By = {x R : h(x) < y}, tak y R je FY (y) = P(Y < y) = P(h(X) < y) = P(X By) = By fX(x)dx. Jednoducho sa dá určiť hustota fY v prípade, že transformácia y = h(x) (teda funkcia h) je vzájomne jednoznačná (prostá a na) a teda existuje inverzná funkcia h-1 (teda x = h-1 (y)), pričom existuje aj derivácia d dy h-1 (y) a je spojitá. Potom z vety o substitúcii plynie FY (y) = {x: h(x) 0 daná konštanta, tak náhodná veličina Z = cX1 X2 má hustotu h(z) = 1 c 0 f1 zx c f2(x)xdx, s.v. . Predchádzajúce vety využijeme na odvodenie najdôležitejších rozdelení (okrem už spomenutého normálneho rozdelenia), ktoré budeme používať v štatistike. Veta 9.8. Nech X1, ..., Xn sú nezávislé N(0, 1) rozdelené náhodné veličiny. Náhodná veličina Y = X2 1 + X2 2 + ... + X2 n 45 má 2 rozdelenie s n stupňami voľnosti (označujeme Y 2 n) s hustotou f(y) = 1 2 n 2 (n 2 ) y n 2 -1 e- y 2 pre y > 0 a f(y) = 0 pre y 0. Dôkaz: Vetu dokážeme indukciou. Pre n = 1 je pre x 0 FX2 1 (x) = P{X2 1 < x} = P{- x X1 < x} - P{- x = X1} = = x - x 1 2 e- t2 2 dt, preto fX2 1 (x) = d dx FX2 1 (x) = 1 2 e- ( x)2 2 ( x) - 1 2 e- (- x)2 2 (- x) = = 1 2 e- x 2 1 2 x - 1 2 e- x 2 - 1 2 x = 1 2 e- x 2 x- 1 2 = 1 2 1 2 (1 2 ) e- x 2 x- 1 2 (lebo (1 2 ) = ). Teda veta platí pre n = 1. Nech platí pre n, potom pre n + 1 je fX2 1 +...+X2 n+1 (x) = 0 fX2 1 +...+X2 n (x - u)fX2 n+1 (u)du = = x 0 1 2 n 2 (n 2 ) (x - u) n 2 -1 e- x-u 2 1 2 1 2 (1 2 ) u- 1 2 e- u 2 du = = e- x 2 2 n+1 2 (n 2 )(1 2 ) x 0 (x - u) n 2 -1 u- 1 2 du = (substitúcia u x = w, du = xdw, pričom B(, ) = 1 0 (1 - x)-1 x-1 dx) = e- x 2 x n 2 -1 x- 1 2 x 2 n+1 2 (n 2 )(1 2 ) 1 0 (1 - w) n 2 -1 w 1 2 -1 dw = e- x 2 x n+1 2 -1 2 n+1 2 (n 2 )(1 2 ) B(n 2 , 1 2 ) = = 1 2 n+1 2 (n+1 2 ) x n+1 2 -1 e- x 2 . Veta 9.9. Nech X a Y sú nezávislé náhodné veličiny, X 2 k, Y 2 m. Náhodná veličina U = X k Y m má Fisherovo-Snedecorovo F rozdelenie s k a m stupňami voľnosti (značíme U Fk,m) a hustotu fU (u) = (k+m 2 ) (k 2 )(m 2 ) k m k 2 u k 2 -1 1 + ku m - k+m 2 pre u > 0 46 a fU (u) = 0 pre u 0. Dôkaz: Platí U = m k X Y . Využijeme Vetu 9.7(ii) a Vetu 9.8. Dostávame pre u > 0 (pre u 0 je hustota 2 k rovná 0) fU (u) = k m 0 y 1 2 k 2 (k 2 ) uyk m k 2 -1 e- uyk 2m 1 2 m 2 (m 2 ) y m 2 -1 e- y 2 dy = = k m k 2 u k 2 -1 2 k+m 2 (k 2 )(m 2 ) 0 y k+m 2 -1 e- y 2 ( ku m +1) dy = (substitucia y 2 (ku m + 1) = t) = k m k 2 u k 2 -1 ku m + 1 -1 2 k+m 2 (k 2 )(m 2 ) 0 2 k+m 2 t k+m 2 -1 ku m + 1 k+m 2 -1 e-t dt = = (k+m 2 ) (n 2 )(1 2 ) k m k 2 u k 2 -1 1 + ku m - k+m 2 . Veta 9.10. Nech X 2 n. Náhodná veličina Y = X má rozdelenie a n stupňami voľnosti (značíme Y n) a hustotu fY (y) = 1 2 n 2 -1(n 2 ) yn-1 e- y2 2 pre y > 0 a fY (y) = 0 pre y 0. Dôkaz: Náhodná veličina Y nadobúda (rovnako ako X) len kladné hodnoty. Pre y > 0 je FY (y) = P{ X < y} = P{X < y2 } = y2 0 1 2 n 2 (n 2 ) x n 2 -1 e- x 2 dx = (použijeme substitúciu x = t2 , dx = 2tdt) = y 0 1 2 n 2 (n 2 ) tn-2 e- t2 2 2tdt = y 0 1 2 n 2 -1(n 2 ) tn-1 e- t2 2 dt. Veta 9.11. Nech náhodné veličiny Z N(0, 1) a X 2 n sú nezávislé. Náhodná veličina T = Z X n má Studentovo t rozdelenie s n stupňami voľnosti (značíme tn) a hustotu fT (t) = n+1 2 n 2 n 1 + t2 n - n+1 2 , t (-, ). 47 Dôkaz: T = nZ X a podľa Vety 9.7(ii) a Vety 9.10 dostávame (pre t (-, )) fT (t) = 1 n 0 y 1 2 e- t2y2 2n 1 2 n 2 -1(n 2 ) yn-1 e- y2 2 dy = = 1 2 n-1 2 (n 2 ) n 0 yn e- y2 2 ( t2 n +1) dy = (substitúcia y2 2 t2 n + 1 = x, y = x 1 2 t2 n + 1 - 1 2 2 1 2 , y t2 n + 1 dy = dx) = 1 (n 2 ) n t2 n + 1 n+1 2 0 x n+1 2 -1 e-x dx = n+1 2 n 2 n 1 + t2 n - n+1 2 . 10. Charakteristiky rozdelenia pravdepodobnosti Stredná hodnota a rozptyl Definícia 10.1. Nech X je náhodná veličina na (, A, P) a nech existuje X()dP() < . Potom číslo E(X) = X()dP() nazývame strednou hodnotou náhodnej veličiny X. Ak uvedený integrál nie je konečný alebo neexistuje, hovoríme, že stredná hodnota náhodnej veličiny X ne- existuje. Poznámka. Z definície strednej hodnoty náhodnej veličiny X vyplýva, že E(X) existuje práve vtedy ak je X borelovsky merateľná funkcia a integrovateľná na vzhľadom k pravdepodobnostnej miere P. L1(, A, P) = L1 označujeme množinu (priestor) všetkých náhodných veličín, ktoré majú konečnú strednú hodnotu na (, A). Základné vlastnosti strednej hodnoty vyplývajú zo základných vlastností integrovateľných funkcií (z teórie integrálu). Veta 10.1. (Základné vlastnosti strednej hodnoty.) Nech X, X2, X3 sú náhodné veličiny definované na (, A, P), a, a2, a3 R. Potom (i) E(X) existuje (t.j. X L1) E|X| existuje; (ii) ak P(X = a) = 1 = E(X) = a; (iii) ak existujú E(X1), E(X2) = E(a1X1 + a2X2) = a1E(X1) + a2E(X2); (iv) ak existujú E(X1), E(X2) a X1 X2 = E(X1) E(X2); (v) ak |X1| X2 a existuje E(X2), tak existuje E(X1); (vi) nech P(X 0) = 1 = E(X) 0. Dôkaz vyplýva z vlastností Lebesgueovho integrálu. 48 Ďalšie vlastnosti strednej hodnoty, hlavne vzorce vhodné na jej výpočet vyplývajú z vety o prenose integrácie z merateľného priestoru (, A) na merateľný priestor (, D) pomocou merateľnej funkcie h. Táto veta v prípade, že (, D) = (Rn , Bn ) a h je n-rozmerný náhodný vektor znie: Veta 10.2. (O prenose integrácie.) Nech X = (X1, ..., Xn) je náhodný vektor definovaný na pravdepodobnostnom priestore (, A, P), g je borelovsky merateľná funkcia na (Rn , Bn ), PX je rozdelenie pravdepodobnosti náhodného vektora X. Potom g(X())dP() = Rn g(x)dPX(x) v zmysle, že ak jeden z integrálov existuje, tak existuje aj druhý a rovnajú sa. Poznámka Ak má náhodný vektor X = (X1, ..., Xn) distribučnú funkciu F(), potom rozdelenie pravdepodobnosti Px = F , kde F je Lebesgueova-Stieltjesova miera indukovaná distribučnou funkciou F a môžeme písať g(X())dP() = Rn g(x)dF (x) píšeme = Rn g(x)dF(x). Priamym dôsledkom vety o prenose integrácie je nasledujúci dôsledok, pomocou ktorého spočítame strednú hodnotu náhodnej veličiny Y = g(X), keď g je borelovská funkcia a X náhodná veličina. Dôsledok. Nech X je náhodná veličina a g borelovská funkcia. Potom stredná hodnota náhodnej veličiny Y = g(X) existuje práve vtedy, ak existuje a je konečný integrál |g(x)|dF(x) < . V tomto prípade platí E(Y ) = - g(x)dF(x) (teda Y = g(X) L1(, A, P) |g(x)|dF(x)dx < ). Špeciálne (a) ak je X diskrétna s pravdepodobnostnou funkciou (xi, pi)iJ , potom E(Y ) existuje práve vtedy ak iJ |g(xi)|pi < a platí E(Y ) = iJ g(xi)pi (teda Y = g(X) L1(, A, P) iJ |g(xi)|pi < ). (b) ak je X spojitá s hustotou f, potom E(Y ) existuje práve vtedy ak existuje |g(x)|f(x)dx < a platí E(Y ) = - g(x)f(x)dx (teda Y = g(X) L1(, A, P) |g(x)|f(x)dx < ). V prípade, že v predchádzajúcom Dôsledku uvažujeme funkciu g(x) = x, vieme spočítať strednú hodnotu náhodnej veličiny X nasledovne: 49 Dôsledok. Nech X je náhodná veličina na (, A, P). Potom stredná hodnota náhodnej veličiny X existuje práve vtedy, ak existuje a je konečný integrál |x|dF(x) < . V tomto prípade platí E(Y ) = - xdF(x) (teda X L1(, A, P) |x|dF(x)dx < ). Špeciálne (a) ak je X diskrétna s pravdepodobnostnou funkciou (xi, pi)iJ , potom E(X) existuje práve vtedy ak iJ |xi|pi < a platí E(X) = iJ xipi (teda X L1(, A, P) iJ |xi|pi < ). (b) ak je X spojitá s hustotou f, potom E(X) existuje práve vtedy ak existuje |x|f(x)dx < a platí E(Y ) = - xf(x)dx (teda X L1(, A, P) |x|f(x)dx < ). V prípade, že máme náhodný vektor, tak použijeme nasledujúci dôsledok. Dôsledok. Nech X = (X1, ..., Xn) je náhodný vektor definovaný na (, A, P) a g(x1, ..., xn) borelovská funkcia. Potom stredná hodnota náhodnej veličiny Y = g(X) existuje práve vtedy, ak existuje a je konečný integrál |g(x)|dF(x) < . V tomto prípade platí E(Y ) = - g(x)dF(x). Špeciálne (a) ak je X je diskrétneho typu s pravdepodobnostnou funkciou (xi, pi)iJ , potom E(Y ) existuje práve vtedy ak iJ |g(xi)|pi < a platí E(Y ) = iJ g(xi)pi. (b) ak je X spojitá s hustotou f(x1, ..., xn), potom E(Y ) existuje práve vtedy ak existuje |g(x)|f(x)dx < a platí E(Y ) = - g(x)f(x)dx. Príklad 10.1. Stredná hodnota náhodnej veličiny s poissonovským rozdelením (stredná hodnota Poissonovho rozdelenia). Nech X Po(), teda X má pravdepodobnostnú funkciu (xi, pi)i 1, kde xi = 0, 1, 2, ... a pi = e- xi xi! . 50 Preto E(X) = j=0 je- j j! = e- j=1 j (j - 1)! = e- j=1 j-1 (j - 1)! = e- k=0 k k! = . Príklad 10.2. Stredná hodnota náhodnej veličiny s normálnym rozdelením. Nech X N(, 2 ), > 0, teda jej hustota je f(x) = 1 2 e- (x-)2 22 , x (-, ). Potom E(X) = xf(x)dx = 1 2 - xe- (x-)2 22 dx = (substitúcia y = x- , x = y + , dy = dx ) = 1 2 (y + )e- y2 2 dy = 2 ye- y2 2 dy + - 1 2 e- y2 2 dy = , lebo ye- y2 2 je nepárna (lichá) funkcia. Veta 10.3. (Stredná hodnota súčinu nezávislých náhodných veličín.) Nech X1, ..., Xn sú nezávislé náhodné veličiny na (, A, P) a nech existujú stredné hodnoty E(Xi), i = 1, 2, ..., n, (t.j. Xi L1(, A, P)). Potom platí E( n i=1 Xi) = n i=1 E(Xi). Dôkaz: Položme Y = n i=1 Xi, teda g(x1, ..., xn) = x1x2...xn. Podľa posledného Dôsledku je E(Y ) = Rn g(x1, ..., xn)dFX(x1, ..., xn) = Rn x1...xnd[FX1 (x1)...FXn (xn)] = = R x1dFX1 (x1)... R xndFXn (xn) = n i=1 E(Xi). Počiatočne, centrálne a absolútne momenty Nech X je náhodná veličina na pravdepodobnostnom priestore (, A, P). Potom (číslo) n = E(Xn ) nazývame n-tým počiatočným (obecným) momentom náhodnej veličiny X, n = E ((X - E(X)) n ) nazývame n-tým centrálnym momentom náhodnej veličiny X, n = E(|X|n ) nazývame n-tým absolútnym momentom náhodnej veličiny X, ak uvedené stredné hodnoty existujú. 51 Poznámka. Ak je n-tý moment konečný, t.j. E(Xn ) < , tak píšeme X Ln(, A, P), alebo skrátene X Ln. Definícia 10.2 Druhý centrálny moment 2 = E (X - E(X)) 2 náhodnej veličiny X (ak existuje) voláme rozptyl alebo disperzia a označujeme D(X) = E (X - E(X)) 2 = 2. Číslo X = D(X) nazývame smerodajnou odchýlkou náhodnej veličiny X. Poznámka. Ak X L2, potom X L1, lebo zo Schwarzovej nerovnosti |E(X)| = R xdFX(x) = R 1xdFX(x) R x2dFX(x) R 12dFX (x) = E(X2). Veta 10.4. (Vlastnosti rozptylu.) Nech X, X1, X2 sú náhodné veličiny definované na (, A, P) s konečnými druhými momentami, a, a1, a2 R. Potom (i) D(X) 0, (ii) D(X) = E(X2 ) - E2 (X), (iii) ak P(X = a) = 1, tak D(X) = 0, (iv) D(a1 + a2X) = a2 2D(X), (v) ak X1 a X2 sú nezávislé, tak D(X1 + X2) = D(X1) + D(X2). Dôkaz: (i) Pre náhodnú veličinu Y = (X - E(X))2 platí, že P(Y 0) = 1, preto z vlastnosti strednej hodnoty E(Y ) = D(X) 0, (ii) D(X) = E (X - E(X)) 2 = E[X2 - 2XE(X) + (E(X))2 ] = = E(X2 ) - 2E(X)E(X) + (E(X))2 = E(X2 ) - E2 (X), (iii) ak je P(X = a) = 1, tak X je diskrétna náhodná veličina s pravdepodobnostnou funkciou (a, 1), teda E(X) = a1 = a a D(X) = E(X -E(X))2 = (a-a)2 1 = 0, (iv) D(a1 +a2X) = E[a1 +a2X -E(a1 +a2X)]2 = E(a1 +a2X -a1 -a2E(X))2 = E[a2 2(X - E(X))2 ] = a2 2E(X - E(X))2 = a2 2D(X), (v) D(X1 + X2) = E[X1 + X2 - E(X1 + X2)]2 = E[X1 + X2 - E(X1) - E(X2)]2 = E[(X1 -E(X1))2 +2(X1 -E(X1))(X2 -E(X2))+(X2 -E(X2))2 ] = E(X1 -E(X1))2 + E(X2 - E(X2))2 + 2E[(X1 - E(X1))(X2 - E(X2))]. Pretože sú X1 a X2 nezávislé, platí E(X1X2) = E(X1)E(X2). Ale tiež (X1 -E(X1)) a (X2 -E(X2)) sú nezávislé a tiež E[(X1 -E(X1))(X2 -E(X2))] = E(X1 -E(X1))E(X2 -E(X2)) = 0. Dostávame, že D(X1 + X2) = D(X1) + D(X2). Príklad 10.3. Rozptyl náhodnej veličiny s poissonovským rozdelením (rozptyl Poissonovho rozdelenia). Nech X Po(), teda X má pravdepodobnostnú funkciu (xi, pi)i 1, kde xi = 0, 1, 2, ... a pi = e- x i xi! . V Príklade 10.1. sme spočítali, že E(X) = . Platí D(X) = E(X2 ) - E2 (X). Spočítame E(X2 ) = j=0 j2 e- j j! = e- 1 1! + j=2 [j(j - 1) + j] j j! = 52 = e- j=2 j (j - 2)! + e- j=0 j j j! = e- 2 j=0 j j! + = 2 + . Preto D(X) = E(X2 ) - E2 (X) = 2 + - 2 = . Príklad 10.4. Rozptyl náhodnej veličiny s normálnym rozdelením. Nech X N(, 2 ), > 0, teda jej hustota je f(x) = 1 2 e- (x-)2 22 , x (-, ). V Príklade 10.2. sme spočítali, že E(X) = . Preto D(X) = E(X - )2 = (x - )2 f(x)dx = 1 2 (x - )2 e- (x-)2 22 dx = (substitúcia u = x- , x = u + , du = dx ) = 2 2 - u2 e- u2 2 du = 2 2 2 0 u2 e- u2 2 du = (substitúcia u2 2 = t, u = 2t, udu = dt) = 22 2 0 2te-t dt = 22 0 t 3 2 -1 e-t dt = 22 (3 2 ) = 22 1 2 (1 2 ) = 2 . Medián, módus a kvantily K charakterizácii rozdelenia pravdepodobnosti náhodnej veličiny X s distribučnou funkciou F sa používajú aj iné charakteristiky. Jednou z nich je medián ~x. Je to (ľubovoľné) číslo, pre ktoré platí F(~x) 1 2 , F(~x + 0) 1 2 . Vo všeobecnosti tieto podmienky neurčujú medián jednoznačne. Ďalšia charakteristika je módus ^x. Ak je náhodná veličina diskrétneho typu s pravdepodobnostnou funkciou (xi, pi)i 1, tak ^x je to číslo xj, pre ktoré platí P(X = ^x) P(X = xi), i = 1, 2, .... Ak má X spojité rozdelenie s hustotou f, za módus považujeme tú hodnotu ^x R, pre ktorú platí f(^x) f(x), - < x < . Ani módus nie je vo všeobecnosti určený jednoznačne. Zaveďme si funkciu F-1 predpisom F-1 (u) = inf{x R : F(x) u}, 0 < u < 1. Funkcia F-1 sa nazýva kvantilová funkcia zodpovedajúca distribučnej funkcii F. Hodnoty F-1 (u) sú kvantily. Teda -kvantilom je F-1 (). Ak je F rastúca a spojitá, potom F-1 je inverzná funkcia k distribučnej funkcii F. 53 Veta 10.5. (Čebyševova nerovnosť.) Nech X je náhodná veličina s konečným druhým momentom. Potom pr ľubovoľné > 0 platí P(|X - E(X)| ) D(X) 2 . Dôkaz: Pre ľubovoľné > 0 položme M = {x R : |x - E(X)| }. D(X) = E(X - E(X))2 = (x - E(X))2 dF(x) M (x - E(X))2 dF(x) 2 M dF(x) = 2 P(X M) = 2 P(|X - E(X)| ), teda P(|X - E(X)| ) D(X) 2 . Poznámka. Z Čebyševovej nerovnosti dostávame P(|X - E(X)| < ) = 1 - P(|X - E(X)| ) 1 - D(X) 2 . V prípade, že zvolíme = k D(X), je P(|X - E(X)| < k D(X)) 1 - 1 k2 , špeciálne pre k = 3 P(|X - E(X)| < 3 D(X)) 1 - 1 9 . = 0.89. Kovariancia a korelačný koeficient V nasledujúcom budeme predpokladať, že náhodné veličiny majú konečné druhé momenty. Definícia 10.3. Kovariancia náhodných veličín X a Y je (číslo) C(X, Y ) = E [(X - E(X))(Y - E(Y ))] a korelačný koeficient R(X, Y ) = C(X, Y ) D(X)D(Y ) , ak D(X) > 0, D(Y ) > 0. Niekedy značime R(X, Y ) ako X,Y . Pomocou vety o strednej hodnote transformovaného náhodného vektora dostávame Veta 10.6. Ak náhodné veličiny X a Y majú združenú distribučnú funkciu F(x, y), potom C(X, Y ) = (x - E(X))(y - E(Y ))dF(x, y), 54 teda (a) v prípade, že (X, Y ) je náhodný vektor s pravdepodobnostnou funkciou ((xm, ym), pm)mJ , tak C(X, Y ) = mJ (xm - E(X))(ym - E(Y ))pm; (b) v prípade, že (X, Y ) je spojitý náhodný vektor so združenou hustotou f(x, y), tak C(X, Y ) = (x - E(X))(y - E(Y ))f(x, y)dxdy. Veta 10.7. (Vlastnosti kovariancie a korelačného koeficienta.) Nech X a Y sú náhodné veličiny, s konečnými nenulovými rozptylmi, a1, a2, b1, b2 R. Potom (i) C(X, X) = D(X) a R(X, X) = 1; (ii) C(X, Y ) = C(Y, X) a R(X, Y ) = R(Y, X); (iii) C(X, Y ) = E(XY ) - E(X)E(Y ); (iv) ak sú X a Y nezávislé náhodné veličiny, tak C(X, Y ) = R(X, Y ) = 0; (v) |C(X, Y )| D(X)D(Y ) = XY a |R(X, Y )| 1; (vi) C(a1 + a2X, b1 + b2Y ) = a2b2C(X, Y ) a ak a2 = 0, b2 = 0, tak R(a1 + a2X, b1 + b2Y ) = R(X, Y )sign(a2b2); (vii) D(X + Y ) = D(X) + D(Y ) + 2C(X, Y ); (viii) R(X, Y ) = 1 existujú konštanty a a b > 0 také, že P(Y = a+bX) = 1 a R(X, Y ) = -1 existujú konštanty a a b < 0 také, že P(Y = a+bX) = 1. Dôkaz: (i) C(X, X) = E(X - E(X))2 = D(X) a R(X, X) = C(X, X) D(X) D(X) = 1; (ii) C(X, Y ) = E[(X -E(X))(Y -E(Y ))] = E[(Y -E(Y ))(X -E(X))] = C(Y, X), teda aj R(X, Y ) = C(X, Y ) D(X) D(Y ) = C(Y, X) D(Y ) D(X) = R(Y, X); (iii) C(X, Y ) = E[(X-E(X))(Y -E(Y ))] = E[XY -XE(Y )-Y E(X)+E(X)E(Y )] = E(XY ) - E(X)E(Y ); (iv) ak su X a Y nezávislé, tak E(XY ) = E(X)E(Y ) a teda C(X, Y ) = E(XY ) -E(X)E(Y ) = E(X)E(Y ) - E(X)E(Y ) = 0 a preto aj R(X, Y ) = 0; (v) podľa Schwarzovej nerovnosti - (x - E(X))(y - E(Y ))dF(x, y) 2 (10.1) - (x - E(X))2 dF(x, y) - (y - E(Y ))2 dF(x, y) , teda |C(X, Y )| D(X)D(Y ) a podelením tejto rovnosti výrazom D(X)D(Y ) dostávame |R(X, Y )| = |C(X, Y )| D(X)D(Y ) 1; 55 (vi) C(a1+a2X, b1+b2Y ) = E[(a1+a2X-E(a1+a2X))(b1+b2Y -E(b1+b2Y ))] = E{[a2(X - E(X))][b2(Y - E(Y ))]} = a2b2E[(X - E(X))(Y - E(Y ))] = a2b2C(X, Y ) a ak a2 = 0, b2 = 0, tak R(a1 + a2X, b1 + b2Y ) = a2b2C(X, Y ) a2 2D(X) b2 2D(Y ) = a2b2 |a2||b2| R(X, Y ) = sign(a2b2)R(X, Y ); (vii) D(X + Y ) = E[X + Y - E(X + Y )]2 = E[(X - E(X)) + (Y - E(Y ))]2 = E[(X -E(X))2 +2(X -E(X))(Y -E(Y ))+(Y -E(Y ))2 ] = D(X)+2C(X, Y )+E(Y ); (viii) R(X, Y ) = 1 |C(X, Y )| = D(X)D(Y ) > 0, t.j. nastala rovnosť v Schwarzovej nerovnosti (10.1), ktorá môže nastať práve vtedy keď 1. b = 0, že F {(x, y) R2 : y - E(Y ) = b(x - E(X))} = 1, alebo keď 2. F {(x, y) R2 : x - E(X) = 0} = 1 alebo F {(x, y) R2 : y - E(Y ) = 0} = 1. Pretože v druhom prípade by bola D(X) = 0 alebo D(Y ) = 0 (čo nemôže byť), nastáva iba 1. prípad a teda b = 0 P{ : Y () - E(Y ) = b(X() - E(X))} = 1, čiže b = 0 P{Y = E(Y ) - bE(X) + b(X) = a + bX} = 1. Preto C(X, Y ) = C(X, a + bX) = bC(X, X) > 0 (podľa (vi)) a b > 0. Prípad R(X, Y ) = -1 dokážeme úplne analogicky. Poznámka. Ak je C(X, Y ) = 0, teda ak je R(X, Y ) = 0, potom povieme, že náhodné veličiny X a Y su nekorelované. Príklad 10.5. Nech (X, Y ) je diskrétny náhodný vektor s pravdepodobnostnou funkciou ((x, y)i, pi)iJ , pričom M = {(x, y)i}iJ = {-1, 0, 1} × {-1, 0, 1} a p(-1, 1) = p(-1, -1) = p(1, 1) = p(1, -1) = 1 6 , p(0, 0) = 1 3 , p(-1, 0) = p(0, 1) = p(0, -1) = p(1, 0) = 0. Vypočítajte R(X, Y ) a rozhodnite, či X a Y sú nezávislé. x \ y -1 0 1 pX(y) -1 1/6 0 1/6 2/6 0 0 1/3 0 1/3 1 1/6 0 1/6 2/6 pY (x) 2/6 1/3 2/6 1 Riešenie: E(X) = x{-1,0,1} xpX(x) = (-1)1 3 + 01 3 + 11 3 = 0 a rovnako E(Y ) = 0. Ďalej E(XY ) = (x,y){-1,0,1}×{-1,0,1} xypX,Y (x, y) = (-1)(-1)1 6 + 1(-1)1 6 + (-1)11 6 + 1 11 6 = 0, teda C(X, Y ) = E(XY ) - E(X)E(Y ) = 0. Náhodné veličiny X a Y sú nekorelované. Ale pX,Y (-1, -1) = 1 6 = pX(-1)pY (-1) = 2 6 2 6 = 1 9 . 11. Charakteristická funkcia 56 Pravdepodobnostné správanie sa náhodných veličín a vektorov úplne charakterizuje ich rozdelenie pravdepodobnosti resp. distribučná funkcia. Mnoho vlastností náhodných veličín alebo vektorov je ale ťažkopánde a zďlhavé dokazovať pomocou distribučnej funkcie. Pracujeme preto s iným analytickým vyjadrením rozdelenia pravdepodobnosti, a síce s Fourierovou-Stieltjesovou transformáciou, ktorá sa v teórii pravdepodobnosti volá charakteristická funkcia. Definícia 11.1 Charakteristická funkcia náhodnej veličiny X je komplexná funkcia reálnej premennej () : R C definovaná ako (t) = E eitX , t R. V teórii pravdepodobnosti sa dokazuje množstvo vlastností charakteristických funkcií. Niektoré sú obsahom nasledujúcej vety. Dôkazy tejto aj nasledujúcich viet nájdeme v napr. knihe Rényi, A., Teorie pravděpodobnosti, ACADEMIA, Praha, 1972. Veta 11.1. Nech X je náhodná veličina a (t) jej charakteristická funkcia. Potom (i) |(t)| 1 t R; (ii) (0) = 1; (iii) t R (t) = (-t); (iv) (t) je rovnomerne spojitá na R. ( >0>0 t1,t2 |t2-t1|< |(t2) - (t1)| < ) Veta 11.2. Ak existuje prvých n momentov 1, ..., n náhodnej veličiny X a tieto momenty sú konečné, potom charakteristická funkcia (t) náhodnej veličiny X má prvých n derivácií a platí (k) (0) = ik k, k = 1, 2, ..., n. Ďalej platí (t) = n k=0 k (it)k k! + o(tn ), kde o(tn ) je taká fumkcia, že limt0 o(tn ) tn = 0. Veta 11.3. Ak je (t) charakteristická funkcia zodpovedajúca distribučnej fumkcii F(x) a a, b, a < b body spojitosti funkcie F(x), tak platí F(b) - F(a) = 1 2 - (t) e-ita - e-itb 2it - (-t) eita - eitb 2it dt. Veta 11.4. Ak pre charakteristickú funkciu (t) náhodnej premennej X platí |(t)|dt < , tak má X spojitú hustotu f(x) a môžeme ju vyjadriť v tvare f(x) = 1 2 - (t)e-itx dt. Príklad 11.1. Nech X A(), teda X má alternatívne rozdelenie s pravdepodobnostnou funkciou (xi, pi)i=1,2, pričom x1 = 0, x2 = 1 a p1 = 1 - , p2 = . Charakteristická funkcia tejto náhodnej premennej je X (t) = E(eitX ) = eitx1 (1 - ) + eitx2 = eit0 (1 - ) + eit1 = 1 - + eit . 57 Charakteristická funkcia Y Bi(n, ) je (t) = (1 - + eit )n . Príklad 11.2. Nech X Ro(-a, a) (rovnomerne rozdelená na (-a, a)). Potom jej hustota je f(x) = 1 2a , ak - a < x < a 0, ak x / (-a, a). Charakteristická funkcia tejto náhodnej veličiny je pre t = 0 (t) = E eitX = - eitx f(x)dx = a -a eitx f(x)dx = 1 2a eitx it a -a = = 1 2a eita - e-ita it = cos(ta) + i sin(ta) - cos(-ta) + i sin(ta) 2at = sin at at a (0) = E ei0X = - ei0x f(x)dx = 1. Príklad 11.3. Nech U N(0, 1). Jej charakteristická funkcia je U (t) = E eitU = eitu 1 2 e- 1 2 u2 du = = 1 2 e- 1 2 (u2 -2itu) du = 1 2 e- 1 2 [(u-it)2 +t2 ] du = (substitúcia u - it = s, du = ds, môže sa použiť aj Dodatok na str. 98) = e- 1 2 t2 1 2 e- 1 2 s2 ds = e- t2 2 . Dokážte, že charakteristická funkcia X N(, 2 ), 2 > 0 je X(t) = eit e- 2t2 2 . (Použite substitúciu x- = u.) Dokážme si ešte niektoré vlastnosti charakteristickej funkcie. Veta 11.4. Nech X je náhodná veličina, X(t) jej charakteristická funkcia, a, b reálne čísla. Potom náhodná veličina Y = a + bX má charakteristickú funkciu Y (t) = eita (tb). Dôkaz: Y (t) = E eitY = E eit(a+bX) = E eita eitbX = eita E eitbX = eita X(tb). Najdôležitejšie aplikácie pre charakteristickú funkciu plynú z nasledujúcej vety. Veta 11.5. Nech X1 a X2 sú nezávislé náhodné veličiny s charakteristickými funkciami 1(t) a 2(t). Potom náhodná veličina X = X1 +X2 má charakteristickú funkciu X (t) = 1(t)2(t). Dôkaz: X(t) = E eit(X1+X2) = E eitX1 eitX2 = E eitX1 E eitX2 = 1(t)2(t). 58 Upozorňujeme len, že tvrdenie Vety 11.5 podľa nasledujúceho protipríkladu nemožno obrátiť. Príklad 11.4. Nech X1 má Cauchyho rozdelenie s hustotou f(x) = 1 1 1+x2 , x R. Položme X2 = X1 a spočítajme charakteristickú funkciu náhodnej veličiny X = X1 + X2 = 2X1. Charakteristická funkcia náhodnej veličiny X1 je X1 (t) = 1 eitx 1 1 + x2 dx = e-|t| (podľa rezíduovej vety, môže sa použiť aj Dodatok na str. 98). Pretože X = 2X1, je X (t) = 0+2X1 (t) = eit0 X1 (2t) = e-|2t| . Dostali sme X1+X1 (t) = X1 (t)X2 (t), ale X1 a X2 nie sú nezávislé. Charakteristická funkcia náhodného vektora Nech X = (X1, ..., Xn) je n-rozmerný náhodný vektor. Definícia 11.2. Funkciu : Rn C definovanú predpisom (t) = (t1, ..., tn) = E eit X = E ei Pn j=1 tj Xj budeme nazývať charakteristickou funkciou náhodného vektora X. Analogicky ako v jednorozmernom prípade sa dajú odvodiť vlastnosti charakteristickej funkcie náhodného vektora. Veta 11.6. Platí (i) |(t)| 1 pre všetky t Rn ; (ii) (0, 0, ..., 0) = (0) = 1; (iii) (-t1, -t2, ..., -tn) = (t1, ..., tn); (iv) je rovnomerne spojitá na Rn ; (v) b Rm , Am,n je matica reálnych čisel, Y = b + AX, potom Y(u) = eiu b X(A u), u Rm ; (vi) keď existujú stredné hodnoty E(Xj) pre j = 1, 2, ..., n, potom (t) tj t=(0,0,...,0) = iE(Xj); (vii) keď existujú stredné hodnoty E(XjXk) pre j, k = 1, 2, ..., n, potom 2 (t) tjtk t=(0,0,...,0) = -E(XjXk); (viii) ak j(t) je charakteristická funkcia náhodnej veličiny Xj, potom j(tj) = X(0, 0, ..., tj, 0, ..., 0); (ix) nech X má charakteristickú funkciu X(t1, ..., tn) a Y má charakteristickú funkciu Y(t1, ..., tn), pričom X, Y sú nezávislé, potom Z = X + Y má charakteristickú funkciu Z(t) a platí Z(t) = X(t)Y(t); 59 (x) zložky náhodného vektora X = (X1, X2, ..., Xn) sú nezávislé práve vtedy ak X(t) = n i=1 Xi (ti) (dôkaz pozri v Rényi, A. Teoria pravděpodobnosti, ACADEMIA, Praha, 1972). 12. Konvergencia náhodných veličín Majme postupnosť náhodných veličín X1, X2, ... a náhodnú veličinu X. Nech sú všetky tieto veličiny definované na (tom istom) pravdepodobnostnom priestore (, A, P). Definícia 12.1. Povieme, že Xn konverguje k X skoro iste, ak P({ : Xn() X()}) = 1. Ak pre každé > 0 platí P({ : |Xn() - X()| > }) 0, potom povieme, že Xn konverguje k X podľa pravdepodobnosti. Nech E(X2 n) < pre n = 1, 2, ... . Ak platí E (Xn - X)2 0, potom povieme, že Xn konverguje k X podľa (kvadratického) stredu. Nech Xn má distribučnú funkciu Fn() a nech Nech X má distribučnú funkciu F(). Povieme, že Xn konverguje k X v distribúcii ak Fn(x) konverguje k F(x) v každom bode x, v ktorom je F() spojitá. Táto konvergencia sa často označuje aj ako L(Xn) L(X) a hovorí sa, že Xn má asymptotické rozdelenie L(X). Niekedy sa táto konvergencia volá aj slabá konvergencia. Lema 12.1. (i) Postupnosť Xn konverguje k X podľa pravdepodobnosti práve vtedy, ak > 0 a > 0 existuje n0, že pre věstky n n0 platí P({ : |Xn() - X()| > }) < . (ii) Postupnosť Xn konverguje k X podľa pravdepodobnosti práve vtedy, ak k N a > 0 existuje n0, že pre věstky n n0 platí P({ : |Xn() - X()| 1 k }) < . (iii) Postupnosť Xn konverguje k X podľa pravdepodobnosti práve vtedy, ak > 0 P({ : |Xn() - X()| }) 0. Dôkaz je jednoduchý a spravte si ho ako cvičenie. Veta 12.1. (Limitná veta pre charakteristické funkcie.) Nech je daná postupnosť distribučných funkcií F1(), F2(), ... a im zodpovedajúca postupnosť charakteristických funkcií 1(), 2(), ... . K tomu, aby postupnosť {Fn()} konvergovala k nejakej distibučnej funkcii F() vo všetkých bodoch spojitosti tejto funkcie, je nutné a stačí, aby postupnosť {n()} konvergovala v každom bode k nejakej funkcii (), ktorá je spojitá v bode t = 0. Ak je táto podmienka splnená, 60 tak () je charakteristická funkcia odpovedajúca distribučnej funkcii F() a postupnosť {n()} konverguje k () rovnomerne na každom konečnom intervale. ( >0N n>N t|n(t) - (t)| < ) Dôkaz vety nájdete napríklad v knihe Rényi, A. Teorie pravděpodobnosti, ACADEMIA, Praha, 1972. Veta 12.2. a) Z konvergencie skoro iste plynie konvergencia podľa pravdepodob- nosti. b) Z konvergencie podľa stredu plynie konvergencia podľa pravdepodobnosti. c) Z konvergencie podľa pravdepodobnosti plynie konvergencia v distribúcii. Dôkaz: pozri Anděl, J., Matematická statistika, SNTL, Praha, 1985. Poznámka. Bez ďalších podmienok sa tvrdenie Vety 12.2 nedá zosilniť. Z konvergencie skoro iste neplynie konvergencia podľa stredu a z konvergencie podľa stredu neplynie konvergencia skoro iste. Z konvergencie podľa pravdepodobnosti neplynie konvergencia skoro iste ani konvergencia podľa stredu. Z konvergencie v distribúcii neplynie konvergencia podľa pravdepodobnosti ani konvergencia skoro iste ani konvergencia podľa stredu. Protipríklady nájdeme v knižkách o teórii pravde- podobnosti. 13. Zákon veľkých čísel Ak máme postupnosť náhodných veličín X1, X2, ..., ktoré sú nezávislé a rovnako rozdelené, potom "výberový priemer", teda náhodná veličina 1 n n i=1 Xi "sa blíži" (teda jej realizácia vždy "lepšie a lepšie" vyjadruje) strednú hodnotu E(X1) (len upozorňujeme, že stredné hodnoty náhodných veličín X1, X2, ... sú rovnaké). Tento fakt matematicky vyjadruje zákon veľkých čísel. Jeho snáď najjednoduchšia podoba je: Veta 13.1. (Zákon veľkých čísel.) Nech X1, X2, ... sú (po dvoch) nezávislé náhodné veličiny s rovnakými strednými hodnotami (konečnými) a rovnakými (konečnými) rozptylmi 2 definované na (rovnakom) pravdepodobnostnom priestore (, A, P). Potom pre n platí X = 1 n n i=1 Xi podľa pravdepodobnosti. Dôkaz: Ľahko sa vidí, že platí E(X) = , D(X) = 2 n . Z Čebyševovej nerovnosti (Veta 10.5) dostávame pre > 0 P(|X - | ) 2 n 2 , pričom samozrejme pre n platí 2 n 2 0, takže P(|X - | ) 0. 61 Iná modifikácia tohto zákona, ktorá sa často používa v štatistike je Veta 13.2. (Chinčinova) Nech X1, X2, ... sú nezávislé náhodné veličiny rovnako rozdelené s konečnou strednou hodnotou a definované na (rovnakom) pravdepodobnostnom priestore (, A, P). Potom pre n platí X = 1 n n i=1 Xi podľa pravdepodobnosti. Dôkaz nájdeme napríklad v knižke Anděl, J., Matematická statistika, SNTL, Praha, 1985. Niektoré dôsledky uvedených zákonov veľkých čísel sú napr. Dôsledok. Nech X1, X2, ... sú (po dvoch) nezávislé náhodné veličiny s rovnakými strednými hodnotami (konečnými) a s rozptylmi D(Xi) c, i = 1, 2, .... Potom {Xn} n=1 sp´lňa zákon veľkých čísel. Dôsledok (Markovova veta). Nech X1, X2, ... sú (po dvoch) nezávislé náhodné veličiny s rovnakými strednými hodnotami (konečnými) a s rozptylmi D(Xi), pričom limn 1 n2 D n i=1 Xi = 0. Potom {Xn} n=1 sp´lňa zákon veľkých čísel. Dôsledok (Bernoulliho veta). Majme postupnosť nezávislých pokusov, pričom každý može končiť úspechom s pravdepodobnosťou alebo neúspechom s pravdepodobnosťou 1 - , ( (0, 1)). Označme náhodnú veličinu Yn - počet úspechov v n nezávislých pokusoch. Zn = 1 n Yn je relatívna početnosť úspechov v n pokusoch. Platí, že Zn = 1 n Yn podľa pravdepodobnosti. Dôkaz: Ak označíme náhodnú veličinu Xi = 0, ak v i-tom pokuse bol neúspech 1, ak v i-tom pokuse bol úspech. X1, X2, ... sú nezávislé, P(Xi = 0) = 1 - , P(Xi = 1) = , E(Xi) = , D(Xi) = (1 - ) 1 4 . Platí Yn = n i=1 Xi a Zn = 1 n Yn = 1 n n i=1 Xi. Podľa Dôsledku pred Markovou vetou Zn podľa pravdepodobnosti. Vyššieuvedené tvary zákona veľkých čísel zaručovali konvergenciu (výberového priemeru) Xn k strednej hodnote podľa pravdepodobnosti. Preto sa volajú slabé zákony veľkých čísel. Dajú sa odvodiť vety, ktoré zaručujú takúto konvergenciu skoro iste. Volajú sa silné zákony veľkých čísel. Poznámka. K tomu, aby postupnosť náhodných veličín X1, X2, ... sp´lňala silný zákon veľkých čísel, stačí, aby táto postupnosť sp´lňala podmienky Chinčinovej vety. Toto tvrdenie sa volá II. Kolmogorova veta a jej dôkaz je napr. v knižke Dupač, V., 62 Hušková, M., Pravděpodobnost a matematická statistika, KAROLINUM, Praha, 2001. Tam nájdeme aj iné formulácie silného zákona veľkých čísel. 14. Centrálne limitné vety Majme postupnosť nezávislých náhodných veličín X1, X2, ..., ktoré sú definované na tom istom pravdepodobnostnom priestore (, A, P). Ak E(Xi) = i a D(Xi) = 2 i , tak náhodné veličiny Ci = Xi - i nazývame centrované (majú nulovú strednú hodnotu); Ui = Xi - i i nazývame štandardizované (majú nulovú strednú hodnotu a jednotkový rozptyl). Čo je štandardizovaný priemer nezávislých náhodných veličín X1, X2, ... ? E(Xn) = E( 1 n n i=1 Xi) = 1 n n i=1 i, D(Xn) = D( 1 n n i=1 Xi) = 1 n2 n i=1 2 i , preto štandardizovaný priemer nezávislých náhodných veličín X1, X2, ... je UXn = Xn - E(Xn) D(Xn) = 1 n n i=1 Xi - 1 n n i=1 i 1 n2 n i=1 2 i = n i=1(Xi - i) n i=1 2 i . Ak E(Xi) = a D(Xi) = 2 , tak UXn = n i=1(Xi - ) n2 = n i=1(Xi - ) n = 1 n (X1 + ... + Xn - n). Centrálne limitné vety tvrdia, že za dosť všeobecných podmienok má štandardizovaný priemer nezávislých náhodných veličín asymptoticky normované normálne rozdelenie. Teda konverguje v distribúcii k náhodnej veličine s N(0, 1) rozdelením. Veta 14.1. (Lindebergova CLV.) Nech X1, X2, ... sú nezávislé náhodné veličiny s rovnakým rozdelením pravdepodobnosti so strednou hodnotou a konečným nenulovým rozptylom 2 . Potom UXn = 1 n (X1 + ... + Xn - n) konverguje k distribúcii k náhodnej veličine X N(0, 1). Dôkaz: Položme Yi = Xi- , i = 1, 2, .... Náhodné veličiny Y1, Y2, ... sú nezávislé a štandardizované, teda E(Yi) = 1 = 0. Ich rozptyl je 1. Je to aj ich počiatočný moment druhého rádu, teda 2. Nech charakteristická funkcia ich rozdelenia je (). Podľa Vety 11.2 je (t) = 0 (it)0 0! + 1 (it)1 1! + 2 (it)2 2! + o(t2 ) = 1 - t2 2 + o(t2 ), 63 kde o(t2 ) je (nejaká) funkcia R(t), pričom limt0 R(t) t2 = 0. Charakteristická funkcia j(t) náhodnej veličiny Yj n je E e itYj n = E e i t n Yj = t n = 1 - t2 2n + R t n . Pretože UXn = Y1 n + ... + Yn n , je charakteristická funkcia n(t) náhodnej veličiny UXn rovná n(t) = 1 - t2 2n + R t n n , pričom pre každé pevné t je lim n nR t n = lim n t2 R t n t2 n = t2 limt n 0 R t n t n 2 = 0. Pre každé pevné t dostávame lim n n(t) = lim n 1 - t2 2 - nR t n n n = e- t2 2 , čo je charakteristická funkcia náhodnej veličiny s N(0, 1) rozdelením. Podľa Vety 12.1 máme vetu dokázanú. Veta 14.2 (Ljapunovova CLV.) Nech X1, X2, ... sú nezávislé náhodné veličiny pre ktoré existujú konečné momenty E(Xk) = k, D(Xk) = 2 k > 0, E|Xk - k|3 = H3 k , k = 1, 2, .... Položme Sn = n k=1 2 k, Kn = n k=1 H3 k . Potom Ljapunovova podmienka limn Kn Sn = 0 je postačujúca k tomu, aby pre každé x R lim n P(UXn < x) = lim n P n i=1 Xi - n i=1 i n i=1 2 i < x = 1 2 x e- t2 2 dt. Dôkaz nájdeme napr. v knihe Rényi, A., Teorie pravděpodobnosti, ACADEMIA, Praha, 1972. Poznámka. Existuje veľa modifikácií CLV. Mnohé nájdeme v knihe Rényi, A., Teorie pravděpodobnosti, ACADEMIA, Praha, 1972. Veta 14.3 (Moivreova-Laplaceova integrálna veta.) Nech p (0, 1) a Z1, Z2, ... sú náhodné veličiny s binomickým rozdelením, teda Zn Bi(n, p). Potom platí pre každé x R lim n P Zn - np np(1 - p) < x = 1 2 x e- t2 2 dt. 64 Dôkaz: Veta je špeciálnym prípadom Vety 14.1 (Lindebergova CLV) ak Xi, i = 1, 2, ..., sú nezávislé, Xi A(p) (A(p) je alternatívne rozdelenie s parametrom p). Potom E(Xi) = a D(Xi) = p(1 - p) = 2 . Platí n j=1 Xi = Zn Bi(n, p) a UXn = 1 n (X1 +...+Xn -n) = Zn - np np(1 - p) konverguje v distribúcii k náhodnej veličine s N(0, 1) rozdelením. Poznámka. Veta sa dá sformulovať aj nasledovne: Pre p (0, 1), - a < b nech Z1, Z2, ... sú náhodné veličiny s binomickým rozdelením, teda Zn Bi(n, p). Potom platí lim n P a < Zn - np np(1 - p) < b = (b) - (a), kde () je distribučná funkcia normovaného normálneho rozdelenia. Príklad 14.1. Nájdite približnú hodnotu pravdepodobnosti toho, že počet šestiek, ktoré padnú v 12000 hodoch homogénnou kockou bude medzi 1900 a 2150. Riešenie: Ťažko by sme spočítali 2150 i=1900 12000 i (1 6 )i (5 6 )12000-i . Pretože n = 12000, Zn Bi(12000, 1 6 ), E(Zn) = np = 12000 6 = 2000, D(Zn) = np(1 - p) = 20005 6 = 10000 6 , dostávame P(1900 < Zn < 2150) = P(1900 - E(Zn) < Zn - E(Zn) < 2150 - E(Zn)) = = P 1900 - E(Zn) D(Zn) < Zn - E(Zn) D(Zn) < 2150 - E(Zn) D(Zn) = = P 1900 - 2000 10000 6 < Zn - np np(1 - p) < 2150 - 2000 10000 6 = = P(-2.45 < Zn - np np(1 - p) < 3.67) . = (3.67) - (-2.45) = = 0.9998 - 0.0071 = 0.9927 (lebo (-u) = 1 - (u), kde () je distribučná funkcia N(0, 1) rozdelenia). 15. Popisná štatistika (podľa Zvára, K., Štěpán, J. Pravděpodobnost a matematická štatistika, Matfyzpress, Praha, 2001) Štatistika skúma javy na rozsiahlom súbore prípadov a zaujímajú ju tie vlastnosti javov, ktoré sa prejavujú vo veľkom súbore prípadov, nie v jednotlivých prípadoch. Základný pojem je štatistický súbor (základný súbor). Je to dobre definovaná (určená) množina štatistických jednotiek. Štatistický súbor môže byť určený zoznamom svojich prvkov (jednotiek), alebo pomocou nejakého pravidla, predpisu. V prípade pochybností sa dá overiť, či skúmaná jednotka patrí do štatistického súboru alebo nie. Na štatistických jednotkách sa meria (určuje, pozoruje) jeden alebo viac štatistických znakov. Znaky podľa typov delíme na 65 Nominálne znaky, ktorých hodnoty sú disjungtné kategórie. Medzi hodnotami nie je žiaden vzťah, usporiadanie. Napríklad farba očí, politická príslušnosť, atď. Ordinálne znaky sú vlastne nominálne znaky, ale ich hodnoty sa dajú usporiadať. Napríklad najvyššie dosiahnuté vzdelanie, hodnosť u vojska, počet hviezdičiek v hotelovej kategórii, atď. Poznáme len poradie hodnoty znaku, neexistuje "vzdialenosť" medzi hodnotami. Intervalové znaky nadobúdajú číselné hodnoty. Sú teda usporiadané, ale poznáme u nich aj (prirodzenú) vzdialenosť medzi hodnotami. Sú charakteristické tým, že nula je u nich len dohodnutá (napr. teplotné stupnice). Pomerové znaky, ktorých hodnoty sa vzťahujú na nejakú dohodnutú jednotku. Hodnoty znaku udávajú násobok dohodnutej jednotky. Nula znamená neexistenciu meranej vlastnosti. Sem patrí napr. väčšina fyzikálnych veličín. Štatistické znaky nominálne, či ordinálne sa nazývajú kvalitatívne, intervalové či pomerové znaky sa nazývajú kvantitatívne (niekedy kardinálne). Kvantitatívne znaky delíme na diskrétne a spojité. Predpokladajme, že sme na n štatistických jednotkách namerali súbor hodnôt x1, x2, ..., xn daného znaku. Celkovému počtu prvkov súboru hovoríme rozsah súboru. Ako spracovávame, zhrnieme, oznamujeme hodnoty súboru ? Ak jednotlivé hodnoty (ordinálneho resp. kvantitatívnho) znaku usporiadame do neklesajúcej postupnosti x(1) x(2) ... x(n), dostaneme usporiadaný súbor hodnôt. Indexy v dolných zátvorkách udávajú poradie jednotlivých zistených hodnôt znaku. Najmenšia je x(1), najväčšia je x(n). Keď je súbor veľký a hodnoty sa často opakujú, prehľadnejšie ich zapíšeme do tabuľky početností, v ktorej a1 < a2 < ... < am sú navzájom rôzne usporiadané hodnoty znaku v súbore (v prípade nominálneho znaku len rôzne hodnoty) a n1, n2, ..., nm sú zistené (absolútne) početnosti týchto hodnôt (t.j. ni-krát bola nameraná v súbore hodnota znaku ai). Zrejme m i=1 ni = n. Takýmto spôsobom sa typicky spracovávajú kvalitatívne znaky a diskrétne znaky. V prípade kvantitatívneho spojitého znaku postupujeme nasledovne. Keď meraný znak nadobúda príliš veľa rôznych číselných hodnôt, umelo zmenšíme počet rozlišovaných hodnôt tak, že obor všetkých hodnôt rozdelíme na disjunktné intervaly. Zvolíme napr. hraničné body (- )t0 < t1 < ... < tm( ) a všetky hodnoty znaku z j-teho intervalu (tj-1, tj > (niekedy je vhodnejšie < tj-1, tj)) stotožníme so stredom tohto intervalu aj = tj-1 + tj 2 . Ak je t0 = -, spravidla zvolíme a1 = t1 t2 - t1 2 , takže t1 je v strede intervalu (a1, a2). Podobne pre tm = spravidla volíme am = tm-1 + tm-1 - tm-2 2 . Najčastejšie sa volia t1, t2, ..., tm-1 tak, aby intervaly boli rovnako dlhé (až na krajné). Teda tj - tj-1 = h, j = 2, 3, ..., m - 1. Teraz určíme počty nj hodnôt xi, ktoré patria do jednotlivých intervalov (tried), tzv. triedne početnosti. Potom napíšeme tabuľku početností. Tabuľku početností znázorníme graficky pomocou polygónu početností, keď lomenou čiarou spojíme body o súradniciach (aj, nj), j = 1, 2, ..., m. Častejšie znázorníme tabuľku početností histogramom, keď nad intervalmi (aj - h 2 , aj + h 2 >, j = 1, 2, ..., m kreslíme obďlžnik, ktorého výška je rovná nj. Ak triedne intervaly nemajú rovnakú šírku, je nj výška obďlžnika nad zod- 66 povedajúcim intervalom. Do uvedených grafov sa dá namiesto absolútnej početností nj znázorniť aj relatívna početnosť fj = nj n , prípadne sa dajú absolútne resp. relatívne početnosti sčítať (kumulovať) a použiť buď j i=1 ni alebo j i=1 fi (kumulatívne diagramy). Príklad 15.1. V tabuľke 15.1 sú uvedené triedne početnosti priemerných známok na koncoročnom vysvedčení u 372 detí. Zodpovedajúce histogramy (triednych pčetností a kumulatívnych triednych početností) sú (obr. 10.1 v Zvára, K., Štěpán, J. Pravděpodobnost a matematická štatistika) Histogram triednych početností Histogram kumulatívnych triednych početností interval < tj-1, tj) stred aj početnosť nj kumul. početnosť Nj < 1, 0; 1, 2) 1,1 31 31 < 1, 2; 1, 4) 1,3 48 79 < 1, 4; 1, 6) 1,5 29 108 < 1, 6; 1, 8) 1,7 37 145 < 1, 8; 2, 0) 1,9 27 172 < 2, 0; 2, 2) 2,1 41 213 < 2, 2; 2, 4) 2,3 32 245 < 2, 4; 2, 6) 2,5 19 264 < 2, 6; 2, 8) 2,7 28 292 < 2, 8; 3, 0) 2,9 23 315 < 3, 0; 3, 2) 3,1 24 339 < 3, 2; 3, 4) 3,3 25 364 < 3, 4; 3, 6) 3,5 4 368 < 3, 6; 3, 8) 3,7 4 372 Tabuľka 15.1 67 Poznámka. Obyčajne používame triedne intervaly konštantnej šírky. Pri voľbe počtu intervalov môžeme vyjsť zo Sturgesovho pravidla, podľa ktorého m . = 1 + 3, 3 log10 n . = 1 + 1, 43 ln n. Tejto hodnoty sa pridržiavame "približne". Miery polohy Miery polohy udávajú hodnotu, okolo ktorej sa nachádzajú jednotlivé pozorovania (hodnoty znaku). Priemer (tiež výberový, či empirický aritmetický priemer) x = 1 n n i=1 xi = 1 n m j=1 njaj. Priemer sa určuje u kvantitatívnych znakoch a rovnakým spôsobom závisí od každej hodnoty znaku. Zrejme pre ľubovoľné a, b je a + bx (= 1 n n i=1 (a + bxi)) = a + bx, takže sa prirodzene mení so zmenou merítka. Geometrický priemer xG = n x1x2...xn. Geometrický priemer má zmysel len keď všetky hodnoty znaku sú kladné. Nie je invariantný voči lineárnej transformácii údajov. Používa sa v prípade, že ide o násobenie. Častejšie sa používa v ekonómii. Napr. ak je inflácia 20%, 50%, 30%, 20% a 5% (v jednotlivých rokoch), tak je to to isté, ako keby bola inflácia každý rok 24%, lebo výsledná inflácia je 1, 2.1, 5.1, 3.1, 2.1, 05 = 2, 9484 a to je to isté ako keby v každom roku bola 5 1, 2.1, 5.1, 3.1, 2.1, 05 = 1, 24. Harmonický priemer xH = 1 1 n n i=1 1 xi = n n i=1 1 xi . Tiež nie je invariantný voči lineárnej transformácii. Dá sa ukazať, že ak sú všetky hodnoty znaku kladné, tak platí xH xG x (pozri napr. Anděl, J., Statistické metódy, Matfyzpress, Praha, 1993). Medián (rozumie sa výberový medián) je definovaný pomocou usporiadaného súboru hodnôt x(1) x(2) ... x(n) ako ~x = x(n+1 2 ), ak n je nepárne (liché) 1 2 x(n 2 ) + x(n 2 +1) ak n je párne (sudé). 68 Je to taká hodnota, ktorá delí usporiadané hodnoty x(1), x(2), ..., x(n) na dva rovnako početné diely. Preto nezáleží, aké veľké (malé) sú prvé resp. posledné členy usporiadaného súboru x(1), x(2), ..., x(n). Platí (a + bx) = a + b~x. Ak g() je monotónna funkcia, potom analogická vlastnosť platí pre transformované hodnoty. Ak je počet hodnôt nepárny (lichý), platí táto vlastnosť presne, ak je počet hodnôt párny (sudý), platí "skoro presne" (g(~x) nie je vo všeobecnosti v tomto prípade priemerom hodnôt g(x(n 2 )), g(x(n+2 2 )). Pre nepárny (lichý) počet meraní má medián zmysel už pri ordinálnom znaku, pri párnom (sudom) počte meraní potrebujeme kvantitatívny znak. Keby sme pre párny (sudý) počet meraní definovali medián ako ľubovoľné číslo, pre ktoré platí x(n 2 ) ~x x(n 2 +1), nebol by síce definovaný jednoznačne, ale existoval by aj pre ordinálny znak (s číselnými hodnotami). Medián môžene zovšeobecniť. Namiesto toho, aby oddeľoval polovicu najmenších údajov od ostatných, môže oddeľovať p-ty diel údajov. Zvolíme p, 0 < p < 1. Definujeme p-ty výberový kvantil (percentil) vzťahom xp = x([np]+1), ak np = [np] 1 2 x(np) + x(np+1) ak np = [np], kde [np] je celá časť np, t.j. najväčšie celé číslo nie väčšie ako np. Napr. pre p = 0, 12, n = 24 je [np] = [2, 88] = 2, teda x0,12 = x(3) a pre p = 0, 4, n = 50 je [np] = [20] = 20, teda x0,4 = 1 2 x(20) + x(21) . U ordinálneho znaku (číselného) ak np = [np], môžeme ako xp použiť ľubovoľnú hodnotu, ktorá leží medzi x([np]) a x([np]+1). Medián je špeciálny prípad výberového kvantilu, a síce ~x = x0,5. V grafických zobrazeniach sa používajú dolný kvartil a horný kvartil Q1 = x0,25, Q3 = x0,75. Módus je najčastejšou hodnotou. Má zmysel najmä vtedy, ak je počet m skutočne sa vyskytujúcich rôznych hodnôt podstatne menší ako rozsah n súboru. Módus je použiteľný pre každý typ znaku (aj keď v prípade nominálneho znaku je ťažko hovoriť o miere polohy). Nemusí byť určený jednoznačne (bimodálne súbory). Miery variability Miery variability charakterizujú veľkosť variability hodnôt znaku okolo nejakej "miery jej polohy", alebo "roztrúsenosť" hodnôt znaku. Miera variability by mala byť invariantná voči "posunutiu" všetkých hodnôt znaku, resp. voči lineárnej transformácii hodnôt znaku. Rozptyl (empirický rozptyl) s2 x = 1 n n i=1 (xi - x)2 , 69 resp. ak a1 < a2 < ... < am sú rôzne hodnoty znaku, tak s2 x = 1 n m j=1 nj(aj - x)2 . Platí s2 x = 1 n n i=1 (xi - x)2 = 1 n n i=1 (x2 i - 2xix + x2 ) = 1 n n i=1 x2 i - 2 1 n n i=1 xix + 1 n n i=1 x2 = = 1 n n i=1 x2 i - nx2 . Niekedy sa používa s2 x = 1 n - 1 n i=1 (xi - x)2 (neskôr budeme analyzovať prečo). Keď sa používajú triedne početnosti, doporučuje sa Sheppardova korekcia, čo znamená zmenšiť výraz s2 x = 1 n m j=1 nj(aj - x)2 o hodnotu h2 12 , kde h je šírka rovnako širokých triednych intervalov. Smerodajná odchýlka (empirická smerodajná odchýlka) sx = s2 x. Jej dôležitá vlastnosť je, že je vyjadrená v rovnakých jednotkách ako namerané údaje. Rozptyl aj smerodajná odchýlka záležia na všetkých údajoch (sú citlivé na hodnoty najmä "krajných" údajov). Rozpätie je rozdiel maximálnej a minimálnej hodnoty R = x(n) - x(1). Rozpätie záleží len na veľkosti maximálnej a minimálnej hodnoty. Kvartilové rozpätie RQ = Q3 - Q1 = x0,75 - x0,25 Kvartilová odchýlka je polovica kvartilového rozpätia Q3 - Q1 2 = x0,75 - x0,25 2 . Priemerná odchýlka je d = 1 n n i=1 |xi - ~x| 70 (niekedy sa namiesto mediánu ~x použije priemer x). Všetky uvedené miery variability predpokladajú kvantitatívny znak. Pre znaky nominálne (aj ordinálne) sa variabilita dá charakterizovať pomocou entropie H = - m j=1 nj n log nj n , pričom predpokladáme m rôznych hodnôt znaku s nenulovými početnosťami n1, n2, ..., nm. Miery šikmosti a špicatosti Výberový koeficient šikmosti (skewness) g1 = n i=1(xi - x)3 ns3 , ktorý môže byť kladný aj záporný (Kladná šikmosť je ak hustota je koncentrovaná v "ľavej" časti grafu a "pomaly dlho graf klesá). Kvantilový koeficient šikmosti (x1-p - ~x) - (~x - xp) x1-p - xp = x1-p - 2~x + xp x1-p - xp pre 0 < p < 0, 5. Špeciálne pre p = 0, 25 to je kvartilový koeficient šikmosti (Q3 - ~x) - (~x - Q1) Q3 - Q1 . Výberový koeficient špicatosti (excess) g2 = n i=1(xi - x)4 ns4 - 3 a kvantilový koeficient špicatosti (x(n) - x(1)) x1-p - xp pre 0 < p < 0, 5. Diagramy Veľmi názorné a obľúbené sú vedľa histogramov aj iné grafické znázornenia nameraných údajov a ich vlastností. Zaraďujeme ich medzi exploračné (výskumné) štatistické metódy (EDA - Exploratory Data Analysis). Krabicový (fúzatý) diagram (box plot, box and whisker plot). Má mnohé modifikácie, napr. (obr. 10.2, Zvára, K., Štěpán, J. Pravděpodobnost a matematická štatistika) Na krabicovom diagrame sú Q1, Q3, ~x, RQ, tykadlá (fúzy) siahajú k 71 takému najvzdialenejšiemu (od odpovedajúceho kvartila) pozorovaniu, ktoré nie je od neho vzdialené viac ako 1,5 násobok kvartilového rozpätia. Jednotlivo sú znázorňované pozorovania, ktoré sú viac vzdialené. U niektorých programov siahajú "fúzy" k najmenšiemu resp. k najväčšiemu pozorovaniu. Inokedy k výberovému 10% resp. 90% kvantilu. Príklad 15.2. (Jednoduchý prípad.) Namerali sa údaje 21,24,24,25,25,25,25,25, 26,26,27,27, teda n = 12. Ľahko vidíme, že ~x = 25, Q1 = x0,25 = 1 2 [x(3) + x(4)] = 1 2 (24 + 25) = 24, 5, Q3 = x0,75 = 1 2 [x(9) + x(10)] = 26. RQ = Q3 - Q1 = 26 - 24, 5 = 1, 5. Najmenšie pozorovanie je odľahlé, lebo 21 < 24, 5 - 1, 5.1, 5 = 22, 25. Krabicový diagram je na str.72. Príklad 15.3. Zisťovali sa hmotnosti detí v 12. mesiaci ich veku. Histogramy početností dievčat a chlapcov sú (obr. 10.3, Zvára, K., Štěpán, J. Pravděpodobnost a matematická štatistika) 72 Oba histogramy ukazujú na kladnú šikmosť. Vidieť, že hmotnosti chalpcov sú v priemere väčšie ako dievčat. Odpovedajúce krabicové diagramy sú (obr. 10.4, Zvára, K., Štěpán, J. Pravděpodobnost a matematická štatistika) Keď chceme vyjadriť závislosť (súvislosť) dvoch kvantitatívnych znakov s nameranými hodnotami (x1, y1), ..., (xn, yn), použijeme rozptylový diagram, na ktorom sú znázornené body [xi, yi]. Tri rôzne typy závislostí sú na nasledujúcich obrázkoch (obr. 10.5, Zvára, K., Štěpán, J. Pravděpodobnost a matematická štatistika) 73 Ak sledujeme súčasné správanie sa niekoľkých znakov, užitočný sa ukazuje maticový diagram, v ktorom sú znázornené súčasne histogramy pre jednotlivé znaky a (vzájomné) rozptylové diagramy (obr. 10.6, Zvára, K., Štěpán, J. Pravděpodobnost a matematická štatistika) 74 16. Náhodný výber Štatistike sa niekedy hovorí, že je metodologická náuka, ktorá objektivizuje proces poznania. Skúsme si popísať, ako sa to dosahuje. Základný súbor (štatistický súbor) voláme tiež populácia. Predpokladáme, ze má N jednotiek (N 0). Principiálne môžeme zmerať hodnotu kvantitatívneho znaku Z na každej jednotke a dostať hodnoty z1, z2, ..., zN . Priemer hodnôt z celej populácie označme a budeme ho nazývať populačný priemer. Označme 2 populačný rozptyl, teda = 1 N N i=1 zi, 2 = 1 N N i=1 (zi - )2 . Pretože N je veľmi veľké, nie je možné (resp. je veľmi nehospodárne) zmerať hodnotu znaku na každej jednotke. Preto vyberieme skupinu n jednotiek a zistíme hodnotu znaku len na týchto jednotkách. Tento výber (výberový súbor) musí byť taký, aby dobre reprezentoval celú populáciu (celý základný súbor). Budeme vždy predpokladať, že n < N. Jeden zo spôsobov dosiahnuť "dobre reprezentujúci" výberový súbor je urobiť náhodný výber bez vrátenia (prostý náhodný výber). To znamená, že vyberieme jeden z N prvkov základného súboru, potom náhodne vyberieme jeden z N - 1 zostávajúcich, atď., až jeden z N - n + 1 zostávajúcich. Výberový súbor môžeme vybrať N n spôsobmi. Keď budeme prvky výberového súboru vyberať náhodne, tak dosiahneme požadovanú reprezentatívnosť a každá n-tica bude mať rovnakú pravdepodobnosť, že bude vybraná.. My sa sústredíme na tzv. výber s vrátením z konečnej populácie. Náhodne vyberieme z populácie nejaký prvok (nejakú štatistickú jednotku), zistíme hodnotu meraného znaku a vrátime ho späť. Označme X hodnotu znaku na náhodne vybranej štatistickej jednotke. Zrejme X je náhodná veličina, ktorá nadobúda hodnoty b1 < b2 < ... < bm s pravdepodobnosťami P{X = bj} = nj N , j = 1, 2, ..., m, kde nj je počet tých štatistických jednotiek v základnom súbore, na ktorých je hodnota znaku rovná bj. Platí E(X) = m j=1 bjP{X = bj} = 1 N m j=1 njbj = a D(X) = E(X - )2 = m j=1 (bj - )2 P{X = bj} = 1 N m j=1 nj(bj - )2 = 2 . Keď nezávisle vyberáme n-ticu štatistických jednotiek (po náhodnom vybratí štatistickú jednotku vždy vrátime späť do súboru), tak tento výber modelujeme n- ticou (X1, ..., Xn) náhodných veličín, pričom sú (združene) nezávislé a rovnako rozdelené (ako náhodná veličina X). 75 Teraz sa pozrime trochu ináč na výber s vrátením. Nemusíme sa starať o hodnoty z1, z2, ..., zN (resp. b1, ..., bm) znaku, ale stačí nám vedieť, aký je pre dané (ale ľubovoľné) z R pomer p(z) množstva tých štatistických jednotiek, na ktorých hodnota znaku je menšia ako z k celkovému počtu jednotiek, teda k N. Čiže p(z) = {počet tých zi, ktoré sú menšie ako z} N . Vyberme náhodne jednu štatistickú jednotku a označme jej hodnotu X. Teda ak hodnota znaku na tejto jednotke je x, je to (konkrétna) realizácia náhodnej veličiny X. Platí FX(z) = P(X < z) = p(z). Preto X má distribučnú funkciu FX() = p(). Už nás nezaujíma, či populácia je konečná, alebo nekonečná. V reálnom živote je vždy konečná, ale keď je N veľmi veľké, považujeme ju za nekonečnú. V takomto "veľkom" základnom súbore aj keď realizujeme výber bez vrátenia, môžeme považovať vybrané hodnoty za realizácie nezávislých náhodných veličín. (Intuitívne to znamená, že pri "nekonečne" veľkom základnom subore odobratie niekoľkých jednotiek prakticky nezmení funkciu p(z).) V prípade náhodného výberu s vrátením (z konečnej alebo "nekonečnej" populácie) alebo náhodného výberu bez vrátenia z "nekonečnej" populácie je výsledkom pokusu n-tica nezávislých náhodných veličín X1, X2, ..., Xn rovnako rozdelených, ktoré majú (rovnakú) distribučnú funkciu FX(). Takáto n-tica náhodných veličín sa nazýva náhodný výber rozsahu n (n nezávislých kópií náhodnej veličiny X). Predpokladajme, že nahodná veličina X má konečnú strednú hodnotu a disperziu 2 . V prípade konečnej populácie sa táto stredná hodnota rovná populačnému priemeru a disperzia rovná populačnému rozptylu. Náhodnú veličinu X = 1 n n i=1 Xi nazývame výberový priemer a náhodnú veličinu S2 = 1 n - 1 n i=1 (Xi - X)2 výberový rozptyl. Aké vlastnosti majú výberový priemer a výberový rozptyl ? Veta 16.1. Pre výberový priemer platí E(X) = , D(X) = 2 n . Dôkaz: E(X) = E 1 n n i=1 Xi = 1 n n i=1 E(Xi) = 1 n n i=1 = , 76 D(X) = D 1 n n i=1 Xi = 1 n2 n i=1 D(Xi) = 1 n2 n i=1 2 = 2 n . Veta 16.2. Pre náhodný výber rozsahu n z rozdelenia s konečným rozptylom 2 platí E(S2 ) = 2 . Dôkaz: Platí E(S2 ) = E 1 n - 1 n i=1 (Xi - X)2 = E 1 n - 1 n i=1 (Xi - + - X)2 = = 1 n - 1 E n i=1 (Xi - )2 + 2 n i=1 (Xi - )( - X) + n n i=1 ( - X)2 = = 1 n - 1 n i=1 2 + 2E ( - X) n i=1 (Xi - ) + E n i=1 (X - )2 = = 1 n - 1 n2 + 1 n - 1 2E n( - X) 1 n n i=1 (Xi - ) + 1 n - 1 E n i=1 (X - )2 = = n n - 1 2 - 2 n n - 1 E(X - )2 + n n - 1 E(X - u)2 = n n - 1 2 - n n - 1 D(X) = = n n - 1 2 - n n - 1 2 n = 2 . Ak je základný súbor rozsiahly, niekedy ho rozdelíme na L "neprekrývajúcich" sa častí, ktoré nazývame oblasti. Z každej oblasti vykonáme prostý náhodný výber (bez vrátenia). Každú oblasť považujeme za "menší" základný súbor. Oblastné usporiadanie výberu (oblastný výber) je motivované napr. tým, že celý základný súbor pozostáva z "prirodzených" podsúborov, že zber dát v určitých podoblastiach je špecifický (finančne, časovo), atď. Oblasti môžu byť aj "umelo vytvorené". Ak sú rozsahy oblastí N1, N2, ..., NL a oblastné výberové súbory majú rozsahy n1, n2, ..., nL, potom celý základný súbor má rozsah N = N1 + ... + NL a celý výberový súbor má rozsah n = n1 + ... + nL. Ak n1 N1 = n2 N2 = ... = nL NL (= k), tak hovoríme, že oblastný výber je rovnomerný. V takomto prípade má každá jednotka rovnakú pravdepodobnosť n N zahrnutia do výberu (nezávisle od toho, do ktorej oblati patrí). Ak sa základný súbor skladá z veľmi veľkého množstva jednotiek (roztrúsených), ťažko uskutočníme aj oblastný výber. Vzniká potreba vyberať jednotky vždy po celých skupinách. Skupiny môžeme považovať za nové jednotky vzniknuté zlučovaním pôvodných jednotiek. Môžu to byť malé skupiny (napr. rodiny), alebo aj veľmi veľké (okresy, školy, závody v podniku). Tento spôsob výberu nazývame 77 dvojstupňový výber. Najprv vyberieme skupinky, z ktorých potom vyberáme "prvotné" jednotky. Výber skupiniek nazývame prvým výberovým stupňom. Výber prvotných jednotiek nazývame druhým výberovým stupňom. Nech oblasti obsahujú po rade M1, M2, ..., ML skupiniek, z ktorých v prvom výberovom stupni vyberieme postupne m1, m2, ..., mL skupiniek. V druhom výberovom stupni z každej výberovej skupinky v h-tej oblasti (ak táto skupinka bola v prvom stupni vybraná) vyberieme 100h percent prvotných jednotiek. Ako zvoliť čísla m1, ..., mL,1, ..., L, aby každá prvotná jednotka mala rovnakú pravdepodobnosť dostať sa do výberového súboru, bez ohľadu na to, do ktorej oblasti resp. skupinky patrí. Označme náhodný javy A- štatistická jednotka J z h-tej oblasti bola vybratá do výberového súboru v druhom výberovom stupni B- skupina, do ktorej patrí štatistická jednotka J, bola vybratá v h-tej oblasti v prvom výberovom stupni Je zrejmé, že štatistická jednotka J bola vybratá do výberového súboru práve vtedy, ak nastal náhodný jav AB. Platí P(AB) = P(A|B)P(B). Zrejme P(B) = mh Mh a P(A|B) = h. Preto pravdepodobnosti, že prvotná jednotka z h-tej oblasti (h = 1, 2, ..., L) sa dostane do výberového súboru sú postupne m1 M1 1, m2 M2 2, ..., mL ML L. Výber bude rovnomerný, ak m1 M1 1 = m2 M2 2 = ... = mL ML L. V tomto prípade každá jednotka v základnom súbore bude mať rovnakú pravdepodobnosť dostať sa do výberového súboru. Príklad 16.1. Pri štatistickom šetrení týkajúcom sa zisťovania sociálnych pomerov v rodinách školákov do 15 rokov prvý stupeň záležal od výberu škôl a druhý od výberu žiakov vybranej školy. Školy boli rozdelené na 3 druhy (oblasti), a síce, (i) päťročné školy, (ii) deväťročné školy, (iii) osemročné gymnázia. Z päťročných škôl bola vybratá každá stá škola, teda m1 M1 = 1 100 a z tejto školy boli zahrnuté do výberu všetci žiaci, teda 1 = 1. Z deväťročných škôl bola vybratá každá päťdesiata a do výberu z nej vybratý každý druhý žiak. Z osemročných gymnázií bolo vybraté každé dvadsiate piate a z neho vybratý každý štvrtý žiak. Teda m1 M1 = 1 100 , 1 = 1, m11 M1 = 1 100 , m2 M2 = 1 50 , 2 = 1 2 , m22 M2 = 1 100 , m3 M3 = 1 25 , 3 = 1 4 , m33 M3 = 1 100 . Každý žiak bez ohľadu na druh školy mal pravdepodobnosť 1 100 dostať sa do výberu. 78 V každom druhu výberu majú výberový priemer, výberový rozptyl a iné výberové charakteristiky špecifické (pravdepodobnostné, štatistické) vlastnosti. O tom pojednáva teória výberových šetrení. 17. Odhady parametrov (hlavne podľa Anděl, J., Matematická statistika, SNTL/ALFA, Praha, 1985) Predpokladajme, že náhodný vektor X = (X1, X2, ..., Xn) má hustotu (v prípade diskrétneho náhodného vektora pravdepodobnostnú funkciu) f(x, ), kde = (1, 2, ..., m) je neznámy parameter. Na základe X je treba získať "čo možno najlepší" odhad tohto parametra. Vieme len toľko, že sa nachádza v parametrickom priestore (pozor, nie je to tentokrát priestor elementárnych javov). Definícia 17.1. Bodový odhad parametra = (1, 2, ..., m) je merateľné zobrazenie g : (Rn , Bn) (Rm , Bm) (nezávisiace od ) také, že m-rozmerný náhodný vektor T = g(X) v nejakom "rozumnom zmysle" aproximuje neznámy vektor parametrov ). Poznámka. Obyčajne predpokladáme, že náhodný vektor X = (X1, X2, ..., Xn) je náhodným výberom z rozdelenia s distribučnou funkciou F(; ). Preto sa niekedy pre upresnenie povie, že odhad T je založený na náhodnom vektore X. Definícia 17.2. Intervalový odhad parametra = (1, 2, ..., m) je taká (náhodná) množina z Bm, ktorá s "dostatočne veľkou" pravdepodobnosťou pokrýva . Poznámka. Namiesto parametra môžeme uvažovať aj odhad určitej (konkrétnej) parametrickej funkcie h(). Niekedy sa najprv vezmú nejaké merateľné funkcie S1(x), ..., Sk(x), vytvorí sa náhodný vektor S(X) = (S1(X), S2(X), ..., Sk(X)) (pre m k n). Každý takýto náhodný vektor sa volá štatistika. Ak k = m, tak takáto štatistika je (bodovým) odhadom. Definícia 17.3. Povieme, že odhad T parametra je nestranný, ak platí E(T) = . Poznámka. Odhad T (ako predpis) nezávisí od , ale jeho rozdelenie pravdepodobnosti od závisí. Preto sa v Definícii 17.3 píše E(T). Zdôrazňuje sa tým, že stredná hodnota odhadu T sa ráta za predpokladu, že hodnota parametra rozdelenia je rovná . Niekedy nestranný odhad vôbec neexistuje, alebo existuje iný odhad ako nestranný, ktorý je z určitého hľadiska výhodnejší. Príklad 17.1. Majme náhodný výber X1, X2, ..., Xn z rozdelenia s distribučnou funkciou F() a konečnou strednou hodnotou a disperziou 2 . Náhodná veličina T(X1, ..., Xn) = X = 1 n n i=1 Xi je podľa Vety 16.1 nestranným odhadom parametra . Podľa Vety 16.2 je S2 = 1 n - 1 n i=1 (Xi - X)2 79 nestranným odhadom 2 . Iným kritériom pre odhad T(X1, ..., Xn) jednorozmerného parametra je veľkosť jeho strednekvadratickej odchýlky, teda E(T - )2 . Platí E(T - )2 = E ((T - E(T)) + (E(T) - )) 2 = = E[(T -E(T))2 ]+2E[(T -E(T))(E(T)-)]+E[(E(T)-)2 ] = D(T)+(E(T)-)2 , čo je rozumná charakteristika odhadu. Ak platí E(T) = + b(), pričom (vektorová) funkcia b nie je identicky rovná 0 na množine , tak odhad T je vychýlený. Vektoru b() sa hovorí vychýlenie odhadu T v bode . Príklad 17.2. Nech X je diskrétna náhodná veličina s binomickým rozdelením pravdepodobnosti, teda X Bi(n, p), pričom n považujeme za známe. Pre funkciu (p) = 1 p parametra p neexistuje nestranný odhad založený na náhodnej veličine X. Ukážte. Riešenie: Sporom. Nech existuje odhad T, teda merateľná funkcia náhodnej veličiny X (kde X Bi(n, p)), pre ktorú platí Ep(T(x)) = 1 p p (0, 1). Teda platí p (0, 1) Ep(T(X)) = n j=0 T(j) n j pj (1 - p)n-j = = T(0)(1 - p)n + T(1)np(1 - p)n-1 + ... + T(n)pn (1 - p)0 = 1 p . Na ľavej strane predchádzajúcej rovnosti máme polynóm premennej p stupňa najviac n, tento nemôže byť rovný racionálnej lomenej funkcii 1 p pre všetky p (0, 1). Teda nestranný odhad parametrickej funkcie 1 p založený na náhodnej veličine X Bi(n, p) neexistuje. Príklad 17.3. Majme náhodný výber X1, X2, ..., Xn z rozdelenia N(, 2 ), n 2, 2 > 0. Pre výberový rozptyl S2 = 1 n - 1 n i=1(Xi -x)2 platí E(S2 ) = 2 (pozri Vetu 16.2) a D(S2 ) = 24 n - 1 (dokážeme si v kapitole 19). Majme odhad parametra 2 (ktorý odhad je typu) T(X) = c n i=1(Xi - X)2 . Pre aké c má tento odhad minimálnu strednekvadratickú odchýlku ? Čomu sa táto odchýlka rovná ? Riešenie: T = (n - 1)cS2 , preto E(T) = (n - 1)cE(S2 ) = (n - 1)c2 a D(T) = (n - 1)2 c2 D(S2 ) = 24 c2 (n - 1). Strednekvadratická odchýlka odhadu T je E(T - 2 )2 = D(T) + (E(T) - 2 )2 = 24 c2 (n - 1) + [(n - 1)c2 - 2 ]2 = 80 = 4 {2c2 (n - 1) + (n - 1)2 c2 - 2c(n - 1) + 1} = 4 {c2 (n2 - 1) - 2c(n - 1) + 1}. Vzhľadom na c to je kvadratická funkcia, ktorá má minimum (po derivácii) v bode c = 1 n + 1 . Preto odhad T(X) = 1 n + 1 n i=1(Xi - X)2 má najmenšiu strednekvadratickú odchýlku zo všetkých odhadov typu T(X) = c n i=1(Xi - X)2 . Táto minimálna strednekvadratická odchýlka je 4 n2 - 1 (n + 1)2 - 2(n - 1) n + 1 + 1 = 24 n + 1 . Uvažujme teraz jednorozmerný parameter . Nech X1, X2, ... sú nezávislé rovnako rozdelené náhodné veličiny definované na tom istom pravdepodobnostnom priestore ( , A, P) s rozdelením pravdpodobnosti, ktoré má distribučnú funkciu F(, ). Pre každé prirodzené n majme Tn(X1, X2, ..., Xn) - odhad parametra . Definícia 17.4. Tn je konzistentným odhadom , ak Tn konverguje podľa pravdepodobnosti k , t.j. > 0 P{ : |Tn() - | > } 0. Veta 17.1 Nech pre každé prirodzené n je E(T2 n) < . Ak (i) E(Tn) a (ii) D(Tn) 0, tak Tn je konzistentným odhadom parametra . Dôkaz: Využijeme dve nerovnosti, a síce > 0 P{| - E()| < } 1 - D() 2 (Čebyševova nerovnosť) a |a + b| |a| + |b| (nerovnosť platná pre všetky reálne čísla). Preto { : |Tn() - | < } = { : |Tn() - E(Tn) + E(Tn) - | < } { : |Tn() - E(Tn)| < 2 |E(Tn) - | < 2 }, teda (17.1) P{ : |Tn() - | < } P{ : |Tn() - E(Tn)| < 2 |E(Tn) - | < 2 }. Pretože E(Tn) (s pravdepodobnosťou 1), dostávame, že (17.2) > 0 n10 n n10 P{ : |E(Tn) - | < 2 } = 1. Pretože D(Tn) (s pravdepodobnosťou 1), dostávame, že (17.3) > 0 n20 n > n20 D(Tn) < . Z Čebyševovej nerovnosti zase platí pre každé n (17.4) > 0 P{ : |Tn() - E(Tn)| < 2 } 1 - D(Tn) 2 4 . 81 Zo vzťahov (17.3) a (17.4) dostávame, že (17.5) > 0 > 0 n20 že n > n20 P{ : |Tn() - | < 2 } 1 - 2 4 . Zo vzťahov (17.1), (17.2) a (17.5) dostávame, že > 0 n > max{n10, n20} P{ : |Tn() - | < } P{ : |Tn() - E(Tn)| < 2 |E(Tn) - | < 2 } 1 - 2 4 . Príklad 17.4. Nech X1, X2, ... sú nezávislé náhodné veličiny, každá s rovnomerným rozdelením pravdepodobnosti na intervale (0, ), > 0 (neznáme). Náhodná veličina X(n) = max{X1, X2, ..., Xn}. Ukážme, že X(n) je konzistentný odhad parametra . Pritom X(n) nie je nestranný odhad parametra . Riešenie: Hustota rozdelenia pravdepodobnosti náhodnej veličiny Xi, i {1, 2, ..., n} je fi(t) = 0, ak t 0 1 , ak t (0, ) 0, ak t . Preto distribučná funkcia FX(n) (x) = P{X(n) < x} = P{X1 < x, ..., Xn < x} = = n i=1 {Xi < x} = 0, ak x 0 x 0 1 dt n = xn n , ak x (0, ) 1, ak x . Hustota fX(n) (x) = FX(n) (x) = 0, ak x 0 nxn-1 n , ak x (0, ) 0, ak x a E(X(n)) = 0 x nxn-1 n dx = n n xn+1 n + 1 0 = n n + 1 , E(X2 (n)) = 0 x2 nxn-1 n dx = n n xn+2 n + 2 0 = n2 n + 2 . Dostávame, že D(X(n)) = E(X2 (n)) - E2 (X(n)) = n2 n + 2 - n2 2 (n + 1)2 = n2 (n + 1)2(n + 2) . 82 Podľa Vety 17.1 je X(n) konzistentným odhadom (E(Tn) a D(Tn) 0). Ľahko v tomto prípade získame nestranný konzistentný odhad. Stačí zvoliť Tn = n + 1 n X(n). Teraz si zavedieme eficientný (výdatny) odhad. Majme jednorozmerný parameter a náhodný vektor X = (X1, ..., Xn) nech má hustotu f(x, ) (distribučnú funkciu F(x, ). Majme odhad T = T(X) parametra . Aká je dolná hranica strednej kvadratickej chyby E(T - )2 ? Kedy sa táto hranica dosiahne ? Definícia 17.5. Systém hustôt {f(x, ), } je regulárny, ak platí a) je neprázdna otvorená množina, b) množina M = {x : f(x, ) > 0} nezávisí od , c) pre a pre skoro všetky x M existuje konečná parciálna derivácia f (x, ) = f(x, ) , d) pre platí M f (x, ) f(x, ) dF(x, ) = 0, e) pre je integrál (výraz) J() = M f (x, ) f(x, ) 2 dF(x, ) konečný a kladný (0 < J() < ). Veličinu J() voláme Fisherova informácia o parametri (Fisherova miera informácie o parametri , ktorá (informácia) je obsiahnutá v danej regulárnej triede hustôt) . Fisherovu informáciu môžeme chápať aj ako J() = E f (X) f(X) 2 = E ln f(X) 2 , lebo mimo množiny M môžeme definovať f f ľubovoľne, teda aj ako 0 a za integračný obor vziať Rn . Príklad 17.5. Systém hustôt {f(x, )= 1 2 e- (x-)2 2 ,- < x < , =R} (vzhľadom k Lebesguovej miere) je regulárny (ide o hustoty N(, 1)). Dokážte ako cvičenie. Veta 17.2. (Raova-Cramerova) Nech T je taký odhad , že je E(T2 ) < . Nech b() = E(T) - je vychýlenie (bias) odhadu T. Nech platí (i) systém hustôt {f(x, ), } je regulárny, (ii) pre existuje derivácia b (), (iii) M T(x)dF(x, ) = M T(x) f (x, ) f(x, ) dF(x, ). Potom pre platí E(T - )2 [1 + b ()]2 J() . Dôkaz: b() = E(T) - = M T(x)dF(x, ) - , 83 teda b() + = M T(x)dF(x, ). Podľa (iii) M T(x)dF(x, ) = M T(x) f (x, ) f(x, ) dF(x, ) = b () + 1. Z podmienky d) regularity triedy hustôt {f(x, ), } platí M f (x, ) f(x, ) dF(x, ) = 0, teda M (T(x) - ) f (x, ) f(x, ) dF(x, ) = b () + 1. Podľa Schwarzovej nerovnosti [b () + 1]2 M (T(x) - )2 dF(x, ) M f (x, ) f(x, ) 2 dF(x, ), čiže [1 + b ()]2 J() E(T - )2 . Kedy nastáva rovnosť [1 + b ()]2 J() = E(T - )2 ? Vo Schwarzovej nerovnosti nastáva rovnosť práve vtedy ak () T(x) - = 0 s.v. vzhľadom k Lebesgueovej-Stieltjesovej miere F , alebo ak () K() nezávislá na x, že f (x, ) f(x, ) = K()[T(x) - ] s.v. vzhľadom k Lebesgueovej-Stieltjesovej miere F . V prípade () T(x) - = 0, teda P{T(X) = } = 1, čiže E(T) = a b() = 0. Samozrejme vtedy E(T -)2 = 0. Toto nemôže byť, lebo v uvažovanom prípade () podľa dôkazu vety je E(T - )2 = [1 + b ()]2 J() = 1 J() > 0 (J() > 0 v regulárnej triede hustôt). Dostávame, že rovnosť [1 + b ()]2 J() = E(T - )2 nastáva práve vtedy ak platí (), čiže K() nezávislá na x, že s.v. vzhľadom k Lebesgueovej-Stieltjesovej miere F f (x, ) f(x, ) = K()[T(x) - ], čo je to isté ako ln f(x, ) = K()T(x) - K(), 84 alebo (17.1) ln f(x, ) d = T(x) K()d - K()d. Ak označíme K()d = Q() a K()d = R() tak (17.1) môžeme napísať ako ln f(x, ) = Q()T(x) - R() + H(x). Keď ešte označíme C() = e-R() , u(x) = eH(x) , tak dostávame pre hustotu f(x, ) f(x, ) = C()eQ()T (x) u(x). Definícia 17.6. Nech parametrický priestor je totožný s nejakou borelovskou množinou v Rm . Ak hustota f(x, ) náhodného vektora X má tvar f(x, ) = C()e Ps j=1 Qj ()Tj (x) u(x), kde C(), Qj() sú merateľné funkcie parametra a Tj(x), u(x) sú merateľné funkcie premennej x, tak povieme, že f(x, ) je hustota exponenciálneho typu. Poznámka. V Raovej-Cramerovej vete nastáva rovnosť [1 + b ()]2 J() = E(T - )2 práve vtedy ak hustota náhodného vektora X je exponenciálneho typu. Definícia 17.7. Ak pre odhad T parametra platí, že sp´lňa všetky predpoklady Raovej-Cramerovej vety, čiže je E(T2 ) < a (i) systém hustôt {f(x, ), } je regulárny, (ii) pre existuje derivácia b (), (iii) M T(x)dF(x, ) = M T(x) f (x, ) f(x, ) dF(x, ) (b() = E(T) - je vychýlenie (bias) odhadu T), potom tento odhad nazývame regulárny. Dôsledok. Pre každý regulárny nestranný odhad T parametra platí D(T) 1 J() . Číslu 1 J() sa hovorí dolná Raova-Cramerova hranica pre disperziu regulárneho nestranného odhadu. Definícia 17.8. Eficienciu (výdatnosť) e regulárneho nestranného odhadu T definujeme ako e = 1 D(T)J() . Eficiencia sa dá písať aj ako e = 1 D(T)J() = 1 J() D(T) . 85 Pretože platí, že D(T) 1 J() > 0, je 1 1 D(T)J() = e > 0, čiže 0 < e 1. Definícia 17.9. Ak pre odhad T je e = 1, tak tento odhad sa nazýva eficientný (výdatný). Poznámka. Eficiencia je definovaná len pre regulárne nestranné odhady. Ak T nie je regulárny, môže sa stať, že formálne sa dá spočítať jeho eficiencia a vyjde e > 1 (pozri Cramer, H., Mathematical methods of statistics, Princeton, 1946, §32.3). Príklad 17.6. Nech X1, ..., Xn je náhodný výber z N(, 1). Odhad T = X = 1 n n i=1 Xi je nestranný, regulárny a eficientný odhad parametra . Dokážte. Riešenie: T = X = 1 n n i=1 Xi, pričom X1, ..., Xn sú nezávislé, teda E(T) = , D(T) = 1 n , E(T2 ) = 2 + 1 n . Združené rozdelenie X = (X1, ..., Xn) má hustotu f(x, ) = 1 (2) n 2 e- 1 2 Pn i=1(xi-)2 . Tento systém hustôt je regulárny (dokážte). Ďalej f (x, ) = f(x, ) = n i=1 (xi - )f(x, ), J() = Rn n i=1(xi - )f(x, ) f(x, ) 2 f(x, )dx = = Rn n i=1 (xi - ) 2 f(x, )dx = E[ n i=1 (Xi - )]2 = n i=1 1 = n. Ešte preverme podmienku (iii) Raovej-Cramerovej vety. Platí Rn T(x)dF(x, ) = E(T(X)) = = 1 a Rn T(x) f (x, ) f(x, ) dF(x, ) = Rn T(x)f (x, )dx = = Rn 1 n n i=1 xi n i=1 (xi - )f(x, )dx = E{X(n(X - ))} = = nE[(X - + )(X - )] = n{D(X) + E(X - )} = n 1 n = 1. Vidíme, že T = X je nestranný odhad , regulárny a jeho disperzia je 1 n , čo je 1 J() . Je preto aj eficientný. 86 18. Metóda maximálnej vierohodnosti a momentová metóda Popíšeme dve konkrétne cesty na odvodenie odhadu. Majme náhodný vektor X = (X1, X2, ..., Xn) a poznáme jeho hustotu p(x, ) (resp. v diskrétnom prípade pravdepodobnostnú funkciu (xm, pm())mJ ). Predpokladajme, že , kde je otvorený interval v R. Pri pevnej hodnote je hustota p(x, ) funkciou x. Pravda pre ľubovoľné (pevné) x môžeme p(x, ) (resp. P{X1 = x1, ..., Xn = xn; }) chápať ako funkciu parametra . Pre túto funkciu budeme používať označenie L(x, ) a volať ju vierohodnostná funkcia (z anglického likelihood function). Samozrejme môžeme uvažovať aj funkciu náhodného vektora L(X, ) (ak napr. L(, ) je pre dané merateľná funkcia, tak L(X, ) je náhodná veličina). Definícia 18.1. Ak existuje , že pre všetky (18.1) L(X, ) L(X, ), potom hovoríme, že je odhad parametra získaný metódou maximálnej vierohodnosti (ML odhad). Analyzujme predchádzajúcu definíciu. Pre dané x vieme (často aj explicitne) nájsť (x), ktoré maximalizuje L(x, ). Teda takto máme určenú (niekedy aj explicitne) funkciu (x). Ak ju chápeme ako funkciu náhodného vektora (X), tak toto je ML odhad parametra . Jeho realizácia je (x) (ak realizácia náhodného vektora X je x). Zrejme ak L(x, ) (pri každom x) je dostatočne hladká funkcia (napr. pre každé x existuje L(x, ) ), potom nutne musí byť riešením rovnice (18.2) L(X, ) = = 0. Ak položíme ln 0 = -, potom L(X, ) L(X, ) bude platiť pre všetky práve vtedy ak ln L(X, ) ln L(X, ). Teda v prípade dostatočne hladkej funkcie L môžeme písať rovnicu (18.2) ako (18.3) ln L(X, ) = = ln p(X, ) = = l(X, ) = = 0 Rovnicu (18.3) voláme vierohodnostná rovnica. Poznámka. Dôležitý pri úvahách okolo rovnice (18.3) je fakt, že je otvorený interval. Keby k patril jej krajný bod, mohlo by sa stať, že splňujúci (18.3) je práve v tomto bode. Vtedy ale nemusí byť koreňom (18.3). V ďaľšom sa ohraničíme na prípad, že X1, ..., Xn je nahodný výber zo spojitého rozdelenia s hustotou f(, ) (v diskrétnom prípade s pravdepodobnostnou funkciou (xm, pm)mJ ). Potom X = (X1, ..., Xn) má hustotu p(x, ) = f(x1, )...f(xn, ). Vierohodnostná rovnica (18.3) má preto tvar (18.4) n i=1 ln f(Xi, ) = = 0 87 (v diskrétnom prípade n i=1 ln pXi () = = 0). Poznámka. Dá sa dokázať, že za "rozumných predpokladov" existuje riešenie n = (X1, ..., Xn) vierohodnostnej rovnice (18.4), (vlastne postupnosť riešení {n }n 1), ktoré je maximálne vierohodným odhadom. Tento odhad má veľmi význačnú pravepodobnostnú vlastnosť, a síce je konzistentným odhadom (teda podľa pravdepodobnosti n 0, kde 0 je skutočná hodnota parametra ) (pozri napr. Anděl, J., Základy matematické statistiky, MATFYZPRESS, Praha, 2005, §7.6). Navyše to je asymptoticky normálny vierohodný odhad, presnejšie n(n - 0) N 0, 1 J(0) , (konvergencia v distribúcii). Pre praktické účely to znamená, že pri "dostatočne veľkom" n považujeme rozdelenie pravdepodobnosti náhodnej veličiny n za N 0, 1 nJ(0) . Pretože J(0) nepoznáme, "nahrádzame" ho (blízkou) hodnotou J(n ). Príklad 18.1. Majme náhodný výber X = (X1, ..., Xn) z binomického rozdelenia s paramtrami m (známym) a (0, 1). Parameter odhadujeme metódou maximálnej vierohodnosti. Náhodná veličina Xi, i {1, 2, ..., n} má pravdepodobnostnú funkciu (j, pj)j=0,1,...,m, kde pj = m j j (1-)m-j . Vierohodnostná rovnica (18.4) má tvar n i=1 ln pXi () = = n i=1 ln m Xi Xi (1 - )m-Xi = = = n i=1 ln m Xi + Xi ln + (m - Xi) ln(1 - ) = = = nX ln + n(m - X) ln(1 - ) = = = 1 nX - 1 1 - n(m - X) = 0 = = X m ak X = 0, X = m. Ľahko sa presvedčíme, že ide o maximum, lebo 2 l(X, ) 2 = = - 1 2 nX - 1 (1 - )2 n(m - X) = = -n X 2 + m - X (1 - )2 < 0. V prípade, že máme vektor parametrov Rm , tak namiesto jednej vierohodnostnej rovnice (18.4) riešime sústavu vierohodnostných rovníc (18.5) n i=1 ln f(Xi, ) j = = 0, j = 1, 2, ..., m 88 (v diskrétnom prípade n i=1 ln pXi () j = = 0, j = 1, 2, ..., m). Aj v mnohorozmernom prípade parametra majú ML odhady analogické vlastnosti ako v jednorozmernom prípade, bližšie pozri napr. v knihe Anděl, J., Základy matematické statistiky, MATFYZPRESS, Praha, 2005. Príklad 18.2. Majme náhodný výber X = (X1, ..., Xn) z normálneho rozdelenia s parametrami a 2 , teda = (, 2 ) a priestor parametrov = R × (0, ). Parametre odhadnime metódou maximálnej vierohodnosti. Hustota náhodnej veličiny Xi, i {1, 2, ..., n} je f(xi; , 2 ) = 1 22 e- 1 22 (xi-)2 a sústava vierohodnostných rovníc (18.5) je 2 n 2 ln(22 ) - 1 22 n i=1 (Xi - )2 =,2=2 = 0 n 2 ln(22 ) - 1 22 n i=1 (Xi - )2 =,2=2 = 0. Teda (18.6) - n 2 1 22 2 + 1 24 n i=1 (Xi - )2 = 0 (18.7) 1 22 n i=1 2(Xi - ) = 0. Z (18.7) dostávame, že = 1 n n i=1 Xi = X a po dosadení do (18.6) máme 2 = 1 n n i=1(Xi - X)2 . Dokážme ešte, že pre všetky (, 2 ) = R × (0, ) je l(X, , 2 ) l(X, , 2 ), čiže pre každú realizáciu x náhodného vektora X je l(x, , 2 ) l(x, x, s2 ), kde x je realizácia = X a s2 je realizácia 2 = 1 n n i=1(Xi - X)2 . Upravujme l(x, , 2 ) = - n 2 ln(2) - n 2 ln(2 ) - 1 22 n i=1 [(xi - x) + (x - )]2 = 89 = - n 2 ln(2) - n 2 ln(2 )- - 1 22 n i=1 (xi - x)2 + 2 n i=1 (xi - x)(x - ) + n i=1 (x - )2 = = - n 2 ln(2) - n 2 ln(2 ) - 1 22 n i=1 (xi - x)2 + n(x - )2 = (18.8) = - n 2 ln(2) - n 2 ln(2 ) - ns2 + n(x - )2 22 . Samozrejme l(x, x, s2 ) = - n 2 ln(2) - n 2 ln(s2 ) - n 2 . Preto pre každú realizáciu x je l(x, x, s2 ) - l(x, , 2 ) = n 2 s2 2 - 1 - ln s2 2 + (x - )2 22 0, lebo pre všetky kladné čísla t = s2 2 je (t) = t - 1 - ln t 0. (Funkcia (t) nadobúda pre kladné t minimum v bode t = 1, pričom (1) = 0.) Teraz si popíšeme relatívne najjednoduchšiu metódu získania odhadu - momentovu metódu. Nech X = (X1, ..., Xn) je náhodný výber z rozdelenia, ktoré závisí od = (1, ..., m) . Nech pre všetky existujú momenty k = E(Xk i ), k = 1, 2, ..., m. Samozrejme tieto momenty tiež závisia od , čiže k = k(). Výberové momenty sú Mk = 1 n n i=1 Xk i , k = 1, 2, ... . Momentová metóda odhadu spočíva v tom, že (momentový) odhad je riešením rovníc (18.9) k() = Mk, k = 1, 2, ..., m. Niekedy sa môže stať, že m rovníc (18.9) nestačí k (jednoznačnému) určeniu . Potom sa obyčajne vezmú ďaľšie rovnice k() = Mk, k = m + 1, ... (samozrejme príslušné teoretické momenty k musia existovať). Podľa Chinčinovej vety (Veta 13.2.) Mk konvergujú podľa pravdepodobnosti k k. Tento fakt spolu s inými 90 limitnými vetami obyčajne umožňuje v konkrétnom prípade dokázať konzistenciu odhadov získaných momentovou metódou. Príklad 18.3. Majme náhodný výber X1, X2, ..., Xn z exponenciálneho rozdelenia s f(x, ) = 1 e- x pre x > 0 a f(x, ) = 0 pre x 0. Platí 1() = , M1 = X, teda dostávame odhad parametra momentovou metódou = X. 19. Bodové a intervalové odhady parametrov normálneho rozdelenia Najprv si dokážme dve tvrdenia: Veta 19.1. Nech náhodný vektor X = (X1, ..., Xn) N(, ), pričom je pozitívne definitná matica (regulárna). (Teda X má regulárne normálne rozdelenie.) Ak Bn,n je regulárna matica a a Rn , tak náhodný vektor Y = a + BX N(a + BX, BB ). Dôkaz: Použijeme Vetu 9.4 (o hustote transformovaného náhodného vektora). Hustota náhodného vektora X je fX(x) = (2)- n 2 (det )- 1 2 e- 1 2 (x-) -1 (x-) . Inverzné zobrazenie k h : h(x) = a + Bx je h-1 (y) = B-1 (y - a) a Jakobián Dh-1 (y) = det h-1 y = det B-1 . Preto hustota náhodného vektora Y = a + BX je fY(y) = fX(B-1 (y - a))| det B-1 | = = (2)- n 2 (det )- 1 2 | det B|-1 e- 1 2 (B-1 (y-a)-) -1 (B-1 (y-a)-) = = (2)- n 2 (det(BB ))- 1 2 e- 1 2 (y-a-B) (BB )-1 (y-a-B) , čo je hustota N(a + B, B B ). Veta 19.2. Nech X1, ..., Xn sú nezávislé, Xi N(i, 2 ), i = 1, 2, ..., n. B je ortonormálna n × n matica. Položme X = (X1, ..., Xn) a Y = (Y1, ..., Yn) = B(X-), kde = (1, ..., n) . Potom Y1, ..., Yn sú nezávislé a Yj N(0, 2 ), j = 1, 2, ..., n. Dôkaz: Pretože X1, ..., Xn sú nezávislé, Xi N(i, 2 ), i = 1, ..., n, má X hus- totu fX(x) = n i=1 1 2 e- 1 2 (xi-i ) 2 = (22 )- n 2 e- 1 2 Pn i=1(xi-i ) 2 , 91 čo je hustota N(, 2 I). Ak je B ortonormálna (teda BB = B B = I), tak z Vety 19.1 plynie, že Y = B(X - ) N(0, 2 I) a preto má Y hustotu fY(y) = n i=1 1 2 e- 1 2 (yi ) 2 = n i=1 fYi (yi). Teraz si dokážme nasledujúcu vetu: Veta 19.3 Majme X1, ..., Xn náhodný výber z rozdelenia N(, 2 ). Pre výberový priemer X = 1 n n i=1 Xi a výberový rozptyl S2 = 1 n-1 n i=1(Xi - X)2 platí (i) X N(, 2 n ); (ii) n-1 2 S2 2 n-1; (iii) ak je n > 1, tak sú náhodné veličiny X a S2 nezávislé. Dôkaz: Uvažujme ortonormálnu maticu B (Helmertova matica) B= b1 b2 b3 ... bn-1 bn = 1 n 1 n ... ... ... 1 n 1 12 - 1 12 0 ... ... 0 1 23 1 23 - 2 23 0 ... 0 ... ... ... ... ... 0 1 (n-2)(n-1) 1 (n-2)(n-1) ... 1 (n-2)(n-1) - n-2 (n-2)(n-1) 0 1 (n-1)n 1 (n-1)n ... ... 1 (n-1)n - n-1 (n-1)n (presvedčte sa, že je ortonormálna). Podľa Vety 19.2 je Y = (Y1, ..., Yn) = B(X ) N(0, 2 I), (tentokrát = (, ..., ) ) a teda Yi N(0, 2 ) i = 1, ..., n sú združene nezávislé. Počítajme (19.1) Y Y = (X - ) B B(X - ) = (X - ) (X - ) = n i=1 (Xi - )2 , (19.2) Y1 = b1(X - ) = 1 n n i=1 (Xi - ) = 1 n (nX - n) = n(X - ), (19.3) n i=1 (Xi - X)2 = n i=1 [(Xi - ) - (X - )]2 = = n i=1 (Xi - )2 - 2(X - ) n i=1 (Xi - ) + n(X - )2 = Y Y - n(X - )2 = = n i=1 Y 2 i - Y 2 1 = n i=2 Y 2 i . Z (19.2) dostávame X = Y1 n + a podľa Príkladu 9.2 (alebo Vety 19.1 pre n = 1) je X N(, 2 n ). Podľa (19.3) je n-1 2 S2 = 1 2 n i=1(Xi - X)2 = n j=2 Yj 2 92 a je teda súčtom mocnín nezávislých náhodných veličín Yj , pričom každá z nich má N(0, 1) rozdelenie. Preto n-1 2 S2 2 n-1. Pretože Y1, ..., Yn sú nezávislé sú aj X = Y1 n + a S2 = 1 n-1 n i=2 Y 2 i nezávislé. K zostrojeniu bodových a intervalových odhadov parametrov normálneho rozdelenia budeme okrem náhodných veličín (štatistík) X a S2 potrebovať ešte štatistiky U = X - n a T = X - S n. Veta 19.4 Majme X1, ..., Xn náhodný výber z rozdelenia N(, 2 ). Nech X = 1 n n i=1 Xi je výberový priemer a S2 = 1 n-1 n i=1(Xi -X)2 výberový rozptyl. Platí (i) U = X- n N(0, 1), (ii) T = X- S n tn-1 (Studentovo t rozdelenie s n - 1 stupňami voľnosti). Dôkaz: Pretože podľa Vety 19.3 X N(, 2 n ), podľa Príkladu 9.2 (alebo Vety 19.1) má U = X n - n N(0, 1) rozdelenie. Podľa predchádzajúcej vety sú X a S2 nezávislé, preto aj U a n-1 2 S2 sú nezávislé, pričom n-1 2 S2 2 n-1. Náhodná veličina T = U n-1 2 S2 n-1 = X- n n-1 2 S2 n-1 = X - S n má Studentovo tn-1 rozdelenie. Veta 19.5 Majme X1, ..., Xn náhodný výber z rozdelenia N(, 2 ), kde je neznámy parameter (stredná hodnota) a 2 známe kladné číslo. Potom (19.4) X - u1- 2 n , X + u1- 2 n je 100(1 - )%-ný interval spoľahlivosti pre strednú hodnotu pri známom 2 (u1- 2 je (1 - 2 ) kvantil N(0, 1) rozdelenia (tabuľkovaná hodnota)). Dôkaz: Pretože U = X- n N(0, 1), platí 1 - = P{u 2 X - n u1- 2 } = = P X - u1- 2 n X + u1- 2 n , (lebo u 2 = -u1- 2 ). Interval (19.4) je náhodný interval s pevnou ďlžkou (jeho krajné hodnoty sú náhodné premenné). Chápať ho treba (frekventisticky) tak, že ak by sme realizovali napr. M× nezávisle náhodný výber rozsahu n z N(, 2 ) rozdelenia (pritom 2 poznáme a je vždy rovnaké), tak "približne" M 100 (1-) realizácií pokryje skutočnú neznámu hodnotu (teda 100(1 - )% z týchto realizácií pokryje ). 93 Veta 19.6 Majme X1, ..., Xn náhodný výber z rozdelenia N(, 2 ), kde ani 2 nepoznáme. Potom (19.5) X - tn-1(1- 2 ) S n , X + tn-1(1- 2 ) S n je 100(1 - )%-ný interval spoľahlivosti pre strednú hodnotu pri neznámom 2 (tn-1(1- 2 ) je (1 - 2 ) kvantil Studentovho tn-1 rozdelenia) a (19.6) (n - 1)S2 2 n-1(1- 2 ) , (n - 1)S2 2 n-1( 2 ) je 100(1-)%-ný interval spoľahlivosti pre rozptyl 2 (2 n-1(1- 2 ) je (1- 2 ) kvantil 2 n-1 rozdelenia). Dôkaz: Pretože T = X- S n tn-1, platí 1 - = P tn-1( 2 ) X - S n tn-1(1- 2 ) = = P X - tn-1(1- 2 ) S n X + tn-1(1- 2 ) S n . Vzhľadom na to, že n-1 2 S2 2 n-1, zase platí 1 - = P 2 n-1( 2 ) n - 1 2 S2 2 n-1(1- 2 ) = = P (n - 1)S2 2 n-1(1- 2 ) 2 (n - 1)S2 2 n-1( 2 ) . V ďaľšom sa budeme zaoberať prípadom, že máme dva nezávislé náhodné výbery. Veta 19.7 Majme X1, ..., XnX náhodný výber z rozdelenia N(X, 2 X), X je jeho výberový priemer a S2 X jeho výberový rozptyl. Ďalej majme Y1, ..., YnY náhodný výber z rozdelenia N(Y , 2 Y ), Y je jeho výberový priemer a S2 Y jeho výberový rozptyl. Predpokladajme, že oba výbery sú nezávislé. Potom (i) štatistika UX-Y = X - Y - (X - Y ) 2 X nX + 2 Y nY N(0, 1), (ii) ak 2 X = 2 Y = 2 , tak štatistika TX-Y = X - Y - (X - Y ) (nX -1)S2 X +(nY -1)S2 Y nX +nY -2 nXnY nX + nY tnX +nY -2, (iii) štatistika F = S2 X S2 Y 2 Y 2 X FnX -1,nY -1. 94 Dôkaz: Z nezávislosti náhodných výberov vyplýva, že štatistiky X, Y , S2 X, S2 Y sú nezávislé. (i) Pretože X N(X, 2 X nX ), Y N(Y , 2 Y nY ) a sú nezávislé, je X - Y N(X - Y , 2 X nX + 2 Y nY ) (vyplýva to napr. z Vety 11.5 o charakteristickej funkcii súčtu nezávislých náhodných veličín). Potom ale štandardizovaná náhodná veličina UX-Y = X - Y - (X - Y ) 2 X nX + 2 Y nY N(0, 1). (ii) Ak je 2 X = 2 Y = 2 , tak štatistika UX-Y = X - Y - (X - Y ) 2 X nX + 2 Y nY = X - Y - (X - Y ) 1 nX + 1 nY = = X - Y - (X - Y ) nX nY nX + nY N(0, 1). Pretože nX -1 2 S2 X 2 nX -1, nY -1 2 S2 Y 2 nY -1 má náhodná veličina nX - 1 2 S2 X + nY - 1 2 S2 Y = 1 2 [(nX - 1)S2 X + (nY - 1)S2 Y ] 2 nX +nY -2 (vyplýva to napr. z definície 2 rozdelenia) a je nezávislá s UX-Y . Potom ale UX-Y 1 2 [(nX -1)S2 X +(nY -1)S2 Y ] nX +nY -2 = X-Y -(X -Y ) nX nY nX +nY 1 2 [(nX -1)S2 X +(nY -1)S2 Y ] nX +nY -2 = = X - Y - (X - Y ) (nX -1)S2 X +(nY -1)S2 Y nX +nY -2 nXnY nX + nY = TX-Y tnX +nY -2. (iii) Ľahko vidíme, že nX -1 2 S2 X nX - 1 nX -1 2 S2 X nX - 1 = S2 X S2 Y 2 Y 2 X = F FnX -1,nY -1. Teraz už ľahko dokážeme nasledujúcu vetu Veta 19.8 Majme X1, ..., XnX náhodný výber z rozdelenia N(X, 2 X), X je jeho výberový priemer a S2 X jeho výberový rozptyl. Ďalej majme Y1, ..., YnY náhodný výber z rozdelenia N(Y , 2 Y ), Y je jeho výberový priemer a S2 Y jeho výberový rozptyl. Predpokladajme, že oba výbery sú nezávislé. Potom 95 (i) ak sú 2 X a 2 Y známe, tak 100(1 - )% interval spoľahlivosti pre X - Y je X - Y - u1- 2 2 X nX + 2 Y nY , X - Y + u1- 2 2 X nX + 2 Y nY , (ii) ak sú 2 X a 2 Y neznáme, ale platí 2 X = 2 Y = 2 , tak 100(1 - )% interval spoľahlivosti pre X - Y je X - Y - tnX +nY -2(1- 2 ) (nX - 1)S2 X + (nY - 1)S2 Y nX + nY - 2 nX + nY nX nY , X - Y + tnX +nY -2(1- 2 ) (nX - 1)S2 X + (nY - 1)S2 Y nX + nY - 2 nX + nY nXnY , (iii) ak sú X , Y , 2 X, 2 Y neznáme, tak 100(1 - )% interval spoľahlivosti pre 2 X 2 Y je S2 X S2 Y 1 FnX -1,nY -1(1- 2 ) , S2 X S2 Y 1 FnX -1,nY -1( 2 ) (FnX -1,nY -1(1- 2 ) je (1 - 2 ) kvantil FnX -1,nY -1 rozdelenia). Dôkaz: Spravte ako cvičenie, využite štatistiky z Vety 19.7. Ešte pre úplnosť si uvedieme bez dôkazu interval spoľahlivosti pre rozdiel stredných hodnôt u tzv. párových výberov. Veta 19.9. Nech X1 = (X1, Y1) , ..., Xn = (Xn, Yn) je náhodný výber z dvojrozmerného normálneho rozdelenia N(, ) s paramertami = (X, Y ) a = 2 X XY XY 2 Y , pričom X, Y R, 2 X > 0, 2 Y > 0, (0, 1). Pre i = 1, 2, ..., n označme Zi = Xi - Yi, Z = 1 n n i=1 Zi, S2 Z = 1 n-1 n i=1(Zi - Z)2 . Potom Z - tn-1(1- 2 ) SZ n , Z + tn-1(1- 2 ) SZ n je 100(1 - )%-ný interval spoľahlivosti pre X - Y . Niekedy sa takémuto intervalu spoľahlivosti hovorí aj intervalový odhad X -Y o spoľahlivosti (1 - ). 20. Testovanie hypotéz Ukážeme si, v čom spočíva (v matematickej štatistike) podstata testovania hypotéz. Myslíme tým štatistické testovanie hypotéz, niekedy tiež hovoríme o testovaní štatistických hypotéz). Majme náhodný výber X = (X1, ..., Xn) , pričom nevieme, ci pochádza z rozdelenia N(0, 2 ) alebo z N(1, 2 ), poznáme 0, 1, (0 = 1) aj 2 . Máme hypotézu (tzv. nulovú hypotézu) 96 H0: výber pochádza z rozdelenia N(0, 2 ) Tzv. alternatívna hypotéza (konkurujúca) je H1: výber pochádza z rozdelenia N(1, 2 ) Rozhodnutie bude take, že platnosť H0 nezamietneme alebo zamietneme. Pri rozhodovaní o platnosti H0 alebo H1 sa môzeme dopustiť jednej z dvoch chýb. (i) Ak zamietneme H0, hoci ona platí (je správna), urobíme tzv. chybu prvého druhu. (ii) Ak nezamietneme H0, hoci nie je správna (t.j. platí H1), urobíme chybu druhého druhu. Svoje rozhodovanie založíme na realizácii x = (x1, x2, ..., xn) náhodného výberu X. Preto bude "ovplyvnené" náhodou. Prirodzene požadujeme, aby rozhodovacie pravidlo, podľa ktorého zamietneme alebo nezamietneme H0 bolo také, aby pravdepodobnosti oboch chýb boli čo najmenšie. Keď rozsah náhodného výberu n je pevne určený, nedajú sa pravdepodobnosti oboch horeuvedených chýb súčasne urobiť takými malými, ako by sme si priali. Zaužívalo sa trvať na požiadavke, aby pravdepodobnosť chyby prvého druhu bola rovná , kde je vopred zvolené číslo z intervalu (0, 1). V praxi sa ukázalo vhodné voliť {0, 1; 0, 05; 0, 01}. Číslu sa hovorí hladina významnosti testu. Pravdepodobnosť chyby druhého druhu označme . Štatistické rozhodovanie prebieha tak, že sa dopredu určí tzv. kritický obor (kritická oblasť) W ( Rn ), t.j. množina realizácií x, pri ktorých budeme H0 zamietať. Teda ak sa realizuje x W, tak H0 zamietneme. Tvar kritického oboru stanovujeme tak, aby za platnosti H0 padla realizácia x do kritického oboru "zriedka", ale za platnosti H1 tam padla "čo najčastejšie". Veľkosť kritického oboru volíme tak, aby sme platnú H0 zamietali s pravdepodobnosťou . Na testovanie (rozhodovanie) použijeme "vhodnú" štatistiku T = T(X), ktorú nazyvame testovacia štatistika. V takom prípade popíšeme kritickú oblasť ako množinu T(W). Teda H0 zamietneme, ak T(x) T(W). Vráťme sa k testovaniu H0: výber pochádza z rozdelenia N(0, 2 ) oproti alternatívnej hypotéze H1: výber pochádza z rozdelenia N(1, 2 ). Použijeme testovaciu štatistiku T(X) = X = 1 n n i=1 Xi. Vieme, že (v našom prípade) za platnosti H0 bude X N(0, 2 n ), teda realizácie x budú (pri dosť veľkom n) blízo 0. Navrhneme také rozhodovacie (testovacie) pravidlo, že ak |x - 0| k, tak zamietneme H0. Teda "tvar" kritickej oblasti je {x : x (-, 0 - k) (0 + k, )}. "Veľkosť" kritickej oblasti (teda číslo k) volíme tak, aby pravdepodobnosť chyby prvého druhu bola , teda aby realizácia x padla do kritickej oblasti za platnosti H0 s pravdepodobnosťou . Inými slovami chceme aby P{|X - 0| k} = , pričom X N(0, 2 n ). Zrejme =P{|X-0| k}=P{| X - 0 n | k n}P{- k n X - 0 n k n}=1-. 97 Pretože X-0 n N(0, 1), je zrejmé, že k n = u1- 2 . Kritická oblasť testu H0 oproti H1 s hladinou významnosti (pri použití testovacej štatistiky X) je W = {x : |x - 0| u1- 2 n }. Treba si všimnúť, že nezamietnutie H0 neznamená, že H0 je správna. K tomu, aby sme považovali H0 za správnu, potrebovali by sme mať ešte záruku, že je dosť malé. Potom by sme mohli hovoriť, že H0 prijímame. Testovať H0 na hladine významnosti len zaručuje, že zamietnutie nulovej hypotézy, hoci je správna nastane s pravdepodobnosťou . V sledovanom príklade sme mali tzv. jednoduchú hypotézu H0 ­ testovaný parameter (stredná hodnota) v prípade platnosti H0 mohol nadobudnúť len jednu hodnotu, a síce 0. Aj alternatíva H1 bola jednoduchá. Pri testovaní hypotéz obyčajne predpokladáme, že parameter rozdelenia pravdepodobnosti náhodného výberu X je = (1, ..., m) Rm , kde je parametrický priestor ­ otvorená a neprázdna množina. 0 a 1 = - 0 sú dve "konkurujúce si" možiny. H0 : 0 a H1 : - 0. Pretože H0 aj H1 nie sú vo všeobecnosti jednoduché, hladina významnosti testu s kritickou oblasťou W je sup 0 P(X W). Tiež sa uvažuje sa funkcia () = P(X W), . Volá sa silofunkcia testu s kritickou oblasťou W. Niekedy sa pracuje s funkciou 1 - (), ktorá sa volá operačná charakteristika testu. Ak je H1 jednoduchá, (teda H1 : = 1, tak 1 - (1) sa volá sila testu. Prehľad niektorých vybraných testov pre jeden náhodný výber X z N(, ) rozdelenia (x je realizácia X a s2 je realizácia S2 ): H0 : = 0 H1 : = 0 W = {x : |x - 0| n u1- 2 } 2 je známe H0 : = 0 H1 : > 0 W = {x : (x - 0) n u1-} 2 je známe H0 : = 0 H1 : < 0 W = {x : (x - 0) n -u1-} 2 je známe H0 : = 0 H1 : = 0 W = {x : |x - 0| n stn-1(1- 2 )} 2 neznáme H0 : = 0 H1 : > 0 W = {x : (x - 0) n stn-1(1-)} 2 neznáme H0 : = 0 H1 : < 0 W = {x : (x - 0) n -stn-1(1-)} 2 neznáme H0 : 2 = 2 0 H1 : 2 = 2 0 W = {x : (n-1) 2 0 s2 / (2 n-1( 2 ), 2 n-1(1- 2 ))} neznáme H0 : 2 = 2 0 H1 : 2 > 2 0 W = {x : (n-1) 2 0 s2 2 n-1(1-)} neznáme H0 : 2 = 2 0 H1 : 2 < 2 0 W = {x : (n-1) 2 0 s2 2 n-1()} neznáme Prehľad niektorých vybraných testov v prípade dvoch nezávislých náhodných výberov, a síce X = (X1, ..., XnX ) z N(X, 2 X) s výberovým priemerom X a výberovým rozptylom S2 X a Y = (Y1, ..., YnY ) z N(Y , 2 Y ) s výberovým priemerom Y a výberovým rozptylom S2 Y , S2 XY = (nX -1)S2 X +(nY -1)S2 Y nX +nY -2 , x (y) je realizácia X (Y ), s2 X (s2 Y ) je realizácia S2 X (S2 Y ) a s2 XY je realizácia S2 XY : 2 X, 2 Y sú známe H0 : X = Y H1 : X = Y W = {(x , y ) : |x - y| u1- 2 2 X nX + 2 Y nY } 2 X = 2 Y neznáme 98 H0 : X = Y H1 : X = Y W = {(x , y ) : |x - y| tnX +nY -2(1- 2 )sXY nX +nY nX nY } X, Y neznáme H0 : 2 X = 2 Y H1 : 2 X = 2 Y W = {(x , y ) : s2 X s2 Y / (FnX -1,nY -1( 2 ), FnX -1,nY -1(1- 2 ))} Poznámka. Namiesto hladiny významnosti bežný štatistický softvér (STATISTICA, S+, SAS) udáva dosiahnutú hladinu (anglicky P-value, significance value, significance level). Je to najmenšia hladina významnosti testu, pri ktorej by sme (pri danej realizácii testovacej štatistiky) hypotézu H0 ešte zamietli. Vyjadruje pravdepodobnosť spočítanú za platnosti nulovej hypotézy, že dostaneme práve našu realizáciu alebo realizáciu ešte viac odporujúcu testovanej hypotéze. Pri "vyberaní" vhodného testu postupujeme tak, že medzi testami na (požadovanej) hladine významnosti sa snažíme zvoliť test s čo najmenšou pravdepodobnosťou chyby druhého druhu. To ale ukazuje práve funkcia (). Obom požiadavkám sa (niekedy) dá vyhovieť v jednoduchom prípade, a síce ak máme jednoduchú hypotézu H0 : = 0 oproti jednoduchej alternatíve H1 : = 1. Hovorí o tom nasledujúca veta. Veta 20.1. (Neymanova-Pearsonova lema) Majme náhodný vektor X = (X1, ..., Xn) s hustotou f(x, ). Nech k danému (0, 1) existuje také c > 0, že pre množinu (20.1) Wc = {x : f(x, 1) cf(x, 0)} platí (20.2) Wc f(x, 0)dx = . Potom pre každú merateľnú množinu W takú, že W f(x, 0)dx = platí (20.3) Wc f(x, 1)dx W f(x, 1)dx. Dôkaz: Množiny W a Wc sa môžu napísať ako W = (W - Wc) (W Wc), Wc = (Wc - W) (W Wc). Počítajme teraz Wc f(x, 1)dx - W f(x, 1)dx = 99 = Wc-W f(x, 1)dx + W Wc f(x, 1)dx- W -Wc f(x, 1)dx W Wc f(x, 1)dx c Wc-W f(x, 0)dx - c W -Wc f(x, 0)dx = = c Wc-W f(x, 0)dx + c W Wc f(x, 0)dx- c W -Wc f(x, 0)dx - c W Wc f(x, 0)dx = = c Wc f(x, 0)dx - c W f(x, 0)dx = c - c = 0, lebo na množine Wc - W je Wc-W f(x, 1)dx c Wc-W f(x, 0)dx a mimo množiny Wc je W -Wc f(x, 1)dx c W -Wc f(x, 0)dx, čiže W -Wc f(x, 1)dx -c W -Wc f(x, 0)dx. Veta 20.1. teda tvrdí, že ak máme testovať jednoduchú hypotézu oproti jednoduchej alternatíve a sú splnené podmienky (20.1) a (20.2), tak test s kritickou oblasťou Wc má hladinu významnosti a pre akýkoľvek test s hladinou významnosti je podľa (20.3) sila testu s kritickou oblasťou Wc väčšia. Test s kritickou oblasťou Wc je najsilnejší možný medzi všetkými testami s hladinou významnosti . Príklad 20.1. Majme náhodný výber X = (X1, ..., Xn) z rozdelenia N(, 2 ), pričom 2 poznáme. Nájdite najsilnejší test nulovej hupotézy H0 : = 0 oproti alternatívnej hypotéze H1 : = 1, kde 0 < 1. Riešenie: Pretože f(x, , 2 ) = (22 )- n 2 e- 1 22 Pn i=1(xi-)2 , je kritický obor z Neymanovej-Pearsonovej lemy Wc = x : f(x, 1, 2 ) f(x, 0, 2) = e- 1 22 ( Pn i=1(xi-1)2 - Pn i=1(xi-0) 2 c , teda Wc = x : 1 22 n i=1 (xi - 0)2 - n i=1 (xi - 1)2 ln c . 100 Úpravou dostávame Wc = x : 2x(1 - 0) - (2 1 - 2 0) 22 n ln c , Wc = x : x 1 + 0 2 + 2 n(1 - 0) ln c , Wc = x : x - 0 n 1+0 2 + 2 n(1-0) ln c - 0 n , (20.1) Wc = x : x - 0 n 1 - 0 2 n + ln c n(1 - 0) . Treba nám ešte určiť c. Jeho hodnotu spočítame z podmienky = Wc f(x, 0, 2 )dx = Po (X Wc) = P0 { : X() Wc} = = P : X() - 0 n 1 - 0 2 n + ln c n(1 - 0) . Pretože X-0 n N(0, 1), dostávame, že 1 - 0 2 n + ln c n(1 - 0) = u1-, čize c = e 2 n(1 - 0)u1- - n(1 - 0)2 22 . Jednoduchšie určenie Wc je z (20.1) Wc = x : x - 0 n u1- = x : x 0 + u1- n . Poznámka. Podobne by sme v prípade hľadania najsilnejšieho testu nulovej hupotézy H0 : = 0 oproti alternatívnej hypotéze H1 : = 1, keď 0 > 1 odvodili, že v tomto prípade H0 zamietame na hladine významnosti ak x - 0 n -u1-. Urobte ako cvičenie. DODATOK Platí 0 (cos bx)e-a2 x2 dx = 2a e- b2 4a2 , a > 0, 0 cos bx 1 + x2 dx = 2 e-|b| , 0 xn e-ax2 dx = n+1 2 2a n+1 2 , a > 0, n > -1. Dôkazy nájdete v učebnici matematickej analýzy.