Matematika IV - 8. přednáška Náhodné veličiny - základní vlastnosti a typy Michal Bulant Masarykova univerzita Fakulta informatiky 14. 4. 2008 Q Náhodné veličiny Q Typy diskrétních náhodných veličin Q Typy spojitých náhodných veličin ˇ Martin Panák, Jan Slovák, Drsná matematika, e-text. * Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická statistika, Matfyzpress, 4. vydání, 2006, 230 stran, ISBN 80-867-3271-1. * Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. * Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Popisná statistika, Masarykova univerzita, 3. vydání, 2002, 48 stran, ISBN 80-210-1831-3. * Marie Budíková, Tomáš Lerch, Štěpán Mikoláš, Základní statistické metody, Masarykova univerzita, 2005, 170 stran, ISBN 80-210-3886-1. Na prostoru Rfc uvažujme nejmenší jevové pole B obsahující všechny /(-rozměrné intervaly. Množinám v B říkáme borelovske množiny (nebo také měřitelné množiny) na Rfc . Speciálně pro k = 1 jde o množiny, které obdržíme z intervalů konečnými průniky a nejvýše spočetnými sjednoceními. Definice Náhodná veličina X na pravděpodobnostním prostoru (Q,A, P) je taková funkce X : Q --> R, že vzor X _ 1 ( ß ) patří do ,,4 pro každou Borelovskou množinu B G B na R (tj. X : Q --> R je tzv. borelovsky měřitelná). Množinová funkce PX{B) = P{X-\B)) se nazývá rozdělení pravděpodobnosti náhodné veličiny X. Náhodný vektor ( X i , . . . ,Xk) na (Q, A, P) je /c-tice náhodných veličin. Definice náhodné veličiny zajišťuje, že pro všechny --oo < a < b < oo existuje pravděpodobnost P(a < X < b), kde používáme stručné značení projev A = (w G Q; a < X(w) < b)). Definice Distribuční funkcí náhodné veličiny X x G R vztahem (distribution je funkce F F(x) = , cumulative : R -^ R def P(X < x). density function) novaná pro všechny Distribuční funkcí náhodného vektoru (Xi, F : R^ --> R definovaná pro všechny ( x i , . . . , .. ,X/() je funkce Xk) G Rfc vztahem F(x ) = P(Xi < xi A ˇ ˇAXt xn. Q Je-li X spojitá, pak je F(x) diferencovatelná a její derivace se rovná hustotě X, tj. platí F'(x) = f (x). Distribik o Obdobně definujeme distribuční funkce a hustotu a pravděpodobnostní funkci pro spojité a diskrétní náhodné vektory. Hovoříme také o simultánních pravděpodobnostních funkcích a hustotách. Pro dvě proměnné (vektor (X, Y) náhodných veličin): r, x í P(X = Xi A Y = yi) x=XiAy = yi 10 jinak, u diskrétních a pro všechny a, b G M pro spojité: P(-oo 1 [O jinak Binomické rozdělení Bi(n,p) odpovídá n-krát nezávisle opakovanému pokusu popsanému alternativním rozdělením, přičemž naše náhodná veličina měří počet zdarů. Je tedy fx(t) Vťil-p)1 -' t G {0,1,..., n} jinak Na obrázku jsou pravděpodobnostní funkce pro Bi(50,0.2), Bi(50,0.5) a Bi(50, 0.9). Rozdělení pravděpodobnosti dobře odpovídá intuici, že nejvíce výsledků bude blízko u hodnoty np: Binomické rozdělení S binomickým rozdělením se potkáváme velice často v praktických úlohách. Jednou z nich je popis náhodné veličiny, která popisuje počet X předmětů v jedné zvolené přihrádek z n možných, do nichž jsme náhodně rozdělili r předmětů. Umístění kteréhokoliv předmětu do pevně zvolené přihrádky má pravděpodobnost 1/n (každá z nich je stejně pravděpodobná). Zjevně tedy bude pro jakýkoliv počet k = 0 , . . . , r P(X = k) r-k r\(n-iy-k k ď : jde proto o rozložení X typu Bi(r, 1/n). Binomické -->ˇ Poissonovo rozdělení Jestliže nám bude vzrůstat počet přihrádek n společně s počtem předmětů rn tak, že v průměru nám na každou přihrádku bude připadat (přibližně) stejný počet prvků A, můžeme dobře vyjádřit chování našeho rozdělení veličin Xn při limitním přechodu n --> oo. Takovéto chování popisuje např. fyzikální soustavy s velikým počtem molekul plynu. Standardní úpravy vedou při l i m ^ o o rn/n = A k výsledku: lim P(Xn = k) k rn(rn lim n-->oo lim n-->oo -- hm K! n-->oo rn\ (n - If"- nrn l ) . . . ( r n k + 1) 1 (n-iy k\ 1 + /c! protože obecně funkce (1 + x/n)n konvergují stejnoměrně k funkci ex na každém omezeném intervalu v R. Poissonovo rozdělení Po(A) Poissonovo rozdělení popisuje náhodné veličiny s pravděpodobnostní funkcí fx(t) k\ 0 ř G N jinak. Jak jsme odvodili výše, toto diskrétní rozdělení (rozložené do nekonečně mnoha bodů) dobře aproximuje binomická rozdělení Bi(n, X/n) pro konstantní A > 0 a veliká n. Snadno ověříme A* E *) = E Ír ˇ-*=-* Ek=0 hl k\ -A+A 1. Dobře modeluje výskyt jevů: * s očekávanou konstantní hustotou na jednotku objemu - např. bakterie ve vzorku (popis očekávaného výskytu k bakterií při rozdělení vzorku na n stejných částí) * rozdělení událostí, které se vyskytují náhodně v čase a bez závislosti na předchozí historii - v praxi jsou takové procesy často spojeny s poruchovostí strujů a zařízení Geometrické rozdělení má náhodná veličina X ~ Ge(p), která udává celkový počet nezdarů, které v posloupnosti opakovaných pokusů předcházejí prvnímu zdaru, přičemž pravděpodobnost úspěchu v každém pokusu je rovna p . fx(t) (1-PY-P pro t = 0,1, 0 jinak. Hypergeometrické rozdělení. Mějme N předmětů, z nichž právě M má danou vlastnost. Z těchto N předmětů náhodně vybereme n předmětů bez vracení. Náhodná veličina X ~ Hg(/V, M, n) udává počet vybraných prvků s danou vlastností. Zřejmě tato náhodná velišina může nabývat pouze celočíselných hodnot z intervalu [max{0, M -- N + n}, min{n, M}]. Pro t z tohoto intervalu pak fx(t) Cľ)(tľ) Rovnoměrné spojité rozdělení Rs(a, b) je nejjednoduším příkladem spojitého rozdělení. Ilustruje, že při jednoduše formulovaném požadavku na chování rozdělení nám nezbude moc prostoru pro jeho definici. Nyní chceme, aby pravděpodobnost každé hodnoty v předem daném intervalu (a, í ) ) c M byla stejná, tj. hustota fx našeho rozdělení náhodné veličiny X má být konstantní. Pak ovšem jsou pro libovolná reálná čísla --oo < a < b < oo jen jediné možné hodnoty { 0 ř< a (O t < a t^ t(a,b) Fx(t) = J § t(a,b) 0 t>b, (l t>b. Exponenciální rozdělení ex(A) je dalším rozdělením, které je snadno určeno požadovanými vlastnostmi náhodné veličiny. Předpokládejme, že sledujeme náhodný jev, jehož výskyty v nepřekrývajících se časových intervalech jsou nezávislé. Je-li tedy P(t) pravděpodobnost, že jev nenastane během intervalu délky ř, pak nutně P(t + s) = P(t)P(s) pro všechna ŕ, s > 0. Předpokládejme navíc diferencovatelnost funkce P a P(0) = 1. Pak jistě In P{t + s) = In P(ť) + In P{s), takže limitním přechodem lim 5^0+ In P(ŕ + s)-In P(r) (InP)V(O). Označme si spočtenou derivaci zprava v nule jako --A G M. Pak tedy pro P{ť) platí In P{ť) = --Xt + C a počáteční podmínka dává jediné řešení P(t) = e -Xt Všimněme si, že z definice našich objektů vyplývá, že A > 0. Nyní uvažme náhodnou veličinu X udávající (náhodný) okamžik, kdy náš jev poprvé nastane. Zřejmě tedy je distribuční funkce rozdělení pro X dána -At Fx(t) P(t) r > 0 r < 0 . Je vidět, že skutečně jde rostoucí funkci s hodnotami mezi nulou a jedničkou a správnými limitami v 00. Hustotu tohoto rozdělení dostaneme derivováním distribuční funkce, tj. ÍAe"At ř > 0 fx 0 r < 0 . Jde o nejdůležitější rozdělení. Uveďme nejprve motivaci pro jeho zavedení. Pokud budeme v binomickém rozdělení Bi(n, p) zvyšovat n při zachování úspěšnosti p, bude mít pravděpodobnostní funkce pořád přibližně stejný tvar. Bi(500, 0.5) Bi(5000, 0.5) graf funkce e"*2 /2 Normální rozdělení A/(0,1) Vzhledem k uvedené motivaci se nabízí hledat vhodné spojité rozdělení, které by mělo hustotu danou nějakou obdobnou funkcí. Protože je e_ x '2 vždy kladná funkce, potřebovali bychom spočíst J e~x /2 dx což není pomocí elementárních funkcí možné. Je však možné (i když ne úplně snadné) ověřit, že příslušný nevlastní integrál konverguje k hodnotě -2 /2 dx 2vr. Odtud vyplývá, že možná hustota rozdělení náhodného rozdělení může být 1 6c(x) -x2 /2 2vr Rozdělení s touto hustotou se nazývá normální rozdělení N(0,1). Příslušnou distribuční funkci Fx(x) = ľ e"x2/2 dx J--oo nelze vyjádřit pomocí elementárních funkcí, přesto se s ní numericky běžně počítá (pomocí tabulek nebo softwarových aplikací). Hustotě fx se také často říká Gaussova křivka. Abychom uměli pořádněji sformulovat asymptotickou blízkost normáního a binomického rozdělení pro n --> oo, musíme si vytvořit další nástroje pro práci s náhodnými veličinami. Budeme k tomu používat funkce dvojím různým způsobem. Příklad Nechť veličina náhodná veličina X má rovnoměrné rozdělení na intervalu (0, r). Určete distribuční funkci a hustotu pravděpodobnosti rozdělení objemu koule o poloměru X. Řešení Určeme nejprve distribuční funkci F (pro 0 < d < f 7rr3 ) F{d) = P ^vrX3 < d 3 = P X < \ -- ~ V 47T 3 /šZ V 4-7T F{d) = P ^vrX3 < d 3 = P X < \ -- ~ V 47T f celkem í 0 pro x < 0 F(x) = l ^ x 3 pro 0 < x < fvrr3 [ 1 pro X > |7Tf3 Derivováním pak obdržíme hustotu pravděpodobnosti.