MASARYKOVA UNIVERZITA přírodovědecká fakulta Ústav matematiky a statistiky Bakalářská práce Brno 2015 Milena Topalovič to J MASARYKOVA UNIVERZITA přírodovědecká fakulta Ústav matematiky a statistiky 7 ^ O O ^ Sbírka řešených příkladů z pravděpodobnosti a statistiky Bakalářská práce Milena Topalovič Vedoucí práce: Mgr. Jan Koláček, Ph.D. Brno 2015 Bibliografický záznam Autor: Název práce: Studijní program: Studijní obor: Vedoucí práce: Akademický rok: Počet stran: Klíčová slova: Milena Topalovič Přírodovědecká fakulta, Masarykova univerzita Ústav matematiky a statistiky Sbírka řešených příkladů z pravděpodobnosti a statistiky Matematika Finanční a pojistná matematika Mgr. Jan Koláček, Ph.D. 2014/15 x+101 náhodná veličina; střední hodnota; rozptyl; kvantil; kovariance; korelace; náhodný vektor; centrální limitní věta; normální rozdělení; odhad; testování hypotéz Bibliographie Entry Author: Title of Thesis: Degree Programme: Field of Study: Supervisor: Academic Year: Number of Pages: Keywords: Milena Topalovic Faculty of Science, Masaryk University Department of Mathematics and Statistics The collection of solved examples from theory of probability and mathematical statistics Mathematics Financial and Actuarial Mathematics Mgr. Jan Koláček, Ph.D. 2014/15 x+101 random variable; the mean; variance; quantile; covariance; correlation; random vector; central limit theorem; normal distribution; estimate; hypothesis testing Abstrakt Cílem této bakalářské práce je sestavit sbírku řešených příkladů z pravděpodobnosti a statistiky. Sbírka bude doplněním k již existujícím učebním textům, vytvořeným k předmětu M4122. V textu jsou uvedeny teoretické základy, které jsou využity k vyřešení příkladů. Součástí jsou rovněž nevyřešené příklady, sloužící k procvičování probrané látky. Abstract The aim of this Bachelor thesis is to compile a collection of exercises in probability and statistics. The collection will be added as supplement to existing textbooks, created for the course M4122. Theretical foundations has been introduced within the text, which are than used as reference for solving problems. Also included are unsolved examples, used to practice the subject materia. MASARYKOVA UNIVERZITA Přírodovědecká fakulta ZADÁNÍ BAKALÁŘSKÉ PRÁCE Akademický rok: 2014/2015 Ústav: Ústav matematiky a statistiky Studentka: Milena Topalovič Program: Matematika Obor: Finanční a pojistná matematika Ředitel Ústavu matematiky a statistiky PřF MU Vám ve smyslu Studijního a zkušebního řádu MU určuje bakalářskou práci s tématem: Téma práce: Sbírka řešených příkladů z pravděpodobnosti a statistiky Téma práce anglicky: The collection of solved examples from theory of probability and mathematical statistics Oficiální zadání: Studentka vytvoří sbírku řešených příkladů z pravděpodobnosti a matematické statistiky. Tato sbírka bude doplněním učebního textu k předmětu M4122. AGRESTI, Alan a Christine A. FRANKLIN. Statistics :the art and science of learning from data. Upper Saddle River, NJ: Pearson Prentice Hall, 2006. xxv, 693 s. ISBN 0-13-045536-9. FORBELSKÁ, Marie a Jan KOLÁČEK. Pravděpodobnost a statistika II. 1. vyd. Brno: Masarykova univerzita, 2013. Elportál. ISBN 978-80-210-6711-0. FIELD, Andy a Jeremy MILES. Discovering statistics using R.: SAGE, 2012. ISBN 978-1 -4462-0045-2. MELOUN, Milan a Jiří MILITKÝ. Interaktivní statistická analýza dat. 2012. ISBN 978-80-246-2173-9. Jazyk závěrečné práce: Vedoucí práce: Mgr. Jan Koláček, Ph.D. Datum zadání práce: 2. 6. 2014 V Brně dne: 29.10.2014 Souhlasím se zadáním (podpis, datum): 9-- U.QLioU) /-n Literatura: studentka Mgr. Jan Koláček, Ph.D. vedoucí práce prof. RNDr. Jiří Rosický, DrSc. ředitel Ústavu matematiky a statistiky Poděkování Mé poděkování patří Mgr. Janu Koláčkovi, Ph.D. za odborné vedení, trpělivost a ochotu, kterou mi v průběhu zpracování bakalářské práce věnoval. Děkuji také Mgr. Janu Karafiátovi za věnovaný čas a pomoc s gramatickou kontrolou práce. Prohlášení Prohlašuji, že jsem svoji bakalářskou práci vypracovala samostatně s využitím informačních zdrojů, které jsou v práci citovány. Brno 27. května 2015 Milena Topalovič Obsah Úvod....................................................................... ix Přehled použitého značení................................................... x Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností.............. 1 1.1 Střední hodnota a rozptyl náhodné veličiny...................... 2 1.2 Kvantily.............................................. 12 1.3 Kovariance a korelační koeficient............................. 14 1.4 Charakteristiky náhodných vektorů............................ 21 1.5 Cvičení .............................................. 23 Kapitola 2. Limitní věty .................................................... 27 2.1 Markovova a Čebyševova nerovnost........................... 27 2.2 Centrální limitní věta..................................... 30 2.3 Cvičení .............................................. 37 Kapitola 3. Normální a odvozená rozdělení.................................. 39 3.1 Cvičení .............................................. 43 Kapitola 4. Teorie odhadu .................................................. 45 4.1 Nestrannost a konzistence odhadů ............................ 46 4.2 Konstrukce bodových odhadů............................... 52 4.2.1 Momentová metoda.................................. 53 4.2.2 Metoda maximální věrohodnosti ......................... 54 4.3 Intervalové odhady....................................... 57 4.3.1 Intervalové odhady parametrů normálního rozdělení............ 58 4.3.2 Intervalové odhady založené na centrální limitní větě........... 71 4.4 Cvičení .............................................. 75 Kapitola 5. Testování statistických hypotéz .................................. 77 5.1 Cvičení .............................................. 84 Závěr ...................................................................... 85 Přílohy..................................................................... 86 - vii - Seznam použité literatury Úvod Tato bakalářská práce vnikla především proto, aby poskytla poslouchačům předmětu M4122 podrobný postup řešení příkladů podobných těm, které jsou součástí cvičení. Sbírka byla vytvořena jako doplňující učební text, není tedy určena pro samostatné studium. Tvoří ji pět kapitol a celkem 54 podrobně řešených a 33 nevyřešených příkladů s výsledky. Na začátku každé kapitoly je základní seznámení s látkou, která bude v této kapitole probraná. Během kapitoly se postupně věnujeme teorii, která je nezbytná k vyřešení zadaných úloh. Teorie je čerpána ze skript Mgr. Jana Koláčka, Ph.D. a paní RNDr. Marie Forbelské, Ph.D., která jsou uvedena v literatuře. Příklady jsou postupně vyřešeny a vysvětleny. Na konci každé kapitoly se nachází cvičení s úlohami, sloužící studentům k opakování a procvičení probrané látky. Na úplném začátku první kapitoly se seznámíme se základními definicemi náhodných veličin a jejich funkcemi, dále pak probereme číselné charakteristiky rozdělení pravděpodobností, tedy střední hodnotu, rozptyl, kvantily, kovariance a korelační koeficient. Na konci kapitoly budeme řešit úkoly na charakteristiky náhodných vektorů. Tyto charakteristiky budeme dále používat v celé práci. Druhá kapitola se zabývá centrálními limitními větami: Markovova a Cebyševova nerovnost se používají především v dokazování vět, my však ukážeme, jak lze s jejich pomocí vyřešit určité úlohy. Do této kapitoly patří také centrální limitní věta. Ve třetí kapitole pouze připomeneme definici normálního rozdělení a uvedeme definice rozděleních z něj odvozených, která budeme potřebovat v další části sbírky. Čtvrtou kapitolu věnujeme teorii odhadů, tzn. nestrannosti a konzistenci odhadů, metodám konstrukce bodových odhadů, a na konci internalovým odhadům. Pátá kapitola částečně navazuje na čtvrtou ve smyslu, že při testování statistických hypotéz budeme používat intervalové odhady. Tato kapitola je tedy věnována testnování hypotéz. V příloze jsou pak uvedeny kvantilové tabulky pro určitá rozdělení. Všechny definice a věty v této práci byly čerpány z [1], [2], [3] a [7]. Inspiraci pro tvorbu některých příladů jsme nalezli v [6], [8], [9] a [10]. Tabulky v příloze byly čerpány z [5]. Bakalářská práce byla zpracována v systému IOTpX, s výjimkou tabulek v příloze práce, které byly zpracovány v programu Excel, a obrázků, které byly zpracovány v programu TikzEdt. — ix— Přehled použitého značení Pro snazší orientaci v textu zde čtenáři předkládáme přehled značení, které v práci není definované. st jevová c-algebra na íl @ borelovská množinová c-algebra na M. N množina všech přirozených čísel R množina všech reálnych čísel M spočetná množina reálnych čísel P pravděpodobnost CO elementární jev prostor elementárních jevů 0 množina možných hodnot parametru 0 (a, s/) jevové pole (a, s/, p) pravděpodobnostní prostor A(B) alternativní rozdělení s parametrem 0 Bi(n; 0) binomické rozdělení s parametry n a 0 Po{X) Poissonovo rozdělení s parametrem X Ge(6) geometrické rozdělení s parametrem 0 NeBi(n; 6) negativně binomické rozdělení s parametry n a 6 Ro(a; b) rovnoměrné rozdělení s parametry a ab Ex(X) exponenciální rozdělení s parametrem X —x— Kapitola 1 Číselné charakteristiky rozdělení pravděpodobností Distribuční a pravděpodobnostní funkce diskrétní náhodné veličiny a distribuční funkce a hustota náhodné veličiny spojitého typu představují celkové charakteristiky těchto veličin. Nicméně u spousty praktických problémů není ani potřeba charakterizovat náhodnou veličinu v celosti. Většinou nám stačí pouze spočítat některé číselné charakteristiky, což nám významně usnadní práci, a ty nám pak ukazují na důležité vlastnosti náhodných veličin. Postupně se seznámíme se všemi těmito číselnými charakteristikami, ale ještě před tím se seznámíme se základními definicemi náhodných veličin a jejich funkcemi, které je popisují. Připomínám, že zde je uvedená pouze teorie nutná k vyřešení zadaných úloh. Zbývající teorii naleznete v uvedené literatuře. Definice 1.1. Nechť {SI, ', P) je pravděpodobnostní prostor, X : Cl —> IR je takové zobrazení, že pro Wx G IR platí {coeCl:X(co) E(X)= a; 2. E(aX) =aE(X); 3. E(Xl+X2)=E(Xl)+E(X2); 4. NechťXi a X2jsou nezávislé náhodné veličiny =^ E(XiX2) = E(X\)E(X2). Důkaz: Vlastnosti střední hodnoty plynou přímo z vlastností integrálů a integrovatel-ných funkcí. Důsledek 1.1.3. 1. Je-li náhodná veličina diskrétního typu, potom platí E(X)= £xW(x), x- = 9, 0,3 pro>> = — 2; 3, 0 jinak. Spočítejte: a) E(X); b) E(X2); c) E(3X + 2Y); d) E(X3-4Y2). Řešení: a) Stejně jako v předchozím příkladu spočítáme střední hodnotu: 5 E(X) = Y,XíPx(xí) = (-10)-0,l + 10-0,l+0-0,2 + 5-0,2 + 20-0,4 = 9. i=l Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností_5 b) Tento případ se mírně liší od předchozího. Podívejme se jak: 5 E(X2) = Y,xjPx(xi) = (-10)2-0,l + 102-0,l+02-0,2 + 52-0,2 + 202-0,4 = i=l = 165. Takovým způsobem lze samozřejmě spočítat také Z?(X3), E(X4),... c) Zde už použijeme vlastnosti střední hodnoty: E(3X + 2Y) = 3E(X)+2E(Y). Musíme tedy najít střední hodnotu E(Y). Lze lehce spočítat, žeE(Y) = 1,5. Střední hodnotu E(X) už máme, takže můžeme pokračovat dál: E(3X + 2Y) = 3E(X)+2E(Y) = 3-9 + 2-1,5 = 30. d) V tomto případě se jedná o kombinaci dvou předchozích případů: E(X3 - 4Y2) = E(X3) - 4(F2). Spočítáme postupně: 5 E(X3) = ^x]px(xi) = i=l = (-10)3 -0,1 + 103 -0,1+ 03 -0,2 +53 -0,2+ 203 -0,4 = 3225, E(Y2) = tyfpr(yi) = i=l = (-6)2-0,l+02-0,l + 92-0,2 + (-2)2-0,3 + 32-0,3 = 23,7. Nyní můžeme spočítat: E(X3-4Y2) =E(X3)-4(Y2) = 3225-4-23,7 = 3130,2. Příklad 3. Doba životnosti Xa opotřebovaného přístroje A (dána v rocích) má rozdělení s hustotou: am-íKM pmo-x-2- y 0 jinak. Ověřte, zdaje fx(x) opravdu hustotou a spočítejte střední dobu životnosti přístroje A. Kapitola 1. Číselné charakteristiky rozdělenípravděpodobností. Řešení: y a Nezáporná funkce f x (x) je hustotou, jestliže oo J fx(x)áx = 1. Ověřme tento požadavek: f x (x) 0 1 2 x Obrázek 1.1. Hustota. fx(x)áx 1 íl 3 V2 -x+1 dx 1 2 1 3 3 Funkce f x (x) je opravdu hustotou. Jak víme z definice, střední hodnotu náhodné veličiny absolutně spojitého typu počítáme pomoci integrálu: oo 2 2 E(XA) = Jxfx(x)dx = JQ*+l^d* = J (^x2 + ^dx = 1 3 1 2 18^ + 6^ n 2 Jo 4 2 _ 10 9 + 3~~9' Střední doba životnosti přístroje A je tedy ^ roku. V některých případech nestačí znát pouze střední hodnotu nějaké náhodné veličiny, což můžeme vidět na následujícím příkladu: Příklad 4. Když řekneme, že průměrná teplota je v nějakém městě 15 °C, máme dojem, že je tam příjemné klima, ale to také může znamenat, že je v létě 40 °C a v zimě -10 °C. Proto kromě střední hodnoty nějaké náhodné veličiny potřebujeme vědět, jaká je odchylka, tj. jaký je rozptyl možných hodnot náhodné veličiny kolem střední (očekávané) hodnoty. Uvedeme definici a vlastnosti rozptylu, a potom na několika příkladech ukážeme, jak se počítá a jak ho lze využít v praxi. Definice 1.1.4. NechťX je náhodná veličina definovaná na (Í1,£/,P). Potom číslo Vk=E{X-E(X))k nazýváme k-tým centrálním momentem náhodné veličiny X za předpokladu, že uvedené střední hodnoty pro k=l, 2,... existují. Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 7 Definice 1.1.5. 1. Řekneme, že náhodná veličina X má konečný druhý obecný moment, jestliže ^ = E(X2) 0 definovaná předpisem oo T(a) = J xa-le-xáx. Věta 1.1.8. VLASTNOSTI T FUNKCE. Její nejčastěji používané vlastnosti pro a> 0, n G N jsou 1. r(fl+l) =áT(a); 3. T(n) = (n-l) Důkaz: Viz [1, str. 38]. Příklad 7. Doba X do vybití baterie určovaná v rocích se řídí rozdělením s hustotou: . . . \le-2x projc>0, I 0 pro x < 0. Spočítejte její střední hodnotu životnosti. Řešení: oo oo oo E(X) = jxfx(x)dx = j2xe-2xdx £ = ^ = \ jte^át = Ir(2) = \-1! = \. -oo 0 Střední hodnota její životnosti je tedy půl roku. V praxi se opakovaně setkáváme s některými rozděleními diskrétních a spojitých náhodných veličin. Znalost jejich středních hodnot a rozptylů může mít velký význam při řešení mnohých úloh. Některá rozdělení nemají střední hodnotu ani rozptyl, což ukážeme na následujícím příkladu. Poté za účelem snadnějšího počítání uvedeme již zmíněné charakteristiky. Příklad 8. Dokažte, že střední hodnota a rozptyl standardního Cauchyho rozdělení Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 10 neexistují. Řešení: Cauchyho rozdělení pravděpodobnosti je definováno hustotou v následujícím tvaru: fx(x; a; b) = . )-pro xeR, 7t(bz + (x — a)L) přičemž a G IR, b > 0 jsou daná čísla. Pro a = 0 a b = 1 dostaneme tzv. standardní Cauchyho rozdělení, které je speciálním případem Studentova ř-rozdělení s jedním stupněm volnosti. Zapisujeme X ~ ř(l), anebo X = j^, kde U i ~ A^(0,1) pro i = 1,2 (více ve 3. kapitole). Potom dostáváme hustotu vyjádřenou vztahem: fx(x) = ^-I-) pro.GM. Počítáme tedy její střední hodnotu a rozptyl: oo oo — OO —oo Jedná se tedy o lichou funkci. Jeji integrál se rovná nule, kdy x G (—a, a), a G IR, ale neexistuje, pokud a je nevlastní bod. Pokud daný integrál neexistuje, plyne z toho, že hledaná střední hodnota náhodné veličiny a zároveň její rozptyl neexistují. X ~ A(B) Bi(n; 0) Po(X) Ge(B) NeBi(n; 0) E(X) 6 nO X 1-6 6 i-e n- 6 D(X) 0(1-0) «0(1-0) X 1-6 1-6 n- e2 Tabulka 1.2. Střední hodnota a rozptyl důležitých diskrétních rozdělení. Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 11 X ~ Ro(a; b) Ex(X) N(ii; o2) l\n) t(n) n2) E(X) a+b 2 1 x n O1 ni 2 n\ —2 D(X) (b-ä)2 1 a2 2n J!_3 2n2(ni+n2-2) 4 12 Ä2" n-2 «2(«l-2)2(ni-4) Tabulka 1.3. Střední hodnota a rozptyl důležitých spojitých rozdělení. Přiklad9. NechťX\ aX2 jsou stochasticky nezávislé náhodné veličiny z exponenciálního rozdělení. Vypočítejte střední hodnotu náhodné veličiny Y, kde Y = min{Xi,X2}. fXi(Xi) Řešení: Víme, že exponenciální rozdělení má následující rozdělení a distribuční funkce: e-Xxi pTOXi>0 \l-e~Xxi pro 0< Xi < 1, a Fxi{xi) = S 0 jinak, 10 jinak. kde i = 1,2. Nyní můžeme počítat: FY(y) = P(Y y) = = l-P(X1>yAX2>y) = 1 -P(XX > y) ■ P(X2 > y) = = l-(l-P(Xl 1, jinak neexistuje. 2Platí pouze pro n\ > 2, jinak neexistuje. 3Platí pouze pro n > 2, jinak neexistuje. 4Platí pouze pro n\ > 4, jinak neexistuje. Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 12 1.2 Kvantily V této podkapitole uvedeme jednak definici kvantilu, jednak kvantily, které jsou velmi často používané: medián, dolní a horní kvartil. Definice 1.2.1. Nechť Fx je distribuční funkcí a a G (0,1). Potom funkce se nazývá a-kvantilem rozdelení s distribuční funkcí Fx (x). Poznámka 1.2.2. Mezi často používané kvantily patří 1- xo,25 -dolníkvartil; 2. jcn,5 - medián; 3- xq75 -horníkvartil. Odhady kvantilů jsou dobře využitelné v matematické statistice. Zde se budeme zabývat spíše „teoretickými" příklady. Příklady na odhady kvantilů budeme řešit v kapitole 4. Příklad 10. Kuba letí letadlem z města A do města B, přičemž obě města jsou na stejné zeměpisné výšce. Město A se nachází na zeměpisné šířce 6° a město B na zeměpisné šířce 49°. Využitím definice kvantilu spočítejte, na jaké zeměpisné šířce se Kuba nachází, pokud letadlo uletělo 17 % cesty. Řešení: Vzhledem k tomu, že se města nachází na stejné zeměpisné výšce, hustotu vzdáleností mezi těmito městy si můžeme představit funkcí rovnoměrného rozdělení: Podle definice kvantilu je a-kvantil roven inverzní distribuční funkci v bodě a. Zapisujeme Fx\a) = Q(a) = M{x e R : Fx(x) > a}. se nazývá kvantilová funkce a číslo xa = Q(a) Víme, že její distribuční funkce má tvar: pro x < a, pro x E (a, b), a b. Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 13 Fx\a) =Xa = Q(a), z čehož plyne, že Fx(xa) = CC-Nyní můžeme pokračovat ve výpočtu: Fx(xa) = —~ = a> b — a xa — a = OC(b — a), Xa = OC(b — a) +a. My však potřebujeme spočítat, kde se nachází Kuba, když urazil 17% cesty, tzn. sedmnáctý kvantil: *0,i7=0,17(49-6) + 6, jc0,i7 = 13,31. Vidíme, že po přeletu 17 % cesty se Kuba nachází na zeměpisné šířce 13,31°. Příklad 11. Spočítejte medián, dolní a horní kvartil náhodné veličiny X s následující distribuční funkcí Fx(x): x — ^x2 pro x E (0,2), F^W = V) , yp(u)D(v) C(U,V) = R(U, V) y/D(U)D(V) = R(X + Y,Y-X) ^D(X + Y)D(Y - X) R(X, Y) -R(X, X) +R(Y, Y)-R(Y, X)) y](D(X) +D(Y))2 = = (1-1)-(D(X)+D(Y)) = 0. Tady vidíme, že mezi náhodnými veličinami U a V neexistuje lineární vztah. Ještě předtím, než se dostaneme k následujícímu příkladu, připomeňme si dvě věty. První popisuje marginální pravděpodobnostní funkci a marginální hustotu, druhá jejich vlastnosti v případě nezávlislosti náhodných veličin, kterou v následujícím příkladu budeme používat. Věta 1.3.5. Pro přirozené k < n mějme indexy {h,...,ik} C {1,..., «} a {ji, Jn-k} = {1, •», n}\{h, ik}. 1. NechťX ~ (M, px)- Pak marginální náhodný vektor X* má marginální pravděpodobnostní funkci rovnu Px(x*) =Px(*iv -,*«*) =P(X* =X*) = L Px(xi,-,Xn), kde M = M\ x • • • x Mn, přičemž Mi je obor hodnot náhodné veličiny Xj, pro i = 1, n. 2. NechťX ~ fx(x)- Pak marginální náhodný vektor X* má marginální hustotu rovnu oo oo Jl '' '^^Jn—k' -oo —oo Důkaz: Viz [1, str. 47]. Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 17 Věta 1.3.6. 1. Mějme diskrétní náhodný vektor X = (X\, Xn) ~ (M, px)- Pak X\, Xn jsou nezávislé, právě když n Px(xi,—,xn) =Y[pXí(xí) pro Vx = (xi, xn)' G IR", i=l kde pro i=l,...,nje PXí(xí) marginální pravděpodobnostní funkce náhodné veličiny Xi. 2. Mějme absolutně spojitý náhodný vektor X = (Xi, Xn)' se sdruženou hustotou fx(xi, Xn). PakXi, Xnjsou nezávislé, právě když n fx(xi, ...,xn) = YlfxÁxi) pro s.v. x = (xh ...,xn)' G IR", i=l kde pro i=l,...,nje fx^Xi) marginální hustota náhodné veličiny Xj. Důkaz: Viz [1, str. 50]. Příklad 13. Máme k dispozici dvě kostky, kterými házíme ve stejný čas: červenou a modrou. Pokud červenou kostkou hodíme sudé číslo, obdržíme za něj jeden bod, zatímco za liché číslo dostaneme 2 body. Když házíme modrou kostkou a hodíme číslo 1, obdržíme 1 bod, pokud hodíme 2 nebo 3, obdržíme 2 body a za čísla 4, 5 nebo 6 dostaneme 3 body. Pravděpodobnostní funkce náhodného vektoru X = (X, Y) , kde první složka označuje počet bodů dosažených červenou kostkou a druhá složka ukazuje na počet bodů získaných modrou kostkou, počítá pravděpodobnost dosažení bodů jedním hodem. Dokažte, že mezi těmito dvěma veličinami neexistuje žádná lineární závislost. Řešení: Máme dokázat, že zadané náhodné veličiny jsou lineárně nezávislé mezi sebou. Potom platí: Px,y(x, y) =px(x)pY(y). Hodnoty pravděpodobnostní funkce ukážeme nejlépe pomocí pravděpodobnostní tabulky: X\Y l 2 3 Px(x) 1 i 12 i 6 1 4 1 2 2 1 12 1 6 1 4 1 2 pr(y) 1 6 1 3 1 2 1 Tabulka 1.4. Pravděpodobnostní tabulka. Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 18 Px,r(x,y) 1 Px(x) Obrázek 1.3. Pravděpodobnostní funkce. Zapíšeme zvlášť pravděpodobnostní funkce: / 1 pro y= 1, pro y = 2, proj = 3, 0 jinak. '1 , - pro x = 1, Px(x) = < - pro x = 2, 2 0 jinak, (l 6 1 3 1 2 Abychom určili závislost mezi veličinami, musíme spočítat jejich korelaci. Jak jsme již viděli na předchozím příkladu, předtím než spočítáme korelaci, musíme nejprve spočítat jejich střední hodnoty, rozptyly a kovarianci: 2 E i=l E(X) = 1£xipx(xi) = 1^+2-^ = 1, 2 3 i=U=i = 1.1._L + 1.2.'+1.3.I + 2.1.1 + 2.2.I + 2.3.I = l, C(X, Y) = E(XY)-E(X)E(Y) = 1--^-1-=0^ R(X, Y) — 0. Případ nulové kovariance nám implikuje nulovou korelaci, čímž můžeme dokázat, že mezi danými veličinami neexistuje lineární závislost, aniž bychom počítali ostatní veličiny. Příklad 14. Spočítejte konstantu c tak, aby náhodné veličiny X a Y byly ve zcela Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 19 nepřímé závislosti. Náhodný vektor má následující simultánní hustotu: 1# ~(1~x)+cyj pro x, y E [—1,1], jinak. fx,Y(*,y) = {* 0 Řešení: Už bylo zmíněno, že zcela nepřímá závislost dvou náhodných veličin znamená, že korelace mezi těmito dvěma veličinami je — 1. Abychom byli schopni spočítat korelaci, nejprve musíme spočítat střední hodnoty, rozptyl a kovarianci mezi těmito náhodnými veličinami, ale ještě před tím spočítáme jejich marginální hustoty: fx(x) i i i fx,Y{x,y)áy= j -íe-^+cy\dy= - J(ŕ~láy + - Jcyáy -i -i -i ex-ly 1 +4 21 1 ^x-l ^x-l JC-l J -1 e c c e 4~ + ^~+ 8 ~ 8 = ~2 fr(y) Jx,Y(x,y)áx= j -I e i i i J 1-(e-^+cy)dx = \J ex-ldx+l- j cyáx -i -i -i jc-l + -1 4 cyx -i 1 1 cy cy e2 + 2e2cy — 1 4 Ae2 4 4 4e2 Teď, když známe jejich marginální hustoty, můžeme spočítat jejich střední hodnoty a rozptyly: i 1 1 E(X) = I xfx(x)dx = j ^~dx =^J xex-ldx -i -i 1 xe „x-l 1 1 2 e2+l 1 ~lěr~2 -i -i 2e2 2e2 l x—l u = x v = e u'=l v = ex-1 ex-ídx)=l(l + -^ 1 e2 + 1 e2 - 1 1 1 -1 E(X: x2fx(x)dx x2ex-1áx u = x2 v^e'-1 I r* X—l u =2x v = e 1 1 2 2~2^~^2 2^d*)4(l-i e2-5 xex 1dx 2e2 Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 20 E{Y).]yMy)iy.p^^iy.jiiy+jf^lůiy OO -i r 2i i r 3 i i r 2 n y + -i cy y 8 6 -i Se2 -1 -1 -1 _ 1 1 c c 1 1 _ c _~Š~Š + 6 + 6~Šě2 + Šě2~3: E(Y2)= y2fY(y)dy- y2(e2 + 2ezcy-l) 4e2 dy -l l 1 2 1 3 jdy+Jc-rdy-Jhdy -i -i -i 12 + cf I2e2 — + — + - - 1 _ľ 12 12 8 8 12e2 12e2 ez-l 6e2 oo oo 11 E(XY)= J Jxyfx,Y(x,y)dxdy = J J \xy(ŕ~l +cy^áxdy —oo—oo —1—1 1 \xy[(ř l+cy )dy -i -i i dx i . i xex ly f cxy2 , \ 1 ' i l -l -l r—1 2 xe y + cxy ~12 dx -i dy+ j —dy jdx xex 1 xex 1 cx cx + T^ + T^)dx 8 12 12 cx -dx ■ -i cx ~12 -i c c 12 _ 12 = £(X2)-£2(X) e2 - 5 / 1 \ 2 e4 - 5e2 - 2 2e2 2e4 D(Y) =E(Y2)-E2(Y) e2-l fc\2 3e2-2e2c2-3 6e2 \3) 18e2 Nyní můžeme snadno spočítat kovarianci a korelaci mezi nimi: C(X, Y) = E(XY) -E(X)E(Y) = 0 - 1 • | = - Teď konečně spočítáme korelaci, z čehož plyne hledaná konstanta c: Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 21 R(X, Y) = _£2^IĹ= = , &- JD(X)D(Y) /e4-5e2-2 3e2-2e2c2-3 C 5e2-2 3e2-2e2c2-3 3e2 V 2e4 lSe2 Protože 3e2 je kladné číslo, musí platit c > 0. Získanou rovnici umocníme a vyřešíme: c2 _ (e4-5e2-2)-(3e2-2e2c2-3) 9e4 ~ 36e6 2 3e6 - 2e6c2 - 3e4 - I5e4 + I0e4c2 + I5e2 - 6e2 + 4e2c2 + 6 c 4e2 2 3 4 9 2 9 2 f 1 4 5 2 \ 3 2{l 4 5 2\ 3 4 9 2 9 3 8,83c2 = 10,15, c2 = 1,15, c = ±1,07. Protože víme, že hledaná konstanta c > 0, existuje jenom jediné řešení; c se přibližně rovná 1,07. 1.4 Charakteristiky náhodných vektorů V předchozí podkapitole jsme uvedli pojem náhodného vektoru. Zde uvidíme, jaké jsou jeho číselné charakteristiky a na příkladu ukážeme, jak se počítají. Definice 1.4.1. NechťX = (X\, ...,Xn); : Cl —> M.n je náhodný vektor definovaný na pravděpodobnostním prostoru (Cl, , P). Potom střední hodnotu náhodného vektoru X nazýváme vektor E(X) = (E(Xl),...,E(Xn))'. Definice 1.4.2. NechťX = (X\, Xn)': Cl —> M.n je náhodný vektor definovaný na pravděpodobnostním prostoru (Cl, sé, P). Potom varianční (kovarianční) maticí náhodného vektoru X nazýváme matici D(X)=var(X)=cov(X,X)=C(X,X) = (C(XU Xj)) í=1,...,„. 7=1,...,n Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 22 Definice 1.4.3. Nechť X = (Xi, ...,Xn)' : £1 —> W1 je náhodný vektor definovaný na pravděpodobnostním prostoru (£2, P). Potom korelační maticí náhodného vektoru X nazýváme matici R(X)=cor(X) =R(X,X) = (R(Xh Xj)) í=1,...,„. j=l,...,n Příklad 15. Ve třídě je 25 žáků; 11 chlapců a 14 děvčat. Učitelka má náhodně vybrat jedno dítě, které bude mít na starosti třídní nástěnku. Máme náhodný vektor X = (X\, X2)', který je definován takto: 1 vybere-li chlapce, 0 jinak, X2 1 vybere-li dívku, 0 jinak. Spočítejte varianční a korelační matice vektoru X = (Xi, X2)''. Řešení: U příkladu 13 ne straně 17 jsme už uváděli pravděpodobnostní tabulku, a to ne, nost výběru dívky je uděláme také zde. Víme, že pravděpodobnost výběru chlapce je ^, zatímco pravděpodob Xi\X2 0 1 Pxx{x\) 0 0 14 25 14 25 1 11 25 0 11 25 Px2(x2) 11 25 14 25 1 Tabulka 1.5. Pravděpodobnostní tabulka. Z toho lze snadno spočítat: E (X,) = £ xuPXl (xh) = 1 • — + 0 • — i=l 11 14 11 — + 0- — = —. 25 25 25 ' Stejně: 2 E i=l , n v- , ^ 11 14 14 E(X2) = YJx2iPx2(x2i)=Q-- + \ 25 25 25 2 E i=l E(X2) = Y^xIpx, (xh) = 1 • - + 0 • - = - : Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 23 2 11 14 14 £(X22) = £4/?x2fe)=0-- + l i=l 25 25 25 Je zřejmé, že E(XiX2) = O, neboť pravděpodobnost, že najednou vybere dvě děti, je nulová. Potom lze spočítat: 11 14 154 C(XhX2) =E(XlX2)-E{Xl)E{X2)=Q- — - — = -— = C{X2,Xl). Potřebujeme ještě rozptyly: 11 121 154 25 625 625' 14 196 154 25 625 625' D{X2)=E{XÍ)-E\X2) Nyní můžeme spočítat korelace mezi nimi: R(XhX2) = C(*l'*2) =_1= RÍX X^ 1 V 'D{XŮD{X2) 1 l' Konečně máme vše, abychom sestavili kovarianční a korelační matice: COv(X) = Ml (-1 l1)' " cor(X)=(-l l1 Všimněme si, že se diagonální prvky kovarianční matice rovnají rozptylům a korelační matice rovnají jedné, neboť X) = 1. 1.5 Cvičení 1. NechťX je náhodná veličina, která udává počet rubů při 3 hodech mincí. Spočítejte střední hodnotu a rozptyl náhodné veličiny. [E(X) = 1,5; D(X)=3] 2. Dva hráči hází kostkou. První hráč před hodem zaplatí nějakou sumu. Druhý hráč po svém hodu zaplatí prvnímu tolik peněz, kolik hodil na kostce. Kolik peněz má zaplatit první hráč, aby hra byla férová? [E(X)=3,5] 3. Prodavač zmrzliny utrží 1200 Kč, když je pěkné počasí, a 400 Kč, když je počasí špatné. Kolik prodavač utrží, když je pravděpodobnost, že bude špatné počasí 35 %? Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 24 [E (X) = 920] 4. Televizory s různými poruchami přinášejí do dílny na opravy. Nechť X je náhodná veličina udávající čas opravy televizoru, s následující distribuční funkcí: Fx(x) pro x > 0, pro x < 0. Nalezněte očekávanou hodnotu a rozptyl této náhodné veličiny. [E(X) = 1; D(X) = 1] 5. Nechť j e X náhodná veličina definovaná následujícím způsobem: ' 1 10 pro x = 4, Px(x) = < — projc = 5, 10 3 — pro x = 2, 10 0 jinak. Spočítejte: a) E(3X + 4); b) E(X3); c) D(1-2X). [a)£(3X + 4) = 16; b)E(X3) = 83,8; c)D(l-IX) = 7,2] 6. Dokažte, že D(X) = E(X2) -E2(X). 7. Dokažte, že se střední hodnota a rozptyl náhodné veličiny X a) binomického rozdělení Bi(n; 0), rovnají E (X) = nO a D (X) = n0(l — 0); b) exponenciálního rozdělení Ex(X), rovnají Z? (X) = — a D (X) = c) normálního rozdělení N( /i; o2), rovnají Z? (X) = /i a D (X) = o2. 8. V krabičce máme 4 bílé a 5 černých koulí. X je náhodná veličina, která udává počet vytažených bílých koulí ze 3 pokusů s vracením koulí do krabičky. Nakreslete distribuční funkci a použitím definice kvantilu spočítejte jcq,15? ^0,257 -^0,83 a -^0,99- 1*0,15 = 1; *0,25 = 1; *0,83 = 2; JCo,99 = 3] Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 25 9. Nechť X ~ Ex(X). Spočítejte horní a dolní kvartil, pro X = 2. [*0,25 =0,1438; *0,75 = 0,6931] 10. NechťX, Y a Z jsou vzájemně nezávislé náhodné veličiny. Spočítejte a) střední hodnotu transformované náhodné veličiny U = X2 + XY + Y2, pokud E(X)=A,E(Y) = -6,D(X) = 1 D(Y) = 4 a.R(X,Y) = 0,3; b) korelační koeficient R(V, W), kde V = X + ZaW = Z — 3Y, přičemž E (X) = 4, E(Y) = 2, E (Z) = 7, D(X) = 5, D(Y) = 1 a D (Z) = 9. [a)E(U) = 33,6; b)R(V, W) = 11. Náhodný vektor X = (X, Y)' má následující simultánní hustotu: Í4xy pvox.ye [0, 1], A,ľ(->',>') = j„ ..nak Spočítejte kovarianci a korelaci mezi náhodnými veličinami X a F. [C(X,F)=0; Ä(X,y)=0] 12. Nechť X = (Xi, X2)' je náhodný vektor, jehož hodnoty pravděpodobnostní funkce jsou dané pravděpodobnostní tabulkou: Xi\X2 0 1 0 1 6 1 4 1 1 3 1 4 Tabulka 1.6. Pravděpodobnostní tabulka. Nalezněte kovarianci a korelaci mezi náhodnými veličinami X\ aXi. [C(XhX2) = -^; R(XhX2) = -^p] 13. Na stole máme balíček karet lícem dolů. Náhodně vybereme jednu kartu. Náhodné veličiny X\, X2 a X3 jsou definovány následujícím způsobem: Xi x2 x3 1 vybereme-li esa, 0 jinak, 1 vybereme-li černou dámu, 0 jinak, 1 vybereme-li červenou kartu, 0 jinak. Kapitola 1. Číselné charakteristiky rozdělení pravděpodobností 26 Vypočtěte kovarianční a korelační matice náhodného vektoru X = (Xi, Xt, X?)'. [cov(X) 12 1 169 338 26 1 25 1 338 676 52 l 1 1 1 26 52 ? 1 í 1 cor(X) V3 30 V3 v^3 30 " 1 Kapitola 2 Limitní věty V této kapitole se seznámíme s limitními větami, které mají jak teoretický, tak praktický význam v pravděpodobnosti a statistice. Jedná se o zákon velkých čísel a centrální limitní větu. Zákon velkých čísel má spíše význam v teorii, proto se jím nebudeme zabývat (čtenáři se o něm mohou dozvědět v [1]). Centrální limitní věta (CLV) je velmi užitečná při řešení mnoha úkolů, ale ještě před ní se zmíníme o dvou nerovnostech, které se často používají v dokazování CLV a s jejichž pomocí si ukážeme, jak lze vyřešit některé úlohy. Jde o Markovovu a Cebyševovu nerovnost. 2.1 Markovova a Čebyševova nerovnost Nejprve je důležité zmínit, že tímto způsobem lze nalézt pouze odhad, nikoliv přesné řešení. Právě proto nemůžeme s jistotou říct, že řešení je vždy spolehlivé, i když pomocí těchto dvou nerovností lze snadno vyřešit některé úlohy. Snadnost vyřešení, jakož i nespolehlivost řešení nejlépe uvidíme na prvních dvou příkladech. Věta 2.1.1. NechťX je náhodná veličina definována na pravděpodobnostním prostoru (£l,£/,P) a nechť existují E(X) a D(X). Potom pro libovolné e > 0 platí Čebyševova nerovnost P(\X-E(X)\>e)<^. Důkaz: Viz [1, str. 77]. Kapitola 2. Limitní věty 28 Věta 2.1.2. Necht'X je náhodná veličina definována na pravděpodobnostním prostom (íl, , P) a nechť existuje E (X), přičemž P(X > 0) = 1. Potom pro libovolně e > 0 platí Markovova nerovnost n E (X) P(X > e) < Důkaz: Plyne z důkazu Čebyševovy nerovnosti (návod: místo rozptylu počítáme střední hodnotu). Nyní na dvou velmi podobných příkladech ukážeme, že řešení není vždy spolehlivé: Příklad 1. Průměrný počet cestujících vlakem z Brna do Prahy je 2000 lidí denně. Jaká je pravděpodobnost, že v jednom dni bude cestovat 5000 lidí? Řešení: V zadání nemáme dáno odchýlení počtu lidí od průměrného počtu, takže víme pouze střední hodnotu a úlohu vyřešíme použitím Markovovy nerovnosti (pro e = 5000): v E(X) P(X > e < e Pravděpodobnost, že denně bude cestovat 5000 lidí, je menší než 0,4. Nyní uvedeme ještě jeden téměř stejný příklad, pouze jej nepatrně upravíme: Příklad 2. Průměrný počet cestujících vlakem z Brna do Prahy je 2000 lidí denně, přičemž víme, že rozptyl počtu je 1300 lidí. Jaká je pravděpodobnost, že v jednom dni bude cestovat víc než 5000 lidí? Řešení: Teď máme daný rozptyl, takže kromě střední hodnoty E(X) = 2000 víme také D(X) = 1300. Nyní úlohu vyřešíme použitím Čebyševovy nerovnosti (pro e = 5000): P(\X-E(X)\>e)<^, P( IX -20001 > 5000) < = 0,000052. Vl 1 ; - 50002 V prvním příkladu jsme dostali pravděpodobnost menší jak 0,4, zatímco v druhém menší jak 0,000052. Můžeme říct, že druhé řešení je mnohem reálnější než první. Příklad 3. Průměrný kadeřník ostříhá denně 10 lidí. Spočítejte: a) pravděpodobnost, že ve středu ostříhá alespoň 12 lidí; Kapitola 2. Limitní věty 29 b) pravděpodobnost, že v sobotu ostříhá maximálně 18 lidí. Řešení: a) Ptáme se, jaká je pravděpodobnost, že počet ostříhaných lidí bude větší nebo roven 12, tzn. větší než 11: v E(X) P(X > £ < -^-L, e P(X>ll) < ^ = 0,90. b) Teď se hledaná pravděpodobnost vztahuje na méně než 18 lidí včetně. v E(X) P(X <£)< -^-L, e n E (X) 1 — P(X > e < e , * E (X) P (X > e > l--—, e P(X > 18) > 1-^=0,4. Tímto příkladem jsme ukázali, jak se počítá pravděpodobnost v závislosti na zadané maximální nebo minimální hodnotě. Vzhledem k malé spolehlivosti řešení získaného pomocí těchto dvou nerovností, používáme tento způsob tehdy, když nevíme, jaké rozdělení náhodná veličina má. V takovém případě nemáme žádný jiný způsob, než úkol „nějak" vyřešit. Podívejme se, co se stane když známe rozdělení náhodné veličiny: Příklad 4. Nechť X je náhodná veličina se střední hodnotou E(X) = a rozptylem D(X) = ^g^. Spočítejte: a) P^\X -E(X)\> —^ » Pro každé b > a; b) p(\X — E(X) | > ^——), pro každé b > a, přičemž X ~ Ro(a; b). Řešení: a) Protože nevíme, jaké má náhodná veličina X rozdělení, pravděpodobnost spočítáme pomocí Cebyševovy nerovnosti: D(X) P(\X-E(X)\>e)< X a + b b — a\ 9(b — a i2 Kapitola 2. Limitní věty 30 b) Nyní víme, že náhodná veličina má rovnoměrné rozdělení, a proto tento příklad vyřešíme jinak: Vidíme, že pravděpodobnost je zde téměř 2,5-krát menší než v případě řešení a). 2.2 Centrální limitní věta Až dosud jsme pracovali pouze s jednotlivými náhodnými veličinami nebo vektory. Centrální limitní věta vyžaduje posloupnost náhodných veličin (nebo náhodných vektorů), které mají stejné rozdělení. Ukážeme si vlastnosti těchto posloupností, které nebudou záviset na počátečním rozdělení zmíněných náhodných veličin (nebo vektorů) a platí při posloupnostech s n náhodných pokusů. Ještě předtím, než přejdeme k CLV, uvedeme příklad, s jehož pomocí zavedeme pojem centrované a standardizované náhodné veličiny: Příklad 5. Nechť X je náhodná veličina se střední hodnotou E(X) = /i a rozptylem D(X) = a2. a) Nechť C = X-fi, spočítejte E(C) a D(C); b) Nechť U = spočítejte E(U) a £>(£/). Řešení: a) Podívejme se, jak bude vypadat řešení: E(C) = E(X - jit) = E(X) -E(n) =11-/1 = 0,. D(C)=D(X-/l)=D(X)+D(ll) = o2 + 0 = O2 Kapitola 2. Limitní věty 31 b) Podobně: Nyní můžeme definovat pojem centrované a standardizované náhodné veličiny: Definice 2.2.1. Nechť {Xn}™=í je posloupnost nezávislých náhodných veličin definovaných na pravdépodobnostním prostoru (£l,£/,P), a nechť E (Xi) = ]Xi a D{X\) = o2, pro i = 1, n. Potom pro i = 1, n říkáme, že náhodná veličina 2. 1. Q = Xi — fiije centrovaná E(Q) = 0 a D(Q) = of; Xi — U-i 2. U i = —-- je standardizovaná =>• EÍUi) = 0 a DÍUi) = 1. Teď přejdeme k příkladu, který nám ukáže, jak vypadá standardizovaný průmér. Příklad 6. Pokud je Xn průměr vzájemně nezávislých náhodných veličin se střední hodnotou E(Xi) = \li a rozptylem D{Xi) = of pro i = 1,spočítejte standardizovaný průměr Ujn. — 1 n Řešeni: Označíme průměr Xn = £ £X;a spočítáme jeho střední hodnotu a rozptyl: ■ 1 1=1 E(Xn) = - ££(Xř) = - f> = -(Mi + - + Vn), D(Xn) = \j^D{Xi) = 1 £ a2 = \(a2 +... + a2). w n n " i Z definice standardizované náhodné veličiny máme: An — £{An) i=i i=i i=i i=i Pokud E(Xi) = ji a D(Xi) = o2 pro i = 1, potom je 2 LXt-nn — UT =i=1 _ = ^^- A" <7V« (7 Kapitola 2. Limitní věty 32 Nyní uvedeme první verzi CLY, která říká, že standardizovaný průměr U^n nezávislých náhodných veličin konverguje k normálnímu rozdělení. Věta 2.2.2. LINDEBERGOVA-LÉVYHO CLY Nechť{Xn}™=l je posloupnost nezávislých náhodných veličin definovaných na pravděpodobnostním prostoru (Cl, , P) se stejným rozdělením se střední hodnotou /i a rozptylem o2. Potom náhodné veličiny U y — mají asymptoticky standardizované normální rozdělení N(0,1). Označujeme Uln^N(0;l). Důkaz: Viz [1, str. 92]. Poznámka 2.2.3. Nechť(u) je distribuční funkce standardizovaného normálního rozdělení. Potom platí 1. 4>(-m) = 1-(m); 2. P(UJn (M) = 1 -4>(-M) = 1 -P(Uxn < -u) = P(Uxn > -u). Nejlépe tuto problematiku objasníme na příkladech: Příklad 7. Doba potřebná k objevení a odstranění poruchy stroje má střední hodnotu E(X) = 20 minut a rozptyl D(X) = 225 minut. Jaká je pravděpodobnost, že doba potřebná k objevení a opravení 50 vzájemně nezávislých poruch nepřekročí 15 hodin? Řešení: Nejprve označíme potřebné veličiny: Xi... doba potřebná k nalezení a opravení i-té poruchy (pro i = 1, ...,50); Yn ... suma všech dob potřebných k nalezení a opravení poruch; Z... náhodný jev, že doba objevení a opravení všech poruch nepřekročí 15 hodin (tj. 900 minut). Zde sice nevíme, jaké rozdělení mají tyto náhodné veličiny, ale víme, že všechny jej mají stejné. Proto na základě Lindebergovy-Lévyho CLV můžeme tato rozdělení aproximovat normálním rozdělením. Střední hodnota náhodné veličiny Yn je tedy 50 H=E(Yn)= £ E(Xi) = 50-20= 1000, i=l a rozptylem Kapitola 2. Limitní věty_33 a2 = D(Yn) n= L D(Xi) = 50 • 225 = 11250. i=l Nyní již není problém určit hledanou pravděpodobnost: /Vn-1000 900-1000 \ , p(Yn e Z = P(Yn < 900 = P , < —, = P(Uy < -0,9428 = V ; ' \ ^/TT25Ô ~ j Xn ~ = O(-0,9428) = 1-0(0,9428) = 1-0,82639 = 0,17361. Vidíme tedy, že pravděpodobnost, že hledaná doba nepřekročí 15 hodin, je 17 %. Příklad 8. Životnost elektrické žehličky Philips má exponenciální rozdělení se střední hodnotou E(X) =3 roky. a) Odhadněte pravděpodobnost, že průměrná životnost 200 prodaných žehliček převýší 42 měsíců. b) Jaká má být záruční doba, aby pravděpodobnost překročení průměrné životnosti 100 žehliček byla maximálně 5 %? c) Kolik musíme vzít žehliček, aby pravděpodobnost překročení průměrné životnosti přes 42 měsíců byla nejvíce 95 %? Řešení: a) Pravděpodobnost jsme už odhadovali. Podívejme se, jaká bude v tomto případě: Xi... životnost i-té Philips žehličky (pro i = 1, 200); Z... náhodný jev, že průměrná životnost 200 prodaných žehliček převýší 42 měsíců (tj. 3,5 roků). Víme, že střední hodnota exponenciálního rozdělení je E(X) = ^- = 3. Z toho plyne, A žeA = iaD(X) = ^ = 9. Vzhledem k tomu, že se jedná o průměr náhodných veličin, střední hodnota zůstane stejná, tj. _ j200 H=E(Xn) = -YE(Xi) = 3, zatímco rozptyl bude _ i 200 g a2=D(Xn) 1=- -2^D(Xi) = — =0,045. Kapitola 2. Limitní věty 34 p(X„ 6z) = PiX. < 3,3) = /•( ^ < ^=§ ] = < 2,357) = 4>(2,357) =0,99061. Zde je hledaná pravděpodobnost příliš vysoká, o něco více než 99%. b) Podívejme se, jak bude vypadat řešení tentokrát: Xi... životnost i-té Philips žehličky (pro i = 1,100); Zfl ... odhadovaná záruční doba; Z...náhodný jev, že pravděpodobnost překročení průměrné životnosti 100 žehliček bude 0,05. Střední hodnota bude stejná jako dříve, /i = 3, ale rozptyl bude _ i 100 g (^= < ^=) = p(u%, < —) < 0,05, Z —3 q 3 < "0,05 = -"0,95 = -1,645, Zfl< 2,5065. Vidíme tedy, že hledaná záruka musí být 2 a půl roku, což je 30 měsíců. c) Nyní odhadujeme počet žehliček, aby pravděpodobnost, že průměrná životnost překročí 42 měsíců byla nejvíce 95 %: n ... odhadovaný počet žehliček; Xi... životnost i-té Philips žehličky (pro i = 1,n); Z... náhodný jev, že pravděpodobnost, že průměrná životnost překročí 42 měsíců, bude 95%. 9 9 Rozptyl je nyní o = -, střední hodnota zůstává stejná. n r- \ [Xn-3 r- 3,5-3 ^\ / 3,5-3 ^\ P(Xn e Z) = P[~^y=-< ^-^) = P[Ux„ < < °>95> *(^^V^)<0,95, Kapitola 2. Limitní věty 35 3,5-3 —-—y/ň < m0,95 = 1,645, ^< 9,87 =>n < 97,4169. Počet žehliček je tedy 97. Teď se podívejme na druhou verzi CLV, tzv. Moivre-Laplaceovu větu. Věta 2.2.4. MOIVRE-LAPLACEOVA INTEGRÁLNÍ VĚTA. Necht'Ynje náhodná veličina, která udává počet úspěchů v posloupnosti {Xj}"=1 nezávislých alternativních pokusů s pravděpodobností úspěchu 0. Potom náhodné veličiny Důkaz: Viz [1, str. 94]. Jinými slovy, náhodná veličina Yn je binomická náhodná veličina. Z toho je zřejmá její střední hodnota E(Yn) = nO a rozptyl D(Yn) = n0{\ — 0). Poznámka: Zde používáme tzv. opravu na spojitost: P(X < a)=P(X (3,66) = 0,99987. 6900,5-6750 V1687,5 ) Hledaná pravděpodobnost je tedy 99%. Kapitola 2. Limitní věty_36 Nyní se zaměříme na další možné příklady, ale ještě předtím uvedeme jednu větu: Poznámka 2.2.5. Nechťua jsou kvantily standardizovaného normálního rozdělení, kde a G (0; 0,5). Potom platí un = 1 — u 1-ce- Příklad 10. Do obchodu přišlo 560 lidí. 190 z nich ukončilo nakupování za 15 minut anebo méně. 470 lidí zůstalo 40 minut nebo méně. Spočítejte střední hodnotu a rozptyl doby nákupu v obchodě. Řešení: Označme X ... délka trvání nákupu; X~N(n; o2). Víme, že P(X < 15) =0,34 a P(X < 40) = 0,84. Z toho dostáváme dvě rovnice o dvou neznámých: ,'X-pL 15-jit \ „„„ fX-u 40-u\ n ni P( --<-- =0,34, P[-í-<-" =0,84, O O J \ o o /Mt/r„<^^) = 0,34, p(uY < 40-M ) = 0 g4 o 15-11 40 -li --- = «0,34 = -«0,66,--— = «0,84, I5z£ =-0,412, 1^ = 0,994. Z toho snadno dostaneme, že fi = 22,325 a o = 316,128. Příklad 11. Chceme slavit narozeniny v restauraci, ve které můžeme zarezervovat pouze 20 míst, a chtěli bychom pozvat 17 kamarádů a 12 kamarádek. Avšak ve stejný večer se hraje důležitý zápas, takže pravděpodobnost, že přijde kamarád, je 40%. Kamarádka přijde s jistotou na 90 %. Samozřejmě nechceme, aby se stalo, že přijde více lidí, než máme zarezervovaných míst. Můžeme zarezervovat pouze 20 míst s rizikem 1 %, že přijde více než 20 lidí? Řešení: Na základě uvedených pravděpodobností chceme spočítat, kolik lidí přijde s jistotou 99%. Pravděpodobnost, že někdo přijde, ať už kamarád, nebo kamarádka je Kapitola 2. Limitní věty 37 9="-0,4+12-0,9 = 29 Tudíž máme binomické rozdělení s neznámym parametrem n a 0 = 0,6068. Označme: X ... celkový počet lidí, kteří přijdou; Z... pravděpodobnost, že přijde méně než 20 lidí. Střední hodnota a rozptyl jsou tedy: E(X) =nB =0,6068«, D(X) =n(l-e)0 = 0,2385«. p(X G Z) = P(X < 20) = P(X < 19) = P(X < 19,5) = = (X-m<20-m\= í < 20-0,60681,^ V " / Vx-" v^2385^; 20-0,6068« — =— = uí) qq = 2,326, V0,2385« ' ' ' 20-0,6068« = 1,1359 y/ň. Uvedeme substituci y/ň = řa dostáváme kvadratickou rovnici: 0,6068ř2 + l,1359ř-20 = 0. Protože t musí být kladné, vyřešením této rovnice, dostáváme pouze jedno řešení: t = 4,8808, takže « = 23,8222 « = 23. Nemůžeme tedy počítat s tím, že přijde pouze 20 lidí, takže zarezervujeme nějakou jinou restauraci. 2.3 Cvičení 1. NechťX je náhodná veličina, která udává počet návštěvníků Brněnské muzejní noci v roce 2015. a) Odhadněte pravděpodobnost, že v roce 2015 bude méně než 7000 návštěvníků, pokud je střední hodnota E(X) = 5500; b) Odhadněte pravděpodobnost, že muzejní noc navštíví mezi 3000 a 4000 návštěvníky, pokud je střední hodnota E(X) = 3500 a rozptyl D(X) = 500. [a)0,214; b)0,998] Kapitola 2. Limitní věty 38 2. Balíčky vážící lkg třešní mají střední hodnotu 120 třešní a rozptyl 900 třešní. Jaká je pravděpodobnost, že celkový počet třešní ve 20 nakoupených balíčcích nepřekročí 2500 třešní? [0,77035] 3. Náhodně jsme vybrali 1000 aut a podívali jsme se na ujetou vzdálenost v uplynulém roce. 80 z nich ujelo více než 35000 km, zatímco 700 z nich ujelo více než 10000 km. Spočítejte střední hodnotu a rozptyl ujetých kilometrů. [jit = 16791,08; a2 = 12960,082] 4. Podle statistiky chodí 65 % studentů do menzy každodenně. (a) Jaká je pravděpodobnost, že maximálně 1150 studentů chodí do menzy, pokud jsme náhodně vybrali 1700 studentů? (b) Kolik studentů musíme vybrat, aby pravděpodobnost, že alespoň 1000 chodí do menzy byla 99 %? [a) 0,98956; b)1473] 5. Pravděpodobnost úspěchu prvního servisu u průměrného hráče tenisu je 48 %. Kolik prvních servisů musí hráč odpálit, aby pravděpodobnost 70 úspěšných servisů byla 90%? [129] Kapitola 3 Normální a odvozená rozdělení Tato kapitola nám slouží pouze k tomu, abychom se seznámili s rozděleními odvozenými z normálního rozdělení. V tabulce 1.3. jsme uvedli střední hodnoty a rozptyly těchto rozdělení, nyní je definujeme a ukážeme vlastnosti. Jde o standardizované normální rozdělení, X2 rozdělení, Studentovo t rozdělení a Fisherovo-Snedecorovo F rozdělení. Tato rozdělení budeme potřebovat především v dalších kapitolách. Na začátku si ještě připomeňme, jaký tvar má hustota normálního rozdělení a jaké rozdělení má transformovaná náhodná veličina: Definice 3.1. NechťX je náhodná veličina, která má normální rozdělení s parametry H eRa o2 > 0. Potom její hustota má tvar ÄW = ^^4(£^)2)'''roVxeR' Zapisujeme X ~ N (ji; O2). Věta 3.2. NechťX je náhodná veličina, která má normální rozdělení X ~ N(fi; O2), a nechť a, ŕel, b ^ 0 jsou konstanty. Potom lineární transformace náhodné veličiny Y = a + bX má normální rozdělení, a to Y = a + bX ~N(a + bn;b2c2). Speciálně náhodná veličina a má standardizované normální rozdělení. Důkaz: Viz [1, str. 61]. O standardizovaném normálním rozdělení jsme se již zmínili dříve, podívejme se tedy na ta další: Kapitola 3. Normální a odvozená rozdělení 40 Definice 3.3. Řekneme, že náhodná veličina X má %2 rozdělení s v > O stupni volnosti, pokud její hustota má tvar xi V 2* projc>0, O jinak. Zapisujeme X ~ X2(v)- W/a 3.4. Nechť Ui, ...,Un jsou nezávislé náhodné veličiny se standardizovaným normálním rozdělením, tj. Ui ~N(0; 1), pro i = 1,...,«. Pak náhodná veličina K = fjUf~X2{n) i=l má X2 rozdělení o n stupních volnosti. Důkaz: Viz [1, str. 64]. Než přejdeme k příkladům, uvedeme ještě ostatní odvozená rozdělení: Definice 3.5. Řekneme, že náhodná veličina X má Studentovo t rozdělení s v > 0 stupni volnosti, pokud její hustota má tvar O \ v+1 AW = FpÍ)v4(v + 11 •pmx€ Zapisujeme X ~ t (v). Věta 3.6. Nechť náhodné veličiny U ~ ÍV(0; 1) a K ~ X2(v) Jsou nezávislé. Pak náhodná veličina T = —= ~ř(v) má Studentovo t rozdělení o V stupních volnosti. Důkaz: Viz [1, str. 66]. Kapitola 3. Normální a odvozená rozdělení 41 Definice 3.7. Řekneme, že náhodná veličina X má Fisherovo-Snedecorovo F rozdělení s Vi > O a \>2 > O stupních volnosti, pokud její hustota má tvar í r(^) /vA* v, ./Vl x-^ ^ O jinak. Zapisujeme X ~ F(vi; V2). W/a 3.5. Nechť náhodné veličiny K\ ~ X2(vl) a ^2 ~ Z2(v2) Jíom nezávislé. Pak náhodná veličina ^lV2 - , F = —— ~F(vi;v2) Ä2Vi má Fisherovo-Snedecorovo F rozdělení o V\ a v2 stupních volnosti. Důkaz: Viz [1, str. 67]. V následujícím příkladu probereme všechna zmíněná rozdělení. Příklad 1. NechťXj jsou nezávislé náhodné veličiny z normálního rozdělení se střední hodnotou E(Xi) = 0 a rozptylem D(Xi) = 1 pro i = 1,5. Určete, jaké rozdělení pravděpodobnosti mají následující transformované náhodné veličiny: a) Yl=2Xl+X2-X3+4; VŠXľ+2X4-3 b) Y2 = — V3 c) F3 = J>2; 5 L i=l d) Y4=XÍ + X'-2Xí2X3+X"; 2XX+X2 e) Y5 i=3 3Xl f) y e X^ + Xf+X^ 2" Řešení: Postupně počítáme: a) Zde se očividně jedná o normální rozdělení. Spočítejme pouze střední hodnotu a rozptyl: Kapitola 3. Normální a odvozená rozdělení. E(Y1)=E(2X1+X2-X3 + 4)=2E(Xl)+E(X2)-E(X3)+E(4) D(Yi) = D(2Xi +X2-X3+4)= 4D(Xl)+D(X2)+D(X3)+D(4) Z toho plyne Yi ~ N (4; 6). b) Nyní spočítáme střední hodnotu a rozptyl: E(Y2) = E ( ^Xl^f4"3) = ^ (VŽEfr) +2E(X4)-E(3)) D(Y2) = D( ^+J_X*~3\ = l(mxí) +4D(X4)+D(3))=4 Zde máme opět Y2 ~ N( — y/3; 4). c) Tento případ je jednoduchý, neboť řešení plyne přímo z definice: Y3 = X2 + X2 + X2 + X2 + X2 ~ x2(5) • d) Zde už musíme výraz mírně upravit: i X, — 2X\ X3 + Xr t I X\ — X3 K4 = XÍ + J-U—Í = jň+^1 Spočítejme nyní střední hodnotu a rozptyl výrazu v závorce: o|^^]=i(D(X,)+D(X3))=l, Z toho plyne F4~;r (2). Kapitola 3. Normální a odvozená rozdělení-43 2Xi + X2 e) y« 5 i=3 Určeme nejprve rozdělení čitatele: E(2Xl+X2) = 2E(Xl)+E{X2)=0, D(2Xi +X2) = 4D{Xi) +D(X2) = 5. Tedy2Xi+X2~Af(0;5). Vydělíme-li celý zlomek s y/5, potom: 2Xl t*2 ~ N(0; 1) a £Xf ~ %2 (5), tedy celkem Y5 ~ ř(5) v 5 í=3 f) Zde je očividné, že X2~Z2(1), X22+X2 + X42 ~;t2(3), což celkem dává ~ F( 1; 3). 3.1 Cvičení 1. NechťX, ~ N(0; 1) jsou nezávislé náhodné veličiny pro/ = 1,15. Určete rozdělení pravděpodobnosti následujících náhodných veličin: a) Yl=Xl+2X2 + 3Xy, b) F2 = 3X2-X1+4-2X3; ^v 4Xi+3X3-VTIX5 + 12 C)F3 =-7=6-; d) F4=X2+X2 + X2; 1 5 e) F5=X2 + -£X2+X2X3-x4x5; i=2 Kapitola 3. Normální a odvozená rozdělení 44 [a)Fi ~Af(0; 14); b)F2~iV(4; 14); c)F3 ~ N(2Vě; 6); d)F4~X2(3); e)F5 ~ x2(3); f)F6 ~ ř(12); g)F7 ~ F(l; 1); h)F8 ~ F(3; 3)] Kapitola 4 Teorie odhadu V této kapitole se začneme zabývat statistickými metodami k řešení úloh. Na rozdíl od teorie pravděpodobnosti, kde se předpokládá, že jsou pravděpodobnostní prostor (Cl, sé, P) a rozdělení pravděpodobnosti náhodných veličin známé, v matematické statistice máme n nezávislých pozorování hodnot sledované náhodné veličiny X a jejich výsledky, tj. máme x\ = X(co\), xn = X(con), kde co\, (0n E Cl. Na základě těchto pozorování jsme potom schopni udělat výpověď o rozdělení zkoumané náhodné veličiny. Předtím, než se dostaneme k řešení úkolů, uvedeme základní používané pojmy: náhodný výběr, statistiku a výběrové charakteristiky. Definice 4.1. Náhodný vektor Xn = (X\, ...,Xn)' nazýváme náhodným výběrem z rozdělení pravděpodobnosti P, pokud 1. Xi, Xnjsou nezávislé náhodné veličiny; 2. Xi, Xn mají stejné rozdělení pravděpodobnosti P. Libovolný bod xn = (xi, xn)', kde Xi je realizace náhodné veličiny Xi, pro i = 1, n, budeme nazývat realizací náhodného výběru Xn = (X\, Xn)'. Číslo n nazýváme jako rozsah náhodného výběru. Definice 4.2. Libovolnou náhodnou veličinu Tn, která je funkcí náhodného výběru Xn = (Xi, ...,Xn)', budeme nazývat statistikou, tj. Tn = T(X\, ...,Xn)'. -45- Kapitola 4. Teorie odhadu 46 Definice 4.3. VÝBĚROVÉ CHARAKTERISTIKY. NechťXn = (Xb ...,Xn)' je náhodný výběr rozsahu n z rozdělení s distribuční funkcí F {x; B), kde 9 G 0, a 0 C M.n je parametrický prostor. Potom statistika _ 1 n 1. Xn= - Y" Xi se nazývá výběrový průměr; nr=i i n — 2. S2 =-- y\ (Xi — Xn)2 se nazývá výběrový rozptyl; n — 1 i=l 3. S = VŠ2 se nazývá výběrová směrodatná odchylka; 1 n 4. Fn(x) = - Y\l(-oo x] (Xi) se nazývá výběrová (empirická) distribuční funkce. i=i Příkladem empirické distribuční funkce se nebudeme zabývat (viz [2, str. 2]). Nyní, když jsme se seznámili se základními pojmy, můžeme uvést také definice odhadů parametrů a ukázat, jak se počítají. 4.1 Nestrannost a konzistence odhadů V této podkapitole se budeme zabývat bodovými odhady, což v praxi znamená najít nějakou statistiku Tn tak, aby nejlépe aproximovala parametr 0. Ještě než se zaměříme na nestranné a konzistentní odhady, ukážeme si příklad odhadu kvantilu: Příklad 1. Následující tabulka udává mzdy zaměstnanců, počet zaměstnanců, jakož i kumulativní četnost (vyjádřenou v procentech) zaměstnanců v podniku. Rozložte mzdový interval na 4 stejné intervaly podle počtu pracovníků, kteří patří do příslušného intervalu. Odhadněte také procento pracovníků, kteří jsou „bohatí", jestliže je bohatství určeno měsíčnou mzdou 25000 Kč. Mzdy (v Kč) Počet zaměstnanců Kumulativní četnost v % méně než 10001 45 4,5 10001 - 12000 55 10 12001 - 15000 110 21 15001 - 18000 120 33 18001-21000 150 48 21001-24000 200 68 24001 - 30000 180 86 30001 - 50000 140 100 Celkem 1000 - Tabulka 4.1. Zaměstnanci. Kapitola 4. Teorie odhadu 47 Řešení: Rozdělit nějakou uspořádanou řadu na 4 „stejně dlouhé" znamená nalézt medián, dolní a horní kvartil. Rozdělíme tedy všechny pracovníky do 4 skupin tak, že do první skupiny bude patřit čtvrtina zaměstnanců s nejmenšími mzdami atd. Z tabulky vidíme, že 25 % patří do čtvrté skupiny pracovníků s mzdovým intervalem 15001 — 18000. To znamená, že nejvyšší plat, který 25 % pracovníků dostává, se nachází v tomto intervalu. Pro přibližný výpočet kvartilů použijeme lineární interpolaci, kde jco,25 bude rozdělovat interval, ve kterém se nachází ve stejném poměru, jako hledaná mzda rozděluje příslušný interval. jc0 25 - 15000 25-21 18000-15000 33-21 Z toho lze lehce spočítat f0,25 : 12(jc0,25 - 15000) = 12000, *o,25 - 15000 = 1000, %25 = 16000. Podobně zjistíme, že: f0,50 - 21000 _ 50-48 24000-21000 ~ 78-48' 30(f0,50-21000) = 6000, f0,50-21000 = 200, %50 = 21200, jc0 75 - 24000 75 - 68 30000-24000 86-68' 18 (jc0)75- 24000) =42000, f0,75- 24000 = 2333,3, Je0,75 =26333,3. Odhadli jsme tedy, že 25% zaměstnanců má plat menší jak 16000, polovina dostává méně než 21200 a tři čtvrtiny méně než 26333,3. Nyní ještě odhadneme, jaké procento zaměstnaných dostává více než 25000. Teď známe mzdu, hledáme kvantil: 25000-24000 jc- 30000-24000 86-6000(f-68) = 18000 jc —68 = 3, f = 71. 68 ^68' Konečně máme procento pracovníků, kteří „nejsou bohatí", tzn. že „bohatých" pracovníků je 29 %, což je 290 ze 1000. Můžeme ještě spočítat, že průměrná mzda je 22180 Kč. Vidíme tedy, jak tyto dvě hodnoty můžou být odlišné. Nyní uvedeme definice nestrannosti a konzistence odhadu parametrů (ostatní naleznete v [2]): Kapitola 4. Teorie odhadu 48 Definice 4.1.1. NechťXn = (X\, ...,Xn)' je náhodný výběr rozsahu n z rozdělení pravděpodobnosti Pq, kde d je vektor neznámých parametrů. Nechť y(d) je daná parametrická funkce. Potom je statistika Tn = T(X\, ...,Xn)' 1. nestranným (nevychýleným) odhadem parametrické funkce j(0), pokud pro V0 G 0platíEB(Tn) = 7(0); 2. asymptoticky nestranným odhadem parametrické funkce y(0), pokud pro V0 G 0platí lim EB(Tn) = y(0); 3. (slabě) konzistentním odhadem parametrické funkce y(0), pokud pro Ve > O platí lim Pe(\Tn - 7(0)| > e) = O, tj. Tn A y(0). Na základě následujících dvou příkladů můžeme odvodit závěr o nestranných odhadech středních hodnot a rozptylů: Příklad 2. Nechť Xn = (X\, Xn)' je náhodný výběr z rozdělení pravděpodobnosti Pq se střední hodnotou /i. Určete zdaje výběrový průměr Xn nestranným odhadem střední hodnoty \x. — 1 n Řešeni: Zde máme statistiku Tn = Xn = j- £ Xu a počítáme její střední hodnotu EqTh: • 1 1=1 EeT.=e,(lÍxl)=];et(±Xiy]rll = ll. Výběrový průměr je tedy nestranným odhadem střední hodnoty. Příklad3. NechťXn = (Xi, ...,Xn); je náhodný výběr z rozdělení pravděpodobnosti Pq se střední hodnotou /i a rozptylem o2. Dokažte, že výběrový rozptyl S2 je nestranným odhadem rozptylu o2. ^ n _ Řešení: Nyní máme statistiku Tn = S2 = —k- £ (Xi — Xn)2, a znovu počítáme její ■ i i=i střední hodnotu Eq(Th) : Kapitola 4. Teorie odhadu 49 Ee(Tn) = Ee £(*,■ - Xnf^ = -^Ee (j£ ((X,- - ju) + (M -X«))2) = -Jr\Ee (Ě (Xi-H)2 + 2(Xi - ji)(ji - Xn) + (/i - Xnf^j = = ^7 É (Ee{Xi-iL)2+2Ee(Xi- ji)(n -Xn) + Ee(Xn-y.)2) = r2N —!— £ (a2 + 2EQ (XíH - XXn - \x2 + iiXn) + —) = -T Ľ [°2 + 2E°" 2£e(XiXn) ~ 2EeGu2) + 2Ee(fiXn) + — ^ t (o> + 2ŕ - 2Ee (x, (I £ X,) ) -tf + 2^ 4) = 1 » /(«+l)í72 . ^ /l " 1 2\\ ^ t (+ 2„2 _ 2I£s (X,) £ X, - 2^) = w-l,tí\ n n jTi " / -r£ "-^— + 2M2 -2-M(/í- 1)M -2-) = n — í n n n J —í— ((n + l)(72 + 2nn2 - 2(n — 1)jU2 — 2o2 - 2\x2\ = n — 1 —'— (no2 + o2 + 2na2 - 2na2 + 2ll2 - 2o2 - 2ll2) -n — 1 v ' (n-\)a2 o n-l o . Vidíme tedy, že výběrový průměr je nestranným odhadem střední hodnoty, stejně tak výběrový rozptyl je nestranným odhadem rozptylu. Příklad 4. Nechť Xn = (X\, Xn)' je náhodný výběr z rozdělení pravděpodobnosti n Ge(0). Určete konstantu k tak, aby statistika Tn = k £ (Xi — X^i)2 byla nestranným od- i=2 hadem střední hodnoty Potom určete, zdaje statistika Tn asymptoticky nestranným odhadem rozptylu pro k = ^. Řešení: Aby statistika Tn byla nestranným odhadem parametru 6, musí platit Kapitola 4. Teorie odhadu_50 Ee(Tn) = 0. Na základě toho můžeme spočítat konstantu k: Ee(Tn) = Ee (kj^Xi-Xi-i)2^ = kEe (Ě ~E(xi)) ~ (xi-i "£(^)))2) = = k £ EQ Í(Xí -E(X)f-2 (Xi -E(X)) -E(X)) + i=2 V + (X,.1-£W)í)=i(t^-2.0 + £y) = 2fc(w- 1)—=- = —— ^fc e2 e 2(w-i)' Dostali jsme výsledný tvar statistiky Tn = 2( £ (Xi — Xi-])2. Pro k = i je střední hodnota EQ(Tn) následující: EeK> = E8 (1 t(x, - x,-,)') = Ie. (l(x,. - W) = 2(" - ^ - 9). Potom je limita: . v 2(w-l)(l-0) -2(1-0) hm E6(Tn) = lim -i-^-^ = 1 Statistika T zde není asymptotickým nestranným odhadem rozptylu . Nyní uvedeme větu o konzistentním odhadu, která nám velmi pomůže ve výpočtu: Věta 4.1.2. Nechť statistika Tn = T(X\, ...,Xn)' je nestranný nebo asymptoticky nestranný odhad parametrické funkce j(d) a platí limDe(r„)=0. Pak je statistika Tn = T(X\, ...,Xn)' konzistentním odhadem parametrické funkce 7(0). Důkaz: Viz [2, str. 7]. 1 n 1 Příklad 5. Určete, zda je statistika Tn = ± £ Xi konzistentním odhadem parametru j i=l v náhodném výběru Xn = (Xi, Xn)' z exponenciálního rozdělení Ex(X). Řešení: Nejprve ověřme nestrannost či asymptotickou nestrannost odhadu: Kapitola 4. Teorie odhadu 51 /l » \ 1 » 1 » 1 1 E9(Tn)=EQ =-££e (X =-£- = -. Vidíme tedy, že štatistika r je nestranným odhadem parametru j. Podle předchozí věty určeme, zdaje konzistentním odhadem. Spočítejme nejprve rozptyl: 1 A 1 1 De(Tn)=De^Íx^=l2ÍDe(Xl) = ^2Í \ i=l / í=l í=l A2 AV Určeme ještě limitu: lim De(Tn) = lim -\- = 0. Můžeme říct, že statistika Tn je konzistentním odhadem parametru j. Nyní uvedeme ještě jednu definici, která říká, jak máme vybrat ten „nejlepší" odhad, když máme více možností odhadů: Definice 4.1.3. Nechť Tnje nestranný odhad parametrické funkce y(6) a pro všechna 9 G 0 platí De(Tn)4(l>) -M;*-* Vyřešením této kvadratické rovnice dostáváme: Dosazením do původní rovnice získáme: 4.2.2 Metoda maximální věrohodnosti Na rozdíl od předchozí metody je tato metoda často využívána právě proto, že poskytuje „kvalitní" výsledky. Zde budeme pracovat s tzv. věrohodnostní funkcí náhodného n výběru, definovanou jako L(6;xi, ...,xn) = U fxi(xf, 6). Hledáme tedy maximálně věro- i=l hodný odhad: Definice 4.2.2.1. Odhad Omle nazveme maximálně věrohodným, jestliže proMd G 0 platí L(Qmle', V tomto případě je snadnější pracovat s logaritmem věrohodnostní funkce 3 " a2 + ab + b2 = - ^X, i=l Kapitola 4. Teorie odhadu-55 1(0; x) = lnL(0; x). Odhad Qmle dostaneme vyřešením systému rovnic d d n —1(0; x) = -žZ-J\lnfXi(xi; 6U 0m) = 0, pro j = 1, ...,m. d0j d0jfr{ Udělejme příklad č. 7 (str. 53) touto metodou a porovnejme odhady. Příklad 9. Nechť Xn je náhodný výběr z exponenciálního rozdělení Ex(X). Metodou maximální věrohodnosti odhadněte parametr X. Řešení: Nejprve „vytvořme" věrohodnostní funkci, kterou potom zlogaritmujeme a zderivujeme: n M^'X) = X\fXi{h\Xi) = Y\Xe~^Xi =Xne~^^*\ i=\ 1=1 n n Xni «-=i J = lnAn + lne~ = wlnA - X £*,-, ^/(A;x) = £-t^ = 0^W = =. Touto metodou jsme dostali stejný výsledek jako u metody předchozí. Příklad 10. Nechť Xn je náhodný výběr z negativně binomického rozdělení NeBi(n; 0). Metodou maximální věrohodnosti odhadněte parametr 0. Řešení: Připomeňme si nejprve, jak vypadá pravděpodobnostní funkce negativně binomického rozdělení: j/„+*-i\ , Pro*>o, ee(o,i), Px(x) = < V x ) [O jinak. Další postup je už známý: l(o;x) = flpzfrxi) = fl(n+Xi l)en(i-oy n("+*"I))^(i-9)^. Kapitola 4. Teorie odhadu 56 l(0;x) = lnL(0;x) = ln í=i V xi J £ln (n+Xi~l\+n2\nd + YxM\-Q) i=l Xi i=l 3ě'(fl:x) = J ~ TTä£* = ° 6mle = íí+F Odhad je tedy Omle n+X' Dříve, než uděláme další příklad, vzpomeňme si na funkci T z první kapitoly a zadefinujeme další funkci (digamma funkce), kterou použijeme k vyřešení některých příkladů a je definovaná jako logaritmická derivace funkce T. Definice 4.2.2.2. Funkce f je definovaná předpisem W(m) = — lnr(m). om Další příklad nebudeme řešit, jenom nám ukáže, jak lze využít digamma funkci. Tento příklad nelze vyřešit v obecné formě, pouze numericky, využitím některé z numerických metod. Příklad 11. Nechť Xn je náhodný výběr z rozdělení s hustotou: Á X „-Xx fx(x) = { (m-1)! 0 e pro x > 0, m G N, jinak. Najděte odhady parametrů lam metodou maximální věrohodnosti. Řešení: Využijeme následující vlastnost: T(m) = (m— 1)!: n 1 i mn tt Ym— 1 n 2mxm—l 71 11 xi L(A; m; x) - n a, n • ™- ^ - FT — i=i i=i r(m) (rK X É x,- Kapitola 4. Teorie odhadu 57 xmn n 4 i=l = ln A mn + ln f[ xf~1 - In (T {m))"+ln e * *=i n n Nyní odhadujeme dva parametry, takže budeme mít dvě derivace: mn n m 1) —/(A; m; x) A y>=o^A 2) —/(A; m; x) nlnA + j^lnjCi-n^m) = 0 =>• ¥(m) = InA + - £ln^-. m Z těchto dvou rovnic lze tedy numericky volbou vhodného iteračního procesu odhadnout parametry A a m (např. Newtonovou metodou; viz [4]). 4.3 Intervalové odhady Dosud jsme se zabývali bodovými odhady parametrů, přesněji, odhad parametrické funkce 7(0) jsme určovali jedním číslem. Zde přejdeme k intervalovým odhadům parametrické funkce y(9). To znamená, že vytvoříme interval, jehož krajní body jsou statistiky, tak, že skutečná hodnota parametrické funkce 7(0) je s velkou spolehlivostí uvnitř tohoto intervalu. Podívejme se na definici intervalového odhadu: Definice 4.3.1. Nechť Xn = (X\,..., Xn)' je náhodný výběr z rozdělení pravděpodobnosti s distribuční funkcí F (x; 0), 0 G 0. Dále, nechťy(d) je parametrická funkce, a G (0, 1) a D = Dn(Xn), H = Hn(Xn) jsou statistiky. Potom interval [D; H] nazveme 100(1 — á)% intervalem spolehlivosti pro parametrickou funkci y(0), jestliže potom statistiku D = Dn(Xn) nazýváme dolním odhadem parametrické funkce 7(0) se spolehlivostí 1 — a. Jestliže potom statistiku H = Hn(Xn) nazýváme horním odhadem parametrické funkce 7(0) se spolehlivostí 1 — a. P(Dn(Xn) < 7(0) < Hn(Xn))= 1 - a. Jestliže P(Dn(Xn)- a = 0,05. Nyní můžeme vytvořit interval, který dosadíme do pivotové statistiky: 1 15 P\ "0,025 ^= Xn2Je Jeno výběrový průměr. Předpokládejme, ze oba výběry jsou nezávislé. Potom, pro neznámý rozdíl středních hodnot jl\ — jl2, když jsou O2 a (7% známé, je statistika Ux j =Yw'~Yw2~(Ml~^^iV(0;l). V «1 «2 Potom [D,H] (j2 0-2 _ _ / 0-2 0-2 Xni —Xni — Ui_ail--1--, Xni —Xn2+Ui_ai--1-- 2 \l n\ «2 2 V ní H2 je 100(1 — a)% interval spolehlivosti pro rozdíl středních hodnot jl\ — jl2 když jsou O2 a c| známé, D = Xn. — Xn~ — U\-a \ /--1-- w «1 «2 je dolní odhad rozdílu středních hodnot /ii — /I2, když jsou o2 a c| známé se spolehlivostí 1 — a, ' ®1 ®2 H = Xn. — Xn2 -\-U\-a\l--1-- w «1 «2 je horní odhad rozdílu středních hodnot /ii — /I2, když jsou o2 a 0% známé se spolehlivostí 1 — a. Příklad 18. Zkoušku dělalo 9 studentů; 5 mužů a 4 ženy. Jejich výsledky byly následující: 63; 75; 78; 80; 93 a 66; 79; 81; 96. Spočítejte 95% interval spolehlivosti pro rozdíl středních hodnot výsledků mužů a žen u zkoušky, pokud se výsledky řídí normálním rozdělením. Rozptyly jsou o2 = 81 a c| = 49. Řešení: Využijeme statistiku Ujn _j„ pro rozdíl středních hodnot, kde a = 0,005. Spočítejme výběrové průměry: Nyní máme všechno, abychom vytvořili interval: Kapitola 4. Teorie odhadu 66 P\Ua< -í- ~ ^- < Ux_a j = 0,95, «1 ^ «2 2 2 CT1 , ^2 P\Xni-Xn2-u0j975d-^- + -^<íl1-íl2 < Xni je jeho výběrový průměr a S\ jeho výběrový rozptyl. Předpokládejme, že oba výběry jsou nezávislé. Potom, pro neznámý rozdíl středních hodnot jUi — \l2, když jsou O2 a c| neznámé, ale platí o2 = 02 = O2, je statistika kde Potom Xni -Xn2-(m-n2) I nxn2 T^-xn2 =-^-V^T^^ ( 1 2" }' 2 (m-l)5f + (n2-l)^ n\+n2 — 2 n\ +n2 [D,H] Xni—Xn2 — t1_a(ni+n2 — 2)Si2\l , 2 \l n\n2 Xni -Xn2+tl_a(ní+n2-2)Si2\ 1+ 2 2 V "1^2 je 100(1 — a)% interval spolehlivosti pro rozdíl středních hodnot jl\ — jl2 když jsou O2 a O2 neznámé, ale platí o2 = 0% = O2, — — 0n n\+n2 D = Xm -Xn2-tí-a(ní+n2-2)Sí2\ - V «1«2 je dolní odhad rozdílu středních hodnot /li — \x2, když jsou o2 a neznámé, ale platí o2 = c| = O2, se spolehlivostí 1 — a, — — n\+n2 H =Xni -Xn2+tí-a(ní+n2-2)Sí2x - V «1«2 je horní odhad rozdílu středních hodnot /li — \x2, když jsou o2 a neznámé, ale platí o2 = c| = O2, se spolehlivostí 1 — a. Příklad 19. Vyřešte předchozí příklad za předpokladu, že se rozptyly rovnají o2 = 0%- Řešení: Zde kromě výběrových průměrů, které jsme už vypočítali v předchozím příkladě, potřebujeme rovněž výběrové rozptyly: 521 = Z t(Xh -*m)2 = h5,7, ^ i=i 522 = \í(X2j-Xn2)2 = 151, Kapitola 4. Teorie odhadu 68 Použijeme statistiku TV t : X„, - X - („. - „2) <ři | = 0,95, l — — ^\ nl + n2 P\ Xni -Xn2-togi5(nl+n2-2)Sí2x -< Ml ~M2 < _ _ lfl^-\- fi2 Xni Je jeho výběrový průměr a S\ jeho výběrový rozptyl. Předpokládejme, že oba výběry jsou nezávislé. Potom, pro neznámý podíl rozptylů kdyžjsou jl\, /Í2, Oř a oi neznámé, °2 je statistika S2 O2 Fa\lal = Ú ■ -k ~ F(nl - 1; «2 - I)- 1 ^2 r/u2 S2'a2 Potom [D,H] SJ_ _1_ SJ_ 1 SÍ Fi_ a (m — 1,«2 — 1) ' S2, Fa(m — 1,«2 ~ 1' ^ 2 ^- 2 je 100(1 — a)% interval spolehlivosti pro neznámý podíl rozptylů když jsou °2 jtii, /i2, O2 a c| neznámé, S2 1 S2 Fi_a(ni-l,n2-l) (7*2 je dolní odhad pro neznámý podíl rozptylů -\, když jsou /li, /i2, o2 a a| neznámé °2 se spolehlivostí l — a, ?2 Si 1 S2 Fa(ni - 1,W2- 1) je horní odhad pro neznámý podíl rozptylů když jsou /li, /i2, 0f a neznámé °2 se spolehlivostí l — a. Příklad 20. Při zkoumání inteligence u dětí ve dvou skupinách na mateřské škole jsme obdrželi následující výsledky s normálním rozdělením: 71; 76; 82; 90; 93; 101; 103; 112 a 75; 77; 80; 83; 92; 95; 99; 100. Spočítejte 99% interval spolehlivosti pro podíl rozptylů. Řešení: Při počítání hledaného intervalu použijeme statistiku Fa2jai, ale nejdříve vypočítáme výběrové průměry a rozptyly: X»i=iEXi, = 91, 8í=i -*«i)2 = 199,4285, ' i=l - 1 8 Xn2 = ň HX2i = 87,625, 8i=l Kapitola 4. Teorie odhadu 70 S2 = 7l(^2,-Xn2)2 = 101,125. Získané hodnoty dosadíme do statistiky: p\Fa(nl-\,n2-\), H] = [0,2219; 17,5220]. Posledním případem, kterým se zde budeme zabývat, jsou tzv. párové výbéry. Věta 4.3.1.8. Nechť Xx = (Xh Yi)', Xn = (Xn,Yn)' je náhodný výbér z dvourozmérného normálního rozdělení N2(n;lZ), s parametry jl = i^^j a E = (^p°*a2 P<7^2°2ykde Mi, M2 e R, o\ > 0, of > Oap e (0, 1). Pro i = 1, n označme dále je výbérový průmér a výberový rozptyl. Potom Zi — Xi — Y i, — 1 n Zn = ~ /_,Z{ [D,H] Zn-tx_a(n- 1)—Zn + tl_a(n- 1)—p n 2 \ n je intervalový odhad parametrické funkce \x = ]X\— ]X2o spolehlivosti 1 — a. Kapitola 4. Teorie odhadu 71 Důkaz: Viz [2, str. 62]. Spočítejme poslední příklad v této části: PříkladH. Nechť X„ = (73; 61; 105; 92; 56; 77; 68)' je náhodný výběr z normálního rozdělení, který udává váhy zkoumaných žen, vyjádřené v kilogramech, dříve než začaly užívat čaj na hubnutí. Po 7 měsících užívání čaje, se ženy znovu vážily s následujícími výsledky: Y„ = (65; 57; 92; 86; 52; 71; 60)'. Spočítejte 95% interval spolehlivosti pro rozdíl vah zkoumaných žen. Řešení: Spočítejme všechny hodnoty uvedené v předchozí větě: Z„ = (8; 4; 13; 6; 4; 6; 8)', - -Iv ' i=l S1 = —^(Zi-Tnf = \2. Vytvoříme interval: P\t*{n-\)<7^j^Vh~ OUi_a c2 známé M = Mo H>IM) (X-Ho)y/ň> OUi-a o2 známé M = Mo jll< jUo (X - Ho)y/ň < -OUi-a c2 známé M = Mo Mť^Mo \X-Ho\\/ň> Stľ_a(n- 1) c2 neznámé M = Mo ju > Mo (X-Ho)y/ň>Sti-a(n-l) o2 neznámé M = Mo H o2 (^>rf-a(»-D /i neznámé a2 = a2 o2 < o2 /i neznámé Tabulka 5.1. Tabulka testů pro jeden náhodný výběr z normálního rozdělení. H0 Hi Hypotézu Hq zamítáme, pokud Předpoklady Mi =M2 Ml ť^M2 \Xni-Xn2\ >Ul_a\J% + % o2 a ct| známé Mi =M2 Mi ť^M2 \Xni -Xni| > h_a(ni +n2-2)5i2 <72 = cl neznámé o2 = o2 a2 / a2 |č (Ff(Mi-l,M2-l), ^-«(«1 - 1, w2- 1)) jíl a /i2 neznámé Tabulka 5.2? Tabulka testů pro dva nezávislé náhodné výběry z normálního rozdělení. #0 Hi Hypotézu //o zamítáme, pokud Předpoklady M = Mo Mť^Mo 1 c, \/n > Mi a 0< o2(0) <°o M = Mo Mť^Mo \x-M r-^ X„ ~ Po(n) P=P0 P/Po vw(1-p0)v ~ 1 2 *n~A(p) Tabulka 5.3/ Tabulka asymptotických testů pro náhodné výběry. Na prvním příkladě ukážeme všeobecný postup, jak se provádí testování statistických hypotéz, které většinou budeme používat i k řešení ostatních úloh. Převzato z [2, str. 75]. 2Převzato z [2, str. 75]. 3Převzato z [2, str. 75]. Kapitola 5. Testovaní statistických hypotéz 79 Příklad l.4 Zástupci ekologického hnutí vystupují proti výstavbě nové továrny v oblasti, ve které je životní prostředí poznamenáno průmyslovou činností. Jedním z argumentů, který používají, je nízká porodní váha novorozenců v dané oblasti. Průměrná hmotnost 40 náhodně vybraných novorozenců narozených v této oblasti byla 3010 g. Má smysl použít tento argument proti výstavbě nové továrny, jestliže porodní váha zdravé populace má normální rozdělení se střední hodnotou 3300 g a směrodatnou odchylkou 476 g? Řešení: Zaprvé, musíme formulovat nulovou a alternativní hypotézu. Nulová hypotéza je taková, že vycházíme ze současného stavu a ověřujeme její platnost. Zde předpokládáme, že střední hodnota porodní váhy je 3300 g, takže Hq : /i = 3300. Cílem je zamítnout hypotézu, a proto za alternativní zvolíme to, co chceme dokázat; zde je to nižší porodní váha, takže Hx:}1< 3300. Zadruhé, musíme vybrat vhodné testovací kritérium. Volba záleží na hypotéze, kterou testujeme a rozdělení, které má sledovaná veličina. Zde testujeme hypotézu o střední hodnotě normálního rozdělení, přičemž rozptyl známe, takže použijeme už známou pivotovou statistiku U. Zatretí, zvolíme hladinu významnosti a. Zde není přesně uvedeno, jaká je hladina významnosti, a proto bereme 5 %, tj. a = 0,05. Začtvrté, musíme stanovit kritický obor W. Stanovujeme ho podle alternativní hypotézy. Zde máme levostrannou hypotézu, protože obor možných hodnot parametru /i je vymezen nalevo od 3300. Kritický obor je tedy W = {-oo; m005} = {-oo; -m0)95} = {-oo; -1,645}. Nyní nám ještě zůstává spočítat hodnotu testovacího kritéria a udělat závěr: V tomto případě patří hodnota testovacího kritéria do kritického oboru: U Gf^ Hq zamítáme na hladině významnosti a = 0,05. Na 5 % hladině významnosti jsme potvrdili, že porodní váha novorozenců je nižší než u zdravé populace, takže zástupci ekologického hnutí můžou použít tento argument proti výstavbě nové továrny. Příklad 2. Výrobce kávovarů tvrdí, že stroj je nastavený tak, že při jedné přípravě kávy natočí 30 ml se směrodatnou odchylkou 5 ml. Předpokládejme, že objem kávy je náhodná veličina, která se řídí normálním rozdělením. Chceme zkontrolovat, zda při změně kávovaru nedošlo ke změně směrodatné odchylky. Při 10 přípravách kávy jsme dostali následující objemy (v ml): 4Převzato z [10, str. 82]. Kapitola 5. Testovaní statistických hypotéz 80 31; 28; 36; 32; 27; 30; 25; 24; 31; 33. Řešení: Chceme ověřit tvrzení výrobce, že přesnost kávovaru měřená směrodatnou odchylkou je 5ml, proti hypotéze, že se přesnost po výměně kávovaru změnila: H0 : o = 5, Hi : o Ý 5- Tyto testy jsou ekvivalentní hypotézám: H0:o2 = 25, Hx:o2^ 25. Odhadujeme rozptyl při neznámé střední hodnotě, takže za testovací kritérium vybereme pivotovou statistiku K. Zvolíme a = 0,05. Kritický obor se řídí dvoustrannou hypotézou, takže W = {0; Z02025 (9)} U {x2975 (9); oo} = {0; 2,7} U {19; oo}. POZOR: x2 nemůže mít záporné kvantily! Spočítejme ještě výběrový průměr, rozptyl a hodnotu testovacího kritéria: Xn = -YXi = 29,7, 1 n — v ^2 - 13,7889, s2 = —7£(^-x„ , 1NS2 9-13,7889 „ nri K = {n-\)Vl =-j-5-= 4,964. K W Hq nezamítáme na hladině významnosti a = 0,05. Naším testem se nepodařilo zamítnout tvrzení výrobce o udávané přesnosti kávovaru. Testy z předchozích dvou příkladů byly jednovýběrové v normálním rozdělení. Další bude dvouvýběrový v normálním rozdělení. Statistiky zůstávají stejné jako v předchozí kapitole. Příklad 3. Ve školních novinách bylo napsáno, že dívky nejrychleji rostou v období mezi 11 a 13 roky, zatímco chlapci nejrychleji rostou mezi 13 a 15 roky. Můžeme potvrdit teorii, že v období 12 let jsou děvčata vyšší než chlapci, jestliže jsme ve stejné škole Kapitola 5. Testovaní statistických hypotéz 81 náhodně vybrali žáky 6. třídy a měřením jejich výšek dostali následující údaje (v cm) a výšky se řídí normálním rozdělením: chlapci (Xni): 132; 128; 134; 129; 139; 133; 141; 130; 122; děvčata (X„2): 138; 142; 157; 124; 134; 132; 139? Řešení: Zadané údaje představují dva náhodné výběry. Z toho je očividné, že budeme dělat dvouvýběrový test. Ověřujeme, zda jsou děvčata v daném období vyšší než chlapci. H0 : Mi = M2 =>• Mi - M2 = 0, Hi : Mi < M2 =>• Mi - M2 < 0. Odhadujeme rozdíl středních hodnot při neznámých rozptylech (aniž víme, zda jsou stejné). Takovou statistiku jsme zatím neřešili. Proto zde nejprve zavedeme jednu „pomocnou" hypotézu o rovnosti rozptylů. a2 H0:c2 = c22^H0:^ = l, o2 Hr.ofŕož^Hr.-^ŕi. V rámci pomocné hypotézy použijeme F 2/ai statistiku. Za a zvolíme 5 %. Kritický obor se nyní řídí dvoustrannou hypotézou, takže bude W = {0; F0,o25(8; 6)} U {F0,975(8; 6); ~} = (o;--7^1u(Fo,975(8; 6); < l ^0,975(6; J [ = {0; 0,2149} U {5,6; 00}. Pro statistiku Fa2jai potřebujeme spočítat výběrové rozptyly: Xni = 132, Xn2 = 138. S2 = 33, Sl = 104,3334. _S2 a2 104,3334 F^-&2ďí-—i--1"3'1616- Fa2 ja2 <£W Hq nezamítáme na hladině významnosti a = 0,05. Kapitola 5. Testovaní statistických hypotéz 82 Věříme, že o2 = 0%, protože Hq jsme nezamítli. Ale POZOR: formálně to nemáme dostatečně podepřeno! Pokračujeme v našem testu. Nyní můžeme zvolit statistiku Ty y ■ Za a znovu zvolíme 5 %. Nový kritický obor je tedy W = {-00; ř0)o5(14)} = {-00; -řo)95(14)} = {-00; -1,761}. Pro tuto statistiku potřebujeme ještě spočítat S22: s2 (ni-l)S2 + (n2-l)S2 8-33 + 6-104,3334 12 m1+m2-2 14 T_ _ X^-Xnz-im-fr) [T^r 132- 138-0 9-1 1t}32 x«x-x«2 S12 \l nl+n2 V63,5714 V 9 + 7 Tyn _xn £ W Hq nezamítáme na hladině významnosti a = 0,05. Na základě našeho testu nemůžeme odvodit závěr, že děvčata jsou v tomto období opravdu vyšší než kluci. Na posledním příkladu uvidíme, jak se hypotézy testují při párových výběrech. Příklad 4. Majitel vlastní dvě restaurace se stejnou nabídkou, přičemž první se nachází na periferii města, druhá v centru. Zákazníci preferují chodit na oběd do první restaurace, a to proto, že si myslí, že je levnější. Náhodně jsme vybrali 10 zákazníků, kteří chodí na oběd do první restaurace, a získali tak částky, které za obědy zaplatili. Zároveň jsme získali částky, které by zaplatili, kdyby chodili do druhé restaurace na stejný oběd. Částky jsou následující: První restaurace: 109; 118; 131; 45; 76; 73; 110; 118; 189; 46. Druhá restaurace: 118; 141; 151; 48; 81; 89; 114; 126; 194; 64. Můžeme tvrdit s rizikem omylu 1 %, že ceny v druhé restauraci jsou vyšší než v první, pokud ceny v obou restauracích mají normální rozdělení? Řešení: Máme dva náhodné výběry Xn = (Xi, ...,Xn)' a Yn = (ľi, Yn)', kde Xi je cena obědu náhodně vybraného zákazníků v první restauraci a Fř- cena v druhé, pro i = 1, n, tj. i = 1, 10. Jde o případ, kde náhodné veličiny Xi a Fř- jsou pozorovány u stejné jednotky za jiných podmínek, a proto má smysl uvažovat rozdíl hodnot každého páru. Mluvíme tedy o párovém testu. Úkolem je tedy provést test o rovnosti cen v obou restauracích, proti hypotéze, že jsou ceny v první restauraci nižší než v případě druhé restaurace. Kapitola 5. Testovaní statistických hypotéz_83 H0 : Mi = M2 =>• Mi - M2 = O, #1 : Mi < M2 =>• Mi - M2 < 0. Protože jde o párové výběry, zavedeme „nový" náhodný výběr Zn a střední hodnotu M, které se rovnají rozdílu předchozích dvou: Zn = Xn-Y„ = (-9; -23; -20; -3; -5; -16; -4; -8; -5; -18)', M = Mx-Mf- Z toho nám plynou nové hypotézy ekvivalentní už zadaným: #o : M = 0, Hi : m < 0. Použijeme statistiku pro párové výběry T. Na rozdíl od předchozích dvou příkladů zde máme zadané a = 0,01. Kritický obor tvoříme na základě levostranného testu, tedy W = {—°°; řo,oi(9)} = {-oo;-ř0)99(9)} = {-oo;-2,821}. Spočítejme ještě výběrový průměr a rozptyl, které jsou potřebné k vypočítání hodnoty testovacího kritéria: - 1 n Zn = -YZi =-11,1, S2 = -^—j^(Zi-Žn)2 = 55,2112, S = V55,2112 = 7,4304, T = ^^=-^l-°VTÔ= -4,7240. S v 7,4304 ľe?4/ío zamítáme na hladině významnosti a = 0,01. Tímto testem jsme zamítli tvrzení, že se ceny v restauracích rovnají, takže podle našeho testu jsou ceny opravdu nižší v první restauraci než ve druhé. Kapitola 5. Testovaní statistických hypotéz_84 5.1 Cvičení 1. Trolejbusy projíždějící centrem města mají průměrnou rychlost s normálním rozdělením 20 km/hod. Vedoucí MHD rozhodli, že změní trasu trolejbusů, aby zvýšili jejich průměrnou rychlost. Na nové trase byly naměřeny následující rychlosti v náhodně vybraných hodinách: 23; 19; 27; 24, 17; 20; 21. Bylo toto rozhodnutí správné? [Rozhodnutí nebylo správné.] 2. Výrobce elektrických strojků tvrdí, že použitím nové výrobní technologie prodlouží průměrnou výdrž baterie ze 100 hodin na 103 hodiny. Tato veličina má normální rozdělení s rozptylem o2 = 16. Na základě 12 testovaných strojků jsme zjistili, že průměrná výdrž baterie je 102 hodiny. a) Je tvrzení výrobce, že se průměrná výdrž baterie zvýší, správné? b) Uvedl výrobce správný rozptyl, pokud je výdrž testovaných strojků následující: 99; 102; 107; 103; 100; 101; 98; 110; 103; 100; 101; 100? Víme, že fi = 100. [Tvrzení není správné; Neuvedl správný rozptyl.] 3. U osmi náhodně vybraných zákazníků byly zjištěny následující doby čekání (ve dnech) na objednání v kadeřnickém salonu: 7; 9; 2; 13; 4; 6; 7; 10. Paní kadeřnice tvrdí, že střední hodnota čekání jejích zákazníků na objednání není větší jak 7 dnů. Je toto tvrzení správné? [Tvrzení není správné.] 4. Směrodatná odchylka ročních teplot v konkrétním městě, měřena v období 100 let je 8° C. Měřena je rovněž střední denní teplota 15. dne v měsíci během posledních 15 let a je spočítaná směrodatná odchylka 8° C. Jestliže předpokládáme, že teploty mají normální rozdělení, můžeme na hladině významnosti 1 % tvrdit, že se směrodatná odchylka teplot v posledních 15 let zmenšila? [Nemůžeme tvrdit.] Závěr Cílem této bakalářské práce bylo vytvořit sbírku vyřešených příkladů z pravděpodobnosti a statistiky, která umožní poslouchačům předmětu M4122 snadnější přípravu k zápočtovým testům a závěrečným zkouškám. Na základě vlastních zkušeností z tohoto kurzu jsem cítila, že vypracování takové sbírky by přivítali všichni studenti, kteří kurz navštěvovali. V každé kapitole jsem se snažila shrnout základní teorii, která je v souladu s přednáškami Mgr. Jana Koláčka, Ph.D. a která by umožnila studentům snazší řešení zadaných úloh. Příklady jsou navrženy tak, aby odpovídaly úkolům, které jsou řešeny ve cvičeních. I když jsem před zahájením práce měla dojem, že její psaní nebude obtížné, vytvoření takové sbírky nebylo vůbec snadné. Bylo to především z toho důvodu, že jsem se snažila sama vytvořit příklady, které by byly podobné těm, co se počítají na cvičeních, ovšem ne úplně stejné. Jedním z největších problémů bylo formulovat zadání tak, aby nebylo úplně odtržené od reality i s ohledem na konečný výsledek. To mohu připsat své vlastní nezkušenosti při vytváření úkolů. Nejtěžší část práce spočívala ve vymýšlení „teoretických" příkladů, jednak kvůli již zmíněnému záměrnému vynechávání příkladů vypracovaných na přednáškách a cvičeních, jednak je takových příkladů i v literatuře velmi málo, někde nejsou dokonce obsaženy vůbec. Proto může mít čtenář pocit, že těchto příkladů není v práci dostatečné množství a že některé z nich jsou jednodušší. U ostatních příkladů jsem se snažila, aby byly zajímavé a podporovaly kritické myšlení. -85- Přílohy Příloha 1. Distribuční funkce normálního rozdělení. Příloha 2. Distribuční funkce normálního rozdělení - pokračování. Příloha 3. Kvantily normovaného normálního rozdělení. Příloha 4. Kvantily %2 rozdělení. Příloha 5. Kvantily %2 rozdělení - pokračování. Příloha 6. Kvantily Studentova t rozdělení. Příloha 7. Kvantily 7*0,95 Fisherovo-Snedecorova rozdělení. Příloha 8. Kvantily 7*0,95 Fisherovo-Snedecorova rozdělení - pokračování. Příloha 9. Kvantily 7*0,975 Fisherovo-Snedecorova rozdělení. Příloha 10. Kvantily 7*0,975 Fisherovo-Snedecorova rozdělení - pokračování. Příloha 11. Kvantily 7*0,99 Fisherovo-Snedecorova rozdělení. Příloha 12. Kvantily 7*0,99 Fisherovo-Snedecorova rozdělení - pokračování. Příloha 13. Kvantily 7*0,995 Fisherovo-Snedecorova rozdělení. Příloha 14. Kvantily 7*0,995 Fisherovo-Snedecorova rozdělení - pokračování. Přílohy 87 u u 0,00 0,50000 0,40 0,65542 0,30 0,73314 1,20 0:SS493 0,01 0,50399 0,41 0,65910 0,31 0,79103 121 0,33636 0,02 0,50793 0,42 0,66276 0,32 0,79339 1,22 0,S3S77 0,03 0,51197 0,43 0:66640 0,33 0,79673 1>23 0,39065 0,04 0,51595 0,44 0,67003 0,34 0,79955 1,24 0,39251 0,05 0,51994 0,45 0,67364 0,35 0,30234 1^5 0,39435 006 0,52392 0,46 0,67724 0,36 0,30511 1,26 0,39617 0,07 0,52790 0,47 0,63032 0,37 0,S07S5 U7 0,39796 o:os 0,53133 0,43 0,63439 0,3 S 0,31057 US 0,39973 0,09 0,53536 0,49 0,63793 0:S9 0,31327 1,29 050147 Or10 0,53933 0,50 0,69146 0,90 0,31594 no 0,90320 0,11 0,54380 0,51 0,69497 0,91 0,31359 0,90490 0r12 0,54776 0,52 0,69347 0,92 0,32121 1,32 0,90653 0,13 0:55172 0,53 0,70194 0,93 0,32331 1,33 0,90324 0,55567 0,54 0,70540 0,94 0,32639 1J4 0,90933 045 0:55962 0,55 0,70334 0,95 0,32394 U5 0,91149 046 0,56356 0,56 0,71226 0,96 0,33147 1,36 0,91309 047 0,56749 0,57 0,71566 0,97 0,33393 1,37 0,91466 04 S 0,57142 0,53 0,71904 0,93 0,33646 L3S 0,91621 0,19 0:57535 0,59 0,72240 0,99 0,33391 U9 0,91774 0,20 0,57926 0,60 0,72575 1,00 0,34134 1,40 0,91924 0^1 0,53313 0,61 0,72907 1,01 0,34375 1,41 0,92073 0,22 0,58706 0,62 0,73237 1,02 0,34614 1,42 0,92220 0,23 0,59095 0,63 0,73565 1,03 0,34350 1,43 0,92364 0,24 0,59433 0,64 0,73391 1,04 0,35033 1,44 0,92507 0,25 0,59371 0,65 0,74215 1,05 0,35314 1,45 0,92647 0,26 0,60257 0,66 0,74537 1,06 0,35543 1,46 0,92736 0,27 0,60642 0,67 0,74857 1,07 0,35769 1,47 0,92922 0,23 0,61026 0,63 0,75175 1,03 0,35993 1,43 053056 0^9 0,61409 0,69 0,75490 1,09 0,36214 1,49 0,93139 0,30 0,61791 0,70 0,75304 1,10 0,36433 1,50 053319 0,31 0,62172 0,71 0,76115 1,11 0,36650 Ml 0,93443 0,32 0,62552 0,72 0,76424 1,12 0,36364 1,52 053574 0,33 0,62930 0,73 0,76730 1,13 0,37076 1,53 0,93699 0,34 0,63307 0,74 0,77035 0,37236 1,54 053322 0,35 0,63633 0,75 0,77337 1,15 0;S7493 1,55 0,93943 0,36 0,6405 S 0,76 0,77637 1,16 0,37693 1J6 0,94062 0,37 0,64431 0,77 0,77935 1,17 0,37900 1,57 0,94179 0,33 0,64303 0,73 0,73230 1,13 0,33100 US 0,94295 0:39 0:65173 0,79 0,73524 1,19 0:3S29S 1,59 054403 Příloha 1. Distribuční funkce normálního rozdělení. Přílohy 88 u