Řešené příklady ze Statistiky 2 Příklad 1.: Je známo, že roční přírůstek platu manažerů středně velkých firem má normální rozložení se střední hodnotou 12,2% a směrodatnou odchylkou 3,6%. Jaká je pravděpodobnost, že v náhodném výběru rozsahu 9 bude průměrný přírůstek platu nejvýše 10%? Odpověď napište celou větou. Řešení: X ~ N(12,2; 3,62 ), n = 9       0336,09664,0183,1183,1UP 3 6,3 2,1210 3 6,3 2,12M P10MP                  . Pravděpodobnost, že v náhodném výběru rozsahu 9 bude průměrný přírůstek platu nejvýše 10%, je 0,0336. Příklad 2.: Je dána neúplná tabulka analýzy rozptylu jednoduchého třídění. Místo otazníků doplňte chybějící čísla a na hladině významnosti 0,05 testujte hypotézu o shodě středních hodnot. zdroj variability součet čtverců stupně volnosti podíl FA skupiny ? 2 ? ? reziduální 172 ? ? celkový 326 17 - - Řešení: zdroj variability součet čtverců stupně volnosti podíl FA skupiny 154 2 77 6,715 reziduální 172 15 11,467 celkový 326 17 - Protože testová statistika je větší než kvantil F0,95(2,15) = 3,6823, nulovou hypotézu zamítáme na hladině významnosti 0,05. Příklad 3.: U osmi náhodně vybraných firem poskytujících konzultace v oblasti jakosti výroby byly v roce 1993 zjištěny počty zaměstnanců (náhodná veličina X) a roční obraty (náhodná veličina Y, v miliónech Kč), jak je uvedeno v tabulce: Číslo firmy 1 2 3 4 5 6 7 8 X 3 5 5 8 9 11 12 15 Y 0,8 1,2 1,5 1,9 1,8 2,4 2,5 3,1 Předpokládáme, že závislost ročního obratu na počtu zaměstnanců lze popsat regresní přímkou. K dispozici jsou částečné výstupy regresní analýzy ze systému STATISTICA: N=8 Beta Sm.chyba beta B Sm.chyba B Abs.člen X 0,361207 0,121417 0,984798 0,070914 0,181034 0,013036 Efekt Součet čtverců sv Průměr čtverců F Úroveň p Regres. Rezid. Celk. 3,801724 1 3,801724 192,8571 0,000009 0,118276 6 0,019713 3,920000 a) Napište rovnici regresní přímky vyjadřující závislost Y na X. Interpretujte úsek a směrnici regresní přímky. b) Vypočtěte index determinace a interpretujte ho. Řešení: ad a) y = 0,361207 + 0,181034x Pokud firma nebude mít žádné zaměstnance (tzn., že pracují pouze majitelé), bude roční obrat asi 361 000 Kč. Pokud se zvýší počet zaměstnanců o jednoho, vzroste roční obrat asi o 181 000 Kč. ad c) 9698,0 92,3 801724,3 S S ID T R2  Znamená to, že variabilita ročního obratu je z téměř 97% vysvětlena regresní přímkou. Příklad 4.: Časová řada obsahuje údaje o počtu zaměstnanců určité akciové společnosti v letech 1989 – 1996 vždy k 31.12. 1989 1990 1991 1992 1993 1994 1995 1996 622 627 631 635 641 641 632 625 Vypočtěte chronologický průměr této časové řady. Řešení: 9,632 2 625 632641641635631627 2 622 7 1 2 y y 2 y 1n 1 y n 1n 2i i 1                   Příklad 5.: Je dáno pět nezávislých náhodných výběrů o rozsazích 5, 7, 6, 8, 5, přičemž i-tý výběr pochází z rozložení N(μi,σ2 ), i = 1, ..., 5. Byl vypočten celkový součet čtverců ST = 15 a reziduální součet čtverců SE = 3. Na hladině významnosti 0,05 testujte hypotézu o shodě středních hodnot. Řešení: n = 5 + 7 + 6 + 8 + 5 = 31, r = 5, SA = ST – SE = 15 – 3 = 12 7426,2)26,4(F,26 263 412 )rn(S )1r(S F 95,0 E A     Protože F ≥ F0,95(4,26), H0 zamítáme na hladině významnosti 0,05. Příklad 6.: Je známo, že týdenní výdaje domácností na určité potravinářské zboží se řídí normálním rozložením se střední hodnotou 90 Kč a směrodatnou odchylkou 14 Kč. Jaká je pravděpodobnost překročení hranice 100 Kč pro průměrné výdaje pěti náhodně vybraných domácností? Řešení: X ~ N(90; 142 ), n = 5       0548,09452,016,115972,1UP1 5 14 90100 5 14 90M P1100MP                  Hledaná pravděpodobnost je tedy 5,48%. Příklad 7.: V dílně pracuje 15 dělníků, u nichž byl zjištěn počet směn odpracovaných za měsíc (proměnná X) a počet zhotovených výrobků (proměnná Y). X: 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y: 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81 Předpokládáme, že závislost počtu zhotovených výrobků na počtu směn lze popsat regresní přímkou. K dispozici jsou částečné výstupy regresní analýzy ze systému STATISTICA: Výsledky regrese se závislou proměnnou : Y (Smeny.sta) R= ,92718009 R2= ,85966293 Upravené R2= ,84886777 F(1,13)=79,634 p<,00000 Směrod. chyba odhadu : 4,2834 N=15 Beta Sm.chyba beta B Sm.chyba B t(13) Úroveň p Abs.člen X 5,010135 8,875949 0,564462 0,582049 0,927180 0,103900 4,302365 0,482123 8,923795 0,000001 a) Napište rovnici regresní přímky a interpretujte její směrnici. b) Na hladině významnosti 0,01 testujte hypotézu o nevýznamnosti úseku regresní přímky a nevýznamnosti směrnice regresní přímky. c) Najděte regresní odhad počtu zhotovených výrobků pro 16 směn. d) Z kolika procent je variabilita počtu zhotovených výrobků vysvětlena regresní přímkou? Řešení: ad a) Regresní přímka má rovnici y = 5,01 + 4,3x. Když se počet odpracovaných směn zvýší o 1, počet vyrobených výrobků se v průměru zvýší o 4,3. ad b) Na hladině významnosti 0,01 nezamítáme hypotézu, že regresní přímka prochází počátkem a zamítáme hypotézu, že počet výrobků nezávisí na počtu odpracovaných směn. ad c) Predikovaná hodnota počtu výrobků pro 16 směn je 73,85. ad d) Regresní přímka závislosti počtu výrobků na počtu odpracovaných směn vystihuje variabilitu počtu výrobků téměř z 86%. Příklad 8.: Medián počtu výrobků vyrobených za směnu starým strojem je 80. Do provozu byl uveden nový stroj a ve 12 náhodně vybraných dnech byly sledovány počty výrobků za směnu: 75 85 92 80 94 90 91 76 88 82 96 83. Pomocí Wilcoxonova testu testujte na hladině významnosti 0,05 hypotézu, že výkon starého a nového stroje se neliší. Řešení: Na hladině významnosti 0,05 testujeme H0: x0,50 = 80 proti H1: x0,50 ≠ 80. iY 5 5 12 0 14 10 11 4 8 2 16 3 Ri 4,5 4,5 9 10 7 8 3 6 1 11 2 SW + = 4,5 + 9 + 10 + 7 + 8 + 6 + 1 + 11 + 2 = 58,5, SW = 4,5 + 3 = 7,5, testová statistika = min{58,5; 7,5} = 7,5, kritický obor: 10,0W  . Protože testová statistika se realizuje v kritickém oboru, H0 zamítáme na hladině významnosti 0,05. Příklad 9.: Měřením délky deseti válečků byly získány hodnoty (v mm): 5,38 5,36 5,35 5,40 5,41 5,34 5,29 5,43 5,42 5,32. Pro úsporu času máte uveden aritmetický průměr m = 5,37 mm a směrodatnou odchylku s = 0,044 mm. Těchto deset hodnot považujeme za realizace náhodného výběru rozsahu 10 z normálního rozložení N(μ, σ2 ). a) Sestrojte 99% interval spolehlivosti pro neznámou střední hodnotu μ. b) Sestrojte 99% interval spolehlivosti pro neznámou směrodatnou odchylku σ. Řešení: ad a) d = m - n s t1-α/2(n-1) = 5,37 - 10 044,0 t0,995(9) = 5,37 - 10 044,0 3,25 = 5,3248 h = m + n s t1-α/2(n-1) = 5,37 + 10 044,0 t0,995(9) = 5,37 + 10 044,0 3,25 = 5,4152 5,3248 mm < µ < 5,4152 mm s pravděpodobností aspoň 0,99 ad b) 0272,0 589,23 044,03 )9( 044,09 )1n( s)1n( d 995,0 2 2 2/1 2 2           1002,0 735,1 044,03 )9( 044,09 )1n( s)1n( h 005,0 2 2 2/ 2 2           0,0272 mm < σ < 0,1002 mm s pravděpodobností aspoň 0,99. Příklad 10.: Získali jsme náhodný výběr rozsahu 18 z dvourozměrného rozložení, jímž se řídí náhodný vektor (X,Y). Je známo, že náhodné veličiny X a Y jsou ordinálního typu a že součet kvadrátů odchylek pořadí    18 1i 2 ii 502QR . Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny X a Y jsou pořadově nezávislé proti oboustranné alternativě. Řešení: Na hladině významnosti 0,05 testujeme H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny. Vypočteme realizaci testové statistiky:       4819,0 5814 2802 502 11818 6 1QR 1nn 6 1r 2 n 1i 2 ii2S       V tabulkách najdeme kritickou hodnotu: rS,0,95(18) = 0,4716. Protože 0,4819 > 0,4716, nulovou hypotézu zamítáme na hladině významnosti 0,05. Příklad 11.: Je dán náhodný výběr rozsahu 6800 z dvourozměrného diskrétního rozložení, přičemž veličina X nabývá tří variant a veličina Y nabývá čtyř variant. Testová statistika pro test nezávislosti veličin X a Y nabyla hodnoty 1073,5. a) Lze na asymptotické hladině významnosti 0,05 zamítnout hypotézu o nezávislosti veličin X a Y? b) Jaký je Cramérův koeficient a jak ho lze interpretovat? Řešení: ad a)          ,592,12,6,1s1rW 95,0 2 95,0 2 . Protože testová statistika se realizuje v kritickém oboru, nulovou hypotézu zamítáme na asymptotické hladině významnosti 0,05. ad b) 281,0 13600 5,1073 )13(6800 5,1073 )1m(n K V      . Mezi veličinami X a Y existuje jenom slabá závislost. Příklad 12.: Pro náhodný výběr (Xi, Yi) , i = 1, ..., 10 z dvourozměrného normálního rozložení byl vypočten výběrový koeficient korelace –0,9325. Na hladině významnosti 0,01testujte hypotézu o nezávislosti veličin X, Y proti levostranné alternativě. Řešení: Testová statistika   3027,7 9325,01 2109325,0 R1 2nR T 22 12 12        , kritický obor pro levostrannou alternativu      8965,2,8t,2nt,W 99,01   . Protože testová statistika se realizuje v kritickém oboru, nulovou hypotézu zamítáme na hladině významnosti 0,01 ve prospěch levostranné alternativy. Příklad 13.: Jsou dány dva nezávislé náhodné výběry o rozsazích n1 = 12, n2 = 10, první pochází z rozložení N(μ1, σ1 2 ), druhý z rozložení N(μ2, σ2 2 ), kde parametry μ1, μ2, σ1 2 , σ2 2 neznáme. Byly vypočteny realizace výběrových průměrů: m1 = 0,4832, m2 = 0,5769 a výběrových rozptylů: s1 2 = 2,3516, s2 2 = 2,1268. a) Na hladině významnosti 0,1 testujte hypotézu, že neznámé rozptyly σ1 2 a σ2 2 jsou shodné proti oboustranné alternativě. Test proveďte pomocí intervalu spolehlivosti. b) Na hladině významnosti 0,1 testujte hypotézu, že neznámé střední hodnoty μ1 a μ2 jsou shodné proti oboustranné alternativě. Test proveďte pomocí kritického oboru. Řešení: ad a) Testujeme H0: 2 2 2 1   = 1 proti H1: 12 2 2 1    3564,0 1025,3 1268,2/3516,2 )9,11(F 1268,2/3516,2 )1n,1n(F s/s d 95,021/2-1 2 2 2 1     2023,3 8962,2/1 1268,2/3516,2 )11,9(F/1 1268,2/3516,2 )9,11(F 1268,2/3516,2 )1n,1n(F s/s h 95,005,021/2 2 2 2 1     Protože číslo 1 leží v intervalu (0,3564; 3,2023), H0 nezamítáme na hladině významnosti 0,1. ad b) Testujeme H0: μ1 - μ2 = 0 proti H1: μ1 – μ2  0. Vypočteme vážený průměr výběrových rozptylů: 2504,2 20 1268,293516,211 2nn s)1n(s)1n( s 21 2 22 2 112 *       . Dále stanovíme realizaci testové statistiky: 1459,0 10 1 12 1 2504,2 5769,04832,0 n 1 n 1 s cmm t 21 * 21 0        a kritický obor:               ,7247,17247,1, ,20t20t,,2nnt2nnt,W 95,095,0212/1212/1 Protože testová statistika se nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,1. Příklad 14.: Závislost veličiny Y na veličině X je popsána regresní přímkou y = 0,361207 + 0,181034x, která bylo vypočtena na základě dvourozměrného náhodného výběru rozsahu 8. Odhady parametrů regresní přímky jsou zatíženy směrodatnými chybami 0,121417 (pro úsek regresní přímky) a 0,013036 (pro směrnici regresní přímky). Najděte 95% interval spolehlivosti pro úsek a pro směrnici regresní přímky. Vypočtěte relativní chyby těchto intervalových odhadů. Pomocí vypočtených intervalů spolehlivosti testuje na hladině významnosti hypotézy o nevýznamnosti úseku a směrnice regresní přímky. Řešení: 95% interval spolehlivosti pro β0:   0641,0121417,04469,2361207,0s6tbd 0b975,00    6583,0121417,04469,2361207,0s6tbh 0b975,00  Znamená to, že 0,0641 < β0 < 0,6583 s pravděpodobností aspoň 0,95. Relativní chyba odhadu β0:   %25,82%100 361207,0 2/0641,06583,0   Jelikož 95% interval spolehlivosti pro β0 neobsahuje 0, na hladině významnosti 0,05 zamítáme hypotézu, že úsek regresní přímky je nevýznamný. 95% interval spolehlivosti pro β1:   1491,0013036,04469,2181034,0s6tbd 1b975,01    2129,0013036,04469,2181034,0s6tbh 1b975,01  Znamená to, že 0,1491 < β1 < 0,2129 s pravděpodobností 0,95. Relativní chyba odhadu β1:   %62,17%100 181034,0 2/1491,02129,0   . Jelikož 95% interval spolehlivosti pro β1 neobsahuje 0, na hladině významnosti 0,05 zamítáme hypotézu, že směrnice regresní přímky je nevýznamná. Příklad 15.: Při křížení žlutě a červeně kvetoucích rostlin získal genetik 100 rostlin, z nichž 84 kvetlo žlutě a 16 červeně. Podle genetického modelu by poměr žlutě a červeně kvetoucích rostlin měl být 3 : 1. Na hladině významnosti 0,05 testujte hypotézu, že výsledek experimentu není v rozporu s teoretickým očekáváním. Uveďte hodnotu testové statistiky, kritický obor a rozhodnutí o nulové hypotéze. Řešení: Hodnota testové statistiky     32,4 25 2516 75 7584 K 22      , nulovou hypotézu zamítáme na hladině významnosti 0,05, protože testová statistika se realizuje v kritickém oboru     ;841,3,1W 95,0 2 Příklad 16.: Bylo náhodně vybráno 100 řidičů, z nichž bylo 20 žen a 80 mužů. Řidiči měli za úkol projet se svými vozidly náročnou uzavřenou trať. 15 žen a 45 mužů projelo trať bez chyby. Na asymptotické hladině významnosti 0,05 testujte pomocí asymptotického intervalu spolehlivosti pro logaritmus podílu šancí hypotézu, že bezchybné projetí trati nezávisí na pohlaví řidiče. Řešení: Nejprve sestavíme čtyřpolní kontingenční tabulku simultánních absolutních četností: bezchybné projetí trati pohlaví respondenta nj. muž žena ano 45 15 60 ne 35 5 40 n.k 80 20 100 Vypočítáme podíl šancí trati na bezchybné projetí trati: 4286,0 3515 545 bc ad OR     . Znamená to, že u mužů je 0,4286 x menší šance na bezchybné projetí trati než u žen. (Nebo též 3,2 545 3515 OR     , tj. u žen je 2,3x větší šance na bezchybné projetí trati než u mužů.) Dále provedeme výpočty pro stanovení intervalu spolehlivosti. 96,1u,5634,0 5 1 35 1 15 1 45 1 d 1 c 1 b 1 a 1 -0,8473,ORln 0,975  257,096,1298,039468,0h,9516,196,15634,08473,0d  Znamená to, že s pravděpodobností přibližně 95% se logaritmus podílu šancí nachází v intervalu (-1,9516; 0,257) Protože interval (-1,9516; 0,257) obsahuje číslo 0, na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti bezchybného projetí trati na pohlaví řidiče.