Kapitola 4.: Úlohy o dvou nezávislých náhodných výběrech z normálních rozložení Cíl kapitoly Po prostudování této kapitoly budete - znát vlastnosti pivotových statistik odvozených ze dvou nezávislých náhodných výběrů z normálních rozložení a budete je umět použít pro řešení konkrétních úloh - umět sestrojit intervaly spolehlivosti pro rozdíl středních hodnot a podíl rozptylů dvou normálních rozložení - provádět testy hypotéz o rozdílu středních hodnot a podílu rozptylů dvou normálních rozložení Časová zátěž Na prostudování této kapitoly a splnění úkolů s ní spojených budete potřebovat asi 9 hodin studia. 4.1. Motivace V tomto případě je naším úkolem porovnat střední hodnoty či rozptyly dvou normálních rozložení na základě znalosti dvou nezávislých náhodných výběrů pořízených z těchto rozložení. Zpravidla konstruujeme intervaly spolehlivosti pro rozdíl středních hodnot nebo podíl rozptylů respektive hodnotíme shodu středních hodnot pomocí dvouvýběrového t-testu či dvouvýběrového z-testu a shodu rozptylů pomocí F-testu. 4.2. Rozložení statistik odvozených z výběrových průměru a výběrových rozptylů Nechť 1n111 X,,X K je náhodný výběr z rozložení N(1, 1 2 ) a 2n221 X,,X K je na něm nezávislý náhodný výběr z rozložení N(2, 2 2 ), přičemž n1 2 a n2 2. Označme M1, M2 výběrové průměry a S1 2 , S2 2 výběrové rozptyly. Pak platí: a) Statistiky M1 ­ M2 a 2nn S)1n(S)1n( S 21 2 22 2 112 * -+ -+= jsou stochasticky nezávislé. b) M1 ­ M2 ~ N(1 ­ 2, 2 2 2 1 2 1 nn + ), tedy ( ) ( ) 2 2 2 1 2 1 2121 nn MM U + --- = ~ N(0, 1). (Pivotová statistika U slouží k řešení úloh o 1 - 2, když 1 2 a 2 2 známe.) c) Jestliže 1 2 = 2 2 =: 2 , pak 2 2 *21 S)2nn( K -+ = ~ 2 (n1 + n2 - 2). (Pivotová statistika K slouží k řešení úloh o neznámém společném rozptylu 2 .) d) Jestliže 1 2 = 2 2 =: 2 , pak ( ) ( ) 21 * 2121 n 1 n 1 S MM T + --- = ~ t(n1 + n2 ­ 2). (Pivotová statistika T slouží k řešení úloh o 1 - 2, když 1 2 a 2 2 neznáme, ale víme, že jsou shodné.) e) 2 2 2 1 2 2 2 1 / S/S F = ~ F(n1 ­ 1, n2 ­ 1). (Pivotová statistika F slouží k řešení úloh o 1 2 / 2 2 .) 4.2.1. Příklad Nechť jsou dány dva nezávislé náhodné výběry, první pochází z rozložení N(2, 3/2) a má rozsah 10, druhý pochází z rozložení N(3, 4) a má rozsah 5. Jaká je pravděpodobnost, že výběrový průměr 1. výběru bude menší než výběrový průměr 2. výběru? Řešení: Statistika M1 - M2 se podle 4.2. (b) řídí rozložením N(1 ­ 2, 2 2 2 1 2 1 nn + ), kde 1 ­ 2 = 2 ­ 3 = -1, 95,0 5 4 10 5,1 nn 2 2 2 1 2 1 =+= + , tj. M1 - M2 ~ N(-1;0,95) Tedy statistika ( ) ( ) 95,0 1MM nn MM U 21 2 2 2 1 2 1 2121 +- = + --- = Dostáváme ( ) ( ) ( ) 8475,0026,1 95,0 10 UP0MMPMMP 2121 == + <=<-=< . S pravděpodobností přibližně 84,8% je výběrový průměr 1. výběru menší než výběrový průměr 2. výběru. Řešení pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné a jednom případu. Dvakrát klikneme na název proměnné Prom1. Do Dlouhého jména této proměnné napíšeme = INormal(0;-1;sqrt(0,95)). V proměnné Prom1 se objeví hodnota 0,847549. 4.3. Intervaly spolehlivosti pro parametrické funkce 1 - 2 , 1 2 / 2 2 Budeme zabývat speciálními případy, kdy za parametrickou funkci h( ) považujeme rozdíl středních hodnot 1- 2 nebo podíl rozptylů 1 2 / 2 2 dvou normálních rozložení. Při konstrukci intervalu spolehlivosti pro rozdíl středních hodnot buď rozptyly známe nebo neznáme a víme, že jsou shodné či nikoliv. Shodu rozptylů ověřujeme pomocí F-testu. Uvedeme jen přehled vzorců pro meze 100(1-)% empirických intervalů spolehlivosti pro parametrické funkce 1 - 2 , 1 2 / 2 2 . 4.3.1. Přehled vzorců a) Interval spolehlivosti pro 1 - 2, když 1 2 , 2 2 známe (využití pivotové statistiky ( ) ( ) 2 2 2 1 2 1 2121 nn MM U + --- = ~ N(0, 1)) Oboustranný: (d, h) = (m1 ­ m2 ­ 2 2 2 1 2 1 nn + u1-/2, m1 ­ m2 + 2 2 2 1 2 1 nn + u1-/2) Levostranný: (d, ) = (m1 ­ m2 ­ 2 2 2 1 2 1 nn + u1-, ) Pravostranný: (-, h) = (-,m1 ­ m2 + 2 2 2 1 2 1 nn + u1-) b) Interval spolehlivosti pro 1 - 2, když 1 2 , 2 2 neznáme, ale víme, že jsou shodné (využití pivotové statistiky ( ) ( ) 21 * 2121 n 1 n 1 S MM T + --- = ~ t(n1 + n2 ­ 2)) Oboustranný: (d, h) = (m1 ­ m2 ­ 21 * n 1 n 1 s + t1-/2(n1+n2-2), m1 ­ m2 + 21 * n 1 n 1 s + t1-/2(n1+n2-2)) Levostranný: (d, ) = (m1 ­ m2 ­ 21 * n 1 n 1 s + t1-(n1+n2-2), ) Pravostranný: (-, h) = (-, m1 ­ m2 + 21 * n 1 n 1 s + t1-(n1+n2-2)) c) Interval spolehlivosti pro společný neznámý rozptyl 2 (využití pivotové statistiky 2 2 *21 S)2nn( K -+ = ~ 2 (n1 + n2 - 2)) Oboustranný: (d, h) = -+ -+ -+ -+ - )2nn( s)2nn( , )2nn( s)2nn( 212/ 2 2 *21 212/1 2 2 *21 Levostranný: (d, ) = -+ -+ - , )2nn( s)2nn( 211 2 2 *21 Pravostranný: (-, h) = -+ -+ - )2nn( s)2nn( , 21 2 2 *21 d) Interval spolehlivosti pro podíl rozptylů 2 2 2 1 (využití pivotové statistiky 2 2 2 1 2 2 2 1 / S/S F = ~ F(n1 ­ 1, n2 ­ 1)) Oboustranný: (d, h) = ---- )1n,1n(F s/s , )1n,1n(F s/s 21/2 2 2 2 1 21/2-1 2 2 2 1 Levostranný: (d, ) = -- , )1n,1n(F s/s 21-1 2 2 2 1 Pravostranný: (-, h) = -- - )1n,1n(F s/s , 21 2 2 2 1 Upozornění: Není-li ve 4.3.1. (b) splněn předpoklad o shodě rozptylů, lze sestrojit aspoň přibližný 100(1-)% interval spolehlivosti pro 1 - 2. V tomto případě má statistika T přibližně rozložení t( ), kde počet stupňů volnosti ( ) ( ) ( ) 1n n/s 1n n/s n/sn/s 2 2 2 2 2 1 2 1 2 1 2 2 2 21 2 1 - + - + = . Není-li celé číslo, použijeme v tabulkách kvantilů Studentova rozložení lineární interpolaci. 4.3.2. Příklad Ve dvou nádržích se zkoumal obsah chlóru (v g/l). Z první nádrže bylo odebráno 25 vzorků, z druhé nádrže 10 vzorků. Byly vypočteny realizace výběrových průměrů a rozptylů: m1 = 34,48, m2 = 35,59, s1 2 = 1,7482, s2 2 = 1,7121. Hodnoty zjištěné z odebraných vzorků považujeme za realizace dvou nezávislých náhodných výběrů z rozložení N(1, 2 ) a N(2, 2 ). Sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot 1 - 2. Řešení: Úloha vede na vzorec 4.3.1. (b). Vypočteme vážený průměr výběrových rozptylů a najdeme odpovídající kvantily Studentova rozložení: 2 *s = 7384,1 33 7121,197482,124 2nn s)1n(s)1n( 21 2 22 2 11 = + = -+ -+, t0,975(33) = 2,035. Dosadíme do vzorců pro dolní a horní mez intervalu spolehlivosti: d = m1­m2­ 21 * n 1 n 1 s + t1-/2(n1+n2-2) = 34,48­35,59 - 035,2 10 1 25 1 7384,1 + = -2,114 h = m1­m2+ 21 * n 1 n 1 s + t1-/2(n1+n2-2) = 34,48­35,59 + 035,2 10 1 25 1 7384,1 + = -0,106 Zjistili jsme, že -2,114 g/l < 1 - 2 < -0,106 g/l s pravděpodobností aspoň 0,95. Řešení pomocí systému STATISTICA: Otevřeme nový datový soubor o jednom případu a dvou proměnných, které nazveme dm a hm. Do Dlouhého jména proměnné dm napíšeme =34,48-35,59-sqrt((24*1,7482+9*1,7121)/33)*sqrt(1/25+1/10)*VStudent(0,975;33) Dostaneme výsledek -2,11368. (Přitom funkce VStudent(x;sv) poskytuje x% kvantil Studentova rozložení s počtem stupňů volnosti sv.) Do Dlouhého jména proměnné hm napíšeme =34,48-35,59+sqrt((24*1,7482+9*1,7121)/33)*sqrt(1/25+1/10)*VStudent(0,975;33) Dostaneme výsledek -0,10632. 4.3.3. Příklad V příkladu 4.3.2. nyní předpokládáme, že dané dva náhodné výběry pocházejí z rozložení N(1, 1 2 ) a N(2, 2 2 ). Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů. Řešení: Úloha vede na vzorec 4.3.1. (d). d = 28,0 6142,3 7121,1/7482,1 )9,24(F 7121,1/7482,1 )1n,1n(F s/s 975,021/2-1 2 2 2 1 === -- h = 76,2 7027,2/1 7121,1/7482,1 )24,9(F/1 7121,1/7482,1 )9,24(F 7121,1/7482,1 )1n,1n(F s/s 975,0025,021/2 2 2 2 1 ==== -- Dostáváme, že 0,28 < 2 2 2 1 < 2,76 s pravděpodobností aspoň 0,95. Řešení pomocí systému STATISTICA: Otevřeme nový datový soubor o jednom případu a dvou proměnných, které nazveme dm a hm. Do Dlouhého jména proměnné dm napíšeme =(1,7482/1,7121)/VF(0,975;24;9) Dostaneme výsledek 0,282521. (Přitom funkce VF(x;ný;omega) poskytuje x% kvantil Fisherova ­ Snedecorova rozložení s počtem stupňů volnosti čitatele ný a jmenovatele omega.) Do Dlouhého jména proměnné hm napíšeme =(1,7482/1,7121)/VF(0,025;24;9) Dostaneme výsledek 2,759698. 4.4. Testování hypotéz o parametrických funkcích 1 - 2 , 1 2 / 2 2 4.4.1. Přehled testů a) Nechť 1n111 X,,X K je náhodný výběr z rozložení N(1, 1 2 ) a 2n221 X,,X K je na něm nezávislý náhodný výběr z rozložení N(2, 2 2 ), přičemž n1 2, n2 2 a 1 2 , 2 2 známe. Nechť c je konstanta. Test H0: 1 ­ 2 = c proti H1: 1 ­ 2 c se nazývá dvouvýběrový z-test. b) Nechť 1n11 1 X,,X K je náhodný výběr z rozložení N(1, 2 ) a 2n221 X,,X K je na něm nezávislý náhodný výběr rozložení N(2, 2 ), přičemž n1 2 a n2 2 a 2 neznáme. Nechť c je konstanta. Test H0: 1 ­ 2 = c proti H1: 1 ­ 2 c se nazývá dvouvýběrový t-test. c) Nechť 1n11 1 X,,X K je náhodný výběr z rozložení N(1, 1 2 ) a 2n221 X,,X K je na něm nezávislý náhodný výběr rozložení N(2, 2 2 ), přičemž n1 2 a n2 2. Test H0: 2 2 2 1 = 1 proti H1: 2 2 2 1 1 se nazývá F-test. 4.4.2. Provedení testů o parametrických funkcích 1 - 2 , 1 2 / 2 2 pomocí kritického oboru a) Provedení dvouvýběrového z-testu Testujeme H0: 1 ­ 2 = c proti H1: 1 ­ 2 c (resp. H1: 1 ­ 2 < c resp. H1: 1 ­ 2 > c ). Realizace testového kritéria: ( ) 2 2 2 1 2 1 21 0 nn cmm t + -- = . Kritický obor pro oboustranný test: )( --= -- ,uu,W 2/12/1 . Kritický obor pro levostranný test: ( ---= 1u,W . Kritický obor pro pravostranný test: )= - ,uW 1 . H0 zamítáme na hladině významnosti , jestliže Wt0 . b) Provedení dvouvýběrového t-testu Testujeme H0: 1 ­ 2 = c proti H1: 1 ­ 2 c (resp. H1: 1 ­ 2 < c resp. H1: 1 ­ 2 > c ). Realizace testového kritéria: ( ) 21 * 21 0 n 1 n 1 s cmm t + -- = . Kritický obor pro oboustranný test: ( ) ( ) )( -+-+--= -- ,2nnt2nnt,W 212/1212/1 . Kritický obor pro levostranný test: ( )( 2nnt,W 211 -+--= - . Kritický obor pro pravostranný test: ( ) )-+= - ,2nntW 211 . H0 zamítáme na hladině významnosti , jestliže Wt0 . c) Provedení F-testu Testujeme H0: 2 2 2 1 = 1 proti H1: 2 2 2 1 1 (resp. H1: 2 2 2 1 < 1 resp. H1: 2 2 2 1 > 1). Realizace testového kritéria: 2 2 2 1 0 s s t = . Kritický obor pro oboustranný test: ( ) ( ) )( ----= - ,1n,1nF1n,1nF,0W 212/1212/ . Kritický obor pro levostranný test: ( )( 1n,1nF,0W 21 --= Kritický obor pro pravostranný test: ( ) )--= - ,1n,1nFW 211 H0 zamítáme na hladině významnosti , jestliže Wt0 . Podobně jako v kapitole 3 musíme ověřit normalitu dat. Pokud výběry menších rozsahů (pod 30) vykazují výraznější odchylky od normality, doporučuje se místo dvouvýběrového ttestu použít neparametrický dvouvýběrový Wilcoxonů test (viz kapitola 6). Před provedením dvouvýběrového t-testu bychom se měli F-testem přesvědčit o shodě rozptylů. Zamítne-li F-test na dané hladině významnosti hypotézu o shodě rozptylů, musíme pro testování hypotézy o shodě středních hodnot použít speciální variantu dvouvýběrového ttestu, tzv. dvouvýběrový t-test se separovanými odhady rozptylů. Musíme si být vědomi rozdílu mezi dvouvýběrovým t-testem a párovým t-testem. Dvouvýběrový t-test je založen na předpokladu nezávislosti daných dvou výběrů. Pokud v situaci, která vede na párový test, použijeme dvouvýběrový t-test, můžeme dostat nepravdivé výsledky. Naopak, mají-li dva nezávislé výběry stejný rozsah a my použijeme párový t-test místo dvouvýběrového t-testu, nedopustíme se hrubé chyby, pouze méně efektivně využijeme informaci obsaženou v datech. 4.4.3. Příklad V restauraci "U bílého koníčka" měřili ve 20 případech čas obsluhy zákazníka. Výsledky v minutách: 6,8,11,4,7,6,10,6,9,8,5,12,13,10,9,8,7,11,10,5. V restauraci "Zlatý lev" bylo dané pozorování uskutečněno v 15 případech s těmito výsledky: 9,11,10,7,6,4,8,13,5,15,8,5,6,8,7. Za předpokladu, že uvedené hodnoty pocházejí ze dvou normálních rozložení, na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty doby obsluhy jsou v obou restauracích stejné. Řešení: Na hladině významnosti 0,05 testujeme nulovou hypotézu H0: 1 - 2 = 0 proti oboustranné alternativě H1: 1 ­ 2 0. Je to úloha na dvouvýběrový t-test. Před provedením tohoto testu je však nutné pomocí F-testu shodu rozptylů. Na hladině významnosti 0,05 tedy testujeme H0: 2 2 2 1 = 1 proti H1: 2 2 2 1 1. Podle 4.4.2 (c) nulovou hypotézu zamítáme na hladině významnosti , jestliže W s s t 2 2 2 1 0 = , kde ( ) ( ) )( ----= - ,1n,1nF1n,1nF,0W 212/1212/ . Vypočteme m1 = 8,25, m2 = 8,13, s1 2 = 6,307, s2 2 = 9,41. V našem případě 6702,0 41,9 307,6 s s 2 2 2 1 == . V tabulkách najdeme F/2(n1 ­ 1, n2 - 1) = F0,025(19,14) = ( ) 3778,0 6469,2 1 19,14F 1 975,0 == , F1-/2(n1 ­ 1, n2 - 1) = F0,975(19,14) = 2,8607. Protože 0,6702 nepatří do kritického oboru ) ;8607,23778,0;0 , hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05. Nyní se vrátíme k dvouvýběrovému t-testu. a) Testování pomocí kritického oboru: Podle 4.4.2 (b) nulovou hypotézu zamítáme na hladině významnosti , když realizace testové statistiky W n 1 n 1 s cmm t 21 * 21 0 + -- = , kde ( ) ( ) )( -+-+--= -- ,2nnt2nnt,W 212/1212/1 . Nejprvě vypočítáme 623,7 33 41,91413,819 2nn s)1n(s)1n( s 21 2 22 2 112 * = + = -+ -+= a dále 124,0 15 1 20 1 623,7 13,825,8 t0 = + = . V tabulkách najdeme t0,975(33) = 1,96, tedy kritický obor )( --= ,96,196,1,W . Protože Wt0 , nulovou hypotézu nezamítáme na hladině významnosti 0,05. b) Testování pomocí intervalu spolehlivosti: Podle 4.3.1. (b) máme (d, h) = (m1 ­ m2 ­ s* 21 n 1 n 1 + t1-/2(n1+n2-2), m1 ­ m2 +* 21 n 1 n 1 + t1-/2(n1+n2-2)). V tabulkách najdeme t0,975(33) = 1,96. d = 8,25 ­ 8,13 96,1 15 1 20 1 623,7 +- = -1,73, h = 8,25 ­ 8,13 96,1 15 1 20 1 623,7 ++ = 1,97. Protože ( )97,1;73,10 - , nulovou hypotézu nezamítáme na hladině významnosti 0,05. c) Testování pomocí p-hodnoty: Podle 1.4.5 (c) dostáváme p = 2 min{P(T0 t0), P(T0 t0)} = = 2 min{P(T0 0,124), P(T0 0,124)} = 2 min{(0,124), 1 - (0,124)}, kde (x) je distribuční funkce Studentova rozložení s počtem stupňů volnosti 33. Pomocí statistického software získáme (0,124) = 0,549, tedy p = 2.(1 ­ 0,549) = 0,902. Protože 0,902 > 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Řešení pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných a 35 případech. První proměnnou nazveme OBSLUHA, druhou ID. Do proměnné OBSLUHA napíšeme nejprve doby obsluhy v první restauraci a poté doby obsluhy ve druhé restauraci. Do proměnné ID, která slouží k rozlišení první a druhé restaurace, napíšeme 20 krát jedničku a 15 krát dvojku. Pomocí NP-grafu a S-W testu ověříme normalitu dat v obou skupinách. Grafy ­ 2D Grafy Normální pravděpodobnostní grafy ­ zaškrtneme S-W test, Proměnné OBSLUHA, OK, Kategorizovaný ­ Kategorie X, zaškrtneme Zapnuto, Změnit proměnnou ­ ID, OK. Dostaneme graf Normální p-graf OBSLUHA (restaurace 2v*35c) ID: 1 2 4 6 8 10 12 14 16 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Očekávanánormálníhodnota ID: 2 2 4 6 8 10 12 14 16 ID: 1 OBSLUHA: SW-W = 0,9715; p = 0,7871 ID: 2 OBSLUHA: SW-W = 0,9345; p = 0,3185 V obou případech se tečky odchylují od přímky jenom málo. Rovněž p-hodnoty S-W testu jsou v obou případech větší než 0,05, tedy hypotézy o normalitě nezamítáme na hladině významnosti 0,05. Nyní provedeme dvouvýběrový t-test současně s testem o shodě rozptylů: Statistika ­ Základní statistiky a tabulky ­ t-test, nezávislé, dle skupin ­ OK, Proměnné Závislé proměnné OBSLUHA, Grupovací proměnná ID ­ OK. Po kliknutí na tlačítko Souhrn dostaneme tabulku t-testy; grupováno: ID (restaurace) Skup. 1: 1 Skup. 2: 2 Proměnná Průměr 1 Průměr 2 t sv p Poč.plat 1 Poč.plat. 2 Sm.odch. 1 Sm.odch. 2 F-poměr rozptyly p rozptyly OBSLUHA 8,250000 8,133333 0,123730 33 0,902279 20 15 2,510504 3,067495 1,492952 0,410440 Vidíme, že testová statistika pro test shody rozptylů se realizuje hodnotou 1,492952 (je to převrácená hodnota k číslu 0,6702, které jsme vypočítali při ručním postupu), odpovídající phodnota je 0,41044, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. (Upozornění: v případě zamítnutí hypotézy o shodě rozptylů je zapotřebí v tabulce ttestu pro nezávislé vzorky dle skupin zaškrtnout volbu Test se samostatnými odhady rozptylu.) Dále z tabulky plyne, že testová statistika pro test shody středních hodnot se realizuje hodnotou 0,12373, počet stupňů volnosti je 33, odpovídající p-hodnota 0,902279, tedy hypotézu o shodě středních hodnot nezamítáme na hladině významnosti 0,05. Znamená to, že s rizikem omylu nejvýše 5 % se neprokázal rozdíl ve středních hodnotách dob obsluhy v restauracích "U bílého koníčka" a ,,Zlatý lev". Tabulku ještě doplníme krabicovými diagramy. Na záložce Detaily zaškrtneme krabicový graf a vybereme volbu Průměr/SmOdch/1,96*SmOdch. Krabicový graf : OBSLUHA Průměr PrůměrSmOdch Průměr1,96*SmOdch 1 2 ID 0 2 4 6 8 10 12 14 16 OBSLUHA Z grafu je vidět, že průměrná doba obsluhy v první restauraci je nepatrně delší a má menší variabilitu než ve druhé restauraci. Extrémní ani odlehlé hodnoty se zde nevyskytují. Shrnutí V této kapitole jsme porovnávali střední hodnoty či rozptyly dvou normálních rozložení na základě znalosti dvou nezávislých náhodných výběrů pořízených z těchto rozložení. Vzorce pro výpočet mezí 100(1-)% empirických intervalů spolehlivosti pro parametrické funkce 21 - či 2 2 2 1 jsou uvedené v 4.3.1. Meze lze počítat též pomocí systému STATISTICA, jak je uvedeno v příkladech 4.3.2. a 4.3.3. Testování hypotéz o rozdílu středních hodnot a podílu rozptylu je popsáno ve 4.4. včetně způsobu, jak při těchto testech využít systém STATISTICA. Jedná se o dvouvýběrový z-test, dvouvýběrový t-test a F-test. Provedení dvouvýběrového t-testu a F-testu v systému STATISTICA je popsáno v příkladu 4.4.3. Kontrolní otázky 1. Které pivotové statistiky používáme při řešení úloh o rozdílu středních hodnot a podílu rozptylů dvou normálních rozložení? 2. Jaké meze má 100(1-)% empirický interval spolehlivosti pro podíl směrodatných odchylek dvou normálních rozložení? 3. V čem spočívá rozdíl mezi dvouvýběrovým z-testem a dvouvýběrovým t-testem? 4. V jakých situacích používáme dvouvýběrový t-test a v jakých párový t-test? 5. K čemu slouží F-test? Autokorekční test 1. Na základě znalosti dvou nezávislých náhodných výběrů o rozsazích n1 a n2 ze dvou normálních rozložení se shodným rozptylem máme sestrojit interval spolehlivosti pro rozdíl středních hodnot. Použijeme pivotovou statistiku, která se řídí a) standardizovaným normálním rozložením b) Fisherovým ­ Snedecorovým rozložením F(n1 ­ 1, n2 ­ 1) c) Studentovým rozložením t(n1 + n2 ­ 1) 2. Na základě znalosti dvou nezávislých náhodných výběrů o rozsazích n1 a n2 ze dvou normálních rozložení s neznámými středními hodnotami máme sestrojit interval spolehlivosti pro podíl rozptylů. Použijeme pivotovou statistiku, která se řídí a) standardizovaným normálním rozložením b) Fisherovým ­ Snedecorovým rozložením F(n1 ­ 1, n2 ­ 1) c) Studentovým rozložením t(n1 + n2 ­ 1) 3. Testujeme-li hypotézu o shodě středních hodnot dvou normálních rozložení se shodným, ale neznámým rozptylem na základě znalosti dvou nezávislých náhodných výběrů, použijeme a) dvouvýběrový t-test b) dvouvýběrový z-test c) F-test 4. Testujeme-li hypotézu o shodě rozptylů dvou normálních rozložení na základě znalosti dvou nezávislých náhodných výběrů, použijeme a) dvouvýběrový t-test b) dvouvýběrový z-test c) F-test Správné odpovědi: 1c) 2b) 3a) 4c) Příklady 1. Bylo vylosováno 11 stejně starých selat téhož plemene. Šesti z nich byla předepsána výkrmná dieta č. 1 a zbylým pěti výkrmná dieta č. 2. Průměrné denní přírůstky v Dg za dobu půl roku jsou následující: dieta č. 1: 62, 54, 55, 60, 53, 58 dieta č. 2: 52, 56, 49, 50, 51. Zjištěné hodnoty považujeme za realizace dvou nezávislých náhodných výběrů pocházejících z rozložení N(1, 1 2 ) a N(2, 2 2 ). Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů a 95% empirický interval spolehlivosti pro rozdíl středních hodnot 1 - 2. Výsledek: 0,1872 Dg2 < 2 2 2 1 < 12,9541 Dg2 s pravděpodobností aspoň 0,95. 0,99 Dg < 1 - 2 < 9,81 Dg s pravděpodobností aspoň 0,95. 2. Pro údaje z příkladu 1. testujte na hladině významnosti 0,05 hypotézu, že obě výkrmné diety mají stejný vliv na hmotnostní přírůstky selat. Výsledek: Testujeme hypotézu H0: 1 - 2 = 0 proti H1: 1 - 2 0 1. způsob ­ pomocí intervalu spolehlivosti. 95% empirický interval spolehlivosti pro 1 - 2 je interval (0,99; 9,81). Neobsahuje nulu, proto H0 zamítáme na hladině významnosti 0,05. 2. způsob ­ pomocí kritického oboru. Protože testové kritérium se realizuje hodnotou 2,771, která patří do kritického oboru ( )-- ;2622,22622,2; , H0 zamítáme na hladině významnosti 0,05. 3. Máme k dispozici realizace dvou nezávislých náhodných výběrů z rozložení N(1, 2 ) a N(2, 2 ) o rozsazích n1 = 10, n2 = 15. Výběrové průměry se realizovaly hodnotami m1 = 120,56, m2 = 124,13, výběrové rozptyly hodnotami s1 2 = 9,14, s2 2 = 8,95. Lze na základě těchto výsledků zamítnout na hladině významnosti 0,1 nulovou hypotézu H0: 1 - 2 = 0 ve prospěch oboustranné alternativy H1: 1 - 2 0? Výsledek: Nulovou hypotézu zamítáme na hladině významnosti 0,1. 4. Výrobce limonád chtěl zjistit, zda změna technologie výroby se projeví v prodeji limonád. Proto sledoval po 14 náhodně vybraných dnů před zavedením nových limonád tržby v určitém regionu a zjistil, že za den utržil v průměru 39 600 Kč se směrodatnou odchylkou 5 060 Kč. Po zavedení nových limonád prověřil stejným způsobem tržby v 11 náhodně vybraných dnech v témž regionu a zjistil průměrný příjem 41 200 Kč se směrodatnou odchylkou 4 310 Kč. Předpokládejte, že tržby za starý typ limonád se řídí rozložením N(1, 1 2 ) a tržby za nový typ limonád se řídí rozložením N(2, 2 2 ). a) Na hladině významnosti 0,05 testujte hypotézu H0: 2 2 2 1 = 1 proti H1: 2 2 2 1 1. b) Na hladině významnosti 0,05 testujte hypotézu H0: 1 ­ 2 = 0 proti H1: 1 ­ 2 0. Výsledek: ad a) Úloha vede na F-test. Vypočteme realizaci testového kritéria: ,3783,1 4310 5060 s s 2 2 2 2 2 1 == dále najdeme příslušné kvantily: ( ) ( ) ( ) ( ) 5832,310,13F1n,1nF,3077,010,13F1n,1nF 975,021/21025,021/2 ==--==-- - . Protože testové kritérium 2 2 2 1 s s = 1,3783 se nerealizuje v kritickém oboru W = )( ;5832,30,3077;0 , nelze na hladině významnosti 0,05 zamítnout hypotézu o shodě rozptylů. ad b) Úloha vede na dvouvýběrový t-test. Protože jsme na hladině významnosti 0,05 nezamítli hypotézu o shodě rozptylů, můžeme rozptyly 1 2 , 2 2 považovat za shodné a za jejich odhad vezmeme vážený průměr výběrových rozptylů 217,22548165 23 431010506013 s 22 2 * = + = . Vypočteme realizaci testového kritéria: 0687,2)23(t)2nn(t,8363,0 11 1 14 1 217,22548165 4120039600 n 1 n 1 s cmm 975,021/2-1 21 * 21 ==-+-= + - = + -- Protože testové kritérium -0,8363 se nerealizuje v kritickém oboru W = )( - ;0687,22,0687-; , na hladině významnosti 0,05 nelze zamítnout hypotézu o shodě středních hodnot.