Parametrické úlohy o dvou nezávislých náhodných výběrech z normálních rozložení Motivace: Máme-li k dispozici dva nezávislé náhodné výběry z normálních rozložení, je naším úkolem porovnat střední hodnoty či rozptyly těchto rozložení. Zpravidla konstruujeme intervaly spolehlivosti pro rozdíl středních hodnot respektive hodnotíme shodu středních hodnot pomocí dvouvýběrového t-testu či dvouvýběrového z-testu a shodu rozptylů pomocí F-testu. Rozložení statistik odvozených z výběrových průměrů a výběrových rozptylů normálních rozložení Předpokládáme, že 1n111 X,,X K je náhodný výběr z rozložení N(µ1, σ1 2 ), 2n221 X,,X K je náhodný výběr z rozložení N(µ2, σ2 2 ), přičemž n1 ≥ 2 a n2 ≥ 2 a oba výběry jsou stochasticky nezávislé. Označme M1, M2 výběrové průměry, S1 2 , S2 2 výběrové rozptyly a 2nn S)1n(S)1n( S 21 2 22 2 112 * −+ −+− = vážený průměr výběrových rozptylů. Pak platí: a) Statistiky M1 – M2 a 2 *S jsou stochasticky nezávislé. b) U = ( ) ( ) 2 2 2 1 2 1 2121 nn MM σ + σ µ−µ−− ~ N(0, 1). (Pivotová statistika U slouží k řešení úloh o µ1 – µ2, když σ1 2 a σ2 2 známe.) c) Jestliže σ1 2 = σ2 2 =: σ2 , pak K = 2 2 *21 S)2nn( σ −+ ~ χ2 (n1 + n2 – 2). (Pivotová statistika K slouží k řešení úloh o neznámém společném rozptylu σ2 .) d) Jestliže σ1 2 = σ2 2 =: σ2 , pak T = ( ) ( ) 21 * 2121 n 1 n 1 S MM + µ−µ−− ~ t(n1 + n2 – 2). (Pivotová statistika T slouží k řešení úloh o µ1 – µ2, když σ1 2 a σ2 2 neznáme, ale víme, že jsou shodné.) e) F = 2 2 2 1 2 2 2 1 / S/S σσ ~ F(n1 – 1, n2 – 1). (Pivotová statistika F slouží k řešení úloh o σ1 2 / σ2 2 .) Vysvětlení: ad a) Neuvádíme, viz např. J. Anděl: Matematická statistika. ad b) M1 – M2 je lineární kombinace náhodných veličin s normálním rozložením, má tedy normální rozložení s parametry E(M1 – M2) = µ1- µ2, D(M1 – M2) = σ1 2 /n1 + σ2 2 /n2. U se získá standardizací M1 – M2. ad c) K1 = 2 2 11 S)1n( σ − ~ χ2 (n1 – 1) a K2 = 2 2 22 S)1n( σ − ~ χ2 (n2 – 1) jsou stochasticky nezávislé náhodné veličiny, tedy K = K1 + K2 ~ χ2 (n1 + n2 – 2). ad d) U = ( ) ( ) 2 2 1 2 2121 nn MM σ + σ µ−µ−− ~ N(0, 1), K = 2 2 *21 S)2nn( σ −+ ~ χ2 (n1 + n2 – 2) jsou stochasticky nezávislé, protože M1 – M2 a 2 *S jsou stochasticky nezávislé. = −+ = 2nn K U T 21 ( ) ( ) 21 * 2121 n 1 n 1 S MM + µ−µ−− ~ t(n1 + n2 – 2). ad e) K1 = 2 1 2 11 S)1n( σ − ~ χ2 (n1 – 1) a K2 = 2 2 2 22 S)1n( σ − ~ χ2 (n2 – 1) jsou stochasticky nezávislé náhodné veličiny, tedy 1n K 1n K 2 2 1 1 F − − = = 2 2 2 1 2 2 2 1 / S/S σσ ~ F(n1 – 1, n2 – 1). Příklad: Nechť jsou dány dva nezávislé náhodné výběry, první pochází z rozložení N(0,28; 0,09) a má rozsah 16, druhý pochází z rozložení N(0,25; 0,04) a má rozsah 25. Jaká je pravděpodobnost, že výběrový průměr 1. výběru bude větší než výběrový průměr 2. výběru? Řešení: ( ) ( ) ( ) 63683,0)35,0()35,0(1)35294,0U(P1 25 04,0 16 09,0 25,028,0 UP1 nn )(0 nn )()MM( P10MMP10MMPMMP 2 2 2 1 2 1 21 2 2 2 1 2 1 2121 212121 =Φ=−Φ−=−≤−=             + +− ≤−= =               σ + σ µ−µ− ≤ σ + σ µ−µ−− −=≤−−=>−=> S pravděpodobností přibližně 63,7% je výběrový průměr 1. výběru větší než výběrový průměr 2. výběru. Výpočet pomocí systému STATISTICA: Statistika M1 – M2 se podle bodu (a) řídí rozložením N(µ1 – µ2, 2 2 2 1 2 1 nn σ + σ ), kde µ1 – µ2 = 0,28 – 0,25 = 0,03, 007225,0 25 04,0 16 09,0 nn 2 2 2 1 2 1 =+= σ + σ , tj. statistika M1 - M2 ~ N(0,03;0,007225). Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do Dlouhého jména této proměnné napíšeme = 1-INormal(0;0,03;sqrt(0,007225)). V proměnné Prom1 se objeví hodnota 0,637934: 1 Prom1 1 0,637934 Intervaly spolehlivosti pro parametrické funkce µ1 - µ2, σ1 2 /σ2 2 Uvedeme přehled vzorců pro meze 100(1-α)% empirických intervalů spolehlivosti pro parametrické funkce µ1 - µ2 , σ1 2 / σ2 2 . a) Interval spolehlivosti pro µ1-µ2, když σ1 2 , σ2 2 známe (využití pivotové statistiky U) Oboustranný: (d, h) = (m1 – m2 – 2 2 2 1 2 1 nn σ + σ u1-α/2, m1 – m2 + 2 2 2 1 2 1 nn σ + σ u1-α/2) Levostranný: (d, ∞) = (m1 – m2 – 2 2 2 1 2 1 nn σ + σ u1-α, ∞) Pravostranný: (-∞, h) = (-∞,m1 – m2 + 2 2 2 1 2 1 nn σ + σ u1-α) b) Interval spolehlivosti pro µ1-µ2, když σ1 2 , σ2 2 neznáme, ale víme, že jsou shodné (využití pivotové statistiky T) Oboustranný: (d, h) = (m1 – m2 – 21 * n 1 n 1 s + t1-α/2(n1+n2-2), m1 – m2 + 21 * n 1 n 1 s + t1-α/2(n1+n2-2)) Levostranný: (d, ∞) = (m1 – m2 – 21 * n 1 n 1 s + t1-α(n1+n2-2), ∞) Pravostranný: (-∞, h) = (-∞, m1 – m2 + 21 * n 1 n 1 s + t1-α(n1+n2-2)) c) Interval spolehlivosti pro společný neznámý rozptyl σ2 (využití pivotové statistiky K) Oboustranný: (d, h) =         −+χ −+ −+χ −+ αα− )2nn( s)2nn( , )2nn( s)2nn( 212/ 2 2 *21 212/1 2 2 *21 Levostranný: (d, ∞) =         ∞ −+χ −+ α− , )2nn( s)2nn( 211 2 2 *21 Pravostranný: (0, h) =         −+χ −+ α )2nn( s)2nn( ,0 21 2 2 *21 d) Interval spolehlivosti pro podíl rozptylů 2 2 2 1 σ σ (využití pivotové statistiky F) Oboustranný: (d, h) =         −−−− αα )1n,1n(F s/s , )1n,1n(F s/s 21/2 2 2 2 1 21/2-1 2 2 2 1 Levostranný: (d, ∞) =         ∞ −−α , )1n,1n(F s/s 21-1 2 2 2 1 Pravostranný: (0, h) =         −−α )1n,1n(F s/s ,0 21 2 2 2 1 Upozornění: Není-li v bodě (b) splněn předpoklad o shodě rozptylů, lze sestrojit aspoň přibližný 100(1-α)% interval spolehlivosti pro µ1-µ2. V tomto případě má statistika T přibližně rozložení t(ν ), kde počet stupňů volnosti ν = ( ) ( ) ( ) 1n n/s 1n n/s n/sn/s 2 2 2 2 2 1 2 1 2 1 2 2 2 21 2 1 − + − + . Není-li ν celé číslo, použijeme v tabulkách kvantilů Studentova rozložení lineární interpolaci. Příklad: Ve dvou nádržích se zkoumal obsah chlóru (v g/l). Z první nádrže bylo odebráno 25 vzorků, z druhé nádrže 10 vzorků. Byly vypočteny realizace výběrových průměrů a rozptylů: m1 = 34,48, m2 = 35,59, s1 2 = 1,7482, s2 2 = 1,7121. Hodnoty zjištěné z odebraných vzorků považujeme za realizace dvou nezávislých náhodných výběrů z rozložení N(µ1, σ2 ) a N(µ2, σ2 ). Sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot µ1 - µ2. Řešení: Úloha vede na vzorec (b) s využitím statistiky T. Vypočteme vážený průměr výběrových rozptylů a najdeme odpovídající kvantily Studentova rozložení: 2 *s = 7384,1 33 7121,197482,124 2nn s)1n(s)1n( 21 2 22 2 11 = ⋅+⋅ = −+ −+− , t0,975(33) = 2,035 Dosadíme do vzorců pro dolní a horní mez intervalu spolehlivosti: d = m1–m2– 21 * n 1 n 1 s + t1-α/2(n1+n2-2) = = 34,48–35,59 - 035,2 10 1 25 1 7384,1 ⋅+⋅ = -2,114 h = m1–m2+ 21 * n 1 n 1 s + t1-α/2(n1+n2-2) = = 34,48–35,59 + 035,2 10 1 25 1 7384,1 ⋅+⋅ = -0,106 -2,114 g/l < µ1 - µ2 < -0,106 g/l s pravděpodobností aspoň 0,95. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =34,48-35,59-sqrt((24*1,7482+9*1,7121)/33)*sqrt((1/25)+(1/10))*VStudent(0,975;33) Do Dlouhého jména proměnné h napíšeme =34,48-35,59+ sqrt((24*1,7482+9*1,7121)/33)*sqrt((1/25)+(1/10))*VStudent(0,975;33) 1 d 2 h 1 -2,11368 -0,10632 S pravděpodobností aspoň 0,95 tedy -2,114 g/l < µ1 - µ2 < -0,106 g/l. Příklad: V předešlém příkladě nyní předpokládáme, že dané dva náhodné výběry pocházejí z rozložení N(µ1, σ1 2 ) a N(µ2, σ2 2 ). Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů. Řešení: Úloha vede na vzorec (d) s využitím statistiky F. d = 28,0 6142,3 7121,1/7482,1 )9,24(F 7121,1/7482,1 )1n,1n(F s/s 975,021/2-1 2 2 2 1 === −−α h = 76,2 7027,2/1 7121,1/7482,1 )24,9(F/1 7121,1/7482,1 )9,24(F 7121,1/7482,1 )1n,1n(F s/s 975,0025,021/2 2 2 2 1 ==== −−α 0,28 < 2 2 2 1 σ σ < 2,76 s pravděpodobností aspoň 0,95. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =(1,7482/1,7121)/VF(0,975;24;9) (Funkce VF(x;ný;omega) počítá x-kvantil Fisherova – Snedecorova rozložení F(ný, omega).) Do Dlouhého jména proměnné h napíšeme =(1,7482/1,7121)/VF(0,025;24;9) 1 d 2 h 1 0,282521 2,759698 S pravděpodobností aspoň 0,95 tedy platí: 0,28 < σ1 2 / σ2 2 < 2,76. Jednotlivé typy testů o parametrických funkcích µ1 - µ2, σ1 2 /σ2 2 a) Nechť 1n111 X,,X K je náhodný výběr z rozložení N(µ1, σ1 2 ) a 2n221 X,,X K je na něm nezávislý náhodný výběr z rozložení N(µ2, σ2 2 ), přičemž n1 ≥ 2, n2 ≥ 2 a σ1 2 , σ2 2 známe. Nechť c je konstanta. Test H0: µ1 – µ2 = c proti H1: µ1 – µ2 ≠ c se nazývá dvouvýběrový z-test. b) Nechť 1n111 X,,X K je náhodný výběr z rozložení N(µ1, σ2 ) a 2n221 X,,X K je na něm nezávislý náhodný výběr z rozložení N(µ2, σ2 ), přičemž n1 ≥ 2 a n2 ≥ 2 a σ2 neznáme. Nechť c je konstanta. Test H0: µ1 – µ2 = c proti H1: µ1 – µ2 ≠ c se nazývá dvouvýběrový t-test. c) Nechť 1n111 X,,X K je náhodný výběr z rozložení N(µ1, σ1 2 ) a 2n221 X,,X K je na něm nezávislý náhodný výběr rozložení N(µ2, σ2 2 ), přičemž n1 ≥ 2 a n2 ≥ 2. Test H0: 2 2 2 1 σ σ = 1 proti H1: 2 2 2 1 σ σ ≠ 1 se nazývá F-test. Provedení testů o parametrických funkcích µ1 - µ2, σ1 2 /σ2 2 pomocí kritického oboru a) Provedení dvouvýběrového z-testu Vypočteme realizaci t0 testového kritéria ( ) 2 2 2 1 2 1 21 0 nn cMM T σ + σ −− = . Stanovíme kritický obor W. Pokud t0 ∈ W, H0 zamítáme na hladině významnosti α a přijímáme H1. Oboustranný test: Testujeme H0: µ1 - µ2 = c proti H1: µ1 - µ2 ≠ c. Kritický obor má tvar: )( ∞∪−∞−= α−α− ,uu,W 2/12/1 . Levostranný test: Testujeme H0: µ1 - µ2 = c proti H1: µ1 - µ2 < c. Kritický obor má tvar: ( α−−∞−= 1u,W . Pravostranný test: Testujeme H0: µ1 - µ2 = c proti H1: µ1 - µ2 > c. Kritický obor má tvar: )∞= α− ,uW 1 . b) Provedení dvouvýběrového t-testu Vypočteme realizaci t0 testového kritéria ( ) 21 * 21 0 n 1 n 1 S cMM T + −− = . Stanovíme kritický obor W. Pokud t0 ∈ W, H0 zamítáme na hladině významnosti α a přijímáme H1. Oboustranný test: Testujeme H0: µ1 - µ2 = c proti H1: µ1 - µ2 ≠ c. Kritický obor má tvar: ( ) ( ) )( ∞−+∪−+−∞−= α−α− ,2nnt2nnt,W 212/1212/1 . Levostranný test: Testujeme H0: µ1 - µ2 = c proti H1: µ1 - µ2 < c. Kritický obor má tvar: ( )( 2nnt,W 211 −+−∞−= α− . Pravostranný test: Testujeme H0: µ1 - µ2 = c proti H1: µ1 - µ2 > c. Kritický obor má tvar: ( ) )∞−+= α− ,2nntW 211 . c) Provedení F-testu Vypočteme realizaci testového kritéria 2 2 2 1 0 s s t = . Stanovíme kritický obor W. Pokud t0 ∈ W, H0 zamítáme na hladině významnosti α a přijímáme H1. Oboustranný test: Testujeme H0: 2 2 2 1 σ σ = 1 proti H1: 2 2 2 1 σ σ ≠ 1. Kritický obor má tvar: ( ) ( ) )( ∞−−∪−−= α−α ,1n,1nF1n,1nF,0W 212/1212/ . Levostranný test: Testujeme H0: 2 2 2 1 σ σ = 1 proti H1: 2 2 2 1 σ σ < 1. Kritický obor má tvar: ( )( 1n,1nF,0W 21 −−= α . Pravostranný test: Testujeme H0: 2 2 2 1 σ σ = 1 proti H1: 2 2 2 1 σ σ > 1. Kritický obor má tvar: ( ) )∞−−= α− ,1n,1nFW 211 . Příklad: V restauraci "U bílého koníčka" měřili ve 20 případech čas obsluhy zákazníka. Výsledky v minutách: 6, 8, 11, 4, 7, 6, 10, 6, 9, 8, 5, 12, 13, 10, 9, 8, 7, 11, 10, 5. V restauraci "Zlatý lev" bylo dané pozorování uskutečněno v 15 případech s těmito výsledky: 9, 11, 10, 7, 6, 4, 8, 13, 5, 15, 8, 5, 6, 8 ,7. Za předpokladu, že uvedené hodnoty pocházejí ze dvou normálních rozložení, na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty doby obsluhy jsou v obou restauracích stejné. Řešení: Na hladině významnosti 0,05 testujeme nulovou hypotézu H0: µ1 - µ2 = 0 proti oboustranné alternativě H1: µ1 – µ2 ≠ 0. Je to úloha na dvouvýběrový t-test. Před provedením tohoto testu je však nutné pomocí F-testu ověřit shodu rozptylů. Na hladině významnosti 0,05 tedy testujeme H0: 2 2 2 1 σ σ = 1 proti H1: 2 2 2 1 σ σ ≠ 1. Nejprve vypočteme m1 = 8,25, m2 = 8,13, s1 2 = 6,307, s2 2 = 9,41, 623,7 33 41,914307,619 2nn s)1n(s)1n( s 21 2 22 2 112 * = ⋅+⋅ = −+ −+− = . Podle vzorce (c) vypočteme realizaci testové statistiky: 6702,0 41,9 307,6 s s t 2 2 2 1 0 === . Stanovíme kritický obor: ( ) ( ) ) ( ) ( ) ) ( ) ( ) ) ) )∞∪=∞∪=∞∪= =∞∪=∞−−∪−−= α−α ,8607,23778,0;0,8607,2649,2/1,0,14,19F19,14F/1,0 ,14,19F14,19F,0,1n,1nF1n,1nF,0W 975,0975,0 975,0025,0212/1212/ Protože se testová statistika nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Rozptyly tedy můžeme považovat za shodné. Nyní se vrátíme k dvouvýběrovému t-testu. Podle vzorce (b) vypočteme realizaci testové statistiky: 124,0 15 1 20 1 623,7 13,825,8 n 1 n 1 s cmm t 21 * 21 0 = + − = + −− = . Stanovíme kritický obor: ( ) ( ) )( ( ) ( ) )( )( ∞∪−∞−=∞∪−∞−=∞−+∪−+−∞−= α−α− ,035,2035,2,,33t33t,,2nnt2nnt,W 975,0975,0212/1212/1 Protože testová statistika se nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných a 35 případech. První proměnnou nazveme OBSLUHA, druhou ID. Do proměnné OBSLUHA napíšeme nejprve doby obsluhy v první restauraci a poté doby obsluhy ve druhé restauraci. Do proměnné ID, která slouží k rozlišení první a druhé restaurace, napíšeme 20 krát jedničku a 15 krát dvojku. Pomocí NP-grafu ověříme normalitu dat v obou skupinách. Grafy – 2D Grafy – Normální pravděpodobnostní grafy – zaškrtneme S-W test - Proměnné OBSLUHA, OK, Kategorizovaný – Kategorie X, zaškrtneme Zapnuto, Změnit proměnnou – ID, OK. Dostaneme graf Normální p-graf z obsluha; kategorizovaný id restaurace.sta 2v*35c Pozorovaný kvantil Oček.normál.hodnoty id: 1 2 4 6 8 10 12 14 16 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 id: 2 2 4 6 8 10 12 14 16 id: 1 obsluha: SW-W = 0,9715; p = 0,7871 id: 2 obsluha: SW-W = 0,9345; p = 0,3185 V obou případech se tečky odchylují od přímky jenom málo a p-hodnoty S-W testu převyšují 0,05. Předpoklad o normálním rozložení dat v obou skupinách je oprávněný. Nyní provedeme dvouvýběrový t-test současně s testem o shodě rozptylů: Statistika – Základní statistiky a tabulky – t-test, nezávislé, dle skupin – OK, Proměnné –Závislé proměnné OBSLUHA, Grupovací proměnná ID – OK. Po kliknutí na tlačítko Souhrn dostaneme tabulku t-testy; grupováno: ID (restaurace) Skup. 1: 1 Skup. 2: 2 Proměnná Průměr 1 Průměr 2 t sv p Poč.plat 1 Poč.plat. 2 Sm.odch. 1 Sm.odch. 2 F-poměr rozptyly p rozptyly OBSLUHA 8,250000 8,133333 0,123730 33 0,902279 20 15 2,510504 3,067495 1,492952 0,410440 Vidíme, že testová statistika pro test shody rozptylů se realizuje hodnotou 1,492952 (je to převrácená hodnota k číslu 0,6702, které jsme vypočítali při ručním postupu), odpovídající p-hodnota je 0,41044, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. (Upozornění: v případě zamítnutí hypotézy o shodě rozptylů je zapotřebí v tabulce ttestu pro nezávislé vzorky dle skupin zaškrtnout volbu Test se samostatnými odhady rozptylu.) Dále z tabulky plyne, že testová statistika pro test shody středních hodnot se realizuje hodnotou 0,12373, počet stupňů volnosti je 33, odpovídající p-hodnota 0,902279, tedy hypotézu o shodě středních hodnot nezamítáme na hladině významnosti 0,05. Znamená to, že se neprokázal rozdíl ve středních hodnotách dob obsluhy v restauracích "U bílého koníčka" a „Zlatý lev“. Tabulku ještě doplníme krabicovými diagramy. Na záložce Detaily zaškrtneme krabicový graf a vybereme volbu Průměr/SmOdch/Min-Max. Krabicový graf z obsluha seskupený id restaurace.sta 2v*35c Průměr Průměr±SmOdch Min-Max Odlehlé Extrémy 1 2 id 2 4 6 8 10 12 14 16 obsluha Z grafu je vidět, že průměrná doba obsluhy v první restauraci je nepatrně delší a má menší variabilitu než ve druhé restauraci. Extrémní ani odlehlé hodnoty se zde nevyskytují. Upozornění: V případě, že známe realizace obou výběrových průměrů a směrodatných odchylek, můžeme pro provedení dvouvýběrového t-testu v systému STATISTICA použít aplikaci Tesy rozdílů. Postup si ukážeme na příkaldě s dobou obsluhy ve dvou restauracích Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma průměry (normální rozdělení) – do políčka Pr1 napíšeme 8,25, do políčka SmOd1 napíšeme 2,5105, do políčka N1 napíšeme 20, do políčka Pr1 napíšeme 8,25, do políčka SmOd1 napíšeme 3,0675, do políčka N1 napíšeme 15 – Výpočet. Dostaneme phodnotu 0,9023, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Parametrické úlohy o dvou nezávislých náhodných výběrech z alternativních rozložení Motivace: Provádíme opakovaně nezávisle n1-krát jeden náhodný pokus a nezávisle na tom n2-krát druhý náhodný pokus. V první sérii pokusů sledujeme nějaký jev, který v každém pokusu může nastat s pravděpodobností 1ϑ a ve druhé sérii pokusů sledujeme nějaký jiný jev, jehož pravděpodobnost nastoupení je 2ϑ . Parametry 1ϑ , 2ϑ neznáme. Naším úkolem bude konstruovat interval spolehlivosti pro parametrickou funkci 21 ϑ−ϑ nebo testovat hypotézu o této parametrické funkci, a to pomocí dvou nezávislých náhodných výběrů z alternativních rozložení ( )1A ϑ , ( )2A ϑ . Asymptotické rozložení statistiky odvozené ze dvou výběrových průměrů alternativních rozložení Nechť 1n111 X,,X K je náhodný výběr z alternativního rozložení A( 1ϑ ) a 2n221 X,,X K je na něm nezávislý náhodný výběr alternativního rozložení A( 2ϑ ) a nechť jsou splněny podmínky n1 1ϑ (1- 1ϑ ) > 9 a n2 2ϑ (1- 2ϑ ) > 9. Označme M1, M2 výběrové průměry. Pak statistika ( ) ( ) ( ) ( )1,0N n 1 n 1 MM U 2 22 1 11 2121 ≈ ϑ−ϑ + ϑ−ϑ ϑ−ϑ−− = . Vysvětlení: Analogicky jako v případě jednoho náhodného výběru z alternativního rozložení. Vzorec pro meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametrickou funkci 21 ϑ−ϑ . Meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro 21 ϑ−ϑ jsou: 2/1 2 22 1 11 21 u n )m1(m n )m1(m mmd α− − + − −−= , 2/1 2 22 1 11 21 u n )m1(m n )m1(m mmh α− − + − +−= Vysvětlení: Pokud rozptyl ( ) ( ) i ii i n 1 MD ϑ−ϑ = nahradíme odhadem ( ) i ii n M1M − , i = 1, 2, konvergence náhodné veličiny U k veličině s rozložením N(0,1) se neporuší. Tedy ( ) ( ) ( ) ( ) ( ) ( ) ( ) )u n M1M n M1M MMu n M1M n M1M MM(P u n M1M n M1M MM uP1: 2/1 2 22 1 11 21212/1 2 22 1 11 21 2/1 2 22 1 11 2121 2/121 α−α− α−α− − + − +−<ϑ−ϑ< − + − −− =             < − + − ϑ−ϑ−− <−≤α−Ξ∈ϑ−ϑ∀ Příklad: Management supermarketu vyhlásil týden slev a sledoval, zda toto vyhlášení má vliv na podíl větších nákupů (nad 500 Kč). Na základě náhodného výběru 200 zákazníků v týdnu bez slev bylo zjištěno 97 velkých nákupů, zatímco v týdnu se slevou z 300 náhodně vybraných zákazníků učinilo velký nákup 162 zákazníků. Sestrojte 95% asymptotický interval spolehlivosti pro rozdíl pravděpodobností uskutečnění většího nákupu v týdnu bez slevy a v týdnu se slevou. Řešení: Zavedeme náhodnou veličinu X1i, která bude nabývat hodnoty 1, když v týdnu bez slevy i-tý náhodně vybraný zákazník uskuteční větší nákup a hodnoty 0 jinak, i = 1, …, 200. Náhodné veličiny X1,1, …, X1,200 tvoří náhodný výběr z rozložení ( )1A ϑ . Dále zavedeme náhodnou veličinu X2i, která bude nabývat hodnoty 1, když v týdnu se slevou i-tý náhodně vybraný zákazník uskuteční větší nákup a hodnoty 0 jinak, i = 1, …, 300. Náhodné veličiny X2,1, …, X2,300 tvoří náhodný výběr z rozložení ( )2A ϑ . n1 = 200, n2 = 300, m1 = 97/200 = 0,485, m2 = 162/300 = 0,54. Ověření podmínek n1 1ϑ (1- 1ϑ ) > 9 a n2 2ϑ (1- 2ϑ ) > 9: Parametry 1ϑ a 2ϑ neznáme, nahradíme je odhady m1 a m2, tedy 97.(1-97/200) = 49,955 > 9, 162.(1-162/300) = 74,52 > 9. Meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametrickou funkci 21 ϑ−ϑ jsou: 0343,096,1 300 )1( 200 )1( 300 162 200 97 u n )m1(m n )m1(m mmh 1443,096,1 300 )1( 200 )1( 300 162 200 97 u n )m1(m n )m1(m mmd 300 162 300 162 200 97 200 97 2/1 2 22 1 11 21 300 162 300 162 200 97 200 97 2/1 2 22 1 11 21 = − + − +−= − + − +−= −= − + − −−= − + − −−= α− α− Zjistili jsme tedy, že s pravděpodobností přibližně 0,95: –0,1443 < 21 ϑ−ϑ < 0,0343. Testování hypotézy o parametrické funkci 21 ϑ−ϑ Nechť 1n111 X,,X K je náhodný výběr z alternativního rozložení A( 1ϑ ) a 2n221 X,,X K je na něm nezávislý náhodný výběr alternativního rozložení A( 2ϑ ) a nechť jsou splněny podmínky n1 1ϑ (1- 1ϑ ) > 9 a n2 2ϑ (1- 2ϑ ) > 9. Na asymptotické hladině významnosti α testujeme nulovou hypotézu H0: 21 ϑ−ϑ = c proti alternativě H1: 21 ϑ−ϑ ≠ c (resp. H1: 21 ϑ−ϑ < c resp. H1: 21 ϑ−ϑ > c). Testovým kritériem je statistika ( ) ( ) 2 22 1 11 21 0 n M1M n M1M cMM T − + − −− = , která v případě platnosti H0 má asymptoticky rozložení N(0,1). Kritický obor má tvar ( )∞∪−∞−= α−α− ,uu,W 2/12/1 (resp. ( α− −∞−= 1 u,W resp. )∞= α− ,uW 1 ). (Testování hypotézy o parametrické funkci 21 ϑ−ϑ lze provést též pomocí 100(1-α)% asymptotického intervalu spolehlivosti nebo pomocí p-hodnoty.) Poznámka: Postup při testování hypotézy 021 =ϑ−ϑ Je-li c = 0, pak označme 21 2211 * nn MnMn M + + = vážený průměr výběrových průměrů. Jako testová statistika slouží ( )       +− − = 21 ** 21 0 n 1 n 1 M1M MM T , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Kritický obor má tvar ( )∞∪−∞−= α−α− ,uu,W 2/12/1 (resp. ( α− −∞−= 1 u,W resp. )∞= α− ,uW 1 ). Testová statistika T0 vznikne standardizací statistiky M1 – M2, kde neznámé parametry 1ϑ , 2ϑ nahradíme společným odhadem M*. Příklad: Pro údaje z příkladu o slevách v supermarketu testujte na asymptotické hladině významnosti 0,05 hypotézu, že týden se slevami nezvýší pravděpodobnost uskutečnění většího nákupu. Řešení: Testujeme hypotézu H0: 21 ϑ−ϑ = 0 proti levostranné alternativě H1: 21 ϑ−ϑ < 0 na asymptotické hladině významnosti 0,05. n1 = 200, n2 = 300, m1 = 97/200, m2 = 162/300, m* = (97 + 162)/500 = 0,518. Podmínky dobré aproximace byly ověřeny v předešlém příkladu. Testování pomocí intervalu spolehlivosti: Pro levostrannou alternativu používáme pravostranný interval spolehlivosti: 02,0645,1 300 )1( 200 )1( 300 162 200 97 u n )m1(m n )m1(m mmh 300 162 300 162 200 97 200 97 1 2 22 1 11 21 = − + − +−= − + − +−= α− Protože číslo c = 0 je obsaženo v intervalu ( 02,0;∞− , H0 nezamítáme na asymptotické hladině významnosti 0,05. Testování pomocí kritického oboru: Realizace testového kritéria: ( )( ) ( )( ) 2058,1 518,01518,0m1m mm t 300 1 200 1 300 162 200 97 n 1 n 1 ** 21 0 21 −= +− − = +− − = . Kritický obor je ( ( ( 645,1,u,u,W 95,01 −∞−=−∞−=−∞−= α− . Protože testové kritérium nepatří do kritického oboru, H0 nezamítáme na asymptotické hladině významnosti 0,05. Testování pomocí p-hodnoty: Pro levostrannou alternativu se p-hodnota počítá podle vzorce p = P(T0 ≤ t0): ( ) ( ) ( ) 1139,08861,012058,112058,12058,1TPp 0 =−=Φ−=−Φ=−≤= Protože p-hodnota je větší než 0,05, H0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma poměry – do políčka P 1 napíšeme 0,485, do políčka N1 napíšeme 200, do políčka P 2 napíšeme 0,54, do políčka N2 napíšeme 300 – zaškrtneme Jednostr. - Výpočet. Dostaneme p-hodnotu 0,1142, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05.