Téma 9: Parametrické úlohy o dvou nezávislých náhodných výběrech z normálních rozložení Úkol 1.: Vlastnosti rozdílu výběrových průměrů ze dvou normálních rozložení Jsou dány dva nezávislé náhodné výběry, první pochází z rozložení N(2; 1,5) a má rozsah 10, druhý pochází z rozložení N(3; 4) a má rozsah 5. Jaká je pravděpodobnost, že výběrový průměr 1. výběru bude menší než výběrový průměr 2. výběru? Návod: Počítáme ( ) ( ) ( )00MMPMMP 2121 =<-=< , kde (x) je distribuční funkce statistiky M1 - M2. Statistika M1 - M2 se řídí rozložením N(1 ­ 2, 2 2 2 1 2 1 nn + ), kde 1 ­ 2 = 2 ­ 3 = -1, 95,0 5 4 10 5,1 nn 2 2 2 1 2 1 =+= + , tj. statistika M1 - M2 ~ N(-1;0,95). Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do Dlouhého jména této proměnné napíšeme = INormal(0;-1;sqrt(0,95)). Dostaneme výsledek 0,847549. Úkol 2.: Intervaly spolehlivosti pro parametrické funkce 1-2, 1 2 /2 2 Bylo vylosováno 11 stejně starých selat téhož plemene. Šesti z nich byla předepsána výkrmná dieta č. 1 a zbylým pěti výkrmná dieta č. 2. Průměrné denní přírůstky v Dg za dobu půl roku jsou následující: dieta č. 1: 62, 54, 55, 60, 53, 58 dieta č. 2: 52, 56, 49, 50, 51. Zjištěné hodnoty považujeme za realizace dvou nezávislých náhodných výběrů pocházejících z rozložení N(1, 1 2 ) a N(2, 2 2 ). a) Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů. b) Za předpokladu, že data pocházejí z rozložení N(1, 2 ) a N(2, 2 ), sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot 1 - 2. Návod: Vytvoříme datový soubor o 2 proměnných a 11 případech. První proměnnou nazveme hmotnost, druhou dieta. Do proměnné hmotnost zapíšeme zjištěné údaje o hmotnosti, do proměnné dieta napíšeme 1 pro 1. dietu a 2 pro 2. dietu. Pomocí Popisných statistik zjistíme realizace výběrových průměrů, výběrových rozptylů a výběrových směrodatných odchylek. Pro první dietu: Popisné statistiky (Tabulka1) Zhrnout podmínku: v2=1 Proměnná N platných Průměr Rozptyl Sm.odch. hmotnost 6 57,00000 12,80000 3,577709 Pro druhou dietu: Popisné statistiky (Tabulka1) Zhrnout podmínku: v2=2 Proměnná N platných Průměr Rozptyl Sm.odch. hmotnost 5 51,60000 7,300000 2,701851 ad a) Meze 100(1-)% empirického intervalu spolehlivosti pro podíl rozptylů jsou: (d, h) = ---- )1n,1n(F s/s , )1n,1n(F s/s 21/2 2 2 2 1 21/2-1 2 2 2 1 . Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =(12,8/7,3)/VF(0,975;5;4) (Funkce VF(x;ný;omega) počítá x-kvantil Fisherova ­ Snedecorova rozložení F(ný, omega).) Do Dlouhého jména proměnné h napíšeme =(12,8/7,3)/VF(0,025;5;4) 1 d 2 h 1 0,187242 12,9541 S pravděpodobností aspoň 0,95 tedy platí: 0,1872 < 1 2 / 2 2 < 12,954. ad b) Meze 100(1-)% empirického intervalu spolehlivosti pro rozdíl středních hodnot (v případě, že rozptyly neznáme, ale víme, že jsou shodné) jsou: (d, h) = (m1 ­ m2 ­ 21 * n 1 n 1 s + t1-/2(n1+n2-2), m1 ­ m2 + 21 * n 1 n 1 s + t1-/2(n1+n2-2)). Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =57-51,6-sqrt((5*12,8+4*7,3)/9)*sqrt((1/6)+(1/5))*VStudent(0,975;9) Do Dlouhého jména proměnné h napíšeme =57-51,6+sqrt((5*12,8+4*7,3)/9)*sqrt((1/6)+(1/5))*VStudent(0,975;9) 1 d 2 h 1 0,991963 9,808037 S pravděpodobností aspoň 0,95 tedy 0,99 Dg < 1 - 2 < 9,81 Dg. Úkol k samostatnému řešení: Jsou dány dva nezávislé náhodné výběry o rozsazích n1 = 25, n2 = 10, první pochází z rozložení N(1, 1 2 ), druhý z rozložení N(2, 2 2 ), kde parametry 1, 2, 1 2 , 2 2 neznáme. Byly vypočteny realizace výběrových rozptylů: s1 2 = 1,7482, s2 2 = 1,7121. Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů. Výsledek: 0,28 < 1 2 / 2 2 < 2,76 s pravděpodobností aspoň 0,95. Úkol 3.: Testování hypotéz o parametrických funkcích 1-2, 1 2 /2 2 Pro datový soubor z úkolu 2 testujte na hladině významnosti 0,05 hypotézu, že a) rozptyly hmotnostních přírůstků selat při obou výkrmných dietách jsou shodné b) obě výkrmné diety mají stejný vliv na hmotnostní přírůstky selat. Návod: Provedeme dvouvýběrový t-test současně s testem o shodě rozptylů: Statistika ­ Základní statistiky a tabulky ­ t-test, nezávislé, dle skupin ­ OK, Proměnné Závislé proměnné hmotnost, Grupovací proměnná dieta ­ OK. t-testy; grupováno: dieta (Tabulka1) Skup. 1: 1 Skup. 2: 2 Proměnná Průměr 1 Průměr 2 t sv p Poč.plat 1 Poč.plat. 2 Sm.odch. 1 Sm.odch. 2 F-poměr Rozptyly p Rozptyly hmotnost 57,00000 51,60000 2,771222 9 0,021710 6 5 3,577709 2,701851 1,753425 0,606345 Testová statistika pro test shody rozptylů se realizuje hodnotou 1,7534, odpovídající phodnota je 0,6063, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. (Upozornění: v případě zamítnutí hypotézy o shodě rozptylů je zapotřebí v tabulce t-testu pro nezávislé vzorky dle skupin zaškrtnout volbu Test se samostatnými odhady rozptylu.) Dále z tabulky plyne, že testová statistika pro test shody středních hodnot se realizuje hodnotou 2,7712, počet stupňů volnosti je 9, odpovídající p-hodnota 0,0217, tedy hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Znamená to, že s rizikem omylu nejvýše 5% se prokázalo, že obě výkrmné diety se liší účinností. Tabulku ještě doplníme krabicovými diagramy. Na záložce Detaily zaškrtneme krabicový graf a vybereme volbu Průměr/SmOdch/Min-Max. Krabicový graf z hmotnost seskupený dieta Tabulka1 2v*11c Průměr PrůměrSmOdch Min-Max Odlehlé Extrémy 1 2 dieta 48 50 52 54 56 58 60 62 64 hmotnost Upozornění: Dvouvýběrový t-test lze v systému STATISTICA provést ještě jiným způsobem, který je vhodný zvláště tehdy, známe-li realizace výběrových průměrů a výběrových směrodatných odchylek. Statistiky ­ Základní statistiky a tabulky ­ Testy rozdílů: r, %, průměry ­ OK ­ vybereme Rozdíl mezi dvěma průměry (normální rozdělení) ­ do políčka Pr1 napíšeme 57, do políčka SmOd1 napíšeme 3,5777, do políčka N1 napíšeme 6, do políčka Pr2 napíšeme 51,6, do políčka SmOd1 napíšeme 2,7019, do políčka N1 napíšeme 5 - Výpočet. Dostaneme p-hodnotu 0,0217, tedy zamítáme nulovou hypotézu na hladině významnosti 0,05. Úkol k samostatnému řešení: Do systému STATISTICA načtěte datový soubor studentky.sta, který obsahuje údaje o výšce 48 studentek VŠE v Praze (proměnná vyska) a obor jejich studia (1 ­ národní hodpodářství, 2 ­ informatika). a) Na hladině významnosti 0,1 testujte hypotézu o shodě rozptylů výšek studentek v daných dvou oborech studia. b) Na hladině významnosti 0,1 testujte hypotézu o shodě středních hodnot výšek studentek v daných dvou oborech studia. (Výpočet doplňte krabicovými diagramy.) Výsledek: ad a) Protože p-hodnota F-testu je 0,1249, což je větší než hladina významnosti 0,1, nulovou hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,1. ad b) Protože p-hodnota dvouvýběrového t-testu je 0,0878, což je menší než hladina významnosti 0,1, nulovou hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,1.