Téma 8: Parametrické úlohy o dvou nezávislých náhodných výběrech z normálních rozložení a jednom náhodném výběru z alternativního rozložení Úkol 1.: Intervaly spolehlivosti pro parametrické funkce µ1-µ2, σ1 2 /σ2 2 Bylo vylosováno 11 stejně starých selat téhož plemene. Šesti z nich byla předepsána výkrmná dieta č. 1 a zbylým pěti výkrmná dieta č. 2. Průměrné denní přírůstky v Dg za dobu půl roku jsou následující: dieta č. 1: 62, 54, 55, 60, 53, 58 dieta č. 2: 52, 56, 49, 50, 51. Zjištěné hodnoty považujeme za realizace dvou nezávislých náhodných výběrů pocházejících z rozložení N(µ1, σ1 2 ) a N(µ2, σ2 2 ). a) Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů. b) Za předpokladu, že data pocházejí z rozložení N(µ1, σ2 ) a N(µ2, σ2 ), sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot µ1 - µ2. Návod: Načteme datový soubor dve_diety.sta o 2 proměnných hmotnost a dieta a 11 případech. Pomocí Popisných statistik zjistíme realizace výběrových průměrů, výběrových rozptylů a výběrových směrodatných odchylek. Pro první dietu: Popisné statistiky (Tabulka1) Zhrnout podmínku: v2=1 Proměnná N platných Průměr Rozptyl Sm.odch. hmotnost 6 57,00000 12,80000 3,577709 Pro druhou dietu: Popisné statistiky (Tabulka1) Zhrnout podmínku: v2=2 Proměnná N platných Průměr Rozptyl Sm.odch. hmotnost 5 51,60000 7,300000 2,701851 ad a) Meze 100(1-α)% empirického intervalu spolehlivosti pro podíl rozptylů jsou: (d, h) =         −−−− αα )1n,1n(F s/s , )1n,1n(F s/s 21/2 2 2 2 1 21/2-1 2 2 2 1 . Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =(12,8/7,3)/VF(0,975;5;4) (Funkce VF(x;ný;omega) počítá x-kvantil Fisherova – Snedecorova rozložení F(ný, omega).) Do Dlouhého jména proměnné h napíšeme =(12,8/7,3)/VF(0,025;5;4) 1 d 2 h 1 0,187242 12,9541 S pravděpodobností aspoň 0,95 tedy platí: 0,1872 < σ1 2 / σ2 2 < 12,954. ad b) Meze 100(1-α)% empirického intervalu spolehlivosti pro rozdíl středních hodnot (v případě, že rozptyly neznáme, ale víme, že jsou shodné) můžeme ve STATISTICE vypočítat pomocí dvouvýběrového t-testu: Statistika – Základní statistiky a tabulky – t-test, nezávislé, dle skupin – OK, Proměnné – Závislé proměnné hmotnost, Grupovací proměnná dieta – OK. Na záložce Možnosti zaškrtneme Meze spol. pro odhady – Výpočet. Zajímají nás poslední dva sloupce ve výstupní tabulce. Proměnná Int. spolehl. -95,000% Int. spolehl. +95,000% hmotnost 0,991963 9,808037 S pravděpodobností aspoň 0,95 tedy 0,99 Dg < µ1 - µ2 < 9,81 Dg. Úkol k samostatnému řešení: Jsou dány dva nezávislé náhodné výběry o rozsazích n1 = 25, n2 = 10, první pochází z rozložení N(µ1, σ1 2 ), druhý z rozložení N(µ2, σ2 2 ), kde parametry µ1, µ2, σ1 2 , σ2 2 neznáme. Byly vypočteny realizace výběrových rozptylů: s1 2 = 1,7482, s2 2 = 1,7121. Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů. Výsledek: 0,28 < σ1 2 / σ2 2 < 2,76 s pravděpodobností aspoň 0,95. Úkol 2.: Testování hypotéz o parametrických funkcích µ1-µ2, σ1 2 /σ2 2 Pro datový soubor z úkolu 2 testujte na hladině významnosti 0,05 hypotézu, že a) rozptyly hmotnostních přírůstků selat při obou výkrmných dietách jsou shodné b) obě výkrmné diety mají stejný vliv na hmotnostní přírůstky selat. Návod: Provedeme dvouvýběrový t-test současně s testem o shodě rozptylů: Statistika – Základní statistiky a tabulky – t-test, nezávislé, dle skupin – OK, Proměnné – Závislé proměnné hmotnost, Grupovací proměnná dieta – OK. t-testy; grupováno: dieta (Tabulka1) Skup. 1: 1 Skup. 2: 2 Proměnná Průměr 1 Průměr 2 t sv p Poč.plat 1 Poč.plat. 2 Sm.odch. 1 Sm.odch. 2 F-poměr Rozptyly p Rozptyly hmotnost 57,00000 51,60000 2,771222 9 0,021710 6 5 3,577709 2,701851 1,753425 0,606345 Testová statistika pro test shody rozptylů se realizuje hodnotou 1,7534, odpovídající phodnota je 0,6063, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. (Upozornění: v případě zamítnutí hypotézy o shodě rozptylů je zapotřebí v tabulce t-testu pro nezávislé vzorky dle skupin zaškrtnout volbu Test se samostatnými odhady rozptylu.) Dále z tabulky plyne, že testová statistika pro test shody středních hodnot se realizuje hodnotou 2,7712, počet stupňů volnosti je 9, odpovídající p-hodnota 0,0217, tedy hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Znamená to, že s rizikem omylu nejvýše 5 % se prokázalo, že obě výkrmné diety se liší účinností. Tabulku ještě doplníme krabicovými diagramy. Na záložce Detaily zaškrtneme krabicový graf a vybereme volbu Průměr/SmOdch/Min-Max. Krabicový graf z hmotnost seskupený dieta Tabulka1 2v*11c Průměr Průměr±SmOdch Min-Max Odlehlé Extrémy 1 2 dieta 48 50 52 54 56 58 60 62 64 hmotnost Upozornění: Dvouvýběrový t-test lze v systému STATISTICA provést ještě jiným způsobem, který je vhodný zvláště tehdy, známe-li realizace výběrových průměrů a výběrových směrodatných odchylek. Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma průměry (normální rozdělení) – do políčka Pr1 napíšeme 57, do políčka SmOd1 napíšeme 3,5777, do políčka N1 napíšeme 6, do políčka Pr2 napíšeme 51,6, do políčka SmOd1 napíšeme 2,7019, do políčka N1 napíšeme 5 - Výpočet. Dostaneme p-hodnotu 0,0217, tedy zamítáme nulovou hypotézu na hladině významnosti 0,05. Úkol k samostatnému řešení: Do systému STATISTICA načtěte datový soubor vyska.sta, který obsahuje údaje o výšce 48 studentek VŠE v Praze (proměnná vyska) a obor jejich studia (1 – národní hospodářství, 2 – informatika). a) Pomocí S-W testu ověřte na hladině významnosti 0,1 předpoklad o normalitě výšek v obou skupinách studentek b) Na hladině významnosti 0,1 testujte hypotézu o shodě rozptylů výšek studentek v daných dvou oborech studia. c) Na hladině významnosti 0,1 testujte hypotézu o shodě středních hodnot výšek studentek v daných dvou oborech studia. Výpočet doplňte krabicovými diagramy. Výsledek: ad a) p-hodnota S-W testu pro studentky oboru nh je 0,6068 a pro studentky oboru informatika je 0,1119, tedy na hladině významnosti 0,1 hypotézu o normalitě nezamítáme ani v jednom případě. ad b) Protože p-hodnota F-testu je 0,1249, což je větší než hladina významnosti 0,1, nulovou hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,1. ad c) Protože p-hodnota dvouvýběrového t-testu je 0,0878, což je menší než hladina významnosti 0,1, nulovou hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,1. Úkol 3.: Asymptotický interval spolehlivosti pro parametr ϑ alternativního rozložení Může politická strana, pro niž se v předvolebním průzkumu vyslovilo 60 z 1000 dotázaných osob, očekávat se spolehlivostí 0,95, že by v této době ve volbách překročila 5% hranici pro vstup do parlamentu? Návod: Zavedeme náhodné veličiny X1, ..., X1000, přičemž Xi = 1, když i-tá osoba se vysloví pro danou politickou stranu a Xi = 0 jinak, i = 1, ..., 1000. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A(ϑ ). V tomto případě n = 1000, m = 60/1000 = 0,06, α = 0,05, u1-α = u0,95 = 1,645. Ověření podmínky n ϑ (1- ϑ ) > 9: parametr ϑ neznáme, musíme ho nahradit výběrovým průměrem. Pak 1000.0,06.0,94 = 56,4 > 9. 95% levostranný interval spolehlivosti pro ϑ je ( ) ( )         ∞ − −=        ∞ − − − ;u 1000 06,0106,0 06,0;u n m1m m 95,01 α . V našem případě 0476,0645,1 1000 94,006,0 06,0d =⋅ ⋅ −= S pravděpodobností přibližně 0,95 tedy ϑ > 0,048. Protože tento interval zahrnuje i hodnoty nižší než 0,05, nelze vyloučit, že strana získá méně než 5 % hlasů. Postup ve STATISTICE: Statistiky – Analýza síly testu – Odhad intervalu – Jeden podíl, Z, Chí-kvadrát test – OK – Pozorovaný podíl p: 0,06, Velikost vzorku: 1000, Spolehlivost: 0,9 – Vypočítat. Dostaneme tabulku: Hodnota Podíl vzorku p Velikost vz. ve skup. (N) Interval spolehlivosti Meze spolehlivosti: Pí (přesně): Dolní mez Horní mez Pí (přibližně): Dolní mez Horní mez Pí (původ.): Dolní mez Horní mez 0,0600 1000,0000 0,9000 0,0481 0,0738 0,0483 0,0741 0,0476 0,0724 Zajímá nás výsledek uvedený v dolní části tabulky, tj. Pí (původ.). Protože dolní mez oboustranného 90% intervalu spolehlivosti pro parametr ϑ je shodná s dolní mezí 95% levostranného intervalu spolehlivosti, můžeme konstatovat, že voliči budou volit danou politickou stranu s pravděpodobností aspoň 4,76 %. Na základě uvedených dat strana tedy nemá zaručeno, že překročí 5% hranici pro vstup do parlamentu. Úkol k samostatnému řešení: Přírůstky cen akcií na burze (v %) u 10 náhodně vybraných společností dosáhly těchto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Sestrojte 95% asymptotický empirický interval spolehlivosti pro pravděpodobnost, že přírůstek ceny akcie překročí 8,5 %. Výsledek: 0,096 < ϑ < 0,704 s pravděpodobností aspoň 0,95. Znamená to, že pravděpodobnost, že přírůstek ceny akcie překročí 8,5 %, je aspoň 9,6 % a nanejvýš 70,4 % (při spolehlivosti 95%.) Úkol 4.: Testování hypotézy o parametru ϑ alternativního rozložení Určitá cestovní kancelář organizuje zahraniční zájezdy podle individuálních přání zákazníků. Z několika minulých let ví, že 30% všech takto organizovaných zájezdů má za cíl zemi X. Po zhoršení politických podmínek v této zemi se cestovní kancelář obává, že se zájem o tuto zemi mezi zákazníky sníží. Ze 150 náhodně vybraných zákazníků v tomto roce má 38 za cíl právě zemi X. Potvrzují nejnovější data pokles zájmu o tuto zemi? Volte hladinu významnosti 0,05. Návod: Máme náhodný výběr X1, ..., X150 z rozložení A(0,3). Testujeme H0: ϑ = 0,3 proti levostranné alternativě H1: ϑ < 0,3. V tomto případě je testovým kritériem statistika n )c1(c cM T0 − − = , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Musíme ověřit splnění podmínky n ϑ (1- ϑ ) > 9: 150.0,3.0,7 = 31,5 > 9. Vypočteme realizaci testového kritéria: 24722,1 150 )3,01(3,0 3,0 n )c1(c cm t 150 38 0 −= − − = − − = . Kritický obor: ( α−−∞−= 1u,W = ( 645,1,−∞− . Protože testové kritérium nepatří do kritického oboru, H0 nezamítáme na asymptotické hladině významnosti 0,05. Postup ve STATISTICE: Test provedeme pomocí 95% pravostranného intervalu spolehlivosti, který vypočítáme v modulu Analýza síly testu. Statistiky – Analýza síly testu – Odhad intervalu – Jeden podíl, Z, Chí-kvadrát test – OK – Pozorovaný podíl p: 0,2533, Velikost vzorku: 150, Spolehlivost: 0,9 – Vypočítat. Dostaneme tabulku: Hodnota Podíl vzorku p Velikost vz. ve skup. (N) Interval spolehlivosti Meze spolehlivosti: Pí (přesně): Dolní mez Horní mez Pí (přibližně): Dolní mez Horní mez Pí (původ.): Dolní mez Horní mez 0,2533 150,0000 0,9000 0,1957 0,3185 0,1966 0,3193 0,1949 0,3117 Zajímá nás výsledek uvedený v dolní části tabulky, tj. Pí (původ.). Protože horní mez oboustranného 90% intervalu spolehlivosti pro parametr ϑ je shodná s horní mezí 95% pravostranného intervalu spolehlivosti, vidíme, že ( )3117,0;03,0 ∈ , tudíž nelze na asymptotické hladině významnosti 0,05 zamítnout hypotézu, že zájem o danou zemi se nezměnil.