Téma 8: Parametrické úlohy o dvou nezávislých náhodných výběrech z normálních rozložení a jednom náhodném výběru z alternativního rozložení Úkol 1.: Vlastnosti rozdílu výběrových průměrů ze dvou normálních rozložení Jsou dány dva nezávislé náhodné výběry, první pochází z rozložení N(2; 1,5) a má rozsah 10, druhý pochází z rozložení N(3; 4) a má rozsah 5. Jaká je pravděpodobnost, že výběrový průměr 1. výběru bude menší než výběrový průměr 2. výběru? Návod: Počítáme , kde Φ(x) je distribuční funkce statistiky M[1] - M[2]. Statistika M[1] - M[2] se řídí rozložením N(μ[1] – μ[2], ), kde μ[1] – μ[2] = 2 – 3 = -1, , tj. statistika M[1] - M[2] ~ N(-1;0,95). Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do Dlouhého jména této proměnné napíšeme = INormal(0;-1;sqrt(0,95)). Dostaneme výsledek 0,847549. Úkol 2.: Intervaly spolehlivosti pro parametrické funkce μ[1]-μ[2], σ[1]^2/σ[2] ^2 Bylo vylosováno 11 stejně starých selat téhož plemene. Šesti z nich byla předepsána výkrmná dieta č. 1 a zbylým pěti výkrmná dieta č. 2. Průměrné denní přírůstky v Dg za dobu půl roku jsou následující: dieta č. 1: 62, 54, 55, 60, 53, 58 dieta č. 2: 52, 56, 49, 50, 51. Zjištěné hodnoty považujeme za realizace dvou nezávislých náhodných výběrů pocházejících z rozložení N(μ[1], σ[1]^2) a N(μ[2], σ[2]^2). a) Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů. b) Za předpokladu, že data pocházejí z rozložení N(μ[1], σ^2) a N(μ[2], σ^2), sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot μ[1] - μ[2]. Návod: Načteme datový soubor dve_diety.sta o 2 proměnných hmotnost a dieta a 11 případech. Pomocí Popisných statistik zjistíme realizace výběrových průměrů, výběrových rozptylů a výběrových směrodatných odchylek. Pro první dietu: Pro druhou dietu: ad a) Meze 100(1-α)% empirického intervalu spolehlivosti pro podíl rozptylů jsou: (d, h) = . Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =(12,8/7,3)/VF(0,975;5;4) (Funkce VF(x;ný;omega) počítá x-kvantil Fisherova – Snedecorova rozložení F(ný, omega).) Do Dlouhého jména proměnné h napíšeme =(12,8/7,3)/VF(0,025;5;4) S pravděpodobností aspoň 0,95 tedy platí: 0,1872 < σ[1]^2/ σ[2]^2 < 12,954. ad b) Meze 100(1-α)% empirického intervalu spolehlivosti pro rozdíl středních hodnot (v případě, že rozptyly neznáme, ale víme, že jsou shodné) jsou: (d, h) = (m[1] – m[2] – t[1-α/2](n[1]+n[2]-2), m[1] – m[2] + t[1-α/2](n[1]+n[2]-2)). Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =57-51,6-sqrt((5*12,8+4*7,3)/9)*sqrt((1/6)+(1/5))*VStudent(0,975;9) Do Dlouhého jména proměnné h napíšeme =57-51,6+sqrt((5*12,8+4*7,3)/9)*sqrt((1/6)+(1/5))*VStudent(0,975;9) S pravděpodobností aspoň 0,95 tedy 0,99 Dg < μ[1] - μ[2] < 9,81 Dg. Úkol k samostatnému řešení: Jsou dány dva nezávislé náhodné výběry o rozsazích n[1] = 25, n[2] = 10, první pochází z rozložení N(μ[1], σ[1]^2), druhý z rozložení N(μ[2], σ[2]^2), kde parametry μ[1], μ[2], σ[1]^2, σ[2]^2 neznáme. Byly vypočteny realizace výběrových rozptylů: s[1]^2 = 1,7482, s[2]^2 = 1,7121. Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů. Výsledek: 0,28 < σ[1]^2/ σ[2]^2 < 2,76 s pravděpodobností aspoň 0,95. Úkol 3.: Testování hypotéz o parametrických funkcích μ[1]-μ[2], σ[1]^2/σ[2] ^2 Pro datový soubor z úkolu 2 testujte na hladině významnosti 0,05 hypotézu, že a) rozptyly hmotnostních přírůstků selat při obou výkrmných dietách jsou shodné b) obě výkrmné diety mají stejný vliv na hmotnostní přírůstky selat. Návod: Provedeme dvouvýběrový t-test současně s testem o shodě rozptylů: Statistika – Základní statistiky a tabulky – t-test, nezávislé, dle skupin – OK, Proměnné –Závislé proměnné hmotnost, Grupovací proměnná dieta – OK. Testová statistika pro test shody rozptylů se realizuje hodnotou 1,7534, odpovídající p-hodnota je 0,6063, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. (Upozornění: v případě zamítnutí hypotézy o shodě rozptylů je zapotřebí v tabulce t-testu pro nezávislé vzorky dle skupin zaškrtnout volbu Test se samostatnými odhady rozptylu.) Dále z tabulky plyne, že testová statistika pro test shody středních hodnot se realizuje hodnotou 2,7712, počet stupňů volnosti je 9, odpovídající p-hodnota 0,0217, tedy hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Znamená to, že s rizikem omylu nejvýše 5% se prokázalo, že obě výkrmné diety se liší účinností. Tabulku ještě doplníme krabicovými diagramy. Na záložce Detaily zaškrtneme krabicový graf a vybereme volbu Průměr/SmOdch/Min-Max. Upozornění: Dvouvýběrový t-test lze v systému STATISTICA provést ještě jiným způsobem, který je vhodný zvláště tehdy, známe-li realizace výběrových průměrů a výběrových směrodatných odchylek. Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma průměry (normální rozdělení) – do políčka Pr1 napíšeme 57, do políčka SmOd1 napíšeme 3,5777, do políčka N1 napíšeme 6, do políčka Pr2 napíšeme 51,6, do políčka SmOd1 napíšeme 2,7019, do políčka N1 napíšeme 5 - Výpočet. Dostaneme p-hodnotu 0,0217, tedy zamítáme nulovou hypotézu na hladině významnosti 0,05. Úkol k samostatnému řešení: Do systému STATISTICA načtěte datový soubor studentky.sta, který obsahuje údaje o výšce 48 studentek VŠE v Praze (proměnná vyska) a obor jejich studia (1 – národní hospodářství, 2 – informatika). a) Na hladině významnosti 0,1 testujte hypotézu o shodě rozptylů výšek studentek v daných dvou oborech studia. b) Na hladině významnosti 0,1 testujte hypotézu o shodě středních hodnot výšek studentek v daných dvou oborech studia. (Výpočet doplňte krabicovými diagramy.) Výsledek: ad a) Protože p-hodnota F-testu je 0,1249, což je větší než hladina významnosti 0,1, nulovou hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,1. ad b) Protože p-hodnota dvouvýběrového t-testu je 0,0878, což je menší než hladina významnosti 0,1, nulovou hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,1. Úkol 4.: Asymptotický interval spolehlivosti pro parametr alternativního rozložení Může politická strana, pro niž se v předvolebním průzkumu vyslovilo 60 z 1000 dotázaných osob, očekávat se spolehlivostí 0,95, že by v této době ve volbách překročila 5% hranici pro vstup do parlamentu? Návod: Zavedeme náhodné veličiny X[1], ..., X[1000], přičemž X[i] = 1, když i-tá osoba se vysloví pro danou politickou stranu a X[i] = 0 jinak, i = 1, ..., 1000. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A( ). V tomto případě n = 1000, m = 60/1000 = 0,06, α = 0,05, u[1-α] = u[0,95] = 1,645. Ověření podmínky n (1- ) > 9: parametr neznáme, musíme ho nahradit výběrovým průměrem. Pak 1000.0,06.0,94 = 56,4 > 9. 95% levostranný interval spolehlivosti pro je . V našem případě S pravděpodobností přibližně 0,95 tedy > 0,048. Protože tento interval zahrnuje i hodnoty nižší než 0,05, nelze vyloučit, že strana získá méně než 5% hlasů. Postup ve STATISTICE: Asymptotický způsob: Vytvoříme datový soubor o jedné proměnné (nazveme ji d) a o jednom případu. Do Dlouhého jména proměnné d napíšeme =0,06-sqrt(0,06*0,94/1000)*VNormal(0,95;0;1) Vyjde 0,047647. Přibližný způsob: Do nového datového souboru o jedné proměnné X a 1000 případech uložíme 60 jedniček (indikují volbu dané politické strany) a 940 nul (indikují volbu jiné politické strany). Statistika – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – zaškrtneme Meze spolehl. prům. – Interval 90,00 – Výpočet. Dostaneme tabulku: Protože dolní mez oboustranného 90% intervalu spolehlivosti pro střední hodnotu je shodná s dolní mezí 95% levostranného intervalu spolehlivosti, můžeme konstatovat, že voliči budou volit danou politickou stranu s pravděpodobností aspoň 4,76%. Na základě uvedených dat strana tedy nemá zaručeno, že překročí 5% hranici pro vstup do parlamentu. Úkol k samostatnému řešení: Přírůstky cen akcií na burze (v %) u 10 náhodně vybraných společností dosáhly těchto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Sestrojte 95% asymptotický empirický interval spolehlivosti pro pravděpodobnost, že přírůstek ceny akcie překročí 8,5%. Výsledek: 0,096 < < 0,704 s pravděpodobností aspoň 0,95. Znamená to, že pravděpodobnost, že přírůstek ceny akcie překročí 8,5%, je aspoň 9,6% a nanejvýš 70,4% (při spolehlivosti 95%.) Úkol 5.: Testování hypotézy o parametru alternativního rozložení Určitá cestovní kancelář organizuje zahraniční zájezdy podle individuálních přání zákazníků. Z několika minulých let ví, že 30% všech takto organizovaných zájezdů má za cíl zemi X. Po zhoršení politických podmínek v této zemi se cestovní kancelář obává, že se zájem o tuto zemi mezi zákazníky sníží. Ze 150 náhodně vybraných zákazníků v tomto roce má 38 za cíl právě zemi X. Potvrzují nejnovější data pokles zájmu o tuto zemi? Volte hladinu významnosti 0,05. Návod: Máme náhodný výběr X[1], ..., X[150] z rozložení A(0,3). Testujeme H[0]: = 0,3 proti levostranné alternativě H[1]: < 0,3. V tomto případě je testovým kritériem statistika , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Musíme ověřit splnění podmínky n (1- ) > 9: 150.0,3.0,7 = 31,5 > 9. Vypočteme realizaci testového kritéria: . Kritický obor: = . Protože testové kritérium nepatří do kritického oboru, H[0] nezamítáme na asymptotické hladině významnosti 0,05. Postup ve STATISTICE: Asymptotický způsob: Vytvoříme datový soubor o dvou proměnných (nazveme je t0 a kvantil) a jednom případu. Vypočteme realizaci testového kritéria tak, že do Dlouhého jména proměnné t0 napíšeme =(38/150-0,3)/sqrt(0,3*0,7/150) Do Dlouhého jména proměnné kvantil napíšeme =VNormal(0,95;0;1) Tím získáme kvantil u[0,95]. Jelikož realizace testového kritéria t[0] = -1,24721913 nepatří do kritického oboru , H[0] nezamítáme na asymptotické hladině významnosti 0,05. Přibližný způsob: Do nového datového souboru o jedné proměnné X a 150 případech uložíme 38 jedniček (indikují zájem o danou zemi) a 112 nul (indikují nezájem o danou zemi). Statistika – Základní statistiky a tabulky – t-test, samost. vzorek – OK – Proměnné X – OK, Test všech průměrů vůči 0,3 – Výpočet. Hodnota testové statistiky je při tomto přibližném způsobu -1,30976. Odpovídající p-hodnota je 0,1923, ovšem to je p-hodnota pro oboustranný test. Tuto p-hodnotu tedy musíme dělit dvěma a dostaneme 0,0961. Na asymptotické hladině významnosti 0,05 nelze zamítnout hypotézu, že zájem o danou zemi se nezměnil.