Cvičení 7.: Parametrické úlohy o jednom výběru a dvou nezávislých výběrech z alternativního rozložení Úkol 1.: Vlastnosti výběrového průměru z alternativního rozložení Mezi americkými voliči 60% osob volí republikány a 40% demokraty. Jaká je pravděpodobnost, že v náhodném výběru 100 amerických voličů budou voliči republikánů v menšině? Výpočet proveďte jak přesně, tak pomocí aproximace normálním rozložením. Návod: X1, ..., X100 je náhodný výběr z A(0,6), Xi = 1, když i-tá osoba volí republikány, Xi = 0 jinak, i = 1, ..., 100. Zavedeme statistiku Y100 = X1 + ... + X100, Y100 ~ Bi(100; 0,6) (viz skripta Teorie pravděpodobnosti a matematická statistika, sbírka příkladů, příklad 8.10.), E(Y100) = ϑn = 100.0,6 = 60 , ( ) ( ) 244,0.6,0.1001nYD 100 ==ϑ−ϑ= Označme Φ100(y) distribuční funkci náhodné veličiny Y100, t100t y 0t 100 4,06,0 t 100 )y( − = ∑       =Φ . Přesný výpočet: P(Y100 < 50) = P(Y100 ≤ 49) = Φ100(49) = 0,016761686. Vytvoříme datový soubor o jedné proměnné a o jednom případu. Do Dlouhého jména této proměnné napíšeme =IBinom(49;0,6;100). Funkce IBinom(x;p;n) počítá hodnotu distribuční funkce rozložení Bi(n,p) v bodě x. Přibližný výpočet: užijeme důsledek Moivreovy - Laplaceovy integrální věty (viz skripta Základní statistické metody, věta 6.3.1.1.). Nejdříve ověříme splnění podmínky dobré aproximace nϑ (1- ϑ) = 100.0,6.0,4 = 24 > 9. Podmínka je splněna. P(Y100 < 50) = P(Y100≤49) ≈Φ(49), kde Φ(49) je hodnota distribuční funkce rozložení N(60; 24) v bodě 49. Vytvoříme datový soubor o jedné proměnné a o jednom případu. Do Dlouhého jména této proměnné napíšeme =INormal(49;60;sqrt(24)). Zjistíme, že Φ(49) = 0,012372. Přesný výpočet 1 Prom1 1 0,016762 Aproximativní výpočet 1 Prom1 1 0,012372 Úkol 2.: Asymptotický interval spolehlivosti pro parametr ϑ alternativního rozložení Může politická strana, pro niž se v předvolebním průzkumu vyslovilo 60 z 1000 dotázaných osob, očekávat se spolehlivostí aspoň 0,95, že by v této době ve volbách překročila 5% hranici pro vstup do parlamentu? Návod: Zavedeme náhodné veličiny X1, ..., X1000, přičemž Xi = 1, když i-tá osoba se vysloví pro danou politickou stranu a Xi = 0 jinak, i = 1, ..., 1000. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A(ϑ ). V tomto případě n = 1000, m = 60/1000 = 0,06, α = 0,05, u1-α = u0,95 = 1,645. Ověření podmínky n ϑ (1- ϑ ) > 9: parametr ϑ neznáme, musíme ho nahradit výběrovým průměrem. Pak 1000.0,06.0,94 = 56,4 > 9. 95% levostranný interval spolehlivosti pro ϑ je ( ) ( )         ∞ − −=        ∞ − − α− ;u 1000 06,0106,0 06,0;u n m1m m 95,01 (viz skripta Základní statistické metody, důsledek 6.3.2.2.) Postup ve STATISTICE: 1. možnost: Vytvoříme datový soubor o jedné proměnné a o jednom případu. Do Dlouhého jména této proměnné napíšeme =0,06-sqrt(0,06*0,94/1000)*VNormal(0,95;0;1). Vyjde 0,047647. 2. možnost: Statistiky – Analýza síly testu – Odhad intervalu – Jeden podíl, Z, Chí-kvadrát test – OK – Pozorovaný podíl p: 0,06, Velik. Vzorku (N): 1000, Spolehlivost: 0,9 – Vypočítat. Dostaneme 0,0476. S pravděpodobností přibližně 0,95 tedy ϑ > 0,047647. Protože tento interval zahrnuje i hodnoty nižší než 0,05, nelze vyloučit, že strana získá méně než 5% hlasů. Úkol 3: Testování hypotézy o parametru ϑ alternativního rozložení Určitá cestovní kancelář organizuje zahraniční zájezdy podle individuálních přání zákazníků. Z několika minulých let ví, že 30% všech takto organizovaných zájezdů má za cíl zemi X. Po zhoršení politických podmínek v této zemi se cestovní kancelář obává, že se zájem o tuto zemi mezi zákazníky sníží. Ze 150 náhodně vybraných zákazníků v tomto roce má 38 za cíl právě zemi X. Potvrzují nejnovější data pokles zájmu o tuto zemi? Volte hladinu významnosti 0,05. Návod: Máme náhodný výběr X1, ..., X150 z rozložení A(0,3). Testujeme H0: ϑ = 0,3 proti levostranné alternativě H1: ϑ < 0,3. V tomto případě je testovým kritériem statistika n )c1(c cM T0 − − = , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1) (viz skripta Základní statistické metody, věta 6.3.3.1.). Musíme ověřit splnění podmínky n ϑ (1- ϑ ) > 9: 150.0,3.0,7 = 31,5 > 9. Vypočteme realizaci testového kritéria: 24722,1 150 )3,01(3,0 3,0 n )c1(c cm 150 38 −= − − = − − . Kritický obor: ( α−−∞−= 1u,W = ( 645,1,−∞− . Protože testové kritérium nepatří do kritického oboru, H0 nezamítáme na asymptotické hladině významnosti 0,05. Naše data neprokázala pokles zájmu zákazníků cestovní kanceláře o zemi X. Postup ve STATISTICE: Asymptotický způsob: Vytvoříme datový soubor o dvou proměnných (nazveme je t0 a kvantil) a jednom případu. Vypočteme realizaci testového kritéria tak, že do Dlouhého jména proměnné t0 napíšeme =(38/150-0,3)/sqrt(0,3*0,7/150) Do Dlouhého jména proměnné kvantil napíšeme =VNormal(0,95;0;1) Tím získáme kvantil u0,95. 1 t0 2 kvantil 1 -1,24721913 1,644854 Jelikož realizace testového kritéria t0 = -1,24721913 nepatří do kritického oboru ( 644854,1,W −∞−= , H0 nezamítáme na asymptotické hladině významnosti 0,05. Přibližný způsob: Do nového datového souboru o jedné proměnné X a 150 případech uložíme 38 jedniček (indikují zájem o danou zemi) a 112 nul (indikují nezájem o danou zemi). Statistika – Základní statistiky a tabulky – t-test, samost. vzorek – OK – Proměnné X – OK, Test všech průměrů vůči 0,3 – Výpočet. Test průměrů vůči referenční konstantě (hodnotě) (Tabulka4) Proměnná Průměr Sm.odch. N Sm.chyba Referenční konstanta t SV p X 0,253333 0,436377 150 0,035630 0,300000 -1,30976 149 0,192294 Hodnota testové statistiky je při tomto přibližném způsobu -1,30976. Odpovídající p-hodnota je 0,1923, ovšem to je p-hodnota pro oboustranný test. Tuto p-hodnotu tedy musíme dělit dvěma a dostaneme 0,0961. Na asymptotické hladině významnosti 0,05 nelze zamítnout hypotézu, že zájem o danou zemi se nezměnil. Použití aplikace Testy rozdílů Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma poměry – do políčka P 1 napíšeme 0,2533, do políčka N1 napíšeme 150, do políčka P 2 napíšeme 0,3, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní), zaškrtneme Jednostr. - Výpočet. Dostaneme p-hodnotu 0,1065, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Úkol 4.: Asymptotický interval spolehlivosti pro parametrickou funkci 21 ϑ−ϑ Při výstupní kontrole bylo náhodně vybráno 150 výrobků vyrobených na ranní směně a rovněž 150 výrobků vyrobených na odpolední směně. U ranní směny bylo zjištěno 16 zmetků a u odpolední 12 zmetků. Sestrojte 95% asymptotického interval spolehlivosti pro rozdíl pravděpodobností vyrobení zmetku v obou směnách. Návod: Zavedeme náhodnou veličinu X1i, která bude nabývat hodnoty 1, když i-tý výrobek z ranní směny je zmetek, 0 jinak, i = 1, …, 150. Náhodné veličiny X1,1, …, X1,150 tvoří náhodný výběr z rozložení ( )1A ϑ . Dále zavedeme náhodnou veličinu X2i, která bude nabývat hodnoty 1, když i-tý výrobek z odpolední směny je zmetek, 0 jinak, i = 1, …, 150. Náhodné veličiny X2,1, …, X2,150 tvoří náhodný výběr z rozložení ( )2A ϑ . n1 = 150, n2 = 150, m1 = 16/150 = 0,1067, m2 = 12/150 = 0,08. Ověření podmínek n1 1ϑ (1- 1ϑ ) > 9 a n2 2ϑ (1- 2ϑ ) > 9: Parametry 1ϑ a 2ϑ neznáme, nahradíme je odhady m1 a m2: 16.(1-16/150) = 14,29 > 9, 12.(1-12/150) = 11,04 > 9. Meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametrickou funkci 21 ϑ−ϑ jsou: 092,096,1 150 )1( 150 )1( 150 12 150 16 u n )m1(m n )m1(m mmh 039,096,1 150 )1( 150 )1( 150 12 150 16 u n )m1(m n )m1(m mmd 150 12 150 12 150 16 150 16 2/1 2 22 1 11 21 150 12 150 12 150 16 150 16 2/1 2 22 1 11 21 = − + − +−= = − + − +−= −= − + − −−= = − + − −−= α− α− Zjistili jsme tedy, že s pravděpodobností přibližně 0,95: –0,039 < 21 ϑ−ϑ < 0,092. Postup ve STATISTICE: Otevřeme nový datový soubor se dvěma proměnnými d a h a o jednom případu. Do Dlouhého jména proměnné d napíšeme: =16/150-12/150-sqrt((16/150)*(134/150)/150+(12/150)*(138/150)/150)*VNormal(0,975;0;1) Do Dlouhého jména proměnné h napíšeme: =16/150- 12/150+sqrt((16/150)*(134/150)/150+(12/150)*(138/150)/150)*VNormal(0,975;0;1) Dostaneme tabulku 1 d 2 h 1 -0,0391 0,092433 S pravděpodobností přibližně 0,95 se rozdíl pravděpodobností vyrobení zmetku na ranní a odpolední směně nachází v intervalu (-0,039; 0,092). Úkol 5.: Testování hypotézy o parametrické funkci 21 ϑ−ϑ Pro údaje z úkolu 4 testujte na asymptotické hladině významnosti 0,05 hypotézu, že pravděpodobnost vyrobení zmetků v obou směnách je táž. Postup ve STATISTICE: Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma poměry – do políčka P 1 napíšeme 0,1067, do políčka N1 napíšeme 150, do políčka P 2 napíšeme 0,08, do políčka N2 napíšeme 150 –Výpočet. Dostaneme p-hodnotu 0,4274, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Úkol k samostatnému řešení: Přírůstky cen akcií na burze (v %) u 10 náhodně vybraných společností dosáhly těchto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Sestrojte 95% asymptotický empirický interval spolehlivosti pro pravděpodobnost, že přírůstek ceny akcie překročí 8,5%. Výsledek: 0,096 < ϑ < 0,704 s pravděpodobností aspoň 0,95. Znamená to, že pravděpodobnost, že přírůstek ceny akcie překročí 8,5%, je aspoň 9,6% a nanejvýš 70,4% (při spolehlivosti 95%.) Úkol k samostatnému řešení: Z 28 studentek oboru národní hospodářství mělo z matematiky trojku 17 studentek, zatímco z 20 studentek oboru informatika mělo z matematiky trojku jen 6 studentek. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že pravděpodobnost získání trojky z matematiky je obě skupiny studentek stejná. Výsledek: Testová statistika se realizuje hodnotou 0t = 2,100009, kritický obor je ( )∞∪−∞−= ;96,196,1;W . Protože Wt0 ∈ , zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. Použijeme-li v systému STATISTICA aplikaci Testy rozdílů, dostaneme p-hodnotu 0,0358, tedy na asymptotické hladině významnosti 0,05 zamítáme nulovou hypotézu.