Cvičení 6.: Parametrické úlohy

              o jednom výběru a dvou nezávislých výběrech z alternativního rozložení


Úkol 1.: Vlastnosti výběrového průměru z alternativního rozložení

Mezi americkými voliči 60% osob volí republikány a 40% demokraty. Jaká je pravděpodobnost, že v
náhodném výběru 100 amerických voličů budou voliči republikánů v menšině? Výpočet proveďte jak
přesně, tak pomocí aproximace normálním rozložením.


Návod:

X[1], ..., X[100] je náhodný výběr z A(0,6), X[i] = 1, když i-tá osoba volí republikány,
X[i] = 0 jinak, i = 1, ..., 100. Zavedeme statistiku Y[100] = X[1] + ... + X[100], Y[100] ~ Bi(100;
0,6) (viz skripta Teorie pravděpodobnosti a matematická statistika, sbírka příkladů, příklad
8.10.), E(Y[100]) =  =  100.0,6 = 60 ,  Označme Φ[100](y) distribuční funkci náhodné veličiny
Y[100], .

Přesný výpočet: P(Y[100] < 50) = P(Y[100 ]≤ 49) = Φ[100](49) = 0,016761686.

Vytvoříme datový soubor o jedné proměnné a o jednom případu. Do Dlouhého jména této proměnné
napíšeme =IBinom(49;0,6;100). Funkce IBinom(x;p;n) počítá hodnotu distribuční funkce rozložení
Bi(n,p) v bodě x.

Přibližný výpočet: užijeme důsledek Moivreovy - Laplaceovy integrální věty (viz skripta Základní
statistické metody, věta 6.3.1.1.). Nejdříve ověříme splnění podmínky dobré aproximace n  (1- ) =
100.0,6.0,4 = 24 > 9. Podmínka je splněna.

P(Y[100] < 50) = P(Y[100]≤49) Φ(49), kde Φ(49) je hodnota distribuční funkce rozložení

N(60; 24) v bodě 49.

Vytvoříme datový soubor o jedné proměnné a o jednom případu. Do Dlouhého jména této proměnné
napíšeme =INormal(49;60;sqrt(24)).

Zjistíme, že Φ(49) = 0,012372.


                                Přesný výpočet

                                              Aproximativní výpočet


Úkol 2.: Asymptotický interval spolehlivosti pro parametr  alternativního rozložení

Může politická strana, pro niž se v předvolebním průzkumu vyslovilo 60 z 1000 dotázaných osob,
očekávat se spolehlivostí aspoň 0,95, že by v této době ve volbách překročila 5% hranici pro vstup
do parlamentu?


Návod:

Zavedeme náhodné veličiny X[1], ..., X[1000], přičemž X[i] = 1, když i-tá osoba se vysloví pro
danou politickou stranu a X[i] = 0 jinak, i = 1, ..., 1000. Tyto náhodné veličiny tvoří náhodný
výběr z rozložení A( ). V tomto případě n = 1000, m = 60/1000 = 0,06, α = 0,05, u[1-α] = u[0,95] =
1,645.

Ověření podmínky n  (1- ) > 9: parametr  neznáme, musíme ho nahradit výběrovým průměrem. Pak
1000.0,06.0,94 = 56,4 > 9.

 95% levostranný interval spolehlivosti pro  je

 (viz skripta Základní statistické metody, důsledek 6.3.2.2.)


Postup ve STATISTICE:

1. možnost: Vytvoříme datový soubor o jedné proměnné a o jednom případu. Do Dlouhého jména této
proměnné napíšeme =0,06-sqrt(0,06*0,94/1000)*VNormal(0,95;0;1). Vyjde 0,047647.

2. možnost: Statistiky – Analýza síly testu – Odhad intervalu – Jeden podíl, Z, Chí-kvadrát test –
OK – Pozorovaný podíl p: 0,06, Velik. Vzorku (N): 1000, Spolehlivost: 0,9 – Vypočítat. Dostaneme
0,0476.

S pravděpodobností přibližně 0,95 tedy  > 0,047647. Protože tento interval zahrnuje i hodnoty nižší
než 0,05, nelze vyloučit, že strana získá méně než 5% hlasů.


Úkol 3: Testování hypotézy o parametru  alternativního rozložení

Určitá cestovní kancelář organizuje zahraniční zájezdy podle individuálních přání zákazníků.
Z několika minulých let ví, že 30% všech takto organizovaných zájezdů má za cíl zemi X. Po zhoršení
politických podmínek v této zemi se cestovní kancelář obává, že se zájem o tuto zemi mezi zákazníky
sníží. Ze 150 náhodně vybraných zákazníků v tomto roce má 38 za cíl právě zemi X. Potvrzují
nejnovější data pokles zájmu o tuto zemi? Volte hladinu významnosti 0,05.


Návod:

Máme náhodný výběr X[1], ..., X[150] z rozložení A(0,3). Testujeme H[0]:  = 0,3 proti levostranné
alternativě H[1]:  < 0,3. V tomto případě je testovým kritériem statistika

, která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1) (viz skripta Základní
statistické metody, věta 6.3.3.1.). Musíme ověřit splnění podmínky n  (1- ) > 9: 150.0,3.0,7 = 31,5
> 9. Vypočteme realizaci testového kritéria: . Kritický obor:  = . Protože testové kritérium
nepatří do kritického oboru, H[0] nezamítáme na asymptotické hladině významnosti 0,05. S rizikem
omylu nejvýše 5% tedy naše data neprokázala pokles zájmu zákazníků cestovní kanceláře o zemi X.


Postup ve STATISTICE:

Asymptotický způsob: Vytvoříme datový soubor o dvou proměnných (nazveme je t0 a kvantil) a jednom
případu. Vypočteme realizaci testového kritéria tak, že do Dlouhého jména  proměnné t0 napíšeme

=(38/150-0,3)/sqrt(0,3*0,7/150)

Do Dlouhého jména proměnné kvantil napíšeme

=VNormal(0,95;0;1)

Tím získáme kvantil u[0,95].

Jelikož realizace testového kritéria t[0] = -1,24721913  nepatří do kritického oboru , H[0]
nezamítáme na asymptotické hladině významnosti 0,05.

Přibližný způsob: Do nového datového souboru o jedné proměnné X a 150 případech uložíme 38 jedniček
(indikují zájem o danou zemi) a 112 nul (indikují nezájem o danou zemi).

Statistika – Základní statistiky a tabulky – t-test, samost. vzorek – OK – Proměnné X – OK, Test
všech průměrů vůči 0,3 – Výpočet.


Hodnota testové statistiky je při tomto přibližném způsobu -1,30976. Odpovídající p-hodnota je
0,1923, ovšem to je p-hodnota pro oboustranný test. Tuto p-hodnotu tedy musíme dělit dvěma a
dostaneme 0,0961. Na asymptotické hladině významnosti 0,05 nelze zamítnout hypotézu, že zájem o
danou zemi se nezměnil.


Úkol 4.: Asymptotický interval spolehlivosti pro parametrickou funkci

Při výstupní kontrole bylo náhodně vybráno 150 výrobků vyrobených na ranní směně a rovněž 150
výrobků vyrobených na odpolední směně. U ranní směny bylo zjištěno 16 zmetků a u odpolední 12
zmetků. Sestrojte 95% asymptotického interval spolehlivosti pro rozdíl pravděpodobností vyrobení
zmetku v obou směnách.


Návod: Zavedeme náhodnou veličinu X[1i], která bude nabývat hodnoty 1, když i-tý výrobek z ranní
směny je zmetek, 0 jinak, i = 1, …, 150. Náhodné veličiny X[1,1], …, X[1,150] tvoří náhodný výběr
z rozložení . Dále zavedeme náhodnou veličinu X[2i], která bude nabývat hodnoty 1, když i-tý
výrobek z odpolední směny je zmetek, 0 jinak, i = 1, …, 150.. Náhodné veličiny X[2,1], …, X[2,150]
tvoří náhodný výběr z rozložení .

n[1] = 150, n[2] = 150, m[1] = 16/150 = 0,1067, m[2] = 12/150 = 0,08.

Ověření podmínek n[1]  (1- ) > 9 a n[2]  (1- ) > 9:  Parametry  a  neznáme, nahradíme je odhady
m[1]a m[2]: 16.(1-16/150) = 14,29 > 9, 12.(1-12/150) = 11,04 > 9.

Meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametrickou funkci  jsou:

Zjistili jsme tedy, že s pravděpodobností přibližně 0,95: –0,039 <  < 0,092.


Postup ve STATISTICE:

Otevřeme nový datový soubor se dvěma proměnnými d a h a o jednom případu. Do Dlouhého jména
proměnné d napíšeme:

=16/150-12/150-sqrt((16/150)*(134/150)/150+(12/150)*(138/150)/150)*VNormal(0,975;0;1)

Do Dlouhého jména proměnné h napíšeme:

=16/150-12/150+sqrt((16/150)*(134/150)/150+(12/150)*(138/150)/150)*VNormal(0,975;0;1)

Dostaneme tabulku


S pravděpodobností přibližně 0,95 se rozdíl pravděpodobností vyrobení zmetku na ranní a odpolední
směně nachází v intervalu (-0,039; 0,092).


Úkol 5.: Testování hypotézy o parametrické funkci

Pro údaje z úkolu 4 testujte na asymptotické hladině významnosti 0,05 hypotézu, že pravděpodobnost
vyrobení zmetků v obou směnách je táž.


Postup ve STATISTICE:

Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl
mezi dvěma poměry – do políčka P 1 napíšeme 0,1067, do políčka N1 napíšeme 150, do políčka P 2
napíšeme 0,08, do políčka N2 napíšeme 150 –Výpočet. Dostaneme p-hodnotu 0,4274, tedy nezamítáme
nulovou hypotézu na hladině významnosti 0,05.


Úkol k samostatnému řešení: Přírůstky cen akcií na burze (v %) u 10 náhodně vybraných společností
dosáhly těchto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Sestrojte 95% asymptotický empirický
interval spolehlivosti pro pravděpodobnost, že přírůstek ceny akcie překročí 8,5%.

Výsledek: 0,096 < < 0,704 s pravděpodobností aspoň 0,95.

Znamená to, že pravděpodobnost, že přírůstek ceny akcie překročí 8,5%, je aspoň 9,6% a nanejvýš
70,4% (při spolehlivosti 95%.)


Úkol k samostatnému řešení: Z 28 studentek oboru národní hospodářství mělo z matematiky trojku 17
studentek, zatímco z 20 studentek oboru informatika mělo z matematiky trojku jen 6 studentek. Na
asymptotické hladině významnosti 0,05 testujte hypotézu, že pravděpodobnost získání trojky
z matematiky je obě skupiny studenek stejná.

Výsledek: Testová statistika se realizuje hodnotou  = 2,100009, kritický obor je . Protože ,
zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05.

Použijeme-li v systému STATISTICA aplikaci Testy rozdílů, dostaneme p-hodnotu 0,0358, tedy na
asymptotické hladině významnosti 0,05 zamítáme nulovou hypotézu.