Cvičení 7.: Ověřování normality, úlohy o náhodném výběru z normálního

a alternativního rozložení


Úkol 1. : U 45 studentek VŠE v Praze byla zjišťována výška a obor studia (1 – národní hospodářství,
2 – informatika). Hodnoty jsou uloženy v souboru vyska.sta. Pomocí Lilieforsovy modifikace K-S
testu a pomocí S-W testu testujte na hladině významnosti 0,05 hypotézu, že data pocházejí
z normálního rozložení. Pomocí histogramu  posuďte vizuálně předpoklad normality.

Návod:

Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK – Normalita –
zaškrtneme Lilieforsův test a S-W test – Testy normality.

Výstupní tabulka obsahuje počet pozorování, hodnotu testové statistiky Lilieforsovy modifikace K-S
testu (max D = 0,155621), p-hodnotu (p < 0,01), testovou statistiku S-W testu (W = 0,965996) a
odpovídající p-hodnotu (p = 0,176031). Vidíme, že Lilieforsův test zamítá hypotézu o normalitě na
hladině významnosti 0,05, zatímco S-W test nikoli.


Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Normalita –
zaškrtneme K-S test & Lilieforsův test a S-W test – Histogram.


V tomto případě dostaneme v záhlaví  histogramu stejné informace jako pomocí předešlého způsobu.


Samostatný úkol: Testy normality a grafické ověření normality proveďte jak pro výšky studentek
oboru národní hospodářství, tak pro výška studentek oboru informatiky.

(Upozornění: Úkol lze provést pomocí filtru nebo pomocí volby Analýza skupin, kde roli skupinové
proměnné hraje Z.)


Pro kontrolu:

Výsledky pro obor národní hospodářství:

Vidíme, že Lilieforsova varianta K-S testu zamítá hypotézu o normalitě na hladině významnosti 0,05
(p-hodnota je menší než 0,05), zatímco S-W test hypotézu o normalitě nezamítá (p-hodnota je větší
než 0,05).


Výsledky pro obor informatika:

V tomto případě ani jeden z testů hypotézu o normalitě nezamítá na hladině významnosti 0,05.


Úkol 2.: Intervaly spolehlivosti pro parametry μ, σ^2 normálního rozložení

Z populace stejně starých selat téhož plemene bylo vylosováno šest selat a po dobu půl roku jim
byla podávána táž výkrmná dieta. Byly zaznamenávány průměrné denní přírůstky hmotnosti v Dg.  Z
dřívějších pokusů je známo , že v populaci mívají takové přírůstky normální rozložení, avšak
střední hodnota i rozptyl se měnívají. Přírůstky v Dg: 62, 54, 55, 60, 53, 58.

a)      Najděte 95% empirický levostranný interval spolehlivosti pro neznámou střední hodnotu μ při
neznámé směrodatné odchylce σ.

b)      Najděte 95% empirický interval spolehlivosti pro směrodatnou odchylku σ.

Návod:

Vytvoříme nový datový soubor o jedné proměnné X a 6 případech. Do proměnné X napíšeme dané hodnoty.

Ad a) Statistiky – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X – OK –
Detailní výsledky – zaškrtneme Meze spolehl. prům. (ostatní volby zrušíme)  – pro jednostranný
interval změníme hodnotu na 90,00 - Výpočet. (Hodnotu změníme na 90, protože dolní mez
levostranného 95% intervalu spolehlivosti pro μ je stejná jako dolní mez oboustranného 95%
intervalu spolehlivosti pro μ.)


Vidíme, že μ > 54,06 Dg s pravděpodobností aspoň 0,95.


Ad b) Statistiky – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X – OK –
Detailní výsledky – zaškrtneme Meze sp. směr. odch., ponecháme implicitní hodnotu 95,00 – Výpočet.


Dostáváme výsledek: 2,23 g < σ < 8,77 g s pravděpodobností aspoň 0,95.


Úkol 3.: Testování hypotézy o parametru μ  normálního rozložení

Systematická chyba měřicího přístroje se eliminuje nastavením přístroje a měřením etalonu, jehož
správná hodnota je μ = 10,00. Nezávislými měřeními za stejných podmínek byly získány hodnoty:
10,24  10,12  9,91  10,19  9,78  10,14  9,86  10,17  10,05, které považujeme za realizace náhodného
výběru rozsahu 9 z rozložení N(μ, σ^2). Je možné při riziku 0,05 vysvětlit odchylky od hodnoty
10,00 působením náhodných vlivů?

Návod:

Na hladině významnosti 0,05 testujeme hypotézu H[0]: μ = 10 proti oboustranné alternativě H[1]: μ �
10. Jde o úlohu na jednovýběrový t-test. Ten je ve STATISTICE implementován. Vytvoříme datový
soubor o jedné proměnné a devíti případech, kam zapíšeme naměřené hodnoty. V Základních
statistikách/tabulkách vybereme t-test, samostatný vzorek. Do Referenčních hodnot zapíšeme 10. Ve
výstupu se podíváme na hodnotu testového kritéria a na p-hodnotu. Pokud p-hodnota bude menší nebo
rovna 0,05, zamítneme hypotézu H[0]: μ = 10 ve prospěch oboustranné alternativní hypotézy H[1]: μ �
10 na hladině významnosti 0,05. V opačném případě H[0] nezamítáme. V našem případě je


Protože p-hodnota 0,373470 > 0,05 nulovou hypotézu nezamítáme na hladině významnosti 0,05.
S rizikem omylu nejvýše 5% lze tedy odchylky od hodnoty 10 vysvětlit  působením náhodných vlivů.

Všimněme si ještě hodnoty testového kriteria: = 0,942611. Kritický obor

Protože , nezamítáme na hladině významnosti 0,05 hypotézu  .


Úkol 4.: Interval spolehlivosti pro rozdíl parametrů μ[1 ]- μ[2] dvourozměrného rozložení

Bylo vylosováno 6 vrhů selat a z nich vždy dva sourozenci. Jeden z nich vždy dostal náhodně dietu
č. 1 a druhý dietu č. 2. Přírůstky v Dg jsou následující: (62,52), (54,56), (55,49), (60,50),
(53,51), (58,50). Za předpokladu, že rozdíly uvedených dvojic tvoří náhodný výběr z normálního
rozložení se  střední hodnotou μ[1 ]- μ[2], sestrojte 95% interval spolehlivosti pro rozdíl
středních hodnot.

Návod:

Vytvoříme datový soubor o třech proměnných a šesti případech. Do proměnných v1 a v2 zapíšeme
naměřené přírůstky, do proměnné v3 uložíme rozdíly v1 - v2.

Ve STATISTICE je implementován výpočet oboustranného intervalu spolehlivosti pro μ,  když  neznáme.
Pomocí Popisných statistik zjistíme meze 95% intervalu spolehlivosti pro střední hodnotu proměnné
v3 tak, že zaškrtneme Meze spoleh. prům.


Dostaneme výsledek: 0,63 Dg < μ < 10,71 Dg s pravděpodobností aspoň 0,95.


Úkol vý pýznamnosti 0,05 se tedykritického oboru 5.: Testování hypotézy o rozdíl parametrů μ[1 ]-
μ[2] dvourozměrného rozložení

Pro data z úkolu 5. testujte na hladině významnosti 0,05 hypotézu, že obě výkrmné diety mají stejný
vliv.

Návod:

Označme μ  = μ[1 ]- μ[2]. Na hladině významnosti 0,05 testujeme hypotézu H[0]: μ = 0 proti
oboustranné alternativě H[1]: μ ≠ 0. Jde o úlohu na párový t-test. Ten je ve STATISTICE
implementován.Vytvoříme datový soubor o dvou proměnných a šesti případech. Do proměnných v1 a v2
zapíšeme naměřené přírůstky. V menu Základní statistiky/tabulky vybereme t-test, závislé vzorky.
Zadáme názvy obou proměnných a ve výstupu se podíváme na hodnotu testového kritéria a na p-hodnotu.


Protože p-hodnota 0,034183 < 0,05, zamítáme hypotézu H[0]: μ = 0 ve prospěch alternativní hypotézy
H[1]: μ ≠ 0 na hladině významnosti 0,05. Znamená to, že jsme s rizikem omylu nejvýše 5% prokázali
rozdíl v účinnosti obou výkrmných diet.

Všimněme si ještě hodnoty testového kriteria: = 2,890087. Kritický obor

Protože , zamítáme na hladině významnosti 0,05 hypotézu .


Úkol 6.: Asymptotický interval spolehlivosti pro parametr  alternativního rozložení

Může politická strana, pro niž se v předvolebním průzkumu vyslovilo 60 z 1000 dotázaných osob,
očekávat se spolehlivostí aspoň 0,95, že by v této době ve volbách překročila 5% hranici pro vstup
do parlamentu?


Návod:

Zavedeme náhodné veličiny X[1], ..., X[1000], přičemž X[i] = 1, když i-tá osoba se vysloví pro
danou politickou stranu a X[i] = 0 jinak, i = 1, ..., 1000. Tyto náhodné veličiny tvoří náhodný
výběr z rozložení A( ). V tomto případě n = 1000, m = 60/1000 = 0,06, α = 0,05, u[1-α] = u[0,95] =
1,645.

Ověření podmínky n  (1- ) > 9: parametr  neznáme, musíme ho nahradit výběrovým průměrem. Pak
1000.0,06.0,94 = 56,4 > 9.

 95% levostranný interval spolehlivosti pro  je


Postup ve STATISTICE:

Statistiky – Analýza síly testu – Odhad intervalu – Jeden podíl, Z, Chí-kvadrát test – OK –
Pozorovaný podíl p: 0,06, Velik. Vzorku (N): 1000, Spolehlivost: 0,9 – Vypočítat. Dostaneme 0,0476.

S pravděpodobností přibližně 0,95 tedy  > 0,047647. Protože tento interval zahrnuje i hodnoty nižší
než 0,05, nelze vyloučit, že strana získá méně než 5% hlasů.


Úkol 7: Testování hypotézy o parametru  alternativního rozložení

Určitá cestovní kancelář organizuje zahraniční zájezdy podle individuálních přání zákazníků.
Z několika minulých let ví, že 30% všech takto organizovaných zájezdů má za cíl zemi X. Po zhoršení
politických podmínek v této zemi se cestovní kancelář obává, že se zájem o tuto zemi mezi zákazníky
sníží. Ze 150 náhodně vybraných zákazníků v tomto roce má 38 za cíl právě zemi X. Potvrzují
nejnovější data pokles zájmu o tuto zemi? Volte hladinu významnosti 0,05.


Návod:

Máme náhodný výběr X[1], ..., X[150] z rozložení A(0,3). Testujeme H[0]:  = 0,3 proti levostranné
alternativě H[1]:  < 0,3. V tomto případě je testovým kritériem statistika

, která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1) Musíme ověřit splnění
podmínky n  (1- ) > 9: 150.0,3.0,7 = 31,5 > 9.

Vypočteme realizaci testové statistiky: t[0] = .

Kritický obor:  = .

Protože testová statistika nepatří do kritického oboru, H[0] nezamítáme na asymptotické hladině
významnosti 0,05. S rizikem omylu nejvýše 5% tedy naše data neprokázala pokles zájmu zákazníků
cestovní kanceláře o zemi X.


Postup ve STATISTICE:

Použijeme aplikaci Testy rozdílů:

Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl
mezi dvěma poměry – do políčka P 1 napíšeme 0,2533 (tj. 35/150), do políčka N1 napíšeme 150, do
políčka P 2 napíšeme 0,3, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) – zaškrtneme
Jednostr. - Výpočet. Dostaneme p-hodnotu 0,1065, tedy nezamítáme nulovou hypotézu na hladině
významnosti 0,05.