Ověřování normality
Grafický způsob
a) Normální pravděpodobnostní graf (NP-plot)
NP-plot umožňuje graficky posoudit, zda data pocházejí z normálního rozložení.
Způsob konstrukce:
na vodorovnou osu vynášíme uspořádané hodnoty x(1) ≤ ... ≤ x(n),
na svislou osu vynášíme kvantily j
uα , kde
1n3
1j3
j
+
−
=α ,
přičemž j je pořadí j-té uspořádané hodnoty (jsou-li některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající
takové skupince).
Pocházejí-li data z normálního rozložení, pak všechny dvojice ( )j
u,x )j( α budou ležet na přímce.
Příklad na konstrukci N – P plotu:
Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí
normálního pravděpodobnostního grafu posuďte, zda se tato data řídí normálním rozložením.
Řešení:
usp. hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4
pořadí 1 2 3 4 5 6 7 8 9 10
průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10
Vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10),
vektor hodnot ( )9355,0;8387,0;7419,0;5968,0;4032,0;2581,0;1129,0
1n3
1j3
j =
+
−
=α ,
vektor kvantilů ( )5179,1;9892,0;6493,0;245,0;245,0;6493,0;2112,1u j
−−−=α .
Normální pravděpodobnostní graf
1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
Protože dvojice ( )j
u,x )j( α téměř leží na přímce, lze usoudit, že data pocházejí z normálního rozložení.
Výpočet pomocí systému STATISTICA:
Otevřeme nový datový soubor o jedné proměnné a 10 případech. Zjištěné hodnoty zapíšeme do proměnné X.
Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnná X – OK - odškrtneme Neurčovat průměrnou pozici
svázaných pozorování - OK.
Normální p-graf zx
Tabulka21 1v*10c
1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5
Pozorovaná hodnota
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
Očekávanánormálníhodnota
b) Kvantil-kvantilový graf (Q-Q plot)
Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např. systém STATISTICA nabízí 8 typů
rozložení: beta, exponenciální, Gumbelovo, gamma, log-normální, normální, Rayleighovo a Weibulovo). Pro nás je
nejdůležitější právě normální rozložení.
Způsob konstrukce:
na svislou osu vynášíme uspořádané hodnoty x(1) ≤ ... ≤ x(n),
na vodorovnou osu kvantily )X(K jα vybraného rozložení, kde
adj
adj
j
nn
rj
+
−
=α ,
přičemž radj a nadj jsou korigující faktory ≤ 0,5, implicitně radj = 0,375 a nadj = 0,25.
(Jsou-li některé hodnoty x(1) ≤ ... ≤ x(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.)
Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadnou z dat nebo je může zadat uživatel.
Body ( )( )jx),X(K jα se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím je lepší
soulad mezi empirickým a teoretickým rozložením.
Příklad na konstrukci Q-Q plotu: Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1
2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí Q-Q plotu ověřte, zda se tato data řídí normálním rozložením.
Řešení:
usp.hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4
pořadí 1 2 3 4 5 6 7 8 9 10
průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10
Vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10)
vektor hodnot ( )939,0;8415,0;7439,0;5976,0;4024,0;2561,0;1098,0
25,0n
375,0j
j =
+
−
=α
vektor kvantilů ( )566,1;0005,1;6554,0;247,0;247,0;6554,0;2278,1u j
−−−=α
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
1
1.2
1.4
1.6
1.8
2
2.2
2.4
2.6
2.8
3
Vzhled grafu nasvědčuje tomu, že data pocházejí z normálního rozložení.
Výpočet pomocí systému STATISTICA:
Otevřeme nový datový soubor o jedné proměnné a 10 případech. Zjištěné hodnoty zapíšeme do proměnné X.
Grafy – 2D Grafy – Grafy typu Q-Q– Proměnná X – OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování -
OK.
Graf kvantil-kvantil z X
mereni konst.sta 1v*10c
Rozdělení:Normální
X = 2,058+0,2198*x
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Teoretický kvantil
0,10 0,25 0,50 0,75 0,90 0,95
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
Pozorovanýkvantil
c) Histogram
Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. (Ve
STATISTICE je pojem histogramu širší, skrývá se za ním i sloupkový diagram.)
Způsob konstrukce ve STATISTICE:
na vodorovnou osu se vynášejí třídicí intervaly (implicitně 10, jejich počet lze změnit, stejně tak i meze třídicích intervalů)
či varianty znaku a na svislou osu absolutní nebo relativní četnosti třídicích intervalů či variant. Do histogramu se zakreslí
tvar hustoty (či pravděpodobnostní funkce) vybraného teoretického rozložení. Kromě 8 typů rozložení uvedených u Q-Q
plotu umožňuje STATISTICA použít ještě další 4 rozložení: Laplaceovo, logistické, geometrické, Poissonovo.
Příklad na konstrukci histogramu:
U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč).
Výdaje ( 65,35 ( 95,65 ( 125,95 ( 155,125 ( 185,155 ( 215,185
Počet dom. 7 16 27 14 4 2
Nakreslete histogram.
Řešení:
Nejprve sestavíme tabulku rozložení četností:
( 1jj u,u +
x[j] dj nj pj Nj Fj fj
( 65,35 50 30 7 7/70=0,1 7 7/70=0,1 7/2100=0,0033
( 95,65 80 30 16 16/70=0,23 23 23/70=0,33 16/2100=0,0076
( 125,95 110 30 27 27/70=0,38 50 50/70=0,71 23/2100=0,0109
( 155,125 140 30 14 14/70=0,2 64 64/70=0,91 14/2100=0,0067
( 185,155 170 30 4 4/70=0,06 68 68/70=0,97 4/2100=0,0019
( 215,185 200 30 2 2/70=0,03 70 70/70=1 2/2100=0,00010
S pomocí této tabulky sestrojíme histogram:
35 65 95 125 155 185 215
0,000
0,002
0,004
0,006
0,008
0,010
0,012
0,014
Výpočet pomocí systému STATISTICA:
Otevřeme nový datový soubor o dvou proměnných a 6 případech. První proměnnou nazveme X, druhou cetnost. Do
proměnné X napíšeme středy třídicích intervalů, do proměnné cetnost odpovídající absolutní četnosti:
1
X
2
cetnost
1
2
3
4
5
6
50 7
80 16
110 27
140 14
170 4
200 2
Grafy – Histogramy – zadáme proměnnou vah cetnost – Proměnná X - zaškrtneme Hranice – Určit hranice – zaškrtneme
Zadejte hraniční rozmezí: Minimum 35, Krok 30, Maximum 215 – OK – OK. Dostaneme graf:
Histogram z X
Tabulka8 2v*6c
X= 70*30*normal(x; 109,1429; 34,6303)
35 65 95 125 155 185 215
X
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30Početpozorování
Na rozdíl od histogramu konstruovaného ručně jsou na svislé ose absolutní četnosti, nikoliv četnostní hustoty. V porovnání
s grafem hustoty normálního rozložení je vidět, že naše rozložení četností je lehce kladně zešikmené. Naše data tedy
nepocházejí z normálního rozložení.
Ověřování dvourozměrné normality pomocí dvourozměrného tečkového diagramu
Máme dvourozměrný datový soubor (x1, y1), … , (xn, yn), který je realizací dvourozměrného náhodného výběru
(X1, Y1), … , (Xn, Yn) z dvourozměrného rozložení. Na vodorovnou osu vyneseme hodnoty xj , na svislou hodnoty yk a do
příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dvojice (xj, yk). Jedná-li se o náhodný výběr
z dvourozměrného normálního rozložení, měly by tečky zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice
hustoty dvourozměrného normálního rozložení jsou totiž elipsy – viz následující obrázek.
Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry µ1 = 0, µ2 = 0, σ1
2
= 1, σ2
2
= 1, ρ = -0,75:
Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1-α)% elipsu konstantní hustoty pravděpodobnosti.
Bude-li více než 100α % teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa
elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé
lineární závislosti.
Příklad: Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru.
Číslo studenta 1 2 3 4 5 6 7 8
Počet bodů v 1. testu 80 50 36 58 42 60 56 68
Počet bodů ve 2. testu 65 60 35 39 48 44 48 61
Pomocí dvourozměrného tečkového diagramu se zakreslenou 95% elipsou konstantní hustoty pravděpodobnosti a histogramy
pro počty bodů v 1. a 2. testu posuďte, zda tato data lze považovat za realizace náhodného výběru z dvourozměrného
normálního rozložení.
Řešení:Vytvoříme nový datový soubor se dvěma proměnnými Test1 a Test2 a osmi případy. Nyní nakreslíme dvourozměrný
tečkový diagram: Grafy – 2D Grafy - Bodové grafy s histogramy. V typu proložení pro bodový graf vypneme lineární
proložení. Proměnné – X – Test1, Y – Test2 – OK. Dostaneme dvourozměrný tečkový diagram pro vektorovou proměnnou
(Test1, Test2) a histogramy pro Test1 a Test2. Nyní do diagramu zakreslíme 95% elipsu konstantní hustoty pravděpodobnosti:
2x klikneme na pozadí grafu a otevře se okno s názvem Vš. možnosti. Vybereme Graf: Elipsa, zvolíme Přidat novou
elipsu. Po vykreslení elipsy změníme měřítko: na vodorovné ose bude minimum 0, maximum 120, na svislé ose bude minimum
0, maximum 100. (Stačí 2x kliknout na číselný popis osy a na záložce Měřítka vybrat manuální mód.)
Bodový grafs histogramy ( 2v*8c)
0
2
4
0 20 40 60 80 100 120
Test1
0
20
40
60
80
100
Test2
0 2 4
Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat
určitý stupeň přímé lineární závislosti, tzn., že u studentů, kteří měli vysoký resp. nízký počet bodů v 1. testu, lze očekávat
vysoký resp. nízký počet bodů ve 2. testu.
Testy normality dat
K ověřování normality dat slouží celá řada testů, které jsou podrobně popsány ve statistické literatuře. Zde se omezíme na tři
testy, které jsou implementovány v systému STATISTICA, a to Kolmogorovův – Smirnovův test a jeho Lilieforsovu variantu,
Shapirův – Wilksův test a Andersenův – Darlingův test.
K závěrům těchto testů však přistupujeme s určitou opatrností. Máme-li k dispozici rozsáhlejší datový soubor (orientačně n
> 30) a test zamítne na obvyklé hladině významnosti 0,01 nebo 0,05 hypotézu o normalitě, i když vzhled diagnostických
grafů svědčí jenom o lehkém porušení normality, nedopustíme se závažné chyby, pokud použijeme statistickou metodu založenou
na normalitě dat.
Kolmogorovův – Smirnovův test a jeho Lilieforsova varianta
Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z normálního rozložení s parametry µ a σ2
.
Distribuční funkci tohoto rozložení označme ΦT (x).
Nechť Fn(x) je výběrová distribuční funkce.
Testovou statistikou je statistika )x()x(FsupD Tn
x
n Φ−=
∞<<∞−
.
Nulovou hypotézu zamítáme na hladině významnosti α, když Dn ≥ Dn(α), kde Dn(α) je tabelovaná kritická hodnota.
Pro n ≥ 30 lze Dn(α) aproximovat výrazem
α
2
ln
n2
1
.
Shapirův – Wilkův test normality dat
Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z normálního rozložení N(µ, σ2
).
Testová statistika má tvar:
( )
( ) ( )[ ]
( )∑
∑
=
=
+−
−
−
= m
1i
2
i
m
1i
2
i1in
n
i
MX
XXa
W ,
kde m = n/2 pro n sudé a m = (n-1)/2 pro n liché. Koeficienty ai
(n)
jsou tabelovány.
Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými pozorováními a jim odpovídajícími
kvantily standardizovaného normálního rozložení. V případě, že data vykazují perfektní shodu s normálním rozložením, bude
mít W hodnotu 1. Hypotézu o normalitě tedy zamítneme na hladině významnosti α, když se na této hladině neprokáže
korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1).
Lze také říci, že S – W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné od regresní přímky proložené
těmito body.
(S-W test se používá především pro výběry menších rozsahů, n < 50, ale v systému STATISTICA je implementováno jeho
rozšíření i na výběry velkých rozsahů, kolem 2000.)
Andersonův – Darlingův test
Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z normálního rozložení N(µ, σ2
).
Testová statistika má tvar:
( ) ( )
,n
s
mx
1ln
s
mx
ln)1i2(
n
1
AD
n
1i
i1ni
−





























 −
Φ−+




 −
Φ−−= ∑=
−+
kde x(i) jsou vzestupně uspořádané realizace náhodného výběru, Φ je distribuční funkce rozložení N(0,1).
Hypotéza H0 se zamítá na hladině významnosti α, je-li vypočítaná hodnota testové statistiky AD větší než kritická hodnota
D1-α. Pro velký rozsah výběru se přibližná 95% kritická hodnota počítá podle vzorce






−−= 295,0
n
93,0
n
013,1
10348,1D
Příklad:
Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí Lilieforsova testu, S – W testu a A – D testu testujte na hladině významnosti
0,05 hypotézu, že tato data pocházejí z normálního rozložení.
Řešení:
Vytvoříme nový datový soubor o jedné proměnné nazvané X a pěti případech. Do proměnné X zapíšeme uvedené hodnoty.
Provedení Lilieforsova a S-W testu:
V menu vybereme Statistiky – Základní statistiky/tabulky – Tabulky četností – OK, Proměnné X – OK. Na záložce zvolíme
Normalita a zaškrtneme Lilieforsův test a Shapiro – Wilksův W test – Testy normality.
Testy normality (Tabulka1)
Proměnná
N max D Lilliefors
p
W p
X 5 0,224085 p > .20 0,912401 0,482151
Vidíme, že testová statistika K-S testu je d = 0,22409, odpovídající Lilieforsova p-hodnota je větší než 0,2, tedy hypotézu o
normalitě nezamítáme na hladině významnosti 0,05.
Testová statistika S-W testu je W = 0,9124, odpovídající p-hodnota je 0,48215, tedy hypotézu o normalitě nezamítáme na
hladině významnosti 0,05.
Provedení A - D testu:
Statistiky – Rozdělení & simulace – proložení dat rozděleními – OK – Proměnné Spojité: X – na záložce Spojité proměnné
ponecháme zaškrtnuté pouze Normální, na záložce Možnosti vybereme Anderson – Darling – OK – Souhrnné statistiky
rozdělení.
Souhrn rozdělení for Proměnná: x (Tabulka4)
K-S d K-S
p-hodn.
AD stat. AD p-hodn. Chí-kvadrát Chí-kvadr.
p-hodn.
Chí-kvadr.
SV
Posun
(práh/poloha)
Normální (poloha,měřítko) 0,224085 0,915101 0,295219 0,940172
Testová statistika A – D testu je 0,2952, odpovídající p-hodnota je 0,9402, tedy hypotézu o normalitě nezamítáme na hladině
významnosti 0,05.
Parametrické úlohy o jednom náhodném výběru z normálního rozložení
Mnoho náhodných veličin, s nimiž se setkáváme ve výzkumu i praxi, se řídí normálním rozložením. Za jistých předpokladů
obsažených v centrální limitní větě se dá rozložení jiných náhodných veličin aproximovat normálním rozložením. Proto je
zapotřebí věnovat velkou pozornost právě náhodným výběrům
z normálního rozložení.
Rozložení statistik odvozených z výběrového průměru a rozptylu
Nechť X1, ..., Xn je náhodný výběr z rozložení N(µ, σ2
). Pak platí
a) M ~ N(µ,
n
2
σ
), tedy U =
n
M
σ
µ−
~ N(0, 1).
(Pivotová statistika U slouží k řešení úloh o µ, když σ2
známe.)
b) K = 2
2
S)1n(
σ
−
~ χ2
(n-1).
(Pivotová statistika K slouží k řešení úloh o σ2
, když µ neznáme.)
c) 2
n
1i
2
i )X(
σ
µ−∑
=
~ χ2
(n).
(Tato pivotová statistika slouží k řešení úloh o σ2
, když µ známe.)
d) T =
n
S
M µ−
~ t(n-1).
(Pivotová statistika T slouží k řešení úloh o µ, když σ2
neznáme.)
Vysvětlení
ad a) Výběrový průměr M je lineární kombinace náhodných veličin s normálním rozložením, má tedy normální rozložení
s parametry E(M) = µ, D(M) = σ2
/n. Statistika U se získá standardizací M.
ad b) Vhodnou úpravou výběrového rozptylu S2
, kde použijeme obrat Xi - M = (Xi - µ) – (M - µ), lze statistiku K vyjádřit
jako součet kvadrátů n - 1 stochasticky nezávislých náhodných veličin se standardizovaným normálním rozložením. Tento
součet se řídí rozložením χ2
(n-1).
ad c) Tato statistika je součet kvadrátů n stochasticky nezávislých náhodných veličin se standardizovaným normálním
rozložením, řídí se tedy rozložením χ2
(n).
ad d) U ~ N(0, 1), K ~ χ2
(n-1) jsou stochasticky nezávislé, protože M a S2
jsou stochasticky nezávislé, tudíž statistika
n
S
M
1n
K
U
T
µ−
=
−
= ~ t(n-1).
Příklad: Hmotnost balíčku krystalového cukru baleného na automatické lince se řídí normálním rozložením se střední hodnotou
1002 g a směrodatnou odchylkou 8 g. Kontrolor náhodně vybírá 9 balíčků z jedné série a zjišťuje, zda jejich průměrná
hmotnost je alespoň 999 g. Pokud ne, podnik musí zaplatit pokutu 20 000 Kč. Jaká je pravděpodobnost, že podnik bude
muset zaplatit pokutu?
Řešení:
X ~ N(1002, 64), M ~ 





9
64
,1002N
( ) ( ) 12924,087076,01125,11
8
9
1
8
9
8
9
UP
9
64
1002999
9
64
1002M
P999MP =−=Φ−=





Φ−=




 −
Φ=





−≤=












−
≤
−
=≤
Pravděpodobnost, že podnik bude platit pokutu, je asi 12,9%.
Řešení pomocí systému STATISTICA:
Využijeme toho, že STATISTICA pomocí funkce INormal(x;mu;sigma) umí vypočítat hodnotu distribuční funkce normálního
rozložení se střední hodnotou mu a směrodatnou odchylkou sigma. Tedy ( ) ( )999999MP Φ=≤ , kde Ф je distribuční
funkce rozložení N(1002, 64/9).
Otevřeme nový datový soubor o jedné proměnné a jednom případu. Dvakrát klikneme na název proměnné Prom1. Do Dlouhého
jména této proměnné napíšeme = INormal(999;1002;8/3).
V proměnné Prom1 se objeví hodnota 0,130295.
Vzorce pro meze 100(1-α)% empirických intervalů spolehlivosti pro µ a σ2
a) Interval spolehlivosti pro µ, když σ2
známe (využití pivotové statistiky U)
Oboustranný: (d, h) = (m -
n
σ
u1-α/2, m +
n
σ
u1-α/2)
Levostranný: (d, ∞) = (m -
n
σ
u1-α, ∞)
Pravostranný: (-∞, h) = (-∞, m +
n
σ
u1-α)
b) Interval spolehlivosti pro µ, když σ2
neznáme (využití pivotové statistiky T)
Oboustranný: (d, h) = (m -
n
s
t1-α/2(n-1), m +
n
s
t1-α/2(n-1))
Levostranný: (d, ∞) = (m -
n
s
t1-α(n-1), ∞)
Pravostranný: (-∞, h) = (-∞, m +
n
s
t1-α(n-1))
c) Interval spolehlivosti pro σ2
, když µ neznáme (využití pivotové statistiky K)
Oboustranný: (d, h) = 







−χ
−
−χ
−
αα− )1n(
s)1n(
,
)1n(
s)1n(
2/
2
2
2/1
2
2
Levostranný: (d, ∞) = 







∞
−χ
−
α−
,
)1n(
s)1n(
1
2
2
Pravostranný: (-∞, h) = 







−χ
−
∞−
α )1n(
s)1n(
, 2
2
d) Interval spolehlivosti pro σ2
, když µ známe (využití pivotové statistiky 2
n
1i
2
i )X(
σ
µ−∑=
)
Oboustranný: (d, h) =












χ
µ−
χ
µ−
α
=
α−
=
∑∑
)n(
)x(
,
)n(
)x(
2/
2
n
1i
2
i
2/1
2
n
1i
2
i
Levostranný: (d, ∞) =












∞
χ
µ−
α−
=
∑
,
)n(
)x(
1
2
n
1i
2
i
Pravostranný: (-∞, h) =












χ
µ−
∞−
α
=
∑
)n(
)x(
, 2
n
1i
2
i
Příklad: 10 krát nezávisle na sobě byla změřena jistá konstanta µ. Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3
2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1, ..., X10 z rozložení N(µ, σ2
), kde parametry µ, σ2
neznáme. Najděte 95% empirický interval spolehlivosti jak pro µ, tak pro σ2
a to
a) oboustranný,
b) levostranný,
c) pravostranný.
Řešení: m = 2,06, s2
= 0,0404, s = 0,2011, α = 0,05, t0,975(9) = 2,2622, t0,95(9) = 1,8331, χ2
0,975(9) = 19,023, χ2
0,025(9) = 2,7,
χ2
0,95(9) = 16,919, χ2
0,05(9) = 3,325
ad a) Oboustranný interval spolehlivosti pro střední hodnotu µ
d = m -
n
s
t1-α/2(n-1) = 2,06 -
10
2011,0
2,2622 = 1,92
h = m +
n
s
t1-α/2(n-1) = 2,06 +
10
2011,0
2,2622 = 2,20
1,92 < µ < 2,20 s pravděpodobností aspoň 0,95.
Oboustranný interval spolehlivosti pro rozptyl σ2
( )
( )
0191,0
023,19
0404,09
1n
s1n
d
2/1
2
2
=
⋅
=
−χ
−
=
α−
( )
( )
1347,0
7,2
0404,09
1n
s1n
h
2/
2
2
=
⋅
=
−χ
−
=
α
0,0191 < σ2
< 0,1347 s pravděpodobností aspoň 0,95.
ad b) Levostranný interval spolehlivosti pro střední hodnotu µ
d = m -
n
s
t1-α(n-1) = 2,06 -
10
2011,0
1,8331 = 1,94
1,94 < µ s pravděpodobností aspoň 0,95.
Levostranný interval spolehlivosti pro rozptyl σ2
( )
( )
0215,0
919,16
0404,09
1n
s1n
d
1
2
2
=
⋅
=
−χ
−
=
α−
σ2
> 0,0215 s pravděpodobností aspoň 0,95.
ad c) Pravostranný interval spolehlivosti pro střední hodnotu µ
h = m +
n
s
t1-α(n-1) = 2,06 +
10
2011,0
1,8331 = 2,18
µ < 2,18 s pravděpodobností aspoň 0,95.
Pravostranný interval spolehlivosti pro rozptyl σ2
( )
( )
1094,0
325,3
0404,09
1n
s1n
h 2
2
=
⋅
=
−χ
−
=
α
σ2
< 0,1094 s pravděpodobností aspoň 0,95.
Řešení pomocí systému STATISTICA:
Vytvoříme nový datový soubor o jedné proměnné X a 10 případech. Do proměnné X napíšeme dané hodnoty.
Statistika – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – zaškrtneme
Meze spolehl. prům. a Meze sp. směr. odch. (ostatní volby zrušíme) – pro oboustranný 95% interval spolehlivosti
ponecháme implicitní hodnotu pro Interval 95,00, pro jednostranné intervaly změníme hodnotu na 90,00.
Výsledky pro oboustranné 95% intervaly spolehlivosti pro střední hodnotu µ, pro směrodatnou odchylku σ a rozptyl σ2
:
Proměnná
Int. spolehl.
-95,000%
Int. spolehl.
95,000
Spolehlivost
Sm.Odch.
-95,000%
Spolehlivost
Sm.Odch.
+95,000%
NProm1
=v3 ^2
NProm2
=v4 ^2
X 1,916136 2,203864 0,138329 0,367145 0,019135 0,134795
Vidíme, že
1,92 < µ < 2,20 s pravděpodobností aspoň 0,95,
0,1383 < σ < 0,3671 s pravděpodobností aspoň 0,95.
0,0191 < σ2
< 0,1348 s pravděpodobností aspoň 0,95.
Výsledky pro jednostranné 95% intervaly spolehlivosti pro střední hodnotu µ, pro směrodatnou odchylku σ a rozptyl σ2
:
Proměnná
Int. spolehl.
-90,000%
Int. spolehl.
90,000
Spolehlivost
Sm.Odch.
-90,000%
Spolehlivost
Sm.Odch.
+90,000%
NProm1
=v3^2
NProm2
=v4^2
X 1,943421 2,176579 0,146678 0,330862 0,021514 0,10947
Vidíme, že
µ > 1,94 s pravděpodobností aspoň 0,95,
µ < 2,20 s pravděpodobností aspoň 0,95,
σ > 0,1467 s pravděpodobností aspoň 0,95,
σ < 0,3309 s pravděpodobností aspoň 0,95,
σ2
> 0,0215 s pravděpodobností aspoň 0,95,
σ2
< 0,1095 s pravděpodobností aspoň 0,95,
Jednotlivé typy testů pro parametry normálního rozložení
a) Nechť X1, ..., Xn je náhodný výběr N(µ, σ2
), kde σ2
známe. Nechť n ≥ 2 a c je konstanta. Test H0: µ = c proti H1: µ ≠ c se
nazývá jednovýběrový z-test.
b) Nechť X1, ..., Xn je náhodný výběr N(µ, σ2
), kde σ2
neznáme. Nechť n ≥ 2 a c je konstanta. Test H0: µ = c proti H1: µ ≠ c
se nazývá jednovýběrový t-test.
c) Nechť X1, ..., Xn je náhodný výběr N(µ, σ2
), kde µ neznáme. Nechť n ≥ 2 a c je konstanta. Test H0: σ2
= c proti H1: σ2
≠ c
se nazývá test o rozptylu.
Provedení testů o parametrech µ, σ2
pomocí kritického oboru
a) Provedení jednovýběrového z-testu
Vypočteme realizaci testového kritéria
n
cm
t0
σ
−
= . Stanovíme kritický obor W. Pokud t0 ∈ W, H0 zamítáme na hladině
významnosti α a přijímáme H1.
Oboustranný test: Testujeme H0: µ = c proti H1: µ ≠ c. Kritický obor má tvar: )( ∞∪−∞−= α−α− ,uu,W 2/12/1 .
Levostranný test: Testujeme H0: µ = c proti H1: µ < c. Kritický obor má tvar: ( α−−∞−= 1u,W .
Pravostranný test: Testujeme H0: µ = c proti H1: µ > c. Kritický obor má tvar: )∞= α− ,uW 1 .
b) Provedení jednovýběrového t-testu
Vypočteme realizaci testového kritéria
n
s
cm
t0
−
= . Stanovíme kritický obor W. Pokud t0 ∈ W, H0 zamítáme na hladině
významnosti α a přijímáme H1.
Oboustranný test: Testujeme H0: µ = c proti H1: µ ≠ c. Kritický obor má tvar: ( ) ( ) )( ∞−∪−−∞−= α−α− ,1nt1nt,W 2/12/1 .
Levostranný test: Testujeme H0: µ = c proti H1: µ < c. Kritický obor má tvar: ( )( 1nt,W 1 −−∞−= α− .
Pravostranný test: Testujeme H0: µ = c proti H1: µ > c. Kritický obor má tvar: ( ) )∞−= α− ,1ntW 1 .
c) Provedení testu o rozptylu
Vypočteme realizaci testového kritéria
( )
c
s1n
t
2
0
−
= . Stanovíme kritický obor W. Pokud t0 ∈ W, H0 zamítáme na hladině
významnosti α a přijímáme H1.
Oboustranný test: Testujeme H0: σ2
= c proti H1: σ2
≠ c. Kritický obor má tvar:.
( ) ( ) )∞−χ∪−χ= α−α ,1n1n,0W 2/1
2
2/
2
Levostranný test: Testujeme H0: σ2
= c proti H1: σ2
< c. Kritický obor má tvar: ( )1n,0W 2
−χ= α .
Pravostranný test: Testujeme H0: σ2
= c proti H1: σ2
> c. Kritický obor má tvar: ( ) )∞−χ= α− ,1nW 1
2
.
Příklad: Podle údajů na obalu čokolády by její čistá hmotnost měla být 125 g. Výrobce dostal několik stížností od
kupujících, ve kterých tvrdili, že hmotnost čokolád je nižší než deklarovaných 125 g. Z tohoto důvodu oddělení kontroly
náhodně vybralo 50 čokolád a zjistilo, že jejich průměrná hmotnost je 122 g a směrodatná odchylka 8,6 g. Za předpokladu,
že hmotnost čokolád se řídí normálním rozložením, můžeme na hladině významnosti 0,01 považovat stížnosti kupujících za
oprávněné?
Řešení: X1, ..., X50 je náhodný výběr z N(µ, σ2
). Testujeme hypotézu
H0: µ = 125 proti levostranné alternativě H1: µ < 125. Protože neznáme rozptyl σ2
, použijeme jednovýběrový t-test.
Testové kritérium 4667,2
50
6,8
125122
n
s
cm
−=
−
=
−
.
Kritický obor ( )( ( )( ( 4049,2,49t,1nt,W 99,01 −∞−=−∞−=−−∞−= α− .
Jelikož testové kritérium se realizuje v kritickém oboru, zamítáme nulovou hypotézu na hladině významnosti 0,01. Stížnosti
kupujících tedy lze považovat za oprávněné.
Výpočet pomocí systému STATISTICA:
Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma průměry
(normální rozdělení) – zaškrtneme Výběrový průměr vs. Střední hodnota a zvolíme jednostr. – do políčka Pr1 napíšeme 122,
do políčka SmOd1 napíšeme 8,6, do políčka N1 napíšeme 50, do políčka Pr2 napíšeme 125 - Výpočet. Dostaneme phodnotu
0,0086, tedy zamítáme nulovou hypotézu na hladině významnosti 0,01
Náhodný výběr z dvourozměrného rozložení
Nechť 











n
n
1
1
Y
X
,,
Y
X
… je náhodný výběr z dvourozměrného rozložení, přičemž n ≥ 2. Označíme µ = µ1 - µ2 a zavedeme
rozdílový náhodný výběr Z1 = X1 - Y1, ... , Zn = Xn-Yn, o němž předpokládáme, že se řídí normálním rozložením.
Vypočteme ∑
=
=
n
1i
iZ
n
1
M , ( )∑
=
−=
n
1i
2
i
2
MZ
n
1
S .
Vzorec pro meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu rozdílového náhodného výběru
Oboustranný: (d, h) = (m -
n
s
t1-α/2(n-1), m +
n
s
t1-α/2(n-1))
Levostranný: (d, ∞) = (m -
n
s
t1-α(n-1), ∞)
Pravostranný: (-∞, h) = (-∞, m +
n
s
t1-α(n-1))
Příklad: Dvěma rozdílnými laboratorními metodami se zjišťoval obsah chemické látky v roztoku (v procentech). Bylo
vybráno 5 vzorků a proměřeno oběma metodami. Výsledky měření jsou obsaženy v tabulce:
číslo vzorku 1 2 3 4 5
1. metoda 2,3 1,9 2,1 2,4 2,6
2. metoda 2,4 2,0 2,0 2,3 2,5
Za předpokladu, že data mají normální rozložení, sestrojte 90% empirický interval spolehlivosti pro rozdíl středních hodnot
výsledků obou metod.
Řešení:
Přejdeme k rozdílovému náhodnému výběru, jehož realizace jsou: -0,1 -0,1 0,1 0,1 0,1. Vypočteme m = 0,02, s2
= 0,012,
s = 0,109545. Předpokládáme, že tato data pocházejí z normálního rozložení N(µ, σ2
). Vypočteme meze 90% oboustranného
intervalu spolehlivosti pro µ při neznámém σ:
( ) ( ) 0844,01318,2
5
109545,0
02,04t
5
109545,0
02,01nt
n
s
md 95,02/1 −=−=−=−−= α−
( ) ( ) 1244,01318,2
5
109545,0
02,04t
5
109545,0
02,01nt
n
s
mh 95,02/1 =+=+=−+= α−
-0,0844 < µ < 0,1244 s pravděpodobností aspoň 0,9.
Výpočet pomocí systému STATISTICA:
Vytvoříme nový datový soubor o 3 proměnných a 5 případech. Do 1. proměnné X napíšeme hodnoty pro 1. metodu, do 2.
proměnné Y hodnoty pro 2. metodu a do 3. proměnné Z rozdíly mezi X a Y.
Statistiky – Základní statistiky a tabulky – Popisné statistiky, OK - Proměnné Z, Detailní výsledky – zaškrtneme Meze
spolehl. Prům. – Interval 90% - Výpočet. Dostaneme tabulku:
Popisné statistiky (chemicka latka)
Proměnná
Int. spolehl.
-90,000%
Int. spolehl.
90,000
Z -0,084439 0,124439
Vidíme tedy, že -0,0844 < µ < 0,1244 s pravděpodobností aspoň 0,9.
Párový t-test
Nechť 











n
n
1
1
Y
X
,,
Y
X
… je náhodný výběr z rozložení N2
















σσ
σσ






µ
µ
2
212
12
2
1
2
1
, , přičemž n ≥ 2. Testujeme H0: µ1 - µ2 = c (tj. µ = c)
proti H1: µ1 - µ2 ≠ c (tj. µ≠ c) nebo testujeme nulovou hypotézu proti jedné z jednostranných alternativ. Tento test se nazývá
párový t-test.
Provedení párového t-testu
Vypočteme realizaci testového kritéria
n
s
cm
t0
−
= . Stanovíme kritický obor W. Pokud t0 ∈ W, H0 zamítáme na hladině
významnosti α a přijímáme H1.
Oboustranný test: Testujeme H0: µ = c proti H1: µ ≠ c. Kritický obor má tvar: ( ) ( ) )( ∞−∪−−∞−= α−α− ,1nt1nt,W 2/12/1 .
Levostranný test: Testujeme H0: µ = c proti H1: µ < c. Kritický obor má tvar: ( )( 1nt,W 1 −−∞−= α− .
Pravostranný test: Testujeme H0: µ = c proti H1: µ > c. Kritický obor má tvar: ( ) )∞−= α− ,1ntW 1 .
Příklad: V následující tabulce jsou údaje o výnosnosti dosažené 12 náhodně vybranými firmami při investování do
mezinárodního podnikání (veličina X) a do domácího podnikání (veličina Y):
č.firmy 1 2 3 4 5 6 7 8 9 101112
X 101214121217 9 15 9 11 7 15
Y 11141511131610131117 9 19
(Výnosnost je vyjádřena v procentech a představuje podíl na zisku vložených investic za rok.)
Za předpokladu, že data pocházejí z dvourozměrného rozložení a jejich rozdíl se řídí normálním rozložením, na hladině
významnosti 0,1 testujte hypotézu, že neexistuje rozdíl mezi střední hodnotou výnosnosti investic do mezinárodního a
domácího podnikání proti oboustranné alternativě.
Testování proveďte
a) pomocí intervalu spolehlivosti, b) pomocí kritického oboru.
(Pro úsporu času známe realizace výběrového průměru m = 3,1− a výběrového rozptylu s2
= 78,4 rozdílového náhodného
výběru Zi = Xi – Yi, i = 1, …, 12.)
Řešení:
Testujeme H0: µ = 0 proti H1: µ ≠ 0
ad a) 90% interval spolehlivosti pro střední hodnotu µ při neznámém rozptylu σ2
má meze:
( ) 4677,27959,1
12
78,4
3,11nt
n
s
md 95,0 −=−−=−−=
( ) 1989,07959,1
12
78,4
3,11nt
n
s
mh 95,0 −=+−=−+=
Protože číslo c = 0 neleží v intervalu (-2,4677; -0,1989), H0 zamítáme na hladině významnosti 0,1.
ad b) Vypočítáme realizaci testové statistiky 11085,2
12
78,4
3,1
n
s
cm
t0 −=
−
=
−
=
Stanovíme kritický obor ( ) ( ) )( )( ∞∪−∞−=∞∪−∞−= ,7959,17959,1,,11t11t,W 95,095,0
Protože testová statistika se realizuje v kritickém oboru, H0 zamítáme na hladině významnosti 0,1.
Výpočet pomocí systému STATISTICA:
Vytvoříme nový datový soubor o 2 proměnných a 12 případech. Do 1. proměnné X napíšeme hodnoty pro mezinárodní
podnikání, do 2. proměnné hodnoty pro domácí podnikání.
Statistiky – Základní statistiky a tabulky – t-test pro závislé vzorky, OK - Proměnné X, Y – OK – Výpočet. Dostaneme
tabulku:
t-test pro závislé vzorky (investovani)
Označ. rozdíly jsou významné na hlad. p < ,05000
Proměnná
Průměr Sm.odch. N Rozdíl Sm.odch.
rozdílu
t sv p
X
Y
11,91667 2,937480
13,25000 3,048845 12 -1,33333 2,188122 -2,11085 11 0,058490
Vypočtenou p-hodnotu 0,05849 porovnáme se zvolenou hladinou významnosti α = 0,1. Protože p ≤ α, zamítáme nulovou
hypotézu na hladině významnosti 0,1.