1
Statistické metody a zpracování dat
IV. Odhady parametrů
Petr Dobrovolný
K čemu to je dobré?
Obvyklým případem při zpracování hromadných jevů je, že máme
poměrně malý počet pozorování nějaké veličiny a chceme učinit
závěry o tom, co bychom obdrželi, kdybychom měli pozorování
mnohokrát více.
Z výběru spočítáme pouze odhady skutečných hodnot parametrů
rozdělení
Cílem je ukázat,
1) Jaké vlastnosti má mít (náhodný) výběr
2) Jaké vlastnosti (rozdělení) mají výběrové statistiky
3) Jak lze odhadnout parametry základního souboru ze souboru
výběrového
Výběrové metody zkoumání
* Základní soubor (populace) a jeho parametry
* Výběrový soubor a jeho statistiky
Jaké jsou důvody, proč ve statistice pracujeme s výběrovými
soubory?
(rozsáhlost, nekonečnost, nákladnost, efektivita, rychlost, ...)
Základní dělení způsobů výběru
* prostý náhodný výběr
* výběr s opakováním resp. bez opakování
* výběr oblastní (typický, stratifikovaný)
* výběr systematický (mechanický)
* výběr vícestupňový
* výběr záměrný (subjektivní ­ ne náhodný)
Techniky losování a generování náhodných čísel k zajištění
požadavku náhodnosti výběru
Je-li pravděpodobnost každého členu základního souboru, že bude
zařazen do výběru, stejná, potom hovoříme o náhodném výběru
Příklad systematického, náhodného a stratifikovaného
náhodného výběru
Výběrové metody souvisí teorií odhadu ...
Odhadování jako základ statistického
usuzování
Používáme statistickou indukci - usuzujeme z části (výběr) na
celek (základní soubor).
Odhad neznámých parametrů základního souboru provádíme:
1) na základě statistických charakteristik výběru.
2) na základě jistých předpokladů o jejich rozdělení
2
Vztahy mezi základním souborem a výběry
Základní pojmy a symboly
Odhady parametrů základního souboru:
^
^
Výběrové rozdělení
Z jistého základního souboru můžeme učinit několik náhodných
výběrů ­ jejich statistické charakteristiky budou odlišné ­ jsou
náhodnými proměnnými.
Průměr výběrových průměrů
( ) =
- =++++=
r
i
irrx x
r
rxxxx
1
121
1
/....
Směrodatná odchylka výběrových průměrů
kde r je počet výběrů.
( )
r
x
r
i
xi
x
=
=
1
2


V případě velkého rozsahu základního souboru s normálním
rozdělením a s parametry ,  platí, že rozdělení výběrových
průměrů je také normální s parametry:
Výběrový průměr a výběrové rozdělení
průměrů
 =x
nx / =směrodatná odchylka
průměr
Směrodatná odchylka rozdělení výběrových průměrů je menší než
směrodatná odchylka základního souboru a to tím menší, čím větší
je rozsah výběru.
Rozptyl výběrových průměrů
( ) n
n
nn
n
i
x
2
2
2
1
2222
2
2 1
...
1 
 =


=++++


= =
a tedy směrodatná odchylka výběrového průměru:
nx / =
(poznámka)
Závislost tvaru rozdělení (a také hodnot
rozptylu a směrodatné odchylky) na
rozsahu výběru
n1 <n2 < n3 < n4
3
Vlastnosti parametrů výběrového rozdělení
průměrů
* Bez ohledu na tvar původního rozdělení se rozdělení
výběrového průměru blíží k normálnímu rozdělení pro rozsah
výběru jdoucí do nekonečna.
* Rozdělení velkého počtu takových výběrových průměrů bude
tedy užší než původní rozdělení a bude mít stejný střed.
* Je rozumné očekávat, že čím větší bude rozsah výběru, tím více
se bude průměr výsledného rozdělení blížit středu původního
rozdělení a výsledné rozdělení bude užší.
* Směrodatná odchylka výběrového rozdělení průměrů se nazývá
směrodatná chyba odhadu průměru (nebo též střední chyba
průměru).
Vlastnosti odhadů ve statistice
* Odhad musí být konzistentní ­ rozdíl mezi odhadnutou a
skutečnou hodnotou se zmenšuje s růstem n. (rozsah výběru).
* Odhad má být nezkreslený (nevychýlený) - všechny odchylky
odhadu od skutečné hodnoty se kompenzují (naopak ­ odhad
vychýlený).
* Odhad má být vydatný ­ vydatnou je charakteristika, jejíž
rozptyl je ze všech možných výběrů nejmenší
* Odhad neznámých parametrů základního souboru provádíme
s jistou přesností a spolehlivostí.
Přesnost a spolehlivost odhadu
* Přesnost odhadu ­ je dána násobkem střední výběrové chyby
(je to směrodatná odchylka příslušné charakteristiky ze všech
teoreticky možných výběrů).
* Spolehlivost odhadu ­ je určena pravděpodobností, se kterou je
možné určitý odhad považovat za správný.
* Pro určení přesnosti a spolehlivosti je nutná znalost rozdělení
výběrových charakteristik. Pro n > 30 se výběrové rozdělení
obvykle považuje za normální. Jiná teoretická rozdělení se
používají u malých výběrů.
* Neznámé parametry základního souboru odhadujeme dvěma
způsoby
* bodový odhad
* intervalový odhad
Bodový odhad parametrů základního souboru
=
==
n
i
ix
n
x
1
1
^
Bodový odhad aritmetického průměru základního souboru
Bodový odhad směrodatné odchylky základního souboru
=
-
-
=
n
i
i xx
n 1
2
)(
1
1
^
Určuje se z odchylek jednotlivých prvků od výběrového průměru.
Pro n-1 stupňů volnosti platí:
Stupně volnosti
Máme odhad aritmetického průměru a platí následující výraz:
xnx
n
i
i ==1
^K určení hodnoty lze tedy využít pouze (n-1) nezávislých členů
tzv. stupňů volnosti
Odhadem průměru ,,ztrácíme" jeden nezávislý ,,pokus"
Příklad:
* průměr vypočtený ze tří měření je 5
* dvě náhodná (nezávislá) měření budou 4 a 5
* zbývající třetí měření musí být 6, aby byl průměr roven 5,
tedy není nezávislé
(poznámka)
Je-li výběrová směrodatná odchylka s rovna:
Bodový odhad parametrů základního souboru
=
-=
n
i
i xx
n
s
1
2
)(
1
s>^.potom z toho plyne, že
Další úpravou lze získat:
n
n
s 1
1
1
^ -=

a dále
1
^
-
=
n
n
s
4
Pro odhad směrodatné odchylky výběrových průměrů:
Bodový odhad parametrů základního souboru
n
x

 =
1
^
^
-
==
n
s
n
x

a dále
Odhady parametrů základního souboru ( ) se výběr od
výběru mění.
Musíme proto stanovit jejich odchylky od skutečných parametrů
( ) a také určit jejich přesnost odhadu pomocí tzv.
intervalů spolehlivosti.
 ^,^
,
Intervaly spolehlivosti (viz. vlastnosti normálního rozdělení)
Z vlastností normálního rozdělení lze pomocí hodnoty aritmetického
průměru a násobků směrodatné odchylky určit meze, které
vyjadřují pravděpodobnosti, s nimiž dané hodnoty leží v určitém
intervalu
Intervaly spolehlivosti
Vnitřní interval vymezený jistým násobkem se označuje jako
interval spolehlivosti. Odchylky od průměru, které se nacházejí
uvnitř tohoto intervalu označujeme jako odchylky přípustné,
nevýznamné. Analogicky jsou definovány odchylky významné.
Meze spolehlivosti dále vymezují tzv. kritický obor (oblast
zamítnutí) a oblast přijetí.
Šířku intervalu spolehlivosti volíme podle povahy problému a závisí
také na rozsahu náhodného výběru. Nejčastěji používané intervaly:
Intervaly spolehlivosti
Násobky s Oblast přijetí Oblast zamítnutí
1,960 95 % 5 %
2,576 99 % 1 %
3,291 99,9% 0,1 %
Interpretace intervalů spolehlivosti: 95 % interval spolehlivosti
stanovený na základě náhodného výběru zahrne s pravděpodobností
95 % skutečnou hodnotu odhadovaného parametru.
Intervalový odhad parametrů
základního souboru
Na rozdíl od bodového odhadu zde určujeme interval, v němž se zadanou
pravděpodobností leží odhadovaný neznámý parametr.
Intervalový odhad se liší podle rozsahu souboru a také podle toho, jaké
parametry známe.
Dále budeme značit:
q1, q2 - krajní hodnoty intervalu spolehlivosti ­ meze spolehlivosti
 ­ hladina významnosti - pravděpodobnost, že skutečný parametr
základního souboru není z intervalu spolehlivosti.
(1-) ­ hladina spolehlivosti (spolehlivost odhadu) ­ představuje
pravděpodobnost, že skutečný parametr základního souboru se
nachází uvnitř intervalu spolehlivosti.
Intervalový odhad dvoustranný
Interpretace: Pravděpodobnost, že parametr  základního souboru se
nachází mezi hodnotami q1, q2 je (1-)
 -= 1)( 21 qqP
(1-)
/2 /2
5
Intervalový odhad jednostranný
Interpretace: Pravděpodobnost, že parametr  základního souboru má
větší hodnotu než q1, je (1-)
zdola ohraničený  -= 1)( 21qP
(1-)

Intervalový odhad jednostranný
Interpretace: Pravděpodobnost, že parametr  základního souboru má
menší hodnotu než q2, je (1-)
shora ohraničený  -= 1)( 2qP
(1-) 

 =x
Intervalový odhad parametru pro velké rozsahy výběru
(n > 30)
nx / =
Jak plyne z výše uvedeného, rozdělení výběrových průměrů lze
považovat za normální s parametry:
Intervalový odhad lze obecně zapsat:  -= 1)( 21 qqP
Pokud známe hodnotu 
hodnoty q1, q2 lze určit takto:
n
zxq


2
1
1
-
-=
n
zxq


2
1
2
-
+=
je příslušný kvantil normovaného normálního rozdělení (lze ho
najít v tabulkách či vypočítat)2
1

-
z
Intervalový odhad parametru pro velké rozsahy výběru
(n > 30)
Pokud neznáme hodnotu 
hodnoty q1, q2 lze určit takto:
12
1
1
-
-=
- n
s
zxq 
12
1
2
-
+=
- n
s
zxq 
Intervalový odhad parametru  lze potom zapsat:
n
zx
n
zx


2
1
2
1 --
+<<Intervalový
odhad parametru pro velké rozsahy výběru
(n > 30)
Výše uvedená nerovnice je splněna s pravděpodobnosti (1-):


 -=+<<-
--
1][
2
1
2
1 n
zx
n
zxP
analogicky při neznámém 
  -=
-
+<<
-
-
--
1]
11
[
2
1
2
1 n
s
zx
n
s
zxP
Výraz (delta) se označuje jako přípustná chyba
n
z


2
1-
=
Intervalový odhad parametru  lze jednoduše zapsat jako
= x
Příklad (1/1): Určete 95% interval spolehlivosti pro průměrnou
návštěvnost rekreačního střediska, když pro náhodný výběr 100
návštěvníků je průměrná délka pobytu 2,2 dne a rozptyl délky pobytu
všech návštěvníků je 0,36
100=n
2,2=x
6,036,0 ==
05,0=
Z tabulek kvantilů normovaného normálního rozdělení určíme hodnotu
z pro =0,05: 96,1975,0
2
05,0
1
2
1
===
--
zzz 
dále vypočítáme hranice intervalu spolehlivosti ...
6
Příklad (1/2):
Vypočítáme hranice intervalu spolehlivosti:
0824,2
100
6,0
96,12,2
2
1
1 =-=-=
- n
zxq


3176,2
100
6,0
96,12,2
2
1
2 =+=+=
- n
zxq


Výsledný intervalový odhad lze zapsat:
95,0)3176,20824,2( = P
Můžeme tvrdit, že s pravděpodobností 95% (na hladině významnosti
=0,05) se průměrná délka pobytu všech návštěvníků rekreačního
střediska pohybuje v intervalu <2,0824;2,3176>
Často užívané intervalové odhady parametru 
%95]96,196,1[ =+<<-
n
x
n
xP


%99]576,2576,2[ =+<<-
n
x
n
xP


=0,05
=0,01
%90]645,1645,1[ =+<<-
n
x
n
xP


=0,1
V případě výběrů malého rozsahu je nutné nahradit hodnotu jistého
kvantilu normovaného normálního rozdělení (z) kritickou hodnotou trozdělení
pro stupňů volnosti.
Pokud tedy známe hodnotu rozptylu 2 potom pro krajní hodnoty intervalu
spolehlivosti q1, q2 dostáváme:
Intervalový odhad parametru pro malé rozsahy výběru
(n < 30)

1-= n
n
txq
n


)1;(
2
1
1
--
-=
n
txq
n


)1;(
2
1
2
--
+=
Pokud neznáme hodnotu rozptylu 2 potom použijeme k jeho odhadu
výběrové hodnoty s:
1)1;(
2
1
1
-
-=
-- n
s
txq
n

1)1;(
2
1
2
-
+=
-- n
s
txq
n

Intervalový odhad parametru pro malý rozsah výběru
Příklad řešení s využitím funkcí EXCELu
Intervalový odhad parametru 2 základního souboru
Předpokládáme, že základní soubor má normální rozdělení. Intervalový
odhad bude mít obecný tvar:
 -= 1)( 2
2
1 qqP
Intervalový odhad se opírá o poznatek rozdělení výběrového rozptylu, že
totiž náhodná veličina má rozdělení s stupni
volnosti.
22
ns
2
 1-= n
Hodnoty q1, q2 určujeme pomocí odhadnuté hodnoty s z výběrového
souboru:
2
)1;(
2
2
1
-
=
n
ns
q
 2
)1;(
2
1
2
2
--
=
n
ns
q

Ze statistických tabulek či s využitím vhodného statistického programu
potřebujeme určit kritické hodnoty 2 rozdělení pro (n-1) stupňů volnosti
Intervalový odhad parametru 2 základního souboru
Intervalový odhad parametru 2 lze potom zapsat:


-=<<
---
1][ 2
)1;(
2
1
2
2
2
)1;(
2
2
nn
nsns
P
Odmocněním získáme výraz pro intervalový odhad směrodatné
odchylky základního souboru.
7
Příklad: Pro výběrový soubor 12 měření výšky vodní hladiny byla zjištěna
hodnota rozptylu s2 = 0,64. Určete intervalový odhad rozptylu pro hladiny
spolehlivosti 0,90, 0,95 a 0,99
Meze intervalu spolehlivosti počítáme podle vztahu:


-=<<
---
1][ 2
)1;(
2
1
2
2
2
)1;(
2
2
nn
nsns
P
Řešení s využitím funkcí v programu EXCEL:
Určení rozsahu n náhodného výběru
Potřebujeme ho k tomu, abychom z výběru odhadli neznámý průměr
s předem zvolenou přesností ­ tedy aby měl interval spolehlivosti
požadovanou šířku.
Rozsah vypočteme ze vztahu pro výpočet tzv. přípustné chyby (delta),
která je polovinou požadované šířky intervalu spolehlivosti.
n
z


2
1=
z čehož pro n platí:
2
2
1


=
-
 z
n
Určení rozsahu n náhodného výběru
Příklad: Z náhodného výběru 60-ti zákazníků hypermarketu jsme
zjistili jejich průměrný věk 28 roků. Za předpokladu, že známe
směrodatnou odchylku všech zákazníků (9 roků) určete:
60=n
28=x
9=
05,0=
a) 95 % interval pro průměrný věk všech zákazníků
)
60
9
96,128
60
9
96,128( +- 
)3,307,25(  
b) potřebujeme, aby 95 % interval byl pouze plus minus 2 roky. Jak
velký výběr je zapotřebí?
Předpokládáme, že přípustná chyba  je 2
7882,8
2
96,19 2
2
2
2
1
==


=


=
-
 z
n
Výběr by musel obsahovat 78 zákazníků