Základní pojmy matematické statistiky I
Motivace:
Matematická statistika je věda, která analyzuje a interpretuje data především za účelem získání předpovědi a zlepšení rozhodování v různých oborech lidské činnosti. Přitom se řídí principem statistické indukce, tj. na základě znalostí o náhodném výběru z určitého rozložení pravděpodobností se snaží učinit závěry o vlastnostech tohoto rozložení. Ústředním pojmem matematické statistiky je tedy pojem náhodného výběru.
Osnova:
- náhodný výběr z jednorozměrného a vícerozměrného rozložení
- statistika jako funkce náhodného výběru
- bodové a intervalové odhady parametrů a parametrických funkcí
Definice náhodného výběru:
a) Nechť X1?    Xn jsou stochasticky nezávislé náhodné veličiny, které mají všechny stejné rozložení L(i3-). Řekneme, že Xi,    Xn je náhodný výběr rozsahu n z rozložení L(i3-). (Číselné realizace Xi,    xn náhodného výběru Xi? Xn uspořádané do sloupcového vektoru odpovídají datovému souboru zavedenému v popisné statistice.)
b) Nechť (X^YO,    (Xn,Yn) jsou stochasticky nezávislé dvourozměrné náhodné vektory, které mají všechny stejné dvourozměrné rozložení h2(ů). Řekneme, že (Xi,Yi),    (Xn,Yn) je dvourozměrný náhodný výběr rozsahu n
z dvourozměrného rozložení L2($). (Číselné realizace (x^yO,    (xn,yn) náhodného výběru (X^Y^, (Xn,Yn) uspořádané do matice typu 2xn odpovídají dvourozměrnému datovému souboru zavedenému v popisné statistice.)
c) Analogicky lze definovat p-rozměrný náhodný výběr rozsahu n z p-rozměrného rozložení Lp($).
Definice statistiky:
Libovolná funkce T = T(X1?    Xn) náhodného výběru X1?    Xn (resp. T = T(Xi,Yi,    Xn,Yn) náhodného výběru (Xi,Yi), (Xn,Yn)) se nazývá (výběrová) statistika.
Definice důležitých statistik:
a) Nechť X1?Xn je náhodný výběr, n > 2.
1   11 2 1     n I-
Označme M = — Y X; ... výběrový průměr, S =-V (x; - m)2 ... výběrový rozptyl, S = vS2 ... výběrová směrodatná
odchylka
Pro libovolné, ale pevně dané reálné číslo x je statistikou též hodnota výběrové distribuční funkce Fn(x) = — card{i;X; < x}
n
b) Nechť je dáno r > 2 stochasticky nezávislých náhodných výběrů o rozsazích ni > 2, ..., nr > 2.
r
Celkový rozsah je n = ^iij.
2 2 ?
Označme Mi, ..., Mr výběrové průměry a Si , ..., Sr výběrové rozptyly jednotlivých výběrů. Nechť Ci, ..., cr jsou reálné konstanty, aspoň jedna nenulová.
cj^j • • • lineární kombinace výběrových průměrů, S«2 = —-... vážený průměr výběrových rozptylů.
j=i n"r c) Nechť (Xi,Yi),     (Xn,Yn) je náhodný výběr z dvourozměrného rozložení o rozsahu n.
Označme M, =— V X;, M2 =— Y Y; výběrové průměry,     =-Y(x; -Mj2, S22 =-Tl(Yi ~M2)2 výběrové rozptyly.
1 11
Si2 =-Y (x; - M, )(y; - M2)... výběrová kovariance, Ri2 = '
Sl2 pro SjS2 # 0
^iS2 ... výběrový koeficient korelace.
0 jinak
Pro libovolnou, ale pevně zvolenou dvojici reálných čísel x,y je statistikou též hodnota výběrové simultánní distribuční funkce Fn(x, y) = —card{i;X; < x a Y; < y}.
Upozornění: Číselné realizace statistik M, S2, S, Si2, R12 odpovídají číselným charakteristikám m, s2, s, Si2, rí2 zavedeným v popisné statistice, ale u rozptylu, směrodatné odchylky, kovariance a koeficientu korelace je multiplikativní konstanta
—!—, nikoliv —, jak tomu bylo v popisné statistice. Jak uvidíme později, uvedené číselné realizace mohou být považovány n-1 n
za odhady číselných realizací náhodných veličin zavedených v počtu pravděpodobnosti.
Charakteristika vlastnosti	Počet pravděpodobnosti	Matematická statistika	Popisná statistika
poloha	E(X) = \i	M	m
variabilita	D(X) = o2	S2	n-1 , -s n
variabilita	Vd(x) = a	S	n-1 V n
společná variabilita	C(Xi, X2) = a 12	S12	n-1 S12 n
těsnost vztahu	R(Xi, X2) = p	R12	r 12
rozložení	O(x)	F„(x)	F(x)
Příklad (výpočet realizací výběrového průměru, výběrového rozptylu a hodnot výběrové distribuční funkce): Desetkrát nezávisle na sobě byla změřena jistá konstanta u, Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru Xb    X10. Vypočtěte realizaci m výběrového průměru M, realizaci s2 výběrového rozptylu S2, realizaci s výběrové směrodatné odchylky S a hodnoty výběrové distribuční funkce
Fio(x). Řešení:
m
■nm'
-í22 +1,82 +... + 2,22 -10• 2,062) = 0,0404 9
= 1Ixi -^(2 + l,8 + ... + 2,2) = 2,06,s2 =-±-Xh =~4 2> s ^Vš7^ a/00404 =0,2011
Pro usnadnění výpočtu hodnot výběrové distribuční funkce Fi0(x) uspořádáme měření podle velikosti: 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4.
x<l,8:F10(x) = 0 l,8<x<l,9:F10(x)
10
0,2
l,9<x<2:F10(x)= —= 0,3
2<x<2,l:F10(x)= —= 0,5 10 10
2,l<x<2,2:F10(x)=^ = 0,7
2,2<x< 2,3 :F10(x) =^| = 0,8
2,3<x< 2,4 :F10(x) =^ = 0,9 x>2,4:F10(x) = l
1,0
n0,4
1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5
Příklad (výpočet realizace výběrového koeficientu korelace):
U 11 náhodně vybraných aut jisté značky bylo zjišťováno jejich stáří (náhodná veličina X - v letech) a cena (náhodná veličina Y - v tisících Kč). Výsledky:
(5, 85), (4, 103), (6, 70), (5, 82), (5, 89), (5, 98), (6, 66), (6, 95), (2, 169), (7, 70), (7, 48). Vypočtěte a interpretujte číselnou realizaci r12 výběrového koeficientu korelace Ri2.
v
Řešení:
1=-Jxi=-í-(5 + 4 + ... + 7) = 5,28
= -Y y. = — (85+ 103+ ... + 48) = 88,63 n m 11
m
2
Sl =
S2 =
í n
n -1 ^ i=i
2 2
-nm,
= —(52 +42 +... + 72 -ll-5,282)=2,02
10
1
n-1 1
2 2
-nm,
V i=i
= — (852 +1032 +... + 482 -11 • 88,632) = 970,85
10
S12
n-ll i
■nm! m 2
V i=i
'12
-40,82
= —(5-85 + 4-103 + ... + 7-48-11-5,28-88,63) = -40,89 10
= -0,92
12   srs2 V^Ô2--\/970,85
Mezi náhodnými veličinami X a Y existuje silná nepřímá lineární závislost. Čím starší auto, tím nižší cena.
Bodové a intervalové odhady parametru a parametrických funkcí
Vycházíme z náhodného výběru Xi,     Xn z rozložení L(#), které závisí na parametru ů. Množinu všech přípustných hodnot tohoto parametru označíme S. Tato množina se nazývá parametrický prostor.
Např. je-li Xi,     Xn náhodný výběr z rozložení N(u.,g2), pak ů = (p.,02) a v tomto případě parametrický prostor S = (— oo5oo)x ^0,00) .
Parametr ů neznáme a chceme ho odhadnout pomocí daného náhodného výběru (případně chceme odhadnout nějakou parametrickou funkci h($)).
Bodovým odhadem parametrické funkce h(ů) je statistika Tn = T(Xi,     Xn), která nabývá hodnot blízkých h(ů), ať je hodnota parametru ů jakákoliv. Existují různé metody, jak konstruovat bodové odhady (např. metoda momentů či metoda maximální věrohodnosti, ale těmi se zde zabývat nebudeme) a také různé typy bodových odhadů. Omezíme se na odhady nestranné, asymptoticky nestranné a konzistentní.
Intervalovým odhadem parametrické funkce h(ů) rozumíme interval (D, H), jehož meze jsou statistiky
D = D(Xi,     Xn), H = H(Xi,     Xn) a který s dostatečně velkou pravděpodobností pokrývá h(ů), ať je hodnota parametru ů
jakákoliv.
Typy bodových odhadů
Nechť Xi,    Xn je náhodný výběr z rozložení L(ů), h(ů) je parametrická funkce, T, Tl5 T2, ... jsou statistiky.
a) Řekneme, že statistika T je nestranným odhadem parametrické funkce h(ů), jestliže VůeZ: E(T) = h(ů).
(Význam nestrannosti spočívá v tom, že odhad T nesmí parametrickou funkci h(ů) systematicky nadhodnocovat ani podhodnocovat. Není-li tato podmínka splněna, jde o vychýlený odhad.)
b) Jsou-li Ti, T2 nestranné odhady téže parametrické funkce h(ů), pak řekneme, že Ti je lepší odhad než T2, jestliže Vfle S : D(Ti) < D(T2).
c) Posloupnost {Tn}~=1 se nazývá posloupnost asymptoticky nestranných odhadů parametrické funkce h(ů), jestliže Vůe S : limE(Tn) = h(ů).
(Význam asymptotické nestrannosti spočívá v tom, že s rostoucím rozsahem výběru klesá vychýlení odhadu.)
d) Posloupnost {Tn}~=1 se nazývá posloupnost konzistentních odhadů parametrické funkce h(ů), jestliže
\/ů e S Ve > 0: lim P(ÍTn - h(ů)\ > e) = 0.
(Význam konzistence spočívá v tom, že s rostoucím rozsahem výběru klesá pravděpodobnost, že odhad se bude
realizovat „daleko" od parametrické funkce h(ů).) Lze dokázat, že z nestrannosti odhadu vyplývá jeho asymptotická nestrannost a z asymptotické nestrannosti vyplývá konzistence, pokud posloupnost rozptylů odhadu konverguje k nule.
Vlastnosti důležitých statistik
a) Případ jednoho náhodného výběru: Nechť X1?Xnje náhodný výběr z rozložení se střední hodnotou li, rozptylem o2 a distribuční funkcí <!>(x). Nechť n > 2. Označme Mn výběrový průměr, Sn2 výběrový rozptyl a pro libovolné, ale pevně dané x g R označme Fn(x) hodnotu výběrové distribuční funkce. Pak pro libovolné hodnoty parametrů li , o2 a libovolné, ale pevně dané reálné číslo x platí: E(Mn) = li,
D(Mn) = ^,
E(Sn2) = a2,
D(Sn2) = —-g/n ^), kde y4 je 4. centrální moment, n n(n-l)
E(Fn(x)) = <ř(x),
D(Fn(x))=*WtzíW]
n
2 2
Znamená to, že Mn je nestranným odhadem li, Sn je nestranným odhadem a , pro libovolné, ale pevně dané x g R je výběrová distribuční funkce Fn(x) nestranným odhadem O(x). Posloupnost {Mn}^=1 je posloupnost konzistentních odhadů li,
Pn2}n=i Je posloupnost konzistentních odhadů o2,
pro libovolné, ale pevně dané x e R je {Fn(x)}^=1 posloupnost konzistentních odhadů <D(x).
Ilustrace:
Vlastnosti výběrového průměru a výběrového rozptylu budeme ilustrovat na náhodném výběru rozsahu 100 z rozložení Rs(0,l). V tomto případě E(X0 = 1/2, D(X0 = 1/12, i = 1,     100. Pomocí systému STATISTICA vygenerujeme pro každou z náhodných veličin Xi, ..., Xi0o 100 realizací a uložíme je do proměnných vi, ..., Vioo- Dále vypočítáme průměr a rozptyl těchto realizací, uložíme je do proměnných PRUMER a ROZPTYL. Graficky znázorníme hodnoty některé z proměnných Vi, ..., Vioo (např. Vi) a hodnoty proměnné PRUMER:
■0,2 1-1-1-1-1-1-1-1
-20 O 20 40 ED SO 1CO 12D
PORADÍ
Vidíme, že hodnoty proměnné Vi kolísají od 0 do 1, zatímco hodnoty proměnné PRUMER se nacházejí v úzkém pásu kolem 1/2.
Dále vypočteme průměr a rozptyl např. proměnné via proměnné PRUMER a dále vypočteme průměr proměnné ROZPTYL.
Proměnná	Popisné statistiky (uniform)|		
	Průměr	Rozptyl	
Proml	0,536605	0,078676	
PRUMER	0,503984	0,000783	
Proměnná	Popisné statistiky (uniform)|	
	Průměr	
ROZPTYL	0,083143	
Průměr proměnné vl by měl být blízký 0,5, rozptyl 1/12 = 0,083. Průměr proměnné PRUMER by se měl blížit 0,5, zatímco rozptyl by měl být n = 100 x menší než 1/12, tj. 0,00083. Dále průměr proměnné ROZPTYL by se měl blížit 1/12 = 0,083.
Nestrannost výběrové distribuční funkce budeme ilustrovat na náhodném výběru rozsahu 1000 z rozložení N(0,1). Získáme výběrovou distribuční funkci tohoto výběru a její graf porovnáme s grafem distribuční funkce náhodné veličiny se standardizovaným normálním rozložením. Graf výběrové distribuční funkce má černou barvu, graf distribuční funkce standardizovaného normálního rozložení má červenou barvu.
1,2 1,0
o*
T 0.4
Dí
-0,2
■4-3-2-10 1 2 3 4 5
Proinl
Průběh výběrové distribuční funkce F100o(x) je velmi podobný průběhu distribuční funkce O(x). Pokud bychom postup zopakovali s podstatně menším rozsahem náhodného výběru (např. n = 100), průběh obou funkcí by se lišil výrazněji:
b) Případ r > 2 stochasticky nezávislých náhodných výberu: Nechť Xn,...,Xln ,     Xrl,...,Xm je r stochasticky nezávislých
náhodných výběrů o rozsazích n! > 2,    nr > 2 z rozložení se středními hodnotami fi1?    fir a rozptylem o2. Celkový rozsah
je n = ^iij. Nechť Ci, cr jsou reálné konstanty, aspoň jedna nenulová. Pak pro libovolné hodnoty parametrů (ii, ..., (ir a o2 platí:
f r 'N r
^ j=i J H
E(S*2) = o2.
r
Znamená to, že lineární kombinace výběrových průměrů 2]cjmj Je nestranným odhadem lineární kombinace středních hod-
h
not 2-(Cj^j a vážený průměr výběrových rozptylů S*2 =—-je nestranným odhadem rozptylu o2.
j=i n-r
c) Případ jednoho náhodného výběru z dvourozměrného rozložení: Nechť (X^Y^,    (Xn,Yn) je náhodný výběr
z dvourozměrného rozložení s kovariancí cl2 a koeficientem korelace p. Pak pro libovolné hodnoty parametrů cl2 a p platí:
E(Si2) = a i2,
E(R12) ~ p (shoda je vyhovující pro n > 30).
Znamená to, že výběrová kovariance Si2 je nestranným odhadem kovariance cl2, avšak výběrový koeficient korelace R12 je vychýleným odhadem koeficientu korelace p.
Pojem intervalu spolehlivosti
Nechť Xi,Xn je náhodný výběr z rozložení L(-ô), h(ů) je parametrická funkce,
M0,l),
D = D(Xi,    X„), H = H(Xi,    Xn) jsou statistiky.
a) Interval (D, H) se nazývá 100(l-a)% (oboustranný) interval spolehlivosti pro parametrickou funkci h(#), jestliže: v#e s :P(D < h(ť>) < H) > 1-a.
b) Interval (D, qo) se nazývá 100(l-a)% levostranný interval spolehlivosti pro parametrickou funkci h(#), jestliže: \/ůe s :P(D < h(a)) > 1-a.
c) Interval (-00, H) se nazývá 100(l-a)% pravostranný interval spolehlivosti pro parametrickou funkci h(ů), jestliže: v-de s :P(h(#) < H) > 1-a.
Číslo a se nazývá riziko (zpravidla a = 0,05, méně často 0,1 či 0,01), číslo 1 - a se nazývá spolehlivost.
Postup při konstrukci intervalu spolehlivosti
a) Vyjdeme ze statistiky V, která je nestranným bodovým odhadem parametrické funkce h(ů).
b) Najdeme tzv. pivotovou statistiku W, která vznikne transformací statistiky V, je monotónní funkcí h(ů) a pňtom její rozložení je známé a na h(ů) nezávisí. Pomocí známého rozložení pivotové statistiky W najdeme kvantily w^, Wi-o/2, takže platí: VůeZ: PCw^ < W < Wi.^) > 1 - a.
c) Nerovnost      < W < Wj.^ převedeme ekvivalentními úpravami na nerovnost D < h(ů) < H.
d) Statistiky D, H nahradíme jejich číselnými realizacemi d, h a získáme tak 100(l-a)% empirický interval spolehlivosti, o němž prohlásíme, že pokrývá h(ů) s pravděpodobností aspoň 1 - a. (Tvrzení, že (d,h) pokrývá h(ů) s pravděpodobností aspoň 1 - a je třeba chápat takto: jestliže mnohonásobně nezávisle získáme realizace xi,xn náhodného výběru Xi, Xn z rozložení L(ů) a pomocí každé této realizace sestrojíme 100(l-a)% empirický interval spolehlivosti pro h(ů), pak podíl počtu těch intervalů, které pokrývají h(ů) k počtu všech sestrojených intervalů bude přibližně 1 - a.)
Ilustrace: Jestliže lOOx nezávisle na sobě uskutečníme náhodný výběr z rozložení se střední hodnotou 11 a pokaždé sestrojíme 95% empirický interval spolehlivosti pro 11, pak přibližně v 95-ti případech bude ležet parametr 11 v intervalech spolehlivosti a asi v 5-ti případech interval spolehlivosti ii nepokryje.
Volba oboustranného, levostranného, nebo pravostranného intervalu: závisí na konkrétní situaci.
Např. oboustranný interval spolehlivosti použije konstruktér, kterého zajímá dolní i horní hranice pro skutečnou délku fi nějaké součástky.
Levostranný interval spolehlivosti použije výkupčí drahých kovů, který potřebuje znát dolní mez pro skutečný obsah zlata fi v kupovaném slitku.
Pravostranný interval spolehlivosti použije chemik, který potřebuje znát horní mez pro obsah nečistot fi v analyzovaném vzorku.
Příklad: Nechť Xl5Xn je náhodný výběr z rozložení N(ii,o2), kde n > 2 a rozptyl o2 známe. Sestrojte 100(l-a)% interval spolehlivosti pro neznámou střední hodnotu u,
Řešení: V tomto případě parametrická funkce h(ů) = \i. Nestranným odhadem střední hodnoty je výběrový průměr M =
1 ^
n ;=
2]X; . Protože M je lineární kombinací normálně rozložených náhodných veličin, bude mít také normální rozložení se
í=i
střední hodnotou E(M) = 11 a rozptylem D(M) = —. Pivotovou statistikou W bude standardizovaná náhodná veličina
n
u = m-u_ ^N(0?1)
a
Kvantil Wo/2 = Uaj2 = -Ui.^,        = Ui.^.
VŮG S : 1 - tt < PC-Ui.a/2 < U < Ui.a/2) = P
Ul-a/2 <
m-(i a
< u
l-a/2
M--ž=Ul-a/2 <(^<M + -ž=Ul-a/2
Vn Vn
Meze 100(l-a)% intervalu spolehlivosti pro střední hodnotu fi při známém rozptylu o tedy jsou:
D = m—H = m + -^ul_a/2. Vn Vn
Při konstrukci jednostranných intervalů spolehlivosti se riziko nepůlí, tedy 100(l-a)% levostranný interval spolehlivosti pro
f r, \ f n \
lije m—^=Uj_a,oo a pravostranný je -oo,m + -=Uj_c V      Vn ) \ Vn
Dosadíme-li do vzorců pro dolní a horní mez číselnou realizaci m výběrového průměru M, dostaneme 100(l-a)% empirický
interval spolehlivosti. Postup si ukážeme na následujícím numerickém příkladu.
Příklad: 10 krát nezávisle na sobě byla změřena jistá konstanta \i. Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2.
Výsledky považujeme za číselné realizace náhodného výběru Xi,     Xi0 z rozložení N((x, a2), kde fi neznáme a a2 = 0,04. Najděte 95% empirický interval spolehlivosti pro ji, a to
a) oboustranný,
b) levostranný,
c) pravostranný. Řešení:
Vypočteme realizaci výběrového průměru: m = 2,06. Riziko a je 0,05. V tabulkách najdeme kvantil u0,975 = 1,96 pro oboustranný interval spolehlivosti a kvantil u0,95 = 1,64 pro jednostranné intervaly spolehlivosti.
ad a) d = m -      u^ = 2,06 -       1,96 = 1,94 Vn v 10
h = m +      ui-o/2 = 2,06 +       1,96 = 2,18 Vn vlO
1,94 < fi< 2,18 s pravděpodobností aspoň 0,95.
= m -      ui.a = 2,06 - -^L 1,64 = 1,96 Vn VlO
1,96 < (i s pravděpodobností aspoň 0,95.
= m +      Ul.a = 2,06 + -^L 1,64 = 2,16 Vn VlO
(i< 2,16 s pravděpodobností aspoň 0,95.
Šířka intervalu spolehlivosti
Nechť (d, h) je 100(l-a)% empirický interval spolehlivosti pro h(ů) zkonstruovaný pomocí číselných realizací xl9xn náhodného výběru X1?Xn z rozložení L($).
a) Při konstantním riziku klesá šířka h-d s rostoucím rozsahem náhodného výběru.
b) Při konstantním rozsahu náhodného výběru klesá šířka h-d s rostoucím rizikem. Ilustrace
ad a) Grafické znázornění závislosti dolních a horních meze 95% empirických intervalů spolehlivosti pro střední hodnotu normálního rozložení při známém rozptylu na rozsahu náhodného výběru:
0 10 20 30 40 50 SO 70 80 90
Šířka intervalu spolehlivosti klesá se zvětšujícím se rozsahem náhodného výběru, zprvu rychle a pak stále pomaleji, ad b) Grafické znázornění závislosti dolních a horních mezí 100(l-a)% empirických intervalů spolehlivosti pro střední hodnotu normálního rozložení při známém rozptylu a konstantním rozsahu výběru na riziku:
Vidíme, že šířka intervalu spolehlivosti s rostoucím rizikem klesá.
Príklad: (stanovení minimálního rozsahu výběru z normálního rozložení)
Nechť X1? Xn je náhodný výběr z N(li, o2), kde o2 známe. Jaký musí být minimální rozsah výběru n, aby šířka 100(l-a)% empirického intervalu spolehlivosti pro střední hodnotu li nepřesáhla číslo A?
Řešení: Požadujeme, aby A > h - d = m+-^=ul_a/2 -(m--^Lu,_a/2) =^ul_a/2. Z této podmínky dostaneme, že
a    2 2
4a \xl_al2
n -      ^      . Za rozsah výběru zvolíme nejmenší přirozené číslo vyhovující této podmínce.
Příklad: Hloubka moře se měří přístrojem, jehož systematická chyba je nulová a náhodné chyby měření mají normální rozložení se směrodatnou odchylkou o = 1 m. Kolik měření je nutno provést, aby se hloubka stanovila s chybou nejvýše ± 0,25 m při spolehlivosti 0,95?
Řešení: Hledáme rozsah výběru tak, aby šířka 95% intervalu spolehlivosti pro střední hodnotu li nepřesáhla 0,5 m. Přitom o
4o2u1_0[/,2    4 1,962
známe. Z předešlého příkladu vyplývá, že n >-—-=   - ^2— - 61,4656. Nejmenší počet měření je tedy 62.