Základní pojmy matematické statistiky Matematická statistika je věda, která analyzuje a interpretuje data především za účelem získání předpovědi a zlepšení rozhodování v různých oborech lidské činnosti. Přitom se řídí principem statistické indukce, tj. na základě znalostí o náhodném výběru z určitého rozložení pravděpodobností se snaží učinit závěry o vlastnostech tohoto rozložení. Ústředním pojmem matematické statistiky je tedy pojem náhodného výběru. Definice náhodného výběru: a) Nechť Xi, Xn jsou stochasticky nezávislé náhodné veličiny, které mají všechny stejné rozložení L(0). Řekneme, že Xi, Xn je náhodný výběr rozsahu n z rozložení L(O). (Číselné realizace Xi, xn náhodného výběru Xi, Xn uspořádané do sloupcového vektoru odpovídají datovému souboru zavedenému v popisné statistice.) b) Nechť (Xi,Yi), (Xn,Yn) jsou stochasticky nezávislé dvourozměrné náhodné vektory, které mají všechny stejné dvourozměrné rozložení L2(S). Řekneme, že (Xi,Yi), (Xn,Yn) je dvourozměrný náhodný výběr rozsahu n z dvourozměrného rozložení L2(S). (Číselné realizace (xi,yi), (xn,yn) náhodného výběru (Xi,Yi), (Xn,Yn) uspořádané do matice typu 2xn odpovídají dvourozměrnému datovému souboru zavedenému v popisné statistice.) c) Analogicky lze definovat p-rozměrný náhodný výběr rozsahu n z p-rozměrného rozložení Lp(&). Definice statistiky: Libovolná funkce T = T(X1, Xn) náhodného výběru X1, Xn (resp. T = T(X1,Y1, Xn,Yn) náhodného výběru (X1,Y1), (Xn,Yn)) se nazývá (výběrová) statistika. Definice důležitých statistik: a) Nechť X1, Xn je náhodný výběr, n > 2. 1 n 9 1 n i- Onačme M=-Yxi ... výběrový průměr, S =-Y X; - M 3 ... výběrový rozptyl, S = v S2 ... výběrová směrodatná n i=i n -1 i=1 odchylka Pro libovolné, ale pevně dané reálné číslo x je statistikou též hodnota výběrové distribuční funkce Fn(x) = -cardHxi < : n b) Nechť je dáno r > 2 stochasticky nezávislých náhodných výběrů o rozsazích n1 > 2, ..., nr > 2. r Celkový rozsah je n = ^iij . Označme M1, ..., Mr výběrové průměry a S1 , ..., Sr výběrové rozptyly jednotlivých výběrů. Nechť c1, ..., cr jsou reálné konstanty, aspoň jedna nenulová. ^ j cj^j ... lineární kombinace výběrových průměrů, S,2 =--... vážený průměr výběrových rozptylů. j=i n- c) Nechť (X1,Y1), (Xn,Yn) je náhodný výběr z dvourozměrného rozložení o rozsahu n. Označme Ml = -Vx,, M2 = -Y Y; výběrové průměry, =-Y X; - Ml ^ , S22 =-Y Y; - M 2^ výběrové rozptyly. í S 1 n , ^ I -^proS1S2 *0 S12 =-X X; - M1 d - M2 ... výběrová kovariance, Ri2 = i ^1^2 ... výběrový koeficient korelace. n~Ul [0 jinak Pro libovolnou, ale pevně zvolenou dvojici reálných čísel x,y je statistikou též hodnota výběrové simultánní distribuční funkce Fn(x,y)= -cardi^X1 < :a \ < > . n ^2 2 Upozornění: Číselné realizace statistik M, S , S, S12, R12 odpovídají číselným charakteristikám m, s , s, s12, r12 zavedeným v popisné statistice, ale u rozptylu, směrodatné odchylky, kovariance a koeficientu korelace je multiplikativní konstanta —!—, nikoliv 1, jak tomu bylo v popisné statistice. Jak uvidíme později, uvedené číselné realizace mohou být považovány n - n za odhady číselných realizací náhodných veličin zavedených v počtu pravděpodobnosti. Charakteristika vlastnosti Počet pravděpodobnosti Matematická statistika Popisná statistika poloha E(X) = fi M m variabilita D(X) = o2 S2 n" s2 n variabilita S fn — V n společná variabilita C(X1, X2) = 012 S12 n -S12 n těsnost vztahu R(X1, X2) = p R12 r12 rozložení O(x) Příklad (výpočet realizací výběrového průměru, výběrového rozptylu a hodnot výběrové distribuční funkce): Desetkrát nezávisle na sobě byla změřena jistá konstanta u, Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1, X10. Vypočtěte realizaci m výběrového průměru M, realizaci s výběrového rozptylu S , realizaci s výběrové směrodatné odchylky S a hodnoty výběrové distribuční funkce F10(x). v Řešení: m=í-£ =!<+ ,8+..+ >,2>>,06,s2 = ^-£ -n>— (y 1 - unO = \ i + ,82 + .. + >,22 - 0 • 2,062 > ),0404 n" 10 n- ~r n- = j 9 s = íŕ = ^0,0404 = 0,2011 Pro usnadnění výpočtu hodnot výběrové distribuční funkce F10(x) uspořádáme měření podle velikosti: 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4. x< ,8:F10(x)= i 1,8< :< ,9:F10(x)=i|= ',2 1,9< :< :;F10(x) = 1= 1,3 2< :< :,l:F10(x)=i|= ',5 2,1< :< :,2:F10(x)=^= 1,7 2,2< :< :,3:F10(x)=^= 1,8 2,3< :< :,4:F10(x)=i|= ',9 x> :,4:F10(x) = 1 o -0,2 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 X Příklad (výpočet realizace výběrového koeficientu korelace): U 11 náhodně vybraných aut jisté značky bylo zjišťováno jejich stáří (náhodná veličina X - v letech) a cena (náhodná veličina Y - v tisících Kč). Výsledky: (5, 85), (4, 103), (6, 70), (5, 82), (5, 89), (5, 98), (6, 66), (6, 95), (2, 169), (7, 70), (7, 48). Vypočtěte a interpretujte číselnou realizaci r12 výběrového koeficientu korelace R12. v Řešení: m1= = L«+ ■+ .+ > ,28 n ~T 11 m2= -Y - -<5+ 03+ .+ -8"= 8,63 n"~ 11 Sl2= —(j mA = -Í2+ 2 + .+ 2- l-5,282"= :,02 1 n- 1 ; 10^ ' - ' s?2 = — (y l- mA = -Í52 + 032 + .+ 82- l-88,632"= '70,85 n- ^ ) 10 ^ —iy Y-- m,m7) = -$-85 + -103+ .+ -48- 1-5,28-88,63"= - 0,89 n- ) 10 " r _ - °>82 - . 92 112 /- l- 'yZď S!-s2 V^Ô2-V970,85 Mezi náhodnými veličinami X a Y existuje silná nepřímá lineární závislost. Čím starší auto, tím nižší cena. Bodové a intervalové odhady parametru a parametrických funkcí Vycházíme z náhodného výběru Xi, Xn z rozložení L(&), které závisí na parametru S. Množinu všech přípustných hodnot tohoto parametru označíme H. Tato množina se nazývá parametrický prostor. Např. je-li Xi, Xn náhodný výběr z rozložení N(fi,c ), pak 0 = n a a v tomto případě parametrický prostor H = i— O, D C 0,00 . Parametr & neznáme a chceme ho odhadnout pomoci daného náhodného výběru (případně chceme odhadnout nějakou parametrickou funkci h(S)). Bodovým odhadem parametrické funkce h(&) je statistika Tn = T(Xi, Xn), která nabývá hodnot blízkých h(S), ať je hodnota parametru S jakákoliv. Existují různé metody, jak konstruovat bodové odhady (např. metoda momentů či metoda maximální věrohodnosti, ale těmi se zde zabývat nebudeme) a také různé typy bodových odhadů. Omezíme se na odhady nestranné, asymptoticky nestranné a konzistentní. Intervalovým odhadem parametrické funkce h($) rozumíme interval (D, H), jehož meze jsou statistiky D = D(Xi, Xn), H = H(Xi, Xn) a který s dostatečně velkou pravděpodobností pokrývá h(&), ať je hodnota parametru ô jakákoliv. Typy bodových odhadů Nechť Xi, Xn je náhodný výběr z rozložení L(3), h(&) je parametrická funkce, T, Ti, T2, ... jsou statistiky. a) Řekneme, že statistika T je nestranným odhadem parametrické funkce h(&), jestliže V : i E(T) = h<>). (Význam nestrannosti spočívá v tom, že odhad T nesmí parametrickou funkci h( B) systematicky nadhodnocovat ani podhodnocovat. Není-li tato podmínka splněna, jde o vychýlený odhad.) b) Jsou-li Ti, T2 nestranné odhady téže parametrické funkce h(&), pak řekneme, že Ti je lepší odhad než T2, jestliže V : i D(T!) i: lim P = ». (Význam konzistence spočívá v tom, že s rostoucím rozsahem výběru klesá pravděpodobnost, že odhad se bude realizovat „daleko" od parametrické funkce h(&).) Lze dokázat, že z nestrannosti odhadu vyplývá jeho asymptotická nestrannost a z asymptotické nestrannosti vyplývá konzistence, pokud posloupnost rozptylů odhadu konverguje k nule. Vlastnosti důležitých statistik a) Případ jednoho náhodného výběru: Nechť Xi, Xnje náhodný výběr z rozložení se střední hodnotou u, rozptylem o a distribuční funkcí 2. Označme Mn výběrový průměr, Sn výběrový rozptyl a pro libovolné, ale pevně dané x e L označme Fn(x) hodnotu výběrové distribuční funkce. Pak pro libovolné hodnoty parametrů (i, o2 a libovolné, ale pevně dané reálné číslo x platí: E(Mn) = ii, D(Mn)=^, E(Sn2) = a2, D(Sn2) = — - —kde y4 je 4. centrální moment, n n%- ^ E(F„(x)) = 4>(x), »<* " 1 ' n 2 2 Znamená to, že Mn je nestranným odhadem \i, Sn je nestranným odhadem o , pro libovolné, ale pevně dané x e L je výběrová distribuční funkce Fn(x) nestranným odhadem 2 stochasticky nezávislých náhodných výběrů: Nechť Xn,...,Xlni, Xrl,...,Xrnr je r stochasticky nezávislých náhodných výběrů o rozsazích n1 > 2, nr > 2 z rozložení se středními hodnotami u^, fir a rozptylem o . Celkový rozsah i, 2 je n = . Nechť Ci, cr jsou reálné konstanty, aspoň jedna nenulová. Pak pro libovolné hodnoty parametrů (li, ..., \ir a o platí: E(S*2) = o2. r Znamená to, že lineární kombinace výběrových průměrů Xcjmj Je nestranným odhadem lineární kombinace středních hodnot Z^j^j a vážený průměr výběrových rozptylů S»2 =--je nestranným odhadem rozptylu o . j=i n- c) Případ jednoho náhodného výběru z dvourozměrného rozložení: Nechť (X1,Y1), (Xn,Yn) je náhodný výběr z dvourozměrného rozložení s kovariancí o12 a koeficientem korelace p. Pak pro libovolné hodnoty parametrů o12 a p platí: E(S12) = O12, E(R12) ~ p (shoda je vyhovující pro n > 30). Znamená to, že výběrová kovariance S12 je nestranným odhadem kovariance o12, avšak výběrový koeficient korelace R12 je vychýleným odhadem koeficientu korelace p. Pojem intervalu spolehlivosti Nechť Xi, Xn je náhodný výběr z rozložení L(s), h(ô) je parametrická funkce, ae(0,l), D = D(X1, Xn), H = H(X1, Xn) jsou statistiky. a) Interval (D, H) se nazývá 100(l-a)% (oboustranný) interval spolehlivosti pro parametrickou funkci h(s), jestliže: v : i P(D < h(a) < H) > 1-a. b) Interval (D, oo) se nazývá 100(l-a)% levostranný interval spolehlivosti pro parametrickou funkci h(&), jestliže: v : i P(D < h(a)) > 1-a. c) Interval (-oo, H) se nazývá 100(l-a)% pravostranný interval spolehlivosti pro parametrickou funkci h(s), jestliže: v : i P(h(d) < H) > 1-a. Číslo a se nazývá riziko (zpravidla a = 0,05, méně často 0,1 či 0,01), číslo 1 - a se nazývá spolehlivost. Postup při konstrukci intervalu spolehlivosti a) b) c) d) Vyjdeme ze statistiky V, která j e nestranným bodovým odhadem parametrické funkce h(8). Najdeme tzv. pivotovou statistiku W, která vznikne transformací statistiky V, je monotónní funkcí h( ô) a přitom její rozložení je známé a na h(ô) nezávisí. Pomocí známého rozložení pivotové statistiky W najdeme kvantily wa/2, wi-o/2, takže platí: V ; i: P(wa/2 < W < wi.a/2) > 1 - a. Nerovnost wa/2 < W < Wi_a/2 převedeme ekvivalentními úpravami na nerovnost D < h(ô) < H. Statistiky D, H nahradíme jejich číselnými realizacemi d, h a získáme tak 100(1 -a)% empirický interval spolehlivosti, o němž prohlásíme, že pokrývá h(&) s pravděpodobností aspoň 1-a. (Tvrzení, že (d,h) pokrývá h(&) s pravděpodobností aspoň 1 - a je třeba chápat takto: jestliže mnohonásobně nezávisle získáme realizace x1;xn náhodného výběru X1; Xn z rozložení L(O) a pomocí každé této realizace sestrojíme 100(l-a)% empirický interval spolehlivosti pro h(O), pak podíl počtu těch intervalů, které pokrývají h(ô) k počtu všech sestrojených intervalů bude přibližně 1 - a.) Ilustrace: Jestliže 100x nezávisle na sobě uskutečníme náhodný výběr z rozložení se střední hodnotou u a pokaždé sestrojíme 95% empirický interval spolehlivosti pro u, pak přibližně v 95-ti případech bude ležet parametr (i v intervalech spolehlivosti a asi v 5-ti případech interval spolehlivosti \i nepokryje. Volba oboustranného, levostranného, nebo pravostranného intervalu závisí na konkrétní situaci. Např. oboustranný interval spolehlivosti použije konstruktér, kterého zajímá dolní i horní hranice pro skutečnou délku u nějaké součástky. Levostranný interval spolehlivosti použije výkupčí drahých kovů, který potřebuje znát dolní mez pro skutečný obsah zlata u v kupovaném slitku. Pravostranný interval spolehlivosti použije chemik, který potřebuje znát horní mez pro obsah nečistot u v analyzovaném vzorku. 2 2 Příklad: Nechť X1, Xn je náhodný výběr z rozložení N(u,o ), kde n > 2 a rozptyl o známe. Sestrojte 100(1-a)% interval spolehlivosti pro neznámou střední hodnotu u, Řešení: V tomto případě parametrická funkce h(3) = u, Nestranným odhadem střední hodnoty je výběrový průměr M = -Yx, . Protože M je lineární kombinací normálně rozložených náhodných veličin, bude mít také normální rozložení se střední hodnotou E(M) = fi a rozptylem D(M) = —. Pivotovou statistikou W bude standardizovaná náhodná veličina n U=-J - ~N(0,1). Kvantil wa/2 = ua/2 = -uW2, wW2 = ( \ V i í: 1 - a h - d = m + -^u^ c 2 - m - -^u^ c 2) = -j=ul _ c 2. Z této podmínky dostaneme, že Vn vn vn 4a Uj c 22 n — " . Za rozsah výběru zvolíme nejmenší přirozené číslo vyhovující této podmínce. Příklad: Hloubka moře se měří přístrojem, jehož systematická chyba je nulová a náhodné chyby měření mají normální ro zložení se směrodatnou odchylkou o = 1 m. Kolik měření je nutno provést, aby se hloubka stanovila s chybou nejvýše ± 0,25 m při spolehlivosti 0,95? v Řešení: Hledáme rozsah výběru tak, aby šířka 95% intervalu spolehlivosti pro střední hodnotu (i nepřesáhla 0,5 m. Přitom o íg i!_ 22 M,962 známe. Z předešlého příkladu vyplývá, že n > -^—— = -—^— = »1,4656. Nejmenší počet měření je tedy 62. Základní typy uspořádání pokusů Metody matematické statistiky často slouží k vyhodnocování výsledků pokusů. Aby mohl být pokus správně vyhodnocen, musí být dobře naplánován. Uvedeme zde nejjednodušší typy uspořádání pokusů Předpokládejme například, že sledujeme hmotnostní přírůstky selat téhož plemene při různých výkrmných dietách. a) Jednoduché pozorování: Náhodná veličina X je pozorována za týchž podmínek. Situace je charakterizována jedním náhodným výběrem X1, Xn. Náhodně vylosujeme n selat téhož plemene, podrobíme je jediné výkrmné dietě a zjistíme u každého selete hmotnostní přírůstek. Tím dostaneme realizaci jednoho náhodného výběru. b) Dvojné pozorování: Náhodná veličina X je pozorována za dvojích různých podmínek. Existují dvě odlišná uspořádání tohoto pokusu. Dvouvýběrové porovnávání: situace je charakterizována dvěma nezávislými náhodnými výběry Xll,..., Xlni a X2l,.",X2n2 . Náhodně vylosujeme n1 a n2 selat téhož plemene, náhodně je rozdělíme na dva soubory o n1 a n2 jedincích, první podrobíme výkrmné dietě č. 1 a druhý výkrmné dietě číslo 2. Tak dostaneme realizace dvou nezávislých náhodných výběrů. Párové porovnávání: situace je charakterizována jedním náhodným výběrem ^ j, X12 ^.., ^Cnl, Xn2 ^ z dvourozměrného rozložení. Přejdeme k rozdílovému náhodnému výběru Zi = Xi1 - Xi2, i = 1, ..., n a tím dostaneme jednoduché pozorování. Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme dva sourozence a náhodně jim přiřadíme první a druhou výkrmnou dietu. Tak dostaneme realizaci jednoho dvourozměrného náhodného výběru, kde první složka odpovídá první dietě a druhá složka druhé dietě. (Párové porovnávání je efektivnější, protože skutečný rozdíl v účinnosti obou diet je překrýván pouze náhodnými vlivy při samotném krmení a trvání, kdežto vliv různých dědičných vloh, který byl losováním znárodněn, je u sourozeneckého páru selat částečně vyloučen.) c) Mnohonásobné pozorování: Náhodná veličina X je pozorována za r > 3 různých podmínek. Existují dvě odlišná uspořádání tohoto pokusu. Mnoho výběrové porovnávání: situace j e charakterizována r nezávislými náhodnými výběry Xn,..., X 1ni až X r1,..., X rnr. Náhodně vylosujeme n1 , n2, ..., nr selat téhož plemene, náhodně je rozdělíme na r souborů o n1 , n2, ..., nr jedincích, první podrobíme výkrmné dietě č. 1, druhý výkrmné dietě číslo 2 atd. až r-tý podrobíme výkrmné dietě číslo r. Tak dostaneme realizace r nezávislých náhodných výběrů. Blokové porovnávání: situace je charakterizována jedním náhodným výběrem ,..., Xlr >...ZI $Cnl,..., Xm zr-rozměrného rozložení. Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme r sourozenců a náhodně jim přiřadíme první až r-tou výkrmnou dietu. Tak dostaneme realizaci jednoho r-rozměrného náhodného výběru, kde první složka odpovídá první dietě , druhá složka druhé dietě atd. až r-tá složka odpovídá r-té dietě.