Kapitola 1.: Základní pojmy matematické statistiky 1.1. Motivace Při aplikaci metod popisné statistiky dospíváme pomocí zjištěných dat k závěrům, které se týkají pouze výběrového souboru. Naproti tomu matematická statistika nám umožňuje na základě znalosti náhodného výběru a statistik z něj odvozených (tj. např. výběrového průmě- ru, výběrového rozptylu, výběrového koeficientu korelace, hodnoty výběrové distribuční funkce apod.) učinit závěry o parametrech nebo tvaru rozložení, z něhož daný náhodný výběr pochází. Často se jedná o bodové či intervalové odhady parametrů a parametrických funkcí a testování hypotéz o nich. 1.2. Náhodný výběr a statistiky odvozené z náhodného výběru 1.2.1. Pojem náhodného výběru Nechť X1, ..., Xn jsou stochasticky nezávislé náhodné veličiny, které mají všechny stejné rozložení L( ). Řekneme, že X1, ..., Xn je náhodný výběr rozsahu n z rozložení L( ). (Čí- selné realizace x1, ..., xn náhodného výběru X1, ..., Xn uspořádané do sloupcového vektoru představují datový soubor.) Nechť (X1,Y1), ..., (Xn,Yn) jsou stochasticky nezávislé dvourozměrné náhodné vektory, které mají všechny stejné dvourozměrné rozložení L2(). Řekneme, že (X1,Y1), ..., (Xn,Yn) je dvourozměrný náhodný výběr rozsahu n z dvourozměrného rozložení L2( ). (Číselné reali- zace (x1,y1), ..., (xn,yn) náhodného výběru (X1,Y1), ..., (Xn,Yn) uspořádané do matice typu 2×n představují dvourozměrný datový soubor.) Analogicky lze definovat p-rozměrný náhodný výběr rozsahu n z p-rozměrného rozlo- žení Lp( ). 1.2.2. Pojem statistiky, příklady důležitých statistik Libovolná funkce T = T(X1, ..., Xn) náhodného výběru X1, ..., Xn (resp. p-rozměrného náhodného výběru) se nazývá statistika. a) Nechť X1, ..., Xn je náhodný výběr, n 2. Statistika M = = n 1i iX n 1 se nazývá výběrový průměr, Statistika S2 = ( )= - - n 1i 2 i MX 1n 1 výběrový rozptyl, Statistika S = 2 S výběrová směrodatná odchylka. Pro libovolné, ale pevně zvolené reálné číslo x je statistikou též hodnota výběrové dis- tribuční funkce { }xX;icard n 1 )x(F in = . b) Nechť 1n111 X,,X K , ..., ppn1p X,,X K je p stochasticky nezávislých náhodných výběrů o rozsazích n1 2, ..., np 2. Celkový rozsah je = = p 1j jnn . Označme M1, ..., Mp výběrové průměry a S1 2 , ..., Sp 2 výběrové rozptyly jednotlivých výběrů. Nechť c1, ..., cp jsou reálné kon- stanty, aspoň jedna nenulová Statistika = p 1j jjMc se nazývá lineární kombinace výběrových průměrů. Statistika ( ) pn S1n S p 1j 2 jj 2 * - - = = se nazývá vážený průměr výběrových rozptylů. c) Nechť (X1,Y1), ..., (Xn,Yn) je náhodný výběr z dvourozměrného rozložení. Označme M1 = = n 1i iX n 1 , M2 = = n 1i iY n 1 Statistika S12 = ( )( )= -- - n 1i 2i1i MYMX 1n 1 je výběrová kovariance, statistika R12 = - - - = jinak0 0SSpro S MY S MX 1n 1 n 1i 21 2 2i 1 1i výběrový koeficient korelace. Pro libovolnou, ale pevně zvolenou dvojici reálných čísel x,y je statistikou též hodnota výběrové simultánní distribuční funkce { }yYxX;icard n 1 )y,x(F iin = . (Číselné realizace m, s2 , s, s12, r12 statistik M, S2 , S, S12, R12 odpovídají číselným charakteris- tikám znaků v popisné statistice, ale u rozptylu, směrodatné odchylky, kovariance a koeficien- tu korelace je multiplikativní konstanta 1n 1 - , nikoli n 1 , jak tomu bylo v popisné statistice.) 1.3. Bodové a intervalové odhady parametrů a parametrických funkcí Vycházíme z náhodného výběru X1, ..., Xn z rozložení L( ), které závisí na parametru . Množinu všech přípustných hodnot tohoto parametru označíme . Parametr neznáme a chceme ho odhadnout pomocí daného náhodného výběru (případně chceme odhadnout něja- kou parametrickou funkci h()). Bodovým odhadem parametrické funkce h( ) je statistika Tn = T(X1, ..., Xn), která na- bývá hodnot blízkých h( ), ať je hodnota parametru jakákoliv. Existují různé metody, jak konstruovat bodové odhady (např. metoda momentů či metoda maximální věrohodnosti, ale těmi se zde zabývat nebudeme) a také různé typy bodových odhadů. Omezíme se na odhady nestranné, asymptoticky nestranné a konzistentní. Intervalovým odhadem parametrické funkce h( ) rozumíme interval (D, H), jehož me- ze jsou statistiky D = D(X1, ..., Xn), H = H(X1, ..., Xn) a který s dostatečně velkou pravděpo- dobností pokrývá h( ), ať je hodnota parametru jakákoliv. 1.3.1. Typy bodových odhadů Nechť X1, ..., Xn je náhodný výběr z rozložení L( ), h( ) je parametrická funkce, T, T1, T2, ... jsou statistiky. a) Řekneme, že statistika T je nestranným odhadem parametrické funkce h( ), jestliže : E(T) = h(). (Význam nestrannosti spočívá v tom, že odhad T nesmí parametrickou funkci h( ) syste- maticky nadhodnocovat ani podhodnocovat. Není-li tato podmínka splněna, jde o vychýle- ný odhad.) b) Jsou-li T1, T2 nestranné odhady téže parametrické funkce h( ), pak řekneme, že T1 je lepší odhad než T2, jestliže : D(T1) < D(T2). c) Posloupnost { } =1nnT se nazývá posloupnost asymptoticky nestranných odhadů parametrické funkce h( ), jestliže ).(h)T(Elim: n n = (Význam asymptotické nestrannosti spočívá v tom, že s rostoucím rozsahem výběru klesá vychýlení odhadu.) d) Posloupnost { } =1nnT se nazývá posloupnost konzistentních odhadů parametrické funkce h( ), jestliže ( ) .0)(hTPlim:0 n n =>-> (Význam konzistence spočívá v tom, že s rostoucím rozsahem výběru klesá pravděpodob- nost, že odhad se bude realizovat daleko od parametrické funkce h( ).) Lze dokázat, že z nestrannosti odhadu vyplývá jeho asymptotická nestrannost a z asymptotické nestrannosti vyplývá konzistence, pokud posloupnost rozptylů odhadu kon- verguje k nule. 1.3.2. Vlastnosti důležitých statistik a) Nechť X1, ..., Xn je náhodný výběr z rozložení se střední hodnotou , rozptylem 2 a distribuční funkcí (x). Nechť n 2 Označme Mn výběrový průměr, Sn 2 výběrový rozptyl a pro libovolné, ale pevně dané Rx Fn(x) hodnotu výběrové distribuční funkce. Pak Mn je nestranným odhadem (tj. E(Mn) = ) s rozptylem D(M) = n 2 , Sn 2 je ne- stranným odhadem 2 (tj. E(Sn 2 ) = 2 ), ať jsou hodnoty parametrů , 2 jakékoli. Dále platí, že pro libovolné, ale pevně dané Rx je výběrová distribuční funkce Fn(x) nestranným odha- dem (x) (tj. E(Fn(x)) = (x)) s rozptylem D(Fn(x)) = (x)(1- (x))/n, ať je hodnota distri- buční funkce (x) jakákoliv. Posloupnost { } =1nnM je posloupnost konzistentních odhadů . { } =1n 2 nS je posloupnost konzistentních odhadů 2 . Pro libovolné, ale pevně dané Rx je { } =1nn )x(F posloupnost konzistentních odhadů (x). b) Nechť 1n111 X,,X K , ..., ppn1p X,,X K je p stochasticky nezávislých náhodných výběrů o rozsazích n1 2, ..., np 2 z rozložení se středními hodnotami 1, ..., p a rozptylem 2 . Cel- kový rozsah je = = p 1j jnn . Nechť c1, ..., cp jsou reálné konstanty, aspoň jedna nenulová. Pak lineární kombinace výběrových průměrů = p 1j jjMc je nestranným odhadem lineární kombina- ce středních hodnot = p 1j jjc , ať jsou střední hodnoty 1, ..., p jakékoli a vážený průměr výbě- rových rozptylů ( ) pn S1n S p 1j 2 jj 2 * - - = = je nestranným odhadem rozptylu 2 , ať je rozptyl 2 jakýkoliv. c) Nechť (X1,Y1), ..., (Xn,Yn) je náhodný výběr z dvourozměrného rozložení s kovariancí 12 a koeficientem korelace . Pak výběrová kovariance S12 je nestranným odha- dem kovariance 12, ať je kovariance 12 jakákoli, avšak E(R12) je rovno pouze přibližně (shoda je vyhovující pro n > 30), ať je korelační koeficient jakýkoli. 1.3.3. Pojem intervalu spolehlivosti Nechť X1, ..., Xn je náhodný výběr z rozložení L( ), h( ) je parametrická funkce, (0,1), D = D(X1, ..., Xn), H = H(X1, ..., Xn) jsou statistiky. a) Interval (D, H) se nazývá 100(1-)% (oboustranný) interval spolehlivosti pro parametric- kou funkci h( ), jestliže: : P(D < h() < H) 1-. b) Interval (D, ) se nazývá 100(1-)% levostranný interval spolehlivosti pro parametrickou funkci h( ), jestliže: : P(D < h( )) 1-. c) Interval (-, H) se nazývá 100(1-)% pravostranný interval spolehlivosti pro parametric- kou funkci h( ), jestliže: : P(h( ) < H) 1-. d) Číslo se nazývá riziko (zpravidla = 0,05, méně často 0,1 či 0,01), číslo 1 ­ se nazývá spolehlivost. 1.3.4. Postup při konstrukci intervalu spolehlivosti a) Vyjdeme ze statistiky V, která je nestranným bodovým odhadem parametrické funkce h( ). b) Najdeme tzv. pivotovou statistiku W, která vznikne transformací statistiky V, je monotón- ní funkcí h( ) a přitom její rozložení je známé a na h() nezávisí. Pomocí známého roz- ložení tzv. pivotové statistiky W najdeme kvantily w/2, w1-/2, takže platí: : P(w/2 < W < w1-/2) 1 ­ . c) Nerovnost w/2 < W < w1-/2 převedeme ekvivalentními úpravami na nerovnost D < h() < H. d) Statistiky D, H nahradíme jejich číselnými realizacemi d, h a získáme tak 100(1-)% em- pirický interval spolehlivosti, o němž prohlásíme, že pokrývá h( ) s pravděpodobností aspoň 1 ­ . (Tvrzení, že (d,h) pokrývá h( ) s pravděpodobností aspoň 1 ­ je třeba chá- pat takto: jestliže mnohonásobně nezávisle získáme realizace x1, ..., xn náhodného výběru X1, ..., Xn z rozložení L() a pomocí každé této realizace sestrojíme 100(1-)% empirický interval spolehlivosti pro h( ), pak podíl počtu těch intervalů, které pokrývají h( ) k počtu všech sestrojených intervalů bude přibližně 1 ­ .) 1.3.5. Příklad Nechť X1, ..., Xn je náhodný výběr z N(,2 ), kde n 2 a rozptyl 2 známe. Sestrojte 100(1-)% interval spolehlivosti pro neznámou střední hodnotu . Řešení: V tomto případě parametrická funkce h( ) = . Nestranným odhadem střední hodno- ty je výběrový průměr (viz 1.3.(a)) M = = n 1i iX n 1 . Protože M je lineární kombinací normálně rozložených náhodných veličin, bude mít také normální rozložení se střední hodnotou E(M) = a rozptylem D(M) = n 2 . Pivotovou statistikou W bude standardizovaná náhodná veličina n M U - = ~ N(0,1). Kvantil w/2 = u/2 = -u1-/2, w1-/2 = u1-/2. : 1 ­ P(-u1-/2 < U < u1-/2) = +<< -= < - <- ---- 2/12/12/12/1 u n Mu n MPu n M uP . Meze 100(1-)% intervalu spolehlivosti pro střední hodnotu při známém rozptylu 2 tedy jsou: D = 2/1u n M - - , H = 2/1u n M - + . Při konstrukci jednostranných intervalů spolehlivosti se riziko nepůlí, tedy 100(1-)% levostranný interval spolehlivosti pro je - - ,u n M 1 a pravostranný je +- -1u n M, . Dosadíme-li do vzorců pro dolní a horní mez číselnou realizaci m výběrového průměru M, dostaneme 100(1-)% empirický interval spolehlivosti. 1.3.5. Šířka intervalu spolehlivosti Nechť (d, h) je 100(1-)% empirický interval spolehlivosti pro h( ) zkonstruovaný pomocí číselných realizací x1, ..., xn náhodného výběru X1, ..., Xn z rozložení L( ). a) Při konstantním riziku klesá šířka h-d s rostoucím rozsahem náhodného výběru. b) Při konstantním rozsahu náhodného výběru klesá šířka h-d s rostoucím rizikem. Využití bodu (a) při stanovení minimálního rozsahu výběru z normálního rozložení: Nechť X1, ..., Xn je náhodný výběr z N(, 2 ), kde 2 známe. Jaký musí být minimální rozsah výběru n, aby šířka 100(1-)% empirického intervalu spolehlivosti pro střední hodnotu nepřesáhla číslo ? Řešení: Požadujeme, aby h ­ d = 2/12/12/1 u n 2 )u n m(u n m --- = -- + . Z této podmínky dostaneme, že 2 2 2/1 2 u4 n - . Za rozsah výběru zvolíme nejmenší přirozené číslo vyhovující této podmínce. 1.4. Úvod do testování hypotéz Nulovou hypotézou rozumíme nějaké tvrzení o parametrech nebo typu rozložení, z něhož pochází náhodný výběr. Nulová hypotéza vyjadřuje nějaký teoretický předpoklad, často skeptického rázu a uživatel ji musí stanovit předem, bez přihlédnutí k datovému soubo- ru. Proti nulové hypotéze stavíme alternativní hypotézu, která říká, co platí, když neplatí nu- lová hypotéza. Např. nulová hypotéza tvrdí, že střední hodnota hmotnosti balíčků cukru bale- ných na automatické lince se nezměnila seřízením automatu, zatímco alternativní hypotéza tvrdí opak. Postup, který je založen na daném náhodném výběru a s jehož pomocí rozhodne- me o zamítnutí či nezamítnutí nulové hypotézy, se nazývá testování hypotéz. 1.4.1. Nulová a alternativní hypotéza Nechť X1, ..., Xn je náhodný výběr z rozložení L( ), kde parametr neznáme. Nechť h( ) je parametrická funkce a c daná reálná konstanta. a) Oboustranná alternativa: Tvrzení H0: h() = c se nazývá jednoduchá nulová hypotéza. Pro- ti nulové hypotéze postavíme složenou alternativní hypotézu H1: h() c. b) Levostranná alternativa: Tvrzení H0: h( ) c se nazývá složená pravostranná nulová hy- potéza. Proti jednoduché nebo složené pravostranné nulové hypotéze postavíme složenou le- vostrannou alternativní hypotézu H1: h( ) < c. c) Pravostranná alternativa: Tvrzení H0: h( ) c se nazývá složená levostranná nulová hy- potéza. Proti jednoduché nebo složené levostranné nulové hypotéze postavíme složenou pra- vostrannou alternativní hypotézu H1: h( ) > c. Testováním H0 proti H1 rozumíme rozhodovací postup založený na náhodném výběru X1, ..., Xn, s jehož pomocí zamítneme či nezamítneme platnost nulové hypotézy. 1.4.2. Chyba 1. a 2. druhu Při testování H0 proti H1 se můžeme dopustit jedné ze dvou chyb: chyba 1. druhu spo- čívá v tom, že H0 zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí. Situaci přehledně znázorňuje tabulka: rozhodnutískutečnost H0 nezamítáme H0 zamítáme H0 platí správné rozhodnutí chyba 1. druhu H0 neplatí chyba 2. druhu správné rozhodnutí Pravděpodobnost chyby 1. druhu se značí a nazývá se hladina významnosti testu (většinou bývá = 0,05, méně často 0,1 či 0,01). Pravděpodobnost chyby 2. druhu se značí . Číslo 1­ se nazývá síla testu a vyjadřuje pravděpodobnost, s jakou test vypoví, že H0 neplatí. 1.4.3. Testování pomocí kritického oboru Najdeme statistiku T0 = T0(X1, ..., Xn), kterou nazveme testovým kritériem. Množina všech hodnot, jichž může testové kritérium nabýt, se rozpadá na obor nezamítnutí nulové hy- potézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). Tyto dva obory jsou odděleny kritickými hodnotami (pro danou hladinu významnosti je lze najít ve statistických tabulkách). Jestliže číselná realizace t0 testového kritéria T0 padne do kritického oboru W, pak nulo- vou hypotézu zamítáme na hladině významnosti a znamená to skutečné vyvrácení testované hypotézy. Jestliže t0 padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. Pravděpodobnosti chyb 1. a 2. druhu nyní zapíšeme takto: P(T0 W/H0 platí) = , P(T0 V /H1 platí) = . Stanovení kritického oboru pro danou hladinu významnosti : Označme tmin (resp. tmax) nejmenší (resp. největší) hodnotu testového kritéria. Kritický obor v případě oboustranné alternativy má tvar W = ( )max2/12/min t),T(K)T(K,t - , kde K/2(T) a K1-/2(T) jsou kvantily rozložení, jímž se řídí testové kritérium T0, je-li nulová hypotéza pravdivá. Kritický obor v případě levostranné alternativy má tvar: W = ( )T(K,tmin . Kritický obor v případě pravostranné alternativy má tvar: W = )max1 t),T(K - . Doporučuje se dodržovat následující postup: - Stanovíme nulovou hypotézu a alternativní hypotézu. Přitom je vhodné zvolit jako alterna- tivní hypotézu ten předpoklad, jehož přijetí znamená závažné opatření a mělo by k němu dojít jen s malým rizikem omylu. - Zvolíme hladinu významnosti . Zpravidla volíme = 0,05, méně často 0,1 nebo 0,01. - Najdeme vhodné testové kritérium a na základě zjištěných dat vypočítáme jeho realizaci. - Stanovíme kritický obor. - Jestliže realizace testového kritéria padla do kritického oboru, nulovou hypotézu zamítáme na hladině významnosti . V opačném případě nulovou hypotézu nezamítáme na hladině vý- znamnosti . 1.4.4. Testování pomocí intervalu spolehlivosti Sestrojíme 100(1-)% empirický interval spolehlivosti pro parametrickou funkci h( ). Pokryje-li tento interval hodnotu c, pak H0 nezamítáme na hladině významnosti , v opačném případě H0 zamítáme na hladině významnosti . Pro test H0 proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. Pro test H0 proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti. Pro test H0 proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti. 1.4.5. Testování pomocí p-hodnoty p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy. Je-li p-hodnota , pak H0 zamítáme na hladině významnosti , je-li p-hodnota > , pak H0 nezamítáme na hladině významnosti . Způsob výpočtu p-hodnoty: Pro oboustrannou alternativu p = 2 min{P(T0 t0), P(T0 t0)}. Pro levostrannou alternativu p = P(T0 t0). Pro pravostrannou alternativu p = P(T0 t0). p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace x1, ..., xn náhodného vý- běru X1, ..., Xn podporují H0, je-li pravdivá. Statistické programové systémy poskytují ve svých výstupech p-hodnotu. Její výpočet vyžaduje znalost distribuční funkce rozložení, kte- rým se řídí testové kritérium T0, je-li H0 pravdivá. Vzhledem k tomu, že v běžných statistic- kých tabulkách jsou uvedeny pouze hodnoty distribuční funkce standardizovaného normální- ho rozložení, bez použití speciálního software jsme schopni vypočítat p-hodnotu pouze pro test hypotézy o střední hodnotě normálního rozložení při známém rozptylu. 1.4.6. Příklad 10 x nezávisle na sobě byla změřena jistá konstanta . Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto výsledky považujeme za číselné realizace náhodného výbě- ru X1, ..., X10 z rozložení N(, 0,04). Nějaká teorie tvrdí, že = 1,95. Proti nulové hypotéze H0: = 1,95 postavíme oboustrannou alternativu H1: 1,95. Na hladině významnosti 0,05 testujte H0 proti H1 všemi třemi popsanými způsoby. Řešení: m = )2,2...2( 10 1 ++ = 2,06, 2 = 0,04, n = 10, = 0,05, c = 1,95 a) Test provedeme pomocí kritického oboru. Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku U = n M - ~ N(0, 1) (viz 1.3.5.). Testové kritérium tedy bude T0 = n cM - a bude mít rozložení N(0, 1), pokud je nulová hypotéza pravdivá. Vypočítáme realizaci testového kritéria: t0 = 10 2,0 95,106,2 - =1,74. Stanovíme kritický obor: W = ( )max2/12/min t),T(K)T(K,t - = ( )- - ,uu, 2/12/ = ( )-- -- ,uu, 2/12/1 = ( )-- ,uu, 975,0975.0 = ( )-- ,96,196,1, . Protože 1,74 W, H0 nezamítáme na hladině významnosti 0,05. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(1-)% empirického intervalu spolehlivosti pro střední hodnotu při známém roz- ptylu 2 jsou (viz 1.3.5.): (d, h) = (m - n u1-/2, m + n u1-/2). V našem případě dostáváme: d = 2,06 - 10 2,0 u0,975 = 2,06 - 10 2,0 .1,96 = 1,936, h = 2,184. Protože 1,95 (1,936; 2,184), H0 nezamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty. Protože proti nulové hypotéze stavíme oboustrannou alternativu, použijeme vzorec p = 2 min{P(T0 t0), P(T0 t0)} = 2 min {P(T0 1,74), P(T0 1,74)} = = 2 min { (1,74), 1 ­ (1,74) } = 2 min { 0,95907, 1 ­ 0,95907 } = 0,08186. Jelikož 0,08186 > 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Kontrolní otázky 1. Vysvětlete pojem ,,náhodný výběr" a ,,statistika" a uveďte příklady důležitých statistik. 2. K čemu slouží bodový odhad parametrické funkce a jaké typy bodových odhadů znáte? 3. Definujte interval spolehlivosti a popište způsob jeho konstrukce. 4. Jaký vliv na šířku intervalu spolehlivosti má riziko a jaký vliv má rozsah výběru? 5. Co rozumíme pojmem ,,testování hypotéz"? 6. Popište nulovou a alternativní hypotézu. 7. Vysvětlete rozdíl mezi chybou 1. a 2. druhu. 8. Popište tři způsoby testování hypotéz. Příklady 1. Nezávisle opakovaná laboratorní měření určité konstanty jsou charakterizována náhodným výběrem X1, ..., Xn z rozložení se střední hodnotou a rozptylem 2 . Uvažme statistiky = + == n 1i n1 i 2 XX L,X n 1 M . Dokažte, že M a L jsou nestranné odhady konstanty a zjistěte, který z nich je lepší. Výsledek: Výpočtem zjistíme, že E(M) = , E(L) = , tudíž statistiky M a L jsou nestranné odhady konstatnty . Pro posouzení kvality vypočteme D(M) = n 2 , D(L) = 2 2 . Vidíme tedy, že pro n 3 je lepším odhadem výběrový průměr M. 2. Nechť X1, ..., Xn je náhodný výběr z rozložení N(;0,04). Jaký musí být nejmenší rozsah náhodného výběru, aby šířka 95% empirického intervalu spolehlivosti pro neznámou střední hodnotu nepřesáhla číslo 0,16? Výsledek: 25 3. Nechť X1, ..., X9 je náhodný výběr z rozložení N(;0,01). Realizace výběrového průměru je m = 3. Sestrojte 100(1-)% empirický interval spolehlivosti pro neznámou střední hodnotu , je-li a) = 0,01, b) = 0,05, c) = 0,1. Výsledek: ad a) 2,914 mm < < 3,086 mm s pravděpodobností aspoň 0,99. ad b) 2,935 mm < < 3,065 mm s pravděpodobností aspoň 0,95. ad c) 2,945 mm < < 3,055 mm s pravděpodobností aspoň 0,90. Vidíme, že s rostoucím rizikem klesá šířka intervalu spolehlivosti. 4. Nechť X1, ..., Xn je náhodný výběr z rozložení N(;0,01). Realizace výběrového průměru je m = 3. Sestrojte 95% empirický interval spolehlivosti pro neznámou střední hodnotu , je-li a) n = 4, b) n = 9, c) n = 16. Výsledek: ad a) 2,902 mm < < 3,098 mm s pravděpodobností aspoň 0,95. ad b) 2,935 mm < < 3,065 mm s pravděpodobností aspoň 0,95. ad c) 2,951 mm < < 3,049 mm s pravděpodobností aspoň 0,95. Vidíme, že s rostoucím rozsahem výběru klesá šířka intervalu spolehlivosti. 5. Je známo, že výška hochů ve věku 9,5 až 10 let má normální rozložení s neznámou střední hodnotou a známým rozptylem 2 = 39,112 cm2 . Dětský lékař náhodně vybral 15 hochů uvedeného věku, změřil je a vypočítal realizaci výběrového průměru m = 139,13 cm. Podle jeho názoru by výška hochů v tomto věku neměla přesáhnout 142 cm s pravděpodobností aspoň 0,95. Lze tvrzení lékaře akceptovat? Výsledek: Testujeme H0: 142 proti H1: > 142 na hladině významnosti 0,05. Testování pomocí kritického oboru: W = ),6449,1 , realizace testového kritéria je -1,7773. Protože testové kritérium se nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Testování pomocí intervalu spolehlivosti: 95% empirický levostranný interval spolehlivosti pro střední hodnotu je (136,47;). Protože číslo 142 patří do tohoto intervalu, nulovou hy- potézu nezamítáme na hladině významnosti 0,05. Testování pomocí p-hodnoty: p = 0,9622. Protože p-hodnota je větší než hladina významnosti 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05.