Základní pojmy matematické statistiky Matematická statistika je věda, která analyzuje a interpretuje data především za účelem získání předpovědi a zlepšení rozhodování v různých oborech lidské činnosti. Přitom se řídí principem statistické indukce, tj. na základě znalostí o náhodném výběru z určitého rozložení pravděpodobností se snaží učinit závěry o vlastnostech tohoto rozložení. Ústředním pojmem matematické statistiky je tedy pojem náhodného výběru. Definice náhodného výběru: a) Nechť Xi, Xn jsou stochasticky nezávislé náhodné veličiny, které mají všechny stejné rozložení L(&). Řekneme, že Xi, Xn je náhodný výběr rozsahu n z rozložení L(&). (Číselné realizace Xi, xn náhodného výběru Xi, Xn uspořádané do sloupcového vektoru odpovídají datovému souboru zavedenému v popisné statistice.) b) Nechť (Xi,Yi), (Xn,Yn) jsou stochasticky nezávislé dvourozměrné náhodné vektory, které mají všechny stejné dvourozměrné rozložení L2(9 ). Řekneme, že (Xi,Yi), (Xn,Yn) je dvourozměrný náhodný výběr rozsahu n z dvourozměrného rozložení L2(9 ). (Číselné realizace (xi,yi), (xn,yn) náhodného výběru (Xi,Yi), (Xn,Yn) uspořádané do matice typu 2x n odpovídají dvourozměrnému datovému souboru zavedenému v popisné statistice.) c) Analogicky lze definovat p-rozměrný náhodný výběr rozsahu n z p-rozměrného rozložení Lp( 9). Definice statistiky: Libovolná funkce T = T(X1, Xn) náhodného výběru X1, Xn (resp. T = T(X1,Y1, Xn,Yn) náhodného výběru (X1,Y1), (Xn,Yn)) se nazývá (výběrová) statistika. Definice důležitých statistik: a) Nechť X1, Xn je náhodný výběr, n > 2. 1 v*11 9 1 v*1 1 ^l^^l /- Onačme M=-Ixi ... výběrový průměr, S =-Z x; - m 2 ... výběrový rozptyl, S = vs2 ... výběrová směrodatná n i=i n " 1 1=1 1 odchylka Pro libovolné, ale pevně dané reálné číslo x je statistikou též hodnota výběrové distribuční funkce Fn (x) = -card í?xi ^ x n b) Nechť je dáno r > 2 stochasticky nezávislých náhodných výběrů o rozsazích n1 > 2, ..., nr > 2. r Celkový rozsah je n = Z nj . j=i Označme M1, ..., Mr výběrové průměry a S12, ..., Sr2 výběrové rozptyly jednotlivých výběrů. Nechť c1, ..., cr jsou reálné konstanty, aspoň jedna nenulová. L c jM j ... lineární kombinace výběrových průměrů, s»2 = --... vážený průměr výběrových rozptylů. j=i n - • c) Nechť (X1,Y1), (Xn,Yn) je náhodný výběr z dvourozměrného rozložení o rozsahu n. Označme m l = -Z x;, m 2 = -Z y; výběrové průměry, =-Z x; - m 12 , s22 =-Z y; - m 2 ^ výběrové rozptyly. n i=i n i=i 1 n ~ 1 i=i 1 n_ 1 i=1 í S12 i n J —Pro SjSj * o Si2 =-Z x; - m, Aj - m 2 .. výběrová kovariance, Ri2 = ] siS2 ... výběrový koeficient korelace. n - 1 i=1 [0 jinak ^2 2 Upozornění: Číselné realizace statistik M, S , S, S12, R12 odpovídají číselným charakteristikám m, s , s, s12, r12 zavedeným v popisné statistice, ale u rozptylu, směrodatné odchylky, kovariance a koeficientu korelace je multiplikativní konstanta —!—, nikoliv 1, jak tomu bylo v popisné statistice. Jak uvidíme později, uvedené číselné realizace mohou být považovány n ~ n za odhady číselných realizací náhodných veličin zavedených v počtu pravděpodobnosti. Charakteristika Počet Matematická Popisná vlastnosti pravděpodobnosti statistika statistika poloha E(X) = ui M m variabilita D(X) = o2 S2 n ~~ [ 2 -s n variabilita S íň~- [ V n S společná C(Xi, X2) = O12 S12 n - 1 variabilita S12 n těsnost vztahu R(Xj, X2) = p R12 rozložení O(x) F(x) Příklad (výpočet realizací výběrového průměru, výběrového rozptylu a hodnot výběrové distribuční funkce): Desetkrát nezávisle na sobě byla změřena jistá konstanta u, Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1, X10. Vypočtěte realizaci m výběrového průměru M, realizaci s výběrového rozptylu S , realizaci s výběrové směrodatné odchylky S a hodnoty výběrové distribuční funkce F10(x). v Řešení: m = -X = — 4+ 1,8 + .. + 2,2-= 2,06,s2 = —X í ■ ~ m 2 = —!—I Z 2 ~ nm 0 = - 42 + L,82 + .. + 2,22 " [0 ■ 2,06 2 0,0404 n 1= 10 n - L i= n - l^i= j 9 s = yfíŕ = ^0,0404 = 0,2011 Pro usnadnění výpočtu hodnot výběrové distribuční funkce F10(x) uspořádáme měření podle velikosti: 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4. x< L,8:F10(x)= 0 2 1,8 ^ x < 1,9 : F10(x) = — = 3,2 3 1,9 ^ x < 2 : F,„(x) = — = 0,3 10 5 2 ^ x < 2,1 : F10(x) = — = 3,5 2.1 ^ x < 2,2 : F10(x) = — = 0,7 2.2 ^ x < 2,3 : F,„(x) = — = 3,8 10 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,3 ^ x < 2,4 : F,„(x) = — = 3,9 10 x > 2,4 :F10(x)= L 1,2 1,0 0,8 0,6 0,4 TI O 0,2 0,0 -0,2 X Bodové a intervalové odhady parametru a parametrických funkcí Vycházíme z náhodného výběru Xi, Xn z rozložení L(& ), které závisí na parametru & . Množinu všech přípustných hodnot tohoto parametru označíme H. Tato množina se nazývá parametrický prostor. Např. je-li Xi, Xn náhodný výběr z rozložení N(fi,c ), pak 9 = V, .av tomto případě parametrický prostor H = l<— x) 00 x ^Igo I - x«, Parametr 9 neznáme a chceme ho odhadnout pomoci daného náhodného výběru (případně chceme odhadnout nějakou parametrickou funkci h(9 )). Bodovým odhadem parametrické funkce h(& ) je statistika Tn = T(Xi, Xn), která nabývá hodnot blízkých h(& ), ať je hodnota parametru s jakákoliv. Existují různé metody, jak konstruovat bodové odhady (např. metoda momentů či metoda maximální věrohodnosti, ale těmi se zde zabývat nebudeme) a také různé typy bodových odhadů. Omezíme se na odhady nestranné, asymptoticky nestranné a konzistentní. Intervalovým odhadem parametrické funkce h(& ) rozumíme interval (D, H), jehož meze jsou statistiky D = D(Xi, Xn), H = H(Xi, Xn) a který s dostatečně velkou pravděpodobností pokrývá h($ ), ať je hodnota parametru 9 jakákoliv. Typy bodových odhadů Nechť Xi, Xn je náhodný výběr z rozložení L(& ), h($ ) je parametrická funkce, T, Ti, T2, ... jsou statistiky. a) Řekneme, že statistika T je nestranným odhadem parametrické funkce h($ ), jestliže v e i E(T) = h(s). (Význam nestrannosti spočívá v tom, že odhad T nesmí parametrickou funkci h( &) systematicky nadhodnocovat ani podhodnocovat. Není-li tato podmínka splněna, jde o vychýlený odhad.) b) Jsou-li Ti, T2 nestranné odhady téže parametrické funkce h(9), pak řekneme, že Ti je lepší odhad než T2, jestliže v s i D(T1) ): lim P*T - i(9 > ). (Význam konzistence spočívá v tom, že s rostoucím rozsahem výběru klesá pravděpodobnost, že odhad se bude realizovat „daleko" od parametrické funkce h(& ).) Lze dokázat, že z nestrannosti odhadu vyplývá jeho asymptotická nestrannost a z asymptotické nestrannosti vyplývá konzistence, pokud posloupnost rozptylů odhadu konverguje k nule. Vlastnosti důležitých statistik a) Případ jednoho náhodného výběru: Nechť Xi, Xnje náhodný výběr z rozložení se střední hodnotou u, rozptylem o a distribuční funkcí 2. Označme Mn výběrový průměr, Sn výběrový rozptyl a pro libovolné, ale pevně dané x G t označme Fn(x) hodnotu výběrové distribuční funkce. Pak pro libovolné hodnoty parametrů \i, o a libovolné, ale pevně dané reálné číslo x platí: E(Mn) = ii, D(Mn) = ^-, E(Sn2) = a2, 2 Y CT íl — 3 D(Sn ) = — - —j—-T, kde y4 je 4. centrální moment, n n fi _ E(Fn(x)) = O(x), d f * - n n 2 2 Znamená to, že Mn je nestranným odhadem \i, Sn je nestranným odhadem o , pro libovolné, ale pevně dané x e t je výběrová distribuční funkce Fn(x) nestranným odhadem 2 stochasticky nezávislých náhodných výběrů: Nechť xn,... ,xln_, xrl,...,xm je r stochasticky nezávislých náhodných výběrů o rozsazích n1 > 2, nr > 2 z rozložení se středními hodnotami fi1; (ir a rozptylem o . Celkový rozsah r je n = Z n j. Nechť Ci,cr jsou reálné konstanty, aspoň jedna nenulová. Pak pro libovolné hodnoty parametrů u-i, ..., (ir a o j=i platí: E(S*2) = o2. r Znamená to, že lineární kombinace výběrových průměrů Zcjmj je nestranným odhadem lineární kombinace středních hod- j=i not ^ j a vážený průměr výběrových rozptylů s„2 = --je nestranným odhadem rozptylu o2. j=i n - - c) Případ jednoho náhodného výběru z dvourozměrného rozložení: Nechť (X1,Y1), (Xn,Yn) je náhodný výběr z dvourozměrného rozložení s kovariancí o12 a koeficientem korelace p. Pak pro libovolné hodnoty parametrů o12 a p platí: E(S12) = O12, E(R12) ~ p (shoda je vyhovující pro n > 30). Znamená to, že výběrová kovariance S12 je nestranným odhadem kovariance o12, avšak výběrový koeficient korelace R12 je vychýleným odhadem koeficientu korelace p. Pojem intervalu spolehlivosti Nechť Xi, Xn je náhodný výběr z rozložení L(»), h(») je parametrická funkce, oK 1-a. b) Interval (D, oo) se nazývá 100(l-a)% levostranný interval spolehlivosti pro parametrickou funkci h(»), jestliže: v e • p(D < h(»)) > 1-a. c) Interval (-oo9 H) se nazývá 100(l-a)% pravostranný interval spolehlivosti pro parametrickou funkci h(s), jestliže: v e i p(h(s) < H) > 1-a. Číslo a se nazývá riziko (zpravidla a = 0,05, méně často 0,1 či 0,01), číslo 1 - a se nazývá spolehlivost. Postup při konstrukci intervalu spolehlivosti a) b) c) d) Vyjdeme ze statistiky V, která je nestranným bodovým odhadem parametrické funkce h(&). Najdeme tzv. pivotovou statistiku W, která vznikne transformací statistiky V, je monotónní funkcí h( 9 ) a přitom její rozložení je známé a na h($) nezávisí. Pomocí známého rozložení pivotové statistiky W najdeme kvantily wa/2, wi.o/2, takže platí: v g ;: P(wa/2 < W < wi_a/2) > 1 - a. Nerovnost wa/2 < W < Wi_a/2 převedeme ekvivalentními úpravami na nerovnost D < h(9) < H. Statistiky D, H nahradíme jejich číselnými realizacemi d, h a získáme tak 100(1 -a)% empirický interval spolehlivosti, o němž prohlásíme, že pokrývá h( &) s pravděpodobností aspoň 1 - a. (Tvrzení, že (d,h) pokrývá h( &) s pravděpodobností aspoň 1 - a je třeba chápat takto: jestliže mnohonásobně nezávisle získáme realizace x1;xn náhodného výběru X1; Xn z rozložení L($) a pomocí každé této realizace sestrojíme 100(l-a)% empirický interval spolehlivosti pro h(3 ), pak podíl počtu těch intervalů, které pokrývají h( &) k počtu všech sestrojených intervalů bude přibližně 1 - a.) Ilustrace: Jestliže 100x nezávisle na sobě uskutečníme náhodný výběr z rozložení se střední hodnotou u a pokaždé sestrojíme 95% empirický interval spolehlivosti pro u, pak přibližně v 95-ti případech bude ležet parametr (i v intervalech spolehlivosti a asi v 5-ti případech interval spolehlivosti li nepokryje. Volba oboustranného, levostranného, nebo pravostranného intervalu závisí na konkrétní situaci. Např. oboustranný interval spolehlivosti použije konstruktér, kterého zajímá dolní i horní hranice pro skutečnou délku u nějaké součástky. Levostranný interval spolehlivosti použije výkupčí drahých kovů, který potřebuje znát dolní mez pro skutečný obsah zlata u v kupovaném slitku. Pravostranný interval spolehlivosti použije chemik, který potřebuje znát horní mez pro obsah nečistot u v analyzovaném vzorku. 2 2 Příklad: Nechť X1, Xn je náhodný výběr z rozložení N(u,o ), kde n > 2 a rozptyl o známe. Sestrojte 100(1-a)% interval spolehlivosti pro neznámou střední hodnotu u, Řešení: V tomto případě parametrická funkce h(& ) = u, Nestranným odhadem střední hodnoty je výběrový průměr M = -Ixj . Protože M je lineární kombinací normálně rozložených náhodných veličin, bude mít také normální rozložení se n i=i a n střední hodnotou E(M) = fi a rozptylem D(M) = —. Pivotovou statistikou W bude standardizovaná náhodná veličina u = -a- ~N(0,l). Kvantil wa/2 = ua/2 = -uW2, wW2 = Wt Wl II II I ^^Bz^Lr I m I *a I a 111 V e í ; 1 _ a < P(-Ui.a/2 < U < Ui.a/2) = P " u,. ,/2 < — - < u,.;/J = P| M " -=Ul_ ;/2 < H < M + -=Ul_ ;/2 J . j _ j 1^ vn vn Meze 100(l-a)% intervalu spolehlivosti pro střední hodnotu \i při známém rozptylu o tedy jsou: D = M - -t=U!_ 2, H = M + -=Ul_ ; 2 . vn Vn Při konstrukci jednostranných intervalů spolehlivosti se riziko nepůlí, tedy 100(l-a)% levostranný interval spolehlivosti pro r Cl ^ . r ľ] n uje i m - -=u, _i a pravostranný je i - »,m + -=u,_ i. WLM vn U ILI Vn H,i| Dosadíme-li do vzorců pro dolní a horní mez číselnou realizaci m výběrového průměru M, dostaneme 100(1-a)% empirický interval spolehlivosti. Postup si ukážeme na následujícím numerickém příkladu. Příklad: 10 krát nezávisle na sobě byla změřena jistá konstanta u, Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2 2 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1, X10 z rozložení N(u, o ), kde u neznáme a o = 0,04. Najděte 95% empirický interval spolehlivosti pro u, a to a) oboustranný, b) levostranný, c) pravostranný. Řešení: Vypočteme realizaci výběrového průměru: m = 2,06. Riziko a je 0,05. V tabulkách najdeme kvantil u0j975 = 1,96 pro oboustranný interval spolehlivosti a kvantil u0,95 = 1,64 pro jednostranné intervaly spolehlivosti. ad a) d = m - 4= ui.a/2 = 2,06 - 1,96 = 1,94 Vn V10 h = m + -1, ulo/2 = 2,06 + ±L 1,96 = 2,18 Vn V10 1,94 < fi < 2,18 s pravděpodobností aspoň 0,95. adb)d = m- uUa = 2,06 - 1,64 = 1,96 1,96 < ji s pravděpodobností aspoň 0,95. ad c) h = m + ^= m_a = 2,06 + ±Ĺ 1,64 = 2,16 U < 2,16 s pravděpodobností aspoň 0,95. Šířka intervalu spolehlivosti Nechť (d, h) je 100(l-a)% empirický interval spolehlivosti pro h($ ) zkonstruovaný pomocí číselných realizací xi, xn náhodného výběru Xi, Xn z rozložení L(& ). a) Při konstantním riziku klesá šířka h-d s rostoucím rozsahem náhodného výběru. b) Při konstantním rozsahu náhodného výběru klesá šířka h-d s rostoucím rizikem. Ilustrace ad a) Grafické znázornění závislosti dolních a horních meze 95% empirických intervalů spolehlivosti pro střední hodnotu normálního rozložení při známém rozptylu na rozsahu náhodného výběru: Šířka intervalu spolehlivosti klesá se zvětšujícím se rozsahem náhodného výběru, zprvu rychle a pak stále pomaleji. ad b) Grafické znázornění závislosti dolních a horních mezí 100(1-a)% empirických intervalů spolehlivosti pro střední hodnotu normálního rozložení při známém rozptylu a konstantním rozsahu výběru na riziku: Vidíme, že šířka intervalu spolehlivosti s rostoucím rizikem klesá. Příklad: (stanovení minimálního rozsahu výběru z normálního rozložení) Nechť Xi, Xn je náhodný výběr z N((i, o ), kde o známe. Jaký musí být minimální rozsah výběru n, aby šířka 100(1-a)% empirického intervalu spolehlivosti pro střední hodnotu \i nepřesáhla číslo A? Řešení: Požadujeme, aby A > h - d = m + -j=u,_ 2 - ;m - -=u,_ 2) = -pu,_ 2. Z této podmínky dostaneme, že Vn Vn Vn 4a u 2 n ~ 7 . Za rozsah výběru zvolíme nejmenší přirozené číslo vyhovující této podmínce. Příklad: Hloubka moře se měří přístrojem, jehož systematická chyba je nulová a náhodné chyby měření mají normální ro zložení se směrodatnou odchylkou o = 1 m. Kolik měření je nutno provést, aby se hloubka stanovila s chybou nejvýše ± 0,25 m při spolehlivosti 0,95? v Řešení: Hledáme rozsah výběru tak, aby šířka 95% intervalu spolehlivosti pro střední hodnotu (i nepřesáhla 0,5 m. Přitom o 4° !Ul_t 22 _ 4-l,962 _ známe. Z předešlého příkladu vyplývá, že n 2------— - 61,4656 . Nejmenší počet měření je tedy 62. Úvod do testování hypotéz Motivace: Častým úkolem statistika je na základě dat ověřit předpoklady o parametrech nebo typu rozložení, z něhož pochází náhodný výběr. Takovému předpokladu se říká nulová hypotéza. Nulová hypotéza vyjadřuje nějaký teoretický předpoklad, často skeptického rázu a uživatel ji musí stanovit předem, bez přihlédnutí k datovému souboru. Proti nulové hypotéze stavíme alternativní hypotézu, která říká, co platí, když neplatí nulová hypotéza. Alternativní hypotéza je formulována tak, aby mohla platit jenom jedna z těchto dvou hypotéz. Pravdivost alternativní hypotézy by znamenala objevení nějakých nových skutečností, nebo zásadnější změnu v dosavadních představách. Např. výzkumník by chtěl na základě dat prověřit tezi (nový objev), že pasivní kouření škodí zdraví. Jako nulovou hypotézu tedy položí tvrzení, že pasivní kouření neškodí zdraví a proti nulové hypotéze postaví alternativní, že pasivní kouření škodí zdraví. Testováním hypotéz se myslí rozhodovací postup, který je založen na daném náhodném výběru a s jehož pomocí rozhodneme o zamítnutí či nezamítnutí nulové hypotézy. Nulová a alternativní hypotéza Nechť Xi,Xn je náhodný výběr z rozložení L($ ), kde parametr & e í neznáme. Nechť h(& ) je parametrická funkce a c daná reálná konstanta. a) Oboustranná alternativa: Tvrzení H0: h($ ) = c se nazývá jednoduchá nulová hypotéza. Proti nulové hypotéze postavíme složenou oboustrannou alternativní hypotézu Hi: h(& ) * c. b) Levostranná alternativa: Tvrzení H0: h(s) > c se nazývá složená pravostranná nulová hypotéza. Proti jednoduché nebo složené pravostranné nulové hypotéze postavíme složenou levostrannou alternativní hypotézu Hi: h(9) < c. c) Pravostranná alternativa: Tvrzení H0: h( & ) < c se nazývá složená levostranná nulová hypotéza. Proti jednoduché nebo složené levostranné nulové hypotéze postavíme složenou pravostrannou alternativní hypotézu Hi: h(&) > c. Testováním H0 proti H1 rozumíme rozhodovací postup založený na náhodném výběru X1, Xn, s jehož pomocí zamítneme či nezamítneme platnost nulové hypotézy. Chyba 1. a 2. druhu Při testování H0 proti H1 se můžeme dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H0 zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí. Situaci přehledně znázorňuje tabulka: skutečnost rozhodnutí H0 nezamítáme H0 zamítáme H0 platí správné rozhodnutí chyba 1. druhu H0 neplatí chyba 2. druhu správné rozhodnutí Pravděpodobnost chyby 1. druhu se značí a a nazývá se hladina významnosti testu (většinou bývá a = 0,05, méně často 0,1 či 0,01). Pravděpodobnost chyby 2. druhu se značí (3. Číslo 1-|3 se nazývá síla testu a vyjadřuje pravděpodobnost, že bude H0 zamítnuta za předpokladu, že neplatí. Obvykle se snažíme, aby síla testu byla aspoň 0,8. Obě hodnoty, a i 1-3, závisí na velikosti efektu, který se snažíme detekovat. Čím drobnější efekt, tím musí být větší rozsah náhodného výběru. skutečnost rozhodnutí zdravý nemocný jsem zdravý zdravý a neléčený zdravý a léčený jsem nemocný nemocný a neléčený nemocný a léčený Testování pomocí kritického oboru Najdeme statistiku T0 = T0(X1, Xn), kterou nazveme testovým kritériem. Množina všech hodnot, jichž může testové kritérium nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). Tyto dva obory jsou odděleny kritickými hodnotami (pro danou hladinu významnosti a je lze najít ve statistických tabulkách). Jestliže číselná realizace t0 testového kritéria T0 padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti a a znamená to skutečné vyvrácení testované hypotézy. Jestliže t0 padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. Pravděpodobnosti chyb 1. a 2. druhu nyní zapíšeme takto: P(T0 ^ W/Ho platí) = a, P(T0 ^ V /Hj platí) = (3. Stanovení kritického oboru pro danou hladinu významnosti a: Označme tmin (resp. tmax) nejmenší (resp. největší) hodnotu testového kritéria. Kritický obor v případě oboustranné alternativy má tvar W = ímm,k « 2 (T))u 2 (T), tmax kde Ka/2(T) a K1.a/2(T) jsou kvantily rozložení, jímž se řídí testové kritérium T0, je-li nulová hypotéza pravdivá. Kritický obor v případě levo stranně alternativy má tvar: W= t^.K^T)). Kritický obor v případě pravostranné alternativy má tvar: W = (k, t),t _ \ 1~ - - max Testování pomocí intervalu spolehlivosti Sestrojíme 100(l-a)% empirický interval spolehlivosti pro parametrickou funkci h(&). Pokryje-li tento interval hodnotu c, pak H0 nezamítáme na hladině významnosti a, v opačném případě H0 zamítáme na hladině významnosti a. Pro test H0 proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. H0 ne*?*''ť4Kíí Pro test H0 proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti. A Ho HÉ2ft*tWW.Í Pro test H0 proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti. --\r C Testování pomocí p-hodnoty p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy. Je to riziko, že bude zamítnuta H0 za předpokladu, že platí (riziko planého poplachu). Jestliže p-hodnota < a, pak H0 zamítáme na hladině významnosti a, je-li p-hodnota > a, pak H0 nezamítáme na hladině významnosti a. Způsob výpočtu p-hodnoty: Pro oboustrannou alternativu p = 2 min{P(T0 < t0), P(T0 > t0)}. Pro levostrannou alternativu p = P(T0 < t0). Pro pravostrannou alternativu p = P(T0 > t0). Ilustrace významu p-hodnoty pro test nulové hypotézy proti oboustranné, levostranné a pravostranné alternativě: (Zvonovitá křivka reprezentuje hustotu rozložení, kterým se řídí testové kritérium, je-li nulová hypotéza pravdivá.) p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace x1, xn náhodného výběru X1, Xn podporují H0, je-li pravdivá. Statistické programové systémy poskytují ve svých výstupech p-hodnotu. Její výpočet vyžaduje znalost distribuční funkce rozložení, kterým se řídí testové kritérium T0, je-li H0 pravdivá. Doporučený postup při testování hypotéz 1. Stanovíme nulovou hypotézu a alternativní hypotézu. Přitom je vhodné zvolit jako alternativní hypotézu ten předpoklad, jehož přijetí znamená závažné opatření a mělo by k němu dojít jen s malým rizikem omylu. 2. Zvolíme hladinu významnosti a. Zpravidla volíme a = 0,05, méně často 0,1 nebo 0,01. 3. Najdeme vhodné testové kritérium a na základě zjištěných dat vypočítáme jeho realizaci. 4. a) Testujeme-li pomocí kritického oboru, pak ho stanovíme. Jestliže realizace testového kritéria padla do kritického oboru, nulovou hypotézu zamítáme na hladině významnosti a a přijímáme alternativní hypotézu. V opačném případě nulovou hypotézu nezamítáme na hladině významnosti a. b) Testujeme-li pomocí intervalu spolehlivosti, vypočteme empirický 100(1 -a)% interval spolehlivosti pro parametrickou funkci h(9 ). Pokud číslo c padne do tohoto intervalu, nulovou hypotézu nezamítáme na hladině významnosti a. V opačném případě nulovou hypotézu zamítáme na hladině významnosti a a přijímáme alternativní hypotézu. c) Testujeme-li pomocí p-hodnoty, vypočteme ji a porovnáme ji s hladinou významnosti a. Jestliže p < a, pak nulovou hypotézu zamítáme na hladině významnosti a a přijímáme alternativní hypotézu. Je-li p > a, pak nulovou hypotézu nezamítáme na hladině významnosti a. 5. Na základě rozhodnutí, které jsme učinili o nulové hypotéze, provedeme nějaké konkrétní opatření, např. seřídíme obráběcí stroj. (Při testování hypotéz musíme mít k dispozici odpovídající nástroje, nejlépe vhodný statistický software. Nemáme-li ho k dispozici, musíme znát příslušné vzorce. Dále potřebujeme statistické tabulky a kalkulačku.) Příklad: 10 x nezávisle na sobě byla změřena jistá konstanta u, Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X10 z rozložení N(u, 0,04). Nějaká teorie tvrdí, že u = 1,95. 1. Oboustranná alternativa Proti nulové hypotéze H0: (i = 1,95 postavíme oboustrannou alternativu Hi: (i * 1,95. Na hladině významnosti 0,05 testujte H0 proti Hi všemi třemi popsanými způsoby. v Řešení: m= — (2+ ..+ 2,2) = 2,06, o2= 0,04, n = 10, a = 0,05, c = 1,95 10 a) Test provedeme pomocí kritického oboru. Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku U = — — ~ N(0, 1). Testové kritérium tedy bude T0 = — - a bude mít rozložení N(0, 1), pokud je nulová hypotéza pravdivá. Vypočítáme realizaci testového kritéria: t0 = ——=1,74. Stanovíme kritický obor: 0,2 J W = T K fn\u K ("H t = ,_ 30 u \^ u 20 = <_ Ä _ u u oo = <- » - „ \u '„ Hco = VV rmin'JVa 2 V 1 ,>/ ^ i- : 2VV'Lm - >ua/2/ \Ul-:/2' " ' U\-'/2/ \Ul-:/2' ' ' U 0.975 / \U 0,975 ' ' »,"1,96)^ ^1,96,00 .. Protože 1,74 « W, H0 nezamítáme na hladině významnosti 0,05. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(l-a)% empirického intervalu spolehlivosti pro střední hodnotu \i při známém rozptylu o jsou: (d, h) = (m - ui.o/2, m + Ui.a/2). V našem případě dostáváme: d = 2,06 - ^jLu0975 = 2,06 - °L .1,96 = 1,936, h = 2,06 + °Lu0 975 = 2,06 + 4==- .1,96 = 2,184. Protože 1,95 6 (1,936; 2,184), H0 nezamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty. Protože proti nulové hypotéze stavíme oboustrannou alternativu, použijeme vzorec p = 2 min{P(To < to), P(To > to)} = 2 min {P(To < 1,74), P(To > 1,74)} = = 2 min { 0(1,74), 1 - 0(1,74) } = 2 min { 0,95907, 1 - 0,95907 } = 0,08186. Jelikož 0,08186 > 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Ilustrace významu p-hodnoty pro oboustranný test /Í"\ I I I I I 0,03 186 "" - - - - i -1.7+ 1.74 ■3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2,5 3,0 2. Levostranná alternativa Proti nulové hypotéze H0: u = 1,95 postavíme levostrannou alternativu H1: u < 1,95. Na hladině významnosti 0,05 testujte H0 proti H1 všemi třemi popsanými způsoby. Řešení: a) Test provedeme pomocí kritického oboru. Na rozdíl od oboustranné alternativy bude mít kritický obor tvar W= (" ».ua)= (" ^u0 05 )= (" ,645). Protože 1,74 e W, H0 nezamítáme na hladině významnosti 0,05. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(l-a)% empirického pravostranného intervalu spolehlivosti pro střední hodnotu \i při známém rozptylu o jsou: (-oo, h) = (-oo, m + ui.a). Vn 0 2 0 2 V našem případě dostáváme: h = 2,06 + -,==u095 = 2,06 + —= .1,645 = 2,164. Protože 1,95 e (-oo; 2,164), H0 nezamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty. Protože proti nulové hypotéze stavíme levostrannou alternativu, použijeme vzorec p = P(To < to) = 0(1,74) = 0,95907. Jelikož 0,95907 > 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Ilustrace významu p-hodnoty pro levostranný test 0.45 3. Pravostranná alternativa Proti nulové hypotéze H0: fi = 1,95 postavíme pravostrannou alternativu H1: i > 1,95. Na hladině významnosti 0,05 testujte H0 proti H1 všemi třemi popsanými způsoby. Řešení: a) Test provedeme pomocí kritického oboru. Na rozdíl od oboustranné alternativy bude mít kritický obor tvar W= (Uj_; 00, = (u^,00, = (1,645,°°.. . Protože 1,74 e W, H0 zamítáme na hladině významnosti 0,05 ve prospěch pravostranné alternativy. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(l-a)% empirického levostranného intervalu spolehlivosti pro střední hodnotu \i při známém rozptylu o jsou: (d, 00) = (m - ui.a, 00). 0 2 0 2 V našem případě dostáváme: d = 2,06 - -^u095 = 2,06 - —= .1,645 = 1,956. V10 ' V10 Protože 1,95 £ (1,956,00), H0 zamítáme na hladině významnosti 0,05 ve prospěch pravostranné alternativy. c) Test provedeme pomocí p-hodnoty. Protože proti nulové hypotéze stavíme pravostrannou alternativu, použijeme vzorec p = P(T0 > tO = 1 - $(1,74) = 1 - 0,95907 = 0,04093. Jelikož 0,04093 < 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05 ve prospěch pravostranné alternativy. Ilustrace významu p-hodnoty pro pravostranný test .0,040! 1,74 3,0 -2,5 -2.0 -1.5 -1,0 -0,5 0,0 0,5 1,0 1,5 2.0 2.5 3,0 Základní typy uspořádání pokusů Metody matematické statistiky často slouží k vyhodnocování výsledků pokusů. Aby mohl být pokus správně vyhodnocen, musí být dobře naplánován. Uvedeme zde nejjednodušší typy uspořádání pokusů Předpokládejme například, že sledujeme hmotnostní přírůstky selat téhož plemene při různých výkrmných dietách. a) Jednoduché pozorování: Náhodná veličina X je pozorována za týchž podmínek. Situace je charakterizována jedním náhodným výběrem X1, Xn. Náhodně vylosujeme n selat téhož plemene, podrobíme je jediné výkrmné dietě a zjistíme u každého selete hmotnostní přírůstek. Tím dostaneme realizaci jednoho náhodného výběru. b) Dvojné pozorování: Náhodná veličina X je pozorována za dvojích různých podmínek. Existují dvě odlišná uspořádání tohoto pokusu. Dvouvýběrové porovnávání: situace je charakterizována dvěma nezávislými náhodnými výběry X u,..., X 1ni a X X X 21,mm• 5X2n2 . Náhodně vylosujeme n1 a n2 selat téhož plemene, náhodně je rozdělíme na dva soubory o n1 a n2 jedincích, první podrobíme výkrmné dietě č. 1 a druhý výkrmné dietě číslo 2. Tak dostaneme realizace dvou nezávislých náhodných výběrů. Párové porovnávání: situace je charakterizována jedním náhodným výběrem ^Cn,X12^..., nl, Xn2 ^ z dvourozměrného rozložení. Přejdeme k rozdílovému náhodnému výběru Zi = Xi1 - Xi2, i = 1, ..., n a tím dostaneme jednoduché pozorování. Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme dva sourozence a náhodně jim přiřadíme první a druhou výkrmnou dietu. Tak dostaneme realizaci jednoho dvourozměrného náhodného výběru, kde první složka odpovídá první dietě a druhá složka druhé dietě. (Párové porovnávání je efektivnější, protože skutečný rozdíl v účinnosti obou diet je překrýván pouze náhodnými vlivy při samotném krmení a trvání, kdežto vliv různých dědičných vloh, který byl losováním znárodněn, je u sourozeneckého páru selat částečně vyloučen.) c) Mnohonásobné pozorování: Náhodná veličina X je pozorována za r > 3 různých podmínek. Existují dvě odlišná uspořádání tohoto pokusu. Mnohovýběrové porovnávání: situace je charakterizována r nezávislými náhodnými výběry Xu,... ,xini až Xr1,... ,Xmr. Náhodně vylosujeme n , n2, ..., nr selat téhož plemene, náhodně je rozdělíme na r souborů o n , n2, ..., nr jedincích, první podrobíme výkrmné dietě č. 1, druhý výkrmné dietě číslo 2 atd. až r-tý podrobíme výkrmné dietě číslo r. Tak dostaneme realizace r nezávislých náhodných výběrů. ':. situace je charakterizována jedním náhodným výběrem 4í 11, • • •, X lr ^..., £ nl,..., X nr ^ z r- rozměrného rozložení. Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme r sourozenců a náhodně jim přiřadíme první až r-tou výkrmnou dietu. Tak dostaneme realizaci jednoho r-rozměrného náhodného výběru, kde první složka odpovídá první dietě , druhá složka druhé dietě atd. až r-tá složka odpovídá r-té dietě. Diagnostické grafy Diagnostické grafy slouží k tomu, aby nám pomohly orientačně posoudit povahu dat a určit směr další statistické analýzy. Při zpracování dat se často předpokládá splnění určitých podmínek. V případě jednoho náhodného výběru je to především normalita (posuzujeme ji pomocí N-P plotu, Q-Q plotu, histogramu) a nepřítomnost vybočujících hodnot (odhalí je krabicový diagram). U dvou či více nezávislých náhodných výběrů sledujeme kromě normality též shodu středních hodnot nebo shodu rozptylů -homoskedasticitu (porovnáváme vzhled krabicových diagramů). V případě jednoho dvourozměrného náhodného výběru často posuzujeme dvourozměrnou normalitu dat (použijeme dvourozměrný tečkový diagram s proloženou 100(1-a)% elipsou konstantní hustoty pravděpodobnosti). Krabicový diagram Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce je zřejmý z obrázku: odlehlá hodnota horní vnitřní hradba nebo max. hodnota — horní kvartil — medián Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (x0,75 + 1,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25 - 1,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x075 + 3q, oo) či v intervalu (-00, x025 - 3q). Příklad U 30 domácností byl zjišťován počet členů. Počet členů 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Pro tyto údaje sestrojte krabicový diagram. Řešení: Vytvoříme nový datový soubor se dvěma proměnnými Počet členů, Počet domácností a o 6 případech. Vytvoření krabicového diagramu: Grafy - 2D Grafy - Krabicové grafy. Abychom systému STATISTICA sdělili, že pracujeme s údaji, pro které známe absolutní četnosti, klikneme myší na tlačítko s obrázkem závaží. V okénku Váhy případů pro analýzu/graf zaškrtneme Status Zapnuto a zadáme Proměnná vah Počet domácností, OK. Na panelu 2D Krabicové grafy zadáme Proměnné - Závisle proměnné Počet členů, OK. Dostaneme krabicový diagram 7 6 5 4 3 2 1 Krabicový graf ( 2v*6c) Medián = 4 □ 25%-75% = (2, 5) Rozsah neodleh. = (1, 6) Odlehlé Počet členů * Extrémy Z obrázku lze vyčíst, že medián je 4 (aspoň polovina domácností má aspoň 4 členy), dolní kvartil 2 (aspoň čtvrtina domácností má aspoň 2 členy), horní kvartil 5 (aspoň tři čtvrtiny domácností mají aspoň 5 členů), minimum 1, maximum 6. Kvarti-lová odchylka je 5 - 2 = 3. Datový soubor vykazuje určitou nesymetrii - medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně zešikmen. Odlehlé ani extrémní hodnoty se nevyskytují. Normální pravděpodobnostní graf (N-P plot) Před popisem tohoto grafu se musíme seznámit s pojmem pořadí čísla v posloupnosti čísel: Nechť xb ..., Xn je posloupnost reálných čísel. a) Jsou-li čísla navzájem různá, pak pořadím R čísla x rozumíme počet těch čísel xb ..., Xn, která jsou menší nebo rovna číslu xi. b) Vyskytují-li se mezi danými čísly skupinky stejných čísel, pak každé takové skupince přiřadíme průměrné pořadí. Příklad a) Jsou dána čísla 9, 4, 5, 7, 3, 1. b) Jsou dána čísla 6, 7, 7, 9, 6, 10, 8, 6, 6, 9. Stanovte pořadí těchto čísel. Řešení ad a) usp. čísla 1 3 4 5 7 9 pořadí 1 2 3 4 5 6 ad b) usp. čísla 6 6 6 6 7 7 8 9 9 10 pořadí 1 2 3 4 5 6 7 8 9 10 prům. pořadí 2,5 2,5 2,5 2,5 5,5 5,5 7 8,5 8,5 10 N-P plot umožňuje graficky posoudit, zda data pocházejí z normálního rozložení. Způsob konstrukce: na vodorovnou osu vynášíme uspořádané hodnoty xw < ... < X(n) , na svislou osu kvantily ua , kde « = ^—L ; přičemž j je pořadí j-té uspořádané hodnoty (jsou-li některé hodnoty stejné, pak 3n + l za j bereme průměrné pořadí odpovídající takové skupince). Pocházejí-li data z normálního rozložení, pak všechny dvojice l(j),ua . budou ležet na přímce. j Pro data z rozložení s kladnou šikmostí se dvojice f (j),ua - budou řadit do konvexní křivky, zatímco pro data z rozložení se j zápornou šikmostí se dvojice l(J),ua . budou řadit do konkávni křivky. Rozložení s kladnou šikmostí Normální rozložení Rozložení se zápornou šikmostí Histogram Histogram Histogram 0 0 ■ ■ N-P plot N-P plot N-P plot 0 Krabicový diagram Krabicový diagram Krabicový diagram ,6 0 Příklad Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí normálního pravděpodobnostního grafu posuďte, zda se tato data řídí normálním rozložením. Řešení Po zapsání dat do proměnné nazvané Měření zvolíme Grafy - 2D Grafy - Normální pravděpodobnostní grafy - Proměnné Měření, OK. Normální p-graf Měření ( 1v*10c) 2,0 1,5 m 1,0 I 0,5 E f 0,0 ° -0,5 -1,0 -1,5 1,7 1,8 1,9 2,0 21 2,2 23 2,4 2,5 Pozorovaná hochota Protože dvojice f (j),ua - téměř leží na přímce, lze usoudit, že data pocházejí z normálního rozložení. Kvantil-kvantilový graf (Q-Q plot) Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např. systém STATISTICA nabízí 8 typů rozložení: beta, exponenciální, Gumbelovo, gamma, log-normální, normální, Rayleighovo a Weibulovo). Pro nás je nejdůležitější právě normální rozložení. Způsob konstrukce: na svislou osu vynášíme uspořádané hodnoty x(i} < ... < x(n) a na vodorovnou osu kvantily k„ (X) vybraného rozložení, kde aj = -—; přičemž racy a nacy jsou korigující faktory < 0,5, implicitně racy = 0,375 a nacy = 0,25. n+1adj (Jsou-li některé hodnoty xw < ... < x(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.) Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadnou z dat nebo je může zadat uživatel. Body fca (X),x<% se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím je lepší soulad mezi empirickým a teoretickým rozložením. Příklad: Pro data z příkladu o měření konstanty posuďte pomocí kvantil - kvantilového grafu, zda pocházejí z normálního rozložení. v Řešení: Zvolíme Grafy - 2D Grafy - Grafy typu Q-Q - ponecháme implicitní nastavení na normální rozložení (pokud bychom chtěli změnit nastavení na jiný typ rozložení, zvolili bychom ho na záložce Detaily) - Proměnné Měření, OK. 0 Q-Q graf Měření ( 1v*10c) RozděleníNormální Měření = 2,058+0,2198*x 0 0,25 0,50 0,75 0,90 0,95 Pozorovaný kvantil -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Teoretický kvantil Vzhled grafu nasvědčuje tomu, že data pocházejí z normálního rozložení. Histogram Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. (Ve STATISTICE je pojem histogramu širší, skrývá se za ním i sloupkový diagram.) Způsob konstrukce ve STATISTICE: na vodorovnou osu se vynášejí třídicí intervaly (implicitně 10, jejich počet lze změnit, stejně tak i meze třídicích intervalů) či varianty znaku a na svislou osu absolutní nebo relativní četnosti třídicích intervalů či variant. Do histogramu se může zakreslit tvar hustoty (či pravděpodobnostní funkce) vybraného teoretického rozložení. Kromě osmi typů rozložení uvedených u Q-Q plotu umožňuje STATISTICA použít ještě další čtyři rozložení: Laplaceovo, logistické, geometrické, Poissonovo. Příklad: U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč). Výdaje $5,65) $5,95) $5,125) <25,155) 155,185 ) <85,215) Počet dom. 7 16 27 14 4 2 Nakreslete histogram Řešení: Vytvoříme nový datový soubor s dvěma proměnnými Výdaje a Počet domácností. Do proměnné Výdaje zapíšeme středy třídicích intervalů, do proměnné Počet domácností odpovídající absolutní četnosti třídicích intervalů. V menu zvolíme Grafy - Histogramy - pomocí tlačítka s obrázkem závaží zadáme proměnnou vah Počet domácností - OK, Proměnná Výdaje - zapneme volbu Všechny hodnoty - OK. Dostaneme histogram: p EO EO 110 140 170 XO Výdaje Vidíme, že tvar histogramu není symetrický. Malé hodnoty jsou četnější než velké - datový soubor je kladně zešikmen. Dvourozměrný tečkový diagram Máme dvourozměrný datový soubor (x1, y1), ... , (xn, yn), který je realizací dvourozměrného náhodného výběru (X1, Y1), ... , (Xn, Yn) z dvourozměrného rozložení. Na vodorovnou osu vyneseme hodnoty xj , na svislou hodnoty yk a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dvojice (xj, yk). Jedná-li se o náhodný výběr z dvourozměrného normálního rozložení, měly by tečky zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy - viz následující obrázek. 2 2 Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry u1 = 0, fi2 = 0, o1 = 1, o2 = 1, p = -0,75: Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1 -a)% elipsu konstantní hustoty pravděpodobnosti. Bude-li více než 100a % teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti. Příklad: Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Pomocí dvourozměrného tečkového diagramu se zakreslenou 95% elipsou konstantní hustoty pravděpodobnosti a histogramy pro počty bodů v 1. a 2. testu posuďte, zda tato data lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Řešení: Vytvoříme nový datový soubor se dvěma proměnnými Testi a Test2 a osmi případy. Nyní nakreslíme dvourozměrný tečkový diagram: Grafy - 2D Grafy - Bodové grafy s histogramy. V typu proložení pro bodový graf vypneme lineární proložení. Proměnné - X - Test1, Y - Test2 - OK. Dostaneme dvourozměrný tečkový diagram pro vektorovou proměnnou (Testi, Test2) a histogramy pro Testi a Test2. Nyní do diagramu zakreslíme 95% elipsu konstantní hustoty pravděpodobnosti: 2x klikneme na pozadí grafu a otevře se okno s názvem Vš. možnosti. Vybereme Graf: Elipsa, zvolíme Přidat novou elipsu. Po vykreslení elipsy změníme měřítko: na vodorovné ose bude minimum 0, maximum 120, na svislé ose bude minimum 0, maximum 100. (Stačí 2x kliknout na číselný popis osy a na záložce Měřítka vybrat manuální mód.) Bodový graf s histogramy ( 2v*8c) 2 1 ___>>■:■•■:■■'■■■:■■■ 100 80 60 40 20 i 00 20 40 60 80 100 1 Testi 0 2 4 Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti, tzn., že u studentů, kteří měli vysoký resp. nízký počet bodů v 1. testu, lze očekávat vysoký resp. nízký počet bodů ve 2. testu. Testy normality dat K ověřování normality dat slouží celá řada testů, které jsou podrobně popsány ve statistické literatuře. Zde se omezíme na dva testy, které jsou implementovány v systému STATISTICA, a to Kolmogorovův - Smirnovův test a jeho Lilieforsovu variantu a Shapirův - Wilksův test. K závěrům těchto testů však přistupujeme s určitou opatrností. Máme-li k dispozici rozsáhlejší datový soubor (orientačně n > 30) a test zamítne na obvyklé hladině významnosti 0,01 nebo 0,05 hypotézu o normalitě, i když vzhled diagnostických grafů svědčí jenom o lehkém porušení normality, nedopustíme se závažné chyby, pokud použijeme statistickou metodu založenou na normalitě dat. Kolmogorovův - Smirnovův test a jeho Lilieforsova varianta Testujeme hypotézu, která tvrdí, že náhodný výběr X1, Xn pochází z normálního rozložení s parametry (i a o . Distribuční funkci tohoto rozložení označme
; (x)|. Nulovou hypotézu zamítáme na hladině významnosti a, když Dn > Dn(a), kde Dn(a) je tabelovaná kritická hodnota. 2 V případě, že neznáme parametry (i a o normálního rozložení, musíme je odhadnout z dat (střední hodnotu odhadneme pomocí m a rozptyl pomocí s ). Tím se změní rozložení testové statistiky Dn. Příslušné modifikované kvantily byly určeny pomocí simulačních studií. V této situaci používáme Lilieforsovu variantu Kolmogorovova - Smirnovova testu. Pro n > 30 lze Dn(a) aproximovat výrazem Shapirův - Wilksův test normality dat Testujeme hypotézu, která tvrdí, že náhodný výběr X1, Xn pochází z normálního rozložení N(u, o ). Testová statistika má tvar: m - — W = ^-, m Z xí-m2 i = l kde m = n/2 pro n sudé a m = (n-1)/2 pro n liché. Koeficienty ai(n) jsou tabelovány. Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými pozorováními a jim odpovídajícími kvantily standardizovaného normálního rozložení. V případě, že data vykazují perfektní shodu s normálním rozložením, bude mít W hodnotu 1. Hypotézu o normalitě tedy zamítneme na hladině významnosti a, když se na této hladině neprokáže korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1). Lze také říci, že S - W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné od regresní přímky proložené těmito body. (S-W test se používá především pro výběry menších rozsahů, n < 50, ale v systému STATISTICA je implementováno jeho rozšíření i na výběry velkých rozsahů, kolem 2000.) Shapirův - Wilksův test normality dat Testujeme hypotézu, která tvrdí, že náhodný výběr X1, Xn pochází z normálního rozložení N(u, o ). Testová statistika má tvar: m - — W = ^-, m Z xí-m2 i = l kde m = n/2 pro n sudé a m = (n-1)/2 pro n liché. Koeficienty ai(n) jsou tabelovány. Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými pozorováními a jim odpovídajícími kvantily standardizovaného normálního rozložení. V případě, že data vykazují perfektní shodu s normálním rozložením, bude mít W hodnotu 1. Hypotézu o normalitě tedy zamítneme na hladině významnosti a, když se na této hladině neprokáže korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1). Lze také říci, že S - W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné od regresní přímky proložené těmito body. (S-W test se používá především pro výběry menších rozsahů, n < 50, ale v systému STATISTICA je implementováno jeho rozšíření i na výběry velkých rozsahů, kolem 2000.) Příklad: Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí K- S testu a S - W testu zjistěte na hladině významnosti 0,05, zda tato data pocházejí z normálního rozložení. Řešení: Vytvoříme nový datový soubor o jedné proměnné nazvané X a pěti případech. Do proměnné X zapíšeme uvedené hodnoty. V menu vybereme Statistika - Základní statistiky/tabulky - Tabulky četností - OK, Proměnné X - OK. Na záložce zvolíme Normalita a zaškrtneme Lilieforsův test a Shapiro - Wilksův W test - Testy normality. Proměnná Testy normality (Tabulkal) N max D Lil lief ors P W p X 5 0,224085 p > .20 0,912401 0,482151 Vidíme, že testová statistika K-S testu je d = 0,22409, odpovídající Lilieforsova p-hodnota je větší než 0,2, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Testová statistika S-W testu je W = 0,9124, odpovídající p-hodnota je 0,48215, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Parametrické úlohy o jednom náhodném výběru z normálního rozložení Mnoho náhodných veličin, s nimiž se setkáváme ve výzkumu i praxi, se řídí normálním rozložením. Za jistých předpokladů obsažených v centrální limitní větě se dá rozložení jiných náhodných veličin aproximovat normálním rozložením. Proto je zapotřebí věnovat velkou pozornost právě náhodným výběrům z normálního rozložení. Rozložení statistik odvozených z výběrového průměru a rozptylu Nechť Xi, Xn je náhodný výběr z rozložení N(li, o ). Pak platí a) M~N(n, — ),tedyU= — ~-~N(0, 1). n CT (Pivotová statistika U slouží k řešení úloh o \i, když o známe.) b) K=^i^~x2(n-1). a 2 (Pivotová statistika K slouží k řešení úloh o o , když fi neznáme.) c) *-:--X2(n)- a 2 (Tato pivotová statistika slouží k řešení úloh o o , když fi známe.) d) T = M_^t(n.i). 2 (Pivotová statistika T slouží k řešení úloh o fi, když o neznáme.) Vysvětlení ad a) Výběrový průměr M je lineární kombinace náhodných veličin s normálním rozložením, má tedy normální rozložení s parametry E(M) = u, D(M) = o /n. Statistika U se získá standardizací M. ad b) Vhodnou úpravou výběrového rozptylu S , kde použijeme obrat Xi - M = (Xi - u) - (M - u), lze statistiku K vyjádřit jako součet kvadrátů n - 1 stochasticky nezávislých náhodných veličin se standardizovaným normálním rozložením. Tento součet se řídí rozložením x (n-1). ad c) Tato statistika je součet kvadrátů n stochasticky nezávislých náhodných veličin se standardizovaným normálním rozložením, řídí se tedy rozložením x (n). 22 ad d) U ~ N(0, 1), K ~ % (n-1) jsou stochasticky nezávislé, protože M a S jsou stochasticky nezávislé, tudíž statistika T t(n-1). Příklad: Hmotnost balíčku krystalového cukru baleného na automatické lince se řídí normálním rozložením se střední hodnotou 1002 g a směrodatnou odchylkou 8 g. Kontrolor náhodně vybírá 9 balíčků z jedné série a zjiš ťuje, zda jejich průměrná hmotnost je alespoň 999 g. Pokud ne, podnik musí zaplatit pokutu 20 000 Kč. Jaká je pravděpodobnost, že podnik bude muset zaplatit pokutu? v Řešení: X ~ N(1002, 64), M ~ ni 1002,—} Pravděpodobnost, že podnik bude platit pokutu, je asi 12,9%. v Řešení pomocí systému STATISTICA: Využijeme toho, že STATISTICA pomocí funkce INormal(x;mu;sigma) umí vypočítat hodnotu distribuční funkce normálního rozložení se střední hodnotou mu a směrodatnou odchylkou sigma. Tedy P ^t - 999 j= $ $99 _5 kde O je distribuční funkce rozložení N(1002, 64/9). Otevřeme nový datový soubor o jedné proměnné a jednom případu. Dvakrát klikneme na název proměnné Proml. Do Dlouhého jména této proměnné napíšeme = INormal(999;1002;8/3). V proměnné Proml se objeví hodnota 0,130295. pi u ^ - - i = $ -i = L - & - i = L - j> (,125 = l ~ ),87076 = 3,12924 Vzorce pro meze 100(1-a)% empirických intervalů spolehlivosti pro n a o2 a) Interval spolehlivosti pro \i, když o známe (využití pivotové statistiky U) Oboustranný: (d, h) = (m - Ui.a/2, m + Ui.a/2) Vn Vn Levostranný: (d, oo) = (m --^= Ui_a, oo) vn Pravostranný: (-00, h) = (-00, m +-^= Ui.a) Vn 2 b) Interval spolehlivosti pro (i, když o neznáme (využití pivotové statistiky T) Oboustranný: (d, h) = (m - tW2(n-1), m + t1-a/2(n-1)) vn Vn Levostranný: (d, 00) = (m - -= t1-a(n-1), 00) Vn Pravostranný: (-00, h) = (-00, m + t1-a(n-1)) Vn 2 c) Interval spolehlivosti pro o , když fi neznáme (využití pivotové statistiky K) f - 2 2 } Oboustranný: (d, h) = ! ————-,————— ! U2i-'/2(n-l) X2a/2(n-l)j Levostranný: (d, oo) = i ———— °o i Pravostranný: (-oo, h) U i-'(n-l) ) ■ * (n-l)s2 ^ II - » ^ X a(n-l)J 2 d) Interval spolehlivosti pro o , když fi známe (využití pivotové statistiky . - a/ 1=1 i=1 Oboustranný: (d, h) = , , , | X 1-1/2(11) X a/2(n) | U i jI(Xl-^)2 j Levostranný: (d, oo) = | ^-,°° | | X2i-t(n) | u ( n | S(Xi- Pravostranný: (-oo, h) | S(x--i)2' ^- X a(n) j = i - » ) Příklad: 10 krát nezávisle na sobě byla změřena jistá konstanta u. Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2 2 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1, X10 z rozložení N(u, o ), kde parametry u, o neznáme. Najděte 95% empirický interval spolehlivosti jak pro u, tak pro o a to a) oboustranný, b) levostranný, c) pravostranný. Řešení: m = 2,06, s2 = 0,0404, s = 0,2011, a = 0,05, ^(9) = 2,2622, ^(9) = 1,8331, xW9) = 19,023, xW9) = 2,7, X20,95(9) = 16,919, x20,05(9) = 3,325 ad a) Oboustranný interval spolehlivosti pro střední hodnotu u d = m - -Lr tW2(n-1) = 2,06 - ^^E-1- 2,2622 = 1,92 Vn V10 h = m + t1-a/2(n-1) = 2,06 + ^^E-1- 2,2622 = 2,20 Vn V10 1,92 < u < 2,20 s pravděpodobností aspoň 0,95. 2 Oboustranný interval spolehlivosti pro rozptyl o ií ~ ^s2 9-0,0404 d = --z-v= -= 3,0191 ■y^TJ^^U 19,023 íí ~ .~22 9-0,0404 h = --g-^= -= 3,1347 2 0,0191 < o < 0,1347 s pravděpodobností aspoň 0,95. ad b) Levostranný interval spolehlivosti pro střední hodnotu (i d = m - -i= Wn-1) = 2,06 - 040=1-1,8331 = 1,94 Vn VlO 1,94 < i s pravděpodobností aspoň 0,95. Levostranný interval spolehlivosti pro rozptyl o i " ^s2 9-0,0404 d = --z-v= -= 3,0215 1 i- \ ~ ^ 16,919 2 0 > 0,0215 s pravděpodobností aspoň 0,95. ad c) Pravostranný interval spolehlivosti pro střední hodnotu (i h = m + 4= t1.a(n-1) = 2,06 + 0,20111,8331 = 2,18 1 < 2,18 s pravděpodobností aspoň 0,95. Pravostranný interval spolehlivosti pro rozptyl o 4i - 9-0,0404 h = -^-^= -= 3,1094 X a ti — 3,325 2 o < 0,1094 s pravděpodobností aspoň 0,95. Řešení pomocí systému STATISTICA: Vytvoříme nový datový soubor o jedné proměnné X a 10 případech. Do proměnné X napíšeme dané hodnoty. Statistika - Základní statistiky a tabulky - Popisné statistiky - OK - Proměnné X - OK - Detailní výsledky - zaškrtneme Meze spolehl. prům. a Meze sp. směr. odch. (ostatní volby zrušíme) - pro oboustranný 95% interval spolehlivosti ponecháme implicitní hodnotu pro Interval 95,00, pro jednostranné intervaly změníme hodnotu na 90,00. Výsledky pro oboustranné 95% intervaly spolehlivosti pro střední hodnotu u, pro směrodatnou odchylku o a rozptyl o : 1 Proměnná Int. spolehl. -95,000% 1 Int. spolehl. 95,000 1 Spolehlivost Sm.Odch. | -95,000% 1 Spolehlivost Sm.Odch. +95,000% NProm1 =v3 A2 NProm2 X 1,916136 | 2,203864 | 0,138329 | 0,367145 0,019135 0,134795 Vidíme, že 1,92 < u < 2,20 s pravděpodobností aspoň 0,95, 0,1383 < o < 0,3671 s pravděpodobností aspoň 0,95. 0,0191 < o < 0,1348 s pravděpodobností aspoň 0,95. 2 Výsledky pro jednostranné 95% intervaly spolehlivosti pro střední hodnotu li, pro směrodatnou odchylku o a rozptyl o : 1 Proměnná Int. spolehl. -90,000% I nt . spolehl. 90,000 1 Spolehlivost Sm.Odch. | -90,000% Spolehlivost Sm.Odch. +90,000% NProm1 =v32 NProm2 =v42 X 1,943421 2,176579 | 0,146678 0,330862 | 0,021514 | 0,10947 Vidíme, že H > 1,94 s pravděpodobností aspoň 0,95, L < 2,20 s pravděpodobností aspoň 0,95, o > 0,1467 s pravděpodobností aspoň 0,95, o < 0,3309 s pravděpodobností aspoň 0,95, o > 0,0215 s pravděpodobností aspoň 0,95, o < 0,1095 s pravděpodobností aspoň 0,95, Jednotlivé typy testů pro parametry normálního rozložení 2 2 a) Nechť Xi,Xn je náhodný výběr N(li, o ), kde o známe. Nechť n > 2 a c je konstanta. Test H0: \i = c proti Hi: li * c se nazývá jednovýběrový z-test. 2 2 b) Nechť Xi,Xn je náhodný výběr N((x, o ), kde o neznáme. Nechť n > 2 a c je konstanta. Test H0: \i = c proti Hi: u. * c se nazývá jednovýběrový t-test. 2 2 2 c) Nechť Xi,Xn je náhodný výběr N((x, o ), kde li neznáme. Nechť n > 2 a c je konstanta. Test H0: o = c proti o * c se nazývá test o rozptylu. Provedení testů o parametrech i, o2 pomocí kritického oboru a) Provedení jedno výběrového z-testu Vypočteme realizaci testového kritéria 1 ° —a - . Stanovíme kritický obor W. Pokud t0 e W, H0 zamítáme na hladině významnosti a a přijímáme H1. Oboustranný test: Testujeme H0: jx = c proti Hi: fx *c. Kritický obor má tvar: W = {~ ^, ~ u t_.,2)u xu t_. 72,00 .. Levostranný test: Testujeme H0: (x = c proti Hi: li < c. Kritický obor má tvar: W = ,_ 30, ~ ut_, V Pravostranný test: Testujeme H0: (x = c proti Hi: li > c. Kritický obor má tvar: W = (ut_.,00 b) Provedení jednovýběrového t-testu Vypočteme realizaci testového kritéria to významnosti a a přijímáme H1. Oboustranný test: Testujeme H0: jx = c proti Hi: u. * c. Kritický obor má tvar: W = ,_ >°,~ tx_ ,/2 ~ 1 .}u }t1 _ ,/2 ~ 1 V30 -. Levostranný test: Testujeme H0: (x = c proti Hi: lx < c. Kritický obor má tvar: W=,_:0,-;14i-^. Pravostranný test: Testujeme H0: (x = c proti Hi: lx > c. Kritický obor má tvar: W = ^ 4i ~ 1 m _ ; g . Stanovíme kritický obor W. Pokud t0 6 W, H0 zamítáme na hladině c) Provedení testu o rozptylu 4- 2 Vypočteme realizaci testového kritéria t0--. Stanovíme kritický obor W. Pokud t0 e W, H0 zamítáme na hladině c významnosti a a přijímáme Hi. Oboustranný test: Testujeme H0: a2 = c proti Hi: a2* c. Kritický obor má tvar:. Levostranný test: Testujeme H0: a2 = c proti Hi: a2 < c. Kritický obor má tvar: W = ^0,X « %i - ^. Pravostranný test: Testujeme H0: a2 = c proti Hi: a2 > c. Kritický obor má tvar: W = fx2i-; íi -1 .. Příklad: Podle údajů na obalu čokolády by její čistá hmotnost měla být 125 g. Výrobce dostal několik stížností od kupujících, ve kterých tvrdili, že hmotnost čokolád je nižší než deklarovaných 125 g. Z tohoto důvodu oddělení kontroly náhodně vybralo 50 čokolád a zjistilo, že jejich průměrná hmotnost je 122 g a směrodatná odchylka 8,6 g. Za předpokladu, že hmotnost čokolád se řídí normálním rozložením, můžeme na hladině významnosti 0,01 považovat stížnosti kupujících za oprávněné? Řešení: X1, X50 je náhodný výběr z N(u, o ). Testujeme hypotézu 2 H0: (i = 125 proti levostranné alternativě Hi: \i < 125. Protože neznáme rozptyl o , použijeme jednovýběrový t-test. m - : 122 - .25 Testové kritérium ~ ~ ~ ,4667 s 8,6 Vn" yfŠÔ Kritický obor W = (- , i - } = L :0 99 *9^ = u *>, - 2,4049). Jelikož testové kritérium se realizuje v kritickém oboru, zamítáme nulovou hypotézu na hladině významnosti 0,01. Stížnosti kupujících tedy lze považovat za oprávněné. Výpočet pomocí systému STATISTICA: Statistiky - Základní statistiky a tabulky - Testy rozdílů: r, %, průměry - OK - vybereme Rozdíl mezi dvěma průměry (normální rozdělení) - zaškrtneme Výběrový průměr vs. Střední hodnota a zvolíme jednostr. - do políčka Pr1 napíšeme 122, do políčka SmOd1 napíšeme 8,6, do políčka N1 napíšeme 50, do políčka Pr2 napíšeme 125 - Výpočet. Dostaneme p-hodnotu 0,0086, tedy zamítáme nulovou hypotézu na hladině významnosti 0,01 Náhodný výběr z dvourozměrného rozložení (x } (x } Nechť 1 j,...,n j je náhodný výběr z dvourozměrného rozložení, přičemž n > 2. Označíme fi = fii - fi2 a zavedeme rozdílový náhodný výběr Z1 = X1 - Y1, ... , Zn = Xn-Yn, o němž předpokládáme, že se řídí normálním rozložením. 1 1 ^^^^1 Vypočteme m = -Z z,, s2 = -Z z; - m 2 . n í=i n í=i Vzorec pro meze 100(1-a)% empirického intervalu spolehlivosti pro střední hodnotu rozdílového náhodného výběru Oboustranný: (d, h) = (m - tW2(n-1), m + t1-a/2(n-1)) Vn Vn Levostranný: (d, oo) = (m - -= t1-a(n-1), oo) Pravostranný: (-oo, h) = (-oo, m + -p t1-a(n-1)) Příklad: Dvěma rozdílnými laboratorními metodami se zjišťoval obsah chemické látky v roztoku (v procentech). Bylo vybráno 5 vzorků a proměřeno oběma metodami. Výsledky měření jsou obsaženy v tabulce: číslo vzorku 1 2 3 4 5 1. metoda 2,3 1,9 2,1 2,4 2,6 2. metoda 2,4 2,0 2,0 2,3 2,5 Za předpokladu, že data mají normální rozložení, sestrojte 90% empirický interval spolehlivosti pro rozdíl středních hodnot výsledků obou metod. v Řešení: Přejdeme k rozdílovému náhodnému výběru, jehož realizace jsou: -0,1 -0,1 0,1 0,1 0,1. Vypočteme m = 0,02, s = 0,012, s = 0,109545. Předpokládáme, že tato data pocházejí z normálního rozložení N(fi, o ). Vypočteme meze 90% oboustranného intervalu spolehlivosti pro fi při neznámém o: 0,109545 tn tn s vn H - [J= 0,02 -7=t,- ; 2l- C= 0,02 + 0,109545 0,109545 t 4 t 4 0,95 0,02 V? -2,1318 / 1- 2 ' I— Vn V5 -0,0844 < i < 0,1244 s pravděpodobností aspoň 0,9. 0,109545 0,02 + -—=-2,1318 1,0844 0,1244 2 Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o 3 proměnných a 5 případech. Do 1. proměnné X napíšeme hodnoty pro 1. metodu, do 2. proměnné Y hodnoty pro 2. metodu a do 3. proměnné Z rozdíly mezi X a Y. Statistiky - Základní statistiky a tabulky - Popisné statistiky, OK - Proměnné Z, Detailní výsledky - zaškrtneme Meze spolehl. Prům. - Interval 90% - Výpočet. Dostaneme tabulku: Popisné statistiky (chemická latka) Proměnná Int. spolehl. Int. spolehl. -90,000% | 90,000 Z -0,084439 0,124439 Vidíme tedy, že -0,0844 < fi < 0,1244 s pravděpodobností aspoň 0,9. Párový t-test f X } f X } Uo2 o ^ Nechť i 1 !,... J n i je náhodný výběr z rozložení N2j 1 1 U 1 12„ !!, přičemž n > 2. Testujeme H0: Lii - li2 = c (tj. li = c) proti H1: i1 - (i2 ^ c (tj. c) nebo testujeme nulovou hypotézu proti jedné z jednostranných alternativ. Tento test se nazývá párový t-test. Provedení párového t-testu Vypočteme realizaci testového kritéria t0 významnosti a a přijímáme H1. Oboustranný test: Testujeme H0: \i = c proti Hi: \i * c. Kritický obor má tvar: w = - ,/2 j1 _ ;/2H Levostranný test: Testujeme H0: \i = c proti Hi: li < c. Kritický obor má tvar: w = *- n_. i - . Pravostranný test: Testujeme H0: \i = c proti Hi: (i > c. Kritický obor má tvar: w = (v; i - O00 ... = -—-. Stanovíme kritický obor W. Pokud t0 e W, H0 zamítáme na hladině Příklad: V následující tabulce jsou údaje o výnosnosti dosažené 12 náhodně vybranými firmami při investování do mezinárodního podnikání (veličina X) a do domácího podnikání (veličina Y): č.firmy 1 2 3 4 5 6 7 8 9 10 11 12 X 10 12 14 12 12 17 9 15 9 11 7 15 Y 11 14 15 11 13 16 10 13 11 17 9 19 (Výnosnost je vyjádřena v procentech a představuje podíl na zisku vložených investic za rok.) Za předpokladu, že data pocházejí z dvourozměrného rozložení a jejich rozdíl se řídí normálním rozložením, na hladině významnosti 0,1 testujte hypotézu, že neexistuje rozdíl mezi střední hodnotou výnosnosti investic do mezinárodního a domácího podnikání proti oboustranné alternativě. Testování proveďte a) pomocí intervalu spolehlivosti, b) pomocí kritického oboru. (Pro úsporu času známe realizace výběrového průměru m = - ,3 a výběrového rozptylu s2 = 4,78 rozdílového náhodného výběru Zi = Xi - Yi, i = 1, 12.) v Řešení: Testujeme H0: (i = 0 proti H1: (i ^ 0 ad a) 90% interval spolehlivosti pro střední hodnotu (i při neznámém rozptylu o má meze: d = m " -j=t0 95 % " L-= " ,3 " v ._ 1,7959 = " :,4677 Vn ' VI2 s é - - ^4,78 h = m + -=t0* - ,3 + v _ 1,7959 = " 1,1989 Vn ' VI2 Protože číslo c = 0 neleží v intervalu (-2,4677; -0,1989), H0 zamítáme na hladině významnosti 0,1. ad b) Vypočítáme realizaci testové statistiky t0 = -—1 = —j== = ~ ,no85 — V4,78 J* v12 Stanovíme kritický obor w = L 10 95 ^t0 95 i C00 -= - »,-1,7959)^ ^1,7959,00 , Protože testová statistika se realizuje v kritickém oboru, H0 zamítáme na hladině významnosti 0,1. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o 2 proměnných a 12 případech. Do 1. proměnné X napíšeme hodnoty pro mezinárodní podnikání, do 2. proměnné hodnoty pro domácí podnikání. Statistiky - Základní statistiky a tabulky - t-test pro závislé vzorky, OK - Proměnné X, Y - OK - Výpočet. Dostaneme tabulku: Proměnná t-test pro závislé vzorky (investovani) Označ. rozdíly jsou významné na hlad. p < ,05000 Průměr Sm.odch. N Rozdíl Sm.odch. t rozdílu sv p X 11,91667 1 2,937480 Y 13,25000 3,048845 12 -1,33333 2,188122 -2,11085 11 0,058490 Vypočtenou p-hodnotu 0,05849 porovnáme se zvolenou hladinou významnosti a = 0,1. Protože p < a, zamítáme nulovou hypotézu na hladině významnosti 0,1. Úlohy o parametru & alternativního rozložení S náhodným výběrem rozsahu n z alternativního rozložení se setkáváme v situaci, kdy provádíme n opakovaných nezávislých pokusů a v každém z těchto pokusů sledujeme nastoupení úspěchu. Pravděpodobnost úspěchu je pro všechny pokusy stejná. Náhodná veličina Xi nabude hodnoty 1, pokud v i-tém pokusu nastal úspěch a hodnoty 0, pokud v i-tém pokusu úspěch nenastal, i = 1, 2, ..., n. Realizací náhodného výběru X1, ..., Xn je tedy posloupnost 0 a 1. Opakování: Alternativní rozložení: Náhodná veličina X udává počet úspěchů v jednom pokusu, přičemž pravděpodobnost úspěchu je 9 . Píšeme X~A( 9). íl ~~ & pro x = 0 j-^x ^ T_x 7i(x) = -j & pro x = i neboli 7i(x) = 30) lze rozložení součtu Z x; aproximovat normálním rozložením N(nfi, no ). Zkráceně píšeme i=1 Z :. - iM' Z ; ~ n na Pokud součet Z x; standardizujeme, tj. vytvoříme náhodnou veličinu un = -1=—, pak rozložení této i= í=i "i/n náhodné veličiny lze aproximovat standardizovaným normálním rozložením. Zkráceně píšeme Un ~ N(0,1) Věta: Asymptotické rozložení statistiky odvozené z výběrového průměru. Nechť Xi,Xn je náhodný výběr z rozložení A(& ) a nechť je splněna podmínka n& í - * > 9. Pak statistika u M * 9 |- j konverguje v distribuci k náhodné veličině se standardizovaným normálním rozložením. (Říkáme, že U má asymptoticky rozložení N(0,1) a píšeme U ~ N(0,1).) Důkaz: Protože Xi, Xn je náhodný výběr z rozložení A($), bude mít statistika Yn = Xx, (výběrový úhrn) rozložení Bi(n, s ). Yn i=1 má střední hodnotu E(Yn) = n9 a rozptyl D(Yn) = n& I- & .. Podle centrální limitní věty se standardizovaná statistika u = " _—-„asymptoticky řídí standardizovaným normálním rozložením N(0,1). Pokud čitatele i jmenovatele podělíme n, y. . i dostaneme vyjádření: u = " -—=.= n r1= -—-= -^=—n " n 1 ^BzJ_ K n2 V n V n Věta: Vzorec pro meze 100(l-a)% asymptotického empirického intervalu spolehlivosti pro parametr & . Meze 100(l-a)% asymptotického empirického intervalu spolehlivosti pro parametr 9 jsou: _ |m(l_ n) _ |m(l~ n) d - m " . -Uj_ t 2, h - m + . -Uj_ l 2. V n V n Důkaz: Pokud rozptyl d 4a j= ———' nahradíme odhadem ^-^——, konvergence náhodné veličiny U k veličině s rozložením n n N(0,1) se neporuší. Tedy n n j M(l-M) j mM V n ml l V n V n Příklad: Náhodně bylo vybráno 100 osob a zjištěno, že 34 z nich nakupuje v internetových obchodech. Najděte 95% asymptotický interval spolehlivosti pro pravděpodobnost, že náhodně vybraná osoba nakupuje v internetových obchodech. v Řešení: Zavedeme náhodné veličiny X1, X100, přičemž Xi = 1, když i-tá osoba nakupuje v internetových obchodech a Xi = 0 jinak, i = 1,100. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A(& ). n = 100, m = 34/100, a = 0,05, u1-a/2 = ua975 = 1,96. Ověření podmínky n9 (1- 9 ) > 9: parametr » neznáme, musíme ho nahradit výběrovým průměrem. Pak 100.0,34.0,66 = 22,44 > 9. S pravděpodobností přibližně 0,95 tedy 0,2472 < 9 < 0,4328. Znamená to, že s pravděpodobností přibližně 95% je v uvažované populaci nejméně 24,7% a nejvíce 43,3% osob, které nakupují v internetových obchodech. 1,96 = 0,2472, h = 0,34 1,96 = 0,4328 Výpočet pomocí systému STATISTIC A: a) Přesný způsob Otevřeme nový datový soubor se dvěma proměnnými a jednom případu. První proměnnou nazveme d a do jejího Dlouhého jména napíšeme =0,34-sqrt(0,34*0,66/100)*VNorrnal(0,975;0;1) Druhou proměnnou nazveme h a do jejího Dlouhého jména napíšeme =0,34+sqrt(0,34*0,66/100)*VNormal(0,975;0;1) Dostaneme výsledek:_ d 2 h 1 0,247155 0,432845 Vidíme, že s pravděpodobností aspoň 0,95 se pravděpodobnost nákupu v inetrnetových obchodech bude pohybovat v mezích 0,2471 až 0,4328. b) Přibližný způsob, použitelný pro dostatečně velký rozsah výběru Do nového datového souboru o jedné proměnné X a 100 případech uložíme 34 jedniček (nakupování v internetových obchodech) a 66 nul. Statistika - Základní statistiky a tabulky - Popisné statistiky - OK - Proměnné X - OK - Detailní výsledky - zaškrtneme Meze spolehl. prům. - ponecháme implicitní hodnotu pro Interval 95,00 - Výpočet. Dostaneme tabulku: Proměnná Popisné statistiky (Tabulka3) N platných Průměr Int. spolehl. Int. spolehl. -95,000% 95,000 X 100 | 0,340000 0,245532 0,434468 Dospěli jsme k výsledku, že s pravděpodobností aspoň 0,95 se pravděpodobnost nákupu v inetrnetových obchodech bude pohybovat v mezích 0,2455 až 0,4345. Testování hypotézy o parametru & Nechť Xi, Xn je náhodný výběr z rozložení A(&) a nechť je splněna podmínka n$ I- * > 9. Na asymptotické hladině významnosti a testujeme hypotézu H0: s = c proti alternativě Hi: $ ^ c (resp. Hi: 9 < c resp. Hi: 9 > c). Testovým kritériem je statistika t0 = ^_ , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Kritický obor má tvar w = *- »,-Uj_t/2)^ ul.l/2,co , (resp. w = (- »,-Uj_^ resp. w = (ul_(,°° -). (Testování hypotézy o parametru & lze samozřejmě provést i pomocí 100(l-a)% asymptotického intervalu spolehlivosti nebo pomocí p-hodnoty.) Příklad: Podíl zmetků při výrobě určité součástky činí 9 = 0,01. Bylo náhodně vybráno 1000 výrobků a zjistilo se, že mezi nimi je 16 zmetků. Na asymptotické hladině významnosti 0,05 testujte hypotézu H0: ^ = 0,01 proti oboustranné alternativě Hi: ^ 0,01. Řešení: Zavedeme náhodné veličiny Xi, Xiooo, přičemž X; = 1, když i-tý výrobek byl zmetek a X = 0 jinak, i = 1, 1000. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A(& ). Testujeme hypotézu H0: 9 = 0,01 proti alternativě Hi: & ^0,01. Známe: n= 1000, m = = 3,016 , c = 0,01, a = 0,05, ui_a/2 = u0 975 = 1,96 1000 Ověření podmínky nM- » J> 9 : 1000.0,01.0,99 = 9,9 > 9. a) Testování pomocí kritického oboru: „ ,. m - ; 0,016 - 3,01 Realizace testového kriteria: t0 = ,———=.= , —= = 1,907 . |c-f-;^ 0,01-0,99 V n V 1000 Kritický obor: W = {~ 50, - u0 9V5) ^ ^u0 975 , 00 -= *- 1,96) ^ ^1,96,°° .. Protože 1,907 č W, H0 nezamítáme na asymptotické hladině významnosti 0,05. b) Testování pomocí intervalu spolehlivosti /m(l " n) /0,016 '0,984 d = m - . —---u, a , = 0,016 - J—---1,96 = 0,0082 V n V 1000 ímfT- n) Í0,016 0,984 h = m + . —--u. a , = 0,016 + .—---1,96 = 0,0238 V n V 1000 Protože číslo c = 0,01 leží v intervalu 0,0082 až 0,0238, H0 nezamítáme na asymptotické hladině významnosti 0,05. c) Testování pomocí p-hodnoty Protože testujeme nulovou hypotézu proti oboustranné alternativě, vypočteme p-hodnotu podle vzorce: p = 2 min{ 0(1,907), 1-0(1,907) } = 2 min { 0,97104, 1 - 0,97104 } = 0,05792. Protože vypočtená p-hodnota je větší než hladina významnosti 0,05, H0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA (pouze přibližný): Statistiky - Základní statistiky a tabulky - Testy rozdílů: r, %, průměry - OK - vybereme Rozdíl mezi dvěma poměry - do políčka P 1 napíšeme 0,016, do políčka N1 napíšeme 1000, do políčka P 2 napíšeme 0,01, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0626, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Testy rozdílů: r, %, průměry: Ta bulka 3 I Poslat/tisknout výsledky každ. výpočtu do okna protokolu ■Rozdíl mezi dvěma korelačními koeficienty— rl: 0,00 r2: 0,00 1 1 N1: N 2: 10 10 p: 1,0000 C" Jednostr. í* Oboustr. ILJxJ Storno Výpočet - Rozdíl mezi dvěma průměry (normální rozdělení) Prl 3sm0d1 ^ N1:|10 f|] p: 1,0000 Pr2: [Ô gSm0d2:f[ g N2:|10 g £ Jednostr. Výpočet |~~ Výběrový průměr vs. střední hodnota □ boustr. Rozdíl mezi dvěma poměry— 01600 g N1:|1000 Pí P 2: | ,01000 g N2:|327G7 g =, p: ,0626 C" Jednostr. (* Oboustr. Výpočet Parametrické úlohy o dvou nezávislých náhodných výběrech z normálních rozložení Motivace: V této situaci je naším úkolem porovnat střední hodnoty či rozpt yly dvou normálních rozložení na základě znalosti dvou nezávislých náhodných výběrů pořízených z těchto rozložení. Zpravidla konstruujeme intervaly spolehlivosti pro rozdíl středních hodnot respektive hodnotíme shodu středních hodnot pomocí dvouvýběrového t -testu či dvouvýběrového z-testu a shodu rozptylů pomocí F-testu. Rozložení statistik odvozených z výběrových průměrů a výběrových rozptylů Máme dva nezávislé náhodné výběry, první pochází z rozložení N(ui, g12) a má rozsah n1 > 2, druhý pochází z rozložení N(u2, o22) a má rozsah 2 _|_ ŕ 2 n2 > 2. Označme Mi, M2 výběrové průměry, Si2, S22 výběrové rozptyly a S»2 = —!—:—!-——:—— vážený průměr výběrových rozptylů. rij + n2 - 2 Pak platí: a) Statistiky Mi - M2 a S»2 = ———-——L>Jl jsou stochasticky nezávislé. 2_ (n, ~ [)S,2 + ;n2 ~ [)S22 n, + ti2 " 2 b) U I 2 2 a a ll _!- + ni n2 N(0, 1). (Pivotová statistika U slouží k řešení úloh o ui- u2, když g12 a o22známe.) 2 2 2 2 (n + II — 2)St 7 2 c) Nechť oi = 02 =: o , pak K = —!-2---X (ni+ n2 - 2). (Pivotová statistika K slouží k řešení úloh o neznámém rozptylu o .) a 222 %A - >A ^~ V - 1 ^ 2 2 d) Jestliže oi = o2 =: o , pak T = —!-,2 1 —f--t(m + n2- 2). (Pivotová statistika T slouží k řešení úloh o ni- [j,2, když oi a o2 ll 1 — + — neznáme, ale víme, že jsou shodné.) e) F = —-2--F(n1 - 1, n2 - 1). (Pivotová statistika F slouží k řešení úloh o o12/ o22.) a 2 /a 2 Vysvětlení: ad b) Mi-M2 je lineární kombinace náhodných veličin s normálním rozložením, má tedy normální rozložení s parametry E(M1-M2) = m- Ľ12, DQM1-M2) = 01 2/n1+ 02 2/n2. U se získá standardizací M1-M2. ad c) Kí = (n' " [)S'2 ~ X2(m-1) a K2 = ("2 " ^ 2 X (n2-1) jsou stochasticky nezávislé náhodné veličiny, tedy K = K1+K2 X2(n1 + n2 - 2). ad d) U ««1 - Ví,-- V - 1 1 a i n2 N(0, 1), K (n, + n - 2)S( 2 X (n1 + n2 - 2) jsou stochasticky nezávislé, protože M1 M2 a s.2 jsou stochasticky nezávislé. T U iM 'n I 11 rvi j .vi 2 r ; z K n1 +n2 "2 (i 1 S., — + — 11 "i n2 t(n1 + n2 - 2). K- l)St ad e) Ki =-:-~ X2(n1-1) a K2 (n2"L)S2 a 2 X2(n2-1) jsou stochasticky nezávislé náhodné veličiny, tedy K, F S, /S 1 ' " 2 k ? 2 2 —2 ■ a /a n - 1 / F(n1 - 1, n2 - 1). 2 2 2 1 n Příklad: Nechť jsou dány dva nezávislé náhodné výběry, první pochází z rozložení N(0,28; 0,09) a má rozsah 16, druhý pochází z rozložení N(0,25; 0,04) a má rozsah 25. Jaká je pravděpodobnost, že výběrový průměr 1. výběru bude větší než výběrový průměr 2. výběru? Řešení: mu n i ä * ~ ä ^ - !(M - - i ) o-;n - i,) pfi, > ví, j= pIa, - ví, > = i - pfi, - vi, =S } _= l - ?| i—>— 2/ - '-n2 _1) Fa/2(ni "ln2 ~ V ) f s2/s 2 mu Levostranný: (d, 00) = j-í-2--,°° j ^Fi-aínj -l,n2 -1) ) Wu 2 2 n s / s Pravostranný: (-00, h) = | - »,-!---j ^ FaCnj "l,n2 Upozornění: Není-li v bodě (b) splněn předpoklad o shodě rozptylů, lze sestrojit aspoň přibližný 100(1-a)% interval spolehlivosti pro \i\-\i2- i 2/n + - 2 I n t V tomto případě má statistika T přibližně rozložení t(v ), kde počet stupňů volnosti v = -í>——A—?-^T-. Není-li v celé ■ I -Um9mĚMm9M Um -Um číslo, použijeme v tabulkách kvantilů Studentova rozložení lineární interpolaci. Příklad: Ve dvou nádržích se zkoumal obsah chlóru (v g/l). Z první nádrže bylo odebráno 25 vzorků, z druhé nádrže 10 vzorků. Byly vypočteny realizace výběrových průměrů a rozptylů: m1 = 34,48, m2 = 35,59, s1 = 1,7482, s2 = 1,7121. Hodnoty zjištěné z odebraných vzorků považujeme za realizace dvou nezávislých náhodných výběrů z rozložení N(ui, o ) a 2 N(u2, o ). Sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot u - (i2. v Řešení: Úloha vede na vzorec z bodu (b). Vypočteme vážený průměr výběrových rozptylů a najdeme odpovídající kvantily Studentova rozložení: 2 = (nt ~ [)st2 + ;n2 ~ [)s22 n1 + a2~l 24 -1,7482 + ? 1,7121 33 1,7384 , to,975(33) = 2,035 Dosadíme do vzorců pro dolní a horní mez intervalu spolehlivosti: d = m1-m2- s, — + — ti_a/2(ni+n2-2) 34,48-35,59 -Ji/Ťššľ- í—+ — -2,035 =-2,114 V 25 10 h = m1-m2+ s, — + — ti.o/2(ni+n2-2) = 34,48-35,59 +JÍŽŤ38T-J—+ --2,035 =-0,106 V 25 10 -2,114 g/l < u - ^2 < -0,106 g/l s pravděpodobností aspoň 0,95. s ni n2 Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =34,48-35,59-sqrt((24*1,7482+9*1,7121)/33)*sqrt((1/25)+(1/10))*VStudent(0,975;33) Do Dlouhého jména proměnné h napíšeme 1=34,48-35,59+1 sqrt((24*1,7482+9*1,7121)/33)*sqrt((1/25)+(1/10))*VStudent(0,975;33) d 1 -2,11368 -0,10632 S pravděpodobností aspoň 0,95 tedy -2,114 g/l < ^1 - fi2 < -0,106 g/l. Příklad: V předešlém příkladě nyní předpokládáme, že dané dva náhodné výběry pocházejí z rozložení N(ui, oi2) a N(u2, o22). Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =(l,7482/l,712i)/VF(0,975;24;9) (Funkce VF(x;ný;omega) počítá x-kvantil Fisherova - Snedecorova rozložení F(ný, omega).) Do Dlouhého jména proměnné h napíšeme =(1,7482/1,7121)/VF(0,025;24;9) d 2 h 1 0,282521 | 2,759698 S pravděpodobností aspoň 0,95 tedy platí: 0,28 < o12/ o22 < 2,76. o 2 2 Jednotlivé typy testů o parametrických funkcích Ui-(i2, o1 /c2 2 a) Nechť X11,... , X 1ni je náhodný výběr z rozložení N(ui, o1 ) a X 21,... , X 2n2 je na něm nezávislý náhodný výběr z 2 2 2 rozložení N(u2, 02 ), přičemž ni > 2, n2 > 2 a ci ,02 známe. Nechť c je konstanta. Test H0: ui - U2 = c proti Hi: \i\ - 02 * c se nazývá dvouvýběrový z-test. b) Nechť X11,..., X 1n1 je náhodný výběr z rozložení N(ui, o ) a X 21,. „ , X 2n2 je na něm nezávislý náhodný výběr rozložení 22 N(u2, o ), přičemž ni>2an2>2ao neznáme. Nechť c je konstanta. Test H0: \i\ - \ii = c proti Hi: \i\ - \i2 * c se nazývá dvouvýběrový t-test. c) Nechť X11,..., X 1n1 je náhodný výběr z rozložení N(ui, o1 ) a X 21,. „ , X 2n2 je na něm nezávislý náhodný výběr ~ 2 „2 2 ca rozložení N(u2, 02 ), přičemž ni > 2 a n2 > 2. Test H0: —— = 1 proti Hi: —— * 1 se nazývá F-test. a 2 a 2 1 1 Provedení testů o parametrických funkcích Ui-u.2, o12/o2 2 pomocí kritického oboru a) Provedení dvouvýběrového z-testu Vypočteme realizaci testového kritéria t0 Stanovíme kritický obor W. Pokud t0 G W, H0 zamítáme na hladině významnosti a a přijímáme Hi. ' 2 2 a CT 1- L i n2 30 Oboustranný test: Testujeme H0: Ui - li2 = c proti Hi: Ui - li2 * c. Kritický obor má tvar: W -Levostranný test: Testujeme H0: u-i - li2 = c proti H^ \ii - \i2 < c. Kritický obor má tvar: W = {~ 30 u u 1- :/2, \U1-:/2: Pravostranný test: Testujeme H0: u-i - li2 = c proti Hi: \i\ - \i2 > c. Kritický obor má tvar: W - ( u, b) Provedení dvouvýběrového t-testu Vypočteme realizaci testového kritéria ^ -n2.- : Stanovíme kritický obor W. Pokud t0 e W, H0 zamítáme na hladině významnosti a a přijímáme Hi. Oboustranný test: Testujeme H0: jlii - jlí2 = c proti Hi: jlli - jlx2 * c. Kritický obor má tvar: W )0 ti_:/2^n2 ■2J*> Levostranný test: Testujeme H0: jlii - jlí2 = c proti Hi: jlii - jli2 < c. Kritický obor má tvar: W = Pravostranný test: Testujeme H0: Ui - u.2 = c proti H1: - |ii2 > c. Kritický obor má tvar: W )0 4 + 1 !2 n. s t c) Provedení F-testu Vypočteme realizaci testového kritéria t 2 0 2 S2 Stanovíme kritický obor W. Pokud to e W, Hq zamítáme na hladině významnosti a a přijím, „ , „ i. „2 „2 Oboustranný test: Testujeme Ho: —— = 1 proti Hi: —í— * 1. Kritický obor má tvar: o 2 a 2 z z W=I>F li-1n ~1\v~> F li-1n -XJ^ Levostranný test: Testujeme Ho: —— = 1 proti Hi: < 1. Kritický obor má tvar: W = l>,Fa %l1 - ,n2 - \ a 2 a 2 z z 2 2 ^^^^ a a - ! é _ Z7l Pravostranný test: Testujeme Hq: —— = 1 proti Hi: —— > 1. Kritický obor má tvar: W - .F^ l,n2 l^.00 - j-------1- , -•--------j-------------- \ I" - 1 '2 a <7 Příklad: V restauraci "U bílého koníčka" měřili ve 20 případech čas obsluhy zákazníka. Výsledky v minutách: 6, 8, 11, 4, 7, 6, 10, 6, 9, 8, 5, 12, 13, 10, 9, 8, 7, 11, 10, 5. V restauraci "Zlatý lev" bylo dané pozorování uskutečněno v 15 případech s těmito výsledky: 9, 11, 10, 7, 6, 4, 8, 13, 5, 15, 8, 5, 6, 8 ,7. Za předpokladu, že uvedené hodnoty pocházejí ze dvou normálních rozložení, na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty doby obsluhy jsou v obou restauracích stejné. Řešení: Na hladině významnosti 0,05 testujeme nulovou hypotézu H0: Ui - [J,2 = 0 proti oboustranné alternativě Hi: ui - [j,2 * 0. Je to úloha na dvouvýbě-rový t-test. Před provedením tohoto testu je však nutné pomocí F-testu ověřit shodu rozptylů. Na hladině významnosti 0,05 tedy testujeme H0: a a i _ i tt . i = 1 proti Hi: * 1. Nejprve vypočteme mi = 8,25, m2 = 8,13, Si2 = 6,307, s22 = 9,41, (n, " L)S! + ;n2 - [)s2 2 19 -6,307 + 14 9,41 33 7,623 . Podle vzorce z bodu (c) vypočteme realizaci testové statistiky: 6,307 0 2 s, 9,41 W = (0,FH/2 í -1,n, 0,6702 . Stanovíme kritický obor: ^ Fi_./2*i"1,n: oo = ;0,1/F0,975 ■ 1 co = 'o F 1 ' \0.10.025 <9.14^u F0.975 <9.14. Í4.19^u XF0 975 Í9.14^» ~ (0.1/2.6469 )^ ^2.8607 .00 -= (0;0.3778 )^ ^2.8607.00 . Protože se testová statistika nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Rozptyly tedy můžeme považovat za shodné. Nyní se vrátíme k dvouvýběrovému t-testu. Podle vzorce z bodu (b) vypočteme realizaci testové statistiky: 8,25 - 5,13 - m2 - ; — + — ni n2 77.623 Stanovíme kritický obor: W 1- : / 2 " 1 —+ — ^20 15 3,124 1- : /2 n 1 n 2 " 0.975 <3K t *3 co 0 9 75 = (- ».- 2.035 )^ (2.035.00 > Protože testová statistika se nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. 2 2 2 2 s n ti 2 2 s 0 n 2 Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných a 35 případech. První proměnnou nazveme OBSLUHA, druhou ID. Do proměnné OBSLUHA napíšeme nejprve doby obsluhy v první restauraci a poté doby obsluhy ve druhé restauraci. Do proměnné ID, která slouží k rozlišení první a druhé restaurace, napíšeme 20 krát jedničku a 15 krát dvojku. Provedeme dvouvýběrový t-test současně s testem o shodě rozptylů: Statistika - Základní statistiky a tabulky - t-test, nezávislé, dle skupin - OK, Proměnné -Závislé proměnné OBSLUHA, Grupovací proměnná ID - OK. Po kliknutí na tlačítko Souhrn dostaneme tabulku t-testy; grupováno: ID (restaurace) Skup. 1: 1 Skup. 2: 2 Proměnná Průměr 1 Průměr 2 t sv P Poč.plat 1 Poč.plat. 2 Sm.odch. 1 Sm.odch. 2 F-poměr | rozptyly 1 P rozpty ly OBSLUHA 8,250000 8,133333 0,123730 33 0,902279 20 15 2,510504 3,067495 | 1,492952 | 0,410440 Vidíme, že testová statistika pro test shody rozptylů se realizuje hodnotou 1,492952 (je to převrácená hodnota k číslu 0,6702, které jsme vypočítali při ručním postupu), odpovídající p-hodnota je 0,41044, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. (Upozornění: v případě zamítnutí hypotézy o shodě rozptylů je zapotřebí v tabulce t-testu pro nezávislé vzorky dle skupin zaškrtnout volbu Test se samostatnými odhady rozptylu.) Dále z tabulky plyne, že testová statistika pro test shody středních hodnot se realizuje hodnotou 0,12373, počet stupňů volnosti je 33, odpovídající p-hodnota 0,902279, tedy hypotézu o shodě středních hodnot nezamítáme na hladině významnosti 0,05. Znamená to, že s rizikem omylu nejvýše 5% se neprokázal rozdíl ve středních hodnotách dob obsluhy v restauracích "U bílého koníčka" a „Zlatý lev". Tabulku ještě doplníme krabicovými diagramy. Na záložce Detaily zaškrtneme krabicový graf a vybereme volbu Průměr/SmOdch/Min-Max. □ Průměr±SmOdch I Min-Max o Odlehlé Krabicový graf z obsluha seskupeny restaurace.sta 2v*35i Z grafu je vidět, že průměrná doba obsluhy v první restauraci je nepatrně delší a má menší variabilitu než ve druhé restauraci. Extrémní ani odlehlé hodnoty se zde nevyskytují.