Parametrické úlohy o dvou nezávislých náhodných výběrech z normálních rozložení Motivace: V této situaci je naším úkolem porovnat střední hodnoty či rozpt yly dvou normálních rozložení na základě znalosti dvou nezávislých náhodných výběrů pořízených z těchto rozložení. Zpravidla konstruujeme intervaly spolehlivosti pro rozdíl středních hodnot respektive hodnotíme shodu středních hodnot pomocí dvouvýběrového t -testu či dvouvýběrového z-testu a shodu rozptylů pomocí F-testu. Rozložení statistik odvozených z výběrových průměrů a výběrových rozptylů Máme dva nezávislé náhodné výběry, první pochází z rozložení N(ui, g12) a má rozsah n1 > 2, druhý pochází z rozložení N(n2, o22) a má rozsah n2 > 2. Označme M1, M2 výběrové průměry, S12, S22 výběrové rozptyly a — vážený průměr výběrových rozptylů. AJl+ - Pak platí: a) Statistiky Mi - M2 a S2= — — + -— — jsou stochasticky nezávislé. M + _ M "I" 2 2 b) U = -J—— ==— ~ N(0, 1). (Pivotová statistika U slouží k řešení úloh o ui- \i2, když oi a o2 známe.) G r- 2 2 2 \ ~i i 2 2 c) Nechť oi = g2 =: o , pak K = A—+ ■—--X (ni+ n2 - 2). (Pivotová statistika K slouží k řešení úloh o neznámém rozptylu o .) 2 2 2 H V 2 2 d) Jestliže Gi = o2 =: o , pak T = -^-^— — ~ t(ni + n2- 2). (Pivotová statistika T slouží k řešení úloh o ui- \\a, když oi a g2 neznáme, ale víme, že jsou shodné.) 1 ■ S<2/S>2 e) F = 2 ■ 22 ~ F(n1 - 1, n2 - 1). (Pivotová statistika F slouží k řešení úloh o g12/ g22.) rr rr Vysvětlení: ad b) M1-M2 je lineární kombinace náhodných veličin s normálním rozložením, má tedy normální rozložení s parametry EOM1-M2) = m- H2, DQM1-M2) = 01 2/n1+ 02 2/n2. U se získá standardizací M1-M2. ad c) K1 X2(n1 + n2 - 2). — ~ x2(n2-l) jsou stochasticky nezávislé náhodné veličiny, tedy K = Ki+K2 ad d) U t- N(0,l),K=-^+ - - 2 — ~ X (n1 + n2 - 2) jsou stochasticky nezávislé, protože M1 a M2 a S=2jsou stochasticky nezávislé. T_ U s t(n1 + n2 - 2). ad e) Ki = ~ % (ni-1) a K2 = ~ X (n2-l) jsou stochasticky nezávislé náhodné veličiny, tedy r- = ■ ■ 2-~F(m-l,n2-l). "2_ ít rr Příklad: Nechť jsou dány dva nezávislé náhodné výběry, první pochází z rozložení N(0,28; 0,09) a má rozsah 16, druhý pochází z rozložení N(0,25; 0,04) a má rozsah 25. Jaká je pravděpodobnost, že výběrový průměr 1. výběru bude větší než výběrový průměr 2. výběru? Řešení: ( > = ~M_-1 < = vľ ď- L< ~~52^ . ; 7"5_" 536 83 = - < ^+--5| = S pravděpodobností přibližně 63,7% je výběrový průměr 1. výběru větší než výběrový průměr 2. výběru. Výpočet pomocí systému STATISTICA: Statistika M] - M2 se podle bodu (a) řídí rozložením N(u.! - li2, ^ i_ 14 r kde \íi-\í2 = 0,28 - 0,25 = 0,03, O 1J1 = 6+ 5= 1072 tj. statistika M1 - M2 ~ N(0,03;0,007225). Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do Dlouhého jména této proměnné napíšeme = 1-INormal(0;0,03;sqrt(0,007225)). V proměnné Prom1 se objeví hodnota 0,637934. n 2 2 Intervaly spolehlivosti pro parametrické funkce (ii-(i2, oi /c2 22 Uvedeme přehled vzorců pro meze 100(1 -a)% empirických intervalů spolehlivosti pro parametrické funkce u - li2 , o1 / o2 . 22 a) Interval spolehlivosti pro Urí^, když o1 ; o2 známe (využití pivotové statistiky U) Oboustranný: (d, h) = (m1 - m2 —ri-7-r Levostranný: (d, oo) = (m1 - m2 a -Ta I- U1-a/2, m1 - m2 + 7 —ri-7-r a AJ1 I- 7 U1-a/2) I- Ul-a, oo) Pravostranný: (-oo, h) = (-o,m1 - m2 + —ri-rr a i- 7 U1-a) 22 b) Interval spolehlivosti pro u1-U2, když o1 , o2 neznáme, ale víme, že jsou shodné (využití pivotové statistiky T) Oboustranný: (d, h) = (m1 - m2 - S* x^; Levostranný: (d, o ) = (m1 - m2 -S* t1-a/2(n1+n2-2), m1 - m2 + S* x^ t1-a/2(n1+n2-2)) x^ t1-a(n1+n2-2), o ) Pravostranný: (-oo, h) = (-oo, m1 - m2 + S* x^ t1-a(n1+n2-2)) c) Interval spolehlivosti pro společný neznámý rozptyl o (využití pivotové statistiky K) Levostranny: (d, co) = I Sf^^^oo Pravostranný: (-00, h) = I _ , v2~/£f "" f (ni,i^_2>2^ d) Interval spolehlivosti pro podíl rozptylů CT (využití pivotové statistiky F) Oboustranný: (d, h) Levostranny: (d, 00) f Si2/S22 Si2/S22 ^ 1 k^ípl Jpz Jy fyíÁ Jh J) ( S!2/S22 N kro00, Pravostranný: (-00, h) = ( Upozornění: Není-li v bodě (b) splněn předpoklad o shodě rozptylů, lze sestrojit aspoň přibližný 100(1-a)% interval spolehlivosti pro fii-U2- V tomto případě má statistika T přibližně rozložení t( A,), kde počet stupňů volnosti A, = —fy-—%+ 0 7 • Není-li v celé LJl 1 ^/1J2 1 číslo, použijeme v tabulkách kvantilů Studentova rozložení lineární interpolaci. Příklad: Ve dvou nádržích se zkoumal obsah chlóru (v g/l). Z první nádrže bylo odebráno 25 vzorků, z druhé nádrže 10 vzorků. Byly vypočteny realizace výběrových průměrů a rozptylů: m1 = 34,48, m2 = 35,59, s1 = 1,7482, s2 = 1,7121. Hodnoty zjištěné z odebraných vzorků považujeme za realizace dvou nezávislých náhodných výběrů z rozložení N(ui, o ) a 2 N(u.2, o ). Sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot u - (i2. v Řešení: Úloha vede na vzorec z bodu (b). Vypočteme vážený průměr výběrových rozptylů a najdeme odpovídající kvantily Studentova rozložení: &2=^i_ L+ l- 2__ .. »1ZS+ >±±r_ ^38, t0,975(33) = 2,035 1 l| _|_ _ — u u — Dosadíme do vzorců pro dolní a horní mez intervalu spolehlivosti: d = m1-m2- S* 1-1; ti-o/2(ni+n2-2) 34,48-35,59 -VTT^. '2"'+ .103 = -2,114 h = m1-m2+ S* 1—r — - ti_a/2(ni+n2-2) n—r = 34,48-35,59 + '2*+ ."$3 = -0,106 -2,114 g/l < u - fi2 < -0,106 g/l s pravděpodobností aspoň 0,95. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =34,48-35,59-sqrt((24*1,7482+9*1,7121)/33)*sqrt((1/25)+(1/10))*VStudent(0,975;33) Do Dlouhého jména proměnné h napíšeme =34,48-35,59+ sqrt((24*1,7482+9*1,7121)/33)*sqrt((1/25)+(1/10))*VStudent(0,975;33) 1 d 2 h 1 -2,113 -U/IUI S pravděpodobností aspoň 0,95 tedy -2,114 g/l < fii - fi2 < -0,106 g/l. Příklad: V předešlém příkladě nyní předpokládáme, že dané dva náhodné výběry pocházejí z rozložení N(ui, oi2) a N(fi2, o22). Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů. Řešení: Úloha vede na vzorec z bodu (d). s,2/%2 174817121174817121-7, d h _ s,2/s22 174837121174827121174837121-7í F 2, n2 > 2 a oi , o2 známe. Nechť c je konstanta. Test H0: \i\ - li2 = c proti Hi: \i\ - li2 _^c se nazývá dvouvýběrový z-test. b) Nechť Xlv .yX^ je náhodný výběr z rozložení N(ui, o2) a Xlv • rXrfe je na něm nezávislý náhodný výběr rozložení 22 N(li2, o ), přičemž ni>2an2>2ao neznáme. Nechť c je konstanta. Test H0: \i\ - li2 = c proti Hi: \i\ - li2 _^c se nazývá dvouvýběrový t-test. c) Nechť Xlv «r^ii je náhodný výběr z rozložení N(ui, oi2) a Xlv • rXrfe je na něm nezávislý náhodný výběr rozložení N(u.2, o2 ), přičemž ni > 2 a n2 > 2. Test H0: -O" =1 proti Hi: -O" se nazývá F-test. rr rr Provedení testů o parametrických funkcích Ui-u.2, o12/o2 2 pomocí kritického oboru a) Provedení dvouvýběrového z-testu 4- Hl T Vypočteme realizaci testového kritéria Xq _ =— =— a Stanovíme kritický obor W. Pokud t0 ^ W, H0 zamítáme na hladině významnosti a a přijímáme Hi. Oboustranný test: Testujeme H0: Ui - (i2 = c proti Hi: ui - \i2 _^c. Kritický obor má tvar: ^V_ 9 \\ /2)^ j\\ /2?qq- Levostranný test: Testujeme H0: Ui - (i2 = c proti H1: ^1 - fi2 < c. Kritický obor má tvar: Pravostranný test: Testujeme H0: (ii - (i2 = c proti Hi: ui - \i2 > c. Kritický obor má tvar: \\ 9 ^q. 1b - b) Provedení dvouvýběrového t-testu Vypočteme realizaci testového kritéria *0 = . Stanovíme kritický obor W. Pokud t0 ^ W, H0 zamítáme na hladině významnosti a a přijímáme Hi. Oboustranný test: Testujeme H0: Ui - u-2 = c proti Hi: jlii - jlx2 ^fi. Kritický obor má tvar: Levostranný test: Testujeme H0: jlii - jlí2 = c proti Hi: jlii - jli2 < c. Kritický obor má tvar: W_ ^4- _ Pravostranný test: Testujeme H0: jlii - jli2 = c proti Hi: jlii - jli2 > c. Kritický obor má tvar: \V_ t\ H _2,^. c) Provedení F-testu Vypočteme realizaci testového kritéria Xq _ 2 ■ Stanovíme kritický obor W. Pokud to ^ W, Ho zamítáme na hladině významnosti a a přijím „ , „ i. Oboustranný test: Testujeme Ho: -Q =1 proti Hi: CJ ^1. Kritický obor má tvar: Levostranný test: Testujeme Hq: -CJ = 1 proti Hi: -CJ < 1. Kritický obor má tvar: _ F ^_ \_ Pravostranný test: Testujeme Ho: -d =1 proti Hi: -CJ > 1. Kritický obor má tvar: -jq- Příklad: V restauraci "U bílého koníčka" měřili ve 20 případech čas obsluhy zákazníka. Výsledky v minutách: 6, 8, 11, 4, 7, 6, 10, 6, 9, 8, 5, 12, 13, 10, 9, 8, 7, 11, 10, 5. V restauraci "Zlatý lev" bylo dané pozorování uskutečněno v 15 případech s těmito výsledky: 9, 11, 10, 7, 6, 4, 8, 13, 5, 15, 8, 5, 6, 8 ,7. Za předpokladu, že uvedené hodnoty pocházejí ze dvou normálních rozložení, na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty doby obsluhy jsou v obou restauracích stejné. Řešení: Na hladině významnosti 0,05 testujeme nulovou hypotézu H0: ui - = 0 proti oboustranné alternativě Hi: ui - _A Je to úloha na dvouvýbě-rový t-test. Před provedením tohoto testuje však nutné pomocí F-testu ověřit shodu rozptylů. Na hladině významnosti 0,05 tedy testujeme H0: -G = 1 proti Hi: -CJ _J.. Nejprve vypočteme mi = 8,25, m2 = 8,13, Si2 = 6,307, s22 = 9,41, Sk _ -— —+ -— —_ * * -—_ Podle vzorce z bodu (c) vypočteme realizaci testové statistiky: — A4_|_ _ — ~~ to_ 2_ ÍZf[— Stanovíme kritický obor: W=QFpfi_UkJ y5 fliiJuj,,, QWSH JWSL4«> Protože se testová statistika nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Rozptyly tedy můžeme považovat za shodné. Nyní se vrátíme k dvouvýběrovému t-testu. Podle vzorce z bodu (b) vypočteme realizaci testové statistiky: t_"< ■ _ ^ -\_ 2 Stanovíme kritický obor: W_ ., ti_/2n ,rb_2 ,,tL/2ri+r2_2^ , ^^ji*^^3^ Protože testová statistika se nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných a 35 případech. První proměnnou nazveme OBSLUHA, druhou ID. Do proměnné OBSLUHA napíšeme nejprve doby obsluhy v první restauraci a poté doby obsluhy ve druhé restauraci. Do proměnné ID, která slouží k rozlišení první a druhé restaurace, napíšeme 20 krát jedničku a 15 krát dvojku. Provedeme dvouvýběrový t-test současně s testem o shodě rozptylů: Statistika - Základní statistiky a tabulky - t-test, nezávislé, dle skupin - OK, Proměnné -Závislé proměnné OBSLUHA, Grupovací proměnná ID - OK. Po kliknutí na tlačítko Souhrn dostaneme tabulku Proměř t-testy; grupovano: id (restaurace) Skup. 1: 1 Skup. 2: 2 Prüm« 2 t P Poc.p Poc.pl 2 bm.oai 1 2 roZptr P . rozptr UBSLl b,2bU 80,133 U,123 3: U,9U2 21 1! 2,b1U 3,U6/ 1,492 U,41U| Vidíme, že testová statistika pro test shody rozptylů se realizuje hodnotou 1,492952 (je to převrácená hodnota k číslu 0,6702, které jsme vypočítali při ručním postupu), odpovídající p-hodnota je 0,41044, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. (Upozornění: v případě zamítnutí hypotézy o shodě rozptylů je zapotřebí v tabulce t-testu pro nezávislé vzorky dle skupin zaškrtnout volbu Test se samostatnými odhady rozptylu.) Dále z tabulky plyne, že testová statistika pro test shody středních hodnot se realizuje hodnotou 0,12373, počet stupňů volnosti je 33, odpovídající p-hodnota 0,902279, tedy hypotézu o shodě středních hodnot nezamítáme na hladině významnosti 0,05. Znamená to, že s rizikem omylu nejvýše 5% se neprokázal rozdíl ve středních hodnotách dob obsluhy v restauracích "U bílého koníčka" a „Zlatý lev". Tabulku ještě doplníme krabicovými diagramy. Na záložce Detaily zaškrtneme krabicový graf a vybereme volbu Průměr/SmOdch/Min-Max. Z grafu je vidět, že průměrná doba obsluhy v první restauraci je nepatrně delší a má menší variabilitu než ve druhé restauraci. Extrémní ani odlehlé hodnoty se zde nevyskytují. Cohenův koeficient věcného účinku - doplnění významu dvouvýběrového t-testu: Nechť X]],. 'r^l je náhodný výběr z rozložení N(ui, o2) a X?],. •rXi je na něm nezávislý náhodný výběr rozložení N(n2, o2), přičemž ni > 2 a n2 > 2 a o2 neznáme. Nechť c je konstanta. Testujeme H0: Ui - [12 = 0 proti Hi: ui - [12 Označme mi, m2 realizace výběrových průměrů hodnot dané veličiny v těchto dvou skupinách, n " 2 '2 2 \ 1 ^ 7 Si2, s22 realizace výběrových rozptylů a Sw= _ -— — + -— — realizaci váženého průměru výběrových rozptylů. Cohenův koeficient d vypočteme podle vzorce: Q_ - -. — !> Tento koeficient slouží k posouzení velikosti rozdílu průměrů, který je standardizován pomocí odmocniny z váženého průměru výběrových rozptylů. Jedná se o tzv. věcnou významnost neboli velikost účinku skupiny na variabilitu hodnot sledované náhodné veličiny. Velikost účinku ho d-notíme podle následující tabulky: Hodnota d účinek aspoň 0,8 velký mezi 0,5 až 0,8 střední mezi 0,2 až 0,5 malý pod 0,2 zanedbatelný (Uvedené hodnoty nemají samozřejmě absolutní platnost, posouzení, jaký úč inek považujeme za velký či malý, závisí na kontextu.) Je zapotřebí si uvědomit, že při dostatečně velkých rozsazích náhodných výběrů i malý rozdíl ve výběrových průměrech způsobí zamítnutí nulové hypotézy na hladině významnosti a, i když z věcného hlediska tak malý rozdíl nemá význam. Naopak, máme-li výběry malých rozsahů, pak i značně velký rozdíl ve výběrových průměrech nemusí vést k zamítnutí nulové hypotézy na hladině významnosti a. Příklad: Máme k dispozici údaje o celkovém IQ 856 žáků ZŠ. Zajímáme se jednak o skupinu dětí, jejichž oba rodiče mají pouze základní vzdělání (je jich 296) a jednak o skupinu dětí, jejichž oba rodiče mají vysokoškolské vzdělání (těch je 75). Na hladině významnosti 0,05 budeme testovat hypotézu, že střední hodnota celkového IQ je v obou skupinách stejná a také vypočteme Cohenův koeficient věcného účinku. Řešení: Provedeme dvouvýběrový t-test: Proměi t-testy; grupovano:zs a vs (IQ) Skup. 1: oba ZS Skup. 2: oba VS P o ximi Prumi t 3a Z oba V sv p poc p oba Z poc pi oba V itm.oai oba Z oba V ROzpt Rozpt IQ Ub 94 U3i110,yi-10,6:i3tíi0,000i 299 75 11,02 13,6011,32210,1101 Hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05, protože odpovídající p-hodnota je velmi blízká 0 (hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05, p-hodnota F-testu je 0,110124, což je větší než 0,05). Krabicový diagram: NátbxvýgáfzIQCEKseSkpevID Vidíme, že průměrné celkové IQ dětí v 1. skupině je 94,1, zatímco ve 2. skupině 110,9. Vliv skupiny na variabilitu hodnot celkového IQ 1 1 2 3 4 5 6 ni n2 ml m2 si s2 d 1 29 7i 94,13 VIU,y 11,82 13,6U 1,3/4| Cohenův koeficient nabývá hodnoty 1,37, tudíž vliv skupiny na variabilitu hodnot celkového IQ lze považovat za velký. Příklad: Výrobce limonád chtěl zjistit, zda změna technologie výroby se projeví v prodeji limonád. Proto sledoval po 14 náhodně vybraných dnů před zavedením nových limonád tržby v určitém regionu a zjistil, že za den utržil v průměru 39 600 Kč se směrodatnou odchylkou 5 060 Kč. Po zavedení nových limonád prověřil stejným způsobem tržby v 11 náhodně vybraných dnech v témž regionu a zjistil průměrný příjem 41 200 Kč se směrodatnou odchylkou 4 310 Kč. Předpokládejte, 2 2 že tržby za starý typ limonád se řídí rozložením N(ui, o ) a tržby za nový typ limonád se řídí rozložením N(u-2, o ). Na hladině významnosti 0,05 testujte hypotézu H0: ui - U2 = 0 proti oboustranné alternativě Hi: ui - U2 -A Řešení: Za odhad společného neznámého rozptylu vezmeme vážený průměr výběrových rozptylů: &2_i'i06r+;i3|0_-2548ía. Realizace testového kritéria: Kritický obor: W= , ti ník^kJ- uti /2fl_fft_2,00 Protože testové kritérium se nerealizuje v kritickém oboru, na hladině významnosti 0,05 nelze zamítnout hypotézu o shodě středních hodnot. Výpočet pomocí systému STATISTICA: Statistiky - Základní statistiky a tabulky - Testy rozdílů: r, %, průměry - OK - vybereme Rozdíl mezi dvěma průměry (normální rozdělení) - do políčka Pr1 napíšeme 39600, do políčka SmOdl napíšeme 5600, do políčka N1 napíšeme 14, do políčka Pr2 napíšeme 41200, do políčka SmOd1 napíšeme 4310, do políčka N1 napíšeme 14 - Výpočet. Dostaneme p-hodnotu 0,4116 tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Jelikož p-hodnota je větší než hladina významnosti 0,05, H0 nezamítáme na hladině významnosti 0,05. Znamená to, že změna technologie výroby se neprojevila ve střední hodnotě tržeb. Ověřování normality Grafický způsob a) Normální pravděpodobnostní graf (NP-plot) NP-plot umožňuje graficky posoudit, zda data pocházejí z normálního rozložení. Způsob konstrukce: na vodorovnou osu vynášíme uspořádané hodnoty x(i} < ... < x(n) a na svislou osu kvantily U , kde a 0£ - j > přičemž j je pořadí j-té uspořádané hodnoty (jsou-li některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince). Pocházejí-li data z normálního rozložení, pak všechny dvojice N budou ležet na přímce. b) Kvantil-kvantilový graf (Q-Q plot) Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např. systém STATISTICA nabízí 8 typů rozložení: beta, exponenciální, Gumbelovo, gamma, log-normální, normální, Rayleighovo a Weibulovo). Pro nás je nejdůležitější právě normální rozložení. Způsob konstrukce: na svislou osu vynášíme uspořádané hodnoty x(i} < ... < x(n) a na vodorovnou osu kvantily K 'X) 1 jí vybraného rozložení, kde n J, přičemž racy a nacy jsou korigující faktory < 0,5, implicitně racy = 0,375 a nacy = 0,25. a ■ + idj (Jsou-li některé hodnoty X(i) < ... < X(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.) Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadnou z dat nebo je může zadat uživatel. Body j^^tyjLj^ se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím je lepší soulad mezi empirickým a teoretickým rozložením. c) Probability - probability plot (P-P plot) Používá se ke stejným účelům jako Q-Q plot, ale jinak se konstruuje. Způsob konstrukce: spočtou se standardizované hodnoty J = 1, n. Na vodorovnou osu se vynesou hodnoty teoretické distribuční funkce Dn(a), kde Dn(a) je tabelovaná kritická hodnota. Pro n > 30 lze Dn(a) aproximovat výrazem ÍŤXln2. 2 V případě, že neznáme parametry fi a a normálního rozložení, musíme je odhadnout z dat (střední hodnotu odhadneme pomocí m a rozptyl pomocí s ). Tím se změní rozložení testové statistiky Dn. Příslušné modifikované kvantily byly určeny pomocí simulačních studií. V této situaci používáme Lilieforsovu variantu Kolmogorovova - Smirnovova testu. b) Shapirův - Wilkův test normality dat Testujeme hypotézu, která tvrdí, že náhodný výběr X1, Xn pochází z rozložení N(fi, a ). Testová statistika má tvar: Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými pozorováními a jim odpovídajícími kvantily standardizovaného normálního rozložení. V případě, že data vykazují perfektní shodu s normálním rozložením, bude mít W hodnotu 1. Hypotézu o normalitě tedy zamítneme na hladině významnosti a, když se na této hladině neprokáže korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1). Lze také říci, že S - W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné od regresní přímky proložené těmito body. (S-W test se používá především pro výběry menších rozsahů, n < 50, ale v systému STATISTICA je implementováno jeho rozšíření i na výběry velkých rozsahů, kolem 2000.) m W - ,kde m = n/2 pro n sudé a m (n-1)/2 pro n liché. Koeficienty ai(n) jsou tabelovány. c) Test dobré shody pro normální rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr Xi, Xn pochází z normálního rozložení s distribuční funkcí 5, j = 1, r.) Upozornění: Hodnota testové statistiky K je silně závislá na volbě třídicích intervalů. Navíc při nesplnění podmínky npj > 5, j = 1, r je třeba některé intervaly slučovat, což vede ke ztrátě informace.