5. Porovnání empirického a teoretického rozložení


5.1. Motivace: Možnost použití statistických testů je podmíněna nějakými předpoklady o datech.
Velmi často je to předpoklad o typu rozložení, z něhož získaná data pocházejí. Mnoho testů je
založeno na předpokladu normality.

Opomíjení předpokladů o typu rozložení může v praxi vést i ke zcela zavádějícím výsledkům, proto je
nutné věnovat tomuto problému patřičnou pozornost.


5.2. Popis Kolmogorovova – Smirnovova testu a jeho Lilieforsovy varianty

Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z rozložení s distribuční
funkcí Φ(x). Nechť  je výběrová distribuční funkce. Testovou statistikou je statistika . Nulovou
hypotézu zamítáme na hladině významnosti α, když D[n] ≥ D[n](α), kde D[n](α) je tabelovaná kritická
hodnota.

(Pro n ≥ 30 lze D[n](α) aproximovat výrazem .)

Upozornění: Nulová hypotéza musí specifikovat distribuční funkci zcela přesně, včetně všech jejích
případných parametrů. Např. K-S test lze použít pro testování hypotézy, že náhodný výběr X[1], ...,
X[n] pochází z rozložení Rs(0,1), což se využívá při testování generátorů náhodných čísel.


Lilieforsova modifikace Kolmogorovova – Smirnovova testu

Nechť nulová hypotéza tvrdí, že náhodný výběr pochází z normálního rozložení, jehož parametry μ a
σ^2 neznáme. Tyto parametry musíme odhadnout z dat. Tím se změní rozložení  testové statistiky
D[n]. V takovém případě jde o Lilieforsovu modifikaci Kolmogorovova – Smirnovova testu. Příslušné
modifikované kvantily byly určeny pomocí simulačních studií.


Poznámka ke K-S testu ve STATISTICE: Test normality poskytuje hodnotu testové statistiky (ozn. d) a
dvě p-hodnoty. První se vztahuje k případu, kdy μ a σ^2 známe předem, druhá (ozn. Liliefors p) se
vztahuje k případu, kdy μ a σ^2 neznáme. Objeví-li se ve výstupu  p = n.s. (tj. non significant),
pak hypotézu o normalitě nezamítáme na hladině významnosti 0,05.


5.3. Příklad: Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí Lilieforsovy varianty K- S testu ověřte na
hladině významnosti 0,05, zda tato data pocházejí z normálního rozložení.


Řešení: Odhadem střední hodnoty je výběrový průměr m = 11, odhadem rozptylu je výběrový rozptyl s^2
= 10. Uspořádaný náhodný výběr je (8, 9, 10, 12, 16). Vypočteme hodnoty výběrové distribuční
funkce:


Hodnoty teoretické distribuční funkce Ф[T](x) v bodech 8, 9, 10, 12, 16:


(Ф je distribuční funkce rozložení N(0,1).)


Rozdíly mezi výběrovou distribuční funkcí F[5](x) a teoretickou distribuční funkcí Ф[T](x):

d[1] = 0,2 – 0,17106 = 0,02894; d[2] = 0,4 – 0,26435 = 0,13565; d[3] = 0,6 – 0,37448 = 0,22552;

d[4] = 0,8 – 0,62552 = 0,17448; d[5] = 1 – 0,94295 = 0,05705.


Testová statistika: D[5] = 0,22552, modifikovaná kritická hodnota pro n = 5, α = 0,05 je 0,343.
Protože 0,22552 < 0,343, hypotézu o normalitě nezamítáme na hladině významnosti 0,05.


5.4. Popis Shapirova – Wilkova testu

Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z rozložení N(μ, σ^2).

Testová statistika má tvar:

,

kde m = n/2 pro n sudé a m = (n-1)/2 pro n liché. Koeficienty a[i]^(n) jsou tabelovány.

Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými pozorováními a
jim odpovídajícími kvantily standardizovaného normálního rozložení. V případě, že data vykazují
perfektní shodu s normálním rozložením, bude mít W hodnotu 1. Hypotézu o normalitě tedy zamítneme
na hladině významnosti α, když se na této hladině neprokáže korelace mezi daty a jim odpovídajícími
kvantily rozložení N(0,1).

Lze také říci, že S – W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné od
regresní přímky proložené těmito body.

(S-W test se používá především pro výběry menších rozsahů, n < 50, ale v systému STATISTICA je
implementováno jeho rozšíření i na výběry velkých rozsahů, kolem 2000.)


Výpočet pomocí systému STATISTICA:

V sedmi náhodně vybraných prodejnách byly zjištěny následující ceny určitého druhu zboží (v Kč):
35, 29, 30, 33, 45, 33, 36. Rozhodněte pomocí Lilieforsovy varianty K-S testu a S-W testu na
hladině významnosti 0,05, zda lze tyto ceny považovat za realizace náhodného výběru z normálního
rozložení.


Řešení:

Otevřeme nový datový soubor o jedné proměnné a 7 případech. Do proměnné X jsou zapíšeme zjištěné
ceny.

Statistiky – Základní statistiky a tabulky – Tabulky četností - OK – Proměnné X, OK – Normalita –
zaškrtneme Lilieforsův test a Shaphiro - Wilksův W test –Testy normality


V tabulce je uvedena hodnota testové statistiky pro Lilieforsův test  (d = 0,24029) a pro S-W test
(W = 0,86866) a odpovídající p-hodnoty. Lilieforsovo p je počítáno na základě parametrů odhadnutých
z dat. V našem případě p > 0,2 a pro S-W test p = 0,18068. Ani jeden z testů nezamítá nulovou
hypotézu o normalitě.


Výpočet doplníme normálním pravděpodobnostním grafem a kvantil – kvantilovým grafem:

Graphs – 2D Graphs - Normal Probability Plots (resp. Quantile- Quantile plot)- Variables X – OK.


N-P plot:


Q-Q plot:


5.5. Poznámka: Další testy normality

Existují testy normality založené na výběrové šikmosti a špičatosti. Pro náhodnou veličinu
s normálním rozložením platí, že její šikmost i špičatost jsou nulové. Pro výběr z normálního
rozložení by tedy výběrová šikmost a špičatost měly být blízké 0.

Nechť X[1], …, X[n ]je náhodný výběr.


Výběrová šikmost:


Výběrová špičatost:


Lze dokázat, že pro výběr z normálního rozložení platí:

, , , .


Pro n → ∞ se statistiky  a  asymptoticky řídí normálním rozložením.


Test založený na šikmosti zamítne hypotézu o normalitě na asymptotické hladině významnosti α, když


.


D’Agostinův test: zavedeme pomocné veličiny


Testová statistika má tvar   a platí, že má přibližně rozložení  N(0,1). Pro  n>8  zamítáme
hypotézu o normalitě pokud .


Test založený na špičatosti zamítne hypotézu o normalitě na asymptotické hladině významnosti α,
když


.


Také v tomto případě existuje D’Agostinova modifikace testu, nebudeme ji ale uvádět. Z dalších
testů normality lze jmenovat např. Andersonův-Darlingův nebo Jarque-Beraův test.


5.6. Popis testu dobré shody v diskrétním a spojitém případě

Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z rozložení s distribuční
funkcí Φ(x).

a)     Je-li distribuční funkce spojitá, pak data rozdělíme do r třídicích intervalů , j = 1, ...,
r. Zjistíme absolutní četnost n[j] j-tého třídicího intervalu a vypočteme pravděpodobnost p[j], že
náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat v j-tém třídicím intervalu.
Platí-li nulová hypotéza, pak p[j] = Φ(u[j+1]) - Φ(u[j]).

b)    Má-li distribuční funkce nejvýše spočetně mnoho bodů nespojitosti, pak místo třídicích
intervalů použijeme varianty x[[j]], j = 1, …, r. Pro variantu x[[j] ]zjistíme absolutní četnost
n[j] a vypočteme pravděpodobnost p[j], že náhodná veličina X s distribuční funkcí Φ(x) se bude
realizovat variantou x[[j]]. Platí-li nulová hypotéza, pak .

Testová statistika: .

Platí-li nulová hypotéza, pak K ≈ χ^2(r-1-p), kde p je počet odhadovaných parametrů daného
rozložení. (Např. pro normální rozložení p = 2, protože z dat odhadujeme střední hodnotu a
rozptyl.) Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když K ≥
χ^2[1-α](r-1-p). Aproximace se považuje za vyhovující, když tzv. teoretické četnosti np[j] ≥ 5, j =
1, ..., r.


Upozornění: Hodnota testové statistiky K je silně závislá na volbě třídicích intervalů. Navíc při
nesplnění podmínky np[j] ≥ 5, j = 1, ..., r je třeba některé intervaly resp. varianty slučovat, což
vede ke ztrátě informace.


5.7. Příklad (test dobré shody pro diskrétní rozložení): Byl zjišťován počet poruch určitého
zařízení za 100 hodin provozu ve 150 disjunktních 100 h intervalech. Výsledky měření:

Počet poruch za 100 hodin provozu   0    1    2    3    4 a víc

Absolutní četnost                                52  48  36  10  4

Na asymptotické hladině významnosti 0,05 testujte hypotézu, že náhodný výběr X[1], ..., X[150]
pochází z rozložení Po(1,2).

Řešení:

Pravděpodobnost, že náhodná veličina s rozložením Po(λ), kde λ  = 1,2 bude nabývat hodnot p[0],
..., p[4] a víc je .

Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky.


                                  j


                                   n[j]


                                       p[j]


                                            np[j]


                                  0

                                   52

                                       0,301

                                            150.0,301=45,15

                                                           1,039

                                  1

                                   48

                                       0,361

                                            150.0,361=54,15

                                                           0,698

                                  2

                                   36

                                       0,217

                                            150.0,217=32,55

                                                           0,366

                                  3

                                   10

                                       0,087

                                            150.0,087=13,05

                                                           0,713

                                  4

                                   4

                                       0,034

                                            150.0,034=5,1

                                                           0,237


K = 1,039 + 0,698 + 0,713 + 0,237 = 3,053, r = 5, χ^2[0,95](4) = 9,488. Protože 3,053 < 9,488,
nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05.


Výpočet pomocí systému STATISTICA:

Vytvoříme datový soubor o dvou proměnných (POČET a ČETNOST) a pěti případech a zapíšeme do něj
hodnoty 0 1 2 3 4 a 52 48 36 10 4.

Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POČET –
Proměnná vah ČETNOST – Stav zapnuto – OK – Parametry Lambda 1,2, OK.


Ve výstupní tabulce je uvedena hodnota testového kritéria (3,03371) a odpovídající p-hodnota
(0,38646). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05.

(Podmínky dobré aproximace jsou splněny, všechny teoretické četnosti - uvedené ve sloupci Očekávané
četnosti – jsou větší než 5.)

Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf
pozorovaného a očekávaného rozdělení.


5.8. Příklad (test dobré shody pro spojité rozložení): Byl pořízen náhodný výběr rozsahu n = 100.
Jeho číselné realizace byly roztříděny do 5 ekvidistantních třídicích intervalů o délce 0,04,
přičemž dolní mez prvního třídicího intervalu je 3,92. Absolutní četnosti jednotlivých třídicích
intervalů jsou: 11, 20, 44, 19, 6.

Výběrový průměr se realizoval hodnotou m = 4,02 a výběrová směrodatná odchylka hodnotou s = 0,04.

Na asymptotické hladině významnosti 0,05 testujte hypotézu, že náhodný výběr pochází z normálního
rozložení.


Řešení:

Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky.

Přitom symbolem Ф značíme distribuční funkci rozložení N(μ,σ^2), kde μ = 4,02 a σ = 0,04.


                     n[j]

                         p[j]=Ф(u[j+1])- Ф(u[j])

                                                np[j]

                                                       (n[j] – np[j])^2

                                                                       []

                     11

                         0,060598

                                                6,0598

                                                       24,4060

                                                                       4,0276

                     20

                         0,241730

                                                24,1730

                                                       17,4142

                                                                       0,7204

                     44

                         0,382925

                                                38,2925

                                                       32,5756

                                                                       0,8507

                     19

                         0,241730

                                                24,1730

                                                       26,7608

                                                                       1,1070

                     6

                         0,060598

                                                6,0598

                                                       0,0036

                                                                       0,0006


K = 4,0276 + 0,7204 + 0,8507 + 1,1070 + 0,0006 = 6,7063

Kritický obor:

Protože testová statistika se realizuje v kritickém oboru, hypotézu o normalitě zamítáme na
asymptotické hladině významnosti 0,05.


Výpočet pomocí systému STATISTICA:

Protože nemáme k dispozici původní data, ale jenom třídicí intervaly a jejich četnosti, do nového
datového souboru o dvou proměnných xj a nj zadáme středy třídicích intervalů a jejich absolutní
četnosti:


Statistiky – Prokládání rozdělení – ponecháme implicitní nastavení pro Normální rozdělení – OK –
Proměnná xj – klikneme na ikonu se závažím – Proměnná vah nj – Stav Zapnuto – OK – Parametry –
Počet kategorií 5, Průměr 4,02, Rozptyl 0,0016, OK.

Dostaneme výstupní tabulku:


V záhlaví výstupní tabulky je uvedena hodnota testového kritéria (5,54004), počet stupňů volnosti
= 2 a p-hodnota (0,06266). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti
0,05.

Rozdíl oproti ručnímu výpočtu je způsoben tím, že systém STATISTICA uvažuje první interval a
poslední interval .

Pro vytvoření grafu se vrátíme do Proložení spojitých rozdělení – Základní výsledky – Graf
pozorovaného a očekávaného rozdělení.


5.9. Poznámka: Test dobré shody může být použit i v těch případech, kdy rozložení, z něhož daný
náhodný výběr pochází, neodpovídá nějakému známému rozložení (např. exponenciálnímu, normálnímu,
Poissonovu, ...), ale je určeno intuitivně nebo na základě zkušenosti.


5.10. Příklad: Ve svých pokusech pozoroval J.G. Mendel 10 rostlin hrachu a na každé z nich počet
žlutých a zelených semen. Výsledky pokusu:


                             č.rostliny

                                                 1

                                                   2

                                                     3

                                                       4

                                                         5

                                                           6

                                                             7

                                                               8

                                                                 9

                                                                   10

                             počet žlutých semen

                                                 25

                                                   32

                                                     14

                                                       70

                                                         24

                                                           20

                                                             32

                                                               44

                                                                 50

                                                                   44

                             počet zelených semen

                                                 11

                                                   7

                                                     5

                                                       27

                                                         13

                                                           6

                                                             13

                                                               9

                                                                 14

                                                                   18

                             celkem

                                                 36

                                                   39

                                                     19

                                                       97

                                                         37

                                                           26

                                                             45

                                                               53

                                                                 64

                                                                   62


Z genetických modelů vyplývá, že pravděpodobnost výskytu žlutého semene by měla být 0,75 a zeleného
0,25. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že výsledky Mendelových pokusů se
shodují s modelem.


Řešení:

Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky.


                                  j


                                    n[j]


                                        p[j]


                                            np[j]


                                  1

                                    25

                                        0,75

                                            36.0,75=27

                                                         0,148148

                                  2

                                    32

                                        0,75

                                            39.0,75=29,25

                                                         0,258547

                                  10

                                    44

                                        0,75

                                            62.0,75=46,5

                                                         0,134409


K = 0,148148 + 0,258547 + ... + 0,134409 = 1,797495, r = 10, χ^2[0,95](9) = 16,9.

Protože 1,797495 < 16,9, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05.


Výpočet pomocí systému STATISTICA:

Vytvoříme datový soubor se třemi proměnnými Celkem, X a Y a 10 případy. Do proměnné Celkem zapíšeme
celkový počet žlutých a zelených semen, do X zapíšeme pozorované absolutní četnosti žlutých semen,
do proměnné Y vypočítané teoretické četnosti (v našem případě Celkem*0,75).

Statistiky – Neparametrická statistika – Pozorované vs. očekávané χ^2 – Proměnné Pozorované
četnosti X, Očekávané četnosti Y, OK – Výpočet.


Ve výstupní tabulce najdeme hodnotu testové statistiky (Chi-Kvadr. = 1,797495) a odpovídající
p-hodnotu, kterou porovnáme se zvolenou hladinou významnosti. V našem případě je p-hodnota 0,99428,
takže nulová hypotéza se nezamítá na asymptotické hladině významnosti 0,05.