5. Porovnání empirického a teoretického rozložení 5.1. Motivace: Možnost použití statistických testů je podmíněna nějakými předpoklady o datech. Velmi často je to předpoklad o typu rozložení, z něhož získaná data pocházejí. Mnoho testů je založeno na předpokladu normality. Opomíjení předpokladů o typu rozložení může v praxi vést i ke zcela zavádějícím výsledkům, proto je nutné věnovat tomuto problému patřičnou pozornost. 5.2. Popis Kolmogorovova – Smirnovova testu a jeho Lilieforsovy varianty Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z rozložení s distribuční funkcí Φ(x). Nechť je výběrová distribuční funkce. Testovou statistikou je statistika . Nulovou hypotézu zamítáme na hladině významnosti α, když D[n] ≥ D[n](α), kde D[n](α) je tabelovaná kritická hodnota. (Pro n ≥ 30 lze D[n](α) aproximovat výrazem .) Upozornění: Nulová hypotéza musí specifikovat distribuční funkci zcela přesně, včetně všech jejích případných parametrů. Např. K-S test lze použít pro testování hypotézy, že náhodný výběr X[1], ..., X[n] pochází z rozložení Rs(0,1), což se využívá při testování generátorů náhodných čísel. Lilieforsova modifikace Kolmogorovova – Smirnovova testu Nechť nulová hypotéza tvrdí, že náhodný výběr pochází z normálního rozložení, jehož parametry μ a σ^2 neznáme. Tyto parametry musíme odhadnout z dat. Tím se změní rozložení testové statistiky D[n]. V takovém případě jde o Lilieforsovu modifikaci Kolmogorovova – Smirnovova testu. Příslušné modifikované kvantily byly určeny pomocí simulačních studií. Poznámka ke K-S testu ve STATISTICE: Test normality poskytuje hodnotu testové statistiky (ozn. d) a dvě p-hodnoty. První se vztahuje k případu, kdy μ a σ^2 známe předem, druhá (ozn. Liliefors p) se vztahuje k případu, kdy μ a σ^2 neznáme. Objeví-li se ve výstupu p = n.s. (tj. non significant), pak hypotézu o normalitě nezamítáme na hladině významnosti 0,05. 5.3. Příklad: Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí Lilieforsovy varianty K- S testu ověřte na hladině významnosti 0,05, zda tato data pocházejí z normálního rozložení. Řešení: Odhadem střední hodnoty je výběrový průměr m = 11, odhadem rozptylu je výběrový rozptyl s^2 = 10. Uspořádaný náhodný výběr je (8, 9, 10, 12, 16). Vypočteme hodnoty výběrové distribuční funkce: Hodnoty teoretické distribuční funkce Ф[T](x) v bodech 8, 9, 10, 12, 16: (Ф je distribuční funkce rozložení N(0,1).) Rozdíly mezi výběrovou distribuční funkcí F[5](x) a teoretickou distribuční funkcí Ф[T](x): d[1] = 0,2 – 0,17106 = 0,02894; d[2] = 0,4 – 0,26435 = 0,13565; d[3] = 0,6 – 0,37448 = 0,22552; d[4] = 0,8 – 0,62552 = 0,17448; d[5] = 1 – 0,94295 = 0,05705. Testová statistika: D[5] = 0,22552, modifikovaná kritická hodnota pro n = 5, α = 0,05 je 0,343. Protože 0,22552 < 0,343, hypotézu o normalitě nezamítáme na hladině významnosti 0,05. 5.4. Popis Shapirova – Wilkova testu Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z rozložení N(μ, σ^2). Testová statistika má tvar: , kde m = n/2 pro n sudé a m = (n-1)/2 pro n liché. Koeficienty a[i]^(n) jsou tabelovány. Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými pozorováními a jim odpovídajícími kvantily standardizovaného normálního rozložení. V případě, že data vykazují perfektní shodu s normálním rozložením, bude mít W hodnotu 1. Hypotézu o normalitě tedy zamítneme na hladině významnosti α, když se na této hladině neprokáže korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1). Lze také říci, že S – W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné od regresní přímky proložené těmito body. (S-W test se používá především pro výběry menších rozsahů, n < 50, ale v systému STATISTICA je implementováno jeho rozšíření i na výběry velkých rozsahů, kolem 2000.) Výpočet pomocí systému STATISTICA: V sedmi náhodně vybraných prodejnách byly zjištěny následující ceny určitého druhu zboží (v Kč): 35, 29, 30, 33, 45, 33, 36. Rozhodněte pomocí Lilieforsovy varianty K-S testu a S-W testu na hladině významnosti 0,05, zda lze tyto ceny považovat za realizace náhodného výběru z normálního rozložení. Řešení: Otevřeme nový datový soubor o jedné proměnné a 7 případech. Do proměnné X jsou zapíšeme zjištěné ceny. Statistiky – Základní statistiky a tabulky – Tabulky četností - OK – Proměnné X, OK – Normalita – zaškrtneme Lilieforsův test a Shaphiro - Wilksův W test –Testy normality V tabulce je uvedena hodnota testové statistiky pro Lilieforsův test (d = 0,24029) a pro S-W test (W = 0,86866) a odpovídající p-hodnoty. Lilieforsovo p je počítáno na základě parametrů odhadnutých z dat. V našem případě p > 0,2 a pro S-W test p = 0,18068. Ani jeden z testů nezamítá nulovou hypotézu o normalitě. Výpočet doplníme normálním pravděpodobnostním grafem a kvantil – kvantilovým grafem: Graphs – 2D Graphs - Normal Probability Plots (resp. Quantile- Quantile plot)- Variables X – OK. N-P plot: Q-Q plot: 5.5. Poznámka: Další testy normality Existují testy normality založené na výběrové šikmosti a špičatosti. Pro náhodnou veličinu s normálním rozložením platí, že její šikmost i špičatost jsou nulové. Pro výběr z normálního rozložení by tedy výběrová šikmost a špičatost měly být blízké 0. Nechť X[1], …, X[n ]je náhodný výběr. Výběrová šikmost: Výběrová špičatost: Lze dokázat, že pro výběr z normálního rozložení platí: , , , . Pro n → ∞ se statistiky a asymptoticky řídí normálním rozložením. Test založený na šikmosti zamítne hypotézu o normalitě na asymptotické hladině významnosti α, když . D’Agostinův test: zavedeme pomocné veličiny Testová statistika má tvar a platí, že má přibližně rozložení N(0,1). Pro n>8 zamítáme hypotézu o normalitě pokud . Test založený na špičatosti zamítne hypotézu o normalitě na asymptotické hladině významnosti α, když . Také v tomto případě existuje D’Agostinova modifikace testu, nebudeme ji ale uvádět. Z dalších testů normality lze jmenovat např. Andersonův-Darlingův nebo Jarque-Beraův test. 5.6. Popis testu dobré shody v diskrétním a spojitém případě Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z rozložení s distribuční funkcí Φ(x). a) Je-li distribuční funkce spojitá, pak data rozdělíme do r třídicích intervalů , j = 1, ..., r. Zjistíme absolutní četnost n[j] j-tého třídicího intervalu a vypočteme pravděpodobnost p[j], že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat v j-tém třídicím intervalu. Platí-li nulová hypotéza, pak p[j] = Φ(u[j+1]) - Φ(u[j]). b) Má-li distribuční funkce nejvýše spočetně mnoho bodů nespojitosti, pak místo třídicích intervalů použijeme varianty x[[j]], j = 1, …, r. Pro variantu x[[j] ]zjistíme absolutní četnost n[j] a vypočteme pravděpodobnost p[j], že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat variantou x[[j]]. Platí-li nulová hypotéza, pak . Testová statistika: . Platí-li nulová hypotéza, pak K ≈ χ^2(r-1-p), kde p je počet odhadovaných parametrů daného rozložení. (Např. pro normální rozložení p = 2, protože z dat odhadujeme střední hodnotu a rozptyl.) Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když K ≥ χ^2[1-α](r-1-p). Aproximace se považuje za vyhovující, když tzv. teoretické četnosti np[j] ≥ 5, j = 1, ..., r. Upozornění: Hodnota testové statistiky K je silně závislá na volbě třídicích intervalů. Navíc při nesplnění podmínky np[j] ≥ 5, j = 1, ..., r je třeba některé intervaly resp. varianty slučovat, což vede ke ztrátě informace. 5.7. Příklad (test dobré shody pro diskrétní rozložení): Byl zjišťován počet poruch určitého zařízení za 100 hodin provozu ve 150 disjunktních 100 h intervalech. Výsledky měření: Počet poruch za 100 hodin provozu 0 1 2 3 4 a víc Absolutní četnost 52 48 36 10 4 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že náhodný výběr X[1], ..., X[150] pochází z rozložení Po(1,2). Řešení: Pravděpodobnost, že náhodná veličina s rozložením Po(λ), kde λ = 1,2 bude nabývat hodnot p[0], ..., p[4] a víc je . Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j n[j] p[j] np[j] 0 52 0,301 150.0,301=45,15 1,039 1 48 0,361 150.0,361=54,15 0,698 2 36 0,217 150.0,217=32,55 0,366 3 10 0,087 150.0,087=13,05 0,713 4 4 0,034 150.0,034=5,1 0,237 K = 1,039 + 0,698 + 0,713 + 0,237 = 3,053, r = 5, χ^2[0,95](4) = 9,488. Protože 3,053 < 9,488, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor o dvou proměnných (POČET a ČETNOST) a pěti případech a zapíšeme do něj hodnoty 0 1 2 3 4 a 52 48 36 10 4. Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POČET – Proměnná vah ČETNOST – Stav zapnuto – OK – Parametry Lambda 1,2, OK. Ve výstupní tabulce je uvedena hodnota testového kritéria (3,03371) a odpovídající p-hodnota (0,38646). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. (Podmínky dobré aproximace jsou splněny, všechny teoretické četnosti - uvedené ve sloupci Očekávané četnosti – jsou větší než 5.) Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. 5.8. Příklad (test dobré shody pro spojité rozložení): Byl pořízen náhodný výběr rozsahu n = 100. Jeho číselné realizace byly roztříděny do 5 ekvidistantních třídicích intervalů o délce 0,04, přičemž dolní mez prvního třídicího intervalu je 3,92. Absolutní četnosti jednotlivých třídicích intervalů jsou: 11, 20, 44, 19, 6. Výběrový průměr se realizoval hodnotou m = 4,02 a výběrová směrodatná odchylka hodnotou s = 0,04. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že náhodný výběr pochází z normálního rozložení. Řešení: Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. Přitom symbolem Ф značíme distribuční funkci rozložení N(μ,σ^2), kde μ = 4,02 a σ = 0,04. n[j] p[j]=Ф(u[j+1])- Ф(u[j]) np[j] (n[j] – np[j])^2 [] 11 0,060598 6,0598 24,4060 4,0276 20 0,241730 24,1730 17,4142 0,7204 44 0,382925 38,2925 32,5756 0,8507 19 0,241730 24,1730 26,7608 1,1070 6 0,060598 6,0598 0,0036 0,0006 K = 4,0276 + 0,7204 + 0,8507 + 1,1070 + 0,0006 = 6,7063 Kritický obor: Protože testová statistika se realizuje v kritickém oboru, hypotézu o normalitě zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Protože nemáme k dispozici původní data, ale jenom třídicí intervaly a jejich četnosti, do nového datového souboru o dvou proměnných xj a nj zadáme středy třídicích intervalů a jejich absolutní četnosti: Statistiky – Prokládání rozdělení – ponecháme implicitní nastavení pro Normální rozdělení – OK – Proměnná xj – klikneme na ikonu se závažím – Proměnná vah nj – Stav Zapnuto – OK – Parametry – Počet kategorií 5, Průměr 4,02, Rozptyl 0,0016, OK. Dostaneme výstupní tabulku: V záhlaví výstupní tabulky je uvedena hodnota testového kritéria (5,54004), počet stupňů volnosti = 2 a p-hodnota (0,06266). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Rozdíl oproti ručnímu výpočtu je způsoben tím, že systém STATISTICA uvažuje první interval a poslední interval . Pro vytvoření grafu se vrátíme do Proložení spojitých rozdělení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. 5.9. Poznámka: Test dobré shody může být použit i v těch případech, kdy rozložení, z něhož daný náhodný výběr pochází, neodpovídá nějakému známému rozložení (např. exponenciálnímu, normálnímu, Poissonovu, ...), ale je určeno intuitivně nebo na základě zkušenosti. 5.10. Příklad: Ve svých pokusech pozoroval J.G. Mendel 10 rostlin hrachu a na každé z nich počet žlutých a zelených semen. Výsledky pokusu: č.rostliny 1 2 3 4 5 6 7 8 9 10 počet žlutých semen 25 32 14 70 24 20 32 44 50 44 počet zelených semen 11 7 5 27 13 6 13 9 14 18 celkem 36 39 19 97 37 26 45 53 64 62 Z genetických modelů vyplývá, že pravděpodobnost výskytu žlutého semene by měla být 0,75 a zeleného 0,25. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že výsledky Mendelových pokusů se shodují s modelem. Řešení: Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j n[j] p[j] np[j] 1 25 0,75 36.0,75=27 0,148148 2 32 0,75 39.0,75=29,25 0,258547 10 44 0,75 62.0,75=46,5 0,134409 K = 0,148148 + 0,258547 + ... + 0,134409 = 1,797495, r = 10, χ^2[0,95](9) = 16,9. Protože 1,797495 < 16,9, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor se třemi proměnnými Celkem, X a Y a 10 případy. Do proměnné Celkem zapíšeme celkový počet žlutých a zelených semen, do X zapíšeme pozorované absolutní četnosti žlutých semen, do proměnné Y vypočítané teoretické četnosti (v našem případě Celkem*0,75). Statistiky – Neparametrická statistika – Pozorované vs. očekávané χ^2 – Proměnné Pozorované četnosti X, Očekávané četnosti Y, OK – Výpočet. Ve výstupní tabulce najdeme hodnotu testové statistiky (Chi-Kvadr. = 1,797495) a odpovídající p-hodnotu, kterou porovnáme se zvolenou hladinou významnosti. V našem případě je p-hodnota 0,99428, takže nulová hypotéza se nezamítá na asymptotické hladině významnosti 0,05.