Ověřování normálního rozdělení Marika Dienová Seminář Vybrané partie z aplikované matematiky Ustav matematiky a statistiky Janáčkovo nám. 2a Brno 27.3.2008 Osnova • Testy dobré shody • Test pomocí výběrové šikmosti • Test pomocí výběrové špičatosti • Posouzení normality graficky • Kolmogorovův-Smirnovův test • Shapirův-Wilkův test Testy dobré shody Nechť Xi, ...,Xn je náhodný výběr. Testujeme hypotézu Hq^ že se jedná o výběr z N (p, a2] • Vytvoříme k > 4 třídících intervalů (—00, 61), [61, 62), • • •, [&fc-i, 00), které označíme Jj, i = 1,..., k. Pravděpodobnost pi, že daná veličina padne do J i je rovna: (x-ß)2 p i = J j f(x)dx kde /(x 2tT<7 exp 2a< • Parametry /i a a odhadneme metodou minimálního x2-Po úpravě dostaneme soustavu: 11 = — y —- / xf(x)dx 71 tí Pi Jji 1 *Aj n a - V— / (x- pýf(x)dx Řešení označme /x a a Testy dobré shody • Testovací statistika má tvar: 2 = y^ [Xi - np^p^a)}2 • Pokud x2 > XÍ-3(a)i zamítneme na hladině významnosti a hypotézu Hq. • Hodnota testovací statistiky je silně závislá na volbě třídících intervalů. Navíc při nesplnění podmínky npi > 5 je třeba některé intervaly slučovat, což ovšem vede ke ztrátě informace. • Test je silný pouze v případě velkého poctu dat n > 50. Výběrová šikmost a špičatost Výběrová šikmost 3 \ĽnUXi-xyf Výběrová špičatost 4 \T.Ux;-xfY (S Za předpokladu, že výběr pochází z normálního rozdělení, má šikmost i špičatost asymptoticky normální rozdělení s parametry: 6ín-S n + l)(n + 3 E(a3) = 0 D(a3 6 , 24nín--2)ín--3 hj(a^) = 6 —---------- D(a^ n + l) [n + 1V n + 3 n + 5 Testování pomocí výběrové šikmosti • Testujeme nulovou hypotézu o normalitě výběru oproti alternativě, že výběr pochází z nějakého nesymetrického rozdělení. • Protože šikmost normálního rozdělení je rovna nule, měla by být veličina a3 blízká této hodnotě. • Testovací statistika má tvar: a3 ^3 = r-r— (4 • Jestliže n > 200, lze využít asymptotické normality. Pokud \K%\ > u{^}. zamítáme nulovou hypotézu. • Tento test však vyjde neprukazně, pokud se data liší od normality v něčem jiném, než je šikmost. Testování pomocí výběrové šikmosti Vylepšený postup (D'Agostino 3(n2 + 27n-70)(n + l)(n + 3 n 2)(n + 5)(n + 7)(n + 9 1 ô ViiiW a W2 = ^2{b - 1) - 1 2 W2-l K, + K, + 1 Z3 = 5 ln La v v a Veličina Z% má přibližně rozdělení JV(0,1). Pokud bude |Z3| > w(f), zamítneme nulovou hypotézu Tato aproximace může být použita už pro n > 8 Testování pomocí výběrové špičatosti • Protože špičatost normálního rozdělení je rovna 3, měla by být veličina a 4 blízká této hodnotě. • Testovací statistika má tvar: Ö.4 — _C/(řZ4 • Jestliže n > 500, lze využít asymptotické normality. Pokud \K^\ > u(^r zamítáme nulovou hypotézu. • Tento test však vyjde neprukazně, pokud se data liší od normality v něčem jiném, než je špičatost. Testování pomocí výběrové špičatosti Vylepšený postup (D'Agostino ±± 9A VWÄ Veličina Z^ má přibližně rozdělení ÍV(051 Pokud bude \Z±\ > w(f), zamítneme nulovou hypotézu. Tato aproximace může být použita už pro n > 20 6(n2 - 5n + 2) /6(n + 3)(n + 5) 8_/^ / _4_ 'n + 7)(n + 9)Vn(n-2)(n-3) ' B\B V + # Test kombinace šikmosti a špičatosti • Tento test je založen na veličině K\ + K\. Hypotézu o normalitě zamítáme, pokud K\ + K\ > xK®)- Tento postup se ovšem doporučuje pouze pro výběry o rozsahu n > 200. • Pro n > 20 můžeme použít test založený na Z\ + Z\. Hypotézu o normalitě zamítáme, pokud Z\ + Z\ > xK®)- Normal probability plot (N-P plot) • N-P plot se konstruuje tak, že na vodorovnou osu nanášíme uspořádané hodnoty x^ < • • • < %((z(j)), F(z^)) řadí kolem hlavní diagonály čtverce (0,1) x (0,1), lze usuzovat na dobrou shodu empirického a teoretického rozložení. • Pokud jsou některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající dané skupině. Kolmogorovův-Smirnovův test (K-S test) • K-S test testuje nulovou hypotézu Ho říkající, že výběr Xi,..., Xn pochází z rozdělení s distribuční funkcí 3>(ar). • Nechť Fn(x) je výběrová distribuční funkci. • Testovací statistika: Dn = sup_00<;r<00 \Fn(x) — $(x)\ • V případě, že Dn > Dn(a), zamítneme nulovou hypotézu na hladině významnosti a, kde Dn(a) je tabelovaná kritická hodnota. • Pro n > 30 lze Dn(a) aproximovat výrazem /~í 2 Dn{®) ~ \/ —ln- • Nulová hypotéza ovšem musí specifikovat distribuční funkci zcela přesně, včetně všech jejích případných parametrů. Shapirův-Wilkův test normality (S-W test) • S-W test testuje hypotézu, že náhodný výběr X\,..., Xn pochází z normálního rozdělení s parametry (/i, a2). • Test je založen na základě zjištění, zda body Q-Q grafu se významně odlišují od regresní přímky proložené těmito body. • Používá se především pro n < 50. • Testovací statistika má tvar: w = Eľ=i WW? Z-^i=l\Xi ~ X) kde koeficienty ai byly speciálně odvozeny pro tento test a jsou tabelovany (např. v ČSN 010225) Reference [1] Jiří Anděl: Základy matematické statistiky,1. vydání. Praha : MATFY-ZPRESS, 2005. [2] Jiří Anděl: Matematická statistika, 2. vyd. Praha : SNTL - Nakladatelství technické literatury, 1985 [3] Budíková, Marie - Lerch, Tomáš - Mikoláš, Štěpán: Základni statistické metody, 1. vyd. Brno: Masarykova univerzita, 2005. [4] Dominik Grůza: Ověřování normality, Diplomová práce, Brno 2007