Téma 6.: Ověřování normality dat, výběry z alternativního rozložení Kolmogorovův – Smirnovův test normality dat Testujeme nulovou hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z normálního rozložení s parametry μ a σ^2. Distribuční funkci tohoto rozložení označme Φ[T] (x). Nechť F[n](x) je výběrová distribuční funkce. Testovou statistikou je statistika . Nulovou hypotézu zamítáme na hladině významnosti α, když D[n] ≥ D[n](α), kde D[n](α) je tabelovaná kritická hodnota. V případě, že neznáme parametry μ a σ^2 normálního rozložení (což je nejčastější případ), změní se rozložení testové statistiky D[n]. V takovém případě jde o Lilieforsovu modifikaci Kolmogorovova – Smirnovova testu. Příslušné modifikované kvantily byly určeny pomocí simulačních studií. Poznámka ke K-S testu ve STATISTICE Test normality poskytuje hodnotu testové statistiky (ozn. max D) a dvě p-hodnoty. (p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace x[1], ..., x[n] náhodného výběru X[1], ..., X[n] podporují nulovou hypotézu, je-li pravdivá. P-hodnotu porovnáváme s námi zvolenou hladinou významnosti α. Jestliže p-hodnota ≤ α, pak H[0] zamítáme na hladině významnosti α, je-li p-hodnota > α, pak H[0] nezamítáme na hladině významnosti α.) První p-hodnota se vztahuje k případu, kdy střední hodnotu μ a rozptyl σ^2 známe předem, druhá (ozn. Lilieforsovo p) se vztahuje k případu, kdy μ a σ^2 neznáme. Objeví-li se ve výstupu p = n.s. (tj. non significant), pak hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Shapirův – Wilkův test normality dat Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z rozložení N(μ, σ^2). Test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné od regresní přímky proložené těmito body. (S-W test se používá především pro výběry menších rozsahů, n < 50, ale nyní již existuje modifikace pro velká n. V systému STATISTICA je implementováno rozšíření na n kolem 5000.) Test dobré shody pro normální rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X[1], ..., X[n] pochází z normálního rozložení s distribuční funkcí Φ(x). * Data rozdělíme do r třídicích intervalů , j = 1, ..., r. * Zjistíme absolutní četnost n[j] j-tého třídicího intervalu. * Vypočteme pravděpodobnost p[j], že náhodná veličina X s distribuční funkcí Φ(x) se bude realizovat v j-tém třídicím intervalu. Platí-li nulová hypotéza, pak p[j] = Φ(u[j+1]) - Φ(u[j]). * Vypočteme testovou statistiku: . Platí-li nulová hypotéza, pak K ≈ χ^2(r-1-k), kde k je počet odhadovaných parametrů normálního rozložení. (Obvykle z dat z dat odhadujeme střední hodnotu i rozptyl, tedy k = 2.) * Stanovíme kritický obor * Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když . (Aproximace se považuje za vyhovující, když np[j] ≥ 5, j = 1, ..., r.) Upozornění: Hodnota testové statistiky K je silně závislá na volbě třídicích intervalů. Navíc při nesplnění podmínky np[j] ≥ 5, j = 1, ..., r je třeba některé intervaly slučovat, což vede ke ztrátě informace. Úkol : U 45 studentek VŠE v Praze byla zjišťována výška a obor studia (1 – národní hospodářství, 2 – informatika). Hodnoty jsou uloženy v souboru vyska.sta. Pomocí Lilieforsovy modifikace K-S testu, pomocí S-W testu a pomocí testu dobré shody testujte na hladině významnosti 0,05 hypotézu, že data pocházejí z normálního rozložení. Pomocí N-P grafu posuďte vizuálně předpoklad normality. Návod: 1. způsob provedení Lilieforsova a S-W testu: Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK – Normalita – zaškrtneme Lilieforsův test a S-W test – Testy normality. Výstupní tabulka obsahuje počet pozorování, hodnotu testové statistiky Lilieforsovy modifikace K-S testu (max D = 0,155621), p-hodnotu (p < 0,01), testovou statistiku S-W testu (W = 0,965996) a odpovídající p-hodnotu (p = 0,176031). Vidíme, že Lilieforsův test zamítá hypotézu o normalitě na hladině významnosti 0,05, zatímco S-W test nikoli. 2. způsob provedení Lilieforsova a S-W testu: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Normalita – zaškrtneme K-S test & Lilieforsův test a S-W test – Tabulky četností (nebo Histogram). V tomto případě dostaneme v záhlaví tabulky či histogramu stejné informace jako pomocí předešlého způsobu. 1. způsob provedení testu dobré shody: Statistiky - Prokládání rozdělení – ponecháme implicitní nastavení na normální rozložení – OK – Proměnná X – OK – na záložce Parametry změníme Počet kategorií na 7 (podle Sturgesova pravidla) – Výpočet. Při tomto roztřídění dat do 7 intervalů nejsou splněny podmínky dobré aproximace, ve třech intervalech jsou teoretické četnosti pod 5. Změníme tedy dolní mez na 159 a horní na 178. V tomto případě jsou podmínky dobré aproximace splněny. Testová statistika se realizuje hodnotou 3,85268, p-hodnota je 0,42631, tedy na asymptotické hladině významnosti 0,05 hypotézu o normalitě nezamítáme. Podívejme se ještě na histogram s proloženou Gaussovou křivkou: Na záložce Základní výsledky zvolíme Graf pozorovaného a očekávaného rozdělení. Je nutné upozornit,že při jiné volbě třídicích intervalů můžeme dostat zcela odlišné výsledky – vyzkoušejte sami. 2. způsob provedení testu dobré shody: ukážeme na jiném příkladu. Byl pořízen náhodný výběr rozsahu n = 100. Jeho číselné realizace byly roztříděny do 5 ekvidistantních třídicích intervalů o délce 0,04, přičemž dolní mez prvního třídicího intervalu je 3,92. Absolutní četnosti jednotlivých třídicích intervalů jsou: 11, 20, 44, 19, 6. Výběrový průměr se realizoval hodnotou m = 4,02 a výběrová směrodatná odchylka hodnotou s = 0,04. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že náhodný výběr pochází z normálního rozložení. Návod: Vytvoříme nový datový soubor o čtyřech proměnných X[1], X[2], nj, npj a pěti případech. Do proměnné X[1] napíšeme dolní meze třídicích intervalů (tj. 3,92 3,96 4 4,04 4,08), do proměnné X[2] napíšeme horní meze třídicích intervalů (tj. 3,96 4 4,04 4,08 4,12), do proměnné nj napíšeme pozorované četnosti (tj. 11 20 44 19 6) a konečně do proměnné npj uložíme teoretické četnosti tak, že do Dlouhého jména této proměnné napíšeme =100*(INormal(X2;4,02;0,04)-INormal(X1;4,02;0,04)) Statistiky – Neparametrická statistika – Pozorované vs. očekávané χ2 – OK – Proměnné – Pozorované četnosti nj, očekávané četnosti npj – OK – Výpočet. Testová statistika K se realizuje hodnotou 6,706286, avšak zde je uveden počet stupňů volnosti 4, což není v pořádku, neboť r-k-1 = 5 – 2 – 1 = 2. Odpovídající asymptotická p-hodnota není tedy spočtena správně. Otevřeme nový datový soubor o jedné proměnné a jednom případu a do jejího Dlouhého jména napíšeme =2*min(IChi2(6,706286;2);1-IChi2(6,706286;2)) Dostaneme p-hodnotu 0,069949, tedy na asymptotické hladině významnosti 0,05 hypotézu o normalitě nezamítáme. Vykreslení N-P plotu pro data o výšce studentek: Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnná X – odškrtneme Neurčovat průměrnou pozici svázaných pozorování, zaškrtneme S-W test – OK Body se vyskytují v celkem těsné blízkosti přímky, lze je tedy považovat za realizace náhodného výběru z normálního rozložení. Upozornění: K-S test a S-W test lze provést i při kreslení histogramu. Při vytváření histogramu zaškrtneme na záložce Detaily K-S test a S-W test. Samostatný úkol: Testy normality a grafické ověření normality proveďte jak pro výšky studentek oboru národní hospodářství, tak pro výška studentek oboru informatiky. Pro kontrolu: Výsledky pro obor národní hospodářství: Vidíme, že Lilieforsova varianta K-S testu zamítá hypotézu o normalitě na hladině významnosti 0,05 (p-hodnota je menší než 0,05), zatímco S-W test hypotézu o normalitě nezamítá (p-hodnota je větší než 0,05). Výsledky pro obor informatika: V tomto případě ani jeden z testů hypotézu o normalitě nezamítá na hladině významnosti 0,05. Upozornění: V archivu závěrečných prací https://is.muni.cz/auth/th/77721/prif_m/ je uložena diplomová práce Dominika Grůzy „Ověřování normality“. Úlohy o výběrech z alternativního rozložení Úkol 1.: Vlastnosti výběrového průměru z alternativního rozložení Mezi americkými voliči 60% osob volí republikány a 40% demokraty. Jaká je pravděpodobnost, že v náhodném výběru 100 amerických voličů budou voliči republikánů v menšině? Výpočet proveďte jak přesně, tak pomocí aproximace normálním rozložením. Návod: X[1], ..., X[100] je náhodný výběr z A(0,6), X[i] = 1, když i-tá osoba volí republikány, X[i] = 0 jinak, i = 1, ..., 100. Zavedeme statistiku Y[100] = X[1] + ... + X[100], Y[100] ~ Bi(100; 0,6) (viz skripta Teorie pravděpodobnosti a matematická statistika, sbírka příkladů, příklad 8.10.), E(Y[100]) = = 100.0,6 = 60 , Označme Φ[100](y) distribuční funkci náhodné veličiny Y[100], . Přesný výpočet: P(Y[100] < 50) = P(Y[100 ]≤ 49) = Φ[100](49) = 0,016761686. Vytvoříme datový soubor o jedné proměnné a o jednom případu. Do Dlouhého jména této proměnné napíšeme =IBinom(49;0,6;100). Funkce IBinom(x;p;n) počítá hodnotu distribuční funkce rozložení Bi(n,p) v bodě x. Přibližný výpočet: užijeme důsledek Moivreovy - Laplaceovy integrální věty (viz skripta Základní statistické metody, věta 6.3.1.1.). Nejdříve ověříme splnění podmínky dobré aproximace n (1- ) = 100.0,6.0,4 = 24 > 9. Podmínka je splněna. P(Y[100] < 50) = P(Y[100]≤49) Φ(49), kde Φ(49) je hodnota distribuční funkce rozložení N(60; 24) v bodě 80. Vytvoříme datový soubor o jedné proměnné a o jednom případu. Do Dlouhého jména této proměnné napíšeme =INormal(49;60;sqrt(24)). Zjistíme, že Φ(49) = 0,012372. Přesný výpočet Aproximativní výpočet Úkol 2.: Asymptotický interval spolehlivosti pro parametr alternativního rozložení Může politická strana, pro niž se v předvolebním průzkumu vyslovilo 60 z 1000 dotázaných osob, očekávat se spolehlivostí aspoň 0,95, že by v této době ve volbách překročila 5% hranici pro vstup do parlamentu? Návod: Zavedeme náhodné veličiny X[1], ..., X[1000], přičemž X[i] = 1, když i-tá osoba se vysloví pro danou politickou stranu a X[i] = 0 jinak, i = 1, ..., 1000. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A( ). V tomto případě n = 1000, m = 60/1000 = 0,06, α = 0,05, u[1-α] = u[0,95] = 1,645. Ověření podmínky n (1- ) > 9: parametr neznáme, musíme ho nahradit výběrovým průměrem. Pak 1000.0,06.0,94 = 56,4 > 9. 95% levostranný interval spolehlivosti pro je (viz skripta Základní statistické metody, důsledek 6.3.2.2.) Vytvoříme datový soubor o jedné proměnné a o jednom případu. Do Dlouhého jména této proměnné napíšeme =0,06-sqrt(0,06*0,94/1000)*VNormal(0,95;0;1). Vyjde 0,047647. S pravděpodobností přibližně 0,95 tedy > 0,03. Protože tento interval zahrnuje i hodnoty nižší než 0,05, nelze vyloučit, že strana získá méně než 5% hlasů. Úkol 3: Testování hypotézy o parametru alternativního rozložení Určitá cestovní kancelář organizuje zahraniční zájezdy podle individuálních přání zákazníků. Z několika minulých let ví, že 30% všech takto organizovaných zájezdů má za cíl zemi X. Po zhoršení politických podmínek v této zemi se cestovní kancelář obává, že se zájem o tuto zemi mezi zákazníky sníží. Ze 150 náhodně vybraných zákazníků v tomto roce má 38 za cíl právě zemi X. Potvrzují nejnovější data pokles zájmu o tuto zemi? Volte hladinu významnosti 0,05. Návod: Máme náhodný výběr X[1], ..., X[150] z rozložení A(0,3). Testujeme H[0]: = 0,3 proti levostranné alternativě H[1]: < 0,3. V tomto případě je testovým kritériem statistika , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1) (viz skripta Základní statistické metody, věta 6.3.3.1.). Musíme ověřit splnění podmínky n (1- ) > 9: 150.0,3.0,7 = 31,5 > 9. Vypočteme realizaci testového kritéria: . Kritický obor: = . Protože testové kritérium nepatří do kritického oboru, H[0] nezamítáme na asymptotické hladině významnosti 0,05. S rizikem omylu nejvýše 5% tedy naše data neprokázala pokles zájmu zákazníků cestovní kanceláře o zemi X. Vytvoříme datový soubor o dvou proměnných a jednom případu. Vypočteme realizaci testového kritéria tak, že do Dlouhého jména první proměnné zapíšeme odpovídající vzorec, tj. =(38/150-0,3)/sqrt(0,3*0,7/150). Do Dlouhého jména druhé proměnné napíšeme =VNormal(0,95;0;1), čímž získáme kvantil u[0,95] a testové kritérium porovnáme s opačnou hodnotou tohoto kvantilu. Protože testové kritérium není menší než opačná hodnota příslušného kvantilu, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05.