6 Testy o normalitě dat • Normalita = nepostradatelný předpoklad parametrických testů (jednovýběrových, párových, dvouvýb., ...) • Stanovení hypotéz: — Hq: Data pochází z normálního rozdělení. — Hi : Data nepochází z normálního rozdělení. • Testy normality: — Shairo-Wilkův test: shapiro.test() — Lillie-Forsův test: lillie.test() [nortest] — Anderson-Darlingův test: ad.test() [nortest] • výstup testů = p-hodnota: p > a —> Hq nezamítáme; p < a —> Hq zamítáme • Grafické ověření normality: — histogram + křivka hustoty normálního rozdělení — Q-Q plot qqnorm() a qqline() Příklad 6.1. Test o normalitě dat Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Mějme náhodnou veličinu X popisující největší šířku mozkovny u skeletů mužského pohlaví. Na hladině významnosti a = 0.05 testujte hypotézu, že náhodný výběr naměřených hodnot největší šířky mozkovny u skeletů mužského pohlaví pochází z normálního rozdělení. Řešení příkladu 6.1 Nejprve stanovíme nulovou a alternativní hypotézu. • Hq : Data...................................... z normálního rozdělení. • Hi : Data...................................... z normálního rozdělení. Hladina významnosti a =................ Nyní zjistíme rozsah náhodného výběru. [i] 216 1 Protože náhodný výběr naměřených hodnot největší šířky mozkovny u skeletů mužského pohlaví má rozsah............., což je..................................než 30, použijeme na testování hypotézy o normalitě dat ....................................... test. [1] 0.07662229 2 P-hodnota vyšla ............................................ Protože p-hodnota .................. a, Hq ............................................. na hladině významnosti a = 0.05. Data............................................. z normálního rozdělení. Příklad 6.2. Grafická vizualizace normality dat V příkladu 6.1 jsme na základě testování stanovili, že naměřené hodnoty největší šířky mozkovny u skeletů mužského pohlaví............................z normálního rozdělení. Závěr stanovený v příkladu 6.1 podpořte grafickou vizualizací. Řešení příkladu 6.2 150 0.08 g 0.06 E 0.04 > 2 0.02 0.00 124.5 130.5 136.5 142.5 148.5 -3 -2 -1 0 2 3 nejvetsi sirka mozkovny (mm) - muzi teoretický kvantu 1 48232323538923232353534848482323 7 Jednovýběrové testy o střední hodnotě, rozptylu a směrodatné odchylce Prolog: Z archivních materiálů (Schmidt, 1888; 01-one-sample-mean-skull-mf.txt) máme k dispozici původní kraniome-trické údaje o délce a šířce mozkovny ze starověké egytské populace. Současně máme k dispozici průměrné hodnoty obou rozměrů, hodnoty směrodatné odchylky a počty případů ze vzorku novověké egyptské populace (délka mozkovny: xm = 177.568 mm, x f = 171.962 mm, sm = 7.526 mm, Sf = 5.361 mm, nm = 88, rif = 52; a šířka mozkovny: xm = 136.402 mm, x f = 131.038 mm, sm = 6.411 mm, s f = 5.361 mm, nm = 87, rif = 52). Příklad 7.1. Jednovýběrový test o střední hodnotě Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Na hladině významnosti a = 0.05 otestujte nulovou hypotézu o shodě střední hodnoty šířky mozkovny starověké egyptské mužské populace se střední hodnotou šířky mozkovny novověké egyptské mužské populace 136.402 mm. Řešení příkladu 7.1 Nejprve stanovíme nulovou a alternativní hypotézu. • //• : ....................................... • Hi : ...................................... (.................................................. alternativa). • Hladina významnosti a = ................ • Test o .............................. když .............................. známe / neznáme. Nutným předpokladem umožňujícím použití parametického testu na otestování nulové hypotézy je normalita naměřených hodnot. Tu jsme ověřili v rámci příkladu 6.1, kde jsme na hladině významnosti a = 0.05 nezamítli nulovou hypotézu o normálním rozdělení největší šířky mozkovny u skeletů mužského pohlaví. a) Testování pomocí kritického oboru [1] 2.385757 [1] -1.971059 [1] 1.971059 Kritický obor má tvar...........................................Protože.............................., Hq..................................na hladině významnosti a =.............................. b) Test pomocí intervalu spolehlivosti Proti .................................... alternativě postavíme....................................IS. [1] 136.5381 [1] 137.8322 Interval spolehlivosti má tvar...........................................Protože.............................., Hq hladině významnosti a =.............................. c) Test pomocí p-hodnoty [1] 0.01791157 p-hodnota vyšla.........................Protože p-hodnota....................., Hq..................................na hladině významnosti a =.............................. Interpretace výsledků: Mezi největší šířkou mozkovny u mužů starověké egyptské populace a u mužů novověké egyptské populace existuje / neexistuje statisticky významný rozdíl. 2 150 145 140 - o E ro 135 S> 130 125 • staroveká pop. • novoveká pop. Příklad 7.2. Jednovýběrový test o rozptylu Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Na hladině významnosti a = 0.1 otestujte nulovou hypotézu o vyšším rozptylu šířky mozkovny starověké egyptské mužské populace vzhledem k rozptylu šířky mozkovny novověké egyptské mužské populace (sm = 6.411 mm). Řešení příkladu 7.2 Nejprve stanovíme nulovou a alternativní hypotézu. • //• : ....................................... • Hi : ...................................... (.................................................. alternativa). • Hladina významnosti a = ................ • Test o .............................. když .............................. známe / neznáme. Nutným předpokladem umožňujícím použití parametického testu na otestování Hq je......................................naměřených hodnot. Tu jsme ověřili v rámci příkladu 6.1, kde jsme na hladině významnosti a = 0.05 nezamítli nulovou hypotézu o normálním rozdělení největší šířky mozkovny u skeletů mužského pohlaví. a) Testování pomocí kritického oboru [1] 121.7635 [1] 188.8901 10 Kritický obor má tvar...........................................Protože.............................., Hq..................................na hladině významnosti a =.............................. b) Test pomocí intervalu spolehlivosti Proti .................................... alternativě postavíme....................................IS. [1] 26.49473 11 Interval spolehlivosti má tvar...........................................Protože.............................., Hq. hladině významnosti a =.............................. c) Test pomocí p-hodnoty [1] 4.350332e-08 12 p-hodnota vyšla ......................... Protože p-hodnota ....................., Hq .................................. na hladině významnosti a =.............................. Interpretace výsledků: Rozptyl největší šířky mozkovny u starověké egyptské mužské populace je statisticky významně......................... než rozptyl největší šířky mozkovny u novověké egyptské mužské populace. 3 Příklad 7.3. Jednovýběrový test o směrodatné odchylce Načtěte datový soubor 01-one-sample-mean-skull-mf.txt a odstraňte z načtených dat NA hodnoty. Na hladině významnosti a = 0.1 otestujte, zdaje směrodatná odchylka nej větší šířky mozkovny starověké egyptské mužské populace statisticky významně nižší než směrodatná odchylka šířky mozkovny novověké egyptské mužské populace (sm = 6.411 mm). Řešení příkladu 7.3 Nejprve stanovíme nulovou a alternativní hypotézu. • //• : ...................................... -> ....................................... • Hi : ...................................... —> ...................................... (.................................................. alternativa). • Hladina významnosti a = ................ • Test o .............................. když .............................. známe / neznáme. Nutným předpokladem umožňujícím použití parametického testu na otestování Hq je......................................naměřených hodnot. Tu jsme ověřili v rámci příkladu 6.1, kde jsme na hladině významnosti a = 0.05 nezamítli nulovou hypotézu o normálním rozdělení největší šířky mozkovny u skeletů mužského pohlaví. Protože jsme test o směrodatné odchylce převedli na test o rozptylu, postupovali bychom nyní úplně stejně jako v příkladu 7.2. Interpretace výsledků: Směrodatná odchylka největší šířky mozkovny u starověké egyptské mužské populace je / není statisticky významně nižší než směrodatná odchylka největší šířky mozkovny u novověké egyptské mužské populace. 4