8 Jednovýběrové parametrické testy Dataset: ll-two-samples-means-skull.txt Datový soubor ll-two-samples-means-skull.txt obsahuje původní kraniometrické údaje o basion-bregmatické výšce lebky u 215 dospělých mužů a 107 dospělých žen ze starověké egyptské populace. Data pochází z archivních materiálů (Schmitd, 1888). Popis proměnných v datasetu: • id ... pořadové číslo; • pop ... populace (egant - egyptská starověká); • sex ... pohlaví jedince (m - muž, f - žena); • upface.H ... basion-bregmatická výška lebky (v mm). Příklad 8.1. Test o rozptylu Mějme datový soubor ll-two-samples-means-skull.txt a proměnnou skuli.H popisující basion-bregmatickou výšku lebky. Na hladině významnosti a = 0.10 testujte hypotézu o vyšším rozptylu basion-bregmatické výšky lebky starověké egyptské mužské populace vzhledem k rozptylu basion-bregmatické výšky lebky novověké egyptské mužské populace (sm = 5.171 mm). Řešení příkladu 8.1 n mm max 1 215 119 146 Náhodný výběr obsahuje údaje o basion-bregmatické výšce lebky ................. mužů starověké egyptské populace. Naměřené hodnoty se pohybují v rozmezí................-................mm. Ze zadání máme za úkol porovnat rozptyl náhodného výběru s konstantou, použijeme tedy test o střední hodnotě / test o rozptylu / párový test / test o pravděpodobnosti. Primárně bychom chtěli použít parametrický test. Nutným předpokladem k použití parametrického testu je normalita naměřených hodnot. Tu jsme ověřili na minulém cvičení v rámci příkladu 7.1, kde jsme došli k závěru, že náhodný výběr basion-bregmatických výšek lebky mužů starověké egyptské populace pochází z normálního rozdělení (Lillieforsův test: hladina významnosti a = 0.05). Test o rozptylu • //• : ....................................... • Hi : ...................................... (.................................................. alternativa). • Hladina významnosti a = ................ • Test o ...................................... Chi-Squared Te st on Variance data: skull.HM Chi-Squared = 187.13, df = 214, p-value = 0.0926 alt ernat ive hypothe sis : true variance is less than 26.73924 90 percent confidence interval: 0.00000 26.62247 sample estimates: vari ance 23.382 3 4 5 6 7 8 9 10 11 12 13 q 14 1 187.9521 15 1 a) Test kritickým oborem Hodnota testovací statistiky fw = ..................., kritický obor W má tvar ........................................... Protože .............................., Hq .............................. na hladině významnosti a = .................... b) Test intervalem spolehlivosti Interval spolehlivosti má tvar ........................................... Protože .............................., Hq .............................. na hladině významnosti a = .................... c) Test p-hodnotou Výsledná p-hodnota p = .......................... Protože .................................., Hq .............................. na hladině významnosti a = .................... Interpretace výsledků: Rozptyl basion-bregmatické výšky lebky starověké egyptské mužské populace je / není statisticky významně menší než rozptyl basion-bregmatické výšky lebky novověké egyptské mužské populace, Dataset: 01-one-sample-mean-skull-mf.txt Z archivních materiálů (Schmidt, 1888; soubor 01-one-sample-mean-skull-mf.txt) máme k dispozici původní kranio-metrické údaje o délce a šířce mozkovny a ze starověké egyptské populace. Popis proměnných v datasetu: • pop - populace (egant - egyptská starověká); • sex - pohlaví (m - muž, f - žena); • skuli.L - největší délka mozkovny (mm), t.j. přímá vzdálenost kraniometrických bodů glabella a opisthocranion; • skull.B - největší šířka mozkovny (mm), t.j. vzdálenost obou kraniometrických bodů euryon. Příklad 8.2. Test o střední hodnotě jj, při neznámém rozptylu a2 Mějte datový soubor 01-one-sample-mean-skull-mf.txt a proměnnou skuli.L popisující největší délku mozkovny. Na hladině významnosti a = 0.10 zjistěte, zda je rozdíl mezi největší délkou mozkovny u starověké egyptské ženské populace a u novověké egyptské ženské populace (rif = 52, rrif = 171.962mm, Sf = 7.052mm). Řešení příkladu 8.2 n min max 1 109 157 188 Náhodný výběr obsahuje údaje o největší délce mozkovny hodnoty se pohybují v rozmezí................-................mm. žen starověké egyptské populace. Naměřené Ze zadání máme za úkol porovnat střední hodnotu náhodného výběru s konstantou, použijeme tedy test o střední hodnotě / test o rozptylu / párový test / test o korelačním koeficientu. Primárně bychom chtěli použít parametrický test. Nutným předpokladem k použití parametrického testu je normalita naměřených hodnot. Test normality • Hq : Data...................................... z normálního rozdělení. • Hi : Data...................................... z normálního rozdělení. Hladina významnosti a =................ n =............... je menší / větší než 100 —> Shapirův-Wilkův / Andersonův- Darlingův / Lillieforsův test. [1] 0.2624837 2 Náhodný výběr největších délek mozkovny žen starověké egyptské populace rozdělení (p-hodnota = ......................je menší / větší než a = 0.05). z normálního Protože data pochází z normálního rozdělení, použijeme na ověření otázky ze zadání parametrický test, a to jednovýběrový test o střední hodnotě při neznámém rozptylu, neboť hodnota rozptylu není explicitně uvedena v zadání příkladu. Test o střední hodnotě při neznámém rozptylu • //• : ....................................... • Hi : ...................................... (.................................................. alternativa). • Hladina významnosti a = ................ One Sample t-test data: skull.LF t = 4.3146, df = 108, p-value = 3.553e-05 alternative hypothesis: true mean is not equal to 171.962 90 percent confidence interval: 173.5438 175.5204 sample estimates: mean of x 174.5321 19 20 21 22 23 24 25 26 27 28 29 ql q2 30 1 -1.659085 1.659085 31 a) Test kritickým oborem Hodnota testovací statistiky tw = ..................., kritický obor W má tvar ........................................... Protože .............................., Hq .............................. na hladině významnosti a = .................... b) Test intervalem spolehlivosti Interval spolehlivosti má tvar ........................................... Protože .............................., Hq .............................. na hladině významnosti a = .................... c) Test p-hodnotou Výskedná p-hodnota p = .......................... Protože .................................., Hq .............................. na hladině významnosti a = .................... Interpretace výsledků: Mezi největší délkou mozkovny starověké a novověké egyptské ženské populace existuje / neexistuje statisticky významný rozdíl. 3 • staroveká pop. • novoveká pop. O o ★ Dataset: 03-paired-means-clavicle2.txt Datový soubor 03-paired-means-clavicle2.txt obsahuje osteometrické údaje o délkách klíčních kostí na pravé a levé straně těla v párovém uspořádání. Data pochází z anglického souboru dokumentovaných skeletů (Parsons, 1916). Popis proměnných v datasetu: • id ... ID jedince; • sex ... pohlaví jedince (m - muž, f - žena); • length.L ... délka levé klíční kosti (v mm); • length.R ... délka pravé klíční kosti (v mm). a 200 -a > ^ 190 -a > | 180 - a iä 170 - OJ -a S 160 - '5? Příklad 8.3. Jednovýběrový párový test Mějme datový soubor 03-paired-means-clavicle.txt a proměnnou length.R (resp. length.L) popisující délku klíční kosti z pravé (resp. z levé) strany. Na hladině významnosti a = 0.05 zjistěte, zda je délka klíční kosti u mužů větší na levé straně než na pravé straně. Řešení příkladu 8.3 n min.L max.L min.R max.R 1 50 130 176 126 175 32 33 Náhodný výběr obsahuje údaje o délkách klíčních kostí ................. mužů. Naměřené hodnoty z levé strany se pohybují v rozmezí................-................mm, naměřené hodnoty z pravé strany se pohybují v rozmezí................- ................mm. Ze zadání máme za úkol porovnat hodnoty na pravé a levé straně, použijeme tedy test o střední hodnotě / test o rozptylu / párový test / test o korelačním koeficientu. Primárně bychom chtěli použít parametrický test. Nejprve však musíme ověřit splnění předpokladu normality rozdílů mezi naměřenými hodnotami na levé a pravé straně. Test normality rozdílů na levé a pravé straně • Hq : Rozdíly mezi levou a pravou stranou ...................................... z normálního rozdělení. • H\ : Rozdíly mezi levou a pravou stranou ...................................... z normálního rozdělení. Hladina významnosti a =................ n =...............je větší než 30 a menší než 100 —> Shapirův-Wilkův / Ander- sonův-Darlingův / Lillieforsův test. [1] 0.266123 34 Náhodný výběr rozdílů délek klíčních kostí z levé a pravé strany u mužů ................................. z normálního rozdělení (p-hodnota = ......................je menší / větší než a = 0.05). 4 -8.5 -2.5 3.5 9.5 rozdil délek leve a pravé klicni kosti (v mm) -2-10 1 2 teoreticky kvantil Protože rozdíly pochází z normálního rozdělení, použijeme na ověření otázky ze zadání parametrický párový test, který si záhy převedeme na test o střední hodnotě při neznámém rozptylu. Párový test —> Test o střední hodnotě při neznámém rozptylu • //• : ........................... -> ............................ • Hi : ........................... —> ........................... (............................................. alternativa). • Hladina významnosti a = ................ Paired t-test data: length.LM and length.RM t = 3.4121, df = 49, p-value = 0.0006504 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 0.9460859 Inf sample estimates: mean of the differences 1.86 35 36 37 38 39 40 41 42 43 44 45 46 47 q 1 1.676551 a) Test kritickým oborem Hodnota testovací statistiky tw = ..................., kritický obor W má tvar ........................................... Protože .............................., Hq .............................. na hladině významnosti a = .................... b) Test intervalem spolehlivosti Interval spolehlivosti má tvar ........................................... Protože .............................., Hq .............................. na hladině významnosti a = .................... c) Test p-hodnotou Výsledná p-hodnota p = .......................... Protože .................................., Hq .............................. na hladině významnosti a = .................... Interpretace výsledků: Délka klíční kosti u mužů na levé straně je / není statisticky významně větší než na pravé straně. 5 190 180 170 160 150 140 130 120 median prumer T leva strana pravá strana 10 5 - 0 - -5 - -10 Dataset: 06-lin-uhl-fm.txt Datový soubor 06-lin-uhl-fm.txt obsahuje údaje o třech lineárních rozměrech popisujících výšku a šířku lebky a lebeční báze vypočítaných z původních x, y a z souřadnic čtyř význačných bodů (bregma, basion, porion dx a porion sin) digitalizovaných na 60 vybraných lebkách dospělých jedinců (40 mužů a 20 žen) z kosterní sbírky z archeologické lokality Pohansko - Pohřebiště okolo kostela (Jurda, 2008). Popis proměnných v datasetu: • sex - pohlaví (m - muž, f - žena); • skuli.H - výška lebky (v mm); • base.H - výška lebeční báze (v mm); • base.B - šířka lebeční báze (v mm); Příklad 8.4. Test o korelačním koeficientu p Mějme datový soubor 06-lin-uhl-fm.txt, proměnnou skuli.H popisující výšku lebky a proměnnou base.B popisující šířku lebeční báze. Na hladině významnosti a = 0.01 zjistěte, zda mezi výškou lebky a šířkou lebeční báze žen z archeologické lokality Pohansko existuje nepřímá závislost. Řešení příkladu 8.4 n rho 1 20 -0.1712964 48 49 Datový soubor obsahuje údaje o výšce lebky a šířce lebeční báze ............... žen z archeologické lokality Pohansko. Ze zadání máme za úkol vyhodnotit závislost mezi dvěma znaky, použijeme tedy test o střední hodnotě / test o rozptylu / párový test / test o korelačním koeficientu. Primárně bychom chtěli použít parametrický test. Nutným předpokladem k použití parametrického testu je dvourozměrná normalita naměřených hodnot. Test dvourozměrné normality naměřených hodnot • Hq: Data................................z dvourozměrného normálního rozdělení. • H\: Data................................z dvourozměrného normálního rozdělení. Hladina významnosti a =................ Mardiův test. Test Statistic p value Result 1 Mardia Skewness 1.8644228962696 0 760677136630339 YES 2 Mardia Kurtosis -0.860220423559418 0 389667548510268 YES 3 MVN YES 50 51 52 53 Náhodný výběr výšek lebky a šířek lebeční báze žen z archeologické lokality Pohansko ................................. z dvourozměrného normálního rozdělení. (Data vykazují / nevykazují výrazné zešikmení (p-hodnota =..................je 6 menší / větší než a = 0.05). Data vykazují / nevykazují výrazné zešpičatění či zploštění (p-hodnota = .................. je menší / větší než a = 0.05). Protože data pochází z dvourozměrného normálního rozdělení, použijeme na ověření otázky ze zadání parametrický test. Test o korelačním koeficientu p • // : ................................. • Hi : ................................. (..................................................alternativa). • Hladina významnosti a = ................ Error in corZ.test(skull.HF, base.BF, rhoO = 0, alternative = "less", : unused argument (conf.int = 1 - alpha) 54 55 56 q 1 -2.326348 a) Test kritickým oborem Hodnota testovací statistiky zw = ..................., kritický obor W má tvar ........................................... Protože .............................., Hq .............................. na hladině významnosti a = .................... b) Test intervalem spolehlivosti Interval spolehlivosti má tvar ........................................... Protože .............................., Hq .............................. na hladině významnosti a = .................... c) Test p-hodnotou Výsledná p-hodnota p =.......................... Protože .................................., H0 .............................. na hladině významnosti a =.................... Interpretace výsledků: Mezi výškou lebky a šířkou lebeční báze žen z archeologické lokality Pohansko existuje / neexistuje statisticky významná nepřímá stochastická závislost. Mezi výškou lebky a šířkou lebeční báze žen existuje ............................... stupeň .............................................................. závislosti (p = —0.1713). 1 I I I I I í 115 120 125 130 135 140 145 vyska lebky (v mm) 7 Příklad 8.5. Test o nezávislosti Mějme datový soubor 06-lin-uhl-fm.txt, proměnnou skuli.H popisující výšku lebky a proměnnou base.B popisující šířku lebeční báze. Na hladině významnosti a = 0.01 zjistěte, zda mezi výškou lebky a šířkou lebeční báze žen z archeologické lokality Pohansko existuje nepřímá závislost. Řešení příkladu 8.5 Zadání příkladu a tedy i rozbor příkladu je totožný s příkladem 8.4. Nulovou hypotézu Hq nyní ale otestujeme pomocí parametrického testu o nezávislosti. Test o nezávislosti a) Test kritickým oborem Pearson 1suproduct-momentucorrelation data:Uuskull.HFuandubase.BF tu=u-0.73765,udfu=ul8,up-valueu=u0.2351 alternativeu hypothesis : utrueucorrelatioiuisulessutliaiiuO 99upercentuconfidenceuinterval: u-1.0000000uu0.3724117 sampleuestimates: uuuuuuucor 0.1712964 57 58 59 60 61 62 63 64 65 66 67 68 69 q 1 -2.55238 Hodnota testovací statistiky tw = ..................., kritický obor W má tvar ........................................... Protože .............................., Hq .............................. na hladině významnosti a = .................... b) Test intervalem spolehlivosti Interval spolehlivosti má tvar ........................................... Protože .............................., Hq .............................. na hladině významnosti a = .................... c) Test p-hodnotou Výsledná p-hodnota p =.......................... Protože .................................., Hq .............................. na hladině významnosti a = .................... Interpretace výsledků: Mezi výškou lebky a šířkou lebeční báze žen existuje / neexistuje statisticky významná nepřímá stochastická závislost. Ke stejnému závěru jsme došli také v rámci příkladu 8.4. ★ Dataset: 25-one-sample-probability-dermatoglyphs.txt Datový soubor 25-one-sample-probability-dermatoglyphs.txt obsahuje údaje o výskytu jednoho ze tří dermatogly-fických vzorů (vír, smyčka a oblouček) na deseti prstech 235 mužů a 235 žen bagathské populace z Araku Valley. Celkem tedy máme k dispozici údaje o frekvencích výskytu dermatoglyfických vzorů na 4700 prstech. Údaje o frekvencích výskytu jednotlivých vzorů jsou k dispozici v následující tabulce. vzor pohlaví muži ženy vír (whorl) smyčka (loop) oblouček (are) 1053 880 1246 1349 51 121 8 Příklad 8.6. Jednovýběrový test o pravděpodobnosti Načtěte datový soubor 25-one-sample-probability-dermatoglyphs.txt. Na hladině významnosti a = 0.05 zjistěte, zda existuje rozdíl mezi pravděpodobností výskytu dermatoglyfického vzoru smyčka u mužů bagathské populace z Araku Valley a u mužů z populace Lambadis (pm = 0.5618, p/ = 0.6233). Řešení příkladu 8.6 x N p 1 1246 2350 0.5302128 70 71 Výskyt vzoru smyčka byl zaznamenán na . prstech z celkového počtu...................prstů (. Ze zadání máme za úkol porovnat pravděpodobnost výskytu s konstantou, použijeme tedy test o střední hodnotě / test o rozptylu / test o korelačním koeficientu / test o pravděpodobnosti. Protože tento test je exaktním / asymptotickým testem, je před testováním Hq nutné ověřit podmínku dobré aproximace Npo(l — po) > 9. pO hp 1 0.5618 578.5248 72 73 Npo(l — po) = .....................což je menší / větší než 9. Podmínka dobré aproximace je / není splněna. Test o pravděpodobnosti • //• : ....................................... • Hi : ...................................... (.................................................. alternativa). • Hladina významnosti a = ................ a) Test kritickým oborem l-sample proportions test without continuity correction data: x out of N, null probability pO X-squared = 9.5244, df = 1, p-value = 0.002028 alternative hypothesis: true p is not equal to 0.5618 95 percent confidence interval: 0.5100013 0.5503256 sample estimates: P 0.5302128 74 75 76 77 78 79 80 81 82 83 84 85 86 ql q2 1 -1.959964 1.959964 Hodnota testovací statistiky zw = ..................., kritický obor W má tvar .............................., Hq .............................. na hladině významnosti a = ... Protože b) Test intervalem spolehlivosti Interval spolehlivosti má tvar ........................................... Protože na hladině významnosti a = .................... c) Test p-hodnotou Výsledná p-hodnota p významnosti a = ......... Protože .................................., Hi o na hladině Interpretace výsledků: Mezi pravděpodobností výskytu dermatoglyfického vzoru smyčka u mužů populace z Araku Valley a u mužů populace Lambadis existuje / neexistuje statisticky významný rozdíl. 9 1104; 46.98% 1246; 53.02% ■ jiný ■ smyčka 56.18 % Lambadis dermatoglyficky vzor 10