Ústav matematiky a statistiky Přírodovědecká fakulta Masarykova univerzita Aplikovaná statistika pro antropology I Zadáni zápočtového domácího úkolu podzimní semestr 2019 Skupina B Veronika Bendová 28. listopadu 2019 Bendová, V., 2019: Aplikovaná statistika pro antropology I 1 Pokyny k řešení domácího úkolu Domácí úkol sestává z pěti příkladů. Za vyřešení příkadů lze získat 6 + 6 + 6 + 9 + 21 =48 bodů + 8 bodů za celkovou úpravu a přehlednost úkolu, úpravu kódu, komentáře k postupům, apod. Celkem lze tedy získat 56 bodů. Aby byl úkol uznán za splněný, je potřeba získat alespoň 42 bodů (75 %). Pokud student potřebných 42 bodů nezíská, bude mu úkol navrácen k opravě a dořešení příkladů na potřebný počet bodů. Pokud student ani po přepracování úkolu potřený počet bodů nezíská, nebude mu udělen zápočet. (Další, v pořadí druhé, přepracování úkolu nebude umožněno.) Kompletní řešení domácího úkolu vložte, prosím, do odevzdávárny k předmětu MASlOc (cvičení z AS) nejpozději do 10.12.2019 23:59. Kompletním řešením domácího úkolu je míněno dodání zcela funkčního ď-Skriptu s názvem AS-2019-skupina-X-prijmeni-jmeno.R. Namísto X vložte verzi zadaného domácího úkolu (A nebo B). Zaslaný R-Skript bude obsahovat veškeré potřebné komentáře, popisy postupů, závěry testování a interpretace výsledků ve formátu "®-kových komentářů. Před odesláním R-skriptu do odevzdávárny vyčistěte workspace (V RStudiu: Session —> Clear Workspace) a všechny příkazy finálně projděte ještě jednou, abyste měli jistotu, že vše funguje, jak má. Příklady, jejichž RSkript bude vyhazovat chybové hlášky, nebudou kontrolovány a automaticky budou vráceny k přepracování. Při vytváření řešení domácího úkolu se, prosím, striktně držte následujících pravidel: • Na domácí úkol si vyhraďte dost času, pracujte na něm průběžně. Řešení úkolu není možné kvalitně zpracovat během jednoho či dvou dnů. • Domácí úkol je vaší samostatnou prací a nahrazuje písemný test. Nepoužívejte kód, ani jeho části (týká se i částí obsahujících komentáře a interpretace výsledků) z řešení vašich spolužáků. Budou-li se kódy dvou řešení v libovolné části řešení shodovat, budou oba hodnoceny známkou N. Taktéž, bude-li se v kódu vyskytovat pasáž, která prokazatelně nezapadá konceptu kódu, bude úkol též hodnocen známkou N. Nárok na zápočet v takových případech zaniká. • Striktně dodržte název odevzdávaného RSkriptu. • Názvy datových souborů zanechte v původním znění, nepřejmenovávejte je. • U jednotlivých úkolů, kde máte zjistit konkrétní výsledky, napište vaše výsledky stručně do komentářů za V celém Rskriptu (i v popiscích grafů) se vyvarujte diakritiky. Kódy s diakritikou budou automaticky navráceny k přepracování. • Interpretace výsledků jsou nedílnou součástí příkladu a jsou hodnoceny celkem vysokým počtem bodů. Absence interpretací výsledků tedy výrazně snižuje celkový počet bodů z jinak správně vypracovaného příkladu. • Při programování dodržujte jistou přehlednost kódu. Před a za symbolem <- uveďte vždy mezeru, taktéž jednotlivé argumenty funkcí oddělujte mezerami. Příklad správně a přehledně naprogramovaného kódu je k náhledu níže. Správné naprogramování kódu jev rámci úkolu bodově hodnoceno. 1 x <- 1:15 2 px <- dbinom(x, size = 15, p = 0.5) 3 4 5 6 7 8 9 plot (x , px, type = 'h', lty = 2, lwd = 1, main = 'Pravděpodobnostní funkce binomického rozděleni', cex.main = 0.9) points (x, px, pen = 21, col = 'red', bg = 'salmon') legend('topright', fill = c('salmon'), legend = c('binom'), bty = 'n') (28. listopadu 2019) Bendová, V., 2019: Aplikovaná statistika pro antropology I 1 A na závěr pár doporučení a komentářů k zadání nebo k řešení úkolu: • Zadání příkladů mohou obsahovat nadbytečné informace, které nejsou k řešení úkolu potřeba. Stejně tak datové soubory 30-goldman-alaska.csv a 30-goldman-poundbury.csv obsahují větší množství údajů, než jaké k vyřešení daného příkladu potřebujeme. Vždy je tedy třeba z datového souboru správně vybrat pouze údaje, které jsou potřebné k řešení příkladu. • Názvy proměnných volte vždy tak, aby vystihovaly svůj obsah (rozhoně se vyvarujte zdrobnelín, názvů jako aa, nejake.cislo, bhg, cosi, apod.). • V některých příkladech jsou uvedeny tipy na funkce, jejichž použití vám pomůže s řešením vybraných částí úkolu. Pokud jsme funkce nebrali na cvičeních, je třeba si jejich syntaxi nastudovat formou samostudia. • Při práci s datovými soubory je třeba odstranit chybějící pozorování. Nikdy však neodstraňujeme automaticky všechna chybějící pozorování z celého datového souboru, přicházeli bychom tím o cenná data. NA hodnoty odstraňujeme vždy až po vyselektovaní proměnných nezbytných k provedení analýzy. • Je-li součástí příkladu stanovení hypotéz Hq a H\, je tím vždy myšlen matematický zápis, nikoli slovní zápis. Pouze matematický zápis je tedy bodově hodnocen. Výjimku tvoří testy normality, kde Hq a H\ zadáváme výhradně slovně. • Při vypracování grafů se řiďte vzhledem grafů uvedených v zadání úkolu. Cím vyšší bude shoda výsledného grafu s grafem v zadání (kromě barev, které mohou být voleny libovolně, ale rozumně), tím více bodů za graf získáte. • Při vypracování příkladů na testování hypotéz je potřeba jednotlivé testy provést manuálním výpočtem v Rku, nikoli použitím funkcí jako jsou var.test(), t.test(), apod. Tyto funkce lze použít maximálně j ako kontrolu vašich výsledků. Přeji vám hodně zdaru při řešení příkladů :). (28. listopadu 2019) Bendová, V., 2019: Aplikovaná statistika pro antropology I Příklad 1. (6 b) Znak X nabývá hodnot 4, 3, 1, 3, 3, 6, 4, 5, 5, 5, 2, 6, 2, 3, 4, 4, 2, 3, 3, 3, 4, 5, 4, 1. • Vypočítejte druhý decil 2:0.20, dolní kvartil £0.25, medián 2:0.5, horní kvartil 2:0.75 a osmý decil £0.80 znaku X. Hodnoty vložte do přehledné tabulky a řádně je interpretujte. • Vykreslete sloupcový diagram absolutních četností znaku X. Požadovaná forma výstupu příkladu: 1. Tabulka s hodnotami požadovaných pěti kvantilů 2:0.201 ^0.25, 2:0.50, 2:0.75, 2:0.80- (0.5 + 5 x 0.3 + 0.5 = 2.5 b) 2. Samostatná interpretace každého kvantilu. (5 x 0.3 = 1.5 b) 3. Sloupcový diagram absolutních četností. (2 b) 2. decil dolni kvart il median horni kvartil 8 . decil 1 2 3 3.5 4.5 5 10 11 .O CO (28. listopadu 2019) Bendová, V., 2019: Aplikovaná statistika pro antropology I 3 Příklad 2 (6 b). Máme k dispozici datový soubor 30-goldman-poundbury.csv obsahující antropometrické údaje o délce kosti pažní v mm (znak X spojitého typu (proměnná LHML)) a délce kosti stehenní v mm (znak Y spojitého typu (proměnná LFML)) z levé strany u skeletů z římského pohřebiště v Poundbury. Ze zadaných údajů byly dopočítány následující charakteristiky pro skelety ženského pohlaví: aritmetické průměry: mx = 288.9500 mm, my = 411.4000 mm; směrodatné odchylky: sx = 10.3287 mm, sy = 16.1323 mm; kovariance: sxy = 104.7579. • Stanovte hodnotu odhadu korelačního koeficientu p a řádně ji interpretujte. • Načtěte datový soubor 30-goldman-poundbury.csv a vykreslete tečkový diagram zobrazující vztah délky pažní kosti a stehenní kosti pro skelety ženského pohlaví. Požadovaná forma výstupu příkladu: 1. Název korelačního koeficientu, který jste vypočítali, a zdůvodnění, proč jste jej použili a proč je vhodnou statistikou použitelnou na stanovení míry závislosti mezi znaky X &Y. (2 b) 2. Výpočet korelačního koeficientu s výsledkem zaokrouhleným na čtyři desetinná místa. (1.5 b) 3. Kompletní interpretace vypočítaného koeficientu. (1.5 b) 4. Tečkový diagram. Součástí diagramu bude popisek (umístěný pod popiskem osy x) obsahující hodnotu vypočítaného korelačního koeficientu. Ten získáme pomocí příkazu mtext(bquote(paste(rho == .(rho))), side = line = ...). (1b) [1] 0.6287 12 440 -430 420 410 -400 -390 - 1— 270 280 290 300 délka pazni kosti (v mm) p = 0.6287 (28. listopadu 2019) Bendová, V., 2019: Aplikovaná statistika pro antropology I 4 Příklad 3 (6 b). Máme k dispozici naměřené údaje o acetabulární výšce (v mm) z pravé strany u mužských skeletů ze tří pohřebišť na území Nového Mexika (19 skeletů s pohřebiště Hawikuh, 4 skelety z pohřebiště Pueblo Bonito a 7 skeletů z pohřebiště Puye). Ze zadaných údajů byly dopočítány následující charakteristiky: (a) Hawikuh: aritmetický průměr: m\ = 47.98mm; rozptyl: s'f = 2.152mm2; (b) Pueblo Bonito: ni2 = 51.08mm; s2, = 1.832mm2; (c) Puye: m3 = 46.20 mm; s\ = 2.732mm2. • Stanovte hodnotu váženého průměru výběrových rozptylů řádně ji interpretujte. • Stanovte hodnotu variačního koeficientu v = kde s je výběrová směrodatná odchylka a m je výběrový průměr, pro acetabulární výšku z pravé strany mužských skeletů z pohřebiště Puye. Na základě hodnoty koeficientu variace v zhodnoťte, jak velký je rozptyl vzhledem k aritmetickému průměru? Co nám hodnota koeficientu variace v říká o náhodném výběru? Požadovaná forma výstupu příkladu: 1. Výpočet váženého průměru výběrových rozptylů s výsledkem z aokrouhleným na čtyři desetinná místa. (2.5 b) 2. Odpověď celou větou. (0.5 b) 3. Výpočet variačního koeficientu s výsledkem zaokrouhleným na čtyři desetinná místa. (1b) 4. Odpovědi na dvě otázky. (2 x 1 = 2b) [i] 5 .11 [i] 0.0591 (28. listopadu 2019) Bendová, V., 2019: Aplikovaná statistika pro antropology I 5 Příklad 4 (9 b). Předpokládejme, že délka holenní kosti u žen je normálně rozdělená okolo střední hodnoty 333 mm se směrodatnou odchylkou 22 mm. • (1) Jaká je pravděpodobnost, že délka holenní kosti náhodně vybrané ženy bude nejvýše 340 mm? • (2) Jaká je pravděpodobnost, že průměrná délka holenní kosti osmi náhodně vybraných žen bude nejvýše 340 mm? • Vykreslete graf hustoty normálního rozdělení průměrné délky holenní kosti u osmi žen. Na osu x naneste posloupnost 1000 hodnot od 280 mm do 390 mm a na osu y hodnoty hustoty normálního rozdělení průměrné délky holenní kosti u osmi žen (X ~ N(p, —)). Do grafu dokreslete také křivku hustoty normálního rozdělení pro délku holenní kosti pro jednu ženu (n = 1). • Vykreslete graf distribuční funkce normálního rozdělení průměrné délky holenní kosti u osmi žen. Na osu x naneste posloupnost 1000 hodnot od 280 mm do 390 mm a na osu y hodnoty distribuční funkce normálního rozdělení průměrné délky holenní kosti u osmi žen (X ~ N(p, ^-)). Do grafu dokreslete také křivku distribuční funkce normálního rozdělení pro délku holenní kosti jedné ženy (n = 1). Požadovaná forma výstupu příkladu: 1. Výpočet pravděpodobnosti + odpověď celou větou na otázku (1). (1 + 0.5 = 1.5 b) 2. Výpočet pravděpodobnosti + odpověď celou větou na otázku (2). (1.5 + 0.5 = 2 b) 3. Graf s dvěma křivkami funkcí hustoty + legenda. (2 x 0.5 + 0.5 = 1.5 b) 4. Graf s dvěma křivkami distribučních funkcí + legenda. (2 x 0.5 + 0.5 = 1.5 b) 5. Podrobný popis obou grafů + popis propojení grafů s výsledky pravděpodobností (1) a (2). Jaký je vztah mezi křivkou hustoty pro průměrnou délku holenní kosti osmi žen a křivkou hustoty pro délku holenní kosti jedné ženy? Jakým způsobem souvisí tvary křivek hustot, resp. distribučních funkcí s vypočítanými pravděpodobnostmi? (2.5 b) [1] 0.6248265 15 16 [1] 0.8159277 (28. listopadu 2019) Bendová, V., 2019: Aplikovaná statistika pro antropology I 6 Příklad 5 (21b). Máme k dispozici datový soubor 30-goldman-alaska.csv obsahující antropometrické údaje o aceta-bulární výšce z pravé strany (proměnná RAcH) a z levé strany (proměnná LAcH) u skeletů jedinců z aljašské populace (muži a ženy z kmenů Tigara a Ipituaq). Na hladině významnosti a = 0.05 ověřte, zda je acetabulární výška z pravé strany u žen z kmene Tigara větší než u žen z kmene Ipituaq. Tip: Datový soubor obsahuje neznámé (tzv. NA) hodnoty. Před řešením příkladu je vhodné tyto hodnoty ze sledovaných proměnných odstranit. Požadovaná forma výstupu příkladu: 1. Testování normality: Správně zvolený test normality se zdůvodněním volby testu + Hq, H\ + zdůvodněné rozhodnutí o zamítnutí/nezamítnutí Hq + interpretace výsledku testování + grafická vizualizace normality dat (histogram + Q-Q graf (zvlášt pro populaci z kmene Tigara a zvlášť pro populaci z kmene Ipituaq). ((0.5 + 0.5 + 0.5 + 0.25 + 1.25 + 0.5) x 2 = 7b) Poznámka: Histogramy budou vykresleny se správným počtem třídicích intervalů (viz Sturgesovo pravidlo) a se zaznamenanými hodnotami středů třídicích intervalů. Histogram pro acetabulární výšku pro ženy z kmene Tigara bude superponován křivkou normálního rozdělení N(p,i, a'f), kde odhad parametrů /ii a a'f získáte z dat. Histogram pro acetabulární výšku pro ženy z kmene Ipituaq bude superponován křivkou normálního rozdělení N(fi2, kde odhad parametrů \xi a a\ získáte z dat. Tip: Aby se vám křivky vykreslily správně, musíte v příkazu hist() zadat argument prob=T. Tento argument převede měřítko y-ové osy z absolutní škály (na ose y jsou defaultně nastaveny absolutní četnosti) na relativní škálu (na ose y budou relativní četnosti). Y///////Xr//////^^^ 0.00 - WMT'M^^^ —I-1-1-1-1-1- -1-1-1-1- 45.5 46.5 47.5 48.5 49.5 50.5 41.25 43.75 46.25 48.75 acetabulární vyska zen z kmene Tigara (v mm) acetabulární vyska zen z kmene Ipituaq (v mm) [1] 0.3715629 [1] 0.4749806 (28. listopadu 2019) 999999999995 94 Bendová, V., 2019: Aplikovaná statistika pro antropology I 7 teoreticky kvantil acetabularni vyska zen z kmene Tigara (mm) teoreticky kvantil acetabularni vyska zen z kmene lpituaq (mm) 2. Test o shodě rozptylů a'f a crf: Hladinu významnosti zvolte a = 0.05. Stanovené hypotézy Hq, H\ + kompletní test (a) kritickým oborem; (b) intervalem spolehlivosti; (c) p-hodnotou se zdůvodněným rozhodnutím o zamítnutí/nezamítnutí Hq (u všech tří typů testování) + interpretace výsledku testování. (2 x 0.5 + 3 + 1 = 5b) [1] " Test o vac i u st at ist ika : 19 [1] 0.448568 20 [1] " Kr it icky u obor : 21 [1] 0.3788467 22 [1] 3.365369 23 [1] "Intervaluspolehlivosti: 24 [1] 0.1332894 25 [1] 1.184036 26 [1] "p-hodnota: 27 28 [1] 0.104749 3. Test hypotézy ze zadání: Volba vhodného testu na základě výsledků testů normality a testu o shodě rozptylů se zdůvodněním volby testu + Hq, H\ + kompletní test (a) kritickým oborem; (b) intervalem spolehlivosti; (c) p-hodnotou se zdůvodněným rozhodnutím o zamítnutí/nezamítnutí Hq (u všech tří typů testování) + interpretace výsledku testování. (1 + 2 x 1 + 3 + 1 = 7b) 29 [1] " Test o vac i u st at ist ika : [1] 2.876229 30 31 32 33 34 35 [1] " Kr it icky u obor : [1] 1.690924 [1] "Intervaluspolehlivosti: [1] 0.7946559 [1] "p-hodnota : " (28. listopadu 2019) Bendová, V., 2019: Aplikovaná statistika pro antropology I 8 [1] 0.00345072 36 4. Krabicový diagram porovnávající acetabulátní výšku z pravé strany u žen z kmene Tigara a u žen z kmene Ipituaq. (2 b) 50 E E 48 46 S 44 - 42 median prumer T" T" Tigara Ipituaq populace "I know it's wrong, I'm just waiting for the autocorrect. (28. listopadu 2019)