Masarykova univerzita v Brně Přírodovědecká fakulta APLIKOVANÁ STATISTIKA PRO ANTROPOLOGY Zadání domácího úkolu - Skupina B Brno, 2016 Pokyny k řešení domácího úkolu Domácí úkol sestává z osmi příkladů. Za vyřešení příkadů lze získat 20+30+10+15+10+25+15+25=150 bodů + 10 bodů za celkovou úpravu úkolu, detailní komentáře k postupům, apod. Celkem lze tedy získat 160 bodů. Aby byl úkol uznán za splněný, je potřeba získat alespoň 120 bodů (75 %). Pokud nebude dodatečně stanoveno jinak, má student na vyřešení domácího úkolu 14 dní počínaje dnem zadání domácího úkolu. Pokud student potřebných 120 bodů nezíská, bude mu úkol navrácen a student dostane jeden týden na dořešení příkladů. Pokud ani potom student kýženého počtu nedosáhne, bude psát na konci semestru prověřovací písemku na látku obsaženou v tomto úkolu. Řešení domácího úkolu zasílejte, prosím, na e-mail vyučující, tedy 375612@seznam.cz nebo 375612@mail.muni.cz. Po převzení úkolu Vám bude zaslán stručný e-mail jako potvrzení, že řešení úkolu v pořádku dorazilo. :) Jako kompletní řešení se považuje dodání zcela funkčního <8-Skriptu (před odesláním skriptu vyučující si vyčistěte workspace a všechny příkazy si finálně ještě projděte, abyste měli jistotu, že vám vše funguje, jak má) a dodání textového souboru (Word) obsahujícího všechny potřebné komentáře, popisy postupů, apod. Jako alternativu je možné odeslat také pouze funkční <5t-Skript obsahující popisy postupů formou "tít-kových komentářů (za symbolem #). V tom případě není nutné psát komentáře do Wordu. Domácí úkoly budou opravovány hromadně po obdržení všech (nebo alespoň významné většiny) řešení úkolů, přičemž na opravení úkolů si vyučující vyhrazuje 14denní lhůtu :). Přeji vám hodně zdaru při řešení příkadů :). 1 Příklad 1 (20 b). Datový soubor 101-usnice.txt obsahuje údaje o přilehlosti levé a pravé ušnice u 120 studentů jisté vysoké školy. U každého z těchto 120 studentů byla klasifikována přilehlost levé a pravé ušnice do jedné ze tří kategorií (1 - přilehlé, 2 - středně přilehlé, 3 - odstávající). U každého studenta byl dále zaznamenán údaj o jeho pohlaví (0 - muž, 1 - žena). 1. Načtěte datový soubor 101-usnice.txt. 2. V datové tabulce přiřaďte jednotlivým kategoriím přilehlosti ušnic jejich názvy (1 - přilehle, 2 - stredni, 3 -odstávající) a ve sloupci sex změňte kódování 0, 1 na muz a zena. Názvy znaků potom změňte na pravá, leva, pohlaví. Nadále pracujte s touto datovou tabulkou. 3. Sestrojte variační řadu pro přilehlost (a) pravé ušnice u žen; (b) levé ušnice u žen. 4. Nakreslete sloupkový graf a polygon četností pro přilehlost (a) pravé ušnice u žen; (b) levé ušnice u žen. ## nj ## přilehle 38 ## stredni 21 ## odstávajici 1 Nj pj Fj 38 0.6333 0.6333 59 0.3500 0.9833 60 0.0167 1.0000 ## nj Nj pj Fj ## přilehle 36 36 0.6 0.6 ## stredni 24 60 0.4 1.0 Pravá ušnice - zeny sloupkový diagram přilehle stredni odstavajici Přilehlost ušnice Pravá ušnice - zeny polygon četnosti -1-1-1- přilehle stredni odstavajici Přilehlost ušnice Leva ušnice - zeny sloupkový diagram přilehle stredni Přilehlost ušnice Leva ušnice - zeny polygon četnosti o -1-— -1-1— přilehle stredni Přilehlost ušnice 1 Příklad 2 (30 b). Načtěte datový soubor 102-delka-a-sirka-nosu.txt obsahující údaje o délce a šířce nosu malajské a peruánské populace. 1. Stanovte medián, dolní kvartil a horní kvartil pro délku a šířku nosu peruánské populace. 2. Stanovte aritmetický průměr, směrodatnou odchylku, koeficient šikmosti a koeficient špičatosti pro délku a šířku nosu peruánské populace; 3. Výsledky z bodů 1. a 2. vložte do přehledné tabulky. 4. Pro oba znaky (délka nosu, šířka nosu) peruánské populace sestrojte krabicové grafy a histogramy. 5. Všechny zadané výsledky i grafy řádně okomentujte. 6. Vypočítejte vhodný korelační koeficient pro vztah mezi délkou a šířkou nosu peruánské populace. Hodnotu korelačního koeficientu řádně interpretujte. 7. Nakreslete tečkový graf zachycující vztah mezi délkou a šířkou nosu peruánské populace. ## medián d.kvartil h.kvartil prumer sm.odch sikmost spicatost ## 507. 51 48 53 50.4565 3.0267 -0.3134 -0.4115 Výska nosu u peruánské populace histogram Výska nosu u peruánské populace boxplol 46 48 —r- 50 52 54 56 58 vyska nosu ## median d.kvartil h.kvartil prumer sm.odch sikmost spicatost ## 507. 23 22 24 22.9783 1.6483 -0.4761 -0.2598 Sirka nosu u peruánské populace histogram 19 20 21 22 23 24 ~~1— 25 ~~1 26 Sirka nosu u peruánské populace boxplol sirka nosu 2 ## [1] 0.1370691 Výska a sirka nosu u malajské populace teckovy graf O o o o o o ooo o oooo o oo oooo o o ooo ooo o o ooo o n-1-1-1-1-1-1- 44 46 48 50 52 54 56 výska nosu Příklad 3 (10 b). V nemocnicích jednoho blíže nespecifikovaného kraje byl zkoumán poměr zastoupení pohlaví druhorozených dětí. Na základě dlouhodobého výzkumu bylo zjištěno, že pravděpodobnost, že narození druhého dítěte-holčičky v tomto kraji nastává s pravděpodobností 0.4652, kdežto narození chlapce jako druhorozeného dítěte nastává s pravděpodobností 0.5348. Vypočítejte, jaká pravděpodobnost, že z 200 druhorozených dětí narozených v tomto kraji bude 1. alespoň 75 holčiček (včetně hodnoty 75); 2. 60 až 80 holčiček (včetně hodnot 60 a 80); 3. nejvýše 75 holčiček. ## [1] 0.9959142 ## [1] 0.03729584 ## [1] 0.006196344 Příklad 4 (15 b). Za předpokladu, že náhodná veličina pochází z binomického rozdělení X ~ Bin(n,p), se tato veličina X asymptoticky (= pro dostatečně velké n) řídí také normálním rozdělením se střední hodnotu jj, = np a rozptylem a2 = np(l — p), tedy X ~ N(np, np(l — p)). 1. Se znalostí této informace vypočítejte přibližnou pravděpodobnost, že mezi 200 druhorozenými dětmi narozenými v tomto kraji bude (a) alespoň 75 holčiček (včetně hodnoty 75); (b) 60 - 80 holčiček (včetně hodnoty 60 a 80); (c) nejvýše 75 holčiček. 2. Porovnejte tyto hodnoty s hodnotami z předchozího příkladu. Na kolik des. míst se shodují? 3. Teoretické okénko: (a) Jak se nazývá věta, která nám umožňuje aproximovat binomické rozdělení normálním rozdělením? (b) Jak bychom docílili toho, aby se pravděpodobnosti vypočítané pomocí normálního rozdělení více přiblížily skutečným hodnotám pravděpodobností vypočítaných pomocí binomického rozdělení? 3 ## [1] 0.9965248 ## [1] 0.03225584 ## [1] 0.00527224 Příklad 5 (10 b). 1. Nakreslete pravděpodobnostní funkci binomického rozdělení Bin(n,p) z příkladu 3 a superponujte ji křivkou normálního rozdělení N(np, np(l — p)) tak, jak je uvedeno na následujícím obrázku. Aproximace binomického rozdelení normálním rozd. 70 80 90 100 110 počet druhorozených holčiček Příklad 6 (25 b). Zkoumali jsme potomky kosmanů. Náhodná veličina X udává počet manželských potomků, které samice porodila a náhodná veličina Y počet nemanželských potomků, které samice porodila. Je známa simultánní pravděpodobnostní funkce ir(x,y) diskrétního náhodného vektoru (X, Y): Tabulka simultánní pstní fce tt(X, Y) X - počet manž.p. Y - počet nemanž.p. 1 2 3 1 0.2 0.04 0.01 2 0.15 0.36 0.09 3 0.05 0.1 0.0 Vypočtěte koeficient korelace manželských a nemanželských potomků. Hodnotu koeficientu korelace řádně interpretujte. ## EX EY DX DY CXY RXY ## Charakteristiky 1.9 1.7 0.39 0.41 0.11 0.2751 4 Příklad 7 (15 b). Načtěte datový soubor 103-lebky-muzi-zeny.txt obsahující údaje o výšce lebky 215 mužů a 107 žen ze starověké egyptské populace. 1. Vypočítejte bodový odhad pro střední hodnotu výšky lebky mužů starověké egyptské populace; 2. Vypočítejte oboustranný 95% intervalový odhad střední hodnoty výšky lebky mužů starověké egyptské populace. ## [1] "m = 131.8977" ## [1] "dh = 131.2476" ## [1] "hh = 132.5477" Příklad 8 (20 b). Načtěte opět datový soubor 103-lebky-muzi-zeny.txt. 1. Vhodným testem ověřte normalitu dat. 2. Na hladině významnosti a = 0.01 testujte nulovou hypotézu, že rozptyl výšky lebky mužů starověké egyptské populace je stejný, jako rozptyl výšky lebky mužů novověké egyptské populace, jejíž odhad byl stanoven jako = 26.74. Testování proveďte dvěma libovolnými způsoby. 3. Postup celého příkladu řádně okomentujte. ## [1] 0.1263 a) Testování pomocí kritického oboru: ## [1] "tO = 187.126" ## [1] 164.4685 ## [1] 271.0372 b) Testování pomocí intervalu spolehlivosti: ## [1] 18.46149 ## [1] 30.42375 c) Testování pomocí p-hodnoty: ## [1] 0.1851161 5