Ústav matematiky a statistiky Přírodovědecká fakulta Masarykova univerzita Aplikovaná statistika II - cvičení Pokyny k domácímu úkolu jarní semestr 2021 Stanislav Katina, Veronika Bendová, Zdeňka Geršlová, Markéta Janošova a Vojtěch Sindlář 23. května 2021 Domácí úloha: Aplikovaná statistika II - cvičení 1 Instrukce Vzorový domácí úkol. V souboru stka-vzor-du-template.pdf máte k dispozici vzorovou šablonu pro domácí úkol, vygenerovanou z následujících *.tex souborů: 1. stka-vzor-du-template.tex, 2. stka-vzor-text-template.tex a 3. stka-vzor-title-page-template.tex. V odevzdávaném pdf souboru s domácím úkolem zachovejte styl použitý v šablonách. Domácí úkol odevzdejte v jedné ze dvou níže uvedených forem. V názvech souborů nepoužívejte diakritiku a dodržujte velká a malá písmena podle návodu. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 1. Forma Sweave Tento způsob kombinuje k vytvoření řešení RSkript a flexibilní systém Sweave. Odevzdává se jeden pdf soubor nazvaný UCO-prijmeni-jmeno-predmet-2021.pdf (obsahuje řešení příkladů, tabulky, obrázky, komentáře a náhled d-kódu), jeden zdrojový soubor naprogramovaných funkcí UCO-prijmeni-jmeno-funkce-predmet-2021.R (jen pokud používáte vlastní naprogramované funkce) a jeden Sweave soubor UCO-prijmeni-jmeno-predmet-2021.Rnw, z něhož byl vygenerován výsledný pdf soubor a který využívá zdrojový soubor naprogramovaných funkcí. V R Sweave se při používání ETgX šablon postupuje identicky jako v ETgXu. K vygenerování Qt-kódu v požadované formě použijte v ETgX-ovské hlavičce Rnw dokumentu balíček listings. Následujícím kódem umístěným taktéž v ETgX-ovské hlavičce Rnw dokumentu upravíte původní nastavení vzhledu Ql-kódu a 01-výstupů do požadované formy. \ def inec olor { dgray }{ gray }{0 . 35 } 70 barva textu komentáru \ def inec olor { lgr ay }{ gr ay }{0 . 95 } 70 barva pozadi R-kodu \ def inec olor { llgray }{ gray }{ 0 . 98} 70 barva pozadi R-vystupu \ lst def ine sty le { Rsty le }{ 70 nastaveni vzhledu R-kodu language=R, 70 nastaveni jazyka R bas ics ty le =\ttf amily \ small , 70 typ a velikost pisraa R-kodu backgr oundcol or =\color { lgr ay } , 70 barva pozadi R-kodu comment sty le =\ttf amily \ small \ itshape \ color {dgr ay } , 70 barva komentáre k funkcim showstringspaces = f alse , 70 zákaz zvýrazňováni mezer numbers = left, 70 cislovani vlevo numberstyle = \ttf amily\small , 70 typ pisma a velikost cislovani stepnumber = 1 , 70 cislovani po kroku jedna f irstnumber = last , 70 kumulativni cislovani radku v po sobe nasl edu j ic ich Chunk prostedich br e akl ines = T} 70 automatické zalamováni kodu na konci radku \ lst def ine sty le { Rout st y le }{ 70 nastaveni vzhledu R-vystupu language=R, 70 nastaveni jazyka R bas ics ty le =\ttf amily \ small , 70 typ a velikost pisma R-vystupu backgr oundcol or =\color { llgray } , 70 barva pozadi R-vystupu showstringspaces = true , 70 zákaz zvýrazňováni mezer numbers = right , 70 cislovani vpravo numberstyle = \ttf amily\small , 70 typ pisma a velikost cislovani f irstnumber = last , 70 kumulativni cislovani radku v po sobe nasl edu j ic ich Chunk prostedich br e akl ines = T} 70 automatické zalamováni kodu na konci radku Dále je potřeba nastavit, aby byl balíček listings i s výše uvedenými nastaveními použit při překládání Rnw souboru do pdf souboru. Toto nastavení již vkládáme do těla dokumentu za příkaz \begin{document}. (23. května 2021) Domácí úloha: Aplikovaná statistika II - cvičení 2 << setup >>= # Setup Chunk render_1istings O a Po přeložení Rnw souboru se náhled R-kódu automaticky zobrazí ve výsledném pdf souboru, pokud v hlavičce Chunk prostředí, obsahujícím Q$-kód, nastavíme argument echo=T. << echo=T >>= x <- 1:10 plot(x) a Další informace o systému Sweave najdete např. zde: Chunk options and package options. Snažte se R-kód psát co nejvíce přehledně. Případné tipy jak postupovat při úpravě kódu můžete nalézt v prezentaci Standards of programming in R: R style guide. 2. Forma ET^X Tento způsob kombinuje k vytvoření řešení RSkript a ETgX. Odevzdává se jeden pdf soubor nazvaný UCO-prijmeni-jmeno-predmet-2021.pdf (obsahuje řešení příkladů, tabulky, obrázky, R-kód napsaný v ETgXu), jeden zdrojový soubor naprogramovaných funkcí UCO-prijmeni-jmeno-funkce-predmet-2021.R (jen pokud používáte vlastní naprogramované funkce) a jeden soubor «Ä-kódu konkrétních řešení DU UCO-prijmeni-jmeno-predmet-2021.R, který používá tento zdrojový kód. Na psaní -kódu použijte ETgX-ovský balíček listings k vytvoření prostředí v hlavičce dokumentu pomocí následujícího kódu: \ def inec olor { dgray }{ gray }{0 . 35 } 70 barva textu komentáru \ def inec olor { lgr ay }{ gr ay }{0 . 95 } 70 barva pozadi R-kodu \lstset{ 70 nastaveni vzhledu R-kodu language=R, 70 nastaveni jazyka R bas ics ty le =\ttf amily \ small , 70 typ a velikost pisma R-kodu backgroundcol or =\color { lgr ay } , 70 barva pozadi R-kodu comment sty le =\ttf amily \ small \ it shape \ color {dgr ay } , 70 barva komentáre k funkcim showstringspaces = f alse , 70 zákaz zvýrazňováni mezer numbers = left, 70 cislovani vlevo numberstyle = \ttf amily\small , 70 typ pisma a velikost cislovani stepnumber = 1 , 70 cislovani po kroku jedna f irstnumber = last , 70 kumulativni cislovani radku v po sobe nasi edu j ic ich částech s R-kodem br e akl ines = T} 70 automatické zalamováni kodu na konci radku V textu potom Ql-kód vkládáme do prostředí \begin{lstlisting} a \end{lstlisting}. Snažte se R-kód psát co nejvíce přehledně. Případné tipy jak postupovat při úpravě kódu můžete nalézt v prezentaci Standards of programming in R: R style guide. Pokud nemáte nainstalovaný KTgX, můžete pro vygenerování souboru UCO-prijmeni-jmeno-predmet-2021.pdf s textem domácího úkolu použít Overleaf. • Pod následujícím odkazem je vám k dispozici připravená šablona pro vytvoření domácího úkolu: https: / / www. overleaf, com/ latex / templates / sablona-du-bi8773/ rthxj sgncfjy Klikněte na Open as Template , čímž dojde k otevření šablony v editovatelné podobě (pro editaci musíte být na Overleafu přihlášení, registrace je zdarma). • V souboru UCO-prijmeni-jmeno-predmet-title-page.tex modifikujte následující 15 \textbf{Název predmetu} 16 \textbf{Jméno Prijmeni} 17 \textbf{UC0} 18 Obor XY (23. května 2021) Domácí úloha: Aplikovaná statistika II - cvičení 3 V souboru UCO-prijmeni-jmeno-predmet-2021.tex vyplňte následující (řádky 18 a 19) 19 20 \fancyhead[L]{Název predmetu -- domáci ukol} \fancyhead[R]{Jméno Prijmeni} • Pro psaní ve slovenštině v hlavičce souboru UCO-prijmeni-jmeno-predmet-2021.tex namísto 21 | \usepackage [czech] {babel} 7070 zabezpeci ceske nastaveni použijte 22 | \usepackage [slovak] {babel} 7070 zabezpeci slovenské nastaveni • Přejmenujte všechny soubory tak, aby obsahovaly vaše UCO, příjmení a jméno (malými písmeny bez diakritiky dle vzoru) a zkratku předmětu (pro použijte zkratka). 23 24 V souboru UCO-prijmeni-jmeno-predmet-2021.tex (řádky 48 a 50) rovněž přepište \ input {UCO-pr i j meni - j meno - předmět -1 itle-page } 7070 načteni souboru s titulni stránkou \ input {UCO-pr i j meni - j meno - předmět - text } 7//0 načteni souboru s hlavnim textem úkolu na své názvy souborů z předchozího kroku. Samotný text (včetně obrázků, tabulek atd.) píšete v souboru UCO-prijmeni-jmeno-predmet-text.tex. Je zapotřebí postupovat takto: — text svého projektu pište buď v módu Source nebo Rich Text , — vkládání obrázků - vedle ikony files je šipka a z vyrolovaného menu vyberete Computer a uploadujete své obrázky jako *.pdf . — použití obrázků - příklad pro R logo v textu 25 |\includegraphics[angle=0,width=0.025\textwidth]{Rlogo.pdf}} Argument width určuje, jaká proporce šířky textu na stránce odpovídá šířce obrázku. — použití obrázků - příklad pro samostatný obrázek 26 7//0 prostředí obrázku 27 \begin{f igure} [ht] 28 \c entering 29 \includegraphics[angle=0,width =0.45\te xtwidth]{název - obrázku} 30 \caption{Popisek ...} 31 \end{f igure} - použití tabulek - příklad 32 7//0 prostredi tabulky 33 7//0 zarovnáni vpravo (r), počet p ismen "r" predstavuj e počet sloupců 34 7//0 h - here , na tomto miste , t - top , v horni časti stránky 35 7//0 velikost pisma \footnotesiz 3 (lOpt) , \scriptsize (8pt) 36 \begin{table}[ht] 37 \caption{Popisek ...} 38 \footnotesize 39 \c entering 40 \begin{tabular}{r||rrr|rrr} 41 7//0 telo tabulky 42 \end{tabular} 43 \end{table} Export tabulek z R umožňuje knihovna xtable a její funkce xtable . Nastavení počtu desetinných míst je možné pomocí argumentu digits , kde první číslo vektoru je nula, neboť popis řádků je text. (23. května 2021) Domácí úloha: Aplikovaná statistika II - cvičení 4 — Vkládání 01-kódu umožňuje prostředí listings 44 VI. prostredí pro R-kod 45 \begin{lst1istings} 46 VI. R kod 47 \end{lst1istings} Ukázku vloženého kódu, obrázku i tabulky najdete přímo v šabloně v souboru UCO-prijmeni-jmeno-predmet-text.tex, popřípadě v souboru stka-vzor-text-template.tex. • Po dokončení domácího úkolu můžete vytvořený pdf soubor stáhnout kliknutím na šipku Download PDF (přímo nad náhledem pdf souboru), celý adresář včetně zdrojových souborů a obrázků exportujete kliknutím na Menu a zvolením možnosti Download - Source . • Bližší informace o ETgX-u najdete např. zde: The Not So Short Introduction to ETgX. 3. Forma MS Word (nebo LibreOffice apod.) Odevzdává se jeden doc (nebo docx) soubor nazvaný UCO-prijmeni-jmeno-predmet-2021.doc (obsahuje řešení příkladů, tabulky, obrázky a R-kód), jeden zdrojový soubor naprogramovaných funkcí UCO-prijmeni-jmeno-funkce-predmet-2021.R (jen pokud používáte vlastní naprogramované funkce) a jeden soubor R-kódu konkrétních řešení DU UCO-prijmeni-jmeno-predmet-2021.R, který používá tento zdrojový kód. -R-kód přehledným způsobem odlište od zbylého textu. DU je hodnocen cvičícím. Toto hodnocení zahrnuje: 1. přítomnost dvou (případně tří) výše zmíněných souborů a jejich názvy (při uploadu se nezaškrtne "přidat U CO, příjmení a jméno" a uploadujte jednotlivé soubory, nikoli *.zip, *.rar či jiné archivy), 2. kompletnost zpracování (každý příklad musí být vypracovaný, žádný nesmí chybět), 3. dostatečný opis Vašich úvah, zvoleného postupu a interpretace výsledků, ať už tabulkových nebo grafických, 4. přehlednost R-kódu. Pro udělení zápočtu je třeba odevzdat vyřešený domácí úkol. (23. května 2021) Domácí úloha: Aplikovaná statistika II - cvičení 5 Zadání Příklad 1 Datový soubor diet v knihovně WRS2 v 4tf obsahuje údaje o úbytku váhy v kilogramech pro tři různé typy diet.1 Vašim úkolem je zjistit vliv typu diety (proměnná diet. type) a pohlaví (proměnná gender) na úbytek hmotnosti (proměnná weight.loss). 1. Zjistěte poety pozorování, výběrové průměry a výběrové směrodatné odchylky úbytku váhy pro muže a ženy v závislosti na typu diety (tj. celkem šest kombinací). 2. Vykreslete krabicové diagramy popisující úbytek hmotnosti v závislosti na typu diety a pohlaví. 3. Modelujte závislost střední hodnoty úbytku hmotnosti na typu diety a pohlaví. Vyzkoušejte různé varianty složitosti modelu: (1) model se vzájemnou interakcí obou faktorů a (2) model bez interakce. Vyberte vhodnější z nich a své rozhodnutí zdůvodněte a podpořte příslušným výstupem z R. V následujících bodech pracujte s tímto modelem. 4- Proveďte Shapirův-Wilkův test pro ověření normality a graficky ověřte zbývající předpoklady metody. Okomentujte výsledky. 5. Proveďte mnohonásobné porovnávání pomocí Tukeyho metody. Jaké hypotézy tato metoda zamítá ? 6. Vykreslete do grafu zvlášť pro ženy (červená lomená čára) a zvlášť pro muže (modrá lomená čára) odhadnuté střední hodnoty úbytku hmotnosti pro všechny druhy diet. Na ose x budou úrovně faktoru diet. type a na ose y úbytek hmotnosti. Veškeré testování hypotéz provádějte na hladině významnosti 0,05. Příklad 2 V souboru Howell.csv máme k dispozici kraniometrické rozměry z různých populací. Zajímají nás ženy (kategorie F proměnné Sex) z populací ZULU, EGYPT a AUSTRALI a následující rozměry: • NPH: výška horní části obličeje (v mm), • NLH: výška nosu (v mm), • ZYB: bizygomatická šířka (v mm), • OBB: šířka očnice (v mm). Chceme zjistit, zda vektory středních hodnot těchto proměnných jsou pro všechny tři populace stejné. Nezapomeňte, že chybějící hodnoty jsou v této databázi označeny 0. 1. Pro každou populaci najděte počet pozorování, vektor výběrových průměrů a varianční matici. 2. Vykreslete krabicové diagramy pro jednotlivé proměnné podle populací. 3. Ověřte předpoklady metody. 1Další informace o datech najdete na https://www.rdocumentation.Org/packages/WRS2/versions/l.0-0/ topics/diet (23. května 2021) Domácí úloha: Aplikovaná statistika II - cvičení 6 4- Otestujte hypotézu na hladině významnosti 0,05. 5. Pokud nulovou hypotézu zamítnete, zjistěte, které proměnné způsobují rozdíly mezi všemi populacemi. 6. Pokud nulovou hypotézu zamítnete, zjistěte, které populace se navzájem liší. 7. U populací, které se navzájem liší, zjistěte, které proměnné to způsobují. (23. května 2021)