PřF:E7527 Analýza dat v R - Informace o předmětu
E7527 Analýza dat v R
Přírodovědecká fakultapodzim 2024
- Rozsah
- 2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: k. Jiná možná ukončení: zk.
Vyučováno kontaktně - Vyučující
- Mgr. Soňa Smetanová, Ph.D. (přednášející)
Mgr. Jan Böhm (přednášející)
Mgr. Eva Budinská, Ph.D. (přednášející) - Garance
- Mgr. Eva Budinská, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: Mgr. Soňa Smetanová, Ph.D.
Dodavatelské pracoviště: RECETOX – Přírodovědecká fakulta - Rozvrh
- St 12:00–13:50 D29/347-RCX2
- Předpoklady
- E5540 Biostatistika - základní kurz || E5046 Biostatistika pro mat. biol.
Bi5040 Biostatistika – základní kurz, Bi8600 Vícerozměrné statistické metody, Bi8660 Analýza dat na PC II. Pro absolvování kurzu je nutná základní znalost používání programu R, dále znalost základních statistických metod nejméně v rozsahu předmětu Bi5040 Biostatistika-základní kurz a znalost vícerozměrných statistických metod v rozsahu předmětu Bi8600 Vícerozměrné statistické metody. - Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 30 stud.
Momentální stav registrace a zápisu: zapsáno: 28/30, pouze zareg.: 0/30, pouze zareg. s předností (mateřské obory): 0/30
Jiné omezení: Doporučení absolvovat Bi8600, DSMBz01, Bi3060 - Mateřské obory/plány
- Biomedicínská bioinformatika (program PřF, B-MBB)
- Environmentální biomedicína (program PřF, N-ZPZ)
- Environmentální chemie a toxikologie (program PřF, N-ZPZ)
- Cíle předmětu
- Cílem kurzu je obeznámit studenty se statistickým softwarem pro analýzu dat R a to na pokročilé úrovni z pohledu jeho syntaxe i z pohledu funkcí vhodných pro úpravy a (nejen) statistickou analýzu dat a tvorbu grafů publikační kvality. Jedná se o základní kurz, který nepočítá s předchozí zkušeností s prací v R.
- Výstupy z učení
- Po absolvování tohoto kurzu student:
Rozumí syntaxi skriptovacího jazyku R
Ovládá datové struktury R
Zná rozdíl mezi skriptem a funkcí
Vytvoří jednoduchou i složitou funkci.
Vytvoří skripty pro dávkové spouštění příkazů.
Umí spouštět dávkové příkazy.
Zná syntaxi základních cyklů a podmínek (for, repeat, if...)
Instaluje balíky funkcí.
Automaticky tvoří objekty s názvy definovanými variabilní proměnnou.
Automatizuje skripty.
Optimalizuje časovou náročnost algoritmu vhodným použitím méně náročných funkcí.
Načítá a ukládá různé datové soubory.
Transformuje matice a datové tabulky.
Spojuje tabulky různých typů.
Efektivně překóduje proměnné.
Testuje hypotézy.
Používá rozličné funkce pro shlukování dat.
Zná všechny způsoby ukládání grafů.
Zná základní grafické prostředí R a umí s ním pracovat.
Umí pracovat v různých grafických prostředích (lattice, grid a ggplot2).
Vytváří a ukládá grafy v automatizovaném skriptu.
Tvoří komplexní barevné grafy.
Vytvoří graf publikační kvality.
Ukládá grafy v rozličných formátech.
Vytvoří srozumitelný/čitelný skript a pomocné funkce pro komplexní analýzu příkladových dat.
V závislosti na typu analýzy sestaví její plán a vybere vhodné funkce.
Optimalizuje takto vytvořený skript z hlediska časové náročnosti algoritmů. - Osnova
- 1. přednáška – Úvod do R (historie R, co je to R, výhody a nevýhody R; stažení a instalace R; základní práce s R - nastavení pracovního adresáře, základní příkazy, operatory, knihovny; nápověda; co je to objekt a jeho základní charakteristiky)
- 2.-5. přednáška – Objekty v R (vektory a základní práce s vektory; matice a základní práce s maticemi; datové tabulky; list; a další objekty)
- 6.-7. přednáška – Programování v R (for cyklus, if podmínka, while, repeat, příkazy z rodiny apply; funkce; jak efektivně psát script)
- 8.-9. přednáška – Načítání a ukládání souborů, úpravy objektů
- 9.-10. přednáška – Grafy v R (tradiční grafika; Lattice (Trellis); Grid; ggplot2; ukládání grafů)
- 11. přednáška - Vícerozměrná analýza, analýza reálného příkladu
- 12. přednáška – Úvod do populárních balíků (tidyr,plyr,dplyr,ComplexHeatmap)
- 13. přednáška – Vzájemné hodnocení projektů
- Literatura
- doporučená literatura
- TORGO, Luís. Data mining with R : learning with case studies. Boca Raton: Chapman and Hall/CRC, 2011, xv, 289. ISBN 9781439810187. info
- MATLOFF, Norman S. The art of R programming : a tour of statistical software design. Eleventh printing. San Francisco: No Starch Press, 2011, xxiii, 373. ISBN 1593273843. info
- GENTLEMAN, Robert. R programming for bioinformatics. Boca Raton: CRC Press, 2009, xii, 314. ISBN 9781420063677. info
- MURRELL, Paul. R graphics. Boca Raton: Chapman & Hall/CRC, 2006, xix, 301. ISBN 158488486X. info
- Bioinformatics and computational biology solutions using R and bioconductor. Edited by Robert Gentleman. New York: Springer, 2005, xix, 473. ISBN 0387251464. info
- Výukové metody
- Výuka probíhá formou simultánních přednášek a cvičení. Studentům jsou pomocí prezentace vysvětleny základy a teorie, a tyto znalosti pak po každé ucelené části přímo aplikují v uživatelském rozhraní R na počítačích ve speciální učebně. Počet studentů je dimenzován tak, aby každý měl k dispozici vlastní počítač. Studenti jsou motivováni k iniciativě a předkládání vlastních návrhů algoritmů řešení jednotlivých problémů.
- Metody hodnocení
- Kolokvium:
Během semestru budou mít studenti možnost získat maximálně 5 bodů z 5 (nepovinných) domácích úkolů. Dále studenti vypracují v průběhu semestru projekt hodnocený max. 10 body. Hodnotit se bude funkčnost a přehlednost skriptu vzhledem ke stanoveným cílům projektu. Pro splnění předmětu je nutné získat nejméně 8 bodů z 10, přičemž se počítají i body z domácích úkolů.
Zkouška:
Závěrečný praktický test v programu R se skládá ze sady úkolů - odevzdává se jejich řešení, spolu s kódem. Maximální počet bodů za test je 15. Je povoleno využívat studijní materiály. Finální hodnocení se provádí na základě celkového počtu bodů (dobrovolné úkoly v průběhu semestru; max. 5 bodů + projekt; max. 10 bodů + závěrečný test; max. 15 bodů), k úspěšnému ukončení je potřeba dosáhnout 17.5 bodů, z toho alespoň 5 bodů za projekt.
Hodnocení: <17.5 F, ≤20 E, ≤22.5 D, ≤25 C, ≤27.5 B, ≤30 A - Informace učitele
- Eva Budinská, RECETOX, budinska@recetox.muni.cz, +420 775 07 30 30, web: btr.iba.muni.cz
Additional sources of information
• http://www.r-project.org
• http://www.bioconductor.org
• http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=2653488&blobtype=pdf
• http://www.stat.auckland.ac.nz/~paul/RGraphics/rgraphics.html
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně. - Nachází se v prerekvizitách jiných předmětů
- Statistika zápisu (nejnovější)
- Permalink: https://is.muni.cz/predmet/sci/podzim2024/E7527