Bi7527 Analýza dat v R

Přírodovědecká fakulta
jaro 2020
Rozsah
2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: k. Jiná možná ukončení: zk.
Vyučující
Ing. Stanislav Smatana (přednášející)
RNDr. Ivana Ihnatová, Ph.D. (přednášející)
Mgr. Eva Budinská, Ph.D. (přednášející)
Mgr. Barbora Zwinsová (přednášející)
Garance
prof. RNDr. Ladislav Dušek, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: Mgr. Eva Budinská, Ph.D.
Dodavatelské pracoviště: RECETOX – Přírodovědecká fakulta
Rozvrh
St 10:00–11:50 F01B1/709
Předpoklady
Bi5040 Biostatistika - základní kurz || Bi5045 Biostatistika pro mat. biol.
Bi5040 Biostatistika – základní kurz, Bi8600 Vícerozměrné statistické metody, Bi8660 Analýza dat na PC II. Pro absolvování kurzu je nutná základní znalost používání programu R, dále znalost základních statistických metod nejméně v rozsahu předmětu Bi5040 Biostatistika-základní kurz a znalost vícerozměrných statistických metod v rozsahu předmětu Bi8600 Vícerozměrné statistické metody.
Omezení zápisu do předmětu
Předmět je otevřen studentům libovolného oboru.
Předmět si smí zapsat nejvýše 30 stud.
Momentální stav registrace a zápisu: zapsáno: 0/30, pouze zareg.: 0/30, pouze zareg. s předností (mateřské obory): 0/30
Jiné omezení: Doporučení absolvovat Bi8600, DSMBz01, Bi3060
Cíle předmětu
Cílem kurzu je obeznámit studenty se statistickým softvérem pro analýzu dat R a Bioconductor, a to na pokročilé úrovni z pohledu jeho syntaxe i z pohledu funkcí vhodných pro úpravy a (nejen) statistickou analýzu dat a tvorbu grafů publikační kvality.
Výstupy z učení
Po absolvování tohoto kurzu student:
Rozumí syntaxi skriptovacího jazyku R
Ovládá datové struktury R
Zná rozdíl mezi skriptem a funkcí
Vytvoří jednoduchou i složitou funkci.
Vytvoří skripty pro dávkové spouštění příkazů.
Umí spouštět dávkové příkazy.
Zná syntaxi základních cyklů a podmínek (for, repeat, if...)
Instaluje balíky funkcí.
Automaticky tvoří objekty s názvy definovanými variabilní proměnnou.
Automatizuje skripty.
Optimalizuje časovou náročnost algoritmu vhodným použitím méně náročných funkci (napr. apply namísto for)
Je obeznámen s možnostmi propojení R s dalšími programovacími jazyky (C, Python, Perl)
Načítá a ukládá různé datové soubory.
Transformuje matice a datové tabulky
Spojuje tabulky různých typů
Efektivně překóduje proměnné
Testuje hypotézy
Používá rozličné funkce pro zhlukování dat
Zná všechny způsoby ukládání grafů
Zná základní grafické prostředí R a umí s ním pracovat.
Vytváří grafy v grafických prostředích lattice a grid.
Vytváří a ukládá grafy v automatizovaném skriptu.
Tvoří komplexní barevné grafy.
Vytvořit graf publikační kvality
Ukládá grafy v rozličných formátech
Vytvoří srozumitelný/čitelný skript a pomocné funkce pro komplexní analýzu příkladových dat.
V závislosti na typu analýzy sestaví její plán a vybere vhodné funkce.
Optimalizuje takto vytvořený skript z hlediska časové náročnosti algoritmů.
Osnova
  • 1. přednáška – Úvod do R (historie R, co je to R, výhody a nevýhody R; stažení a instalace R; základní práce s R - nastavení pracovního adresáře, základní příkazy, operatory, knihovny; nápověda; co je to objekt a jeho základní charakteristiky)
  • 2. přednáška - Výběr projektů.
  • 1.-3. přednáška – Objekty v R (vektory a základní práce s vektory; matice a základní práce s maticemi; datové tabulky; list; a další objekty)
  • 4.-5. přednáška – Načítání a ukládání souborů, základní úpravy dat
  • 6.-7. přednáška – Programování v R (for cyklus, if podmínka, while, repeat, příkazy z rodiny apply; funkce; jak efektivně psát script)
  • 8.-9. přednáška – Grafy v R (tradiční grafika; Lattice (Trellis); Grid; ukládání grafů; zobrazení matematických vzorců)
  • 10. přednáška - Vícerozměrná analýza, analýza reálného příkladu
  • 11. přednáška – Tvorba balíku
  • 12. přednáška – Propojení C a R
  • 13. přednáška – Dokončení a hodnocení projektů
Literatura
    doporučená literatura
  • TORGO, Luís. Data mining with R : learning with case studies. Boca Raton: Chapman and Hall/CRC, 2011, xv, 289. ISBN 9781439810187. info
  • MATLOFF, Norman S. The art of R programming : a tour of statistical software design. Eleventh printing. San Francisco: No Starch Press, 2011, xxiii, 373. ISBN 1593273843. info
  • GENTLEMAN, Robert. R programming for bioinformatics. Boca Raton: CRC Press, 2009, xii, 314. ISBN 9781420063677. info
  • MURRELL, Paul. R graphics. Boca Raton: Chapman & Hall/CRC, 2006, xix, 301. ISBN 158488486X. info
  • Bioinformatics and computational biology solutions using R and bioconductor. Edited by Robert Gentleman. New York: Springer, 2005, xix, 473. ISBN 0387251464. info
Výukové metody
Výuka probíhá formou simultánních přednášek a cvičení. Studentům jsou pomocí prezentace vysvětleny základy a teorie, a tyto znalosti pak po každé ucelené části přímo aplikují v uživatelském rozhraní R na počítačích ve speciální učebně. Počet studentů je dimenzován tak, aby každý měl k dispozici vlastní počítač. Studenti jsou motivováni k iniciativě a předkládání vlastních návrhů algoritmů řešení jednotlivých problémů.
Metody hodnocení
V průběhu semestru mohou studenti získat až 5 bodů za bonusové domácí úkoly.
Na poslední přednášce mohou studenti získat až 5 bodů za projekt vypracovaný v průběhu semestru (u kolokvia se projekt hodnotí 10 body). Hodnotit se bude funkčnost a přehlednost skriptu vzhledem ke stanoveným cílům projektu. Účast na projektu je povinná.
Závěrečný praktický test v programu R se skládá ze sady úkolů - odevzdává se jejich řešení, spolu s kódem. Maximální počet bodů za test je 20. Je povoleno využívat studijní materiály. Finální hodnocení se provádí na základě celkového počtu bodů (úkoly + projekt + závěrečný test), k úspěšnému ukončení je potřeba dosáhnout 17.5 bodů, z toho alespoň 3 body za projekt.
Hodnocení: <17.5 F, ≤20 E, ≤22.5 D, ≤25 C, ≤27.5 B, ≤30 A Kolokvium: U kolokvia je nutno z projektu získat nejméně 5 bodů z 10.
Informace učitele
Eva Budinská, RECETOX, budinska@recetox.muni.cz, +420 775 07 30 30, web: btr.iba.muni.cz
Additional sources of information
• http://www.r-project.org
• http://www.bioconductor.org
• http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=2653488&blobtype=pdf
• http://www.stat.auckland.ac.nz/~paul/RGraphics/rgraphics.html
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2011 - akreditace, podzim 2009, jaro 2011, jaro 2012, jaro 2012 - akreditace, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2021, podzim 2021.