Bi7527 Analýza dat v R

Přírodovědecká fakulta
jaro 2011
Rozsah
2/0/0. 2 kr. (příf plus uk plus > 4). Ukončení: zk.
Vyučující
Mgr. Eva Budinská, Ph.D. (přednášející)
Garance
prof. RNDr. Ladislav Dušek, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: Mgr. Eva Budinská, Ph.D.
Předpoklady
Bi5040 Biostatistika - základní kurz
Bi5040 Biostatistika – základní kurz, Bi8600 Vícerozměrné statistické metody, Bi8660 Analýza dat na PC II. Pro absolvování kurzu je nutná základní znalost používání programu R, dále znalost základních statistických metod nejméně v rozsahu předmětu Bi5040 Biostatistika-základní kurz a znalost vícerozměrných statistických metod v rozsahu předmětu Bi8600 Vícerozměrné statistické metody.
Omezení zápisu do předmětu
Předmět je otevřen studentům libovolného oboru.
Předmět si smí zapsat nejvýše 30 stud.
Momentální stav registrace a zápisu: zapsáno: 0/30, pouze zareg.: 0/30, pouze zareg. s předností (mateřské obory): 0/30
Jiné omezení: Doporučení absolvovat Bi8600, DSMBz01, Bi3060
Cíle předmětu
Na konci tohoto kurzu bude student schopen pracovat se základními i pokročilými funkcemi pro úpravu a transformace rozsáhlých vysokodimenzionálních datových souborů v R, pracovat dále s knihovnami funkcí pro základní i pokročilou a vícerozměrnou analýzu těchto dat v R a schopen vytvářet pokročilé grafické reprezentace výsledků analýz těchto souborů a to i na publikační úrovni
Osnova
  • 1. Krátký úvod do R - instalace, knihovny, základní datové typy a struktury, tvorba funkcí
  • 2. Datové formáty, načtení dat
  • 3. Úpravy dat, transformace
  • a) základní úpravy a transformace dat
  • b) kontrola kvality dat a normalizace (vyhlazování, regrese)
  • 4. Základní statistické metody v R
  • a) testování hypotéz
  • b) korekce na mnohonásobné porovnávání
  • 5. Vícerozměrné statistické metody v R - knihovny s metodami pro zhlukování a klasifikaci dat
  • 6. Bioconductor – nástavba R pro analýzu genomických dat
  • 7. Grafy v R a) principy vytváření a ukládání grafů v R
  • b) jednoduchá grafika – scatterplot, histogram, boxplot, apod.
  • c) modifikace grafů – modifikace vzhledu a barev, anotace grafů, simultánní zobrazení více grafů
  • d) pokročilé grafy – heatmapy, složené grafy, funkce grid a lattice
Literatura
  • GENTLEMAN, Robert. R programming for bioinformatics. Boca Raton: CRC Press, 2009, xii, 314. ISBN 9781420063677. info
  • MURRELL, Paul. R graphics. Boca Raton: Chapman & Hall/CRC, 2006, xix, 301. ISBN 158488486X. info
  • Bioinformatics and computational biology solutions using R and bioconductor. Edited by Robert Gentleman. New York: Springer, 2005, xix, 473. ISBN 0387251464. info
Výukové metody
Výuka probíhá blokově, formou simultánních přednášek a cvičení. Studentům jsou pomocí prezentace vysvětleny základy a teorie, a tyto znalosti pak po každé ucelené části přímo aplikují v uživatelském rozhraní R na počítačích ve speciální učebně. Počet studentů je dimenzová tak, aby každý měl k dispozici vlastní počítač. Studenti jsou motivováni k iniciativě a předkládání vlastních návrhů algoritmů řešení jednotlivých problémů.
Metody hodnocení
Závěrečná zkouška je praktická a probíhá formou analýzy zadaného příkladu s popisem a zdůvodněním jednotlivých kroků a použitých funkcí.
Informace učitele
Eva Budinská, Institute of Biostatistics and Analyses, budinska@iba.muni.cz, +420 774 206 332, +41 76 235 8500, web: www.iba.muni.cz/~budinska
Additional sources of information
• http://www.r-project.org
• http://www.bioconductor.org
• http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=2653488&blobtype=pdf
• http://www.stat.auckland.ac.nz/~paul/RGraphics/rgraphics.html
Další komentáře
Předmět je vyučován každoročně.
Výuka probíhá blokově.
Předmět je vyučován blokově.
Předmět je zařazen také v obdobích jaro 2011 - akreditace, podzim 2009, jaro 2012, jaro 2012 - akreditace, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, podzim 2021.