PřF:Bi7527 Analýza dat v R - Informace o předmětu
Bi7527 Analýza dat v R
Přírodovědecká fakultajaro 2015
- Rozsah
- 2/0/0. 2 kr. (příf plus uk plus > 4). Ukončení: zk.
- Vyučující
- Mgr. Eva Budinská, Ph.D. (přednášející)
RNDr. Ivana Ihnatová, Ph.D. (přednášející) - Garance
- prof. RNDr. Ladislav Dušek, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: Mgr. Eva Budinská, Ph.D.
Dodavatelské pracoviště: RECETOX – Přírodovědecká fakulta - Rozvrh
- St 10:00–11:50 F01B1/709
- Předpoklady
- Bi5040 Biostatistika - základní kurz || Bi5045 Biostatistika pro mat. biol.
Bi5040 Biostatistika – základní kurz, Bi8600 Vícerozměrné statistické metody, Bi8660 Analýza dat na PC II. Pro absolvování kurzu je nutná základní znalost používání programu R, dále znalost základních statistických metod nejméně v rozsahu předmětu Bi5040 Biostatistika-základní kurz a znalost vícerozměrných statistických metod v rozsahu předmětu Bi8600 Vícerozměrné statistické metody. - Omezení zápisu do předmětu
- Předmět je otevřen studentům libovolného oboru.
Předmět si smí zapsat nejvýše 30 stud.
Momentální stav registrace a zápisu: zapsáno: 0/30, pouze zareg.: 0/30, pouze zareg. s předností (mateřské obory): 0/30
Jiné omezení: Doporučení absolvovat Bi8600, DSMBz01, Bi3060 - Cíle předmětu
- Po absolvování tohoto kurzu student:
Rozumí syntaxi skriptovacího jazyku R
Ovládá datové struktury R
Zná rozdíl mezi skriptem a funkcí
Vytvoří jednoduchou i složitou funkci.
Vytvoří skripty pro dávkové spouštění příkazů.
Umí spouštět dávkové příkazy.
Zná syntaxi základních cyklů a podmínek (for, repeat, if...)
Instaluje balíky funkcí.
Automaticky tvoří objekty s názvy definovanými variabilní proměnnou.
Automatizuje skripty.
Optimalizuje časovou náročnost algoritmu vhodným použitím méne náročných funkci (napr. apply namísto for)
Je oboznámen s možnostmi propojení R s dalšími programovacími jazyky (C, Python, Perl)
Načítá a ukládá různé datové soubory.
Transformuje matice a datové tabulky
Spojuje tabulky různých typů
Efektivně překóduje proměnné
Testuje hypotézy
Zná základní balíky a funkce pro analýzu přežití a umí je aplikovat.
Je schopen provést v R jednorozměrnou i vícerozměrnou lineární regresi
Ovládá funkce pro zobecněné lineární modely
Používá rozličné funkce pro zhlukování dat
Použije vybrané funkce pro klasifikaci (rozhodovací stromy, SVM...)
Zná všechny způsoby ukládání grafů
Zná základní grafické prostředí R a umí s ním pracovat.
Vytváří grafy v grafických prostředích lattice a grid.
Vytváří a ukládá grafy v automatizovaném skriptu.
Tvoří komplexní barevné grafy.
Vytvořit graf publikační kvality
Ukládá grafy v rozličných formátech
Vytvoří srozumitelný/čitelný skript a pomocné funkce pro komplexní analýzu příkladových dat.
V závislosti na typu analýzy sestaví její plán a vybere vhodné funkce.
Optimalizuje takto vytvořený skript z hlediska časové náročnosti algoritmů.
Nainstaluje Bioconductor - nástavbu R
Rozumí datovým typům Bioconductor
Zná využití Bioconductoru v bioinformatických analýzách.
Vyzkouší si práci s vybranými balíky Bioconductor - Osnova
- 1. Rozšířené základy skriptování v R (přednášky 01-02)
- 2. Základy optimálního skriptování (přednášky 03)
- 3. Úprava a transformace dat v R (přednášky 04-06)
- 4. Základní balíky pro analýzu dat v R (přednáška 07-08)
- 5. Grafické výstupy R (přednášky 9-11)
- 6. Příklad komplexní analýzy dat (přednáška 12)
- 7. Úvod do Bioconductor (přednáška 13)
- Literatura
- doporučená literatura
- TORGO, Luís. Data mining with R : learning with case studies. Boca Raton: Chapman and Hall/CRC, 2011, xv, 289. ISBN 9781439810187. info
- MATLOFF, Norman S. The art of R programming : a tour of statistical software design. Eleventh printing. San Francisco: No Starch Press, 2011, xxiii, 373. ISBN 1593273843. info
- GENTLEMAN, Robert. R programming for bioinformatics. Boca Raton: CRC Press, 2009, xii, 314. ISBN 9781420063677. info
- MURRELL, Paul. R graphics. Boca Raton: Chapman & Hall/CRC, 2006, xix, 301. ISBN 158488486X. info
- Bioinformatics and computational biology solutions using R and bioconductor. Edited by Robert Gentleman. New York: Springer, 2005, xix, 473. ISBN 0387251464. info
- Výukové metody
- Výuka probíhá formou simultánních přednášek a cvičení. Studentům jsou pomocí prezentace vysvětleny základy a teorie, a tyto znalosti pak po každé ucelené části přímo aplikují v uživatelském rozhraní R na počítačích ve speciální učebně. Počet studentů je dimenzován tak, aby každý měl k dispozici vlastní počítač. Studenti jsou motivováni k iniciativě a předkládání vlastních návrhů algoritmů řešení jednotlivých problémů.
- Metody hodnocení
- Počas výuky budou mít studenti možnost vyřešit bonusové úkoly, za každý získávají 0.5 až 1 bodu. Závěrečný praktický test v programu R se skládá ze sady 8 úkolů - odevzdává se jejich řešení, spolu s kódem. Maximální počet bodů za test je 20. Je povoleno využívat studijní materiály. Finální hodnocení se provádí na základě celkového počtu bodů (úkoly + závěrečný test), k úspěšnému ukončení je potřeba dosáhnout 11 bodů. 20-19: A, 18-17:B, 16-15: C, 14-13: D, 12-11: E, 10-0: F
- Informace učitele
- Eva Budinská, Institute of Biostatistics and Analyses, budinska@iba.muni.cz, +420 775 07 30 30,
web: btr.iba.muni.cz
Additional sources of information
• http://www.r-project.org
• http://www.bioconductor.org
• http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=2653488&blobtype=pdf
• http://www.stat.auckland.ac.nz/~paul/RGraphics/rgraphics.html
- Další komentáře
- Předmět je vyučován každoročně.
Předmět je vyučován blokově.
- Statistika zápisu (jaro 2015, nejnovější)
- Permalink: https://is.muni.cz/predmet/sci/jaro2015/Bi7527