E5444 Analysis of sequencing data

Přírodovědecká fakulta
podzim 2024
Rozsah
2/1/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: z.
Vyučováno kontaktně
Vyučující
Mgr. Eva Budinská, Ph.D. (přednášející)
prof. MUDr. Mgr. Marek Mráz, Ph.D. (přednášející)
Ing. Vojtěch Bartoň (přednášející)
doc. Ing. Vlad Popovici, PhD (přednášející)
Garance
Mgr. Eva Budinská, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: Mgr. Eva Budinská, Ph.D.
Dodavatelské pracoviště: RECETOX – Přírodovědecká fakulta
Rozvrh
St 9:00–10:50 C04/118, St 11:00–11:50 C04/118
Předpoklady
Předpokládá se alespoň základní znalost práce v systému Linux, znalost molekulární biologie a základní znalosti programování. Znalost základů statistiky a práce v R je výhodou.
Omezení zápisu do předmětu
Předmět je otevřen studentům libovolného oboru.
Cíle předmětu
Cílem předmětu je studenty seznámit se základními principy a pokročilými metodami analýzy dat z experimentů sekvenování nové generace, zejména z platformy Illumina.
Výstupy z učení
Student na konci tohoto kurzu bude:
- znát nejnovější metody NGS (sekvenování nové a třetí generace), jejich využití a typy dat, který produkují.
- schopen rozlišit typ metody na základě dat.
- znát základní schéma analýzy dat.
- umět pracovat v prostředí Linux, Bash a R na úrovni dostatečné pro analýzu NGS dat.
- znát vybrané nástroje pro zpracování dat a aplikovat je na reálných datech.
- schopen provést analýzu NGS dat od kontroly kvality přes namapování až po detekci odlišně exprimovaných genů (u RNA-Seq), variant (CNV s SNP), skládaní genomu, atp.
Osnova
  • 1. Úvod k NGS technologiím: krátký úvod do biologie, sekvenování, historie, technologie NGS a jejich využití, extrakce vzorků, přípravy knihoven, základní slovník pojmů. Informace o kurzu.
  • 2. Problémy NGS a jejich vliv na analýzu dat.
  • 3. Základní schéma analýzy dat: jak vypadají data, definice obecných kroků analýzy NGS dat, odlišnosti v závislosti od aplikace (např. variant calling vs RNA-Seq...)
  • 4. Úvod do SW pro analýzu dat: krátký úvod práce v Linuxu, Bash a R, formáty dat a rozdíly mezi nimi, on-line kurzy
  • 5. Předzpracování základních dat a kontrola kvality: nástroje pro kontrolu kvality, Phred score, ukázka na příkladových datech.
  • 6. Mapování a post-processing: databáze referenčních genomů, anotace, rozdíly mezi nimi a použití, vysvětlení algoritmů pro mapování, rozdíly mezi spliced/non-spliced nástroji a jejich využití, kontrola kvality mapování, vizualizace mapování.
  • 7. Analýza RNAseq dat - odlišně exprimované geny
  • 8. Volání variant - Analýza dat cílené DNA sekvenace, metody, specifika kontroly kvality
  • 9. Metagenomika - (16S, ITS, WMGS) / algoritmy pro taxonomickou klasifikaci a funkční predikci
  • 10. Statistika a vizualizace
  • 11-12. Obhajoba projektů
Literatura
    doporučená literatura
  • https://www.nature.com/nrg/series/nextgeneration/index.html
Výukové metody
Ve výuce bude použita teoretická příprava kombinovaná s praktickými cvičeními a ukázkami na vzorových datech.
Metody hodnocení
V průběhu semestruu budou studenti vypracovávat vlastní projekt analýzy dat. Vypracování projektu a získání alespoň 10/20 bodů je nutné pro připuštění ke zkoušce a k získání zápočtu. Projekt musí odevzdat před začátkem zkouškového období a skládá se z kódu, dat, výsledků a písemného reportu. Studenti s ukončením předmětu zkouškou musí následně absolvovat závěrečný písemný test, který se bude skládat z 10 otázek hodnocených celkově 20 body. Pro úspěšné ukončení předmětu je nutné dosáhnout minimálně 20 bodů (10 z projektu a 10 ze zkoušky).
Vyučovací jazyk
Angličtina
Informace učitele
Kapacita předmětu je omezena na 22 studentů. Předmět je vyučován v angličině.
Capacity of the course is limited to 22 students. The course is taught in English.

Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2022, podzim 2023.
  • Statistika zápisu (nejnovější)
  • Permalink: https://is.muni.cz/predmet/sci/podzim2024/E5444