E5444 Analysis of sequencing data

Přírodovědecká fakulta
podzim 2023
Rozsah
2/1/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: z.
Vyučující
Mgr. Eva Budinská, Ph.D. (přednášející)
prof. MUDr. Mgr. Marek Mráz, Ph.D. (přednášející)
Ing. Vojtěch Bartoň (přednášející)
doc. Ing. Vlad Popovici, PhD (přednášející)
Garance
Mgr. Eva Budinská, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: Mgr. Eva Budinská, Ph.D.
Dodavatelské pracoviště: RECETOX – Přírodovědecká fakulta
Rozvrh
St 9:00–10:50 C04/118, St 11:00–11:50 C04/118
Předpoklady
Předpokládá se alespoň základní znalost práce v systému Linux, znalost molekulární biologie a základní znalosti programování. Znalost základů statistiky a práce v R je výhodou.
Omezení zápisu do předmětu
Předmět je otevřen studentům libovolného oboru.
Cíle předmětu
Cílem předmětu je studenty seznámit se základními principy a pokročilými metodami analýzy dat z experimentů sekvenování nové generace, zejména z platformy Illumina.
Výstupy z učení
Student na konci tohoto kurzu bude:
- znát nejnovější metody NGS (sekvenování nové a třetí generace), jejich využití a typy dat, který produkují.
- schopen rozlišit typ metody na základě dat.
- znát základní schéma analýzy dat.
- umět pracovat v prostředí Linux, Bash a R na úrovni dostatečné pro analýzu NGS dat.
- znát vybrané nástroje pro zpracování dat a aplikovat je na reálných datech.
- schopen provést analýzu NGS dat od kontroly kvality přes namapování až po detekci odlišně exprimovaných genů (u RNA-Seq), variant (CNV s SNP), skládaní genomu, atp.
Osnova
  • 1. Úvod k NGS technologiím: krátký úvod do biologie, sekvenování, historie, technologie NGS a jejich využití, extrakce vzorků, přípravy knihoven, základní slovník pojmů. Informace o kurzu.
  • 2. Problémy NGS a jejich vliv na analýzu dat.
  • 3. Základní schéma analýzy dat: jak vypadají data, definice obecných kroků analýzy NGS dat, odlišnosti v závislosti od aplikace (např. variant calling vs RNA-Seq...)
  • 4. Úvod do SW pro analýzu dat: krátký úvod práce v Linuxu, Bash a R, formáty dat a rozdíly mezi nimi, on-line kurzy
  • 5. Předzpracování základních dat a kontrola kvality: nástroje pro kontrolu kvality, Phred score, ukázka na příkladových datech.
  • 6. Mapování a post-processing: databáze referenčních genomů, anotace, rozdíly mezi nimi a použití, vysvětlení algoritmů pro mapování, rozdíly mezi spliced/non-spliced nástroji a jejich využití, kontrola kvality mapování, vizualizace mapování.
  • 7. Analýza RNAseq dat - odlišně exprimované geny
  • 8. Volání variant - Analýza dat cílené DNA sekvenace, metody, specifika kontroly kvality
  • 9. Metagenomika - (16S, ITS, WMGS) / algoritmy pro taxonomickou klasifikaci a funkční predikci
  • 10. Statistika a vizualizace
  • 11-12. Obhajoba projektů
Literatura
    doporučená literatura
  • https://www.nature.com/nrg/series/nextgeneration/index.html
Výukové metody
Ve výuce bude použita teoretická příprava kombinovaná s praktickými cvičeními a ukázkami na vzorových datech.
Metody hodnocení
V průběhu semestruu budou studenti vypracovávat vlastní projekt analýzy dat. Vypracování projektu a získání alespoň 10/20 bodů je nutné pro připuštění ke zkoušce a k získání zápočtu. Projekt musí odevzdat před začátkem zkouškového období a skládá se z kódu, dat, výsledků a písemného reportu. Studenti s ukončením předmětu zkouškou musí následně absolvovat závěrečný písemný test, který se bude skládat z 10 otázek hodnocených celkově 20 body. Pro úspěšné ukončení předmětu je nutné dosáhnout minimálně 20 bodů (10 z projektu a 10 ze zkoušky).
Vyučovací jazyk
Angličtina
Informace učitele
Kapacita předmětu je omezena na 22 studentů. Předmět je vyučován v angličině.
Capacity of the course is limited to 22 students. The course is taught in English.

Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2022, podzim 2024.