Pokročilé metody bioinformatiky

GENOME ORGANIZATION, PROCESSING NGS DATA 13. 2. 2023

1. ORGANIZACE KURZU

Vyučující: dr.Lexa

65% kurzu bude postaveno na materiálu

Stuart M Brown (2015)
Next-generation DNA Sequencing Informatics, 2nd ed., CSHL Press, 402pp

Knížka je k dispozici prezenčně ve knihovně FI, v materiálech kurzu najdete první vydání v elektronické podobě a oskenované kapitoly druhého vydání nepokryté ve vydání prvním

15% Lin et al. (2023) Bioinformatics Methods - str. 78-102

20% Bicciato and Ferrari (2022) HiC Data Analysis kap.1-6

HODNOCENI

50% PROJEKT - analyza NGS dat nebo vytvoreni a vizualizace pangenomu
50% ZKOUSKA: ustni z urcenych kapitol literatury a probranych metod analyzy dat

A - 90-100%
B - 80-89%
C - 70-79%
D - 60-69%
E - 50-59%

Relevantní kapitoly pro kurz:

1. Introduction to DNA sequencing (jako přehled technik sekvenování, probírá se v jiných kurzech, pro nove informace spis viz Lin et al.)

2. Quality Control and Data Preprocessing (1.týden, opakovanie)

5. Visualization of NGS Data (2. týden)

6. DNA Sequence Alignment (jako přehled klíčových algoritmů, probírá se v IV107/8)

7. Genome Assembly Using Generalized de Bruijn Digraphs (podle potreby/zajmu 5.týden/IV108)

10. Genome Annotation (7.-8.týden)

11. Using NGS to detect sequence Variants (2.-3. týden)

12. ChIP-seq (4.týden?)


2. STRUKTURA GENOMU


++ Iyer_et_al._2011
Hierarchies in eukaryotic genome organization:Insights from polymer theory and simulations


Fraser_et_al._2015
An Overview of Genome Organization and How We Got There: from FISH to Hi-C





***ÚKOL: doplnit záložky - pošlete mi e-mailem 8-16 podobných záložek k videu

Obsah (ChIP, 3C až Hi-C, LAD, TAD)

(Links Michalik, Juric & Ondrejka)

Nucleus model https://youtu.be/tO--CnMDaI0?t=68

Nucleus-DNA scale https://youtu.be/tO--CnMDaI0?t=190

DNA compaction https://youtu.be/tO--CnMDaI0?t=310

Chromosomal domains https://youtu.be/tO--CnMDaI0?t=350

What we will learn https://youtu.be/tO--CnMDaI0?t=403

Molecular methods for studying genome organization https://youtu.be/tO--CnMDaI0?t=511

Locus-landmark interactions: ChIP and DamID principles https://youtu.be/tO--CnMDaI0?t=598

Locus-locus interactions https://youtu.be/tO--CnMDaI0?t=808

3C https://youtu.be/tO--CnMDaI0?t=869

C-three https://youtu.be/tO--CnMDaI0?t=1016

Hi-C description https://youtu.be/tO--CnMDaI0?t=1109

Checkerboard pattern of interaction https://youtu.be/tO--CnMDaI0?t=1450

ChIA-PET https://youtu.be/tO--CnMDaI0?t=1765

Chromosome compartmentalization https://youtu.be/tO--CnMDaI0?t=1874

Active/in-active compartmentalization https://youtu.be/tO--CnMDaI0?t=2145

Topologically associated domains (TADs) https://youtu.be/tO--CnMDaI0?t=2276

Hi-C data processing https://youtu.be/tO--CnMDaI0?t=2553

Bias normalization https://youtu.be/tO--CnMDaI0?t=2668

Interpretation of data https://youtu.be/tO--CnMDaI0?t=2977

LADs https://youtu.be/tO--CnMDaI0?t=2982

Hi-C features https://youtu.be/tO--CnMDaI0?t=3246

CTCF loop extrusion https://youtu.be/tO--CnMDaI0?t=3326

Inter-species conservation of genome organization https://youtu.be/tO--CnMDaI0?t=3867

LAD inter-species conservation https://youtu.be/tO--CnMDaI0?t=3916

Prediction of lamina association https://youtu.be/tO--CnMDaI0?t=4093

A/T content influence https://youtu.be/tO--CnMDaI0?t=4100

Folding during cell cycle https://youtu.be/tO--CnMDaI0?t=4264

CTCF binding site removal https://youtu.be/tO--CnMDaI0?t=4445

Úvod https://youtu.be/sAkH51R0DNg?t=111

Regulační elementy v genomech https://youtu.be/sAkH51R0DNg?t=222

Identifikace regulačních elementů sekvenací DNA

Nezodpovězené otázky https://youtu.be/sAkH51R0DNg?t=642


3. NGS DATA (DNA-seq, RNA-seq)

viz učebnice

***ÚKOL: zjistit, ktere jsou porad funkcni nebo se vyviji a doplnit seznam novsich metod vizualizace - pošlete mi e-mailem nazvy a URL

(Contetn by Michalik, Juric & Ondrejka)

IGV - funkcny a udrziavany

UCSC Genome Browser - funkcny a udrziavany

JBrowse (https://jbrowse.org/jb2/)

Podporuje vela formatov (BAM, VCF, GFF3, BED, CRAM, ...), vie vizualizovat Hi-C

contact matrix

Genome View - posledna verzia 2018

Staden (https://staden.sourceforge.net/Posledny release v 2016. Stale funkcny a udrziavany, problem s novel macOS (Big Sur a novsie)

Illumina Genome studio - funkcny a udrziavany

Bioconductor (http://bioconductor.org/Tiez by malo vediet robit vizualizacie (napr. ggbio, rtracklayer, GViz) 

Newbler - da sa vraj vyziadat od Roche, nenasiel som ale spravny formular. 454 Assembler, nie vizualizator.

Mauve https://darlinglab.org/mauve/mauve.html "No longer maintained". Komparator genomov, nie vizualizator

genomeview (https://github.com/nspies/genomeviewVyzera, ze nie je maintained

Michalik:  alen - https://github.com/jakobnissen/alen- text-based (môže byť potrebné ak sú dáta na servery kde nie je XWS a nechceme ich sťahovať)

panX - https://pangenome.org/- vizualizácia bakteriálnych genómov, vyzerá veľmi vizuálne pekne

pyGenome tracks - https://github.com/deeptools/pyGenomeTracks- vizuálne pekné, veľa možností vrátane HI-C matrices

Juric: Objavil som zaujimavy software: https://github.com/cmdcolin/awesome-genome-visualization, na ktorom su odkazy na zmienene ale aj nove dalsie nastroje na vizualizaciu.

Kapitola 5
Visualization of NGS Data

novy format - CRAM


Analyze https://www.ncbi.nlm.nih.gov/sra/SRX2006496[accn]

Viewing alignments

Inspecting variants in IGV

Grey v. white reads

4. HiC data analysis

 + Protocols from Bicciato and Ferrari (2022)

Analyze SRR19139574 (alternativne SRR15458782)

5. ChIP-seq analysis

ChIP-seq tutorial

Analyze https://www.ncbi.nlm.nih.gov/sra/?term=maizels+AND+xpd (alternative SRR13161616)