Pokročilé metody bioinformatiky

Týden 2 - zpracování dat z NGS - 9. 3. 2021

PŘEDNÁŠKA

viz učebnice

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/jaro2021/PV269/um/NGS2FM_2.pdf

CVIČENÍ

1. Seznámení se s výpočetní infrastrukturou na FI

  • nymfe87-105 - stroje v učebnách
  • biolinux.fi.muni.cz - mnoho instalovaných nastrojů, virtuální stroj s pár GB paměti, pristup s fakultním loginem, mapuje se /home FI
  • hedron.fi.muni.cz - můj stroj v kanceláři, relativně výkonný, 32GB RAM, 4-jadrovy Intel core i7 (8 vláken), přístup pod uživatelem studentx99 přes port 222 (ssh -X studentx99@hedron.fi.muni.cz -p 222). Vytvořte si v /home/studentx99 vlastní adresář.

2. S využitím cvičných dat ve složce data_NGS :

  • skontrolujte kvalitu programem FastQC všech FASTQ souborů
  • vyzkoušejte si ořez programem Trimmomatic
  • namapujte na chr1 člověka (bwa/bowtie/bowtie2 - samtools) s100_cluster_mapped.fq a na genom Pseudomonas aeruginosa vzorová sekvenační data ze stránek Qiagen (FASTQ soubor zmenšený samplováním najdete v data_NGS).  Jak vypadá mapování, pokud použijete jako referenci jenom oblast lidského genomu chr1:153,350,000-153,633,00?
  • poskládejte contigy z výše uvedených FASTQ souborů. Dojde ke zlepšení, pokud se využije párovost sekvenačních dat?
  • wgsim https://github.com/lh3/wgsim simulate short reads (150bp) from E.coli, 50x coverage, error rate 0.5% and 5%, paired (d=2000bp) and unpaired
  • sample https://github.com/alexpreynolds/sample subsample one of the four combinations (coordinate with each other) fastaq (create 1x and 8x coverage)
  • velvet (velveth, velvetg) https://www.ebi.ac.uk/~zerbino/velvet/ assemble the three sets of reads at 3 coverages using two values of k (31, 51)
  • assembly_stats https://github.com/MikeTrizna/assembly_stats calculate N50, show histogram of contig lengths (gnuplot?, hist() or ggplot2 in R?)
  • prohlédněte si výsledky mapování a skládání (samtools tview, IGV, assembly_stats)

GNUPLOT HINT

gnuplot> binwidth=5
gnuplot> binwidth=1
gnuplot> bin(x,width)=width*floor(x/width)
gnuplot> plot 'data' using (bin($1,binwidth)):(1.0) smooth freq with box

GGPLOT2 HINT

library(ggplot2)
x <- read.table("data")
ggplot(x, aes(V1)) + geom_histogram(binwidth=1)