Pokročilé metody bioinformatiky
Týden 2 - zpracování dat z NGS - 9. 3. 2021
PŘEDNÁŠKA
viz učebnice
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/jaro2021/PV269/um/NGS2FM_2.pdf
CVIČENÍ
1. Seznámení se s výpočetní infrastrukturou na FI
- nymfe87-105 - stroje v učebnách
- biolinux.fi.muni.cz - mnoho instalovaných nastrojů, virtuální stroj s pár GB paměti, pristup s fakultním loginem, mapuje se /home FI
- hedron.fi.muni.cz - můj stroj v kanceláři, relativně
výkonný, 32GB RAM, 4-jadrovy Intel core i7 (8 vláken), přístup pod uživatelem studentx99 přes port 222 (ssh -X studentx99
.fi.muni.cz -p 222). Vytvořte si v /home/studentx99 vlastní adresář.@hedron
2. S využitím cvičných dat ve složce data_NGS :
skontrolujte kvalitu programem FastQC všech FASTQ souborůvyzkoušejte si ořez programem Trimmomaticnamapujte na chr1 člověka (bwa/bowtie/bowtie2 - samtools) s100_cluster_mapped.fq a na genom Pseudomonasaeruginosa vzorová sekvenační data ze stránek Qiagen (FASTQ soubor zmenšený samplováním najdete v data_NGS). Jak vypadá mapování, pokud použijete jako referenci jenom oblast lidského genomuchr1:153,350,000-153,633,00?poskládejte contigy z výše uvedených FASTQ souborů. Dojde ke zlepšení, pokud se využije párovost sekvenačních dat?- wgsim https://github.com/lh3/wgsim simulate short reads (150bp) from E.coli, 50x coverage, error rate 0.5% and 5%, paired (d=2000bp) and unpaired
- sample https://github.com/alexpreynolds/sample subsample one of the four combinations (coordinate with each other) fastaq (create 1x and 8x coverage)
- velvet (velveth, velvetg) https://www.ebi.ac.uk/~zerbino/velvet/ assemble the three sets of reads at 3 coverages using two values of k (31, 51)
- assembly_stats https://github.com/MikeTrizna/assembly_stats calculate N50, show histogram of contig lengths (gnuplot?, hist() or ggplot2 in R?)
prohlédněte si výsledky mapování a skládání (samtools tview, IGV, assembly_stats)
GNUPLOT HINT
gnuplot> binwidth=5
gnuplot> binwidth=1
gnuplot> bin(x,width)=width*floor(x/width)
gnuplot> plot 'data' using (bin($1,binwidth)):(1.0) smooth freq with box
GGPLOT2 HINT
library(ggplot2)
x <- read.table("data")
ggplot(x, aes(V1)) + geom_histogram(binwidth=1)