Metagenomika – Vyhodnocování dat Petra Vídeňská Ph.D. NGS formáty •Samotná sekvence + informace o kvalitě jednotlivých nukleotidů •454 à .sff – lze rozdělít na dva podsoubory .fasta a .qual (kvalita) •Illumina, IonTorrent - FastQ FastQ formát bioinformatika.pdf - Adobe Acrobat Pro DC bioinformatika.pdf - Adobe Acrobat Pro DC FastQ formát bioinformatika.pdf - Adobe Acrobat Pro DC FastQ formát – quality score Fast QC Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data - Mozilla Firefox Blast2go Blast2GO Basic Analýza dat genu pro 16S rRNA - workflow Úprava sekvencí - délka, kvalita cutseq.fna_rep_set.fasta - Microsoft Word •Filtrace příliš krátkých sekvencí •Filtrace nekvalitních sekvencí •Trimmování sekvencí na základě kvality (odstranění nekvalitních bází) Spojení sekvencí a rozřazení na základě značek combined_seqs_opatovice.fna - Microsoft Word •Spojení sekvencí na základě námi zadaných parametrů (min. překryv, počet chyb -mismatch) •Tvorba mapy, kde uvedeme název vzorku a sekvenci jeho značky •Rozřazení o označení sekvencí podle vzorku #SampleID BarcodeSequence LinkerPrimerSequence ReversePrimer Treatment Description 1 ACGCTCGACA GGAGGCAGCAGTRRGGAAT CTACCRGGGTATCTAATCC Control_1 stre_control_chicken_0 2 AGACGCACTC GGAGGCAGCAGTRRGGAAT CTACCRGGGTATCTAATCC Control_2 tet_control_chicken_0 3 AGCACTGTAG GGAGGCAGCAGTRRGGAAT CTACCRGGGTATCTAATCC atb_1 stre_chicken_2b_I.D._3 4 ATCAGACACG GGAGGCAGCAGTRRGGAAT CTACCRGGGTATCTAATCC atb_2 tet_chicken_2b_I.D._4 #SampleID BarcodeSequence LinkerPrimerSequence ReversePrimer Treatment Description 1 ACGCTCGACA CTACCRGGGTATCTAATCC GGAGGCAGCAGTRRGGAAT Control_1 stre_control_chicken_0 2 AGACGCACTC CTACCRGGGTATCTAATCC GGAGGCAGCAGTRRGGAAT Control_2 tet_control_chicken_0_I 3 AGCACTGTAG CTACCRGGGTATCTAATCC GGAGGCAGCAGTRRGGAAT atb_1 stre_chicken_2b_I.D._3 4 ATCAGACACG CTACCRGGGTATCTAATCC GGAGGCAGCAGTRRGGAAT atb_2 tet_chicken_2b_I.D._4 •Ukázka Mapy Tvorba OTUs na základě 97% podobnosti Tvorba OTUs na základě 97% podobnosti • OTU Tabulka Microsoft Excel - Sešit1 [režim kompatibility] •Referenční sekvence = –Nejčetnější sekvence –Seed (první) sekvence –Konsenzuální sekvence v rámci daného OTU •Nejznámější databáze –RDP –SILVA –GreenGenes Tvorba reprezentativních sekvencí a jejich taxonomické zařazení (vybraná databáze) •Pomocí algoritmu odstranění chimér vznikajících při PCR, obvykle 5-20 % sekvencí •Problém – odlišení od neznámých bakteriálních genomů, může odstraňovat i správné sekvence nebo chiméry neodhalit Odstranění chimér Ukázka výstupů - grafy KiNG 2.16 Taxa Summaries - Maxthon 2.5.14 Taxa Summaries - Maxthon 2.5.14 Analýza • chao1 clanek6-ino vyvoj I:\Videnska\slepice-evropa\konecne verze\grafy\bac_15.png Analýza I:\Videnska\opatovice_dodelavka\Odeslano\PCoA_ploty_nove.TIF I:\Videnska\slepice-evropa\konecne verze\grafy\brojler_nosnice.PNG Vyhodnocování – nejčastěji užívané pipelines • Qiime •http://www.qiime.org/svn_documentation/index.html •Pracuje se v příkazovém řádku, nutné znát základní příkazy QIIME Tutorials — Homepage - Windows Internet Explorer Příkazový řádek Příkazový řádek Příkazy • •check_id_map.py -m mapa.txt -o mapping_output –v •quality_scores_plot.py -q seqs.qual -o quality_histograms/ -s 20 • • •split_libraries.py -m mapa.txt -f IR -q IR -n 1000000 -o output_split_lib2/ -M 1 -b 13 –z truncate_only -l • • •sed '/^[A-Z]/s/[A-Za-z]\{50\}\([A-Za-z]\{340\}\).*/\1/' output_split_lib/seqs.fna > cutseq.fna • •pick_otus.py -i cutseq.fna -o picked_otus/ • •pick_rep_set.py -i picked_otus/cutseq_otus.txt -f cutseq.fna • •assign_taxonomy.py -i cutseq.fna_rep_set.fasta -c 0.5 -o assigned_taxonomy/ • •parallel_align_seqs_pynast.py -i cutseq.fna_rep_set.fasta -t core_set_aligned.fasta -O 6 -o parallel_align • •parallel_identify_chimeric_seqs.py -m ChimeraSlayer -i parallel_align/cutseq.fna_rep_set_aligned.fasta -a core_set_aligned.fasta -o chimeric_seqs.txt -v • •filter_fasta.py -f parallel_align/cutseq.fna_rep_set_aligned.fasta -o non_chimeric_rep_set_aligned.fasta -s chimeric_seqs.txt -n • •make_otu_table.py -i otu_map.txt -o otu_table.biom -e chimeric_seqs.txt -t taxonomy.txt Ukázka příkazů split_libraries.py – Split libraries according to barcodes specified in mapping file — Homepage - Google Chrome Ukázka příkazů • split_libraries.py – Split libraries according to barcodes specified in mapping file — Homepage - Google Chrome mothur •http://www.mothur.org/ mothur - Mozilla Firefox https://www.youtube.com/watch?v=X4aV4J8FkEU&nohtml5=False Qiime vs. mothur •http://blog.mothur.org/2016/01/12/mothur-and-qiime/ mothur and QIIME - Mozilla Firefox Megan •http://ab.inf.uni-tuebingen.de/software/megan5/ MEGAN 4 - MEtaGenome ANalyzer — Algorithms in Bioinformatics - Google Chrome Taxonomická analýza • SEED analýza • KEGG analýza • EBI Metagenomic •https://www.ebi.ac.uk/metagenomics/ EBI metagenomics: archiving, analysis and integration of metagenomics data < EBI metagenomics < EMBL-EBI - Mozilla Firefox https://www.ebi.ac.uk/metagenomics/projects/SRP000319/samples/SRS000998/runs/SRR029687/results/vers ions/1.0 EBI pipeline About EBI metagenomics < EBI metagenomics < EMBL-EBI - Mozilla Firefox Taxonomická analýza Sample analysis results: 100 day old Infant gut microbiome < EBI metagenomics < EMBL-EBI - Google Chrome Funkční analýza Sample analysis results: 100 day old Infant gut microbiome < EBI metagenomics < EMBL-EBI - Google Chrome MG - RAST •http://metagenomics.anl.gov/ MG-RAST - Home - Google Chrome http://metagenomics.anl.gov/metagenomics.cgi?page=MetagenomeOverview&metagenome=4447943.3 Taxonomická analýza MG-RAST - Metagenome Analysis - Google Chrome KEGG analýza MG-RAST - KeggMapper - Google Chrome Databáze genu pro 16S rRNA • RDP •http://rdp.cme.msu.edu RDP Release 11 -- Sequence Analysis Tools - Mozilla Firefox http://rdp.cme.msu.edu/tutorials/Submission_Tools/fastq.html http://rdp.cme.msu.edu/tutorials/init_process/RDPtutorial_INITIAL-PROCESS.html http://rdp.cme.msu.edu/tutorials/init_process/RDPtutorial_INITIAL-PROCESS_pe.html RDP Pyrosequencing Tools - Google Chrome GreenGenes •http://greengenes.lbl.gov greengenes.lbl.gov - Aligned 16S rDNA data and tools - Google Chrome http://greengenes.lbl.gov/cgi-bin/JD_Tutorial/nph-Tutorial_2Main2.cgi Silva •http://www.arb-silva.de/ Silva - Mozilla Firefox Srovnání databází The ISME Journal 2011 Werner.pdf - Adobe Acrobat Pro DC The ISME Journal 2011 Werner.pdf - Adobe Acrobat Pro DC Srovnání databází The ISME Journal 2011 Werner.pdf - Adobe Acrobat Pro DC Srovnání databází Metagenomic Surveys of Gut Microbiota - 1-s2.0-S1672022915000546-main.pdf - Mozilla Firefox Další vyhodnocovací programy Metagenomic Surveys of Gut Microbiota - 1-s2.0-S1672022915000546-main.pdf - Mozilla Firefox PICRUST Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences - nbt.2676.pdf - Mozilla Firefox The PICRUSt workflow. : Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences : Nature Biotechnology : Nature Publishing Group - Mozilla Firefox PICRUST PICRUSt recapitulates biological findings from the Human Microbiome Project. : Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences : Nature Biotechnology : Nature Publishing Group - Mozilla Firefox PICRUST Variation in inference accuracy across functional modules within single genomes. : Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences : Nature Biotechnology : Nature Publishing Group - Mozilla Firefox PICRUST •http://picrust.github.io/picrust/ PICRUSt: Phylogenetic Investigation of Communities by Reconstruction of Unobserved States — PICRUSt 1.0.0-dev documentation - Mozilla Firefox PICRUST •http://picrust.github.io/picrust/tutorials/qiime_tutorial.html#qiime-tutorial Analyzing metagenomes with QIIME — PICRUSt 1.0.0-dev documentation - Mozilla Firefox PICRUST Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox PRMT PRMT Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox PRMT Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox Example of generating an EMM from metagenomic data. This figure is an example of generating a simple EMM with hypothetical data. Letters a-f represent unique enzyme functions identified in the annotation of a hypothetical set of metagenomes. In (A), the set of all enzyme reactions for enzyme functions a-f between compounds C1-C5 from a database of possible reactions is listed. In (B), a metabolome is constructed from the reactions identified in A. (C) Shows the connectivity matrix of the network in B. (D) Is the complete EMM for metagenomic annotated enzyme functions a-f, normalizing values in C such that the sum of all inputs to a compound is 1 and the sum of all outputs from a compound is -1. PRMT Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox Strong correlations between environmental metabolites, metabolic subsystems, and bacterial population structure. This network is a graphical representation of strong (i.e. in the top or bottom 5th percentile of randomized resamples) correlations between relative abundance of measured environmental metabolites (diamonds), relative abundance of metagenomic reads annotated to metagenomic SEED subsystems (hexagons), and relative abundance of bacterial taxa (circles) across seasonal variation for the Western English Channel L4 station. Strong positive correlations are represented by solid lines and strong negative correlations by dashed lines. PRMT Microsoft Word - NeeviaConverter.211745 - P1896.pdf - Mozilla Firefox L4 Environmental Metabolome In the figure, edges represent enzyme functions identified in annotated metagenomes. Nodes are predicted metabolites, inferred by the reactions catalyzed by detected enzyme functions. Nodes are highlighted if calculated PRMT scores for seasonal metagenomes correlate strongly (i.e. in the top or bottom 5th percentile of randomized resamples) with relative abundance of measured environmental parameters (Red for Total Organic Carbon, blue for Total Organic Nitrogen, and gold for Soluble Reactive Phosphorus). Edges are highlighted in one of 23 colors if they connect nodes that correlate with relative abundance of a bacterial phylum. Figur e was generated using Cytoscape v2.6.1. The network and calculated PRMT-scores in this figure is available for download as additional file 3, figure S1. Diverzita •a vs b diverzita •https://methodsblog.wordpress.com/2015/05/27/beta_diversity/ a vs b diverzita • KiNG 2.16 vs. Indexy a diverzity •Shannon index – započítává vyrovnanost (eveness) i abundanci druhů vyskytujících se ve vzorku • •Simpson’s index – zvažuje výskyt nejvíce zastoupených druhů à měří pravděpodobnost, že dvě náhodně vybraná individua budou patřit do stejného druhu •Chao1 estimator – odhaduje pravdivou druhovou diverzitu ve vzorku http://palaeo-electronica.org/2011_1/238/estimate.htm Indexy a diverzity