CG020 Genomika Přednáška 1 Úvod do bioinformatiky Jan Hejátko Funkční genomika a proteomika rostlin, Mendelovo centrum genomiky a proteomiky rostlin, Středoevropský technologický institut (CEITEC), Masarykova univerzita, Brno hejatko@sci.muni.cz, www.ceitec.muni.cz  Schéma předmětu  Definice  Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY  Databáze  Spektrum „on-line“ zdrojů  PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze  GENOMOVÉ zdroje  Analytické nástroje  Vyhledávání homologií  Vyhledávání sekvenčních motivů, otevřených čtecích rámců, restrikčních míst….  Další www genomové nástroje Osnova Schéma předmětu  Kapitola 01  Úvod do bioinformatiky  Kapitola 02  Identifikace genů  Kapitola 03  Přístupy reverzní genetiky  Kapitola 04  Přístupy genetiky přímé Schéma předmětu  Kapitola 05  Přístupy funkční genomiky  Kapitola 06  Protein-protein interakce a jejich analýza  Kapitola 07  Současné metody sekvenování DNA  Kapitola 08  Strukturní genomika Schéma předmětu  Kapitola 09  Lokalizace genů a genových produktů v buňce  Kapitola 10  Genomika a systémová biologie  Kapitola 11  Praktické aspekty funkční genomiky  Kapitola 12  Nástroje systémové biologie  Modelové organismy, PCR a zásady navrhování primerů  Zdrojová literatura ke kapitole I:  Bioinformatics and Functional Genomics, 2009, Jonathan Pevsner, Willey-Blackwell, Hobocken, New Jersey http://www.bioinfbook.org/index.php  Úvod do praktické bioinformatiky, Fatima Cvrčková, 2006, Academia, Praha  Plant Functional Genomics, ed. Erich Grotewold, 2003, Humana Press, Totowa, New Jersey Literatura  Schéma předmětu  Definice Osnova  V širším pojetí-zkoumá STRUKTURU a FUNKCI genomů  V užším pojetí zkoumá FUNKCI jednotlivých genů FUNKČNÍ GENOMIKA  používá zejména přístupy REVERZNÍ GENETIKY  Předpokladem je znalost genomu (sekvencí)práce s databázemi GENOMIKA-co to je? 3 : 1 Přístupy „klasické“ genetiky „Reverzně genetický“ přístup ? inzerční mutageneze 5‘TTATATATATATATTAAAAAATAAAATAAAA GAACAAAAAAGAAAATAAAATA….3‘ GENOMIKA-co to je? role BIOINFORMATIKY ve FUNKČNÍ GENOMICE BIOINFORMATIKA FUNKČNÍ GENOMIKA  Schéma předmětu  Definice  Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY Osnova  Definice bioinformatiky (podle NIH vědeckého a technologického konsorcia pro biomedicínské informace) Výzkum, vývoj nebo aplikace výpočetních nástrojů a přístupů za účelem zvyšování rozvoje využití biologických, lékařských, dat o chování nebo zdraví, včetně těch, které umožňují taková data získávat, ukládat, organizovat, archivovat, analyzovat nebo vizualizovat. Bioinformatika • Interface of biology and computers • Analysis of proteins, genes and genomes using computer algorithms and computer databases • Genomics is the analysis of genomes. The tools of bioinformatics are used to make sense of the billions of base pairs of DNA that are sequenced by genomics projects. What is bioinformatics? J. Pevsner, http://www.bioinfbook.org/index.php  Bioinformatika ve funkční genomice  Zpracování a analýza sekvenačních dat  Identifikace referenčních sekvencí  Identifikace genů  Identifikace homologů, ortologů a paralogů  Korelační analýzy mezi genomy a fenotypy (včetně člověka)  Zpracování a analýza transkripčních dat  Transkripční profilování pomocí DNA čipů nebo next-gen sekvenování  Vyhodnocování experimentálních dat a predikce nových regulací v přístupech systémové biologie  Matematické modelování genových regulačních sítí Bioinformatika  Schéma předmětu  Definice  Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY  Databáze  Spektrum „on-line“ zdrojů Osnova Spektrum on-line zdrojů  EBI http://www.ebi.ac.uk/services Spektrum on-line zdrojů  NCBI http://www.ncbi.nlm.nih.gov/ Spektrum on-line zdrojů  Schéma předmětu  Definice  Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY  Databáze  Spektrum „on-line“ zdrojů  PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze Osnova  EMBL  http://www.ebi.ac.uk/embl/  GenBank,  https://www.ncbi.nlm.nih.gov/  DDBJ,  http://www.ddbj.nig.ac.jp  zahrnují soubory primárních dat – sekvencí DNA a proteinů  Sekvence v databázích tzv. „Velké trojky“:  denně vzájemná výměna a zálohování dat  velká datová náročnost (kapacita i software) Primární databáze Growth of GenBank Year BasepairsofDNA(millions) Sequences(millions) 1982 1986 1990 1994 1998 2002 J. Pevsner, http://www.bioinfbook.org/index.php Growth of GenBank + Whole Genome Shotgun (1982-November 2008): we reached 0.2 terabasesNumberofsequences inGenBank(millions) BasepairsofDNAinGenBank(billions) BasepairsinGenBank+WGS(billions) 0 20 40 60 80 100 120 140 160 180 200 1982 1992 2002 2008 J. Pevsner, http://www.bioinfbook.org/index.php Growth of GenBank Aug 2016  Prosinec 1982 680 338 bp, 606 sekvencí  Duben 2002 19 x 109 bp, 17 x 106 sekvencí + WGS 692 x 106 bp, 172 768 sekvencí  Srpen 2016 218 x 109 bp, 196 x 106 sekvencí + WGS 1,6 1012 bp, 360 x 106 sekvencí WGS Interactive concepts in biochemistry, Rodney Boyer, Wiley, 2002, http://www.wiley.com//college/boyer/0470003790/ Arrival of next-generation sequencing: In two years we have gone from 0.2 terabases to 71 terabases (71,000 gigabases) (November 2010) J. Pevsner, http://www.bioinfbook.org/index.php  zahrnují soubory primárních dat – sekvencí DNA a proteinů  Proteinové sekvence:  PIR, http://pir.georgetown.edu/  MIPS, http://www.mips.biochem.mpg.de  SWISS-PROT, http://www.expasy.org/sprot/ Primární databáze  Standardní nukleotidové sekvence získané kvalitním sekvencováním  Typy sekvencí v primárních databázích  ESTs (Expressed Sequence Tags)  HGTS (High Throughput Genome Sequencing) - neanotované „surové“ výsledky sekvenačních projektů  Referenční sekvence anotovaných genomů  TPAs (Third Party Annotation) - sekvence anotované jinými než původními autory Primární databáze GenBank (NCBI) https://www.ncbi.nlm.nih.gov/ Primární databáze Primární databáze Primární databáze Přístupový kód Primární databáze Primární databáze What is an accession number? An accession number is label that used to identify a sequence. It is a string of letters and/or numbers that corresponds to a molecular sequence. Examples (all for retinol-binding protein, RBP4): X02775 GenBank genomic DNA sequence NT_030059 Genomic contig Rs7079946 dbSNP (single nucleotide polymorphism) N91759.1 An expressed sequence tag (1 of 170) NM_006744 RefSeq DNA sequence (from a transcript) NP_007635 RefSeq protein AAC02945 GenBank protein Q28369 SwissProt protein 1KT7 Protein Data Bank structure record Protein DNA RNA Page 27 J. Pevsner, http://www.bioinfbook.org/index.php NCBI’s important RefSeq project: best representative sequences RefSeq (accessible via the main page of NCBI) provides an expertly curated accession number that corresponds to the most stable, agreed-upon “reference” version of a sequence. RefSeq identifiers include the following formats: Complete genome NC_###### Complete chromosome NC_###### Genomic contig NT_###### mRNA (DNA format) NM_###### e.g. NM_006744 Protein NP_###### e.g. NP_006735 Page 27 J. Pevsner, http://www.bioinfbook.org/index.php RefSeq Accession Molecule Method Note AC_123456 Genomic Mixed Alternate complete genomic AP_123456 Protein Mixed Protein products; alternate NC_123456 Genomic Mixed Complete genomic molecules NG_123456 Genomic Mixed Incomplete genomic regions NM_123456 mRNA Mixed Transcript products; mRNA NM_123456789 mRNA Mixed Transcript products; 9-digit NP_123456 Protein Mixed Protein products; NP_123456789 Protein Curation Protein products; 9-digit NR_123456 RNA Mixed Non-coding transcripts NT_123456 Genomic Automated Genomic assemblies NW_123456 Genomic Automated Genomic assemblies NZ_ABCD12345678 Genomic Automated Whole genome shotgun data XM_123456 mRNA Automated Transcript products XP_123456 Protein Automated Protein products XR_123456 RNA Automated Transcript products YP_123456 Protein Auto. & Curated Protein products ZP_12345678 Protein Automated Protein products NCBI’s RefSeq project: many accession number formats for genomic, mRNA, protein sequences J. Pevsner, http://www.bioinfbook.org/index.php Primární databáze Primární databáze  PROSITE, http://www.expasy.org/prosite/  Databáze funkčních nebo strukturních motivů získaných srovnáváním primárních dat (sekvencí) Sekundární databáze  PROSITE, http://www.expasy.org/prosite/ Sekundární databáze  Databáze funkčních nebo strukturních motivů získaných srovnáváním primárních dat (sekvencí)  PROSITE, http://www.expasy.org/prosite/  databáze funkčních nebo strukturálních motivů získaných srovnáváním primárních dat (sekvencí) Sekundární databáze  PRINTS, http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/ Sekundární databáze  Databáze funkčních nebo strukturních motivů získaných srovnáváním primárních dat (sekvencí)  TRANSFAC http://www.gene-regulation.com/ Sekundární databáze Scaffold/Matrix Attached Region transaction Database  PDB http://www.rcsb.org/pdb/ Strukturální databáze  PDB http://www.rcsb.org/pdb/ Strukturální databáze  PDB http://www.rcsb.org/pdb/ Strukturální databáze Pekárová et al., Plant Journal (2011)  Schéma předmětu  Definice  Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY  Databáze  Spektrum „on-line“ zdrojů  PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze  GENOMOVÉ zdroje Osnova  Human Genome Browser http://genome.ucsc.edu/cgi-bin/hgGateway Genomové zdroje Genomové zdroje  Human Genome Browser http://genome.ucsc.edu/cgi-bin/hgGateway Genomové zdroje  Human Genome Browser http://genome.ucsc.edu/cgi-bin/hgGateway Genomové zdroje  Human Genome Browser http://genome.ucsc.edu/cgi-bin/hgGateway Genomové zdroje  Human Genome Browser http://genome.ucsc.edu/cgi-bin/hgGateway Genomové zdroje  The Arabidopsis Information Resource (TAIR) http://www.arabidopsis.org  TAIR, The Arabidopsis Information Resource, http://www.arabidopsis.org Genomové zdroje  Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY  Databáze  Vyhledávání homologií  Analytické nástroje  Spektrum „on-line“ zdrojů  GENOMOVÉ zdroje  PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze  Schéma přednášky Osnova  Globální vs. lokální přiřazení  Globální přiřazení pouze u sekvencí, které jsou si podobné a podobné délky (za cenu vnášení mezer do jedné nebo obou sekvencí)  Lokální přiřazení umožní identifikaci a srovnání i v případě porovnávání pouze úseků sekvencí s významnou mírou podobnosti, např. i při záměně pořadí proteinových domén během evoluce Cvrčková, Úvod do praktické bioinformatiky  Globální přiřazení se používá především v případě mnohačetného přiřazování (CLUSTALW, viz dále) Analytické nástroje  Volba správného typu přiřazení pomocí bodového diagramu (dotplot)  vynesení sekvencí proti sobě  identifikace shody v okně o dané velikosti (např. 2 bp)  „odfiltrování“ diagonál o délce menší než je mezní hodnota (threshold) Cvrčková, Úvod do praktické bioinformatiky Analytické nástroje  příklady srovnání sekvencí pomocí bodového diagramu  globálně lze srovnávat pouze sekvence A, B  ostatní sekvence prošly během evoluce záměnou domén a je nutné je porovnávat lokálně  bodový diagram lze získat pomocí srovnávání programem BLAST2 (viz dále) Cvrčková, Úvod do praktické bioinformatiky Analytické nástroje  BLAST http://ncbi.nlm.nih.gov/BLAST/ Analytické nástroje  Velikost vyhledávacího slova (word size): 10-11 bp, resp. 2-3 aa  Hodnocení homologie pomocí matice PAM (Point Accepted Mutation) nebo BLOSUM (BLOcks Substitution Matrix)  Primární podobnosti (seed matches)  Rozšiřování oblasti homologie doprava i doleva  Zobrazení výsledků MRKEV [delece] MRKE [záměna] MRKY [inzerce] MRAKY M R . K E V | | | : M R A K Y Matice PAM 250 Cvrčková, Úvod do praktické bioinformatiky BLAST Basic Local Alignment Search Tool E= expectancy value  „expectancy value“ udává předpokládaný počet sekvencí se stejnou nebo lepší podobnosti při vyhledávání ve stejně velké databázi složené z náhodných sekvencí  výsledek udává frakci totožných a u proteinů i podobných pozic, příp. počet vložených mezer BLAST Basic Local Alignment Search Tool Primární databáze BLAST Basic Local Alignment Search Tool  vyhledávání podle zdroje (organismu) sekvencí, např. známých genomů mikroorganismů  V současnosti existuje celá řad specializovaných verzí programu BLAST  BLASTP • vyhledávání podobnosti k proteinu v databázi proteinových sekvencí  BLASTN • vyhledávání podobnosti k nukleotidové sekvenci v databázi nukleotidových sekvencí  BLASTX • vyhledávání podobnosti k proteinu v databázi nukleotidových sekvencí přeložených do sekvence aa • další varianty jako např. MEGABLAST pro identifikaci totožných nebo velice podobných sekvencí (vyhledává dlouhé podobné úseky nukl. sekvencí) BLAST Specializované verze  TBLASTN • vyhledávání k sekvenci nukleotidů přeložené do sekvence aa v databázi proteinů  TBLASTX • vyhledávání k sekvenci nukleotidů přeložené do sekvence aa v databázi nukleotidových sekvencí přeložených do sekvence aa  V současnosti existuje celá řad specializovaných verzí programu BLAST BLAST Specializované verze  PSI-BLAST (Position-Specific Iterated BLAST) • PSI-BLAST vytváří pro každé přiřazení tzv. PSSM (position specific substitution matrix) • PSSM matice zohledňuje výskyt jedné aminokyseliny ve stejné pozici se zvýšenou frekvencí u sekvencí identifikovaných jako podobné v prvním kole pomocí BLAST, což může znamenat funkční konzervovanost • Prvním krokem je standardní BLAST, při kterém PSIBLAST identifikuje skupinu podobných sekvencí s E hodnotou lepší než minimální hodnota (standardně 0,005)  V současnosti existuje celá řad specializovaných verzí programu BLAST BLAST Specializované verze  PHI-BLAST (Pattern-Hit Initiated BLAST) • Sekvenci motivu je třeba vložit pomocí speciálního syntaxu • [LVIMF] znamená buď Leu, Val, Ile, Met nebo Phe • Určen k identifikaci specifické sekvence, např. motivu (pattern) v sekvenci podobných proteinových sekvencí • - je oddělovník (neznamená nic) • x(5) znamená 5 jakýchkoliv aminokyselin • x(3, 5) znamená 3 až 5 jakýchkoliv aminokyselin BLAST Specializované verze  V současnosti existuje celá řada specializovaných verzí programu BLAST  Příklad vyhledávání pomocí PHI-BLAST BLAST Specializované verze  Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY  Databáze  Vyhledávání homologií  Analytické nástroje  Spektrum „on-line“ zdrojů  Vyhledávání sekvenčních motivů, otevřených čtecích rámců, restrikčních míst….  GENOMOVÉ zdroje  PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze  Schéma přednášky Osnova  Biology Workbench http://workbench.sdsc.edu/ Analytické nástroje  Biology Workbench http://workbench.sdsc.edu/ Analytické nástroje  Biology Workbench http://workbench.sdsc.edu/ Analytické nástroje  Biology Workbench http://workbench.sdsc.edu/ Analytické nástroje  Biology Workbench http://workbench.sdsc.edu/ Analytické nástroje  Biology Workbench http://workbench.sdsc.edu/ Analytické nástroje  Biology Workbench http://workbench.sdsc.edu/ Analytické nástroje Analytické nástroje  Virtual PCR (VPCR) http://grup.cribi.unipd.it/cgi-bin/mateo/vpcr2.cgi Analytické nástroje  Virtual PCR (VPCR) http://grup.cribi.unipd.it/cgi-bin/mateo/vpcr2.cgi  Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY  Databáze  Vyhledávání homologií  Analytické nástroje  Spektrum „on-line“ zdrojů  Vyhledávání sekvenčních motivů, otevřených čtecích rámců, restrikčních míst….  GENOMOVÉ zdroje  PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze  Další www genomové nástroje  Schéma přednášky Osnova  TIGR (The Institute for Genomic Research), http://www.tigr.org/software/  Recently part of the J. Craig Venter Institute Další WWW zdroje  Online Mendelian Inheritance in Man (OMIM) http://www.omim.org/ Další WWW zdroje  Role BIOINFORMATIKY v současném pojetí FUNKČNÍ GENOMIKY  Databáze  Vyhledávání homologií  Analytické nástroje  Spektrum „on-line“ zdrojů  Vyhledávání sekvenčních motivů, otevřených čtecích rámců, restrikčních míst….  GENOMOVÉ zdroje  PRIMÁRNÍ, SEKUNDÁRNÍ a STRUKTURÁLNÍ databáze  Další www genomové nástroje  Schéma přednášky Shrnutí Diskuse