Bioinformatika C6215 Pokročilá biochemie a její metody Podzim 2019 Michaela Wim měrová Osnova • Úvod do bioinformatiky Definice, molekulárně biologická data, databáze Rozdělení databází, bioinformatická centra • Manipulace se sekvencemi Sekvence biomakromolekul, aminokyseliny, báze, alignment Význam alignmentu, přiložení páru sekvencí a vícenásobné přiložení • Predikce struktury proteinů Predikce 2-D struktury proteinů, predikce 3-D struktury proteinů Threading, Homology modeling, Ab initio • Proteinové rodiny Rodiny, domény, sekvenční vzory Patterns, profiles, fingerprints, databáze • Predikce genů Predikce genů u prokaryot a eukaryot, predikční nástroje a postupy Bioinformatika - definice • Existuje mnoho různých definic - nejednotnost odráží dynamický rozvoj oboru. • Bioinformatika - vědní disciplína, která využívá výpočetní techniku (počítače) pro shromažďování, vyhledávání, manipulaci a distribuci informací o biologických makromolekulách (DNA, RNA, proteiny). Luscombeetai. • Bioinformatika - nová disciplína na rozhraní počítačových věd, informačních technologií, matematiky a biologie a zahrnuje studium a praktické uchovávání, vyhledávání, zobrazování, manipulaci s modelování biologických dat. R.Pantůček • Bioinformatika (zaměření na sekvence) vs. výpočetní biologie (všechny oblasti biologie zahrnující výpočty). • Bioinformatika: vývoj výpočetních nástrojů a databází + jejich aplikace Bioinformatika - aplikace Applications Structure analysis nucleic acid structure prediction p-o:cin structure orediction protein structure class ficaticn protein structure comparison Sequence analysis genome comparison phylogeny gene & promoter prediction motif discovery sequence database searching secuence a ignment Function analysis metabolic pathway modeling gene expression profiling protein interaction prediction protein subcellular localization prediction Software development Database construction and curation Figure 1.1: Overview of various subfields of bioinformatics. Biocomputing tool development is at the foundation of all bioinformatics analysis. The applications of the tools fall into three areas: sequence analysis, structure analysis, and function analysis. There are intrinsic connections between different areas of analyses represented by bars between the boxes. ESSENTIAL BIOINFORMATICS, Jin Xiong, 2006 Molekulárně biologická data, databáze • Molekulárně biologická data: sekvence a struktury proteinů a nukleových kyselin, genomy, struktury (introny, exony) a funkce genů, metabolické a signální dráhy, organely... Rozvoj výkonných technologií (automatické sekvencování, MALDI-TOF, NMR spektroskopie, proteinová krystalografie) koncem minulého století vedl k obrovskému nárůstu množství biologických dat. • Nutnost organizovaného ukládání, skladovania manipulace s velkým množstvím dat vedla ke vzniku bioinformatiky. Molekulárně biologická data, databáze 160000 140000 120000 100000 "c L_ 'S 80000 ■-- E z 60000 40000 20000 Number of Structures Released Annually Total Number Available <._) PROTEIN DATA BANK 16. 4. 2019 150861 óř <^ 0? <*° <*>" ^ <# & <# # #N # <# # & # # # ^ c?V # # <# <^ cř cř o"9 ß •? í ^ ^ í í í ^ í ^ í í í í ^ í ^ í í ŕ í í í f f 1^ f ^ f f ^ f ^ f f ^ První výskyt termínu bioinformatika https ://www. res b .org/stats/g rowth/ove ral I Rozdělení databází • Primární databáze: anotované sekvence nukleových kyselin nebo proteinů • Sekundární databáze: informace odvozené z primárních databází ve formě charakteristických vzorů sekvencí, tj. funkčních nebo strukturních motivů získaných srovnáním primárních dat (sekvencí). • Strukturní databáze: struktury proteinů (nukleových kyselin) a jejich anotace. • Genomové databáze: genomy organismů. • Databáze specializované vs. univerzální Primární Rozdělení databází EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIPVLPDPTTLQERNRYIT VELSNSDTESIEVGIDVTNAYWAYRAGTQSYFLRDAPSSASDYLFTGTDQHS LPFYGTYGDLERWAHQSRQQIPLGLQALTHGISFFRSGGNDNEEKARTLIVII QMVAEAARFRYISNRVRVSIQTGTAFQPDAAMISLENNWDNLSRGVQE SVQDT FPNQVTLTNIRNEPVIVDSLSHPTVAVLALMLFVCNPPNIVEKSKICSSRYEP TVRIGGRDGMCVDVYDNGYHNGNRIIMWKCKDRLEENQLWTLKSDKTIRSNGK Ribosome-inactivating protein, subdomain 1 Ribosome-inactivating protein, subdomain 2 Ricin B-like lectins Strukturní Sekundární Specializované Univerzální Rozdělení databází Nucleic Acids Research The 26th annual Nucleic Acids Research database issue and Molecular Biology Database Collection Daniel J. Rigden'' and Xose M. Fernandez2 institute of Integrative Biology, University ot Liverpool, Crown Street, Liverpool L69 7ZB, UK and 2lnstitut Curie. 25 rue d'Ulm, 75005 Paris, France http://www.oxfordjournals.org/ourJournals/nar/database/a/ Nucleic Acids Research OXTORD Open Access 1$ js^-J 2019: 1613 databází Nucleotide Sequence Databases International Nucleotide Sequence Database Collaboration Coding and non-coding DNA Gene structure, introns and exons, splice sites Transcriptional regulator sites and transcription factors RNA sequence databases Protein sequence databases Structure Databases Genomics Databases (non-vertebrate) Metabolic and Signaling Pathways Human and other Vertebrate Genomes Human Genes and Diseases Microarrav Data and other Gene Expression Databases Proteomics Resources Other Molecular Biology Databases Organelle databases Plant databases Immunological databases ABSTRACT The 2019 Nucleic Acids Research (NAR) Database Issue contains 168 papers spanning molecular biology. Among them, 64 are new and another 92 are updates describing resources that appeared in the Issue previously. The remaining 12 are updates on databases most recently published elsewhere. This Issue contains two Breakthrough articles, on the Virtual Metabolic Human (VMH) database which links human and gut microbiota metabolism with diet and disease, and Vibrism DB, a database of mouse brain anatomy and gene (co-expression with sophisticated visualization and session sharing. Major returning nucleic acid databases include RNA-central, miRBase and LncRNA2Target. Protein sequence databases include UniProtKB, InterPro and Pfam, while wwPDB and RCSB cover protein structure. STRING and KEGG update in the section on metabolism and pathways. Microbial genomes are covered by IMG/M and resources for human and model organism genomics include Ensembl, UCSC Genome Browser, GENCODE and Flybase. Genomic variation and disease are well-covered by GWAS Catalog, PopHumanScan, OMIM and COSMIC, CADD being another major newcomer. Major new proteomics resources reporting here include iProX and jPOSTdb. The entire database issue is freely available online on the NAR website (https://academic.oup.com/nar). The NAR online Molecular Biology Database Collection has been updated, reviewing 506 entries, adding 66 new resources and eliminating 147 discontinued URLs, bringing the current total to 1613 databases. It is available at http://www.oxfordjournals.org/nar/ database/c. entirely new databases account for 64 (Table 1) while 92 cover resources that have previously appeared in the Issue and now return with updates. The remaining 12 papers are updated on databases last published elsewhere (Table 2). The usual categorization is again used: alter reports from the major resource collections at the U.S. National Center for Biotechnology Information (NCBI). the European Bioinformatics Institute (EBI) and the BIG Data Center at the Beijing Institute of Genomics, Chinese Academy of Sciences there are these groupings: (ii nucleic acid sequence and structure, transcriptional regulation: (ii) protein sequence and structure: (iii) metabolic and signaling pathways, enzymes and networks: (iv) genomics of viruses, bacteria, protozoa and fungi: (v) genomics of human and model organisms plus comparative genomics: (vi) human genomic variation, diseases and drugs: (vii) plants and (viii) other topics, such as proteomics databases. Many interdisciplinary databases defy easy categorization, encouraging readers to browse the whole issue. The NAR online Molecular Biology Database Collection, classifies databases more finely using 15 categories and 41 subcategories, and can be found at hltp://u^vw. ox fordjournals.org/nar/dalabasc7c. Among the major global centers, the NCBI (1) reports on new and expanded literature resources, including PubMcd Labs (2) a new interlace to PubMcd. and new sequence database search options. The EBI paper (3) reports on the new databases Single Cell Expression Atlas and PDBc-Knowledgcbase. The latter encompasses FunPDBc. an initiative to belter harness structural bioinformatics methods and international collaborators to annotate the protein structural data in PDBe. An interesting facility reported by the BIG Data Center paper (4) is their BIG Search which not only scans across the Center's many resources hut accesses indexes from non-Center partner databases on topics as diverse as IncRNAs, plant transcription factors and aulophagy-relaled proteins. Major reluming resources in the 'Nucleic acid databases' section include miRBase (5) which focuses on criteria to https://academic.oup.com/nar/issue/47/Dl EBI/NCBI/DDBJ Instituce zabývající se shromažďováním, správou a poskytováním dat a informácia vývojem analytických nástrojů. I Evropský institut pro bioinformatiku Jj.il 1M i I NCBI Národní centrum pro biotechnologické informace H NCBI National Centerfor Biotechnology Information DDBJ Center European Bioinformatics Institute National Center for Biotechnology Information The DNA Data Bank of Japan Center http://www.ebi.ac.uk/ http://www.ncbi.nlm.nih.gov/ http://www.ddbj.nig.ac.jp/ ENA GenBank DDBJ EBI The European Bioinformatics Institute in 2018: tools, infrastructure and training Charles E. Cook *, Rodrigo Lopez , Oana Stroe, Guy Cochrane , Cath Brooksbank , Ewan Birney and Rolf Apweiler European Molecular Biology Laboratory, European Bioinformatics Institute (EMBL-EBI), Wellcome Genome Campus, Hinxton, Cambridge CB10 1SD, UK Received October 03. 2018; Revised October 19. 2018: Ed tonal Decision October 1J ABSTRACT The European Bioinformatics Institute (https://www. ebi.ac.uk/) archives, curates and analyses life sciences data produced by researchers throughout the world, and makes these data available for re-use globally (https://www.ebi.ac.uk/). Data volumes continue to grow exponentially: total raw storage capacity now exceeds 160 petabytes, and we manage these increasing data flows while maintaining the quality of our services. This year we have improved the efficiency of our computational infrastructure and doubled the bandwidth of our connection to the worldwide web. We report two new data resources, the Single Cell Expression Atlas (https://www.ebi.ac.uk/ gxa/sc/), which is a component of the Expression Atlas: and the PDBe-Knowledgebase (https://www.ebi. ac.uk/pdbe/pdbe-kb). which collates functional annotations and predictions for structure data in the Protein Data Bank. Additionally, Europe PMC (http: //europepmc.org/) has added preprint abstracts to its search results, supplementing results from peer-reviewed publications. EMBL-EBI maintains over 150 analytical bioinformatics tools that complement our data resources. We make these tools available for users through a web interface as well as program-matically using application programming interfaces, whilst ensuring the latest versions are available for our users. Our training team, with support from all of our staff, continued to provide on-site, off-site and web-based training opportunities for thousands of researchers worldwide this year. DDBJ Center DNA Data tan* cl Japan ODB- |««m*h ■■ Rp.iil Aiehn* DDBJ Tract fechm / INS DC 2018; Accepted November 11. 2018 ^ Database resources of the National Center for Biotechnology Information resources (https://w archival resources s searchers and know . . . , _ _ _ . . _ . _ . ■>...—. resources through ci ^ric **. Sayers , Richa Agarwala, Evan E. Bolton, J. Rodney Brister, Kathi Canese, are available througl Karen Clark, Ryan Connor, Nicolas Fiorini, Kathryn Funk, Timothy Hefferon, cessible using applk j. Bradley Holmes. Sunqhwan Kim, Avi Kimchi, Paul A. Kitts, Stacy Lathrop, Zhiyong Lu, that provide users w access. Additionally, through web interfa analyse their own da EBI and other public National Center for Biotechnology Information, National Library of Medicine. National Institutes of Health, Bethesda, infrastructure in gre; MD 20894, USA A fundamental t< data, tools and infra: and that data are re] structured and stant people and machine of a worldwide infra and many of our re partners around the Continued internati ing that the life scie: DDBJ DDBJ update: the Genomic Expression Archive (GEA) for functional genomics data Yuichi Kodama *, Jun Mashima , Takehide Kosuge and Osamu Ogasawara* DDBJ Center, National Institute of Genetics, Shizuoka 411-8540, Japan Received September 14, 2018; Revised October 03, 2018: Editorial Decision October 08. 2018; Accepted October 09. 2018 Thomas L. Madden, Aron Marchler-Bauer, Lon Phan, Valerie A. Schneider, Conrad L. Schoch, Kim D. Pruitt and James Ostell Received September 19,2018; Revised October 17. 2018: Editorial Decision October 18,2018; Accepted October 18. 2018 ABSTRACT The National Center for Biotechnology Information (NCBI) provides a large suite of online resources for biological information and data, including the GenBank'- nucleic acid sequence database and the PubMed database of citations and abstracts pub-access archiving and |jshed jn nfe science journals. The Entrez system oi data submitted to provides search and retrieval operations for most of the globe. EMBL-E1 these data from 38 distjnct databases. The E-utilities ture (https://www.el actively engaged in < global infrastructure We continuously sultation with our u: advances in research provide those users take their work. In tl data resources, descr troduced this vear ai serve as the programming interface for the Entrez system. Augmenting many of the web applications are custom implementations of the BLAST program optimized to search specialized data sets. New resources released in the past year include PubMed Labs and a new sequence database search. Resources that were updated in the past year include PubMed, PMC, Bookshelf, genome data viewer. Assembly, prokaryotic genomes. Genome. BioProject. dbSNP. dbVar. BLAST databases, igBLAST. iCn3D and PubChem. All of these resources can be accessed through the NCBI home page at www.ncbi. nlm.nih.gov. INTRODUCTION NCBI overview The National Center for Biotechnology Information (NCBI), a center within the National Library of Medicine at the National Institutes of Health, was created in 1988 to develop information systems for molecular biology. Since Genes, Proteins and Chemicals (Table 1). NCBI provide; facilities for submitting and downloading data, analysis and visualization software, educational events and materials about NCBI products, and software and services tc support an expanding developer community. These services along with all other data resources, are available througl: the NCBI home page at www.nebi.nlm.nih.gov/. In mosl cases, the data underlying these resources and executable! for the software described are available for download at ftp. ncbi.nlm.nih.gov. This article provides a brief overview of the NCBI Entree system of databases, followed by a summary of resource! that were either introduced or significantly updated in ths past year. More complete discussions of NCBI resource! can be found on the home pages of individual databases on the NCBI Learn page (www.ncbi.nlm.nih.gov/leam/) or in the NCBI Handbook (www.ncbi.nlm.nih.gov/booksy NBKI43764/). The Entrez system Entrez (1) is an integrated database retrieval system thai provides access to a diverse set of 38 databases that together contain 2.5 billion records (Table I and Figure 1) Links to the web portal for each of these databases art provided on the Entrez global search page (www.ncbi.nlm nili.gov/searcli/). Entrez supports text searching using simple Boolean queries, downloading of data in various formats, and linking records between databases based on asserted relationships. The LinkOut service expands the range of links to include external resources, such as organism-specific genome databases. The records retrieved in Entrez can be displayed in many formats and downloaded singly ABSTRACT The Genomic Expression Archive (GEA) for functional genomics data from microarray and high-throughput sequencing experiments has been established at the DNA Data Bank of Japan (DDBJ) Center (https;//www,ddbj,nig.ac.jp), which is a member of the International Nucleotide Sequence Database Collaboration (INSDC) with the US National Center for Biotechnology Information and the European Bioinformatics Institute. The DDBJ Center collects nucleotide sequence data and associated biological information from researchers and also services the Japanese Genotype-phenotype Archive (JGA) with the National Bioscience Database Center for collecting human data. To automate the submission process, we have implemented the DDBJ BioSam-ple validator which checks submitted records, auto-corrects their format, and issues error messages and warnings if necessary. The DDBJ Center also operates the NIG supercomputer, prepared for analyzing large-scale genome sequences. We now offer a secure platform specifically to handle personal human genomes. This report describes database activities for INSDC and JGA over the past year, the newly launched GEA, submission, retrieval, and analysis services available in our supercomputer system and their recent developments. INTRODUCTION The DNA Data Bank of Japan (DDBJ. https://www.ddbj. tiig.ac.jp) (1) is a public nucleotide sequence database established at the National Institute of Genetics (NIG, https: //www.nig.ae.jp). Since 1987, the DDBJ Center has been Collecting annotated nucleotide sequences as its traditional database service. This endeavor is conducted in collaboration with GenBank (2) at the National Center for Biotechnology Information (NCBI) and with the European Nu- the International Nucleotide Sequence Database Collaboration (INSDC) (4), and its product database is called the International Nucleotide Sequence Database (1NSD). Within the INSDC framework, the DDBJ Center also services the DDBJ Sequence Read Archive (DRA) for raw-sequencing data and alignment information from high-throughput sequencing platforms (5), BioProject for sequencing project metadata, and BioSample for sample information (1,6). This comprehensive resource of nucleotide sequences and associated biological information complies with INSDC policy guaranteeing free and unrestricted access to data archives (7). In July 2018. the DDBJ Center launched a new pub-lie database, the Genomic Expression Archive (GEA, https://www.ddbj.nig.ac.jp/gea), which collects functional genomics data from microarray and high-throughput sequencing experiments Besides the Gene Expression Omnibus (GEO) at the NCBI (8) and ArrayExpress at the EBI (9) , the GEA issues accession numbers to functional genomics experiments, whose data are associated with metadata in a structured and standardized MAGE-TAB format (10) , and public GEA data will be indexed by ArrayExpress. For publications under review, submitters can allow journal reviewers anonymous access to private GEA data cited in their manuscripts. With the GEA launch, the DDBJ Center now covers the archiving of sequences with functional annotation (traditional database) and molecular abundance (GEA). In addition to these unrestricted-access databases, the DDBJ Center also services a control led-access database, the Japanese Genotype-phenotype Archive (JGA. https:// www.ddbj.nig.ac.jp/jga), in collaboration with the National Bioscience Database Center (NBDC, https://biosciencedbe. jp/en/) at the Japan Science and Technology Agency (1,11). The JGA stores genotype and phenotype data from human individuals who have signed consent agreements authorizing data usage for specific research only. The NBDC provides guidelines and policies for sharing hum an-derived data (https://humandbs.bioseiencedbe. jp/en/guidelines) and reviews data submission and usage re- Strukturní databáze • PDB- Protein Data Bank. Databáze obsahuje experimentálně získané struktury proteinů, nukleových kyselin a komplexů informačních biomakromolekul. Experimental Method ProteinsJF Nucleic Acids Protein/NA Complex Other Total X-Ray 126296 2005 6525 8 134834 NMR 11040 1278 259 8 12585 Electron Microscopy 2215 31 784 0 3030 Other 253 4 6 13 276 Multi Method 128 5 2 1 136 Total 139932 3323 7576 30 150861 • NDB - Nucleic Acid Database NUCLEIC ACID DATABASE A Portal for Three-dimensional Structural Information about Nucleic Acids As of 10-Apr-2019 number of released structures: 10126 PDB formát The ATOM records present the atomic coordinates for standard amino acids and nucleotides. They also present the occupancy and temperature factor for each atom. Non-polymer chemical coordinates use the HETATM record type The element symbol is always present on each ATOM record; charge is optional. Changes in ATOM/HETATM records result from the standardization atom and residue nomenclature. This nomenclature is described in the Chemical Component Dictionary (ftp://ftp.wwpdb.ora/pub/pdb/data/monomers). Record Format C0L0MM3 DATA TYPE FCELC DEFINITION Record name 'ATOM " Integer serial 1 - I 7-11 13 - 16 17 16 - 25 13 - 26 2- 31 - 36 35 - 46 47 - 54 55 - 60 61-66 77 - 76 79 - 60 Atom name Character alcLoc Residue name resl'ame Character chair.IE -nteger AChar Real(6.3) Realie.3) Realie.31 Real(6.2) Real(6.2) IString t 2 I LString(2: resčeq Atom serial Atom name. Alternate location indicator. Residue name. Chain identifier. Residue sequence number. Code for insertion cff residues. occupancy tempFa rtor element charge PyMol Orthogonal coord: nate s for :■ -.gstr 07T.S . Ortho ATOM 2 CA GLU A 1 64 373 11 709 60 583 1 00 79 99 C Ortho ATOM 3 c GLU A 1 63 512 10 438 60 597 1 00 79 31 C ATOM 4 0 GLU A 1 63 540 9 685 61 574 1 00 79 23 0 Occup ATOM 5 CB GLU A 1 63 80Ü 12 754 59 603 1 00 79 36 C ATOM -empe 6 CG GLU A 1 62 880 13 819 60 228 1 00 78 52 C ATOM 7 CD GLU A 1 61 525 13 275 60 676 1 00 78 50 C Eleme ATQM 8 GEI GLU A 1 60 915 12 482 59 923 1 00 77 14 0 ChatgATQM 9 □ E 2 GLU A 1 61 064 13 659 61 776 1 00 77 48 0 ATOM 10 Hl GLU A 1 66 078 10 648 60 914 1 00 20 00 H ATQM 11 H2 GLU A 1 6 5 776 10 893 59 265 1 00 20 00 H ATQM 12 H3 GLU A 1 66 387 12 177 60 222 1 00 20 00 H Osnova • Úvod do bioinformatiky Definice, molekulárně biologická data, databáze Rozdělení databází, bioinformatická centra • Manipulace se sekvencemi Sekvence biomakromolekul, aminokyseliny, báze, alignment Význam alignmentu, přiložení páru sekvencí a vícenásobné přiložení • Predikce struktury proteinů Predikce 2-D struktury proteinů, predikce 3-D struktury proteinů Threading, Homology modeling, Ab initio • Proteinové rodiny Rodiny, domény, sekvenční vzory Patterns, profiles, fingerprints, databáze • Predikce genů Predikce genů u prokaryot a eukaryot, predikční nástroje a postupy Biomakromolekuly Biomolekuly jsou přirozenou součástí živých organismů. Velké molekuly. Typické malé molekuly jsou tvořeny několika atomy až několika sty atomů. Makromolekuly tvoří tisíce až miliony atomů. Základní stavební jednotky hmoty. Jsou tvořeny atomy, které navzájem spojují kovalentní vazby. Biomakromolekuly Sekvence biomakromolekul Makromolekula Stavební jednotky Typ vazby Schéma Nukleová kyselina Nukleotidy Esterová P UN / 0 °H 0//XOH Protein Aminokyseliny Peptidová OR 0 ' ^NH Y NH 0 R Polysacharid Monosacharidy Glykosidická 1012 64 106 (for 6 hexopyranoses) (20 amino acids) Polysacharidy Komplikované sekvence - alignment se neprovádí Polymer Protein Nukleová kyselina Polysacharid Počet druhů základních stavebních jednotek 20 (22) 4 (DNA) 4 (RNA) desítky Počet typů vzájemných vazeb 1 1 2x4 (pro hexosu) Práce se sekvencemi • Vyskytuje se shodná/podobná sekvence (protein/DNA) v databázi? • Jak podobnejšou podobné sekvence? • Jsou podobné, shodné, odlišné? • Alignment - srovnání (přiložení) dvou či více sekvencí (aminokyselinových, nukleotidových) na základě jejich vzájemné podobnosti. ATGTCTACTCCTGGAGCACAGCMGTCCTCTTCCGCACCGGMTTC GCAGTATTCGCGAGAGTCTCTACGAGGGCAGCTGGGCTMCGGCACCGMMGMCGTTATCGGCMTGCTAAGCTTGGCAGCCCTGTGGCCGC GACTTCTAAGGAGCTGMGCATATCCGTGTCTACACCCTCACTGMGGMACACCCTACAGGAGTTCGCCTACGACTCCGGAACCGGATGGTACAA CGGCGGGCTGGGCGGTGCMAGTTCCAAGTCGCACCCTACTCTCGCATTC TGCACAGAAGCCAGATAACACAATCCAGGAGTATATGTGGAACGGCGATGGCTGGAAGGAGGGCACCAACCTGGGAGGTGCrcrCCCCGGCACT GGAATCGGAGCCACCTCCTTCCGCTATACCGACTACMTGGCCCAAGCATCCGGATCTGGTTCCAMCTGACCTCMACTCGTCCAMGAGCCTAC GACCCGCACAMGGCTGGTACCCGGACCTCGTCACCATCTTTGACAGGGCACCGCCACGTACGGCCATTGCAGCCACCAGCTTTGGAGCCGGCAA CAGTTCCATCrACATGCGTATCrACrTTGTCMTTCGGACMCACTATCrGGCAGGTCrGCrGGGACCACGGCAAGGGCrATCA CATCACCCCAGTCATTCAGGGCTCGGAGGTCGCCATTATCAGCTGGGGCAGTTTCGCCMTMCGGGCCGGATCTGCGTCrGTACTTTCAGAATGG MCATACATTAGTGCTGTGAGCGAGTGGGmGGMTCGGGCACATGGGTCGCAGTTGGGCAGAAGTGCTCTTCCTCCTGCTTGA ATGGCTGAmTCMACGTCATCCMCCGCGCCGGCGMTTCTCGATTCCGCCGMTACCGAmCCGCGCGATmCTTCGCGAATGCCGCCGAGC AACAGCACATCAAATTGTTCATCGGCGACAGCCAGGAACCCGCCGCGTATCACAAGCTGACGACGCGCGACGGCCCGCGCGAAGCCACGCTGAAT TCCGGCAACGGCAAGATCCGTTTCGAGGTGTCGGTGAACGGCAAGCCGTCGGCGACCGACGCGCGTCTCGCGCCGATCAACGGCAAGAAGTCGG ACGGCTCGCCGTTCACGGTCAACTTCGGGATCGTCGTGTCGGAAGACGGCCACGACAGCGACTACAACGACGGCATCGTCGTGCTCCAGTGGCCG ATCGGCTGA ATGCTGGTGATTGTGGATGCCGTTACCCTGCTGAGCGCCTATCCGGAAGCCAGCCGTGATCCGGCCGCCCCGACCGTGATTGATGGTCGCCACCTG TATGTTGTTAGCCCGGGCGATGCCGCGCAGCTGGGCCATMCGATAGCCGTCTGmACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGA MCCGCGCTGGCGCTGCGCGCGGMGTGAGCGTGCTGmATTCGCmGCCCTGAMGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGC GTGATGCCGCCACCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTCCGCTGAMGATCATTATTGGCGCAGCGATGTGCTGGCG GCGGGCGCGACCACCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATGGCACCGTGAGCGGTTATTTTCGTTGGGAMCCAGCATTGMATTGC GGGCAGCCAGCCGGATACCAMCAGCCGGGCmAMCCGAGCAGCGATCGCMTGGCAACTTTAGCCTGCCGCCGMTACCGCCTrTAAAGCGA TCTTCTATGCGAACGCGGCGGATCGTCAGGATCTGMACTGmATTGATGATGCGCCGGAACCGGCCGCCACCTTTGTGGGTAACAGCGAAGAT GGTGTGCGTCTGmACCCTGAATAGCAAAGGTGGTAAAATTCGTATTGAAGCGAGCGCGAACGGCCGTCAGAGCGCGACCGATGCCCGTCTGGC GCCGCTGAGCGCGGGCGATACCGTGTGGCTGGGCTGGCTGGGCGCGGMGATGGTGCCGATGCGGATTATMTGATGGCATTGTTATTCTGCAG TGGCCGATTACCTAA ATGTCGAGCGTTCAAACCGCTGCCACTTCGTGGGGAACCGTACCGTCGATCCGTGTGTACACGGCCAATAATGGCAAGATCACCGAGCGATGCTG GGACGGGAAGGGGTGGTACACCGGTGCCTTCAACGAGCCCGGCGATAACGTCTCCGTAACCAGCTGGCTGGTCGGCAGCGCGATCCATATCCGC GTCTATGCAAGCACCGGCACCACGACCACGGAGTGGTGCTGGGACGGCAACGGCTGGACCAAGGGCGCCTACACCGCCACGAACTGA ATGCCGCTGCTGAGCGCCAGTATCGTGAGCGCGCCGGTGGTGACCAGCGMACCTATGTGGATATTCCGGGCCTGTATCTGGATGTTGCGAAAGC CGGTATCCGTGATGGCAMCrGCAGGTTATCCTGMTGTGCCGACCCCGTATGCGACGGGCMTMCrTTCCGGGTATTTATTTTGCGATCGCCAC CMCCAGGGCGTGGTGGCGGATGGTTGCrTTACGTATAGTAGCAMGTGCCGGMAGTACGGGCCGTATGCCGTTTACCCTGGTTGCGACCATTG ATGTGGGTAGCGGTGmCCTTCGTGMAGGTCAGTGGAMTCTGTTCGCGGCTCTGCGATGCATATTGATAGCTATGCAAGCCTGAGTGCGATTT GGGGCACCGCGGCACCGAGTTCTCAGGGTTCTGGTAACCAGGGTGCGGAAACGGGTGGCACCGGTGCCGGTAATATTGGTGGCGGCGGTGAAC GTGATGGCACCirrAATCTGCCGCCGCATATTAMTTCGGTGTTACCGCGCrGACCCACGCGGCGMCGATCAGACCATTGATATTTATATTGATGA TGATCCGAMCCGGCAGCCACCTTTAMGGCGCGGGCGCGCAGGATCAGMCCTGGGTACCAMGTGCTGGATTCrGGCAATGGCCGTGTTCGC GTTATCGTTATGGCGMCGGCCGTCCGAGCCGCCTGGGTTCTCGTC GTGCGGATGATGATTATMCGATGGCATCGTGTTTCTGAACTGGCCGCrGGGCrAA ATGCCGCTCCTGAGCGCCAGTATCGTGAGCGCGCCGGTGGTGACCAGCCMACCTATGTGGATATTCCGGGCCTGTATCTGGATGTTGCGAAAGC CGGTATCCGTGATGGCAMCrGCAGGTTATCCTGMTGTGCCGACCCCGTATGCGACGGGCMTMCTTTCCGGGTATTTATTTTGCGATCGCCAC CMCCAGGGCGTGGTGGCGGATGGTTGCrTTACGTATAGTAGCAMGTGCCGGMAGTACGGGCCGTATGCCGTTTACCCTGGTTGCGACCATTG ATGTGGGTAGCGGTGmCCTTCGTGMAGGTCAGTGGAMTCTGTTCGCGGCTCTGCGATGCATATTGATAGCTATGCAAGCCTGAGTGCGATTT GGGGCACCGCGGCACCGAGTTCTCAGGGTTCTGGTAACCAGGGTGCGGAAACGGGTGGCACCGGTGCCGGTAATATTGGTGGCGGCGGTAAGCT TGCGGCCGCACTCGAGATCAAACGGGCTAGCCAGCCAGAACTCGCCCCGGAAGACCCCGAGGATGTCGAGCACCACCACCACCACCACTGA Práce se sekvencemi • Vyskytuje se shodná/podobná sekvence (protein/DNA) v databázi? • Jak podobnejšou podobné sekvence? • Jsou podobné, shodné, odlišné? • Alignment - srovnání (přiložení) dvou či více sekvencí (aminokyselinových, nukleotidových) na základě jejich vzájemné podobnosti. MSTPGAQQVLFRTGIAAVNLTNHLRVYFQDVYGSIRESLYEGSWANGTEKNVIGNAKLGSPVAATSKEL KHIRVYTLTEGNTLQEFAYDSGTGWYNGGLGGAKFQVAPYSRIAAVFLAGTDALQLRIYAQKPDNTIQE YMWNGDGWKEGTNLGGALPGTGIGATSFRYTDYNGPSIRIWFQTDDLKLVQRAYDPHKGWYPDLVTIFD RAPPRTAIAATSFGAGNSSIYMRIYFVNSDNTIWQVCWDHGKGYHDKGTITPVIQGSEVAIISWGSFAN NGPDLRLYFQNGTYISAVSEWVWNRAHGSQLGRSALPPA MADSQTSSNRAGEFSIPPNTDFRAIFFANAAEQQHIKLFIGDSQEPAAYHKLTTRDGPREATLNSGNGK IRFEVSVNGKPSATDARLAPINGKKSDGSPFTVNFGIWSEDGHDSDYNDGIWLQWPIG MLVIVDAVTLLSAYPEASRDPAAPTVIDGRHLYWSPGDAAQLGHNDSRLFTGLSPGDQLHLRETALAL RAEVSVLFIRFALKDAGIVAPIELEVRDAATAVPDADDLLHPSCRPLKDHYWRSDVLAAGATTCTADFA VCDRDGTVSGYFRWETSIEIAGSQPDTKQPGFKPSSDRNGNFSLPPNTAFKAIFYANAADRQDLKLFID DAPEPAATFVGNSEDGVRLFTLNSKGGKIRIEASANGRQSATDARLAPLSAGDTVWLGWLGAEDGADAD YNDGIVILQWPIT MSSVQTAATSWGTVPSIRVYTANNGKITERCWDGKGWYTGAFNEPGDNVSVTSWLVGSAIHIRVYASTG TTTTEWCWDGNGWTKGAYTATN MPLLSASIVSAPWTSETYVDIPGLYLDVAKAGIRDGKLQVILNVPTPYATGNNFPGIYFAIATNQGW ADGCFTYSSKVPESTGRMPFTLVATIDVGSGVTFVKGQWKSVRGSAMHIDSYASLSAIWGTAAPSSQGS GNQGAETGGTGAGNIGGGGERDGTFNLPPHIKFGVTALTHAANDQTIDIYIDDDPKPAATFKGAGAQDQ NLGTKVLDSGNGRVRVIVMANGRPSRLGSRQVDIFKKSYFGIIGSEDGADDDYNDGIVFLNWPLG MPLLSASIVSAPWTSQTYVDIPGLYLDVAKAGIRDGKLQVILNVPTPYATGNNFPGIYFAIATNQGW ADGCFTYSSKVPESTGRMPFTLVATIDVGSGVTFVKGQWKSVRGSAMHIDSYASLSAIWGTAAPSSQGS GNQGAE TGGTGAGNIGGGGKLAAALEIKRASQPELAPEDPEDVEHHHHHH Význam alignmentu Identifikace sekvence v databázi Hledání podobných sekvencí v databázi Detekce mutací Hledání konzervovaných částí sekvence Odhalování příbuzenských vztahů Předpověď funkce makromolekuly Předpověď vyšších struktur LP PNTAFKAIPYANAADRQDLKLFIDDAPE PAATFVGNSEDGVRL- -PTLNSKGGKIRIE I P PNTDFRAIPPANAAEQQHIKLFIQDSQE PAAYHKLTTRDG PRE- -ATLNSGNGKIRPE LP PHIKFGVTALTHAANDQTIDIYIDDDPKPAATPKGAGAQD QNLGTKVLDSGNGRVRVI LP PNIAFGVTALVNS SAPQTIEVFVDDNPKPAATFQGAGTQDANLNTQIVNSGKGKVRVV lPPn-aFg---1anaad-QtiklfidD-p-PAAtfkgag-----1- t -tlnSgnQkiRva ASANGRQSATDARLAPLSAGD------TVWLGWLGAEDGADADYNDGIVILQWPIT VSVNQKPSATDARLAPINGKKSDGSPFTVNFGIVVSEDGHDSDYNDGrVVLQWPIG VMANGRP SRLGSRQVDIF KKS--------YFGIIGSEDGADDDYNDGIVFLNWPLG VTANGKPSKIGSRQVDIFKKT--------YFGLVOSEDGGDGDYNDGIAILNWPLG vsaNGrpSat--R---iffcka------1vyfGivgsEDGaDaDYNDGIviLqWPig Typy alignmentu Pairwise alignment - dvě sekvence WLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAMWLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAM WLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAMWU^KALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAM Multiple sequence alignment - více sekvencí WLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAMWLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAM WLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAMWLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAM WLAKALKYLMETAC^SSISTEU^RHHPRAVDAKRKSEMKRKTAMWLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAM WLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAMWU^KALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAM WLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAMWLAKALKYLMETAC^SSISTEU^RHHPRAVDAKRKSEMKRKTAM WLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAMWLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAM Pairwise alignment • Srovnání dvou sekvencí. • Sekvence mohou být přiloženy v celé své délce (global alignment) nebo jen v určitém regionu (local alignment). Vychází z předpokladu, že obě srovnávané sekvence jsou víceméně shodné v celé své délce. Alignment k sobě přikládá celé sekvence (od počátku do konce) a to včetně částí, které si příliš neodpovídají. Hledá úseky dvou sekvencí, které si podle zvolených kritérií dobře odpovídají. Nesnaží se zahrnout celé sekvence, pokud si jejich některé části neodpovídají. Algoritmy • Téměř výhradně se užívají heuristické algoritmy - nalezení výsledku v dostatečně krátkém čase. • Vývoj algoritmů je prováděn v návaznosti na srovnávání výsledků s tzv. zlatým standardem - alignment na základě známých 3D struktur. >AFL MSTPGAQQVLFRTGIAAVNLTNHLEVYFQDVYGSIRESLYEGSWANGTEKNVIGNAKLGSPVAATSKELKHIRVYTLTEGNTLQ EFAYDSGTGWYNGGLGGAKFQVAPYSRIAAVFLAGTDALQLRIYAQKPDNTIQEYMWNGDGWKEGTNLGGALEGTGIGATSFRY TDYNGPSIRIWFQTDDLKLVQRAYDPHKGWYPDLVTIFDRAPPRTAIAATSFGAGNSSIYMRIYFVNSDNTIWQVCWDHGKGYH DKGTITPVIQGSEVAIISWGSFANNGPDLRLYFQNGTYISAVSEWVWNRAHGSQLGRSALPPA >BC2LA MADSQTSSNRAGEFSIPPNTDFRAIFFANAAEQQHIKLFIGDSQEPAAYHKLTTRDGPREATLNSGNGKIRFEVSVNGKPSATD ARLAPINGKKSDGSPFTVNFGIWSEDGHDSDYNDGIWLQWPIG > BC2LD MLVIVDAVTLLSAYPEASRDPAAPTVIDGRHLYWSPGDAAQLGHNDSRLFTGLSPGDQLHLRETALALRAEVSVLFIRFALKD AGIVAPIELEVRDAATAVPDADDLLHPSCRPLKDHYWRSDVLAAGATTCTADFAVCDRDGTVSGYFRWETSIEIAGSQPDTKQP GFKPSSDRNGNFSLPPNTAFKAIFYANAADRQDLKLFIDDAPEPAATFVGNSEDGVRLFTLNSKGGKIRIEASANGRQSATDAR LAPLSAGDTVWLGWLGAEDGADADYNDGIVILQWPIT >RSL MSSVQTAATSWGTVPSIRVYTANNGKITERCWDGKGWYTGAFNEPGDNVSVTSWLVGSAIHIRVYASTGTTTTEWCWDGNGWTK GAYTATN >giI444369855|ref|ZP_21169562.1| fucose-binding lectin II [Burkholderia cenooepacia K56-2Valvano] MPLLSASIVSAPWTSETYVDIPGLYLDVAKAGIRDGKLQVILNVPTPYATGNNFPGIYFAIATNQGWADGCFTYSSKVPEST GRMPFTLVATIDVGSGVTFVKGQWKSVRGSAMHIDSYASLSAIWGTAAPSSQGSGNQGAETGGTGAGNIGGGGERDGTFNLPPH IKFGVTALTHAANDQTIDIYIDDDEKPAATFKGAGAQDQNLGTKVLDSGNGRVRVIVMANGRPSRLGSRQVDIFKKSYFGIIGS EDGADDDYNDGIVFLNWPLG >gi|283806765|pdb|2WQ4|A Chain A MPLLSASIVSAPWTSQTYVDIPGLYLDVAKAGIRDGKLQVILNVPTPYATGNNFPGIYFAIATNQGWADGCFTYSSKVPEST GRMPFTLVATIDVGSGVTFVKGQWKSVRGSAMHIDSYASLSAIWGTAAPSSQGSGNQGAETGGTGAGNIGGGGKLAAALEIKRA SQPELAPEDPEDVEHHHHHH FASTA formát >název(upopis dle vlastní volby)J SEKVENCESEKVENCESEKVENCESEKVENCESEKVENCESEKVENCEJ POVINNÉ VOLITELNÉ http://emboss.sourceforge.net/docs/themes/SequenceFormats.html Jak poznat dobré přiložení? MAM—UZDOST—STAROSTISHAMIZ—NOSTIRATOLESTI MAMRA—DOSTZESTARO--------ZITNO---------STI 18 shod 1 MAMUZDOST—STAROSTISHAMIZNOSTIRATOLESTI 37 1 MAMRADO S T Z E S T AR-------O-Z----1—TNO-STI 24 17 shod, 3 podobnosti 1 MAMUZDOST—STAROSTISHAMIZNOSTIRATOLESTI 37 1 MAMRADO S T Z E S T ARO ZITNO---------------STI 24 15 shod, 6 podobností Scoring matrix (skórovací matice) • Dvě sekvence považujeme za příbuzné, vycházejí-li ze společného předka; pak dobu potřebnou k jejich evoluci můžeme odvodit z množství rozdílů mezi nimi • Záměna aa je častější než inserce/delece. Pravděpodobnost změny jedné aminokyseliny na jinou je přímo úměrná podobnosti obou aminokyselin. • Matice vzniká přiřazením hodnoty (pravděpodobnosti) jednotlivým dvojicím aminokyselin v závislosti na jejich vzájemné „zastupitelnosti" - pravděpodobnosti substituce Substituční skórovací matrice víceméně dva typy: 1. založené na záměnnosti genetického kódu nebo vlastností aminokyselin 2. odvozené z empirických studií aminokyselinových substitucí (přesnější) Nejvíce používané jsou empirické matrice PAM a BLOSUM PAM - Point Accepted Mutation Constructed by Margaret Dayhoff in 1978. Zahrnuje pravděpodobnost záměny jedné aminokyseliny v druhou během evoluce Předpokládá, že každá další mutace nezávisí na předchozí. Odvozena z globálního alignmentu rodin proteinů (Podobnost sekvencí v rodině > 85%, vypočtena na základě 1572 změn v aminokyselinovém složení v 71 proteinových rodinách)) vysoká spolehlivost alignmentu vysoká pravděpodobnost, že záměna aminokyseliny je dána jedinou mutací Vypočtena pravděpodobnost s jakou jedna AA se změní na jakoukoliv jinou PAM1 reflektuje průměrnou záměnu 1% všech aminokyselinových pozic PAM250 (20% identita) je odvozena od PAM1 její 250-tinásobnou multiplikací (250 mutací na 100 aminokyselin) Vyšší číslo PAM matrice znamená větší evoluční vzdálenost k vysvětlení PAM 1 matice A R N D C A 9867 2 9 10 3 R 1 9913 1 0 1 N 4 1 9822 36 0 D 6 0 42 9859 0 C 1 1 0 0 9973 All entries x 104 k vysvětlení PAM250 matrice c s 9 -1 4 small, polar T -1 1 5 P A -3 0 -1 1 -1 0 7 -1 4 small, nonpolar G -3 -3 0 1 -2 0 -2 -2 0 -2 6 0 6 D E -3 -4 0 0 "1 -1 -1 -2 -1 -1 -2 1 0 6 2 5 polar or acidic Q -3 0 -1 -1 -1 -2 0 0 2 5 H R -3 -3 -1 -1 _T -2 -2 -2 -1 -2 -2 1 0 -1 -2 0 0 0 1 8 0 5 baí K -3 0 -1 -1 -1 -2 0 -1 1 1 -1 2 M -1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 1 -1 -2 -1 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 L -1 -2 -1 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 V -1 -2 0 -2 0 -3 -3 -3 -2 -2 -3 3 2 1 F -2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 Y -2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 W -2 -3 -2 -4 -3 -2 -4 -4 -3 -2 -2 -3 -3 -1 C S T P A G N D E Q H R K M Positive score - frequency of substitutions is greater than would have occurred by random chance. Zero score - frequency is equal to that expected by chance. Negative score - frequency is less than would have occurred by random chance. large, hydrophobic 4 1 4 0 -1 I L V 6 3 1 F aromatic 7 2 1 1 Y W k vysvětlení BLOSU M (Blocks Amino Acid Substitution) 1992, Henikoff and Henikoff database BLOCKS- používá koncept „bloků" k identifikaci proteinových rodin sekvenční motiv • konzervovaný aminokyselinový úsek conserved stretch of amino acids spojený se specifickou funkcí proteinu sekvenční blok • spárované motivy ze stejné proteinové rodiny bez mezer BLOSUM matrice byly vytvořeny na základě substitučních vzorů více než > 2 000 bloků (< 60 residuí) z 500 skupin proteinů nebere v potaz evoluci k vysvětle • BLOSUM62 - znamená, že ke konstrukci matrice byly použity proteiny s průměrnou identitou 62%. A A c A c c E E A c 4 2 2 1 1 výskyt každého AMK páru v každém sloupci každého bloku je sečten čísla získána ze všech bloků slouží pro výpočet BLOSUM matricí Odlišné substituční matrice jsou pro odlišné účely Matrix Best use Similarity (%)* Pam40 Short highly similar alignments 70-90 PAM 160 Detecting members of a protein family 50-60 PAM250 Longer alingments of more divergent sequences ~30 BLOSUM90 Short highly similar alignments 70-90 BLOSUM80 Detecting members of a protein family 50-60 BLOSUM62 Most effective in finding all potential similarities 30-40 BLOSUM30 Longer alingments of more divergent sequences <30 Číslování BLOSUM jde v obráceném pořadí oproti PAM (čím menší číslo, tím odlišnější sekvence byly použity) BLOSUM matice pracují obvykle lépe než PAM pro lokální vyhledávání podobností (Henikoff & Henikoff, 1993) Pro porovnání blízce příbuzných proteinů by se měla používat nižší číslo PAM a vyšší BLOSUM, pro vzdálenější vyšší číslo PAM a nižší BLOSUM Pro prohledávání databází je nejběžnější BL0SUM62 k vysvětlení Mezery (gaps) Mezery umožňují alignment sekvencí, kdy v jedné z nich došlo k deleci. Zvyšují však také možnost alignmentu náhodných sekvencí. Jejich přítomnost je proto vždy „penalizována", často více než substituce. Čím nižší je penalizace mezer, tím lepší (dokonalejší) bude alignment, ovšem z biologického hlediska může jít o nesmysl. Jednotlivé programy obvykle penalizují přítomnost mezery (gap open) a také zvyšují penalizaci s délkou mezery (gap ext). Krátká mezera: ATCTTCAGTGTTTCCCCTGTTTTGCCC-ATTTAGTTCGCTC I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I ATCTTCAGTGTTTCCCCTGTTTTGCCCGATTTAGTTCGCTC Dlouhá mezera: ATCTTCAGTGTTTCCCCTGTTTTGCCC--------------------ATTTAGTTCGCTC I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I ATCTTCAGTGTTTCCCCTGTTTTGCCCGCCCCCCCCCCCCCCCCCCCATTTAGTTCGCTC Příčiny vzniku mezer: • Bodová mutace (velmi častá příčina) • Nepřesný crossover při meióze (inzerce nebo delece řetězce bází) • DNA slippage během replikace (vzniká repetice - opakující se sekvence v řetězci) • Inzerce retroviru • Translokace DNA mezi chromozomy Mezery nacházíme na začátku řetězce, uprostřed nebo na jeho konci. CTGCGGG---GGTAAT --GCGG-AGAGG-AA- Mezery (gaps) Mezery umožňují alignment sekvencí, kdy v jedné z nich došlo k deleci. Zvyšují však také možnost alignmentu náhodných sekvencí. Jejich přítomnost je proto vždy „penalizována' často více než substituce. Čím nižší je penalizace mezer, tím lepší (dokonalejší) bude alignment, ovšem z biologického hlediska může jít o nesmysl. Jednotlivé programy obvykle penalizují přítomnost mezery (gap open) a také zvyšují penalizaci s délkou mezery (gap ext). Krátká mezera: ATCTTCAGTGTTTCCCCTGTTTTGCCC-ATTTAGTTCGCTC I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I ATCTTCAGTGTTTCCCCTGTTTTGCCCGATTTAGTTCGCTC Dlouhá mezera: ATCTTCAGTGTTTCCCCTGTTTTGCCC--------------------ATTTAGTTCGCTC I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I ATCTTCAGTGTTTCCCCTGTTTTGCCCGCCCCCCCCCCCCCCCCCCCATTTAGTTCGCTC Vysoká penalizace mezer: Hledání sekvencí velmi striktně zaměřených na podobnost s hledanou sekvencí-najde oblasti velmi příbuzných sekvencí Nízká penalizace mezer: Hledání podobností mezi sekvencemi vzdáleně příbuzných. Skóre Každé dvojici sekvencí je ve výsledku přiřazeno číslo - skóre, které určuje míru jejich podobnosti 1. identita (identity) 2. podobnost (similarity) 3. mezery (gaps) Čím vyšší je skóre, tím vyšší je podobnost. Podle použité matice může být skóre i záporné. AAEECCDDEEF AADDKKKEFGG Ve chvíli, kdy zafixujeme pozici dvou sekvencí, pak můžeme snadno vypočítat skóre pro dané přiložení (příklad BLOSUM 62): AAEECCDDEEF AADDKKKEFGG 4+4+2+2-3-3-1+2-3-2-3 = -1 AAEECCDD--EEF AA----DDKKKEFGG 4+4 +6+6 +1+5+6 = 32 AAEECCDD--EEF AA----DDKKKEFGG -10-1-1-1 -10-1 = -24 Celkové skóre 32 - 24 = 8 AAEECCDDEEF AA----DDKKKEFGG 4+4-10-1-1-1+6+6+1+1-3 = 6 Skóre 1 MAMUZDOST—STAROSTISHAMIZNOSTIRATOLESTI 37 1 MAMRADOSTZESTAR-------O-Z----I--TNO-STI 24 Gap_penalty: 1 Extend_penalty: 2 Score: 55 1 MAMUZDOST—STAROSTISHAMIZNOSTIRATOLESTI 37 1 MAMRADO S T Z E S T ARO ZITNO---------------STI 24 Gap_penalty: 12 Extend_penalty: 2 Score: 4 Alignment DNA U nukleových kyseliny nemá smysl posuzovat podobnost: Frekvence mutací všech bází je obdobná, takže nejjednodušší hodnocení je: shoda (1), neshoda (0) tím se nerozlíši výborný alignment krátkých a mizerný dlouhých sekvencí: proto penalizace záměn, např.: match score +5 mismatch score -4 gap penalty: opening -10, extending -2 Každé dvojici sekvencí je ve výsledku přiřazeno číslo skóre, které určuje míru jejich podobnosti [Range of Alignment] ,-A-\ A TTG TCAAAGACÍTTGJ0CTGATGCA T 1111 11 Mi 111 GGCAGAq^GA-JCTGACAAGGGTATCG [Mismatch^ Gap k S= ^/identities, mismatches) - D (gap penalties) Score = Max(S) Čím vyšší je skóre, tím vyšší je podobnost. Podle použité matice může být skóre i záporné. Přesto Jak statisticky významné je skóre? Pokud je podobnost dostatečně významná lze usuzovat na společné evoluční vztahy . Ale co je DOSTATEČNĚ? závisí na typu sekvence a její délce • Pravděpodobnost, že dvě rezidua v nepříbuzných sekvencích jsou identické je: 25% v NA, 5% v proteinech • Vliv délky sekvence • čím kratší sekvence, tím větší je šance, že alignment je dán náhodnou shodou. Čím delší, tím je méně pravděpodobné, že je stejná úroveň podobnosti výsledkem náhody. • kratší sekvence vyžadují vyšší cut-off pro zjištění příbuznosti než u delších sekvencí Multiple sequence alignment - MSA (mnohonásobné sekvenční přiložení) Multiple alignment slouží k: • Nalezení „diagnostického vzoru" (diagnostic patterns) na jehož základě jsou charakterizovány proteinové rodiny • Odhalení či dokázání homologie mezi novou sekvencí a sekvencemi v databázích • Určení vzájemné příbuznosti sekvencí v rámci skupiny-tvorba fylogenetických stromů • Predikci sekundární a terciární struktury nových proteinů • Navržení primerů (oligonukleotidů) pro PCR Multiple sequence alignment - MSA (mnohonásobné přiložení) • Dynamické programování (dynamic programming) - rozšíření pairwise alignmentu -náročné na paměť a čas, nevhodné pro více než 3-4 sekvence (n=rozměrný prostor) • Progresivní alignment (progressive sequence alignment) - nejčastěji používaný k vytvoření alignmentu; využívá fylogenetické informace - hierarchický, nejdříve identifikuje nejpodobnější sekvence a následně inkorporuje ostatní • Iterativní alignment (iterative sequence alignment) - odstraňuje problémy progresivního alignmentu, který je závislý na prvotním přiložení nejpodobnějších sekvencí pomocí opakování alignmentu pro podskupiny sekvencí následující po globálním alignmentu • Hledání motivů - nalezení částí konzervovaných sekvenčních motivů pomocí globálního přiložení a následně „hodnocení'' těchto úseků nezávisle na celé sekvenci Výstup CLUSTÄL 2.0.10 multiple sequence alignment PAUL RSIIL CVIIL BCLB BCLC BCLA BCLD PAUL RSIIL CVIIL BCLB BCLC BCLA BCLD PAUL RSIIL CVIIL BCLB BCLC BCLA BCLD ---LVEKLPQYDVFVDIATIPYSFDVGSWQNKVKTDÄAGEWACTVTWAGAPGVLPGAAA AIATNQGWADGCFTYSSKVPESTGRMPFTLVATIDVGSGVTFVKGQWKSVRGSAMHIDS LRETAIALFAEV3VXFIRFALKELAGIVAPIELE\TIiJi7aAV;iiACiDLLHPSCRPLKDHYW -----------------------------------------------------ATQGVFT -----------------------------------------------------AQQGVFT -----------------------------------------------------AQQGVFT KFGVGAWN----------------YFSKATPQPVQPAPVP--------TGGGERDGIFT YASLSAIWG----------------TAAPSSQGSGNQGAETGGTGAGNIGGGGERDGTFN -------------------------------------ADSQT---------SSNRAGEFS RSDVLAAGATTCTADFAVCDRDGTVSGYFRWETSIEIAGSQPDTKQPGFKPSSDRNGNFS LPANTRFGVTAFANS SGTQTVNVLVNNETA—ATFSGQSTNNAVIGTQVLNSGSSGKVQV L PANT S F GVTA FANAANTQ TIQVLVDNWK—ATFTGSGTSDKLLGSQVLNSGS-GAIKI LPARINFGVTVLVNSAATQHVEIFVDNEPR--AAFSGVGTGDNNLGTKVINSGS-GNVRV LPPNIAFGVTALVNSSAPQTIEVFVDDNPKPAATFQGAGTQDANLNTQIVNSGK-GKVRV LPPHIKFGVTALTHAANDQTIDIYIDDDPKPAATFKGAGAQDQNLGTKVLDSGN-GRVRV IPPNTDFRAIFFANAAEQQHTKLFIGDSQEPAAYHKLTTRDGPRE—ATLNSGN-GKIRF LPPNTAFKAIFYANAADRQDLKLFIDDAPEPAATFVGNSEDGVRL—FTLNSKG-GKIRI quence Alignment Ediloi 5equence Alignment ¥*w Accessor y Appfcation RNA World Wide Web Options Window Help 'D:\SkoldWyjkd\MSA data\BCI_!pctins seq.aln Q Courier ]\ivi Made: |Sdect;Side ■][Ťi~3 B Selection: 0 3 total sequences ruler ail1 PAUL R3IIL CVIIL BCLB BCLC L": C L A BC1D Clustal Cons LVIVD VTLL3 V-PE .SRDP . .PTVID R HL V VV3P -D... QL HNDSRL FT LSP DQLHLRET L LR EV3VL • IR LKD IV PIELEVRD T VPD DDLLHP3CRPLKIiH\"IR3DVL * Jdlview 2.3 Fie Tools Help Window D:\SkolaWyuka\MSA data\BCLIectins seq.aln Fie Edit Select View Format Colour Calculate Web Service "A&J1-IU RSIU1-113 CVKU1-113 3CLB/1-243 BCL&1-Í71 SCLA/1-12B 3CLai-!BB L P A L P A L PAR LPP N L P P H I PP LPP 190 P F 6 V AFA S OT SFOV AFA AANT NFSV VLV SAA T AFOV ALV S AP KFOV AL HAANO D F R A I F fKaIeQ AFkAIFYA AADR VNVLVNNE A ■A F 500 S IOVLvInvVK -A F TO SO HVE I F vInEPR - - AAF SOV^3HnnI| I EVFVDDNPKPAA F QO AO qIaNLN IDIYiHdPKPAA FkOAOAoBuNLO H I K L F lolsQEPAAYHKLTTROOPRE■ D L K L F I D D A P E P A A F VO N S E DO V R L ■ N N Avtao^Qs Si sIkllo OVL OS OAI KV I ■j I V IVU os SI -ON ■ 'L «H fO^EkI ľ 6 6 3 486676 6 4 4 4 5 " 5 353-- 5^3^4~345245--36 54- 4 TLPPNTAFGVTA+ANAA+ TOT I + VFVDDEPKPAATF + GAGT + DANLGTQVLNSGS■G K V R MSA - programové balíky Za posledních 25 let vzniklo přes 50 MSA programových balíků (Wallace, I. M., O'Sullivan, 0., Higgins, D. G. and Notredame, C. (2006). M-Coffee: combining multiple sequence alignment methods with T-Coffee. Nucleic Acids Res. 34, 1692-1699.) • Clustal W (Thompson et al., 1994) • Clustal X (Thompson et al., 1997) • Dialign2 (Morgenstern, 1999) • T-Coffee (Notredame et al., 2000) • MAFFT (Katoh et al., 2002) • MUSCLE (Edgar, 2004) * - identické residuum ve všech sekvencích • Kalign (Lassmann, 2005) _ si|ně konzervovaný sloupec - slabě konzervovaný sloupec IPPNTĽ F]iAIFFANAAEQQH LPPNTAFKAIFYANAADRQlf lppniäfgvtalvnssapqJ lpphikfgvtalthaandqt )L KLFIGDSQEPAAYHKLTTRDGERE--ATLNSGNGKIRFE KLFIDDAPEPAATFVGNSEDGVR! j— FTLNSKGGKIRIE ĽVFVDDNPKPAATFQGAGTQDÍNÍjNTQIVNSGKGKVRVV DIYIDDDPKPAATFKGAGAQDCNJjGTKVLDSGNGRVRVI I I BLAST (Basic Local Alignment Search Tool) Heuristický algoritmus jehož základem je hledání slov (několikapísmenných sekvencí), s dostatečnou podobností (poskytují dostatečně vysoké skóre v substituční matici). The BLAST Search Algorithm query word (IV= 3) Query: GSVrDTTCSCBLAALLNKCKTÍ'gGQRLVNQHIKQPLHDraRIEERLHLVEÍirVEDAELRCfrLQEIlI. TOO 18 PEG IS PRC 14 PKO 14 PNC 13 PDO 13 PKG 13 pne i3 neighborhood JH [I— score threshold PON 12 (T = 13) Ouery: 325 SLAALLNKCKTTQÍiQRLVNQUIKQPLHDKNRIEERLÍJLVEA 36S +LA++L+ TP G R++ +11+ P+ D + ER + A Stoce: 290 TLASVLDCTVTHlbSRHLKRBLHHPVRDTRVLLEROaTIGA 330 neighborhood words BLAST algoritmus Query sequence: PQGEFG Tvorba k-písmenných slov ze vstupní sekvence pro proteiny typicky 3-písmenných (v případě DNA 11-písmenných) Porovnání slov na základě substituční matice algoritmus BLAST hledá na základě vloženého skóre slova, která jsou podobná každému slovu v zadané sekvenci. Vyhovující slova jsou následně uspořádána. Wordl:PQG Word 2: QGE Word 3: GEF Word 4: EFG * Prohledání databázových sekvencí Je hledána shoda s nalezenými vysoce podobnými slovy. Rozšíření slov na segmenty Přesné shody slov s databázovými sekvencemi jsou rozšiřovány oběma směry. To pokračuje dokud skóre pro tuto dvojici sekvencí je dostatečně vysoké. Novější verze BLASTu (BLAST2) má mj. níže nastavenu hladinu pro hledání podobných slov, což rozšiřuje možnost nalezení vzdálenějších homologů. Quer,'sequence: R P P Q G L F Database sequence: D P PEG V V ^-*Exact match is scanned. Score:-2 7 7 2 6 1 -1 L»-HSP Optimal accumulated score = 7+7+2+6+1 = 23 High-scoring Segment Pair (HSP) Vystup z BLASTu Distribution of 73 Blast Hits on the Query Sequence »> YP_002232S17 lectin [Burkholderia cenocepacia J2315] S=488 E=3 9e-173 Color key for alignment scores Query 4 0 120 160 200 2/10 □ Download - GenPepI Graphics fucose-binding lectin II [Burkholderia multivorans ATCC BAA-247] Sequence ID: reflZP 15916739 11 Length: 274 Number of Matches: 1 > See 1 more litlets) Range 1: 31 to 274 Ce-rect Grscr :s score Expect Method 443 bits(1140) 4e-15S Compositional matrix adjul Query 2 Sbjct 31 Query 62 Sbjct 91 Sbjct Sbjct 211 QPFTHDDLYALLQLAGNDATAVC QPFTHDDLYALLQLAGNDA AV( QPFTHDDLYALLQLAGNDAKAVC SFDVGSWQNKVKTDAAGEWAC1 SFDVGSHQNKVKIDAAG+WAC1 SFDVGSWQNKVKTDAAGQVVACl PAPVPTGGGERDGI FTIPPNIAi P GGGERDG+F IPPNIA1 PDTATAGGGERDGVFNLPPNIAI LNTQIVNSGKGKVRVWTANGKI LNTQIVNSG GKVRVWT NGK! INTQIVNSGNGKVRWVTVNGKI Query 240 WPLG 243 Sbjct 271 WPLG 274 B Download - GenPeot Graphics sugar-binding lectin protein [Ralstonia solanacearum PSI07] Sequence ID: reflYP 003750856 II Length: 114 Number of Matches 1 > See 3 more litle(s) Range 1: 3 to 114 Ge- = e::: :--3c- :i Score Expect Method Identities Positives Caps 124 brts(312) 2«-32 Compositional matrix adjust. 62/114(54%) 80/114(70%) 2/114(1%) Query 130 RDGIFTLPPNIAFGVTALVNSSAPQTIEVFVDDKPKPAATr 2GAGTQDAN1HTQIVNSGK + G+FTLP N FGVTA N++ QTI+V VD+ K ATF G+GT D L +Q++NSG+ Sbjct 3 QQGVrTLPAKTKFGVTAFANAANTQTIKVLVDNVVK—ATFSGSGTSDK1LGSQVLNSGR Query 190 GI(VRVVVIANGKPSHGSRQVDIFKKIYFGLVGSEDGGDGDrarx;iAIUn.PLG 243 G V++ V+ NGKPS + S Q + K F +VGSED D DYNDGIA+LNWPLG Sbjct 61 GAVQIQVSWGKPSDLVSNQTILANKLNFAMVGSEDSSDNDYNDGIAVLNWPLG 114 B Download - GenPept Graphics fucose-binding lectin PA-IIL (Pseudomonas aeruginosa ATCC 25324] Sequence ID: reflZP 15618368.11 Length: 115 Number of Matches: 1 p See 1 more titlels) Range 1: 5 to 115 GeePept Grach.cs Score Expect Method Identities Positives Gaps 117 bits(2941 7e-30 Com->os tional ma-r :< acjjst. tl/:iS(54«*; 77 113:63 = :; 3::3:: = :; Query 132 GIFTLPPNIAFGVTALVNSSAPQTIEVFVDDNPKPAATFQGAGTQDANLNTQIVMSGK-G G+FTLP N FGVTA NSS QT+ V V N + AATF G T +A + TQ++NSG G Sbjct 5 GVFTLPAOTQFGVTAFANSSGTQTVNVLV—NNETAATFSGQSTNKAVIGTQVLNSGSSG Query 191 KVRVVVTANGCTSKIGSRQVDIFKKTYFGLVGSEDGGDGDYNDGIAILNHPLG 243 KV+V V+ NG+PS + S QV + + F LVGSEDG D DYND + ++NWPLG Sbjct 63 KVOVQVSTOGRPSDLVSAQVILTNELNFALVGSEDGTDHDYNDAVWINWPLG 115 1E5 e: Osnova • Úvod do bioinformatiky Definice, molekulárně biologická data, databáze Rozdělení databází, bioinformatická centra • Manipulace se sekvencemi Sekvence biomakromolekul, aminokyseliny, báze, alignment Význam alignmentu, přiložení páru sekvencí a vícenásobné přiložení • Predikce struktury proteinů Predikce 2-D struktury proteinů, predikce 3-D struktury proteinů Threading, Homology modeling, Ab initio • Proteinové rodiny Rodiny, domény, sekvenční vzory Patterns, profiles, fingerprints, databáze • Predikce genů Predikce genů u prokaryot a eukaryot, predikční nástroje a postupy Predikce struktury proteinů ADSQTSSN RAG EFSIPPNTDFRAIF FANAAEQQHIKLFIGDSQEPAAYHK LTTRDGPREATLNSGNGKIRFEVSV NGKPSATDARLAPINGKKSDGSPF TVNFGIWSEDGHDSDYNDGIWL QWPIG primární (sekvence) terciární conf ]iiiii.a.iiiiiiiiaiBiiiiiiniiinniiii.iE Pred:__| _r— _ Pred: CCCCCEECCCCCCCCCCCCEEEECCCCCEEEEEEECCCCC AA: DS Q EPAAY HKLTTRDGPR EATLN SGNGKIRFEV SVNGK PS 50 60 70 80 Confi ll.Ba.B.B.aillll[IlliÍllll[]ÍllBÍlÍÍDlÍia Predi _f^«h —'■._j— _ Pred: CCHHEEEECCCCCCCCCCCEEEEEEEECCCCCCCCCCCEE AA: ATDARLAPINGKKSDGSPFTVNFGIWS EDGHDSDYNDGI 90 100 110 120 sekundární kvartérní Aminokyseliny s podobnými vlastnostmi mohou plnit v proteinu stejné funkce - bývají vzájemně zastupitelné Predikce struktury proteinů Predikce struktury proteinů Predikce 2-D struktury proteinů • Stabilní konformace polypeptidového řetězce. • Důležité pro udržení proteinové 3-D struktury. • Cca 50 % aa residuí je součástí a-helixů nebo p-skládaných listů. • Predikce sekundárních struktur znamená předpověď zda residuum spadá mezi H (helix), E (list) nebo C (smyčka). • Důležité pro klasifikaci proteinů. • Separace domén a funkčních motivů. • Sekundární struktury jsou mnohem konzervovanější než aminokyselinová sekvence. • Předpověď sekundárních struktur předchází obvykle jako mezikrok při předpovědi terciární struktury při threadingových metodách. Predikce 2-D struktury proteinů • Rozlišujeme tři základní typy • H-helix • E-p-list • C/(-) - smyčka/náhodné klubko (coil) - někdy jsou rozlišovány tyto dvě varianty • S dobrou přesností lze určit helix (jejich tvorba je určena interakcemi „krátkého" dosahu), u (3 -listu (interakce „dlouhého" dosahu) úspěšnost určení 2D struktury klesá. • Některé programy přidávají i číslo vyjadřující pravděpodobnost pro daný AK zbytek (např. H 60% - znamená, že s 60% pravděpodobností se jedná o helix). Typické znaky a -helix 1st helix in Myoglobin Polar face 4 Hydrophobic face ©O ° ~QQeG*P*fiO Často je helix částečně exponovaný - tj. jedna strana je otočena dovnitř proteinu (hydrofobní), druhá ven (hydrofilní) Potom pro 3.6 helix (a-helix) platí, že i, i+3, i+4 & i+7 -té reziduum míří na tutéž stranu. Jsou-li všechna hydrofobní či naopak hydrofilní = zřejmě a -helix icKe znaKy p -nst (musí být stabilizován jinou částí polypeptidového řetězce!) U (3 -listu se střídají boční řetězce po 180° pro částečně zanořený (3 -list platí, že každé liché reziduum je polární, každé sudé nepolární, u plně zanořeného jsou všechna nepolární... tj. residua směřující na stejnou stranu by měla mít stejný charakter Second strand in CD8 Polar face Hydrophobic face lili tUt i t It c c c c "> "V "S "\ /--k. ~\ r ,r~ -x J" -y_ n» «n an nn im iut nn -nvr Parallel MIX Antiparallel Predikce 2-D struktury proteinů Predikční algoritmy 1. generace: ab-initio, vychází z fyzikálně-chemických vlastností a ze statistiky pro jednotlivá rezidua (Chou-Fasman, GOR (Garnier, Osguthorpe, Robson)) 2. generace: plus incorporation of more local residue interactions, zahrnovala i vliv nejbližších AK na zkoumané reziduum - předpověď max. 60% správnost, u (3 -listu do 40% 3. generace: homology-based models, zahrnuje navíc multiple sequence alignment a využívá skutečnosti, že 2D struktura se zachovává déle než sekvenční podobnost - až 80% spolehlivost (závisí na metodě) Plus využití skrytých Markovových modelů a neuronových sítí 1. Generace - ab inicio Relative Amino acid Propensity Values for Secondary Structure Elements Used in the Chou-Fasman Methods Amino Acid (a-Helix) P 03-Strand) P (Turn) Alanine 1.42 0.83 0.66 Arginine 0.98 0.93 0.95 Asparagine 0.67 0.89 1.56 Aspartic acid 1.01 0.54 1.46 Cysteine 0.70 1.19 1.19 Glutamic acid 1.51 0.37 0.74 Glutamine 1.11 1.11 0.98 Glycine 0.57 0.75 1.56 Histidine 1.00 0.87 0.95 Isoleucine 1.08 1.60 0.47 Leucine 1.21 1.30 0.59 Lysine 1.14 0.74 1.01 Methionine 1.45 1.05 0.60 Phenylalanine 1.13 1.38 0.60 Proline 0.57 0.55 1.52 Serine 0.77 0.75 1.43 Threonine 0.83 1.19 0.96 Tryptophan 0.83 1.19 0.96 Tyrosine 0.69 1.47 1.14 Valine 1.06 1.70 0.50 3. Generace - Homology-based methods MSA - i Predikce sekundárních struktur pro každou sekvenci ..... HHHCHCCEEEECCHH fttovam predpovezene HHHHHCCEEEECCHH Mkundami struktury ECCHHCEEEECCCEE doAApnlozen, HHHHHCCCCEEECCH HHHHCCCEEEECHHC i Konečná předpověď Založená na konsensuální HHHHHCCEEEECCHH sekvenci 3. Generace - neuronové sítě Hidden Sekvence se známou Trénink, přiřazování Aplikace nalezených sek. strukturou Váh jednotlivým funkcím algoritmů na neznámou sekvenci Predikce 2-D struktury proteinů Programové balíky • AG ADI R - An algorithm to predict the helical content of peptides • APSSP - Advanced Protein Secondary Structure Prediction Server • GOR-Gamier etal. 1996 • HNN - Hierarchical Neural Network method (Guermeur, 1997) • HTMSRAP - Helical TransMembrane Segment Rotational Angle Prediction • Jpred - A consensus method for protein secondary structure prediction at University of Dundee • JUFO - Protein secondary structure prediction from sequence (neural network) • nnPredict - University of California at San Francisco (UCSF) • Porter - University College Dublin • PredictProtein - PHDsec, PHDacc, PHDhtm, PHDtopology, PHDthreader, MaxHom, EvalSecfrom Columbia University • Prof - Cascaded Multiple Classifiers for Secondary Structure Prediction • PSA - BioMolecular Engineering Research Center (BMERC) / Boston • PSIpred - Various protein structure prediction methods at Brunei University • SOPMA - Geourjon and Deléage, 1995 • SSpro - Secondary structure prediction using bidirectional recurrent neural networks at University of California • DLP-SVM - Domain linker prediction using SVM at Tokyo University of Agriculture and Technology Predikce 3-D struktury/foldu proteinů Klasifikace proteinů Předpověď funkce Vytvoření modelu pro další studium Threading - „navlékání" Homology modeling Ab initio metody Predikce 3-D struktury/foldu proteinů -Threading • „Navlékání" = rozpoznání a přiřazení proteinového foldu aminokyselinové sekvenci. • sekvence je porovnávána s databází existujících foldů (3D profilů) a na jejich základě jsou konstruovány 3D- modely. • 3D profil - každému reziduu v 3D struktuře je přiřazena environmentálni proměnná (obsah polárních atomů v postranním řetězci, skrytá plocha, sekundární elementy, apod.) vycházející z předpokladu, že okolí rezidua je více konzervováno než aminokyselina samotná. • Reziduum může být také popsáno pomocí svých interakcí. • Výsledná kvalita modelu shoda je popsána pomocí Z-skóre nebo energie. Často využíváme k hledání funkce neznámého proteinu a k odhadu 3D struktury Predikce 3-D struktury/foldu proteinu - Threading SDVDIEAGQTLVQVVNISNGETWVAIQLPAQYRSFDLVFENVSPSTSGSVLVAQMAPQSGGVYGSNYS GSGWGNDLGGGGFYGYSEAKWMCLWPANRSGPNSKTGIYGTCKLMNLNQSNAVPSVTSNLFAPTAY KNEPGYANVGGCCQKIRGLASSIQFAFALHGGNVPQNTDTFSGGTIKVYGWN 3D-fold calculation based on known structures "Quality" scores Predikce 3-D struktury/foldu proteinů - Homology modeling • Přiložení cílové sekvence se sekvencí homologního proteinu se známou 3D strukturou • Extrakce uhlíkové páteře ze struktury templátu a umístění postranních řetězců • Modelování otoček a smyček • Minimalizace energie • Validace modelované struktury MODELLER Mostly used program in academic environment for serious homology modeling SWISS-MODEL An automated knowledge-based protein modelling server Obvykle se snažíme předpovědět skutečnou strukturu proteinu k další práci (predikce vazebných míst, dokování ligandů,...) Predikce 3-D struktury/foldu proteinů -Ab initio • Přímý výpočet nativní konformace (struktury) proteinu pouze ze sekvence. • Nativní konformace je taková, která má ze všech možných nejnižší energii. • Navzdory rozvoji výpočetní techniky, prohloubení znalostí o proteinech a vývoji metodiky se stále jedná o nevyřešený problém. • Budoucnost??? De novo modelling with Rossetta 1-9 10-18 19-27 28-36 37-45 46-54 Native- fragments are selected from known structures the window-fragment matches are calculated using - PSI-BLASTto build a profile model of the sequence - the predicted secondary structure of the sequence Structures of similar local sequences—> >VV Aflr W fV\V^ r\ w *V«-H'(*-^s-fjr<^ "surds' A« r^X w- fWs V~v y*v ■*S>W *A«^ /t< W -t*Ss P^a- W Osnova • Úvod do bioinformatiky Definice, molekulárně biologická data, databáze Rozdělení databází, bioinformatická centra • Manipulace se sekvencemi Sekvence biomakromolekul, aminokyseliny, báze, alignment Význam alignmentu, přiložení páru sekvencí a vícenásobné přiložení • Predikce struktury proteinů Predikce 2-D struktury proteinů, predikce 3-D struktury proteinů Threading, Homology modeling, Ab initio • Proteinové rodiny Rodiny, domény, sekvenční vzory Patterns, profiles, fingerprints, databáze • Predikce genů Predikce genů u prokaryot a eukaryot, predikční nástroje a postupy Proteinové rodiny - klasifikace proteinů Proteiny mohou být rozděleny do skupin na základě sekvenční a strukturní podobnosti. Lze využít k predikci funkce nově identifikovaných proteinů. Proteinová rodina - skupina evolučně příbuzných proteinů (společný předek), s podobnou funkcí, strukturou a sekvencí. Superfamily /-\ Family A Family B J Family C J Subfamily A2 Subfamily Bl Subfamily I B2 J Subfamily B3 Hierarchické uspořádání proteinových rodin -nadrodina, rodina, podrodina. https://www.ebi.ac.uk/training/online/course/protein-classification-introduction-embl-ebi-resou Proteinové domény - klasifikace proteinů Proteinové domény jsou konzervované funkční a/nebo strukturní části proteinu. Většinou jsou nezávislé, tj. schopné správného sbalení a zachování funkce i po oddělení od zbytku proteinu. Určitá konkrétní doména se může vyskytovat v různých proteinech. Doména vs. podjednotka B C Pyruvátkinasa, tři domény + jedna krátká Proč detegovat domény? PLLSASIVSAPWTSETYVDIPGLYLDVAKAGIRDGKLQVILNVPTPYATGN NFPGIYFAIATNQGWADGCFTYSSKVPESTGRMPFTLVATIDVGSGVTFV KGQWKSVRGSAMHIDSYASLSAIWGTAAPSSQGSGNQGAETGGTGAGN IGGGGERDGTFNLPPHIKFGVTALTHAANDQTIDIYIDDDPKPAATFKGAGA QDQNLGTKVLDSGNGRVRVIVMANGRPSRLGSRQVDIFKKSYFGIIGSED GADDDYNDGIVFLNWPLG ERDGTFNLPPHIKFGVTALTHAANDQTIDIYIDDDPKPAATFKGAGAQDQN LGTKVLDSGNGRVRVIVMANGRPSRLGSRQVDIFKKSYFGIIGSEDGADD DYNDGIVFLNWPLGPLLSASIVSAPWTSQTYVDIPGLYLDVAKAGIRDGK LQVILNVPTPYATGNNFPGIYFAIATNQGWADGCFTYSSKVPESTGRMPF TLVATIDVGSGVTFVKGQWKSVRGSAMHIDSYASLSAIWGTAAPSSQGSG NQGAETGGTGAGNIGGGGKLAAALEIKRASQPELAPEDPEDVEHHHHHH EME-OSS_ 001 : EM502 2 001 : EMB033_ 001 : EMEOSS_ 001 51 ::::::: 001 : i::5c f f 001 101 EME-OSS 001 3Í ZV.ŽZ ž ž 001 151 zy.zz ž ž 001 9 C EMB033_ 001 201 zy.žz ž ž 001 136 001 251 j : . ; ; 001 186 EM5033 001 272 EMB033_ 001 236 zy.zz ž z 001 284 51 !rLGTFr.TL£3G:iGR'--RVr^-lAÍlGRP3RLG3RQ\ľDIFKK3YFGIIS3EDSAĽ -PLL3A3ru'3ÄPVVT3ETYVDIPGLYLDVÄKASIRD I I I I I I I I I I I I I I I: I I I I I I I I I I I I I I I I I 11 I I 1111 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I 11 111111111 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I 11 MPFTLVMIDVGSGVTFVKGQWK3VRGSAMHIDSYASL3AT)fGTAA?SSQ I I I I I I I I I I I I I I I I I I I I I I . I I : -KLÄÄÄ- I .. I -LEIK- : -RÄ3---- -:;e- ::.I I .. I. : .: . -LAPEĽPEDVEHHH- -HHH Sekvenční vzory, další charakteristiky proteinů Sekvenční vzory - skupina aminokyselin spojovaných s určitou funkcí nebo charakteristikou, může být důležitá pro celkovou funkci proteinu. Aktivní (katalytická) místa, vazebná místa, místa pro posttranslační modifikace, repetice. Další charakteristiky proteinů („signatures") - na základě porovnání příbuzných proteinů (MSA) je možné vytvořit model (v matematickém smyslu slova) typický pro určitou skupinu proteinů (patterns, profiles, fingerprints). DOMAIN REPEATS T ACTIVE SITE BINDING SITE Q&E940 BOVIM...........MPREDRAIhys N YFI K 11 QL LI) li yp K( ( I VGA H vgs KQKQy IRHS «1 AO HIIHAH hp Pí DRATMSH YFI KIIql LDPlfPKCF Ivca n vgs kqmqqiims ttl.AD HOUSE HPPI liRAI hksn YFLKI IQLLDDÍPKCFI yca M V6SKQHQQ1 RHS RLAORAT ...........HPR i: DR AI HtS H YF I Y I 1 QL LU H yp K( f I vg a H vgs KQHQy I RMS RLAOCÍlCK.......----MPREDRATnSM YFNKI IQLLIllíITPKCFV yca NV6SKQMQQIRH! R1A0 RAHSY-----------HPREDRATWlSN YFLXII QL LDDlfPK Cf I vca N VGS KQWOO IRK: Q7ZUC3 IRA RE --.....----HP R E DRM IIkS M YFLKI IQLLnUTTKCFXVCA NVBIKQHQnr IR] : RLAO ICTFW hphei)KAT WKSN YFLKI1 QL LMDlfP KCFI vca NVGSKQHQT IR] S 81AO _DFOHť HVHFHKAAWÍAQYFIKVvJlFIH FPKfFIVCA NVC8KQH0K1RT RLAO DICDI -----------HBIaB SKR K LFIEKAT KLFII ITJKMI V AE A r vgs SQLQKIRK S QS*LPO~DICDI --.....----HlfAfi SKR 141FIEKATKLFTTVTJKMIVaea» vosSQLQK 1 RKS Jtl.AO I>1 AMI HAKLSKQOK y h Y IIKI. S S 1.1 yy YS K 1i.I vh V§H vsi MQHAS vrk S RLAO IOLAC.....MIOLAVTTT KKIAKWKYDEVAELT^CLKTlKTIIIAMIfBFPAdkLHEIRKK RLAOROLTO----MRIHAVIT OKRKIAKH IEEVXELEQKI HIAO SUl.SU----NKRLALALKQRKfftSt Hl AO AERFE HSVVSLVGQHVKREKPIPEIffTLHLRELE RLAO PYRAE -MMlAIOKRRYVRimjlďAk vk I RIAO MKIAí ------KJLEEXHKT EKIPvHKXDE RLAO MET HA------WLEERNHTEHXPQmcoE RLAO ARCFW HAAVIÍGS P p F yk V i: ,\Y I I 1 K f: M I 9 5 K [' V V a I ys I II H v [' hCQHQK I Rl: 1 KLAO KETKA MAVKAKCyPi1 SCYÍ PKVAEHKKR E VKÍ LKfLMm ye H VCLVOLfG ip A 1'QLQE 1ÍAK RLAO HETTH-------------HAKVAEHKKK E VQELHDL IKGYEVVGI AMLADIP AI yl Q> MRij! RLA0~WTTL-------MITAESEKKIWnlEEVHKLKfcLKHCQ 1 VALVUMmf: vpakQLQi IRmk RLAO METvA-------MIDAKSE HKIAPWXIE E VHALK|L LKSamvIalIDMME vpA VQLQE IRDK Kl AO hkt.IA --------METKVKAKVAPWIi E E vk T LKBL IK5KP VVAIVDMMDVP A l'QLQl IRt>k LW> PAL PAL PAL -PAL SAL -PAL - PAL -POL ■PELD -PELD ľyil IDTK AVV I HCKHTHHí K A IRGHI. N f AVV t HCKHTKHP KAIRGHL N H AVV t HCKHTKHP KA 1RCKI. N N AVV I HCKHTKHP KA1RCBL h h I RUK - AVVI MGKHTKMH.RA IRCBL N rl IMK AVYIHCKHTHHFKAIRGKL NN l-RCK AVV t MCJCHTKMPKA IRC HI NN LRGK AIVLHCKHTHHP KA1RCRL N U IRGI AVV I HCKHTKHP K A IRC HL N N IRGI CAVLHCRKTHIRRYIRTJLADSK IRGI 6AYLMCKKTHIHKYIRDLADSK UBX AtlLMOKHTRIRIALKKMLQAV LtCK ADIIVTEHHLFK IALR>a|---- HRCH Al 1KVTKHTLFS1AARNAS-----LDŤB LRGK ATIRVTKNTLFK1AAKNA6 tlUB LWKK YVMMVAIKRl n RAMI A AC I E - - LOM GVIIIIKI'TLFK 1AFTK VTCC 1l'AE LKI'v - AVI.KVBRHTLTI RALHIJLG-----ETIP l-Knv AVIKVBRHTETI RALHQL0-----RIEP I'RCK A] 1 KVVKHT1 1 1 HAI .DAI G GUYI LRí RUT 11 RHBRHT1.HP I ALI V.K LUE R pf I I LRDS ALIRHBRKTLISLALEKABKEL ENTD II GTHTLKH1IMTL II DQHTLKMSRHT1 VKLRI 1MSF1SI I 1 S I AI.l K Alilšl L l-Hfi IH8 RHT L t e lup npTkf nn ICH B RH TI IK RAY f E V AMF. TOM P E F IKBRMTLI[RALlEAAfiI MHPKL Identifikace konzervovaných aminokyselin nezbytných pro funkci proteinů pomocí MSA „Patterns, profiles, fingerprints'' • Patterns - některé sekvenční vzory (aktivní místa enzymů) jsou tvořené jen několika aminokyselinami, které je možné identifikovat pomocí MSA. • Profiles - odvozeny z MSA, vyhodnocením frekvence výskytu aminokyselin na každé jednotlivé pozici. Využívány k tvorbě proteinových rodin. https://www.ebi.ac.uk/training/online/course/protein-classification introduction-embl-ebi-resou Sequence alignment Extract pattern sequences i L KLISG I HESAT K RDLSC P ESTIS 1 Build regular expression 1 [AC]-x-V-x(4)-{ED} [Ala nebo Cys]-cokoliv-Val-cokoliv-cokoliv-cokoliv-cokoliv-{cokoliv kromě Glu nebo Asp} „Patterns, profiles, fingerprints'' • Fingerprints - většina proteinových rodin je charakteristická přítomností většího množství konzervovaných úseků. Fingerprint je konkrétní počet a uspořádání těchto motivů v proteinech. Seq uence alig n ment Define motifs Profiles Fingerprint signature l'K........ Vytvoře J Amino acids relatively well conserved across all chloride channel protein family memhers Amino acids uniquely conserved in chloride channel protein i suhfamily members Identifikace podrodiny v rámci rodiny s využitím fingerprint Klasifikace proteinů - databáze Hl Přnm ProDom if CATH-Gene3D database describes protein families and domain architectures in complete genomes. Protein families are formed using a Markov clustenng algonthm, followed by multi-linkage clustering according to sequence identity. Mapping of predicted structure and sequence domains is undertaken using hidden Markov models libraries representing CATH and Pfam domains. CATH-Gene3D is based at University College, London, UK. if CDD is a protein annotation resource that consists of a collection of annotated multiple sequence alignment models for ancient domains and full-length proteins. These are available as position-specific score matrices (PSSMs) for fast identification of conserved domains in protein sequences via RPS-BLAST. CDD content includes NCBI-curated domain models, which use 3D-structure information to explicitly define domain boundaries and provide insights into sequence/stnjcture/function relationships, as well as domain models imported from a number of external source databases. 9 MobiDB offers a centralized resource for annotations of intrinsic protein disorder. The database features three levels of annotation: manually curated, indirect and predicted. The different sources present a clear tradeoff between quality and coverage. By combining them all into a consensus annotation, MobiDB aims at giving the best possible picture of the "disorder landscape" of a given protein of interest, if HAMAP stands for High-quality Automated and Manual Annotation of Proteins, HAMAP profiles are manually created by expert curators. They identify proteins that are part of well-conserved proteins families or subfamilies. HAMAP is based at the SIB Swiss Institute of Bioinformatics, Geneva, Switzerland. 9 PANTHER is a large collection of protein families that have been subdivided into functionally related subfamilies, using human expertise. These subfamilies model the divergence of specific functions within protein families, allowing more accurate association with function, as well as inference of amino acids important for functional specificity. Hidden Markov models (HMMs) are built for each family and subfamily for classifying additional protein sequences. PANTHER is based at at University of Southern California, CA, US if Pfam is a large collection of multiple sequence alignments and hidden Markov models covering many common protein domains Pfam is based at EMBL-EBI, Hinxton, UK. #PIRSF protein classification system is a network with multiple levels of sequence diversity from superfamilies to subfamilies that reflects the evolutionary relationship of full-length proteins and domains PIRSF is based at the Protein Information Resource. Georgetown University Medical Centre, Washington DC, US. (f PRINTS is a compendium of protein fingerprints A fingerprint is a group of conserved motifs used to characterise a protein family or domain. PRINTS is based at the University of Manchester, UK. # ProDom protein domain database consists of an automatic compilation of homologous domains. Current versions of ProDom are built using a novel procedure based on recursive PSI-BLAST searches. ProDom is based at PRABI Villeurbanne. France. SFLD @ SMART 9 PROSÍTE is a database of protein families and domains. It consists of biologically significant sites, patterns and profiles that help to reliably identify to which known protein family a new sequence belongs. PROSÍTE is base at the Swiss Institute of Bioinformatics (SIB), Geneva, Switzerland 9 s=LD (Structure-Function Linkage Database) is a hierarchical classification of enzymes that relates specific sequence-structure features to specific chemical capabilities. if SMART (a Simple Modular Architecture Research Tool) allows the identification and annotation of genetically mobile domains and the analysis of domain architectures. SMART is based at at EMBL, Heidelberg, Germany f SUPERFAMILY is a library of profile hidden Markov models that represent all proteins of known structure. The library is based on the SCOP classification of proteins: each model corresponds to a SCOP domain and aims to represent the entire SCOP superfamily that the domain belongs to SUPERFAMILY is based at the University of Bristol, UK. if TlGRFAMs is a collection of protein families, featuring curated multiple sequence alignments, hidden Markov models (HMMs) and annotation, which provides a tool for identifying functionally related proteins based on sequence homology. TlGRFAMs is based at the J. Craig Venter Institute. Rockville, MD, US. Databáze jsou sdruženy do integrovaného nástroje InterPro What is InterPro? InterPro is a resource that provides functional analysis of protein sequences by classifying them into families and predicting the presence of domains and important sites. To classify proteins in this way InterPro uses predictive models, known as signatures, provided by several different databases (referred to as member databases) that make up the InterPro consortium. https://www.ebi.ac.uk/interpro/ Osnova • Úvod do bioinformatiky Definice, molekulárně biologická data, databáze Rozdělení databází, bioinformatická centra • Manipulace se sekvencemi Sekvence biomakromolekul, aminokyseliny, báze, alignment Význam alignmentu, přiložení páru sekvencí a vícenásobné přiložení • Predikce struktury proteinů Predikce 2-D struktury proteinů, predikce 3-D struktury proteinů Threading, Homology modeling, Ab initio • Proteinové rodiny Rodiny, domény, sekvenční vzory Patterns, profiles, fingerprints, databáze • Predikce genů Predikce genů u prokaryot a eukaryot, predikční nástroje a postupy Predikce genů ( <.( <.<.((. \( G ( (CG G< G< G (. ( ( G( \ ( (GG \( GG< G G GGCGGC \ ( ■( <.( ( (CG (G (GGGGC \C \ V IGCCGGCATCT Tabic 1 Software commwclab.jcw.cdii/tRNA.scaii-SEr RNAramcr bt^://w^w.t:bs.dQj.dk/scrvit:cs/RNAiiiTiicr/ RcpScck http://www.ab i.snv.jussicu .ftf'&yBpublic/RcpScck/ [slundPath bLTp://tt^'w.paLbo.gmoiiuc^.^ru.ta/islaiidpaLb/ Protein ievei annotation B LAST b tip://wjcbi -at. u k/blatf/ [n tcrProScan b t tp:// ww w.cbi .ac. uk/Intcr ProScan/ COGN1TOR btip://ww w.ncbi jiI m.nib gov/COG/old/Kogn iIf>r.h[ml PRIA M b [ ip://tioin fo.gcnopolc-tou lou sc.pid.ri/priom/ GOAnno b ttp://bips. □ - strasbg. IrAlOAnno/ PSORTb http://w^'w.psorLorg4>sortb/ TMHMM http://w^wcbs.dm.dk;scrviccAn'MHMM/ Signal P bL[p://www.tbs.dQj.dk/scrvitc!i/SignalP/ Comparative genomic tools Ma j vc b t tp://gc l.ahabs. w 1st .cd j/uihj vc/ MOS AIC h t tp://mig jouy. inra.l'r/m ig/m ig_cng/ pic sen tation^roject/mosai c ACT b tip://ww w.sangcr.ac. uk/Sof twarc/ ACT/ CGAT bt[p://mbgd.gcnt>mc Jid.jp/CGAT/ MaGc htlp://w^'w.gcnioscopc.cns.ftfagcymagc/ Pathologic b ftp://biocyc.org/ PUMA2 http://compbio. mc s.an l.gov/pu ma2/ Tbc SEED http://mcsccdLJchicago.edu/FIG/ STRING hrLp://string .cmbl .dc/ PyPhy b tip://www.tbs.doj. dk/stall Ahoma.s,pypby7 H o S.1 l| ] b t tp://pbi I. un iv -ly on 1. fr/soft warc/HoScq 1/ Protein gene prediction Protein gene prediction Protein gene prediction [RNA gene prediction rRNA gene prediction Scarcb lor approximate repeats in complete DNA sequences Identification of genomic inland!; Compare a novel scqucntt witb those tfjntaincd in nucleotide and protein databases Scarcb for domain s/moti Is in tbc [ntcrPro databa.se Compare a query sequence to tbc COG (CIustcr of Orthologous Groups of proteins) database Detection of enzymatic function in a liilly sequenced genome, ba.scd on all sequences available in tbc ENZYME database BLAST scarcb on tbc Gene Ontology database Prediction of bacterial protein subcellular localization Prediction of transmembrane helices in protein sequences Prediction of signal peptide cleavage sites in protein sequences Multiple genome alignments in tbc presence of large-scale evolutionary events Dclinc tbc set of backbones and k>ops in ck>scly related bacterial genomes Comparative genome analysis and visualization Cools lor multiple genome alignments ^imputation of gene order conservation (syntonics) between available bacterial genomes Metabolic network rccortstruction and comparative pathway analysis Metabolic pathway reconstruction Comparative analysis and annotation tools using tbc subsystem approach Search Tool for the Retrieval of Interacting Proteins Reconstruction of phylogcnctic relationships of complete microbial genomes Automatically assign sequences to homologous gene families from the HOGENOM database Predikce genů (Predikce kódující části genu) Prokaryotické geny - nepřerušované úseky DNA mezi startovním kodonem (ATG, gtg,ttg,ctg) a stop kodonem (TAA, TGA, TAG). Eukaryotické geny - Přerušovány introny. Průměrná délka exonu je kodonů, některé jsou mnohem kratší. Některé introny extrémně dlouhé, geny zabírají mbp v genomové DNA. Predikce je mnohem složitější a vzniká velké množství chyb! Predikce prokaryotických genů GTATGCTGGTGATTGTGGATGCCGTTACCCTGCTGAßCGCCTATCCGGAAGCCAGCCGTGATCCGGCCGCCCCGA CCGTGATTGATGGTCGCCACCTGTATGTTGTTAGCCCGGGCGATGCCGCGCAGCTGGGCCATAACGATAGCCGTC TGTTTACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGAAACCGCGCTGGCGCTGCGCGCGGAAGTGAGCG TGCTGTTTATTCGCTTTGCCCTGAAAGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGCGTGATGCCGCCA CCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTCCGCTGAAAGATCATTATTGGCGCAGCGATG TGCTGGCGGCGGGCGCGACCACCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATGGCACCGTGAGCGGTTATT TTCGTTGGGAAACCAGCATTGAAATTGCGGGCAGCCAGCCGGATACCAAACAGCCGGGCTTTAAACCGAGCAGCG ATCGCAATGGCAACTTTAGCCTGCCGCCGAATACCGCCTTTAAAGCGATCTTCTATGCGAACGCGGCGGATCGTC AGGATCTGAAACTGTTTATTGATGATGCGCCGGAACCGGCCGCCACCTTTGTGGGTAACAGCGAAGATGGTGTGC GTCTGTTTACCCTGAATAGCAAAGGTGGTAAAATTCGTATTGAAGCGAGCGCGAACGGCCGTCAGAGCGCGACCG ATGCCCGTCTGGCGCCGCTGAGCGCGGGCGATACCGTGTGGCTGGGCTGGCTGGGCGCGGAAGATGGTGCCGATG CGGATTATAATGATGGCATTGTTATTCTGCAGTGGCCGATTACCTAATGGG The table shows the 64 codons and the amino acid for each. The direction of the mRNA is 5' to 3'. 2nd base U C A G U UUU (Phe/F) Phenylalanine UUC (Phe/F) Phenylalanine UCU (Ser/S) Serine UCC (Ser/S) Serine UAU (Tyr/Y) Tyrosine UAC (Tyr/Y) Tyrosine UGU (Cys/C) Cysteine UGC (Cys/C) Cysteine UUA (Leu/L) Leucine UCA (Ser/S) Serine UAA Ochre (Stop) UGA Opal (Stop) UUG (Leu/L) Leucine UCG (Ser/S) Serine UAG Amber (Stop) UGG (Trp/W) Tryptophan CUU (Leu/L) Leucine CUC (Leu/L) Leucine CCU (Pro/P) Proline CCC (Pro/P) Proline CAU (His/H) Histidine CAC (His/H) Histidine CGU (Arg/R) Arginme CGC (Arg/R) Arginine 1st CUA (Leu/L) Leucine CUG (Leu/L) Leucine CCA (Pro/P) Proline CCG (Pro/P) Praline CAA (Gln/Q) Glutamine CAG (Gln/Q) Glutamine CGA (Arg/R) Arginine CGG (Arg/R) Arginine base A AUU (lle/l) Isoleucine AUC(lle/l)lsQleucine ACU (Thr/T) Threonine ACC (Thr/T) Threonine AAU (Asn/N( Asparagine AAC (Asn/N) Asparagine AGU (Ser/S) Serine AGC (Ser/S) Serine AUA (lle/l) Isoleucine ACA (Thr/T) Threonine AAA (Lys/K) Lysine AGA (Arg/R) Arginine AUG (Met/M) Methionine, Start[A1 ACG (Thr/T) Threonine AAG (Lys/K) Lysine AGG (Arg/R) Arginine G GUU (ValA/) Valine GUC (Val/V) Valine GCU (Ala/A) Alanine GCC (Ala'A) Alanine GAU (Asp/D) Aspartic acid GAC (Asp/D) Aspartic acid GGU (Gly/G) Glycine GGC (Gly/G) Glycine GUA (Val/V) Valine GUG (Val/V) Valine GCA (Ala'A) Alanine GCG (Ala/A) Alanine GAA (Glu/E) Glutamic acid GAG (Glu/E) Glutamic acid GGA (Gly/G) Glycine GGG (Gly/G) Glycine Překlad DNA sekvence Open reading frames are highlighted in red. Please select one of the following frames - in the next page, you will be able to select your initiator and retrieve your amino acid sequence: 5'3' Frame 1 V C W Stop LWMetPLPC Stop APIRKPAVIRPPRP Stop LMetVATCMetLLARA Met PRSWAITIAVCLPV Stop ARVISCICAKPRWRCARK Stop ACCLFALP Stop KMetPALLPRSNWKCVMetPPPPFR Met RMetlCCIRAVVR Stop K 111 G A A Met CWRRARPPVPPILRCAIVMetAP Stop AVIFVGKPALKLRAASRIPNSRALNRAAIAMetATLACRRIPPLKRSS Met R T R R I V R Stop N C L L Met Met RRNRPPPLWVTAK Met V C V C L P Stop IAKVVKFVLKRARTAVRARP Met PVWRR Stop ARAIPCGWAGWARKMetVPMetRIIMet Met ALLFCSGRLPNG 5'3' Frame 2 YAGDCGCRYPAERLSGSQP Stop S G R P D R D Stop W S P P V C C Stop PGRCRAAGP Stop RStopPSVYRSEPG Stop SAASARNRAGAAR GSERAVYSLCPERCRHCCPDRTGSA Stop CRHRRSGCG Stop SAASELSSAERSLLAQRCAGGGRDHLYRRFCGVRS Stop W H R E RLFSLGNQH Stop NCGQPAGYQTAGL Stop TEQRSQWQL Stop P A A E Y R L Stop SDLLCERGGSSGSETVY Stop Stop CAGTGRHLCG Stop QRRWCASVYPE Stop Q R W Stop N S Y Stop SERERPSERDRCPSGAAERGRYRVAGLAGRGRWCRCGL Stop Stop WHCYSAVAD V L Met 5'3' Frame 3 Met LVIVDAVTLLSAYPEASRDPAAPTVIDGRHLYVVSPGDAAQLGHNDSRLFTGLSPGDQLHLRETALALRAEVSVLFIRFALKD AGIVAPIELEVRDAATAVPDADDLLHPSCRPLKDHYWRSDVLAAGATTCTADFAVCDRDGTVSGYFRWETSIEIAGSQPDTKQP GFKPSSDRNGNFSLPPNTAFKAIFYANAADRQDLKLFIDDAPEPAATFVGNSEDGVRLFTLNSKGGKIRIEASANGRQSATDARL APLSAGDTVWLGWLGAEDGADADYNDGIVILQWPIT Stop W 3'5' Frame 1 P I R Stop S A T A E Stop QCHHYNPHRHHLPRPASPATRYRPRSAAPDGHRSRSDGRSRSLQYEFYHLCYSG Stop TDAHHLRCYPQRW RPVPAHHQ Stop TVSDPDDPPRSHRRSL Stop R R Y S A A G Stop SCHCDRCSV Stop SPAVWYPAGCPQFQCWFPNENNRSRCHHDR TPQNRRYRWSRPPPAHRCANNDLSADDSSDAADHPHPERRWRHHALPVRSGQQCRHLSGQSE Stop TARSLPRAAPARFRAD AADHPGSDR Stop TDGYRYGPAARHRPG Stop QHTGGDHQSRSGRPDHGWLPDRRSAG Stop RHPQSPAY 3'5' Frame 2 PLGNRPLQNNNAIIIIRIGTIFRAQPAQPHGIARAQRRQTGIGRALTAVRARFNTNFTTFAIQGKQTHTIFAVTHKGGGRFRRIINKQF QILTIRRVRIEDRFKGGIRRQAKVAIAIAARFKARLFGIRLAARNFNAGFPTKITAHGAITIAHRKIGGTGGRARRQHIAAPIMetlFQRT TARMetQQIIRIRNGGGGITHFQFDRGNNAGIFQGKANKQHAHFRAQRQRGFAQ Met QLITRAQTGKQTAIV Met AQLRGIARANNIQV ATINHGRGGRITAGFRIGAQQGNGIHNHQH 3'5' Frame 3 HStopVIGHCRITMetPSLStopSASAPSSAPSQPSHTVSPALSGARRASVAL Stop RPFALASIRILPPLLFRVNRRTPSSLLPTKVAA GSGASSINSFRS Stop R S A A F A Stop KIALKAVFGGRLKLPLRSLLGLKPGCLVSGWLPAIS Met L V S Q R K Stop PLTVPSRSHTAKSA VQVVAPAASTSLRQ Stop Stop SFSGRQLGCSRSSASGTAVAASRTSSSIGAT Met PASFRAKRINSTLTSARSASAVSRRCS Stop S PGLRPVNRRLSLWPSCAASPGLTTYRWRPSITVGAAGSRLASG Stop ALSRVTASTITSI Identifikace ORF (otevřených čtecích rámců) ExPASy http://web.expasy.org/translate/ ORF Finder (NCBI) https://www.ncbi.nlm.nih.gov/orffinder/ Predikce prokaryotických genů • Opravdu kóduje ORF protein? • ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí ALIGNMENTU). • ORF má typický obsah GC nebo frekvenci kodonů. Srovnání s charakteristickými vlastnostmi známých genů ze stejného organismu. • Před ORF se nachází typické RBS (ribosome-binding site) nebo promotor. Analýza signálních sekvencí pro transkripci a/nebo translaci. Predikce eukaryotických genů • Rozpoznání exonů/intronů Identifikace míst sestřihu: GT na 5'konci, AG na 3'konci. • Chyby při rozpoznávání exonů/intronů Velké množství chyb. Dlouhé introny- určeny jako intergenové úseky. Krátké intergenové úseky - určeny jako introny. 5' i- ■ - coding i-1-jion ■ - untr«sl«t«d rt-jion Glyceraldehyd-3-fosfát-dehydrogenasa Horno sapiens TATA ATG GT 5' Predikce eukaryotických genů Promoter Exon DNA Intron Exon AG TGA Intron Exon Transcription pre mRNA mRNA Protein Processing Translation IAAAAAAAAAA Precursor Lariat intermediate i G ® C A Spliced product Splicing Mechanism Used for mRNA Precursors. The upstream (5') exon is shown in blue, the downstream (3') exon in green, and the branch site in yellow. R stands for a purine nucleotide, Y for a pyrimidine nucleotide, and N for any nucleotide. The 5' splice site is attacked by the 2'-OH group of the branch-site adenosine residue. The 3' splice site is attacked by the newly formed 3'-OH group of the upstream exon. The exons are joined, and the intron is released in the form of a lariat. [After P. A. Sharp. Cell 2(1985):3980.] Predikce eukaryotických genů - příklad z praxe Hypotetický gen/protein, predikovaný při anotaci genomu Aspergillus fumigotus Af293 ■DNA Transkripce,Sestřih mRNA Translace Protein Identifikace genu/proteinu na úrovni mRNA (příprava cDNA pro klonování) ■DNA Transkripce mRNA (cDNA) Translace Protein MADPEVEADG ELDLEKRASA QTCKIVNVDT YVNCRYDAKL DAGAIFGFPK GEKLTFACWK HGDCYNGVCS WDQVTYLKTT CYVNGYFTDS NCSSSMLSRC MADPEVEADG ELDLEKRASA QTCKIVNVDT YVNCRYDAKL DAGAIFGFPK GEKLTFACWK HGDCYNGV Predikce eukaryotických genů - příklad z praxe Hypotetický gen/protein, predikovaný při anotaci genomu Aspergillus fumigatus Af293 Identifikace genu/proteinu na úrovni mRNA (příprava cDNA pro klonování) I Transkr I Transla Pro Chybná predikce intronu? Alternativní sestřih? Různé kmeny/životní podmínky/buněčný cyklus? Chyba při přípravě cDNA knihovny? iDNA Transkripce mRNA (cDNA) Translace Protein MADPEVEADG ELDLEKRASA QTCKIVNVDT YVNCRYDAKL DAGAIFGFPK GEKLTFACWK HGDCYNGVCS WDQVTYLKTT CYVNGYFTDS NCSSSMLSRC MADPEVEADG ELDLEKRASA QTCKIVNVDT YVNCRYDAKL DAGAIFGFPK GEKLTFACWK HGDCYNGV Predikce genů - algoritmy a nástroje Predikce genů na základě sekvenční homologie - vyhledávání v databázích pomocí algoritmů. Predikce genů ab initio - predikce na základě statistických parametrů DNA sekvence. Většina běžně používaných metod kombinuje oba dva přístupy. Program Organism Algorithm* Website Homology GenelD Vertebrates, plants DP http://wwwl.imim.es/geneid.html FGENESH Human, mouse. Drosophila, rice HMM http://www.softberr^\com/berrytphtrril?topic =rgenesh£cgroup=progranisiisubgrQup=gfiQd Gene Parser Vertebrates N N http://beagle-CQlorado.edu/^eesnyder/ GeneParser.html EST Genie Drosophila, human, other G HMM http:/ /www.fruitfly.org/seq_tools/genieLhtml protein GenLang Vertebrates, Drosophila, dicots Grammar rule http://www.cbil. upeon.edu/genlang/ genlangJiome, html GENSCAN Vertebrates, Arabidopsis, rnaue G HMM http://genfis.rQit.edu/GENSCAN.html GlimmerM Small eukaryotes, Arabidopsisj rice http://www.tigr.org/tdb/glinimerm/ glm r _form, html GRAIL Human, mouse. NN, DP http://compbio.ornLgov/GraiL-bin/ EST, A rabidopsis, EmptyGrailForm cDNA Drosophila ! IM >!»■.■::■.■ Vertebrates, G. eiegans CHMM http://www.cbs.dtu.dk/services/HMMgene/ AUGUSTUS Human. A rabid-apsis IMM.WWAM http: //august us .gobics.de / MZKľ Human, mouse, A rabidopsis, Fission yeast Quadratic discriminant analysis http://rulai, cshl.org/tools/genefinder/ *DP, dynamic programming; NN;. neural network; MM, Markov model; HMMS Hidden Markov model; CHMM, class HMM; GHMMj generalized HMM: IMM, interpolated MM. Pokud Vás zajímají detaily, odkazy na použité články: viz Učební materiály v ISu, adresář Bioinformatika/Materialy_pro_studenty (není nutno studovat ke zkoušce, pouze detailnější informace, pokud Vás zajíma něco blíže... Aktuální kurzy (všechny JS): C2131 Úvod do bioinformatiky (vhled do oboru) C2132 Úvod do bioinformatiky - seminář C2135 Bioinformatika v praxi (pokud si chcete osahat základy bioinformatiky prakticky) C2138 Pokročilá bioinformatika C2139 Pokročilá bioinformatika - seminář C3211 Aplikovaná bioinformatika (pokud Vás zajímá jaké experimentální metody jsou propojeny s bioinformatickými nástroji)