Bioinformatika^2^ rozšírené opakovaní Nezbytné databáze, práce se sekvencemi, přiložení, predikce genu Bioinformatika - definice • Existuje mnoho různých definic - nejednotnost odráží dynamický rozvoj oboru. • Bioinformatika - vědní disciplína, která využívá výpočetní techniku (počítače) pro shromažďování, vyhledávání, manipulaci a distribuci informací o biologických makromolekulách (DNA, RNA, proteiny), j.xiong • Bioinformatika - nová disciplína na rozhraní počítačových věd, informačních technologií, matematiky a biologie; zahrnuje studium a praktické uchovávání, vyhledávání, zobrazování, manipulaci a modelování biologických dat. R.Pantůček • Bioinformatika (zaměření na sekvence) vs. výpočetní biologie (všechny oblasti biologie zahrnujíí>waoS#y). • Bioinformatika: vývoj výpočetních nástrojů a databází + jejich aplikace X Bioinformatika - aplikace Applications Structure analysis Sequence analysis Function analysis c > r "i f \ nucleic acid structure genome comparison metabolic pathway prediction phylogeny modeling protein structure prediction gene & promoter prediction gene expression profiling protein structure classification motif discovery protein interaction sequence database searching sequence a ignment prediction protein structure comparison protein subcellular localization prediction >. * v. J Software development Database construction and curation Figure 1.1: Overview of various subfields of bioinformatics. Biocomputing tool development is at the foundation of all bioinformatics analysis. The applications of the tools fall into three areas: sequence analysis, structure analysis, and function analysis. There are intrinsic connections between different areas of analyses represented by bars between the boxes. ESSENTIAL BIOINFORMATICS, Jin Xiong, 2006 Molekulárně biologická data, databáze • Molekulárně biologická data: sekvence a struktury proteinů a nukleových kyselin, genomy, struktury (introny exony) a funkce genů, metabolické a signální dráhy organely.r * • Rozvoj výkonných technologií (automatické sekvencování, MALDI-TOF, proteinová krystalografie, NMR spektroskopie) koncem minulého století vedl k obrovskému nárůstu množství biologických dat. f V • Nutnost organizovaného ukládání, skladovania manipulace s velkým množstvím dat vedla ke vzniku bioinformatiky. X Rozdělení databází • Primární databáze: anotované sekvence nukleových kyselin nebo proteinů. • Sekundární databáze: informace odvozené z primárních databází ve formě charakteristických vzorů sekvencí, tj. funkčních nebo strukturních motivů získaných srovnáním primárních dat (sekvencí). • Strukturní databáze: struktury proteinů (nukleových kyselin) a jejich anotace. /-xCN • Genomové databáze: genomy organismů. • Databáze specializované vs. univerzální. Primární Rozdělení databází EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIPVLPDPTTLQERNRYIT VELSNSDTESIEVGIDVTNAYWAYRAGTQSYFLRDAPSSASDYLFTGTDQHS LPFYGTYGDLERWAHQSRQQIPLGLQALTHGISFFRSGGNDNEEKARTLIVII QMVAEAARFRYISNRVRVSIQTGTAFQPDAAMISLENNWDNLSRGVQE SVQDT FPNQVTLTNIRNEPVIVDSLSHPTVAVLALMLFVCNPPNIVEKSKICSSRYEP TVRIGGRDGMCVDVYDNGYHNGNRIIMWKCKDRLEENQLWTLKSDKTIRSNGK 4 Ribosome-inactivating protein, subdomain 1 Ribosome-inactivating protein, subdomain 2 Ricin B-like lectins Strukturní Sekundární Specializované Univerzální Databáze Nucleic Acids Research http://www.oxfordjournals.Org/ourJournals/nar/database/a/ Nucleic Acids Research VOLUML4S DA I ABAS t ISSLfc 2020: 1637 databází Nucleotide Sequence Databases International Nucleotide Sequence Database Collaboration Coding and non-coding DNA Gene structure, introns and exons, splice sites Transcriptional regulator sites and transcription factors RNA sequence databases Protein sequence databases Structure Databases Genomics Databases (non-vertebrate) Metabolic and Signaling Pathways Human and other Vertebrate Genomes Human Genes and Diseases Microarrav Data and other Gene Expression Databases Proteomics Resources Other Molecular Biology Databases Organelle databases Plant databases Immunological databases The 27th annual Nucleic Acids Research database issue and molecular biology database collection Daniel J. Rigden' and Xose M. Fernandez2 11nstitute of Integrative Biology. University of Liverpool, Crown Street. Liverpool L69 7ZB, UK and 2lnstitut Curie, 25 rue d'Ulm, 75005 Paris, France ABSTRACT The 2020 Nucleic Acids Research Database Issue contains 148 papers spanning molecular biology. They include 59 papers reporting on new databases and 79 covering recent changes to resources previously published in the issue. A further ten papers are updates on databases most recently published elsewhere. This issue contains three breakthrough articles: Anti Bodies Chemically Defined (ABCD) curates antibody sequences and their cognate antigens; SCOP returns with a new schema and breaks away from a purely hierarchical structure; while the new Alliance of Genome Resources brings together a number of Model Organism databases to pool knowledge and tools. Major returning nucleic acid databases include miRDB and miRTar-Base. Databases for protein sequence analysis include CDD. DisProt and ELM. alongside no fewer than four newcomers covering proteins involved in liquid-liquid phase separation. In metabolism and signaling. Pathway Commons. Reactome and Metabolights all contribute papers. PATRIC and Microscope update in microbial genomes while human and model organism genomics resources include Ensembl. Ensembl genomes and UCSC Genome Browser. Immune-related proteins are covered by updates from IPD-IMGT/HLA and AFND, as well as newcomers VDJbase and OGRDB. Drug design is catered for by updates from the IUPHAR/BPS Guide to Pharmacology and the Therapeutic Target Database. The entire Database Issue is freely available online on the Nucleic Acids Research website (https://academic.oup.com/nar). The NAR online Molecular Biology Database Collection has been revised, updating 305 entries, adding 65 new resources and eliminating 125 discontinued URLs; so bringing the current total to 1637 databases. It is available at http://wvAv.oxfordjournals.0rg/nar/database/c/. NEW AND UPDATED DATABASES The year 2020 sees the Nucleic Acids Research Database Issue reach its 27th annual issue. As usual, the 148 papers included span the lull range of biological research. This year there arc papers on 59 new databases (Tabic I) while 79 resources provide Update papers covering recent developments. A further 10 papers cover updates of databases most recently published elsewhere (Table 2). The issue begins with reports from the major database providers at the U.S. National Center for Biotechnology Information (NCBI), the European Bioinformatics Institute (EBI) and the National Genomics Data Center (NGDC) in China, a new venture encompassing the previously published Beijing Institute of Genomics Data Center. Further papers arc grouped in the now-familiar fashion: (i) nucleic acid sequence and structure, transcriptional regulation; (ii) protein sequence and structure: (iii) metabolic and signaling pathways, enzymes and networks; human genomic variation, diseases and drugs: (vii) plants and (viii) other topics, such as proteomics databases. Many resources are not easily pigeon-holed So browsing of the whole Issue is strongly encouraged. The COVID-19 papers spall a number of sections clearly indicating the multidisciplinary nature of the huge scientific response to the pandemic. Navigating the deluge of COVID-19 papers is a significant challenge in its own right and one addressed by the NCBI'S I.itCovtd database (4> which features manual curat ion supported by Sophisticated machine-learning assistance. SARS-CoV-2 nucleic acid sequence data and associated curated metadata can be conveniently obtained from the ViruSurf database (5) which also covers other human pathogenic viruses. SARS-Cov-2 comparative genomics is covered by the GICSS database (6) where temporal and geographical patterns of SNVscan be analysed. SARS-Cov-2 protein structures alone and in complex with antibodies, receptors, and small molecules are collected at the CoVMD database (7) and made avail-abk* with a variety of bespoke analyses of Sequential and conformational diversity. Obviously, drug and vaccine dc- https://academic.oup.com/nar/issue/49/Dl EBI/NCBI/DDBJ Instituce zabývající se shromažďováním, správou a poskytováním dat a informací a vývojem analytických nástrojů. * f\ DDBJ Center I NCBI Evropský institut Národní centrum pro bioinformatiku pro biotechnologické informace %NCBI National Centerfor Biotechnology Information European Bioinformatics Institute National Center for Biotechnology Information The DNA Data Bank of Japan Center http://www.ebi.ac.uk/ 9$ http://www.ncbi.nlm.nih.gov/ http://www.ddbj.nig.ac.jp/ 4 ENA GenBank DDBJ Primární databáze nukleových kyselin ENA — Evropský institut pro bioinformatiku GenBank— Národní centrum pro biotechnologické informace NCBI National Center for Biotechnology Information • DDBJ- Národní genetický institut (NIG) ^ ľ)ľ)RT DNA Data Bank of Japan " Formát ENA databáze identification accession number project identifier DT - date DE - description KW - keyword OS - organism species OC - organism classification RN - reference number RC - reference comment RP - reference positions RX - reference cross-reference RG - reference group RA - reference author(s) RT - reference title RL - reference location DR - database cross-reference ia; - comments or notes AH - assembly header AS - assembly information FH - feature table header FT - feature table data XX - spacer line SQ - sequence header CO - contig/construct line bb - (blanks) sequence data // - termination line (begins each entry; (>=1 per entry) (0 or 1 per entry) (2 per entry) (>=1 per entry) (>=1 per entry) (>=1 per entry) (>=1 per entry) (0 or 1 per entry) 1 per entry) (>=1 per entry) (>=0 per entry) (>=1 per entry) (>=0 per entry) (>=0 per entry) (>=0 per entry) (>=1 per entry) (>=1 per entry) (>=0 per entry) (>=0 per entry) 3.4.1 The ID Line The ID (IDentification) line is always the first line of an entry. The format of the ID line is: ID <1>; SV <2>; <3>; <4>; <5>; <6>; <7> BP. The tokens represent: 1. Primary accession number 2. Sequence version number 3. Topology: 'circular' or 'linear' 4. Molecule type (see note 1 below) 5. Data class (see section 3.1) 6. Taxonomie division (see section 3.2) 7. Sequence length (see note 2 below) ID CD789012; SV 4; linear; genomic DNA; RTG; MAM; 500 BP. (0 or 1 per entry) (0 or >=1 per entry) (2 per entry) (>=2 per entry) (many per entry) (1 per entry) (0 or >=1 per entry) (>=1 per entry) (end3 each entry; 1 per entry) ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/usrman.txt Formát ENA databáze 3.1 Data Class The data class of each entry, representing a methodological approach to the generation of the data or a type of data, is indicated on the first (ID) line of the entry. Each entry belongs to exactly one data class. Class Definition CON Entry constructed from segment entry sequences; if unannotated, annotation may be drawn from segment entries PAT Patent EST GSS Expressed Sequence Tag Genome Survey Sequence Division Code HTC HTG MGA WGS High Thoughput CDNA sequencing High Thoughput Genome sequencing Mass Genome Annotation Whole Genome Shotgun Bacteriophage Environmental Sample Fungal Kurr.ar. PHG EN1/ FUN HUM TSA Transcriptome Shotgun Assembly Invertebrate :nv STS Sequence Tagged Site Other Mammal MAM STD Standard (all entries not classified as above) Other Vertebrate Mus rausculus VRT MÜS Plant PLN Prolearyote PRC Other Rodent RCľJ 5yr.tr.eti r SYN ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/usrman.txt Transgenic Unclassified Viral TGN ÜNC VRL X56734; SV 1; linear; mRNA; SID; PLN; 1859 BP. AC XX di DI XX X56734; S46326; EMBL(ENA) „entry" 12-SEP-1991 (Bel. 29, Created) 25-NOV-2005 (lei. 85, Last updated., Version 11) DE Tri.fol.iMm repens mRNA for non-cyanogenic beta-glucosidase XX KH beta - glucosidase. XX OS Trifoliura repens (white clover) OC Eukaryota; Viridiplantae; Streptophyta; Erabryophyta; Tracheophyta; OC Spermatophyta; Magnoliophyta; eudicotyledons; core, eudicotyledons; rosids; OC euros! ds I; Fabales; Fabaceae; Papilionoideae; Trifclieae; Trifclium. XX m [5] IP 1-1859 RX PDBMED; 1907511. EA Ox toby E., Dunn M.A., Pancoro A.., Hughes M.A.; RI "Nucleotide and derived amino acid sequence of the. cyanogenic RI beta-glucosidase {linamarase,;) .from white clover (Trifolium repens L.)n; RL Plant Mol. Biol. 17(2):209-219{1991). XX RN [6] RP 1-1859 RA Hughes M.A.; RT RL Submitted {19-NOV-1.990) to the. EMBL/GenBank/DDBJ databases. RL Hughes M.A., University of Newcastle Upon Tyne, Medical School, Newcastle RL Upon Tyne, NE2 4HH, UK ft source ft ft ft ft ft ft ft CDS ft ft ft ft ft ft ft ft ft ft ft ft ft ft ft ft n n mRHA ft ft xx SQCsequence 18^9 BP; 609 A; 314 C; 355 G; 581 T; 0 other; aaacaaUewpUStStggatt ttattgtagc catatttgct ctgtttgtta ttagctcatt cacaattact tccacaaatg cagttgaagc ttctactctt cttgacatag gtaacctgag tcggagcagt tttcctcgtg gcttcatctt tggtgctgga tcttcagcat accaatttga aggtgcagta aacgaaggcg gtagaggacc aagratttgg gataccttca cccataaata tccagaaaaa ataagggatg gaagcaatgc agacatcacg gttgaccaat atcaccgcta caaggaagat gttgggatta tgaaggatca aaatatggat tcgtatagat tctcaatctc ttggccaaga atactcccaa agggaaagtt gagcggaggc ataaatcacg aaggaatcaa 1..1859 /organism="Trifoliua. repens" /mol_type="niRNA" /clone_lib="lasbda gtLD" /clone="TRE361" /tis3ue_cype="leaves" /db_xref="taxon:3899" 14..1495 /product="beta-glucosidaae" /EC_number="3.2.1.21" /note«"non-cyanogenic" /db_xref-"GOA:P26204" /db_xref-"HSSP:P2620S-/db_xref■"InterPro:IPR001360* /db_xreř-"OnlProtKB/Swiss-Proc:P26204" U00S8.1" >n-^HDFIVXIFALFVlSSniTSTNAVEASTLLDIGNLSRSSFPRGFI SvNEGGRGPSIWDT FTHKY PEKIRDGSNADITVDQYHRYKE DVGIMK DQNMDSYRFSISI^ILPKGia^IHHEGIKYYmi^IXANGIQPFVTLFHWDLPQ VLEDEYGGElHSGVIMDFRDYTDIXľFKEFGDRVRYWSTIilEPWVFSNSGYALGTNAPGR CSASNVAKPGDSGTGPYIVTHHQIIJUJAEAVHVYKTKYOAYQKGKIGITLVSNWLMPLD DNSIPDIKAAERSI^FQFGLFMEQLTTGDYSKSMRRIVKNRLPKFSKFESSLVNGSFDr IGINYYSSSYISHWSHGHAKPSYSTNPMTNISFEKHGIPLGPRAASIWIYVYPYMFIQ EDFEIFCYILKIHITIWFSITEHGieiEFNDATLPVEEALLNTYRIDYYYRHLYYIRSA IRAGSNVKGFYAKSFLDCNEWrAGFTVRFGLNFVD" 1..1859 /experiment-"experi»ental evidence, no additional details recorded" 60 120 180 240 300 360 420 Translation = proteinová databáze 10 X64811; 5V 1; linear; genomic WW; 5T0; PRO; 756 BP. XX AC X64611; 578972; XX 5 V X64611.1 XX Dr 28-APR-1992 {Rel. 31, Created) OT 36-JUN-1993 (Rel. 36, Last updated, Version 6) ENA OE Listeria ivanovii sod gene for superoxide dismutase XX km sod gene; superoxide dismutase. XX OS Listeria ivanovii OC Bacteria; Finricutes; Bacillus/Clostridium group; OC Bacillus/Staphylococcus group; Listeria. XX RN [1] RX MEDLINE; 921483 71. RA Haas A.. ůoebel m.j RT "Cloning of a superoxide dismutase gene from Listeria ivanovii by RT functional complementation in Escherichia coli and characterization of the RT gene product."; RL Hoi. Gen. Genet. 231:313-322(1992). XX RN [2] RP 1-756 RA Kreft J.; RT ; RL Submitted (21-APR-1992) to the EMBL/GenSank/DDBJ databases. RL J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am RL Hubland, B766 Wuerzburg, FRG Location/Qualifiers 1..7S6 /db_xref="taxon:1638" /organisw="Listeria ivanovii" /strain="ATCC 19119" /mol_type="genomic DMA" 95..186 /gene="sod" /regulatory_class="ribosofre_binding_s ite" 723..746 /gene="sod" /regulatory_class="terminator" 169..717 /transl_table=ll /gene="sod" /fcC_number="l.lS.l.l" /db_xre*="GOA:P2B/b3~ /db_xref="H55P:P60448" /db_xref="InterPro:IPR6011B9" /db_x-r "■-|irrn^-jt~^m /DgßMtf^superoxide dismutase" ^protein_id="CAA4S4B6.1" FT regulatory FT regulatory H Fl ( ■ ( ■ ( ■ /translation=*MTYELPKLPYTYDALEPNFWETMEIHYTK|-t#IIYVTKLNEAV5& HAELA5KPGEELVANL05VPEElRGAV1irj^G^HAWtLFMS5L5PNGuGAPTGNLKAA IESEFGTFDCFKEKFNAAAAARFGSGMAWLVVNNGKLEIVSrANQDSPLSEGKTPVLGL DVWEHAYYLKFQNRRPEYIDT FNNVINWDERNKRFOAAK" sequence 756 BP; 247 A^KifaJM h: 222 I; a other; cgttatttaa ggtgrtacat agttctatgg aaatagggtc tatacctttc gccttacaat gtaatttctt .......... http://www.insdc.org/documents/feature-table#7.1.1 GenBank LOCUS DEFINITION ACCESSION VERSION KEYWORDS ORGANISM "L■EKENCt AUTHORS TITLE JOURNAL MEDLINE REFERENCE AUTHORS TITLE JOURNAL FEATURES source LISOD 7S6 bp DNA linear BCT 36-JUN-1993 Listeria ivanovii sod gene for superoxide distrutase. X64611 S78972 X64611.1 01:44610 sod gene; superoxide dismutase. Listeria ivanovii Listeria ivanovii Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria. 1 (bases 1 to 756) Haas,A. and Goebel.u. Cloning of a superoxide dismutase gene froir Listeria ivanovii by functional complementation in Escherichia coli and characterization of the gene product Mol. Gen. Genet. 231 (2), 313-322 (1992) 92140371 2 (bases 1 to 756) Kreft,J. Direct Submission Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrun Am Hubland, 8708 Wuerzburg, FRG Location/Qualifiers 1..756 /organisir="Listeria ivanovii" /strain="ATCC 19119" /db_xref="taxon:163B" /mol_type="genomic DNA" 95..186 /gene="sod" /regulatory_class="ribosoire_binding_s ite" 95..746 /gene="sod" 169..717 /gene="sod" /EC_number=*l.15.1.1" /codon_start=l /transl_table=ll /product="superoxide disirutase" /db_xref="GI:44611" /db_xref="GOA:P28763" /db_xref ="LntggiiB«**"W^W^^^^^^^^^ niProtKB/Swiss-Prot:P28763" _id="CAA45466.1" /translation="MTYELPKLPYTYOALEPNFDKETMEIHYTKHHNIYVTKLNEAVS GHAELASKPGEELVANLDSVPEE1RGAVRNHGGG>UU^TlFWSSLSPNúGGAPTGNLK AAIESEFGTFOEFKEKFNAAAAAAFGSGWAWLVVWGKLEIVST ANQDSPLSEGKTPV LGLDvWHAYYLKFONRRPEYtDTFWNVINKDERNKRFOAAK" -eg.Lato-y /gene^ i /regulatory _class="tertrinato' 1 cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 61 gtaatttctt .......... DDBJ LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL MEDLINE REFERENCE AUTHORS TITLE JOURNAL FEATURES source regulatory LISOD 756 bp DNA linear BCT 36-JUN-1993 Listeria ivanovii sod gene for superoxide dismutase. X64811 S78972 X64011.1 GI:44618 sod gene; superoxide dismutase. Listeria ivanovii Listeria ivanovii Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria. 1 (bases 1 to 7S6) Haas,A. and Goebel.W. Cloning of a superoxide dismutase gene froir Listeria ivanovii by functional complementation in Escherichia coli and characterization of the gene product Mol. Gen. Genet. 231 (2), 313-322 (1992) 92140371 2 (bases 1 to 756) Kreft,J. Direct Submission Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am Hubland, 8766 Wuerzburg, FRG Location/Qualifiers 1..756 /organism="Listeria ivanovii" /strain="ATCC 19119" /db_xref="taxon:1638" /mol_type="genomic DNA" 95..186 /gene="sod" /regulatory_class="ribosome_binding_site" 95..746 /gene="sod" 169..717 /gene="sod" /EC_number="1.15.1.1" /codon_start=l /transl_table=ll /product="superoxide dismutase" /db_xref="GOA:P2B/Ď3" /db_xref="H5SP:P60448" /db_xref="InterPro:IPR8611B9" lOtein_id="CAA4S486.1" ranslation=*MTYELPKLPYTYDALEPNFDKETMElHYTKHHNIYVTKLNEAVS" GrlAELASKPGEELVANLDSVPEElRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLK AAIESEFGTFOEFKEKFNAAAAARFGSGWAWLVVWGKLEIVSTANQDSPLSEGKTPV LGLDVMHAWLKFONRRPEYlDTFkNVlNkDtRNKRFOAAK" 746 - ■ ■:■ g. a -. :■ -, BASE COUNT 247 a 136 C 151 g 222 t ORIGIN 1 cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 61 gtaatttctt .......... Sekundární databáze NA Sekundární databáze: informace odvozené z primárních databází ve formě charakteristických vzorů sekvencí, tj. funkčních nebo strukturních motivů získaných srovnáním primárních dat (sekvencí). iT^\ XTRANSFAC Sekundární databáze NA CŕW database TRANSFAC - databáze eukaryotických transkripčních faktorů, jejich vazebných míst a DNA profilů JASPAR - databáze eukaryotických transkripčních faktorů, jejich vazebných míst a DNA profilů TRANSFAC TRANSFAC online In this video: - Basic interface - Search options http://genexplain.com/transfac/ Primární databáze proteinů • Univerzální databáze: „Skladiště" sekvencí - sequence repository Manuálně spravovaná - curated database^ Příklad: GenBank versus RefSeq National Center for Biotechnology Information National Library of Medicine National Institutes of Health Primární databáze proteinů GenBank Not curated Author submits Only author can revise Multiple records for same loci common Records can contradict each other No limit to species included Data exchanged among INSDC members Akin to primary literature Proteins identified and linked Access via NCBI Nucleotide databases RefSeq Curated NCBI creates from existing data NCBI revises as new data emerge Single records for each molecule of major organisms Limited to model organisms Exclusive NCBI database Akin to review articles Proteins and transcripts identified and linked Access via Nucleotide & Protein databases Swiss-PROT + TrEMBL Swiss-Prot - „Curated" databáze založená na Univerzitě v Ženevě v roce 1986. Spravovaná Švýcarským institutem pro bioinformatiku (SIB - Swiss Institute of Bioinformatics). /SIB *M Vysoká úroveň anotace TrEMBL- Počítačc^Gmotovaná data, odvozená z kódujících ifceítivekvencí v DDBJ/EMBL/GenBank, která ZATÍM nejsou zařazena v Swiss-Prot. niProtKB UniProt Knowledgebase Swiss-Prot (564,277) M Manually annotated and reviewed. Records with information extracted from literature and curator-evaluated computational analysis. TrEMBL (207,800,733) Automatically annotated and not reviewed. Records that await full manual annotation. 2021/2020 niProtKB se UniProt Knowledgebase Swiss-Prot (561,911) Manually annotated an reviewed. Records with information extracted from literature and curator-evaluated computational analysis and TrEMBL (177,754,527) Automatically annotated and not reviewed Records that await full manual annotation. Swiss-PROT + TrEMBL sujlitat Anotace: Funkce fč'*^rf Katalytická aktivita ^C* Podjednotky /JtO Domény # ^\\^ Biotechnologické využití Sekvenční homologie Posttranslační modifikace Reference 0( atd- Y http://www.expasy.org/sprot/ UniProt ijjl 2002- spolupráce mezi EBI, SIB a PIR http :/www. u n i prot.org ■ UniProtKB UniProt Knowledgebase Swiss-Prot (564,277) & Manually annotated and reviewed. Records with information extracted from literature and curator-evaluated computational analysis. TrEMBL (207,800,733) Automatically annotated and not reviewed. Records that await full manual annotation. UniRef Sequence clusters UniRef 100 UniRef90 UniRef50 UniProt UniProtKB Protein knowledgebase UniProtKB/Swiss-Prot Reviewed F.lanual annotation XT UniProtKB/TrEMBL Unreviewed Automatic annotation UniMES Metagenomic and environmental samples sequences U niParc - Sequence archive Current and obsolete sequences EMBL/GenBank/DDBJ. Ensembl. other sequence resources UniProt EBI UniProtKB UniProt Knowledgebase Swiss-Prot (563,552) Manually annotated and reviewed Records with information extracted from literature and curator-evaluated computational analysis. Automatically annotated and not reviewed. Records that await full manual annotation. curated by experts data from scientific papers • annotation of sequence features collates isoforms in one entry UniProt annotation from rule systems (incl. expert-curated rules) mapped experimental sequence features (3D structures) isoforms are kept separate EMBL-EBIIIA SIB UniProt You I ICZ UniProtKB - P06858 (LIPL.HUMAN) Display j Format t» Add to basket ©History "f» Feedback O Help video O Other tutonMt and videos Protein 1 Lipoprotein lipase Gene Organism | Homo sapiens (Wumen; Status I ^ Rrwewed - Annotation score: * * * * * - Experimental evidence at protein level Function' _ The primary function of Otts lipase it the hydrorysrs of triglycerides of circulating crtytomlcrorn and very low density lipoproteins (VIOL). Binding to heparin sulfate prcteogyttervs at the cell surface rs vital to the function. The opolipoprotein, APOC2, acts as a coectivetor of IPX. activity in the presence of liprfs on the luminal surface of vascular endothefcum (By simuanry), *■ m,m Catalytic activity Tnacyigiyce'Oi * Hfi - diecytglyceroi • a cerbowylate. # 1 awMuoan 1 Active Me' 159 159 Actrvesftt' 183 - 183 Active We' 269-268 OO - Molecular function ■ apolipc-protein binding aj Ijjjajj —-ua. * • hepar.n binding # Iwn m-ucl . • lipoprotein kcase activity # lwn aw-ua > ■ phospholipese activity a b 8— M-ud - ■ triglyceride binding ttajaaaj • triglyceride bpese actrvity # tre-ua. * Description 1 IShicieoph** 1 Charge relay system 1 Charge relay system https://www.youtubexom/watch?v=x9GNm2DLP-U UniProt Biologické databáze - problémy One of the problems associated with biological databases is overreliance on sequence information and related annotations, without understanding the reliability of the information. What is often ignored is the fact that there are many errors in sequence databases. There are also high levels of redundancy in the primary sequence databases. Annotations of genes can also occasionally be false or incomplete. All these types of errors can be passed on to other databases, causing propagation of errors. • Většina chyb v nukleotidových sekvencích pochází již z vlastní sekv í (častější pro sekvence získané cca před rokem 1990). Chyby v nukleotidových sekvencích vedou k chybné translaci do proteinu nebo ji úplně znemožní. • Redundance dat může extrémně zvětšit velikost databáze a vede k problémům při vyhledávání. Lze řešit vytvořením specializovaných databází s vysokou úrovní kontroly. • Chybná anotace - jedna sekvence označena různými názvy, různé (nesouvisející) sekvence mohou mít stejný název. Zdroje chyb: překlepy, nepozornost, čistě hloupost, skutečné neshody mezi odborníky v daném oboru. • Mnoho informací je pouze PREDIKOVÁNO (s využitím bioinformatiky). Je nutné vyvarovat se slepého spoléhání na informace uvedené v databázi! • Chyby se mohou šířit - nové sekvence s neznámou funkcí jsou často anotovány na základě sekvenční podobnosti s již existujícími záznamy v databázi! Chybná anotace muže ovlivnit celou skupinu podobných sekvencí! ESSENTIAL BIOINFORMATICS, Jin Xiong, 2006 Predikce genů Hypotetický gen/protein, predikovaný při anotaci genomu Aspergillus fumigatus Af293 ^ Transkripce,Sestřih ^ mRNA ^ Translace ^BM Protein MADPEVEADG ELDLEKRASA QTCKIVNVDT YVNCRYDAKL DAGAIFGFPK GEKLTFACWK HGDCYNGVCS WDQVTYLKTT CYVNGYFTDS NCSSSMLSRC Identifikace genu/proteinu na úrovni mRNA (příprava cDNA pro klonování) ■■^■^hDNA ^\ ^ Transkripce ^^^^H mRNA (cDNA) ^ Translace Protein MADPEVEADG ELDLEKRASA QTCKIVNVDT YVNCRYDAKL DAGAIFGFPK GEKLTFACWK HGDCYNGV Predikce genů Hypotetický gen/protein, predikovaný při anotaci genomu Aspergillus fumigatiis Af?q3 Identifikace genu/proteinu na úrovni mRNA (příprava cDNA pro klonování) 1 Transkrij J ^^^m IT Translaci Prote Chybná predikce intronu? Alternativní sestřih? Různé kmeny/životní podmínky/buněčný cyklus? IDNA ranskripce Chyba při přípravě cDNA knihovny? ranslace mRNA (cDNA) Protein MADPEVEADG ELDLEKRASA QTCKIVNVDT YVNCRYDAKL DAGAIFGFPK GEKLTFACWK HGDCYNGVCS WDQVTYLKTT CYVNGYFTDS NCSSSMLSRC MADPEVEADG ELDLEKRASA QTCKIVNVDT YVNCRYDAKL DAGAIFGFPK GEKLTFACWK HGDCYNGV Excel vs. genomika, 2004 BMC Bioinformatics () BioMed Central Open Access Correspondence Mistaken Identifiers: Gene name errors can be introduced inadvertently when using Excel in bioinformatics Barry RZeeberg*1, Joseph Risst2, David W Kane3, Kimberly I Bussey1, Edward Uchio4, W Marston Linehan4,) Carl Barrett2 and John N Weinstein*1 Abstract_ Background: When processing microarray data sets, we recently noticed that some gene names were being changed inadvertently to non-gene names. Results: A little detective work traced the problem to default date format conversions and floating-point format conversions in the very useful Excel program package. The date conversions affect at least 30 gene names; the floating-point conversions affect at least 2.000 if Riken identifiers are included. These conversions are irreversible; the original gene names cannot be recovered. Conclusions: Users of Excel for analyses involving gene names should be aware of this problem, which can cause genes, including medically important ones, to be lost from view and which has contaminated even carefully curated public databases. We provide work-arounds and scripts for circumventing the problem. ) 0 « ) ncbi.mgd Human Chromosome 2. Mouse Homology R o 4 O A i # 1 ■ R«frt>h Home AutoFtfl Print M.i e r. >"i- > [m elm n fn>j.;^ nk.jv/v ..-ji v ML"'--*d-W>> > O !■'•* Horn, O A*f » » % NCBI • Human-Mouse Homology Map NEDD5 Index; Top of Page Nomenclature Overview Relationships Map RefSeq GenBank NKDDF: neural precui 11 uul.iu il 5 LocuslD: 4735 | Overview s Type: I'ruiluel Alternate Symbob: Relationships Mouse I [i>:i]i ili il; i Maps NCBI vs. MGD UCSC vs. MGD UCSC vs. Hudson etal SubrmVicneRlr' gene with protSfci product, function known or inferred neural precursor ee\expressed, developmentally down-regulated 5 DIFF6. SEPT2. hNcdifc, Ki/\A0I58 Map: I ncbt vs. mqd t \ _ View as text Master: 1 Human t \ ( hromoMtme: 2 Z | [go] lluaiin Mmbul MiMi.c- / X / l\/\l p.-iijii.^'\ I cM I cM I I3I9.34CR AWJIWI / ■ ■ \ / i.pj i 2!>< 2q37.3 STK25 2qM^)7 COI4AI • 2q35-sJ7 OKI ' 2*37.3 UPRiS • 2q37 3 rixoi' 2q37 l XiTIM • 2q37 3 HESt • :",7/S. Km. Opr3< i ..(Oil' Ppplt7 tear 6f IL ©00 o A B c D 1 APR-1 35885 1-Apr 2 APR-2 35886 2-Apr 3 APR-3 35887 3-Apr 4 APR-4 35888 4-Apr S APR-5 35889 5-Apr 6 DEC-1 36129 1-Dec 7 DEC-2 36130 2-Dec 8 DEC1 36129 1-Dec 9 DEC2 36130 2-Dec 10 MAR1 35854 1-Mar 11 MAR2 35855 2-Mar 12 MAR3 35856 3-Mar 13 N0V1 36099 1-Nov 14 NOV2 36100 2-Nov 15 1C Hi < >>ll Shecll . Sheel2 £ Ready Excel vs. genomika, 12 let poté COMMENT Open Access Gene name errors are widespread scientific literature Mark Ziemann1, Yotam Eren1,2 and Assam EI-Ostau The problem of Excel software (Microsoft Corp., Redmond WA, USA) inadvertently converting gene symbols to dates and floating-point numbers was originally described in 2004 [1]. For example, gene symbols such as SEPT2 (Septin 2) and MARCH1 [Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase] are converted by default to '2-Sep' and '1-Mar| respectively. Furthermore, RIKEN identifiers were described to be automatically converted to floating point numbers (i.e. from accession '2310009E13' to '2.31E+13'). Since that report, we have uncovered further instances where gene symbols were converted to dates in supplementary data of recently published papers (e.g. 'SEPT2' converted to '2006/09/02'). This suggests that gene name errors continue to be a problem in supplementary files accompanying articles. Inadvertent gene symbol conversion is problematic because these supplementary files are an important resource in the genomics community that are frequently reused. Our aim here is to raise awareness of the problem. in the Abstract The spreadsheet software Microsoft Excel, when used with default settings, is known to convert gene names to dates and floating-point numbers. A programmatic scan of leading genomics journals reveals that approximately one-fifth of papers with supplementary Excel gene lists contain erroneous gene name conversions. Keywords: Microsoft Excel, Gene symbol, Supplementary data Abbreviations: GEO, Gene Expression Omnibus; JIF, journal impact factor Table 1 Results of the systematic screen of supplementary Excel files for gene name conversion errors Journal3 Number of Excel files screened Number of gene lists found Number of papers with gene lists Number of supplementary files affected Number of papers affected Number of gene names converted PLoS One 7783 2202 994 220 170 4240 BMC Genomics 11464 1650 801 21« 15« Genome Res 2607 580 251 - 68 318C V.- A He: 2117 - pis 88 67 l-V- • Genome Biol 2678 257 »7 1878 ■ . 395 190 75 55 1593 Hum Mol Gener 980 3 •: 168 - 27 '.- Nature 150 74 27 23 1375 BMC Bianformarics 1790 235 152 2t 21 - - WA 569 ' ?' 77 : 15 -- War Genet 70 37 12 9 178 Bioinformatics n: 112 67 6 335 PLoS Comput Biol 177 75 32 •' t -•" PLoS Biol -•■ 7 5 20C Mol Sol tvol 995 112 75 7 - 56 Science 3C 15 7 3 - Genome Biol tvol - 32 25 : 2 : ■ DNA Res 301 57 : 2 total 35175 7467 3597 987 - 23861 The 18 journals investigated are ordered by the number of papers affected by gene name conversion errors L-fukosa X Cukr jako cukr? NCBI Reference Sequence: WP_014900522.1 Identical Proteins FASTA Graphics Go to: R LOCUS WP_014900522 129 aa linear BCT 15-JAN-2015 DEFINITION MULTISPECIES: Fucose-binding lectin II [Burkholderia]. UP_014900522 UP_014900522.1 RefSeq. Burkholderia Burkholderia Bacteria; Proteobacteria; Betaproteobacteria; Burkholderiales; Burkholderiaceae. REFSEQ: This record represents a single, non-redundant, protein sequence which may be annotated on many different RefSeq genomes from the same, or different, species. Location/Qualifiers 1..129 /orgonism=" Burkholderia" /db_xref="taxon:32008" 1..129 ACCESSION VERSION KEYWORDS SOURCE ORGANISM cc -Err FEATURES source Protein Region /product="Fucose-binding lectin II" /calculatedjnoljvt=13768 14..128 /region_name="PA-IIL" /note="Fuco5e-binding lectin II (PA-IIL); pfam07472" /db xref="CDD:284811" 1 madsqtssnr agefsippnt dfraiffana aeqqhiklfi gdsnepaayh klttrdgpre 61 atlnsgngkl rfevtvngkt satdarlapi ngkksdgspf tvnfgivvse dghdsdyndg 121 ivvlqwpig UniProtKB - J7JBV3 (J7JBV3_BURCE) Display MULTISPECIES: Fucose-binding lectin II [Burkholderia] Publications Feature viewer Feature table Names & Taxonomy U Subcelulai location B Pathology & Biotech ^ U PTM / Processing " LJ Expressjon Interaction ■ Structure - Family & Domains ABLAST Q Format # Add to basket © History Protein I Submitted name: Fucose-binding lectin ii Gene gem_5383 Organism I Burkholderia cepacia GG4 Status] K Unreviewed - Annotation score:#0000 - Protein predicted Function1 go - Molecular function ■ carbohydrate binding # Source: UniProtKB-KW Complete GO annotation on QuickGO ... Keywords1 Ligand Lectin ♦ Imported - Enzyme and pathway databases BioCyc1 BCEP1009846:GlH9M-5526-MONOMER Names & Taxonomy1 Protein names1 iMjIllllinrf iillllll" hucose-binding lectin II « Imported Gene nameS^ORF Names:GEM_5383 4 Organism1 Bun Automatic assertion inferred from database entries Taxonomie identifier1 Taxonomie lineage1 Proteomes1 1009846 [NCBI] EMBLAFQ51767.1 Bacteria > Proteobacteria > Betaproteobacteria > Burkholderiales > Burkholderiaceae > Burkholderia UP000032866 Component1: Chromosome 2 10) Sacharidy a lipidy. Struktura, význam a funkce. Bioinformatický potenciál sacharidů. Glykoproteiny, jejich kódování v genomu. Názvosloví a grafické znázornění. Databáze a nástroje pro glykobioinformatiku a lipidobioinformatiku. Manipulace se sekvencemi: nukleové kv»«\>nV; proteiny Složení nukleových kyselin Ester kyseliny fosforečné = fosfát \ OH o^P\'"0" OH / K Pentosa: D-ribosa (RNA) 2-deoxy-D-ribosa (DNA) Nukleová báze (obsahuje amino skupinu = je bazická) \ HOCH2 0H / OH OH Nukleové báze Jako základní součást nukleových kyselin NH, NH; O «00 "N' VNH ""' 'N NH2 Adenine Cytosine Guanine o o V -i i SNH *NH ^0 Thymine NH L 4 NH ^0 Uracil adenin cytosin guanin thymin uracil A C G T U Součást nukleových kyselin (zejm. RNA) po chemické modifikaci tór H Hypoxanthine Xanthine N N NH2 7-Methylguanine NH, "NH H,C N "O H N H 5,6-Dihydrouracil 5-Methylcytosine Syntetické NH n"^o 5-Bromouracil H Nukleosid x Nukleotid Cukr + báze = nukleosid Cukr + báze + fosfát = nukleotid dA deoxyadenosin dG deoxyguanosin dC deoxycytidin dT deoxythymidin U uridin dAMP deoxyadenosinmonofosfát dGMP deoxyguanosinmonofosfát dCMP deoxycytidinmonofosfát dTMP deoxythymidinmonofosfát UMP uridinmonofosfát Číslování nukleotidů / -A X5' C7(H7)3 04 C5—C4 H6—C6 N1 —C2 H4' H3 ^,C3'"C^ Hl' .03' H2" \ H42 C5 N4—H41 / ssH\ C5 —C4 H8. // ~\ H6-c^ C /N3 \»-*\ N1 —C2 / H3' / \ ' 02 06 // ,C6 / 04 // C5—C4^ »H5" H6-tíf |J n3h! H4 C5' -C4' ,04' r ■C2^ Mi' 02H2' H62 \ „H61 N6 h8 I -ca ■ca \ NT "C5' -C6 N2 -H21 1 A q—C4 N3' N1 / C2 H2 H22 Nukleotid-DNA Lukáš Žídek Guanin (gua), G Thymin (thy), T Skripta předmětu C9530 Strukturní biochemie Nukleotid-RNA Lukáš Žídek Guanin (gua), G Uracil (ura), U Skripta předmětu C9530 Strukturní biochemie Párování bází ,P.....+H- \ / n-C, / V n-h- n / \ r C—n / T - A \ h \ / \ n- / n / •o. W o N. -h—r/ \ C = G Watsonovo-Crickovo párování bází (kanonické) Základní dsDNA, během transkripce při tvorbě RNA, dsRNA. - 0 .n n1 N^m-H' 3 jfí H •n? h-° H 3 H G-C Watson-Crick Me, 5 e Mo HNH V* .H Q A-T Watson-Crick O N* H H Me HNYNH .0 <" II g-t Wobble ,.N HNH"' ,,.HNH 05' H A-A N7-Amino, symmetric O M* =1 n n "-p h II /-N H N H g-g N7-N1, Carbonyl-amino H-N VNH y=N. H-N H 'l\l=( N-H =N O g-g N3-Amino, symmetric N H-N >=0,„ ^NH "H-.rH o H.. 'N , H A-T Hoogsteen H N H O N o Y) U-U 4-Carbonyl-N3, symmetric H N-^-^H H 1 „ h ľr> N N N h h g-g N1-Carbonyl, symmetric Lukáš Žídek Skripta předmětu C9530 Strukturní biochemie Nekanonické párování bází Funkční RNA, specifické úseky DNA,. Nukleové kyseliny O 4 báze pro DNA O 4 báze pro RNA (3 totožné) O 6 zkratek pro dvoubázové kombinace c r\C^ O 4 zkratky pro tříbázové kombinacgVCX^ O 1 zkratka pro libovolnou bázf\\ Adenin Cytosin Guanin Thymin Uracil A, G C,T C, G G, T A, C A, T A, G,T A, C,T A, C, G C,G,T A, C, G, T A C G T U I R Y S K M W D H V B N 'o 'o lV lV lV lV ^ ^ Č £ * / y f ^ f ^ ^ / ^ t Aminokyseliny Organické látky obsahující: R ? 1 • NH2 skupinu - amino • COOH skupinu - karboxylová kyselina r\> nh • Případně další část - tzv. postranní/boční řetězec V proteinech se uplatňují tzv. a-aminokyseliny, tzn. mající aminoskupinu na druhém uhlíku V organismech mají jiné funkce i další aminokyseliny, např.: • (3-alanin - součást funkčních peptidů, prekurzor vitaminu B5 h2 • y-aminomáselná kyselina (GABA) - přenašeč nervových vzruchů Proteinogenní aminokyseliny Stavební jednotky proteinů: a-L-aminokyseliny .\ 20 standardních proteinogenních aminokyselin ^OA* Podle charakteru bočního řetězce je můžeme dělit na: • Alifatické (Gly, Ala, Val, Leu, Ile) • Aromatické (Trp, Tyr, Phe, His) • Sirné (Cys, Met) \VÄ • Obsahující OH skupinu (Ser, Thr) • Kyselé a z nich odvozené (Glu, Gin, Asp, Asn) Bazické (Lys, Arg, His) glycin alanin valin leucin izoleucin asparagová kys. aspa«girw glutamová \ys^ glutamin arginin lysin histidin fenylalanin serin threonin ty rozin tryptofan methionin cystein prolin selenocystein pyrolysin Gly Ala Val Leu lie Asp Asn Glu Gin Arg Lys His Phe Ser Thr Tyr Trp Met Cys Pro See Pyr G A V L 1 D N E Q R K H F S T Y W M C P U 0 Aminokyseliny Aminokyseliny s podobnými vlastnostmi mohou plnit v proteinu stejné funkce - bývají vzájemně zastupitelné o H3C OH NH2 Isoleucine CH, NHC Leucine aliphatic aromatic non-polar Selenocystein • „21. aminokyselina" - (Sec, U) • Bifunkční kodon UGA • Vyžaduje přítomnost speciální sekvence^ Xj • Využití u různých organismů vč. E. coli a člověka H2N • Výskyt např. v\^i\)reauktasách X Pyrrolysin • „22. aminokyselina" - (Pyl, O) • Bifunkční kodon UAG • Vyžaduje přítomnost speciální sekvence^ \1 * Proteiny O 20 standardních proteinogenních aminokyselin O 2 nestandardní proteinogenní aminokyseliny (selenocystein, pyrrolysin) O 4 zkratky pro nejednoznačnou aminok^aWÍX Alanin Kyselina asparagová nebo Asparagin Cystein Asparagová kyselina Glutamová kyselina Fenylalanin Glycin Histidin Isoleucin Isoleucin nebo Leucin Lysin Leucin Methionin Asparagin Pyrolysin Prolin Glutamin Arginin Serin Threonin Selenocystein Valin Tryptofan Jakákkoliv aminokyselina Tyrosin Kyselina glutamová nebo Glutamin Ala Asx Cys Asp Glu Phe Gly His lie Lys Leu Met As n Pyl Pro Gin Arg Ser Thr Sec Val Trp Tyr G Ix A B C D E F G H 1 J K L M N 0 P Q R S T U V W X Y Z Zápis sekvence Sekvence jsou vždy orientované • DNA/RNA - od 5' konce ke 3' konce • Proteiny - od N konce k C konci N Formát sekvence • Sekvence může být zapsána v různých formátech Detaily např. http://emboss.sourceforge.net/docs/themes/SequenceFormats.html • Nejpoužívanější je tzv. FASTA formát \0 >NÁZEV(upopis dle vlastní volby) J SEKVENCESEKVENCESEKVENCESEKVENCESEKVEN J CESEKVENCESEKVENCESEKVENCESEKVENCESEKV J ENCESEKVENCESEKVENCESEKVENCESEKVENCESE J IVKVENCESEKVENCESEKVENCESEKVENCEJ \ POVINNÉ VOLITELNÉ Sekvenční přiložení = Alignment • Přiložení dvou nebo více sekvencí na základě jejich vzájemné podobnosti v Vv^ Význam alignmentu Identifikace sekvence v databázi Hledání podobných sekvencí v databázi Detekce mutací • s\ Hledání konzervovaných částí sekvence Odhalování příbuzenských vztahů Předpověď funkce makromolekuly Předpověď vyšších struktur Typy alignmentu Párové přiložení (pairwise alignment) - dvě sekvencfir vť^ WLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAMW WLAKALKYLMETAQASSISTELARm _ \ \ \ Mnohočetné přiložení (multiple sequence alignment) - více sekvencí WLAKALKYLMETAQASSISTELARm WLAKALKYLMETAQASSISTELARm WLAKALKYLMETAQASSISTELARHHPRAVDAKRKSEMKRKTAMWLA WLAKALKYLMETAQASSISTELARm WLAKALKYLMETAQASSISTELARHH^ Párové přiložení (pair-wise alignment) Srovnání dvou sekvencí \ V* • Globální alignment - sekvence jsou přiloženy v celé své délce včetně nepodobných úseků CrS\ • Local alignment - sekvence jsou přiloženy pouze v oblasti, kde jsou si podobné V/^\0 Jak by asi vypadal alignment těchto dvou sekvencí: MAMUZDOSTSTAROSTISHAMIZNOSTIRATOLESTI MAM RADOST Z ESTAROZITNOSTI \ V* při absolutním preferování CfS\ A) globálního alignmentu \OlN MAM--UZDOST--STAROSTISHAMIZ--NOSTIRATOLESTI MAMRA- - DOSTZES T ARO--------ZITNO---------STI B) lokálního alignmentu MAMUZDOST--STAROSTISHAMIZNOSTIRATOLESTI MAMRADO S T Z E S T ARO Z------ITNOSTI FASTA algoritmus • Lokální přiložení s využitím heuristického přístupu • Používán od roku 1987 Proces: Obě porovnávané sekvence tvoří horizontální a vertikální osu grafu. Následně jsou jednotlivá slova z jedné sekvence porovnávána se slovy sekvence druhé. Odpovídající páry pak vytvoří sadu bodů. Body na úhlopříčce signalizují významnou shodu (či podobnost). Cílem je nalezení nejdelšího shodného úseku (úseku s nejvyšším skóre). V dalších krocích jsou zahrnuty konzervativní změny pro nejlepší úseky z prvního prohledání. Program pak vyhledává možnost spojení více takových úseků (může mezi nimi být mezera, či jsou na různých diagonálách) a tyto spojené úseky jsou posouzeny z hlediska zadaných kriterií. a a c g g c t t a c g • • • -p 4-> • 4-> ■ U ■ • • Příklad porovnání sekvencí GGCTTTCGG a AACGGCTTACG Emboss Needle & Water [[[ ft ft vytvořeny 1970 \ V* Needleman S.B. and Wunsch CD. (1970) A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology 48:443-453. využívají dynamické programování C(S\ umožňují vložení mezer Needle/Stretcher^ia^élní pairwise alignment, Needleman-Wunsch algoritmus \ g \ https://www.ebi.ac.uk/Tools/psa/emboss_needle/ ^ https://www.ebi.ac.uk/Tools/psa/emboss_stretcher/ Water - lokální pairwise alignment, Smith-Waterman algoritmus https://www.ebi.ac.uk/Tools/psa/emboss_water/ Needlman-Wunch algorithm (po diagonále) Gap-1 (svisle nebo vodorovně) Shoda +1 Neshoda -1 G C A T G C T 0 -1 -2 -3 -4 -5 -6 G -1 A -2 T -3 T -4 A -5 C -6 A -7 pokud shoda v diagonále, nemá smysl řešit mezery Needlman-Wunch algorithm Q l_ _ _l _ . -1 (po diagonále) Gap-1 (svisle nebo vodorovně) Neshoda -1 G C A T G C T 0 -1 -2 -3 -4 -5 -6 G -1 0 A -2 0 0 T -3 T -4 A -5 C -6 A -7 Needlman-Wunch algorithm Q l_ _ _l _ . -1 (po diagonále) Gap-1 (svisle nebo vodorovně) Neshoda -1 G C A T G C T 0 -1 -2 -3 -4 -5 -6 V( G -1 0 -1 -2 -3 -4 -5 A -2 0 0 1* 0 -1 -2 -3 T -3 T -4 A -5 C -6 A -7 Needlman-Wunch algorithm Q l_ _ _l _ . -1 (po diagonále) Gap-1 (svisle nebo vodorovně) Neshoda -1 G C A T G C T 0 -1 -2 -3 -4 -5 -6 G -1 0 -1 -2 -3 -4 -5 A -2 0 0 1* 0 -1 -2 -3 T -3 -1 -1 0 1 0 -1 T -4 A -5 C -6 A -7 Needlman-Wunch algorithm Q l_ _ _l _ . -1 (po diagonále) Gap-1 (svisle nebo vodorovně) Neshoda -1 G C A T G C T 0 -1 -2 -3 -4 -5 -6 G -1 0 -1 -2 -3 -4 -5 A -2 0 0 1* 0 -1 -2 -3 T -3 -1 -1 0 1 0 -1 T -4 -2 -2 -1 1 1 0 -1 A -5 C -6 A -7 Needlman-Wunch algorithm Q l_ _ _l _ . -1 (po diagonále) Gap-1 (svisle nebo vodorovně) Neshoda -1 G C A T G C T 0 -1 -2 -3 -4 -5 -6 G -1 0 -1 -2 -3 -4 -5 A -2 0 0 1* 0 -1 -2 -3 T -3 -1 -1 0 1 0 -1 T -4 -2 -2 -1 1 1 0 -1 A -5 -3 -3 -1 0 0 0 -1 C -6 A -7 Needlman-Wunch algorithm Q l_ _ _l _ . -1 (po diagonále) Gap-1 (svisle nebo vodorovně) Neshoda -1 G C A T G c T 0 -1 -2 -3 -4 -5 -6 G -1 0 -1 -2 -3 -4 -5 A -2 0 0 1* 0 -1 -2 -3 T -3 -1 -1 0 1 0 -1 T -4 -2 -2 -1 1 1 0 -1 A -5 -3 -3 -1 0 0 0 -1 C -6 -4 -2 -2 -1 -1 1 -1 A -7 Needlman-Wunch algorithm Q l_ _ _l _ . -1 (po diagonále) Gap-1 (svisle nebo vodorovně) Neshoda -1 G C A T G C T 0 -1 -2 -3 -4 -5 -6 G -1 0 -1 -2 -3 -4 -5 A -2 0 0 1* 0 -1 -2 -3 T -3 -1 -1 0 1 0 -1 T -4 -2 -2 -1 1 1 0 -1 A -5 -3 -3 -1 0 0 0 -1 C -6 -4 -2 -2 -1 -1 1 -1 A -7 -5 -3 -1 -2 -2 0 0 Needlman-Wunch algorithm Q l_ _ _l _ . -1 (po diagonále) Gap-1 (svisle nebo vodorovně) Neshoda -1 Smith-Waterman algorithm Shoda +3 Neshoda -3 (po diagonále) Gap-2 (svisle nebo vodorovně Záporné hodnoty -> 0 T A T T G A C T A -1-1-1-1-1-1-1-1- o I o o I o I o o I 0 0 0 *—I GOO 3*1 000 0 3*1 6*4*2*0 J 3 *—I 3 0 3 *1 4 9 *7*! 0 1 1»'*' 6 0 3*1 6*4*2*0 1 4 * HhHé—F—I"—r— 9*7*5*3 2 4-1 8 *6 -Kyselina glutamová -> Glutamin > Kyselina glutamová -> Tryptofan Shoda aminokyselin nemusí být hodnocena stejně ^^^^ >Serin x Serin > Tryptofan X Tryptofan A R N D C Q E G H 1 L K M A 4 -3 -1 -1 -3 -2 0 1 -3 -2 -3 -3 -2 R -3 7 -2 -4 -5 1 -3 -5 1 -3 -5 2 -1 N -1 -2 5 3 -5 -1 1 -1 2 -3 -4 1 -4 D -1 -4 3 5 -7 0 4 -1 -1 -4 -6 -1 -5 C -3 -5 -5 -7 9 -8 -8 -5 -4 -3 -8 -8 -7 Q E -2 0 1 -3 -1 1 0 4 -8 ň _ 2 -3 -1 3 -1 -4 -3 -2 -5 0 -1 -2 -4 G 1 -5 -1 -1 5 -4 -5 -6 -3 -4 H -3 1 2 -1 -4 3 -1 -4 7 -4 -3 -2 -4 1 -2 -3 -3 -4 -3 -4 -3 -5 -4 6 1 -3 1 L -3 -5 -4 -6 -8 -2 -5 -6 -3 1 6 -4 3 K -3 2 1 -1 -8 0 -1 -3 -2 -3 -4 5 0 M -2 -1 -4 -5 -7 -2 -4 -4 -4 1 3 0 9 F -5 -6 -5 -8 -7 -7 -8 -6 -3 0 0 -7 -1 P 1 -1 -2 -3 -4 -1 -2 -2 -1 -4 -4 -3 -4 S 1 -1 1 -1 -1 -2 -1 0 -2 -3 -4 -1 -3 T 1 -3 0 -2 -4 -2 -2 -2 -3 0 -3 -1 -1 W -7 1 -5 -9 -9 -7 -9 -9 -4 -7 -3 -6 -6 Y -4 -6 -2 -6 -1 -6 -5 -7 -1 -3 -3 -6 -5 V 0 -4 -3 -4 -3 -3 -3 -3 -3 3 0 -4 1 F -5 -6 -5 -8 -7 -7 -8 -6 -3 0 0 -7 -1 8 -6 -4 -5 -1 4 -3 P 1 -1 -2 -3 -4 -1 -2 -2 -1 -2 0 -1 -2 -4 -3 -4 -4 -3 -1 -4 -3 -1 -3 -2 T W Y V 1 -7 -4 0 -3 1 -6 -4 0 -5 -2 -3 -2 -9 -6 -4 -4 -9 -1 -3 2, -6 -3 2 3 -5 -3 21 -T -7 -3 -3 -4 -1 -3 0 -7 -3 3 -3 -3 -3 0 -1 -6 -6 -4 -1 -6 -5 1 -5 -1 4 -3 -1 -7 -7 -3 2 -3 -4 -2 5 , -i. r4 0 •H -9 -4 ■"T ' 9 -4 0 -9 -4 5 83 Mezery > Vložení mezer umožňuje získání většího množství shod = „lepší alignment" iř^C\ > S využitím dostatečného počtu mezer lze ale zarovnat cokoliv !!! > Mezery mohou vzniknout na začátku, na konci nebo uprostřed sekvence ^O* > Delecí a inzercí vznikají mezery o různé délce -> Přítomnost mezery je penalizována (snížení skóre) -T^Vznik mezery je penalizován víc než její délka Výpočet skóre >sekvence A PAKAPALAPAKAP >sekvence B VPKAPALVPKAP Penalizace mezery: -10 A R N D C Q E G H 1 L K M F P S T W Y V A 4 -3 -1 -1 -3 -2 0 1 -3 -2 -3 -3 -2 -5 1 1 1 -7 -4 0 R -3 7 -2 -4 -5 1 -3 -5 1 -3 -5 2 -1 -6 -1 -1 -3 1 -6 -4 N -1 -2 5 3 -5 -1 1 -1 2 -3 -4 1 -4 -5 -2 1 0 -5 -2 -3 D -1 -4 3 5 -7 0 4 -1 -1 -4 -6 -1 -5 -8 -3 -1 -2 -9 -6 -4 C -3 -5 -5 -7 9 -8 -8 -5 -4 -3 -8 -8 -7 -7 -4 -1 -4 -9 -1 -3 Q -2 1 -1 0 -8 6 2 -3 3 -4 -2 0 -2 -7 -1 -2 -2 -7 -6 -3 E 0 -3 1 4 -8 2 5 -1 -1 -3 -5 -1 -4 -8 -2 -1 -2 -9 -5 -3 G 1 -5 -1 -1 -5 -3 -1 5 -4 -5 -6 -3 -4 -6 -2 0 -2 -9 -7 -3 H -3 1 2 -1 -4 3 -1 -4 7 -4 -3 -2 -4 -3 -1 -2 -3 -4 -1 -3 1 -2 -3 -3 -4 -3 -4 -3 -5 -4 6 1 -3 1 0 -4 -3 0 -7 -3 3 L -3 -5 -4 -6 -8 -2 -5 -6 -3 1 6 -4 3 0 -4 -4 -3 -3 -3 0 K -3 2 1 -1 -8 0 -1 -3 -2 -3 -4 5 0 -7 -3 -1 -1 -6 -6 -4 M -2 -1 -4 -5 -7 -2 -4 -4 -4 1 3 0 9 -1 -4 -3 -1 -6 -5 1 F -5 -6 -5 -8 -7 -7 -8 -6 -3 0 0 -7 -1 8 -6 -4 -5 -1 4 -3 P 1 -1 -2 -3 -4 -1 -2 -2 -1 -4 -4 -3 -4 -6 7 0 -1 -7 -7 -3 S 1 -1 1 -1 -1 -2 -1 0 -2 -3 -4 -1 -3 -4 0 4 2 -3 -4 -2 T 1 -3 0 -2 -4 -2 -2 -2 -3 0 -3 -1 -1 -5 -1 2 5 -7 -4 0 W -7 1 -5 -9 -9 -7 -9 -9 -4 -7 -3 -6 -6 -1 -7 -3 -7 12 -2 "9 Y -4 -6 -2 -6 -1 -6 -5 -7 -1 -3 -3 -6 -5 4 -7 -4 -4 -2 9 -4 V 0 -4 -3 -4 -3 -3 -3 -3 -3 3 0 -4 1 -3 -3 -2 0 -9 -4 5 -3 +1 +5 +4 +7 +4 +6 +0 +7 -3 -3 +1 = 26 PAKAPALAPAKAP I I I II I VPKAPALVPKAP 85 Výpočet skóre >sekvence A PAKAPALAPAKAP >sekvence B VPKAPALVPKAP Penalizace mezery: -10 A R N D C Q E G H 1 L K M F P S T W Y V A 4 -3 -1 -1 -3 -2 0 1 -3 -2 -3 -3 -2 -5 1 1 1 -7 -4 0 R -3 7 -2 -4 -5 1 -3 -5 1 -3 -5 2 -1 -6 -1 -1 -3 1 -6 -4 N -1 -2 5 3 -5 -1 1 -1 2 -3 -4 1 -4 -5 -2 1 0 -5 -2 -3 D -1 -4 3 5 -7 0 4 -1 -1 -4 -6 -1 -5 -8 -3 -1 -2 -9 -6 -4 C -3 -5 -5 -7 9 -8 -8 -5 -4 -3 -8 -8 -7 -7 -4 -1 -4 -9 -1 -3 Q -2 1 -1 0 -8 6 2 -3 3 -4 -2 0 -2 -7 -1 -2 -2 -7 -6 -3 E 0 -3 1 4 -8 2 5 -1 -1 -3 -5 -1 -4 -8 -2 -1 -2 -9 -5 -3 G 1 -5 -1 -1 -5 -3 -1 5 -4 -5 -6 -3 -4 -6 -2 0 -2 -9 -7 -3 H -3 1 2 -1 -4 3 -1 -4 7 -4 -3 -2 -4 -3 -1 -2 -3 -4 -1 -3 1 -2 -3 -3 -4 -3 -4 -3 -5 -4 6 1 -3 1 0 -4 -3 0 -7 -3 3 L -3 -5 -4 -6 -8 -2 -5 -6 -3 1 6 -4 3 0 -4 -4 -3 -3 -3 0 K -3 2 1 -1 -8 0 -1 -3 -2 -3 -4 5 0 -7 -3 -1 -1 -6 -6 -4 M -2 -1 -4 -5 -7 -2 -4 -4 -4 1 3 0 9 -1 -4 -3 -1 -6 -5 1 F -5 -6 -5 -8 -7 -7 -8 -6 -3 0 0 -7 -1 8 -6 -4 -5 -1 4 -3 P 1 -1 -2 -3 -4 -1 -2 -2 -1 -4 -4 -3 -4 -6 7 0 -1 -7 -7 -3 S 1 -1 1 -1 -1 -2 -1 0 -2 -3 -4 -1 -3 -4 0 4 2 -3 -4 -2 T 1 -3 0 -2 -4 -2 -2 -2 -3 0 -3 -1 -1 -5 -1 2 5 -7 -4 0 W -7 1 -5 -9 -9 -7 -9 -9 -4 -7 -3 -6 -6 -1 -7 -3 -7 12 -2 "9 Y -4 -6 -2 -6 -1 -6 -5 -7 -1 -3 -3 -6 -5 4 -7 -4 -4 -2 9 -4 V 0 -4 -3 -4 -3 -3 -3 -3 -3 3 0 -4 1 -3 -3 -2 0 -9 -4 5 26 PAKAPALAPAKAP I I I I I Y ^ VPKAPALVPKAP -3 +1 +5 +4 +7 +4 +6 +0 +7 -10 +5 +4 +7 = 37 PAKAPALAPAKAP I I I I I I III VPKAPALVP-KAP 86 Výpočet skóre >sekvence A PAKAPALAPAKAP >sekvence B VPKAPALVPKAP Penalizace mezery: -10 A R N D C Q E G H 1 L K M F P S T W Y V A 4 -3 -1 -1 -3 -2 0 1 -3 -2 -3 -3 -2 -5 1 1 1 -7 -4 0 R -3 7 -2 -4 -5 1 -3 -5 1 -3 -5 2 -1 -6 -1 -1 -3 1 -6 -4 N -1 -2 5 3 -5 -1 1 -1 2 -3 -4 1 -4 -5 -2 1 0 -5 -2 -3 D -1 -4 3 5 -7 0 4 -1 -1 -4 -6 -1 -5 -8 -3 -1 -2 -9 -6 -4 C -3 -5 -5 -7 9 -8 -8 -5 -4 -3 -8 -8 -7 -7 -4 -1 -4 -9 -1 -3 Q -2 1 -1 0 -8 6 2 -3 3 -4 -2 0 -2 -7 -1 -2 -2 -7 -6 -3 E 0 -3 1 4 -8 2 5 -1 -1 -3 -5 -1 -4 -8 -2 -1 -2 -9 -5 -3 G 1 -5 -1 -1 -5 -3 -1 5 -4 -5 -6 -3 -4 -6 -2 0 -2 -9 -7 -3 H -3 1 2 -1 -4 3 -1 -4 7 -4 -3 -2 -4 -3 -1 -2 -3 -4 -1 -3 1 -2 -3 -3 -4 -3 -4 -3 -5 -4 6 1 -3 1 0 -4 -3 0 -7 -3 3 L -3 -5 -4 -6 -8 -2 -5 -6 -3 1 6 -4 3 0 -4 -4 -3 -3 -3 0 K -3 2 1 -1 -8 0 -1 -3 -2 -3 -4 5 0 -7 -3 -1 -1 -6 -6 -4 M -2 -1 -4 -5 -7 -2 -4 -4 -4 1 3 0 9 -1 -4 -3 -1 -6 -5 1 F -5 -6 -5 -8 -7 -7 -8 -6 -3 0 0 -7 -1 8 -6 -4 -5 -1 4 -3 P 1 -1 -2 -3 -4 -1 -2 -2 -1 -4 -4 -3 -4 -6 7 0 -1 -7 -7 -3 S 1 -1 1 -1 -1 -2 -1 0 -2 -3 -4 -1 -3 -4 0 4 2 -3 -4 -2 T 1 -3 0 -2 -4 -2 -2 -2 -3 0 -3 -1 -1 -5 -1 2 5 -7 -4 0 W -7 1 -5 -9 -9 -7 -9 -9 -4 -7 -3 -6 -6 -1 -7 -3 -7 12 -2 "9 Y -4 -6 -2 -6 -1 -6 -5 -7 -1 -3 -3 -6 -5 4 -7 -4 -4 -2 9 -4 V 0 -4 -3 -4 -3 -3 -3 -3 -3 3 0 -4 1 -3 -3 -2 0 -9 -4 5 26 37 +7-10 +5 +4 +7 +4 +6 +0 +7-10 +5 +4 +7 = 36 PAKAPALAPAKAP I I I I I Y ^ VPKAPALVPKAP PAKAPALAPAKAP I I I I I I III VPKAPALVP-KAP PAKAPALAPAKAP I I I I I I I III VP-KAPALVP-KAP 87 Výpočet skóre >sekvence A PAKAPALAPAKAP >sekvence B VPKAPALVPKAP Penalizace mezery: -10 26 PAKAPALAPAKAP I I I I I Y ^ VPKAPALVPKAP 37 PAKAPALAPAKAP I I I I I I VPKAPALVP-KAP A R N D C Q E G H 1 L K M F P S T W Y V A 4 -3 -1 -1 -3 -2 0 1 -3 -2 -3 -3 -2 -5 1 1 1 -7 -4 0 R -3 7 -2 -4 -5 1 -3 -5 1 -3 -5 2 -1 -6 -1 -1 -3 1 -6 -4 N -1 -2 5 3 -5 -1 1 -1 2 -3 -4 1 -4 -5 -2 1 0 -5 -2 -3 D -1 -4 3 5 -7 0 4 -1 -1 -4 -6 -1 -5 -8 -3 -1 -2 -9 -6 -4 C -3 -5 -5 -7 9 -8 -8 -5 -4 -3 -8 -8 -7 -7 -4 -1 -4 -9 -1 -3 Q -2 1 -1 0 -8 6 2 -3 3 -4 -2 0 -2 -7 -1 -2 -2 -7 -6 -3 E 0 -3 1 4 -8 2 5 -1 -1 -3 -5 -1 -4 -8 -2 -1 -2 -9 -5 -3 G 1 -5 -1 -1 -5 -3 -1 5 -4 -5 -6 -3 -4 -6 -2 0 -2 -9 -7 -3 H -3 1 2 -1 -4 3 -1 -4 7 -4 -3 -2 -4 -3 -1 -2 -3 -4 -1 -3 1 -2 -3 -3 -4 -3 -4 -3 -5 -4 6 1 -3 1 0 -4 -3 0 -7 -3 3 L -3 -5 -4 -6 -8 -2 -5 -6 -3 1 6 -4 3 0 -4 -4 -3 -3 -3 0 K -3 2 1 -1 -8 0 -1 -3 -2 -3 -4 5 0 -7 -3 -1 -1 -6 -6 -4 M -2 -1 -4 -5 -7 -2 -4 -4 -4 1 3 0 9 -1 -4 -3 -1 -6 -5 1 F -5 -6 -5 -8 -7 ■7 -8 -6 -3 0 0 -7 -1 8 -6 -4 -5 -1 4 -3 P 1 -1 -2 -3 -4 -1 -2 -2 -1 -4 -4 -3 -4 -6 7 0 -1 -7 -7 -3 S 1 -1 1 -1 -1 -2 -1 0 -2 -3 -4 -1 -3 -4 0 4 2 -3 -4 -2 T 1 -3 0 -2 -4 -2 -2 -2 -3 0 -3 -1 -1 -5 -1 2 5 -7 -4 0 W -7 1 -5 -9 -9 -7 -9 -9 -4 -7 -3 -6 -6 -1 -7 -3 -7 12 -2 "9 Y -4 -6 -2 -6 -1 -6 -5 -7 -1 -3 -3 -6 -5 4 -7 -4 -4 -2 9 -4 V 0 -4 -3 -4 -3 -3 -3 -3 -3 3 0 -4 1 -3 -3 -2 0 -9 -4 5 36 PAKAPALAPAKAP I I I I I I I III VP - KAPALVP - KAP 88 Co na to EMBOSS stretcher? MAM—UZDOST—STAROSTISHAMIZ—NOSTIRATOLESTI MAMRA—DOSTZESTARO--------ZITNO---------ST I 1 MAMUZDOST—STAROSTISHAMIZNOSTIRATOLESTI 37 1 MAMRADOSTZESTAR-----— TNO-STI 24 Gap_penalty: 1 Extend_penalty: 2 Score: 55 1 MAMUZDQSf-\3TAROSTISHAMIZNOSTIRATOLESTI 37 1 MAMRADO S T Z E S T ARO ZITNO---------------STI 24 Gap_penalty: 12 Extend_penalty: 2 Score:4 1 MAMUZDOST—STAROSTISHAMIZNOSTIRATOLESTI 37 1 MAMRADOSTZESTAR-------O-Z----1 — TNO-STI 24 Gap_penalty: 1 Extend_penalty: 2 Score: 55 1 MAMUZDOST — STAROST I SHAMI ZNOS* jßkTOLEST I 37 1 MAMRADO S T Z E S T ARO ZI TNQr\-\*----------STI 24 Gap_penalty: 12 Extend_penalty: 2 t Score:4 1 MAMUZDOSTSTAROSTISHAMIZNOSTIRATOLESTI 37 1 MAMRADOST-------------ZESTAROZITNOSTI 24 Gap_penalty: 25 Extend_penalty: 2 Score:-11 Kdy je vhodnější: *p Vysoká penalizace mezer? Hledání sekvencí velmi striktně zaměřených na podobnost s hledanou sekvencí - najde oblasti velmi příbuzných sekvencí Nízká penalizace mezer? Hledání podobností mezi sekvencemi vzdáleně příbuzných. Výpočet skóre Hodnota skóre závisí na typu sekvence a její délce ^^XV* • Pravděpodobnost, že dvě rezidua v nepříbuzných sekvencích jsou identická tri* 25% v NA, 5% v proteinech • Vliv délky sekvence • Čím kratší sekvewefc.\tíflTvětší je šance, že alignment je dán náhodnou shodou, • Čím delší, tím je méně pravděpodobné, že je stejná úroveň podobnosti výsledkem náhody. • Kratšreekvence vyžadují vyšší cut-off pro zjištění příbuznosti než u delších sekvencí. Typy matic • PAM (Point Accepted Mutation) - založena na mutacích v rámci globálního alignmentu, tj. ve vysoce konzerovovaných i mutabilních oblastech. PAM 250 znamená, že 250 mutací na 100 AK může nastat, PAM 10 akceptuje pouze 10 na 100, takže pouze velice podobné sekvence dosáhnou na pozitivní skóre. • BLOSUM (Blocks Substitution Matrix) - je odvozena z vysoce konzervovaných oblastí neobsahujících mezery-z těch počítá relativní zastoupení AK a pravděpodobnost jejich substitucí -> lepší pro lokální alignment. Je využívána v blastp, vhodná pro identifikaci neznámé nukleotidové sekvence. BLOSUM matrice s vysokými čísly je dobrá pro porovnání vysoce příbuzných sekvencí, zatímco nízké pro relativně vzdálené podobnosti • GÖNNET-vytvořena 1992, postupným opakováním cyklu: pairwise alignment - nová matice - nový pairwise alignment - nová matice -... • DNA identity matrix - navržená pro DNA sekvence • Specifické matice - např. EDSSMat pro neuspořádané proteiny V rámci jednoho typu matic existuje více jednotlivých matic založených na stejném principu, které se však liší konkrétními hodnotami a tedy i oblastí použití (vysoce příbuzné nebo naopak velmi vzdálené sekvence). PAM - Point Accepted Mutation • Vytvořila Margaret Dayhoff roku 1978. v Vv^ • Zahrnuje pravděpodobnost záměny jedné aminokyseliny v druhou během evoluce * /VC * • Předpokládá, že každá další mutace nezávisí na předchozí. • PAM1 - Odvozena z globálního alignmentu 71 rodin proteinů (Podobnost sekvencí v rodině > 85%, průměrná 1% záměna) • vysoká spolehlivost alignmentu • vysoká pravděpodobnost, že záměna aminokyseliny je dána jedinou mutací • PAM250 (20% identita) je odvozena od PAM1 její 250-násobnou multiplikací (250 mutací na 100 aminokyselin) PAM1 matice A R N D C A 9867 2 9 10 3 R 1 9913 1 0 1 N 9822 D 6 0 42 9859 0 C 1 1 9973 All entries x 104 95 PAM250 matice c 12 <;mall nnlar s 0 2 Kladné skóre - frekvence substituce je vyšší než odpovídá náhodné záměně. T -2 1 3 P -3 1 0 6 small, nonpolar A -2 1 1 1 2 Nulové skóre - frekvence substituce odpovídá náhodné záměně. G -3 1 0 -1 1 5 N 4 1 0 -1 0 0 2 D -5 0 0 -1 1 2 2 4 poiar or aciaic E -5 0 0 -1 0 0 1 3 4 Záporné skóre - frekvence substituce Q -5 -1 -1 0 0 -1 1 2 2 4 je nižší než odpovídá náhodné H -3 -1 -1 0 -1 -2 2 1 1 3 6 ha<;ir záměně. R -4 0 -1 0 -2 -3 0 -1 -1 1 2 6 K -5 0 0 -1 -1 -2 1 0 0 1 0 3 5 M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6 1 -2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5 large, hydrophobic L -6 -3 -2 -3 -2 -4 -3 4 -3 -2 -2 -3 -3 4 2 6 V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4 F -4 -3 -3 -5 4 -5 4 -6 -5 -5 -2 4 -5 0 1 2 -1 9 aromatic Y 0 -3 -3 -5 -3 -5 -2 4 4 4 0 4 4 -2 -1 -1 -2 7 10 W -8 -2 -5 -6 -6 -7 4 -7 -7 -5 -3 2 -3 4 -5 -2 -6 0 0 17 B -4 0 0 -1 0 0 2 3 2 1 1 -1 1 -2 -2 -3 -2 -5 -3 -5 2 Z -5 0 -1 0 0 -1 1 3 3 3 2 0 0 -2 -2 -3 -2 -5 4 -6 2 3 C s T P A G N D E Q H R K M I L V F Y W B Z PAM matice Předpoklady: • Mutace AA je nezávislá na předchozích mutacích v téže pozici (Markov process requirement). • Všechna místa podléhají mutacím rovnoměrně. • Mutace nezávisí na okolních residuích. • Krátkodobé a dlouhodobé vlivy na evoluci sekvencí jsou stejně účinné. Nevýhody: • Pouze matice PAM1 byla "změřena", všechny ostatní jsou extrapolace (tj. jsou založeny na stejném modelu). • PAM matice je založená na proteinových sekvencích dostupných v roce 1978 (zejm. malé globulární proteiny). Existují ale nové generace např. PET91. BLOSUM - Blocks Amino Acid Substitution • Vytvořena 1992, Henikoff and Henikoff V yt^ • Nebere v potaz evoluci • Používá koncept „bloků" (database BLOCKS) k identifikaci proteinových rodin VC\ 0 ^^^^ ^ ^ • sekvenční motiv-konzervovaný aminokyselinový úsek spojený se specifickou funkcí proteinu • sekvenční blok - spárované motivy ze stejné proteinové rodiny bez mezer • BLOSUM matice byly vytvořeny na základě substitučních vzorů více než 2 000 bloků (< 60 residuí) z 500 skupin proteinů BLOSUM - Blocks Amino Acid Substitution • BLOSUM62 - znamená, že ke konstrukci matrice byly^pcMžfty proteiny s průměrnou identitou 62%. výskyt každého páru AA v každém sloupci každého bloku je sečten čísla získána ze všech bloků slouží pro výpočet BLOSUM matic A - C = 4 A - E = 2 C - E = 2 A - A = 1 C - C = 1 Matice BLOSUM 62 Ala Arg As n Asp Cys Gin Glu Gly His lie Leu Lys Met Phe Pro Ser Thr Trp Tyr Val 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 6 -2 -4 5 -2 0 -3 -3 1 -2 -3 -3 -1 0 -1 -3 -2 8 -3 -2 -3 4 -4 -3 2 -2 -1 -3 2 1 -3 -1 0 -2 -2 -3 0 -1 -2 -2 -2 -1 -2 -3 2 -1 -3 3 -2 ■3 4 -2 2 0 -3 -2 -1 -2 -1 1 5 -1 -3 -1 0 -1 -3 -2 -2 5 0 -2 -1 -1 -1 -1 1 6 -4 -2 -2 1 3 -1 7 -1 -1 -4 -3 -2 4 1 -3 -2 -2 5 -2 -2 0 11 2 7 -3 -1 Ala Arg Asn Asp Cys Gin Glu Gly His He Leu Lys Met Phe Pro Ser Thr Trp Tyr Val Matice PAM vs. BLOSUM Číslování BLOSUM jde v obráceném pořadí oproti PAM - čím menší číslo, tím odlišnější sekvence byly použity Matice PAM Matice BLOSUM Aplikace Podobnost (%) PAM 100 BLOSUM90 Krátká, vysoce podobná přiložení 70-90 PAM120 BLOSUM80 Detekce členů proteinových rodin 50-60 PAM 160 BLOSUM62 Vysoce efektivní pro hledání potenciálních příbuzností 30-40 PAM250 BLOSUM45 Dlouhá přiložení málo příbuzných sekvencí ~30 Poslední sloupec udává míru podobnosti sekvencí, pro které je daná matice nejvhodnější. Odlišné substituční matice jsou pro odlišné účely . r\ BLOSUM 80 BLOSUM 62 BLOSUM 45 PAM 1 PAM 120 PAM 250 Less divergent < > More divergent more stringent less stringent Pro porovnání blízcéVptilaných proteinů by se měla používat nižší čísla PAM a vyšší BLOSUM, pro vzdálenější vyšší čísla PAM a nižší BLOSUM Pro prohledávání databází je nejběžnější BLOSUM62 GONNETova matice 0.6 0.125 -0.075 0 -0.575 0.125 -0.2 -0.2 -0.1 -0.5 -0.175 -0.075 0.075 -0.05 -0.15 0.275 0.15 0.025 -0.9 -0.55 2.075 -0.1 -0.75 -0.2 -0.5 -0.525 -0.275 -0.7 -0.575 -0.225 -0.45 -0.775 -0.6 -0.55 0.025 -0.125 0 -0.25 -0.125 1.175 0.675 -1.125 0.025 0.1 -0.95 0.125 -1 -0.75 0.55 -0.175 0.225 -0.075 0.125 0 -0.725 -1.5 -0.7 0.9 -0.975 -0.2 0.1 -0.075 0.5 -0.7 -0.5 0.225 -«.125 0.025 0.1 0.05 -0.025 -0.075 -1.075 -0.075 1.75 -1.5 -0.025 0.25 -0.025 0.5 0.« -0.775 -0.95 -0.65 -O.l -0.7 -0.55 0.025 0.9 1.275 1.65 -0.55 -1.125 -0.275 -1.1 -0.075 0.1 -«.0 -0.25 -0.25 0.1 -0.275 -0.025 -1 -1 1.5 -0.55 0.15 -0.475 -0.525 0.5 -0.275 0.5 0.15 -0.05 -0.075 -0.5 -0.2 0.55 1 -0.525 0.7 0.625 -0.7 -0.65 -O.075 -0.0 -0.05 -0.15 0.775 -0.05 -0.175 0.0 -0.525 -0.35 0.2 -0.15 0.375 0.675 0.025 0.025 -0.425 -0.075 -0.525 1 0.7 -0.75 -0.575 -0.« -0.55 -0.525 -0.525 0.45 -0.175 0 1.075 -0.55 -0.6 -0.25 -0.425 -0.55 -0.15 0.0 -0.25 -0.05 0.95 -0.225 0.175 0.075 0.225 0.125 -0.55 -0.9 -0.55 1.9 -0.95 -0.225 0.1 0.025 -0.05 -1.25 -0.775 0.675 0.575 0.05 0 -0.575 -0.675 -0.425 1.175 -0.05 -0.05 -0.5 -O.l -0.05 0.55 0.575 -0.25 -0.025 -0.475 0.025 0 -0.075 -0.075 0.05 -0.65 -0.275 5.55 1.025 1.95 A C D E r G H I K L M N P Q R S T V H Y Na čem je založeno vyhodnocení „kvality" sekvenčního přiložení proteinových sekvencí? snaha o co nejvyšší skóre: <^C* 1. identita (identity) \ON 2. podobnost (similaritv)^ 3. mezery (gaps) Platí u nukleových kyselin i proteinů stejná pravidla ? Nukleové kyseliny nemá smysl posuzovat podobnost: sice tranzice (R->R or Y ->Y) je mnohem častější rj^Wo^ transverze(R->Y or Y ->R), což ale není pro alignement užitečné Frekvence mutací všech bází je obdobná, takže nejjednodušší hodnocení je: shoda (1), neshorliá^f tím se nerozliší výborný alignment krátkých a mizerný dlouhých sekvencí: proto penalizace záměn: match score +5 mismatch score -4 gap penalty (changeable parameter) opening -10, extending -2 DNA matice > U nukleových kyselin je každá záměna (mutacej,aápožira a negativní > Nukleotidy jsou rovnocenné A c G T A -10000 -10000 -10000 C -10000 1 -10000 -10000 G -10000 -10000 -10000 T -10000 -10000 -10000 1 106 Multiple sequence alignment - MSA (mnohonásobné přiložení)* ^ Multiple alignment slouží k: • Nalezení „diagnostického vzoru" (diagnostic patterns) na jehož základě jsou charakterizovány proteinové rodiny • Odhalení či dokázání homologie mezi novou sekvencí a sekvencemi v databázích • Určení vzájemné příbuznosti sekvencí v rámci skupiny - tvorba fylogenetických stromů • Predikci sekundární a terciární struktury nových proteinů • Navržení primerů (oligonukleotidů) pro PCR X 89 Metody MSA Dynamické programovaní (dynamic programming) - rozšírení pairwise alignmentU - náročné na paměť a čas, nevhodné pro více než 3-4 sekvence (n=rozměrný prostor) Progresivní alignment (progressive sequence alignment) - nejčastěji používaný k vytvoření alignmentu; využívá fylogenetické informace - hierarchický, nejdříve identifikuje nejpodobnější sekvence a následně inkorporuje ostatní Iterativní alignment (iterative sequence alignment) - opakování alignmentu pro podskupiny sekvencí následující po globálním alignmentu - odstraňuje problémy progresivního alignmentu, který je závislý na prvotním přiložení nejpodobnějších sekvencí pomocí Hledání motivů - nalezení částí konzervovaných sekvenčních motivů pomocí globálního přiložení a následně „hodnocení" těchto úseků nezávisle na celé sekvenci Schémata založená na konzistenci (consistency-based schemes) - vychází z nejlepších možných alignmentu každé dvojice sekvencí. Cílem je dosáhnout maximální konzistence (vnitřní shody). Dynamické programování • Simultánní přiložení všech sekvencí-analogické párovému přiložení • Programové balíky: MSA (Lipman et al., 1989) a DCA (Stoye et al., 1997), založené na Carrilově a Lipmanově algoritmu (1988) • Využívá skórovací matice, ale vytváří n-rozměrný prostor (n = počet sekvencí) • Extrémně náročný na výpočetní kapacity • I při zjednodušení nepoužitelné pro více než cca 20 sekvencí X Progresivní multiple alignment • Používá ho většina programů • Vznik - 1987 Sekvence zarovnané podle podobnosti > Přidány mezery „-" >V případě lokálního přiložení pouze úseky s dostatečnou homologií •\Oi >Různé výstupní formáty CLUSTAL 2.0.10 multiple sequence alignment PAUL RSIIL CVIIL BCLB BCLC < BCLA BCLD PAUL OTIIL BCLB BCLC BCLA BCLD PAUL RSIIL CVIIL BCLB BCLC BCLA BCLD ---LVEKLPQYDVFVDIATIPYSFDVGSWQNKVKTDAAGEVVACTVTWAGAPGVLPGAAA AIATNQGWADGCFTYSSKVPESTGRMPFTLVATIDVGSGVTFVKGQWKSVRGSAMHIDS LRETALALRAEVSVLFIRFALKDAGIVAPIELEVRDAATAVPDADDLLHPSCRPLKDHYW -----------------------------------------------------ATQGVFT -----------------------------------------------------AQQGVFT -----------------------------------------------------AQQGVFT KFGVGAVVN----------------YFSKATPQPVQPAPVP--------TGGGERDGI FT YASLSAIWG----------------TAAPS SQGSGNQGAETGGTGAGNIGGGGERDGTFN -------------------------------------ADSQT---------SSNRAGEFS RSDVLAAGATTCTADFAVCDRDGTVSGYFRWETSIEIAGSQPDTKQPGFKPSSDRNGNFS LPANTRFGVTAFANSSGTQTVNVLVNNETA L PANT S FGVTAFANAANTQTIQVLVDNVVK LPARINFGVTVLVNSAATQHVEIFVDNEPR LPPNIAFGVTALVNSSAPQTIEVFVDDNPK LPPHIKFGVTALTHAANDQTIDIYIDDDPK IPPNTDFRAIFFANAAEQQHIKLFIGDSQE LPPNTAFKAIFYANAADRQDLKLFIDDAPE ATFSGQSTNNAVIGTQVLNSGSSGKVQV —ATFTGSGTSDKLLGSQVLNSGS-GAIKI —AAFSGVGTGDNNLGTKVINSGS-GNVRV PAATFQGAGTQDANLNTQIVNSGK-GKVRV PAATFKGAGAQDQNLGTKVLDSGN-GRVRV PAAYHKLTTRDGPRE—ATLNSGN-GKIRF PAATFVGNSEDGVRL—FTLNSKG-GKIRI CLUSTAL 2.0.10 multiple sequence alignment paul rsiil cviil bclb bclc bcla bcld paul rsiil cviil bclb bclc bcla bcld paul rsiil cviil bclb bclc bcla bcld ' liiol (tit Sequence Alignment Editor File Edit Sequence Alignment View Accessory Application RNA World Wide Web Options Window Help b a y D:\SkoldWyukd\MS« dataUK I lectins soq.aln ---lveklpqydvfvdiatipysfdvgswqni aiatnqgvvadgcftysskvpestgrmpftl^ lretalalraevsvlfirfalkdagivapie] 555, y a |Cai.ie.Ne» Mode: | Select I Slide _~j Sequence Mask: None Numbering Mask; None • MI _H f speed sbl | f, kfgvgavvn----------------yfskat yaslsaiwg---------------«tam1s RSIIL CVIIL BCLB BCLC BCLA BCLD Clustal Co LVIVD VTLL3 YPE 3RDP PTVID RHL VV3P D OL HIJD3RL T L3P DQLHLRET L LR EV3VL IR LKD IV PIELEVRD T VPD DDLLHPSCRPLKDHVTmIRSDVL . * J a I view 2.3 rsdvlaagattctadfavcdrdgtvsgyfrwi lpantrfgvtafanssgtqtvnvlvnneta--l pant s fgvtafanaant qtiqvlvdnvvk lparinj^m£vN\yYTQHVE ifvdne pr lppniafgvtalvnssapqtievfvddnpkp.z j^pmeIfgw'althaandqtidiyidddpkp. ippntdfraiffanaaeqqhiklfigdsqep. lppntafkaifyanaadrqdlklfiddapep. File Tools Help Window PAXJ1-1M RSXJ1-113 CVOJ1-113 BCLB/1-24 3 BCLC/1-271 BCLA/1-128 BCLLV1-288 _ D:\SkolaWyuka\MSA - data\BCLIectins seq.aln File Edit Select View Format Colour Calculate Web Service 190 200 210 220 230 LPA PFGV AFA s GT VNVLVNNE a- -A F SOU S NNAVIO Q' LPA SFGV AFA AANT IüVLvInWK- - A FTOSG sikLLG QVL OS-OAI LPAR I NFGV VLV SAAT HVEIFVDNEPR- ■ AAF s0v6 GD N N LG VVI GS-GNV LPP IAFGV ALV s AP I EVFVDDNPKPAA FQOAO oIaNLN Q I V OK -O NLPPH I KFOV AL HAAND I d Iy I DDDPKPAA FKOAOAODONLG I VLD G N -G IPP DFRAIFFA A A E Q H I KLF IgbsoEPAAYHKLTTRDSPRE • ■ a L GN-G LPP AFKAIFYA AADR DLKLFI IaPEPAA FVOHSEDGVRL- • f L KO-0 |vUl VMA G Sekvenční logo > Vizualizace alignmentu - zvýraznění konzervovaných aminokyselin >Vhodné pro kratší sekvence a motivy csico^in<í>r^c»o>oi-c\ico^rintor>-ooo>oi-c\ico^rincor>-coo)Oi- i-T-i-T-i-i-T-i-T-i-CMCMCMCJCMCJCMCJCMCMCOCO > IvJtJqJqAEGSLAKÍ lT1 ľAPATTRNTGRGGEE > I PTA3P( iaegslaka' !t, ^pattrntgrggeek > POA9GÍ LAKATTAPi lT1 ľRNTGRGGEEKKKEK > IqIecJs] iAkattapa :t: intgrggeekkkeke > |v(>gj|y^ ialnltnpd: :t< jecwlclvsgppyye Oft ft 115 Consensus Symboly vyjadřující „konzervovánost" každého sloupce Používán v programu Clustal identické residuum ve všech sekvencích silně konzervovaný sloupec slabě konzervovaný sloupec Pozor! Odchylka v jediné sekvenci vede k rozeznání pozice jako nekonzervované. IPPNTE LPPNTZ LPPHIř f:iaiffanaaeqqí f:vAifyanaadrqi fgvtalvnssapq fgvtalthaandq ~k • • • ~k ^LFIGDSQEPAAYHI ^LFIDDAPEPAATF\ VFVDDNPKPAAT DlYIDDDPKPAATFř ■k ~k ~k ~k L CTRDGE ŠÍSEDG\ GkGAQDC F( GAGTQ] 1—ATLNSGNGKIRFE i — FTLNSKGGKIRIE iNTQIVNSGKGKVRVV iGTKVLDSGNGRVRVI Skórovací schémata pro párové přiložení Algoritmy založené na matici (matrix-based algorithms) - např. ClustalW, MUSCLE; pomocí substituční matice je příslušné dvojici (AK) přiřazena hodnota. Rozhoduje pouze identita těchto dvou AK, případně jejich nejbližší okolí (viz. např. BLAST) M a r kovo vy modely > Metoda strojového učení - model se natrénuje na sadě známých dat > Prohledávání databází (způsob uložení alignmentu) > Programy: ClustalOmega, databáze Pfam, SMART, TIGRFAM, aj. X Markovův model > Alternativní přístup ke skórovací matici > Obsahuje jednotlivé stavy a různě pravděpodobné přechody mezi nimi > Neukládá informace o „minulosti'' - dívá se jen na konkrétní změnu stavu DDDDSSSSSDDDDSSSSDDSS • **\V Cllll,rc DÉŠŤ 0,3 SLUNCE lOx DEST -> 7x DEST ->3xSWM^Í lOx SLUNQQ-Qx^tlJNCE 2x DEST Markovu v model > Informace o „blízké minulosti'' se dá zahrnout s využitím většího množství stavů Skrytý Markovův model (HMM) > V modelu nevidíme jednotlivé stavy > Stavy se s určitou pravděpodobností projeví na výstupu i^Vv) > Široké použití v bieiyprmatice 120 Profilový H M M > vptaqpqaegslakattapattrntgrggee > p taqpqae gs lakat tapat trnt grgge e k > pqae g s lakat tapat trnt grgge e kkke k > qae g s lakat tapat trn t grgge e kkke ke > vqgayqalnltnpdktqecwlclvsgppyye 0,2 A 0,4 A 0,4 P 0,2 P 0,2 E 0,2 Q 0,2 T 0,2 G 0,4 V 0,4 Q 0,2 T 121 Profilový H M M > v-ptaqpqaegslakattapattrntgrggee > p-taqpqaegslakattapattrntgrggeek >ap-qaegslakattapattrntgrggeekkkek > q sae g s lakat tapat trnt grgge e kkke ke > vsqgayqalnltnpdktqecwlclvsgppyye Profilový HMM > vptaqpqaegslakattapattrntgrggee > p taqpqae gs lakat tapat trnt grgge e k > pqaegslakattapattrntgrggeekkkek > qaeg- akat tapat trnt grgge e kkke ke > vqgayqalnltnpdktqecwlclvsgppyye 0,2 0,4 SN // \\ /J Ml V —Á M2 )- Á M3 -—^ 0,4 P \_S 0,2 A 0,4 A 0,2 Q 0,2 P 0,2 E 0,4 V 0,2 T 0,2 G 0,4 Q 0,2 T M31 j-►( END J 123 Profilový H M M >-------vptaqpq—aegslakattapattrntgrggee------ >--------ptaqpq—aegslakattapattrntgrggeek----- >------------pq—aegslakattapattrntgrggeekkkek- >-------------q—aegslakattapattrntgrggeekkkeke > vqgayqalnl tnpdktqe cwlclvs gppyye--------------- > Tvorba alignmentu > Každá sekvence musí projít modelem > Databáze proteinových rodin > Profilový H M M se vytvoří na základě multiple sequence alignmentu > U nových sekvencí se zjišťuje s jakou pravděpodobností projdou daným modelem Deletion states Match states 124 BLAST algoritmus (Basic Local Alignment Search Tool) Heuristický algoritmus jehož základem je hledání slov (několikapísmenných * ( sekvencí), s dostatečnou podobností (poskytufT\v> dostatečně vysoké skóre v substituční matici) The BLAST Search Algorithm query word (W= 3) Query: GS^DTTGSCßLAALLNKCKTPQGQRLVNQUIKQPLHDKNRIEERLNLVEAFVEDAELROTLQEDL neighborhood words PQG 18 PEG 15 PRG 14 PKG 14 PNG 13 PDG 13 PHG 13 EHG 13 PSG 13 PQA 12 PON 12 «tc... neighborhood score threshold fT-13) Query: 325 SLAALLNKCKTPQGQRLVNQUIKQPLHDKNRIEERLNLVEA 365 +LA++L+ TP G R++ +11+ P+ D + ER + A Sbjct: 290 TLASVLDCTVTH1G3RMLKRULHMPVRDTRVLLERQQTIGA 330 High-scoring Segment Pair (HSP) • Tvorba k-písmenných slov ze vstupní sekvence pro proteiny typicky 3-písmenných (v případě DNA 11-písmenných) • Porovnání slov na základě substituční matice algoritmus BLAST hledá na základě vloženého skóre slova, která jsou podobná každému slovu v zadané sekvenci. Vyhovující slova jsou následně uspořádána. • Prohledání databázových sekvencí Je hledána shoda s nalezenými vysoce podobnými slovy. • Rozšíření slov na segmenty Přesné shody slov s databázovými sekvencemi jsou rozšiřovány oběma směi^y^^VjcjKračuje dokud skóre pro tuto dvojici sekvencí je dostatečně vysoké. Novější verze BLASTu (BLAST2) má mj. níže nastavenu hladinu pro hledání podobných slov, což rozšiřuje možnost nalezení vzdálenějších homologů. Query sequence: PQGEFG WordliPQG Word 2: QGE Word 3: GEF Word 4: EFG Query sequence: R P P Q G L F Database sequence: D P PEG V V U Exact match is scanned. Score:-2 7 7 2 6 1 -1 L HSP Optimal accumulated score = 7+7+2+6+1 = 23 Odlišné možnosti použití BLASTu • QuickBLASTP #\L^ is an accelerated version of BLASTP that is very fast and works best if the target percent identity is 50% or more. • BlastP c if \\ simply compares a protein query to a protein database. • PSI-BLAST . rvV^ allows the user to build a PSSM (position-specific scoring matrix) using the results of the first BlastP run.) • PHI-BLAST C\S performs the search but limits alignments to those that match a pattern in the query. \L\ • DELTA-BLAST constructs a PSSM using the results of a Conserved Domain Database search and searches a sequence database. Jak statisticky významné je skóre? Pokud je podobnost dostatečně významná lze usuzovat na společné evoluční vztahy . Ale co je DOSTATEČNĚ? #\Lj& závisí na typu sekvence a její délce V* • Pravděpodobnost, že dvě rezidua v nepříbuzných sekvencích jsou identické? • (\\* 25% v NA, 5% v proteir^^h \3 * • Vliv délky sekvence • čím kratší sekvence, tím větší je šance, že alignment je dán náhodnou shodou. Čím delší, tím je méně pravděpodobné, že je stejná úroveň podobnosti výsledkem náhody. • kratší sekvence vyžadují vyšší cut-off pro zjištění příbuznosti než u delších sekvencí 100 > 80 60 40 20 — 1 \ Safe zone Twilighi^*^. — zone ■— — Midnight zone I I I 50 100 150 Sequence length 200 250 Essential bioinformatics, Xiong Co to jsou oblasti sekvencí tzv. „low complexity regions" proč se definují a jak se používají? ^ Vysoce repetitivní krátké segmenty AATAAAAAAAATAAAAAAT • Hojně zastoupeny v databázích (cca 15% proteinů) • Mohou vést k uměle vysokým hodnotám výsledných skóre nepříbuzných sekvencí • Proto je nezbytné je vyjmout ze zadávacího dotazu stejně jako ze sekvenčních databází. MSA „programy" Za posledních 25 let vzniklo přes 50 MSA programových balíků • Clustal W (Thompson et al., 1994t ŕV\ * • Clustal X (Thompson et al., • Dialign2 (Morgenstern,Vr§^* • T-Coffee (Notredame et al., 2000) • MAFFT (Katoh et al., 2002) • MU^pv(d€ar, 2004) • Kalign2 (Lassmann, 2009) • Clustal Omega (Sievers, 2011) CI U S*td I http://www.clustal.org/ • Dlouhodobě nejužívanější program • Různé verze: Clustal (Higgins and Sharp, 1988) Clustal W (Thompson et al., 1994) Clustal X (Jeanmougin et al., 1998) Clustal Q (Sievers et al., 2011) • Využívá progresivní alignment ClustalW: Jednotlivým sekvencím přiřazuje váhy (weight - W) podle četnosti zastoupení (čím více jsou si sekvence podobné, tím nižší mají váhu a naopak) a penalizuje přítomnost mezer v závislosti na jejich pozici (position-specific gap penalties) Clustal W Provedení pairwise alignmentů pro každou dvojici sekvencí a určení jejich podobnosti - v závislosti na množství neodpovídajících residuí a mezer Sestavení příbuzenského stromu (similarity tree) Xj Kombinace alignmentůy^JXl.fv pořadí dle příbuznosti - od nejvíce podobných k nejmé^\\Erfjzným (viz. 2.). Jednou vložené mezery jsou zachovány. Cl ustal Q 1. Provedení pairwise alignmentů urychleno použitím modifikovaného algoritmu mBed - převedení sekvencí na n-rozměrný vektor a následný alignment vektorů 2. Sestavení příbuzenského stromu (similarity tree) 3. Sestavení alignmentů užitím přesného algoritmu HHalign (využití skrytých Markovových modelů). Určen pro obsáhlé alignmenty. V roce 2011 přiloženo 190 000 sekvencí během několika hodin. MUSCLE (Multiple Sequence Comparison by Log-Expectation) https://www.ebi.ac.uk/Tools/msa/muscle/ Rychlejší určení „vzdálenosti'' dvou sekvencí Tzv. log-expectation skórovací funkce Refinement metodou restricted partitioning Zahrnutí iterace pro zpřesnění přiložení Vhodný i pr^aj^počet sekvencí (5000 seq po 350 bp za 7 min na PC - rok 2004) X Edgar, R.C. (2004) MUSCLE: multiple sequence alignment with high accuracy and high throughput T-Coffee T COFFEE (Tree-based Consistency Objective Function for alignment Evaluation) \ \ http://tcoffee.crg.cat/ • Pomalejší ale výrazně přesnější než ClustalW Hlavním rozdílem oproti tradičním metodám progresivního alignmentu je použití pozičně specifického skórovacího schématu (extended library) namísto substituční matice. /^^\ miň Notredame C. et al (2000) T-Coffee: A novel method for fast and accurate multiple sequence alignment. T-Coffee Provedení pairwise alignmentů pro všechny dvojice sekvencí pomocí globálního a pomocí lokálního alignmentů (dvě primární knihovny). Jednotlivým pairwise alignmentům je přiřazena váha podle poměru počtu identických residuí k celkovému počtu residuí. Kombinace obou knihoven. Pokud je rozdíl v globálním a lokálním alignmentů, jsou zachovány oba s příslušnou váhou. Vzniká pozičně specifická matice (extended library), která je dále použita pro vlastní progresivní alignment. c Clustal W Primary I .ibrary (Global Pairwise Alignment) A-B ■ A' O B. C" A-li ■ Lalign Primary Library (Local I_Pairwise Alignment) Weighting Signal Addition PRIMARY LIBRARY D EXTENSION c EXTENDED LIBRARY Zlepšení přesnosti - kombinace přístupů Různé algoritmy/programy poskytují odlišná přilráéjuv* Kombinace přístupů může poskytnout lepší výsledek Řešení: vytvoření přiloža^^pdazitím výstupů několika alignmentových programů. M-Coffee T COFFEE Založen na algoritmu T-Coffee Je schopen kombinovat data z více předchozích alignmentů, které mohly být vytvořeny různými postupy (lokální, globální, strukturní podobnost,...) Zvýšení přesnosti alignmentů http://tcoffee.crg.cat/ Wallace I. M. et al (2006) M-Coffee: combining multiple sequence alignment methods with T-Coffee 70.00 68.00 66.00 64.00 62.00 60.00 58.00 56.00 54.00 52.00 □u.uu Poa -global ♦Dialign-T ♦ClustalW • PCMA +FINSI ♦T-Coffee ♦Muscle v6 ♦ProbCons ^^"Combined 51 96 58 32 62 75 65 15 65 94 66 73 67 38 67 75 ■ Default 51.90 57 92 61 15 63 73 64.22 65 37 66 04 6641 Zlepšení přesnosti - strukturní informace • Sekvence s vyšší homologií (>40%) - vysoká přesnost alignmentu • Bez homologie - nepoužitelné • Tzv. twilight zone - málo podobné sekvence (nižší než 20% homologie) = špatná (méně než 30%) přesnost alignmentu Řešení: nejčastěji využití znalosti strukturní podobnosti (2D nebo 3D), která se během evoluce zachovává více než sekvence AK. Template-based alignment metody - využití známých homologních proteinů (srovnání dle jejich struktury nebo tvorba profilu homologních sekvencí) Expresso Sequences MSA nástroj založený na algoritmu T-Coffee Srovnává sekvence za užití strukturní e * informace. Vyhledání homologních sekvencí v databázi struktur (PDB) pomocí algoritmu BLAST Použití těchto struktur jako templátů pro následný alignment zadíuraJ^Vekvencí pomocí metod MSA založených na struktuře (např. SAP, Fugue). Str JGlure-bflsed alignment ořme templates Template to sequence alignment Template-based alignment of the Epquerice-E T-Coffee Primary Library Jaký je rozdíl mezi: „homology" a „similarity" MAMUZDOSTSTAROSTISHAMIZNOSTIRATOLESTI MAMRADOSTZESTAROZITNOSTI Jaký je rozdíl mezi: „ortholog" a „paralog" Speciation 1 Gene duplication 1 Speciation 2 ,**\^'\ Gene \ %xs duplication 2 Co si odnést? > Alignment je přiložení dvou či více sekvencí na základě jejich podobnosti > Můžeme ho využít např. pro analýzu sekvencí, zjišťování jejich příbuznosti či tvorbu fylogenetických stromů > Řada programů využívá rozdílné přístupy a algoritmy > Každý program je kompromisem mezi přesností a rychlostí > Každý^TJgfc^erit potřebuje lidskou kontrolu 143 Sekvence a predikce gMfo DNA sekvence vs. Sekvence proteinu Gen - jednotka genetické informace Obsahuje informaci o primární struktuře translačního produktu (strukturní geny) nebo funkční molekuly produktu transkripce (tRNA, rRNA). Gen Gen Gen ATG STOP mRNA AUGy^ STOP rRNA tRNA Met i^i^i^i^™ Protein DNA sekvence vs. Sekvence proteinu Přepisovaná sekvence DNA je delší než odpovídající kódující úsek Části před a po kódujícím úseku se nepřekládají (UTR), mají řídící funkce (začátek a konec translace) 5' UTR UTR 3 mRNA AUG STOP Met Protein Složený gen • Geny eukaryotických organismů obsahují často exony a introny. Přepisy intronů jsou vystepovány (sestřih) a na ribosomu se překládají p»uzrtjrojené exony. Exon Intron Exon ^^^^^^^^^^^^^^^^h DNA ——^^^^^^h Primární transkript Sestřih (splicing) ^^^^h mRNA J Translace ^^^^^^h Protein Molekulárně biologická data CAGCGGACGACAG CT CG G 160 170 MÉÉ VTGCAGCAG 1 M CAT CC GCATC CGGAACGGCG GTG 80 190 200 GCGGCA 210 H CACGCAC1 m ľ TCCAG t tCG ATCGGGG CAACAATG 220 230 r24%. CCGC M c \i t CT 250 i CGGTTTC 310 w GCGCAG;* ltgcagci 320 hy GATCACCCGGGCTCA 330 34 itfWI GAC CGG TAAACAGACGG CTAT CGT TATGGC CCAGCTGCGCGGCAT CG CCCGGG Cl 0 350 360 370 380 390 rAACAACATA 400 GATAGCGTAATGATCGGCTGGCTGCCGCATTTCATGCTGGTTTCCCAACGAAAATAACCGCTCACGGTGCCATCACGATCGCACACCGCAAAATCGGCGG TACAGGTGGTCGCGCCCGCCGCCAGCACATCGCTGCGCCAATAATGATCTTTCAGCGGACGACAGCTCGGATGCAGCAGATCATCCGCATCCGGAACGGC GGTGGCGGCATCACGCACTTCCAGTTCGATCGGGGCAACAATGCCGGCATCTTTCAGGGCAAAGCGAATAAACAGCACGCTCACTTCCGCGCGCAGCGCC AGCGCGGTTTCGCGCAGATGCAGCTGATCACCCGGGCTCAGACCGGTAAACAGACGGCTATCGTTATGGCCCAGCTGCGCGGCATCGCCCGGGCTAACAA CATACAGGTGGCGACCATCAATCACGGTCGGGGCGGCCGGATCACGGCTGGCTTCCGGATAGGCGCTCAGCAGGGTAACGGCATCCACAATCACCAGCAT GATAGCGTAATGATCGGCTGGCTGCCGCATTTCATGCTGGTTTCCCAACGAAAATAACCGCTCACGGTGCCATCACGATCGCACACCGCAAAATCGGCGG TACAGGTGGTCGCGCCCGCCGCCAGCACATCGCTGCGCCAATAATGATCTTTCAGCGGACGACAGCTCGGATGCAGCAGATCATCCGCATCCGGAACGGC GGTGGCGGCATCACGCACTTCCAGTTCGATCGGGGCAACAATGCCGGCATCTTTCAGGGCAAAGCGAATAAACAGCACGCTCACTTCCGCGCGCAGCGCC AGCGCGGTTTCGCGCAGATGCAGCTGATCACCCGGGCTCAGACCGGTAAACAGACGGCTATCGTTATGGCCCAGCTGCGCGGCATCGCCCGGGCTAACAA CATACAGGTGGCGACCATCAATCACGGTCGGGGCGGCCGGATCACGGCTGGCTTCCGGATAGGCGCTCAGCAGGGTAACGGCATCCACAATCACCAGCAT a anotace o a Table 1 Software commonly used lor bacterial genome annotation and comparison DNA level annotation GcncMark SHOW tRNAscan SE RNAmmcr RepSect IslandPalh b ltp://cxon .gatccb .cd u/gencmark/ b [ tp ://ww w.gcnomit s.jb j .cd u/Gli m mcr/ b trp://gcnomc.jo uy. inra.fr/ssb/SHOW/ b trp://kiwclab.uc sc .cdu/tRN A scan - SE/ b Lip://ww w.cbs.dtu .dk/scrviccs/RN Am met/ b ltp://ww wjibi .snv.j u ssicu A'tI%9 Bp ubl ic/RcpScek/ b I tp ://ww w'.patbogcnomic s. si' u.ca/i slandp a[ h/ Protein level annotation BLAST In ten? ro Scan C OGN1TOR b trp://ww w.cbi .ac. uk/b last/ b ttp://ww w.cbi mi . uk/lntcrPro Stan/ b up://ww w. neb i. n I m.n ih .gov/COG/old/\ogn i tor.b [ml P R[A M b I rp://bioin Ib.gcnopolc- lou lou sc.prd.l r/priam/ GO A n no b ltp://bip s. j- st rasbg. Ir/G() A n no/ PSORTb http://www.psorLorg/psorttV T M HM M b up://ww w.cbs.dtu .dk/scrviccs/T M HM Ml S ignal P b 151 ://ww w.cb s.dtu .dk/scrviccs/S ignal P/ Compm atire genomic tools Mauve b ltp://gc l.ahabs .w isc .cd u/ma j vc/ MOS AIC b up://mig -jouy. inra.fr/ m ig/m igeng/ prcscnration/projcc [/mosaic ACT h I tp ://ww w.sangcr.ac. u k/Sof [ ware/ ACT/ C G AT h t tp://mbgd.gcrxniicjjii.jp/CGAT/ MaGc h t tp ://ww w.gcno scopc.cn s.lr/agc/mage/ Pathologic bup://biocyc.oTg/ PUMA2 b t rp://compbk}. mc s.an l.gov/pu ma2/ The SEED b[rp://lhcsccd_ uchicago.edu/FIG/ STRING btrp://sLring.cmbl.de/ P y Ph y b Ltp://ww w.cbs.dtu .dk/stalf/thomas/pyphy/ HoScqE bltp^/pbM.univ-lyonl.lT^softw'arc/HoSeql/ Protein gene prediction Protein gene prediction Protein gene prediction [RNA gene prediction rRNA gene prediction ^íčaiTrTToHippŤTíTTmíi^^épcats in complcLc DNA sequences Identification of genomic islands Compare a novel sequence with those contained in nucleotide and protein databases Search lor domains/moths in [be [nlcrPro database Compare a query sequence to [be COG (Cluster oi Orlhologous Groups of proteins) database Detection oi enzymatic function in a fully sequenced genome, based on all sequences available in the ENZYME database BLAST search on the Gene On to logy database Prediction of bacterial protein subcellular localisation Prediction of transmembrane helices in protein sequences Prediction of signal peptide cleavage sites in protein sequences Multiple genome alignments in the presence of large-scale evolutionary events Deline [be set of backbones and kjops in ckjscly related bacterial genomes Comparative genome analysis and visualization tools lor multiple genome align men Ls Computation of gene order conservation (syntcnics) between available bacterial genomes Metabolic network rcconstructkra and comparative pathway analysis Metabolic pathway reconstruction Comparative analysis and annotation toofs using tbc subsystem approach Search Tool for the Retrieval of Interacting Proteins Rcconstructfcm of pbylogcnctic relationships of complete microbial genomes Automatically assign sequences to homologous gene families Irom the HOGENOM database • Predikce genů je prvním krokem v anotaci genů a genomů. Posloupnost písmen může (a nemusí) mít význam •sekvence nukleotidů • • počítačové 0 a 1 » ^ v* •běžnýjazyk ^JCy^ Smysluplná sekvence? Themainchalle nandthewayinw' ousthatthesep estructureof ti tureofDNAThen tedgeneticist j obcouldbedoni waspartlybase ixWealsoknewt! cti onpho togr a] ctureTherewas eighteenmonth idatedwef requ' tructurehaveť ticmoodsweofb llThatisitwou r e tha n s ome th i: elixthusbrougl ablyinteresti opo sal f or therm Letters in English text 14%- 12% 10% Frekvenční analýza derstand gene control protein oblems could be ure of the gene ructure of DNA. Then he interested ndish lab, we thought ithin a few months. Pauling's feat in ew that Maurice on photographs from structure. There was ing the next eighteen ure became necessity that the self-replication. ied that the correct uld suggest e than something double helix thus brought us not only joy but great relief. It was unbelievably interesting and immediately allowed us to make a serious proposal for the mechanism of gene duplication. m n Smysluplná sekvence? jcvbyfmmktllkrfsuogqfoqzpjklhvzgnkifytjtbjavafjlvqnlyf ozkcbjbwkdyueayklxkietjzclpgrknxhjdnqitaxyvuorfxgihkyr rcxummzwuoxzujxj zyrzbsebpzfxjwjrxapzpyaqcneijgdwtpsweo t j qqepnl tykhvmf elnihshv^^^X£^^^^^äd£xJ^J^^D^^L^^^^J^sx^^^^£r£Q^^^x_ djpdipxftmdhyothcvoixoc yhkyfgkyqvghibnyj amluo> cczxvnkzcxyuxrfwdosxqsn vktgj xhhvrvwxtfiudbvqj s syiqexibxtsvyxepvdocaht egzdkhegrcwmwtselofmfyi asesfptktyacpxlmmqj jqt iecnowaemfmrpqcbretesns ildrxuepplewxrqujadbwlč bxxdihdyspvfccjdneaeacr yupyekrqpcjalsehvnzsnqn ggeyhpwobwtaa twgxcamjur lqpogupltfpbwj j ahdkbwh xehqemciyakfkpwcycjddsc nqmqq1oukfrfpwbxy1uffp\ ogncujkyjujorbpssmweqfs Frekvenční analýza Smysluplná sekvence? 01010101010101010101 01010101010101010101 oioii oion Sekvence nemůže být současně oion náhodná i smysluplná! o i o i oiuTOTnuiTjiuiu^^^^^^^^^™ Náhodná nebo smysluplná? Frekvenční analýza číslo počet poměr 0 10 (60) 50% l 10 (60) 50% 01010101010101010101 číslo počet poměr 10 50% 1 10 50% Očekávaná frekvenční analýza párů pro náhodnou sekvenci číslo počet poměr 00 25% v 11 25% 01 25% 10 25% Frekvenční analýza párů pro výše uvedenou sekvenci číslo počet poměr 00 0 0% 11 0 0% 01 10 53% 10 9 47% K čemu je to dobré? • Obsah GC je např. vyšší v genových částech než intergenových • GC ostrůvky se objevují v oblastech regulujících transkripci,... Genes: HBZ HBZP HBAP1 HBAP2 HBA2 HBA1 HBQ1 <+ -H- - CG dinucleotide rich regions Predikce genů • Predikce genů je prvním krokem v anotaci genů a genomů. • Zahrnuje identifikaci ORF - otevřených čtecích rámců (Jako predikce „genů" se mnohdy označuje právě pouze predikce ORF). • V případě eukaryot (složené geny) predikce zahrnuje také identifikaci exonů/intronů, tj. míst sestřihu. Velmi problematická, vzniká velké množství chyb. • Predikce genů se velmi často soustředí na geny kódující proteiny. • Predikce genů u prokaryot funguje výrazně lépe než u eukaryot (souvislost s organizací genomu prokaryot). Metody predikce genů Dva hlavní přístupy: metody ob #mt/o/metody založené na homologii (sekvenční). GATAGCGTAATGATCGGCTGGCTGCCGCATTTCATGCTGGTTTCCCAACGARAATAACCGCTCACGGTGCCATCACGATCGCACACCGCAARATCGGCGG TACAGGTGGTCGCGCCCGCCGCCAGCACATCGCTGCGCCAATAATGATCTTTCAGCGGACGACAGCTCGGATGCAGCAGATCATCCGCATCCGGAACGGC GATAGCGTAATGATCGGCTGGCTGCCGCATTTCATGCTGGTTTCCCAACGAAAATAACCGCTCACGGTGCCATCACGATCGCACACCGCAAAATCGGCGG TACAGGTGGTCGCGCCCGCCGCCAGCACATCGCTGCGCCAATAATGATCTTTCAGCGGACGACAGCTCGGATGCAGCAGATCATCCGCATCCGGAACGGC %NCBI National Center tor Biotechnology Informjtion 2 DDBJ DNA Uau Bank ttl lipan " LPPNTAFKAIFYANAADRQ.DLKLFIDDAPEPAATFVGNSEDGVRL- -PTLNSKGGKIRIE IP PNTDPRAIFFANAAEQQHIKLPIGDSQEPAAYHKLTTRDGPRE- -ATLNSGNGKIRFE LP PHIKF GVTALTHAANDQTIDIYIDDDPKPAATFKGAGAQDQNLGTKVLDS GNGRVRVI LP PNIAPGVTALVNS SAPQTIEVPVDDNPKPAATPQGAGTQDANLNTQIVNS GKGKVRVV lPPn-aFg---1anaad-Qtikl£idD-p-PAAtfkgag-----1-t-tlnSgnGkiRve ASANGRQ SATDARLA PLSAGD------TVWLGWLGAEDGADADYNDGIVILQWPIT VSVNGKP SATDARLAPINGKKSDGS PFTVNF GIVVSEDGHDSDYNDGIVVLQWPIG VMANGRP SRLGSRQVDIFKKS--------YFGIIGSEDGADDDYNDGIVFLMWPLG VTANGKP S KIGS RQVDIFKKT--------YFGLVGSEDGGDGDYNDGIAILNWPLG veaNGrpSat--R---ifkks------tvy f Givgs EDGaDaDYNDGIviLqWP i g 75 Metody predikce genů • Dva hlavní přístupy: metody ob /wt/o/metody založené na homologii (sekvenční). fQsP • Ab initio - predikce genů založená pouze na sekvenci, jejích vlastnostech a statistických parametrech. \ i» Regulační a signální sekvence: startovní/stop kodon, sestřihové signály, RBS (vazebné místo pro ribosom), polyadenylační signál. Kodon=triplet (délka genu je v násobcích tří). Nukleotidové složení kódujících a nekódujících oblastí se liší. j Regulační signály pro Regulační signály pro transkripci iniciaci translace _m i g i TGTTGACA TATAATG |—Q | TAAGĽAÍi j_| ATĽ | Metody predikce genů • Dva hlavní přístupy: metody ob /wt/o/metody založené na homologii (sekvenční). fQsP • Ab initio - predikce genů založená pouze na sekvenci, jejích vlastnostech a statistických parametrech. • Metody založené na homologii - sekvenční podobnost se známými geny/proteiny. ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí ALIGNMENTU) = nejspolehlivější predikce. Problém- unikátní geny bez známých homologů (většinou nejzajímavější). • Kombinace obou postupů Predikce genů u prokaryot Prokaryotické genomy: malé (0,5 až 10 Mbp) a kompaktní, vysoká hustota genů, 90% genomu je kódující, jeden gen připadá přibližně na 1000 nukleotidů. t s>£ \ Table 1 Some prokaryotic genomes Organism Domain Size (base pairs) Genes Comments Nanoarchaeum equitans Archaea 490 885 552 Smallest known cellular genome Mycoplasma genitalium Bacteria 580070 470 Smallest genome among Bacteria; human pathogen Chlamydia trachomatis Bacteria 1042 519 894 Intracellular parasite of humans Aquifex aeolicus Bacteria 1 551 335 1544 Hyperthermophile, autotroph Methanothermobacler Archaea 1 751 377 1855 Methanogen, thermophile thermoautotrophicus Halobacterium salinarium Archaea 2571010 2630 Extreme halophilc Sulfolobus solfataricus Archaea 2992245 2977 Hyperthermophile, acidophile Bacillus subtilis Bacteria 4214810 4100 Produces endospores Pseudomonas aeruginosa Bacteria 6264403 5570 Metabolically versatile; can be a pathogen Bradyrh izohium japon icum Bacteria 9 105 828 8317 Nitrogen-fixing bacterium; forms root nodules on soybean plants Escherichia Coli Bacteria 4639 221 4288 Model organism for molecular biology Bacteriology Michael T Madigan, Southern Illinois University, Caibondde, Illinois, USA Deborah 0 Jung, Southern Illinois University, Carbondale, Illinois, USA ENCY CLOP EDI A O F U FE S CI EN CES £ 2007, )t>h n W ley & Son;, Ltd. w ww .els .net Pred ikce genů u prokaryot Prokaryotické genomy: malé (0,5 až 10 Mbp) a kompaktní, vysoká hustota genů, 90 % genomu je kódující, jeden gen připadá přibližně na 1000 nukleotidů. t \ Gene Strand LeftEnd RightEnd Gene Cla: 53 468 bp GeneMarkS Predikováno 56 genů (ORF) 1694 2739 401 7 461S Í1S5 10:5 7 r- E B 3555 1110C 11567 ::.jľ.5 13004 1- 077 14688 15777 16639 11 í i.:; 11-53 2020-í 20753 21674 :3 5: í; 24333 2- 553. 25334 25B57 255-5 2 ■ r. i .=. 27316 27857 227-3 39672 31418 32598 33731 34224 5 5^5 0 5 5151 5 6712 57225 5 2-22 39680 40665 41818 i] Í255 1 i .i 5,4-5 4570.5 46823 47366 47716 48432 50225 52475 1515 2 35; 4025 4293 ;i75 5505 7663 3 220 11067 11-32 11947 12896 23 222 1-372 25552 15355 17552 15 2 2 2 15 2-7 20763 23251 23978 24542 2 5 ľ ľ 7 25777 25985 26908 27J11 -7317 28597 30355 31082 32542 33749 34219 15151 36097 55552 37302 38456 39597 40657 -0 : 5 i -1527 42534 -5735 44532 -5 5 20 45 335 47128 47719 -3115 -5701 52468 >53467 599502499159951994^991490159^39519915991599419954991599119941994 76949^39521591925843^42587725043649^39^615919650 72205286882842^050 38 33^205794454^1455834 Predikce genů u prokaryot • Prokaryotické genomy: malé (0,5 až 10 Mbp) a kompaktní, vysoká hustota genů, 90 % genomu je kódující, jeden gen připadá přibližně na 1000 nukleotidů. r • Prokaryotické geny: ORF je nepřerušovaný úsek DNA mezi startovním kodonem (ATG, gtg,ttg, ctg) a stop kodonem (TAA, TGA, TAG). Prokaryotické geny neobsahují introny (Dobře, můžou obsahovat introny). REVIEW Open Access Bacterial group I introns: mobile RNA catalysts Georg Hausner , Mohamed Hafez ' and David R Edgell Abstract Group I introns are intervening sequences that have invaded tRNA, rRNA and protein coding genes in bacteria and their phages. The ability of group I introns to self-splice from their host transcripts, by acting as ribo2ymes, potentially renders their insertion into genes pheno typically neutral. Some group I introns are mobile genetic elements due to encoded homing endonuclease genes that function in DNA-based mobility pathways to promote spread to intronless alleles. Group I introns have a limited distribution among bacteria and the current assumption is that they are benign selfish elements, although some introns and homing endonucleases are a source of genetic novelty as they have been co-opted by host genomes to provide regulatory functions. Questions regarding the origin and maintenance of group I introns among the bacteria and phages are also addressed. Keywords: Evolution, Group I introns, Intron splicing, Intron mobility, Homing endonuclease genes, IStrons Group II introns in the bacterial world Francisco Martinez Abarca and Nicolas Toro' Grupo de Ecokxjia Genclica, EsLacion Experimental del Zaidin. Conscfo Superior dc Invcslioacioncs Cicntilicas I'rolesor Albarcda 1. 18008 Granada. Spam Predikce genů u prokaryot • Prokaryotické genomy: malé (0,5 až 10 Mbp) a kompaktní, vysoká hustota genů, 90 % genomu je kódující, jeden gen připadá přibližně na 1000 nukleotidů. • Prokaryotické geny: ORF je nepřerušovaný úsek DNA mezi startovním kodonem (ATG, gtg,ttg, ctg) a stop kodonem (TAA, TGA, TAG). Prokaryotické geny neobsahují introny (Dobře, můžou obsahovat introny). • RBS: Shine-Dalgarnova sekvence • Terminátor transkripce Translační a transkripční signální sekvence Regulační signály pro transkripci Regulační signály pro iniciaci translace Promotor +1 SD TATA box ribnowův box TGTTGACA TATAATG TAAGGAG ATG -35 -10 ; Vedoucí sekvence ► m RNA Shine-Dalgarnova sekvence protein STOP Pro kary ota oblast bohatá na puriny ~ cca 8 bází upstream Predikce genů u prokaryot-základní postupy (bez využití specializovaných programů) • Prokaryotické genomy: malý obsah nekódujících úseků umožňuje „manuální" identifikaci ORF. ifCsP 1) Překlad prokaryotické DNA do proteinové sekvence. \ \ \ 2) Identifikace potenciálních^ŘťO 3) Ověření spolehlivosti predikce - je identifikovaný ORF skutečně součástí genu? Predikce genů u prokaryot-základní postupy (bez využití specializovaných programů) 1) Překlad prokaryotické DNA do proteinové sekvence. 11 j ATGTCGCATGCC ATG TCG CAT GCC IXXX Met Ser His Ala TGT CGC ATG cc XXX Cys Arg Met GTC GCA TGC c XXX Val Ala Cys čtení tripletů závisí na tom, u kterého nukleotidu stanovíme počátek čtení. 5' ATGCGCAGGAATGCATAG 3' 3' TACGCGTCCTTACGTATC 5' í í í Překlad DNA sekvence - od 5'konce 5' ATGCGCAGGAATGCATAG 3' 5' CTATGCATTCCTGCGCAT 3' t í í Predikce genů u prokaryot-základní postupy (bez využití specializovaných programů) 1) Překlad prokaryotické DNA do proteinové sekvence. Translate (ExPASy) https://web.expasy.org/translate/ Translate is a tool which allows the translation of a nucleotide (DNA'RNA) sequence to a protein sequence Output format DNA or RNA sequence Verbose Met Stop, spaces between residues • Compact: M, -, no spaces Includes nucleotide sequence Includes nucleotide sequence, no spaces DNA strands t forward ' reverse Genetic codes - See NCBI's genetic codes 5ta--a-: 0RF Finder (NCBRV^N https://www.ncbi.nlm.nih.gov/orffinder/ Translate Translate is a tool which allows the translation of a nucleotide (DNA'RNA) sequence to a protein sequence. DNA or RNA sequence GTATGCTQGTGATTGTGGATGCCGTTACCCTQCTGAGCGCCTATCCGGAAGCCAGCCGTGATCCQGCCGCCCCGACCGTGATTQATGGTCGCCACCTGTATGTTGTTAGCCCGQG CGATGCCGCGCAGCTGGGCCATAACGATAGCCGTCTGTTTACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGAAACCGCGCTGGCGCTGCGCGCGGAAGTGAGCGTGCTG TTTATTCGCTTTGCCCTGAAAGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGCGTGATGCCGCCACCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTC CGCTGAAAGATCATTATTGGCGCAGCGATGTGCTGGCGGCGGGCGCGACCACCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATGGCACCGTGAGCGGTTATTTTCGTTGGGA AACCAGCATTGAAATTGCGGGCAGCCAGCCGGATACCAAACAGCCGGGCTTTAAACCGAGCAGCGATCGCAATGGCAACTTTAGCCTGCCGCCGAATACCGCCTTTAAAGCGATC TTCTATGCGAACGCGGCGGATCGTCAGGATCTGAAACTGTTTATTGATGATGCGCCGGAACCGGCCGCCACCTTTGTGGGTAACAGCGAAGATGGTGTGCGTCTGTTTACCCTGA ATAGCAAAGGTGGTAAAATTCGTATTGAAGCGAGCGCGAACGGCCGTCAGAGCGCGACCGATGCCCGTCTGGCGCCGCTGAGCGCGGGCGATACCGTGTGGCTGGGCTGGCTGGG CGCGGAAGATGGTGCCGATGCGGATTATAATGATGGCATTGTTATTCTGCAGTGGCCGATTACCTAATGGG Output format Verbose: Met Stop, spaces between residues • Compact: M, -, no spaces Includes nucleotide sequence Includes nucleotide sequence, no spaces V* for NA strands i forward i reverse '--- ---* Genetic coaes - see NCBI's genetic codes Standard TRANSLATE! Vertebrate mitochondrial Yeast mitochondrial Mold, protozoan and coelenterate mitochondrial, mycoplasma/spiroplasma Invertebrate mitochondrial Ciliate. dasycladacean and hexamita nuclear Echinoderm and flatworm mitochondrial Euplotid nuclear Alternative yeast nuclear Ascidian mitochondrial Alternative flatworm mitochondrial Blepharisma nuclear Chlorophycean mitochondrial Trematode mitochondrial Scenedesmus obliquus mitochondrial Pterobranchia mitochondrial Output format DNA or RNA sequence gtatgctggtgattgtggatgccgttaccctgctgagcgcctstccggaagccagccgtgatccggccgccccgaccgtgattgatggtcgccacctgtatgttgttagcccgggc gatgccgcgcagctgggccataacgatagccgtctgtttaccggtctgagcccgggtgat cagetgcatctgcgcgaaaccgcgctggcgctgcgcgcggaagtgagcgtgctgtt tattcgctttgccctgaaagatgccggcattgttgccccgatcgaactggaagtgcgtgatgccgccaccgccgttccggatgcggatgatctgctgcatccgagctgtcgtccgc tgaaagatcattattggcgcagcgatgtgctggcggcgggcgcgaccacctgtaccgccgattttgcggtgtgcgatcgtgatggcaccgtgagcggttattttcgttgggaaacc agcattgaaattgcgggcagccagccggataccaaacagccgggctttaaaccgagcagcgatcgcaatggcaactttagcctgccgccgaataccgcctttaaagcgatcttcta tgcgaacgcggcggatcgtcaggatctgaaactgtttattgatgatgcgccggaaccggccgccacctttgtgggtaacagcgaagatggtgtgcgtctgtttaccctgaatagca aaggtggtaaaattcgtattgaagcgagcgcgaacggccgtcagagcgcgaccgatgcccgtctggcgccgctgagcgcgggcgataccgtgtggctgggctggctgggcgcggaa gatggtgccgatgcggattataatgatggcattgttattctgcagtggccgattacctaatggg Verbose: Met Stop: spaces between residues • Compact: M: -, no spaces Includes nucleotide sequence Includes nucleotide sequence, no spaces DNA strands i forward i reverse Genetic codes - See NCBI's genetic codes Standard TRANSLATE! Results of translation 1» Open reading frames are highlighted in red ■ Select your initiator on one of the following frames to retrieve your amino acid sequence ^-5'3' Frame 1- vcw-LWMPLPC-afirkpavirpprp-UWATCMLIARAMPRSWAI^ gkpalklraa.sripnsra—NRAAIAMATLACRRIPPLKRSSMRTRRIVRI-NCllMMRRNRPPPLWVTAi^ -5'3' Frame 2- yagdcgcrypaerlsgsqp-sgrfdrd-wsppvcc-pgrcraagp-r-psvyrsepg-saasarnragaargseravyslcpercrh^ gnqk-ncgqpagyqtagl-tecrsqwcl-paaeyrl-sdllcerggssgsetvy—cagtgrhlcg-qrrwcasvype-qrw-nsy-sererpserdrcpsgaaergryrvaglagrgrwcrcgl—whcysavadylm -5'3' Frame 3- MLVIVDAWLLSAYPEASRDPAAFTVIDGRHLYWSPGDAAQLGHNDSRLFTGLSPGDQLHL^ ETSIEIAGSQPDTKQPGFKPSSDRNGNFSLPPNTAFKAI FYANAADRQDLKLFIDDAPEPAATFVGNSEDGVRLFTLNSKGGKIRIEASANGRQSATDARLAPLSAGDTVX'ILGWLGAEDGADADYNDGIVILQWPIT-W -3'5' Frame 1- PIR-SATAE-QCHHYNPHRHHLPRPASPATRYRPRSAAPDGHRSRSDGRSRSLQYEFYHLCYSG-TD^ TPQNRRYRWSRPPPAHRCAiWDLSADDSSDAADHPHPERRWRHHALPTOSGQQC -3'5' Frame 2- plgkrflckxxa:i::r:g^iffacpacfkgiaraq hrkiggtggrarrqhiaapimifqrttarmqciirirnggggithfgfdrgnnagifqsfa^ -3'5' Frame 3- h-vighcritmpsl-sasapssafsqpshtvspalsgarrasval-rpfaiasirilppllfrvnrrtfssllftkvaagsgassinsfrs-rsaafa-kialkavfggrlklp taksavqwapaastslrq--sfsgrglgcsrssasgtavajisrtsssigatmpasfrakr^ Predikce genů u prokaryot- základní postupy (bez využití specializovaných programů) 2) Identifikace potenciálních ORF. o\N • Jak dlouhý má být „rozumný" ORF? Stop kodon se v nekódující sekvenci náhodně vyskytuje přibližně každých 20 kodonů. V úvahu se tedy berou ORF delší než třicet kodonů (reálně i delší). • Empirické pravidlo: Správný ORF = nejdelší ORF odpovídající danému úseku DNA. -5'3' Frame 2- YAGDCGCRYPAERLSGSQP-SGRPDRD-WSPPVCC-PGRCRAAGP-R-PSVYRSEPG-SAASA^ GNQK-NCGQPAGYQTAGL-TEQRSQWCL-PAAEYRL-SDLLCERGGSSGSETVY—CAGTGRHLCG-QRRWCASVYPE-QRW-NSY-SZRERPSERDRCPSGAAERGRYRVAGLAGRGRWCRC3L—WHCYSAVADYLM "ŠLÍ K'v crnmi i - : MLVIVDAVTLLSAYPEASRDPAAPTVIDGRHLYVVSPGDAAQLGHNDSRLFTGLSPGDQLHLRETALALRAEVSVLFIRFAIKDAGIVAPIELEVRDAATAVPDADDLLHPSCRPLKDH^ RIEIAGSQPDTKQPGFKPSSDRNGNFSLPPNTAFKAI FYANAADRQDLKLFIDDAPEPAATFVGNSEDGVR1FT1NSKGGKIRIEASANGRQSATDARLAPLS.AGDTVWLGWLGAEDGADADYNDGIVILQWPIT-W -3'5' Frame 1 ■ PIR-SATAE-QCHKYNPHRHHLPRPASPATRYRPRSAAPDGHRSRSDGRSRSLQYEFYKLCYSG-TDAHHLRCYP TPQNRRYRWSRPPPAHRCANNDLSADDSSDAADHPHPERRWRHHALPVRSGQQCRHLSGCSE-TARSLPRAAPARFRADAADHPGSDR-TDGYRYGPAARHRPG-QHTGGDHQSRSGRPDHGWLPDRRS Predikce genů u prokaryot-základní postupy (bez využití specializovaných programů) 3) Ověření spolehlivosti predikce - je identifikovaný ORF skutečně součástí genu? V^\^ • Kóduje ORF protein podobný již popsanému proteinu? • Vyskytují se před/za ORF typické signální sekvence? • Statistické parametry sekvence: obsah GC, preference kodonů. -5'3' Frame 2- YAGDCGCRYPAERLSGSQP-SGRPDRD-WSPPVCC-PGRCRAASP-R-PSVYRSEPG-SA^ GNQH-NCGQPAGYQTAGL-TECRSQWCL-PAAEYRL-SDLLCERGGSSGSETVY—CAGTGRHLCG-QRRWCASVYPE-QRW-NSY-SERERPSERDRCPSGAAERGRYRVAGLAGRGRWCRCGL—WHCYSAVADYLM -K'v crniT"i i - : MLVIVDAVTLLSAYPEASRDPAAPTVIDGRHLYWSPGDAAQLGHNDSRLFTGLSPGDQLHLRET RIEIAGSQPDTKQPGFKPSSDRNGNFSLPPNTAFKAIFYANAADRQDLKLFIDDAPEPAATFVGNSEDGVRLFT1NSKGGKIRIEASANGRQSATDARLAPLSAGDTV11LGWLGAEDGADADYNDGIVILQWPIT-W -3'5' Frame 1 ■ PIR-SATAE-QCHKYNPHRHHLPRPASPATRYRPRSAAPDGHRSRSDGRSRSLQYEFYKLCT TPQNRRYRWSRPPPAHRCAmDLSADDSSDAADHPHPERRWRHHALPVRSGQQCRHLSGC Obsah GC Obsah GC - zastoupení G a C v sekvenci NA (genom, gen, část genu, fragment, syntetický oligonukleotid). Vyšší obsah GC párů je asociován s vyšší stabilitou DNA. • Velmi rozdílný pro různé prokaryotické genomy (25%-75%). • Adaptace na vysokou teplotu? • Adaptace na životní podmínky? Base composition bias might result from competition for metabolic resources Eduardo RC. Rocha and Antoine Danchin High guanine-cytosine content is not an adaptation to high temperature: a comparative analysis amongst prokaryotes Laurence D. Hurst1* and Alexa R. Merchant sprrirs CC,,,,^ (%) GC, (%) thermophilic Aeropyrum pcrnix* 57.50 66.40 yet Archaeoglobus futgidus* 49.37 58.42 yei Methambacterium thermoautotrophicum* 50.46 56.59 yei '/.'-.. in jannaschii* 31.84 24.74 yci Pyrococcus abyssi* 45.16 50.31 yei Pyrococcus horikoshii* 42.32 42.97 yc. Aquifex aeolicus1' 43.58 47.93 yci Bacillus subtilis*1 44.32 44.61 li . Borrelia burgdorferi1' 29.31 20.82 n ■ Campylobacterjejuni 32.82 18.96 m i Chlamydia muridarum1' 39.13 29.92 no Chlamydia pneumoniae11 41.30 34.88 DO Chlamydia trachomatis*1 41.61 34.30 DO Deinococcus radiodurans1' 65.72 84.02 DO Escherichia coli1' 51.37 54.90 no Haemophilus influenzae*' .38.76 29.09 no Helicobacter pylori1' 39.56 41.95 n.. Mycobacterium tuberculosis1' 65.81 7 g f « [48 K [42 K [44 K [46 K [48 K [50 K 53,463- (U) CRFfi:ider_2.€. BCBI 0RF136 0RF22 ■ 0RF21 □ El QRF4S I 0RF23 ■ 0RF4G BSI 0RF2 ■ ■ 0RF117 üRFi 0RF116 ■ 0RF83 OR(=50 0RF48 0RF4p ORFU3 I OR-114 I !4K. I6 0RF24 IJ KS 0RF134 0RF26 BE3B DRF27 ■ ORF30 K3M ORF53 ES SCSI ORF130 BLfl 0RF12S ORF15 13 0RF41 ■ 0RF43 BESBI ■ 0RF112 0RFS2 ■ 0RF53 13 D ORF109 □ ORF77 El ORF102 ■ 0RF98 KI 0RF72 ■ 0RF91 0RF39 ■ 0RF17 ■ EI 0RF6S E I 0RF51 El □ QRF133 0RF28 ■ 0RF31 ES 0RF11 | BCBI 0RF71 0RF62 EX 0RF16 ■ ■ 0RF67 0RF19 ■ CI 0RF4 I El 0RF81 0RF6 ■ ORF54 ■ I 0RF132 I ORF1Q0 0RF59 ES E9 0RF126 | 0RF68 ORF40 | ORF20 EES ■ 0RF82 ■ 0RF79 I ORF108 0RF8 I ■ 0RF76 ■ 0RF74 0RF34 □ 0RF36 ES ■ 0RF89 0RF42 SSM I 0RF121 I QRF135 Bj 0RF1W 0RF2S ■ ■ 0PF111 ORF5 ■ B 0RF78 ■ ORF103 0RFS7 ORF55 B 0RF9 BJ ORF7 ■ ORF56B B ORF105 I ORF106 0RF29 | I ORF107 I ORF104 I ORF131 [12 K [14 K |1£ [20 K [22 K |24 K 0RF32 B ORF60 ES 0RF61 I 0RF38 ■ ORF7S BJ 0RF97 BJ 0RF128 fl ORF90 I 0RF99 ORF10 fl £1 ORF9S | 0RF124 I ORF101 I 0RF73 I 0RF129 0RF37 El 0RF12 El ■ ORF70 0RF33 I ORF13 ES EI 0RF69 I 0RF98 S 0RF93 0RF14 B ■ 0RF127 0RF35 I B 0RF94 I 0RF92 28 K [36 K |32K [34 K [36 K |38 K |40 K |42 K [42 K |4' ■ 0RF123 BCBI 0RF86 0RFG3 BSI 0RF44 B31 ■ 0RF88 I B 0RF6G 10RF1... ■ 0RF122 I ORF120 0RF18 I I ■ 0RF87 46 K [48 K [58 K 53.461 1: 1..53K (53,4f38 nt) 0 Tracks shown: 2/5 ORFs found: 44 Genetic code: 11 Start codon: 'ATG' and alternative codons Nested ORFs removed Ö % 1» I find: 1_ ^1 <□ c>i e». uJ— — lNYAIMRLRRTrHLAEEMNEVILKIQNIQN ETIE = KET=!E:iLKELE'IRYKSLTSETKEKřN«FFLESKia^lQDNY=TYCI SNGISNTDDISRLDFLTWIKLSPEVQNDFKSTVEKNKRDIDILKNTISQ KUDR=QLRDINTLESFKKPQDY==YQQEMLLRUrtiYAAASDQVRINILKEY GGIYTDTDILPAYSDKVSQIItJEKSDDKRFFEDULRRIISESILSLIKG EKYSIKHDGLDETTLNQLMNILSEIEKLTIOOYFKPVETKWRDT=KIFK RYQKHTENTWNIRGNNNFHLTHKGSDFILSGQKKQYLLQRIRDNISYNNL FYTTEDLKSLNNVAIGGIPAKKYLEHGLFSEYRQOGTIPYWSTLNISGP DHIMRQMKKYYKSLGRIGEVHIKDNKLSDVNFLGVYASSNKDMKSFNWLN PVSVGIflDITPDDESSWAVRNNDINKILFEKIlICHVPEKM)ELRAQGYHF KVRT Introduction SmartBLAST processes your protein query to present a concise summary of the five best protein matches from well-studied reference species in the landmark database (described below) If possible, the matches will be from different organisms If SmartBLAST cannot find five matches in the landmark database, it will uses matches from the protein non-redundant (nr) database SmartBLAST produces these results using a combination of an optimized BLASTP search, a new implementation of BLAST meant to find closely related matches and a multiple alignment Additionally. SmartBLAST presents Conserved Domain Database matches to your query Additional matches to the nr database are presented lower in the report SmartBLAST is under active development and may change with little or no notice. Marked set ( 0 ) SmartBLAST best hit titles... & BLAST BLAST Database: UniProtKB/Swiss-Prot (swissprot) Landmark Database The landmark database includes proteomes from 27 genomes spanning a wide taxonomie range This search set is produced using the best available genomic assemblies for each organism with the following procedure. First, the most recent representative assembly from each organism is identified. Second, all proteins annotated on each assembly are downloaded and compiled into the landmark BLAST database. The result is a taxonomically diverse non-redundant set of proteins supported by genomic assemblies Query: unnamed protein product Query length: 531 aa DOMAIN: bifunctional 2',3'-cyclic nucleotide 2"-phosphodiesterase/3"-nucleotidase periplasms precursor protein i- nucleotidase bifunctional 2\3'-cyclic nucleotide 2'-phosphodiesterase/3'-nucleotidase periplasms precursor protein exported 2',3'-cyclic-nucleotide 2'-phosphodiesterase, 2' (or 3') nucleotidase and 5' nucleotidase bifunctional 2'3'-cyclic-nucleotide 2'-phosphodiesterase/3'-nucleotidase CpdB Escherichia coli str. K-I2substr. MG1655 Your <*uerV- unnamed protein product 2'3' cyclic nucleotide phosphodiesterase/3' nucleotidase Streptomyces coelicolor A3(2) - Deinococcus radiodurans R1 - Bacillus subtilis subsp. subtilis sir. 168 * Shewanella oneidensis MR-1 . unknown Metody predikce genů • Dva hlavní přístupy: metody ab /n/t/o/metody založené na homologii (sekvenční). OiV> • Ab initio - predikce genů založená pouze na sekvenci, jejích vlastnostech a statistických parametrecfc.Q * • Metody založené na homologii - sekvenční podobnost se známými geny/proteiny. ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí ALIGNMENTU) = nejspolehlivější predikce. Problém- unikátní geny bez známých homologů (většinou nejzajímavější). • Kombinace obou postupů • Specializované predikční programy-v kombinaci s HMM Predikce genů u prokaryot Skryté Markovovy modely • Skrytý Markovův model: Jednotlivé stavy mohou generovat různé znaky s definovanou pravděpodobností. Stavy jsou skryté, vidíme pouze znaky, které generují. gttccggatgcggatgatctgctgcatccgagctgtcgtccggaaagatcattattggcgcagc gatgtgctggcggcgggcgcgaccacctgtaccgccgattttgcggtgtgcgatcgtgatggca ccgtgagcggttattttcgttgggaaaccagcattgaaattgcgggcagccagccggataccaa acagccgggctttaaaccgagcagcgatcgcaatggcaactttagcctgccgccgaataccgcc tttaagcgatagctctatgcgaacgcgttgcggatcgtcagatctgaaactgtttatt 99.5% Jaký je nejpravděpodobnější průchod skrytými stavy? gttccggatgcggatgatctgctgcatccgagctgtcgtccggaaagatcattattggcgcagc gatgtgctggcggcgggcgcgaccacctgtaccgccgattttgcggtgtgcgatcgtgatggca ccgtgagcggttattttcgttgggaaaccagcattgaaattgcgggcagccagccggataccaa acagccgggctttaaaccgagcagcgatcgcaatggcaactttagcctgccgccgaataccgcc tttaagcgatagctctatgcgaacgcgttgcggatcgtcagatctgaaactgtttatt ( 99%\ coding J 10% +r coding 0.5% ^ non coding A = 30% A= 10% T=30% T= 10% C = 20% 1% C = 40% G »20% G = 40% (a) ATTACGTTGACATTAGCAATATCATAGAACAAATCATCGQGGCAGGATACCGCCGACCTGCAGGG cccccccccccoccccccoccccccccccccccccccnnnnnnnnnnnnnnnnnnnnnnnnnnnn I □ □ □ MRMICCIRAVVRKDHYWRSDVLAA.GATTCTADFAVCDRDGTVSGYFRWETSI EIAGSQPDTKQPGFKPSSDRNGNFSLPPNTAFKR Protein třídy 1, typický Current Biainfarmalici. 24107. 2. 49-61 Hidden Markov Models in Bioinformatics GeneMark Predikce genů u prokaryot Skryté Markovovy modely A family of gene prediction programs developed at Georgia Institute of Technology Atlanta. Georgia, USA http://exon.gatech.edu/GeneMark/ GeneMark GeneMark developed in 1993 was the first gene finding method recognized as an efficient and accurate tool for genome projects. GeneMark was used for annotation of the first completely sequenced bacteria, Haemophilus influenzae, and the first completely sequenced archaea, Methanococcus jannaschii. The GeneMark algorithm uses species specific inhomogeneous Markov chain models of protein-coding DNA sequence as well as homogeneous Markov chain models of non- coding DNA. Parameters of the models are estimated from training sets of sequences of known type. The major step of the algorithm computes a posteriory probability of a sequence fragment to carry on a genetic code in one of six possible frames (including three frames in complementary DNA strand) or to be "non-coding". S 199H Oxford University Press Nucleic Acids Research. 1998. Vol. 26. \'o. 4 1107-1115 GeneMark.hmm (prokaryotic) GeneMark.hmm algorithm was designed to improve the gene prediction quality, particularly to improve GeneMark in finding exact gene starts. The idea was to integrate the GeneMark models into naturally designed hidden Markov model framework with gene boundaries modeled as transitions between hidden states. Additionally, the ribosome binding site model is used to make the gene start predictions more accurate. In evaluations by different groups it was shown that GeneMark.hmm is significantly more accurate than GeneMark in exact gene prediction. From 1998 until now GeneMark.hmm and its self-training version, GeneMarkS, are the standard tools for gene identification in new prokaryotic genomic sequences, including metagenomes. GeneMark.hmm: new solutions for gene finding Alexander V. Lukashin and Mark Borodovsky1 * School of Biology and 1Schools of Biology and Mathematics, Georgia Institute of Technology. Atlanta, GA 30332-0230, USA Received August 14.1997: Revised and Accepted December 30.1997 Table 5. Results of GeneMark.hmm predictions for 10 complete bacterial genomes Genome Genes annotated Genes predicted I xacl prediction (°ol Missing genes(".> Wrong genes (%) l./'ul/ridus 2407 2530 73.1 10H (2.0) 15.1 B.suhtilis 4101 4384 3.6(2.8) 9.8 E.coli 42« 44-' 75.4 5.0(2.7) s: 11. influenzae 1718 1(40 86.7 3.8(3.2) 10.2 H.pytori 1566 1612 79.7 6.0 (4.4) s " M.genilalium 467 509 78.4 9.9(1.7) I7J At jannaschii MM IMI 72.7 4.6 (0.8) ::>> M pneumoniae 678 7J4 70.1 7.8(4.1) : If M.thermoaulhotrophicum 1869 1944 70.9 5.0(3.5) S 1, Synechocyslis MM 3360 89.6 4.0(1.5) 9.4 Averted 21 943 23 194 78.1 5.4 (2.7) 10.4 The second and third columns show the number of genes annotated in Gen Hank and the LomrspondinsJ number ot uencs predicted, respectively. 'Exact prediction' is a fraction of annotated genes tor which both the 5'-end and the 3'-end were predicted exactly ' Missing genes' is a fraction of annotated genes for which neither the 5'-cnd nor the 3'-end was predicted exactly: in this column the numbers in brackets show- the missing genes after using the combined program K>encMark.hmm * OencManV). 'Wrong genes' is a fraction of predicted genes for which no annotated analog was found. All measures arc expressed as percentages. The data shown arc the results obtained after post-processing procedure (RUS recognition). Predikce genů u prokaryot Markovovy modely Co když není model pro můj organismus v seznamu GeneMark? • Lze použít model pro blízce příbuzný organismus. • Lze využít heuristický model (pro krátké sekvence). Lze využít „self-training" algoritmus (pro dostatečně dlouhé sekvence). GeneMark.hmm PROKARYOTIC (Version 3.26) Date: Wed Mar 25 10:09:08 2020 Sequence file name: seq.fna Model file name: /home/genemark/parameters/prokaryoti^Escherichia_coli_BL21_Gold_DE3_pLysS_AG RBS: true Model information: Escherichia_coli_BL21_Gold_DE3_pLysS_AG_ Heuristic Models Computer methods of accurate gene finding in DNA sequences require models of protein coding and non-coding regions derived either from experimentally validated training sets or from large amounts of anonymous DNA sequence. A heuristic method for derivation of parameters of inhomoqeneous Markov models of protein codinq reqions. was proposed in j^^^TTeTieTinsticTneTnoc^ir^^ used in GeneMark can be approximated by the functions of the sequence G+C content. Therefore, a short DNA sequence sufficient for estimation of the genome G+C content (a Tagment longer than 400 nt) is also sufficient for derivation of parameters of the Markov models used in GeneMark and GeneMark.hmm. Models built by the heuristic approach could oeTsecTToTTncT^eTie^rT^maTnrag^^ metagenomic sequences, as well as in genomes of organelles, viruses, phages and plasmids. This method can also be used for highly inhomogeneous genomes where adjustment of the Markov models to local DNA composition is needed. The heuristic method provides an evidence that the mutational pressure that shapes G+C content is the driving force of the evolution of codon usage pattern. FASTA definition li ne: empty fasta-def-line Predicted genes Gene Strand LeftEnd RightEnd Ce" = # Length 1 + <_" 314 312 2 + 31S 1694 1287 3 - 1698 2-71 774 4 - 25 = 2 3986 1431 + 4249 5282 954 6 + 5 r 15 5963 591 7 - 5:-i-2 >6244 2 í ŕ GeneMark.hmm PROKARYOTIC (Version 3.26) Date: Wed Mar 25 10:13:05 2020 Sequence file name: seq.fna Model file name: /home/genemark/parameters/prokar/o'tic/Pseudomonas_aeruginosa_PA01/GeneMark_hmm_combined.mod R8S: true Model information: Pseudomonas_aeruginosa_PA01 FASTA definition line: empty fasta-def-line Predicted genes Gene Strane LeftEnd RightEnd Ce- = # Length 1 + <3 314 312 2 + ľ 15 1664 1287 3 - 1698 2-71 774 4 - : = 3988 1431 : + 4249 5202 954 6 + 5? 13 5903 591 7 - 5 í 5 í >6244 25: Heuristické řešení- přibližné řešeni založené na zkušenosti, poučeném odhadu nebo empirických poznatcích. Dá nám rozumné výsledky rozumně rychle. Prokaryotické geny • Velmi jednoduchý přístup k predikci genů w Zjednodušení vede k chybám, ale jejich množství je POMĚRNĚ MALÉ. • Chyby mohou vznikat při SEKVENOVÁNÍ DNA. Přidání/odstranění startovního a/nebo stop kodonu může vést ke ZKRÁCENÍ, PRODLOUŽENÍ nebo úplnému VYNECHÁNÍ genu. Vynechání-inzerce nukleotidu pak ke ZMĚNĚ ČTECÍHO RÁMCE Experimental vs. database sequence PLL -------MPNPDNTEAYVAGEVEIENSAIALSGIVSVANNADNRLEVFGVSTDSAVWHNW 53 PLU0732 MKKEPIKMPNPDNTEAYVAGEVAIENSAIALSGIVSVANNADNRLEVFGVSTDSAVWHNW 60 PLL QTAPLPNSSWAGWNKFNGWTSKPAVHRNSDGRLEVFVRGTDNALWHNWQTAADTNTWSS 113 PLU0732 QTAPLPNSSWAGWNKFNGWTSKPAVHRNSDGRLEVFVRSTDNALWHNWQTAADTNTWSS 120 PLL WQPLYGGITSNPEVCLNSDGRLEVFVRGSDNALWHIWQTAAHTNSWSNWKSLGGTLTSNP 173 PLU0732 WQPLYGGITSNPEVCLNSDGRLEVFARGTDNALWHIWQTAAHTNSWSNWKSLGGTLTSNP 180 PLL AAHLNADGRIEVFARGADNALWHIWQTAAHTDQWSNWQSLKSVITSDPWINNCDGRLEV 233 PLU0732 AAHINADGRIEVFARGADNALWHIWQTAAHTDQWSNWQSLKSVITSDPWIGNCDGRLEV 240 PLL FARGADSTLRHISQIGSDSVSWSNWQCLDGVITSAPAAVKNISGQLEVFARGADNTLWRT 293 PLU0732 FARGADNTLRHISQIGSDSVSWSNWQCLDGVITSAPAAVKNISGRLEVFARGADNTLWRT 300 PLL WQTSHNGPWSNWSSFTGIIASAPTVAKNSDGRIEVFVLGLDKALWHLWQTTSSTTSSWTT 353 PLU0732 WQTSQNGPWSNWSSFTGIIASAPTVAKNSDGRIEVFVLGLDKALWHLWQTTSSTTSSWTT 360 PLL WALIGGITLIDASVI- 368 PLU0732 WALIGGITLIDASVIK 37 6 Alignment statistics for match #1 Score Expect Method Identities_Positives_\f fGe^sj 207 bits(527) 3e-66 Compositional matrix adjust._107/107(100%) 107/107(100%) 0/107(0%) Query 8 LPANTRFGVTAFANSSGTQTVNVLVNNETAATFSGQSTNNAVIGTQVLNSGSSGKVQVQV 67 _LPANTRFGVTAFANSSGTQTVNVLVNNETAATFSGQSTNNAVIGTQVLNSGSSGKVQVQV Sbjct LPANTRFGVTAFANSSGTQTVNVLVNNETAATFSGQSTNNAVIGTQVLNSGSSGKVQVQV 60 Query 68 SVNGRPSDLVSAQVILTNELNFALVGSEDGTDNDYNDAVWINWPLG 114 _SVNGRPSDLVSAQVILTNELNFALVGSEDGTDNDYNDAVWINWPLG Sbjct 61 SVNGRPSDLVSAp^|fl\^U)tFALVGSEDGTDNDYNDAVWINWPLG 107 LOCUS NZJUUUO1000485 5873 bp DNA linear CON 21-AUG-2015 DEFINITION Pseudomonas aeruginosa strain 744_PAER 959_5873_75941, whole genome shotgun sequence. ACCESSION NZ JUUU01000485 NZ JUUU00000000 gene complement(5548..>5873) /locus_tag="ADF63_RS25535" CDS complement(5548..>5873) /locus_tag="ADF63_RS2 5535" /inference="EXISTENCE: similar to AA sequence:RefSeq:WP_009876850.1" /note="Derived by automated computational analysis using gene prediction method: Protein Homology." /codon_start=3 /transl table=ll /product="fucose-binding lectin" /protein_id="WP 049233417.1" /db xref="GI:896235191" \ /translation="LPANTRFGVTAFANSSGTQTVNVLVNNETAATFSGQSTNNAVIG TQVLNSGSSGKVQVQVSVNGRPSDLVSAQVILTNELNFALVGSEDGTDNDYNDAVVVI NWPLG" Chyby • Nejcastejsi • - chyby v sekvenaci iř \\ • - špatná predikce -alternace startovního kodonu • - shot gun sekvenace \^\0 Predikce genů u eukaryot Eukaryotické genomy: velké až obrovské (10 Mbp až 670 Gbp). Mohou mít velmi nízkou hustotu genů, > 90% genomu může být nekódující, jeden gen u člověka připadá přibližně na 100 kbp. GENSCAN Predikovány 2 kódující sekvence, z toho jedna neúplná >/tmp/02_12_20-ll:25:12.fasta|GENSCAN_predicted_peptide_2|262_aa MGENW GA S DT G DE AK P D P AMÄC SPEVPGRL LVGQDTA PRGGAEVT GSRGDGHHRF PALA P DRHRE PRPEQGGTQPAEGRGLDSHET EETEKGEMEEME TGKTEGREEMEKGELGENGRAS DAGMRQSQTQPRSAVPREDTAPGGAGGLYDSEPGKEQRPEVVPSTVPTGRPAQAEGSDPT RHRSPVCRSPETHILWLTAVRPLGRRRPHVAQTAPLGLKPADKATHPARRCCVATAEGPR TTFPMTHGQTLAQQGSLRPGÄV >/tmp/02_12_20-ll:25:12.fasta|GENSCAN_predicted_peptide_3|1286_aa XRPLVPSPAEERVLNLPAVWASSFLLSHLSVGVGVPCATVDARDFVCLASPPQQHHHVG LGÄGGVSCSGSYSEEGLKPGSGTHIHQLGPPVSSFVFPATLLKILINSRIWSÄGWKISVW QSGAWFIDGAFPLRPHGVEGACGCPLYWKGPLFYGAGGERTGSVSVHKFVAMWRKILQNC HDDAAKFVHLLMSPGCNYLVQEDFVPFLQRPHRTPHGRAGVYTTRLVSSHPQDWNTHPG LSFLKEASEFHSRYITTVIQRIFYÄVNRSWSGRITCAELRRSSFLQPGGLGASPQRPRAQ AAWVLWQNVAL L E EEA DINQLTEFFS YEH FYVIYCKFWELDTDH DLLIDADDLARHNDHG QDAVC GRAAL FLTHCGLKRGAAPWLVR PRDTGDRRDGR PGCGTFSW PKLTATVLSLL P PV AVPLRPEYSÄLYKSVLE PRSÄLRSVD FMLDLALLDGKAC P FYQDDRQDLLRSSHTVRTAQ APDGSHCPCEDPGPSPHRCLTGRKVQKEGKI5YADFVWFLISEEDKKTPTSIEYWFRCMD LDGDGALSMFELEYFYEEQCRRLDSMAIEALPFQDCLCQMLDLVKPRTEGKITLQDLKRC KLANVFFDTFFNIEKYLDHEQKEQISLLRDGDSGGPELSDWEKYAAEEYDILVAEETAGE PWEDGPGGRLPSRSGSDVGHGHRSPRPSDFGAAQNTFWLPLGSRPMGSMDVHFNPCSPIS RPVRFLPSSTGPLRPTLGRL3CVSVLLWIVCTVALTWQPTSGSPQLPSLCLLLSDTLRQ LWPPDLAWMVSTPTAARLCVCGTASSTLGSTAFTVSTPAPAVGAQAPPPGAFVEPASSAR SALLAQRLELKVGSGDCLVLEVGGRAACVSRKTAQGLLRAAGHVFAIPSLQVRGRAQPCG AEAECAALPAGPEALLRGALTÄGRRGPVRVRMRGRGPGAAVTPPARTPPRGRSPPWVPGP ASVERVRVRTTVTGGSRAPQSWTGASTTGCVNVLCKRTKPFLAITLVRVTGGDHGNNPVL THDKTLPQETEVAASTRQGRAKPGPPREQHTHPVHPPAAVAVKEADAQGGPVTPEERLRG LQWGRRGSTSRGNAAVPKVSSVSPGAPLNSRMPPPGSAKGQDPQQQDSHNPRCPGQCRG RACTPTPLPEKWGGPVGGPRGRRRCGETQSPAVMPSTCSGGPFPRGLTCAGGQGPHKTST RGTLTVASVPPEARMFQGSAPHPLNDNRGSPÄLRGRHPLEIPEQGPDPAHPSPPSRGÄFV SE PRVFTGAAPGP PRS S SMSSVPGGP ^^72+:494:/7276494:/:27/.//^^$$^ !!!!!!!!z 19954991 Predikce genů u eukaryot • Eukaryotické genomy: velké až obrovské (10 Mbp až 670 Gbp). Mohou mít velmi nízkou hustotu genů, > 90% genomu může být nekódující. CrV\ • Eukaryotické geny: skládají se z exonů a intronů. Podléhají sestřihu, může probíhat alternativní sestřih. m. I 1 Exony mohou být velmi krátké, introny velmi dlouhé. I Transkripce,sestřih mRNA Nízká hustota genů, exony/introny, alternativní sestřih: Translace Hledání jehly v kupce sena, přičemž jehla je rozlámaná na kousky. Protein Kousky jehly je nutné najít a SPRÁVNĚ poslepovat dohromady. I Predikce genů u eukaryot Eukaryotické genomy: velké až obrovské (10 Mbp až 670 Gbp). Mohou mít velmi nízkou hustotu genů, >90% ae(\i(jti může být nekódující. CrV\ Eukaryotické geny: skládají se z exonů a intronů. Podléhají sestřihu, může probíhat alternativní XfiČWJ Exony mohou být velmi krátké, introny velmi dlouhé. Co pomáhá při predikci: Signální sekvence, sestři nukleotidů v kódujících/nekódujících oblastech, ATG. GT AG_ Signální sekvence, sestřihová místa (GT/AG), zastoupení ^-^^^^^^^^^^^^^^^ DNA Translační a transkripční signální sekvence Regulační signály pro transkripci GC box GC box TATA box Hognessův box Promotor RNA-polymerasy II ni li NA GGGČGG GGGČGG 1A1AA 1 i -100 -75 i 50 -25 + 1 Regulační signály pro iniciaci translace E u kary ota (gcc)gccRccAUGG Kozák sequence Sekvence Kozákové motor sequences -^ggcctataaaattctctttccattgtgtttcag|tgca~ -^tatataaataagctgcatactcggtctctcag|actg~ '-gcgtataaaagcatgccagccctcactgcctttatttc|gaat~ ^ggtataaatcacttgctcgtctgccatgcag|ctcg~ ~ttetoaattc^aat:t:t:ct:ccgt:ct:ct:c^ccctgc^gat^c~ ~cctataaaagcgagtgagccgtgtctattctag | gcgg~ Predikce genů u eukaryot Genomy jednobuněčných eukaryot se výrazně liší (frekvence intronů, jak velká část genomu je tvořená geny kódujícími proteiny). Socchoromyces cerevisiae - 67% genomu je protein-kódující, jen 4% obsahují introny. ^ *%\\* Hlenky - průměrný gen obsahuje 3,7 intronu. Slime mold = hlenka ' %*&JÚL'r£?&'<** Fuligoseptica WÁÉ^^^ŠM Dog vomit slime mold Hlenky jsou záhadné houby v podobě blitky, škraloupu, slizu či průjmu, které se dokážou pohybovat, mají pamět a navzájem komunikuji. Tato hlenka teze po stohu poblíž Slezských Rudoltic. | Foto: DENÍK/František Kuba https://www.denik.cz/z_domova/hlenky-na-severu-moravy20090715.html Predikce genů u eukaryot Genomy jednobuněčných eukaryot se výrazně liší (frekvence intronů, jak velká část genomu je tvořená geny kódujícími proteiny). Saccharomyces cerevisiae - 67% genomu je protein-kódující, jen 4% obsahují introny. ^%\\* Pro některá jednobuněčná eukaryota je možné použít stejné postupy jako pro prokaryota. Sequence type • Intronless eukaryotu Tulii! Phage EST cDNA Output format for gene prediction • LST GFF Output options Protein sequence Gene nucleotide sequence Coding potential graph (not for multi FASTA) PDF PostScript E-mail Optional: results bv E-mail Subject GeneMarkS Compress files Metody predikce genů u eukaryot Metody ob /wt/o/metody založené na homologii/me^Gdy^kložené na konsenzu. Jť\v^ Ab initio -(5íapn)HMM (skryté Markovovy modely) cDNAs Target proteins Search proteins Blastn ~] Compart | Splign Organism parameters e jit- C hamer ] Gnomon Gene models „The core algorithm of the ab initio prediction capability of Gnomon is based on Genscan." The New GENSCAN Web Server at MIT Identification of complete gene structures in genomic dna Komplexní model struktury genu (HMM + transkripční, translační, sestřihové signály). http://hollywood.mit.edu/GENSCAN.html Vertebrate ▼ Arabidopsis Maize Eukaryotic Genome Annotation at NCBI: https://www.ncbi.nlm.nih.gov/genome/annotation_euk/ Metody predikce genů u eukaryot • Metody ob /wt/o/metody založené na homologii/metody založené na konsenzu. *f\čr • Metody založené na homologii - exonj^N^reIrence příbuzných druhů jsou konzervované. Potenciální exony jsou porovnány se sekvencemi v databázi. Nelze použít pro nové geny bez homologů v databázi. • Metody založené na konsenzu (shoda mínění, vzájemný souhlas) -porovnání výstupů z více různých predikčních programů. Výběr shodných výsledků - omezení falešně pozitivních výsledků. Problém: nižší citlivost, vynechání některých genů. X Metody predikce genů u eukaryot Metody ob initio /metody založené na homologii/metody založené na konsenzu. wVO^ V praxi často využívány kombinace přístupů, ob initio + homologie. Využití experimentálních dat - proteiny RNA sekvence, geny (ze zkoumaného organismu nebo homologní), „spliced alignments". Gnomon, the NCBI eukaryotic gene prediction toqL Before we start a genome annotation we collect several data sets First we collect all available cDNAforthe studied organism and sometimes cDNA for closely related organisms Then we generate a Target protein set and a Search protein set The former is a collection of the proteins that we believe should be found on the genome Usually this includes all known proteins for the studied organism and several sets of known proteins for other, well studied genomes The latter set is a much wider collection of eukaryotic proteins. We try to align on the genome all proteins from the Target Protein Set The proteins from the Search Protein Set are aligned only if they are similar enough to predicted models, in which case these additional alignments are used in refining the models. In addition to the sequences used for the homology search we create an organism specific parameter set which is used for evaluation of the ab initio scores Organism parameters https://www.ncbi.nlm.nih.gov/genome/annotation_euk/gnomon/ Target proteins Gene models Search proteins Metody predikce genů u eukaryot Predicting Genes in Single Genomes with AUGUSTUS Katharina J. Hoff 2 and Mario Stanke12 1 University of Greifswald, Institute of Mathematics and Computer Science, Greifswald. Germany corresponding authors: ka1harina.hoff@imi-greifswald.de; mario.s1anke@uni-greifswald.de AUGUSTUS is a tool for finding protein-coding genes and their exon-intron structure in genomic sequences. It does not necessarily require additional experimental input, as it can be applied in so-called ab initio mode. However. extrinsic evidence from various sources such as transcriptome sequencing or the annotations of closely related genomes can be integrated in order to improve the accuracy and completeness of the annotation. AUGUSTUS can be applied to single genomes, or simultaneously to several aligned genomes. Here, we describe steps required for training AUGUSTUS for the annotation of individual genomes and the steps to do the actual structural annotation. Further, we describe the generation and integration of evidence from various sources of extrinsic evidence. © 2018 by John Wiley & Sons. Inc. http://bioinf.uni-greifswald.de/webaugustus/ http://exon.gatech.edu/GeneMark/g mep_plus_instructions.html ABSTRACT We have made several steps toward creating a fast and accurate algorithm for gene prediction in eu-karyotic genomes. First, we introduced an automated method for efficient ab initio gene finding, GeneMark-ES, with parameters trained in iterative unsupervised mode. Next, in GeneMark-ET we proposed a method of integration of unsupervised training with information on intron positions revealed by mapping short RNA reads. Now we describe GeneMark-EP, a tool that utilizes another source of external information, a protein database, readily available prior to the start of a sequencing project. A new specialized pipeline, ProtHint, initiates massive protein mapping to genome and extracts hints to splice sites and translation start and stop sites of potential genes. GeneMark-EP uses the hints to improve estimation of model parameters as well as to adjust coordinates of predicted genes if they disagree with the most reliable hints (the -EP+ mode). Tests of GeneMark-EP and -EP+ demonstrated improvements in gene prediction accuracy in comparison with GeneMark-ES, while the GeneMark-EP+ showed higher accuracy than GeneMark-ET. We have observed that the most pronounced improvements in gene prediction accuracy happened in large eukaryotic genomes. GeneMark-EP+: eukaryotic gene prediction with self-training in the space of genes and proteins Tomas Bruna' . Alexandre Lomsadze2 and Mark Borodovsky' 2 3 'School of Biological Sciences, Georgia Institute of Technology, Atlanta, GA 30332, USA, 2Wallace H. Coulter Department of Biomedical Engineering, Georgia Institute of Technology, Atlanta, GA 30332, USA and 3School of Computational Science and Engineering, Georgia Institute of Technology, Atlanta, GA 30332, USA Received December 13. 2019; Revised March 10, 2020; Editcrial Decision April 01, 2020; Accepted May 12, 2020 Eukaryotické geny Mnohobuněčná e u kary o ta ^ • Mnohobuněčná e u kary o ta ^rsfň^ Komplexní organizace genomu, geny separovány dlouhými INTERGENOVÝMI úseky, geny obsahují množství INTRONŮ, i velmi DLOUHÝCH. 5< I-1 3' - codi n? region I - untr «ns 1 «tecJ region Glyceraldehyd-3-fosfát-dehydrogenasa Candida albicans Eukaryotické geny Mnohobuněčná eukaryota ^ • Mnohobuněčná eukaryota ^s\/?sS^ Komplexní organizace genomu, geny separovány dlouhými INTERGENOVÝMI úseky, geny obsahují množství INTRONŮ, i velmi DLOUHÝCH. 5' h 413 m II i- c och n* region | - 1 million base pairs (1 T Abp) in length. If you have trouble with the web server or if you have a large number of sequences to process, request a local copy of the piv.^am (see instn'-:^ons at the bottom of this page) or use the GENSCAN email server. If your browser (e.g., Lynx) does not support file upload or multipart forms, use the older version. Algoritmy a nástroje pro identifikaci genů Program Organism Algorithm* Website Homology GenelD Vertebrates, plants DP http://ww wl.imim.es/geneid. html FGENESH Human, mouse, Drosophila, rice EMM http: / /www.softberry. com/berry, phtmlľtopic =fgenesh Sigroup =progr_.iiis £_ subgroup=gfi ad Gene Parser Vertebrates n.n http: //beagle.colorado.edu/'—eesnyder/ Gene Parser, html EST Genie Drosophila, human, other GHMM http:/ /www. Fruit fly.org/seq_tools/genie. html protein GenLang Vertebrates, Drosophila, dicots Grammar rule http: //ww w.cbi 1. upenn, edu/g enl ang/ genl_.ng_home. html GENSCAN Vertebrates, Arabidopsis, maize GHMM http ://ge nes. mít. edu/GENSCA N, htm 1 GlimmerM Small eukaryotes, Arabidopsis, rice :>.:\i http: / /www. tigr.org/tdb/glimmerm/ glm r_form. html GRAIL Human, mouse. n.n. http:/ /compbio.ornl.gov/Grail-bin/ EST, Arabidopsis, Empt yG r ailForm cDNA Drosophila HMMgene Vertebrates, C. eiegans CHMM ht tp: / /ww w.cbs, dtu. dk /services / HM M gene / AUGUSTUS Human. Arabidopsis IMM.WWAM http: / /august us, gobics.de/ MZEF Human, mouse, Arabidopsis, Fission yeast Quadratic discriminant analysis http: / /ru lai.c_hl.org/tools/genefinder/ *DP, dynamic programming; NN, neural network: MM,(Markov model; l_M\l Hidden Markov model;Jf'HMM. class EMM: GHMM, generalized EMM; [MM, interpolated MI\ Shrnutí • Predikce prokaryotických genů mnohem jednodušší než u eukaryotických. /?sS^ • Predikce genů ab initiolna základě sekvenční homologie. • Nutné kombinovat oba přístupy = konsensus • Rozumné využívat více predikčních programů. Ukol 2 • DEFINITION fucose-specific lectin [Arthroderma otae CBS 1134801. ♦ACCESSION XP 002846975 . S\X^ • VERSION XP 002846975^x0^ • DBSOURCE REFSEQ: accession XM 002846929.1