Zaslání sekvence DNA do primární databáze Nejdůležitější instituce zabývající se shromažďováním biomedicínských informací • K nejdůležitějším institucím zabývajícím se, správou dat a vývojem nástrojů pro jejich analýzu a poskytováním informací patří: - Evropský institut pro bioinformatiku (EBI) se sídlem v Hinxtonu v UK (http://www.ebi.ac.uk/), - Národní centrum pro biotechnologické informace (NCBI) založené původně v rámci Národní lékařské knihovny (NLM) v USA (http://www.ncbi.nlm.nih.gov/), - Centrum pro informační biologii (CIB) založené jako oddělení Národního genetického institutu (NIG) v Mishimě, Japonsko (http://www.cib.niq.ac.jp/). Nejdůležitější databáze sekvencí nukleových kyselin a proteinů • V každém ze tří hlavních bioinformatických center je spravována genomová databáze sekvencí nukleových kyselin a odpovídajících, z nich přeložených proteinů. - EMBL Nucleotide Sequence Database (v rámci institutu EBI)- 1980 - GenBank (v rámci institutu NCBI) - 1982 - DDBJ (The DNA Data Bank of Japan) -1984 • Tři samostatné báze vznikly v důsledku potřeby rychlé dostupnosti databáze sekvencí na jednotlivých kontinentech v době, kdy ještě nebyly rozvinuté vysokorychlostní komunikační sítě. Identifikace záznamu v primárních sekvenčních databázích • GenBank • EMBL • DDBJ • Přístupový kód (Accession Number) • číslo Gl (GenBank Identifier) LOCUS AY870395 553 bp DNA linear BCT 30-JAN-2005 DEFINITION Macrococcus brunensis strain CCM 4811 60 kDa chaperonin (cpn60) gene, partial cds. ACCESSION AY870395 4 VERSION AY870395.1 GI:58119461 4 Jak se data dostanou do databází? Předání dat prostřednictvím WWW - Banklt (GenBank) • http://www.ncbi.nlm.nih.gov/Banklt/ - Webln (EMBL) • http://www.ebi.ac.uk/embl/Submission/webin.html - Sakura (DDBJ) • http://sakura.ddbj.nig.ac.jp/ Samostatná aplikace pro PC - Sequin • http://www.ncbi.nlm.nih.gov/Seguin/download/seg download.html - pro delší sekvence (genomy) - fylogenetické, populační nebo mutační studie obsahující sekvenční přiložení TPA (Third Party Annotation) anotace třetí stranou - záznamy, které upřesňují existující sekvence uložené do databází jinými autory - striktní požadavek na přímý experimentální důkaz navrhované anotace New Banklt Etanklt - Windows Internet Explorer .- J □ (x) W .. http://www.ncbi. nlnn. nih. gov/Web5ub/?forrn =history&tool=i 3 Bankit Soubor Úpravy Zobrazit Oblíbené položky. Nástroje Nápověda Oblíbené položky Q Banklt 1 ' ^ Stránka * Zabezpečení -f Nástroje * m » % NCBI Hone Sewcň 3te Ma New Banklt Submissions New Submission Complete Submissions ID Date Submitted Record 1391012 15 Sep 2010 10:35:52 Download File r.apl Lagged in as Raman Pantucek (raman.pantucek} Log; jut Contact | Copyright | Disclaimer | Privacy | Accessibility Metional Center for Biotechnology Information , US National Library of Medicine SeCO Hodcville Pike . BethesdH. MD USA 20894 ■ittp: Sjwwv-i. ncbi. him. nih. go v/WebSub/index. cgi?tool= fcj) Internet Old Banklt anklt- GenBank Submissions by WWW - Windows Internet Explorer SDH Of ^ Oblíbené položky r% http: //www. ncbi.nlnn.nih.gov/BankIt/oldbankit. html £| Bankit <^ Banklt: GenBank Subrnissi. T I E5 i§i T 1^ Stránka" Zabezpečení" Nástroje » ^] [23 Banklt: GenBank Submissions by WWW PubMed Entrez BLAST OMIM Taxonomy Structure Note: NCBI is testing a new version of the Banklt sequence submission tool, which will replace the current Banklt. This new version can be used to submit simple sets, such as single gene/CDS or rRNA/ITS sequences. If you are interested in trying the new version of Banklt, please go here. Please send any comments, questions, or suggestions to gb-admin@ncbi.nlm.nih.gov and use 'New Banklt Testing'with your Banklt ID# in the subject line. Thank you. ► GenBank Direct Submission Options Use Banklt if: . you have one or a few sequence submissions . you prefer to use a WWW-based submission tool . your sequence annotation is not complicated . you do not require sequence analysis tools to submit your sequencer) Use Sequin if: . you are submitting long or complex submissions . you are submitting mutation, phylogenetic, population, environmental, or segmented sets • you would like graphical viewing and editing options, including the alignment editor . you would like network access to related analytical tools 01 Internet Bankit Help Getting Started Submission Info Reference Info Source Info Input DNA Additional Info Coding Regions RNA Features Other Features VecScreen Požadavky na každé zaslání sekvence kontaktní informace Submitting Authors File Edit Submission Contact Authors Affiliation First Name M.I. Charles R Darwin Last Name SfH Please include country code for non-U.S. phone numbers. □ 01 44171-007-1212 Fas darwin@beagle.edu.uk Submitting Authors File Edit Submission Contact Authors Affiliation «. Prev Page | Ne: Institution Department Address City State/Province Country Oxbridge University Evolutionary Biology Department 1859 Tennis Court Lane Carnford Zip/Postal Code 0X1 2BH United Kingdom << Prev Page | N ext Form > > Další požadavky na zaslání sekvence • Informace o datu zveřejnění • Informace o relevantních publikacích • Popis zdroje sekvence • Vlastní sekvence - minimálně 50 bp - typ a tvar molekuly - anotace vlastností sekvence Popis zdroje sekvence organism nezkrácené vědecké jméno Příklad: [organism=Drosophila melanogaster] lineage taxonomické zařazení organismu (dle NCBI taxonomy database) http://www.ncbi.nlm.nih.qov/Taxonomv/Browser/wwwtax.cqi?mode=Root molecule ve tvaru "DNA" nebo "RNA". Příklad : [molecule=DNA] moltype může nabývat následujících hodnot Příklad : [moltype=Genomic DNA] - Genomic DNA - Genomic RNA - Precursor RNA - mRNA [cDNA] - Ribosomal RNA - Transfer RNA - Small nuclear RNA - Small cytoplasmic RNA - Other-Genetic - cRNA - Small nucleolar RNA topology Popis zdroje sekvence 2 location může nabývat následujících hodnot Příklad: [location=mitochondrion] - genomic - chloroplast - kinetoplast - mitochondrion - plastid - macronuclear - extrachromosomal - plasmid - cyanelle - pro viral - virion - nucleomorph - apicoplast - leucoplast - proplastid - endogenous-virus - hydrogenosome Genetic code (http://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c) Popis zdroje sekvence 3 Další popisovače ke zdroji sekvence acronym • forma-specialis • serogroup anamorph • fwd-pcr-primer-name • serotype authority • fwd-pcr-primer-seq • serovar biotype • genotype • sex biovar • group • specific-host breed • haplotype • specimen-voucher cell-line • identified-by • strain cell-type • isolate • sub-species chemovar • isolation-source • subclone chromosome • lab-host • subgroup clone • lat-lon • substrain clone-lib • map • subtype collected-by • note • synonym common • pathovar • teleomorph country • plasmid-name • tissue-lib cultivar • plastid-name • tissue-type dev-stage • pop-variant • type ecotype • rev-pcr-primer-name • variety endogenous-virus-name • rev-pcr-primer-seq forma • segment Formát sekvence • Sekvence nukleové kyseliny a kódovaných proteinů připravené ve formátu FASTA Nucleotide Sequence: >ABC-1 [organism=Saccharomyces cerevisiae][strain=ABC][clone=l] ATTGCGTTATGGAAATTCGAAACTGCCAAATACTATGTCACCATCATTGA TGCACCTGGACACAGAGATTTCATCAAGAACATGATCACTGGTACTT Protein Sequences: >4E-I [gene=eIF4E] [protein=eukaryotic initiation factor 4E-I] MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGEPAGN ... >4E-II [gene=eIF4E] [protein=eukaryotic initiation factor 4E-II] MWLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGEPAGNTATTTAPAGDD ... Přsrušená sekvence >m_gagei [organism=Mansonia gagei] Mansonia gagei NADH dehydrogenase ... ATGGAGCATACATATCAATATTCATGGATCATACCGTTTGTGCCACTTCCAATTCCTATTTTAATAGGAA TTGGACTCCTACTTTTTCCGACGGCAACAAAAAATCTTCGTCGTATGTGGGCTCTTCCCAATATTTTATT GTTAAGTATAGTTATGATTTTTTCGGTCGATCTGTCCATTCAGCAAATAAATAAAAGTTCTATCTATCAA TATGTATGGTCTTGGACCATCAATAATGATTTTTCTTTCGAGTTTGGCTACTTTATTGATTCGCTTACCT >?2oo <- Délka přerušení GGTATAATAACAGTAT TATTAGGGGCTACT T TAGCT CT T GC TCAAAAAGATATTAAGAGGGGTTTAGCCTATTCTACAATGTCCCAACTGGGTTATATGATGTTAGCTCTA GGTATGGGGTCTTATCGAGCCGCTTTATTTCATTTGATTACTCATGCTTATTCGAAGGCATTGTTGTTTT TAGGATCCGGATCCGTTATTCATTCCATGGAAGCTATTGTTGGATATTCTCCAGATAAAAGCCAGAATAT GGTTTTTATGGGCGGTTTAAGAAAGCATGTGCCAATTACACAAATTGCTTTTTTAGTGGGTACACTTTCT CTTTGTGGTATTCCACCCCTTGCTTGTTTTTGGTCCAAAGATGAAATTCTTAGTGACAGCTGGTTGT >?unkioo <- Přerušení neznámé délky TCAATAAAACTATGGGGTAAAGAAGAACAAAAAATAATTAACAGAAATTTTCGTTTATCTCCTTTATTAA T AT T AACGAT GAAT AAT AAT GAGAAGCC AT AT AGAAT T GGT GAT AAT GT AAAAAAAGGGGCT CT T AT T AC TATTACGAGTTTTGGCTACAAGAAGGCTTTTTCTTATCCTCATGAATCGGATAATACTATGCTATTTCCT ATGCTTATATTGGCTCTATTTACTTTTTTTGTTGGAGCCATAGCAATTCCTTTTAATCAAGAAGGACTAC ATTTGGATATATTATCCAAATTATTAACTCCATCTATAAATCTTTTACATCAAAATTCAAATGATTTTGA GGATTGGTATCAATTTTTAACAAATGCAACTCTTTCAGTGAGTATAGCCTGTTTCGGAATATTTACAGCA TTCCTTTTATATAAGCCTTTTTATTCATCTTTACAAAATTTGAACTTACTAAATTTATTTTCGAAAGGGG GTCCTAAAAGAATTTTTTTGGATAAAATAATATACTTGATATACGATTGGTCATATAATCGTGGTTACAT Sekvenční přiložení • Fasta+GAP >ABC-1 [organism=Saccharomyces cerevisiae][strain=ABC][clone=l] ---ATTGCGTTATGGAAATTCGAAACTGCCAAATACTATGTCACCATCAT TGATGCACCTGGACACAGAGATTTCATCAAGAACATGATCACTGGTACTT >ABC-2 [organism=Saccharomyces cerevisiae][strain=ABC][clone=2] GATATTGCTTTATGGAAATTCGAAACTGCCAAATACTATGTCACCATCAT TGATGCACCTGGACACAGAAATTTCATCAAGAACATGATCACTGGTACTT >ABC-3 [organism=Saccharomyces cerevisiae][strain=ABC][clone=3] ---ATTGCTTTATGGAAATTCGAAACTGCCAAATACTATGTTA------- TGATGCACCTGGACACAGAGATTTCATCAAAAACATGATCACTGGTACTT • PHYLIP 3 100 ABC-1 —ATTGCGT TATGGAAATT CGAAACTGCC AAATACTATG TCACCATCAT ABC-2 GATATTGCTT TATGGAAATT CGAAACTGCC AAATACTATG TCACCATCAT ABC-3 —ATTGCTT TATGGAAATT CGAAACTGCC AAATACTATG TTA------- TGATGCACCT GGACACAGAG ATTTCATCAA GAACATGATC ACTGGTACTT TGATGCACCT GGACACAGAA ATTTCATCAA GAACATGATC ACTGGTACTT TGATGCACCT GGACACAGAG ATTTCATCAA AAACATGATC ACTGGTACTT >[organism=Saccharomyces cerevisiae][strain=ABC][clone=1] >[organism=Saccharomyces cerevisiae][strain=ABC][clone=2] >[organism=Saccharomyces cerevisiae][strain=ABC][clone=3] Sequin - příprava zaslání sekvence Welcome to Sequin Mise Sequin Sequin Application Version 6.00 Standard Release [Oct 27 2005] National Center for Biotechnology Information National Library of Medicine National Institutes of Health [301)496-2475 info@ncbi.nlrn.nih.gov for submission t* GenBank C EMBL C DDBJ Start New Submission Read Existing Record Show Help Quit Program Sequence Format File Submission type (• Single Sequence C Gapped Sequence C Segmented Sequence C Population Study C Phylogenese Study C Mutation Study C Environmental Samples C Batch Submission Sequence data format (• FAS TA (no alignment) Submission category C Alignment (FASTA+GAP, NEXUS, PHYLIP, etc.; (* Original Submission C Third Party Annotation « Prev Form Next Form >> File Edit Search Options Misc Annotate Target Sequence |elF4E Format Done GenBank Mode | Sequin T1 Style |Normal CDS: eukaryotic initiation factor 4E—II LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL FEATURES source gene CDS eIF4E 2881 bp DNA linear INV 27-OCT-2005 Drosophila rnelanogaster eukaryotic initiation factor 4E (eIF4E) gene, alternative splice products, complete cds . Drosophila rnelanogaster (fruit fly) Drosophila rnelanogaster Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Diptera; Brachycera; Huscornorpha; Ephydroidea; Drosophilidae; Drosophila. 1 (bases 1 to 2881) Burnett,F.M., van der Waals,J.D. and Szent-Gyorgi,A. Environmental influences on the expansion of gerrnline tandem repeats in several species of Galapagos finches Unpublished 2 (bases 1 to 2881) Burnett,F.H., van der Waals,J.D. and Szent-Gyorgi,A. Direct Submission Submitted (27-OCT-2005) Evolutionary Biology Department, Oxbridge University, 1859 Tennis Court Lane, Carnford 0X1 2BH, United Kingdom Location/Qualifiers 1..2881 /organism="Drosophila melanogaster" /mol_type="genomic DNA" /strain="Oregon R" jo in(201. .224, 1550. .192 0, 198 6. .2085,2317. /gene="eIF4E" jo in(201..224, 1550. .192 0, 1986. .2085,2317. /gene="eIF4E" /codon_start=l /product="eukaryotic initiation factor 4E-II" / trans lat ion= "HWLETEKTS APSTEQGRPEPPTS AAAP AE AKDVKPKEDPQETG EPAGNTATTTAPAGDDAVRTEHLYKHPLMNVWTL WYLENDRSKSWEDMQNEITSFDTV EDFWSLYNHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWITLNKSSKTDLDN LWLDVLLCLIGEAFDHSDQICGAVINIRGKSNKISIUTADGNNE EAALEIGHKLRDAL RLGRNNSLQYQLHKDTHVKQGSNVKSIYTL" . 2404,2466. .2 629) .2404,2466..2629) File Edit Search Options Mise Annotate Target Sequence |elF4E Format (1 Done Seouence EI File Edit Search Options Misc Annotate Target Sequence |elF4E 1 CDS: eukaryotic initiation factor 4E—II Feature display: Target Numbering: Top ^_ Grid: Off Tl 50 60 61 Done 10 20 30 40 I I I I cggttgcttg ggttttataa catcagtcag tgacaggcat ttccagagtt gccctgttca 70 80 90 100 110 120 I I I I I I acaatcgata getgectttg gccaccaaaa tcccaaactt aattaaagaa ttaaataatt 130 140 150 160 170 18G I I I I aacctacgc agcttgagtg cgtaaccgat atctagtata 210 220 230 240 I I I I tggtagtgt tggagacgga gaaggtaaga cgatgataga Format |Graphic ^ Style |Default Filter |Default Scale |10 eIF4E| I I i i i I i i i I I i i I i I i I i i I I i i i I i i i I 1 1000 2000 2881 Gene: eIF4E HVV LETE K 270 280 290 I I I 300 tttgcgctg agccgtggca gggaacaaca aaaacagggt CDS: ^eukaryotic i n i^ti^^^^ ^ff^^ E— 11 CDS: eukaryotic initiation, factor 4E-I 330 340 350 3 60 I I I I atagtcgag eggaaaagag tgcagttggc gtggctacat 390 400 410 420 I I I I ttttttgea caattgetta atattaattg tacttgeacg □ File Edit Coding Region Coding Region^ Properties ^ location ^ J Product Protein Exceptions Mise Genetic Code |Standard 3 Reading Frame | ~z\ pr°tem Length 248 Protein Product |4E-II Q File Edit Coding Region Jnjxj MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVM ATTTAPAGDDAVRTEHIYKHPLMHVWTIWYIEHDll T VEDFWSL YNHIKPPSEIKLGSDYSLFKKNI RPlll NKSSKTDLDNLWLDVLLCLIGEAFDHSDQICGAV I GNNEEAALEIGHKLRDALRLGRNNSLQYQLHKDTM I f Coding Region PropertiesLocation j | I* General ^ Comment ^ Citations ||* Cross-Rets ^[Evidence ^ Identifiers ^ Predict Interval Translate Product Edit \~ Retranslate on Accept (7 Synchroi Accept I Cancel Flags V Partial \~ Pseudo Evidence \ I- Exception Explanation Standard explanation \~ Gene |elF4E Map by (• Overlap C Cross-reference Edit Gene Feature ~3 Coding Region File Edit ^ Coding Region ^ Properties From |~ 5'Partial To I- 3'Partial Strand SeqID 201 224 Plus ZJ elF4E zl 1550 1820 Plus ZJ elF4E zl 1986 2085 Plus ZJ elF4E z] 2317 2404 Plus jJ|elF4E zl I- Retranslate on Accept \7 Synchroi Accept Cancel I- 'order' (intersperse intervals with gaps) I Retranslate on Accept \? Synchronize Partials Accept I Cancel | Anotace vlastní sekvence • Kódované proteiny -CDS interval nekompletnost na N- nebo C- konci - gene interval odpovídající CDS u experimentálně prokázaných genů - mRNA interval obsahující 5'-UTR a 3'-UTR • Kódované strukturní RNA Příklady sekvencí Sekvence mRNA nebo cDNA Kódující oblasti včetně iniciačního a terminačního kodonu Název proteinu Název genu Sekvence proteinu Horno sapiens prolidase (PEPD) mRNA, complete cds. FEATURES source mRNA gene CDS Location/Qualifiers 1..1888 /organism="Homo sapiens" /chromosome="19" /map="19ql2-ql3.2" /cell_type="fibroblasts" 1. .1888 /gene="PEPD" 1..1888 /gene="PEPD" 17..1498 /gene="PEPD" /EC_number="3.4.13.9" /note="imidodipeptidase" /product="prolidase" Sekvence prokaryotického genu Kódující intervaly Název proteinu Název genu, je-li známý Aminokyselinová sekvence Escherichia coli RecA protein (recA) gene, complete cds FEATURES Location/Qualifiers source gene CDS 1. .3300 /organism="Escherichia coli" /strain="K-12" 783..1961 /gene="recA" 783..1961 /gene="recA" /function="DNA repair protein" /product="RecA protein" Sekvence eukaryotického genu Intervaly kódujících oblastí včetně start- a stop-kodonů a intervaly všech intronů Název proteinu Název genu, je-li známý Aminokyselinová sekvence Caenorhabditis elegans tyrosine kinase PTK-2 (ptk-2) gene, complete cds. FEATURES source gene mRNA CDS Location/Qualifiers 1. .3180 /organism="Caenorhabditis elegans" 211..3011 /gene="ptk-2" join(211..288,533..703,763..890,940..1024, 1084..1380,1838..1962,2018..2099,2301..3011) /gene="ptk-2" /product="protein kinase PTK-2" join(250..288,533..703,763..890,940..1024, 1084..1380,1838..1962,2018..2099,2301..2456) /gene="ptk-2" /product="protein kinase PTK-2" Ribosomální RNA a vnitřní přepisované mezerníky • Názvy jakékoli strukturní RNA (např. tRNA-lle, 16S ribosomal RNA) Názvy mezerníkových oblastí (např., internal transcribed spacer 1, 16S/23S intergenic spacer) Nukleotidové pozice Saccharomyces cerevisiae 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence. FEATURES source rRNA mi sc RNA rRNA mise RNA rRNA Location/Qualifiers 1..540 /organism="Saccharomyces cerevisiae" /strain="UMD 334" <1. .5 /product="18S ribosomal RNA" 6. .178 /product="internal transcribed spacer 1 179..377 /product="5.8S ribosomal RNA" 378..519 /product="internal transcribed spacer 2" 520..>540 /product="28S ribosomal RNA" 47 Oblast promotoru Název proteinu nebo genu, ke kterému patří promotor a jeho 5' a 3' obklopující sekvence Intervaly přepisovaných a kódujících sekvencí, pokud jsou přítomné Homo sapiens enhancer-binding protein 2 (EBP2) gene, promoter region and partial cds. FEATURES Location/Qualifiers source gene promoter TATA_signal mRNA 5'UTR CDS 1..3061 /organism="Homo sapiens" /chromosome="15" /map="15ql3" /ce11_1ine="H441" /1 i s sue_type="lung" 1..>3061 /gene="EBP2" 1..2947 /gene="EBP2" 2918..2923 /gene="EBP2" 2948..>3061 /gene="EBP2" /product="enhancer-binding protein 2" 2948..3010 /gene="EBP2" 3011..>3061 /gene="EBP2" /product="enhancer-binding protein 2" Transpozon nebo inzerční sekvence Specifické jméno elementu Nukleotidoné pozice Jména a intervaly kódovaných genových produktů, pokud jsou přítomny (např., transposase) Pozice a intervaly dalších vlastností (např. LTRs, repeat regions) Bacillus subtilis transposon BLT transposase (tnpA) gene, complete cds FEATURES source source repeat_region gene CDS repeat_region Location/Qualifiers 1..1221 /organism="Bacillus subtilis" /strain="RS2" 21..1127 /organism="Bacillus subtilis" /strain="RS2" /transposon="BLT" 21..61 / rpt _t ype=in ve rt ed 128..1034 /gene="tnpA" 128..1034 /gene="tnpA" /product="transposase" 1085..1127 / rpt _t ype=in ve rt ed Oblasti repeticí Intervaly repetitivních sekvencí Rodina repeticí (napr., Alu, Mer) • Typ repetice (tandem, inverted, flanking, terminal, direct, dispersed, or other) Jednotka repetice (repeat unit) popis intervalů, jestliže sekvence obsahuje více než jednu repetici Homo sapiens repeat regions FEATURES source repeat_region repeat_region repeat_region repeat_region repeat_region Location/Qualifiers 1. .2050 /organism="Homo sapiens" /chromosome^"6" /map="6q25" 8. .126 /rpt_type=dispersed /rpt_family="B2" 197..344 /rpt_type="di rect" /rpt_unit="197..220" 389..673 /rpt_family="AluSx" /rpt_type=dispersed 847..876 /note="microsatellite BT21" /rpt_type="tandem" /rpt_unit="ca" 1000..2000 /rpt_family="human endogeneous retrovirus K-10 Klonovací vektor Jedinečné jméno vektoru Kódující intervaly, jména genů a proteinů Cloning vector pRB223, complete sequence FEATURES source gene CDS RBS rep_origin gene CDS misc feature RBS promoter Location/Qualifiers 1..4361 /organism="Cloning vector pRB223" 86..1276 /gene="tet" 86..1276 /gene="tet" /product="tetracycline resistance protein" 1905..1909 /note="Shine-Dalgarno sequence" 2535 complement(3293..4194) /gene="bla" complement(3293..4153) /gene="bla" /product="beta-lactamase" 4069..4125 /note="multiple cloning site" complement(4161..4165) /gene="bla" /note="Shine-Dalgarno sequence" complement(4188..4194) /gene="bla" Bacteriophage lysis module; endolysin and HNH endonuclease genes, complete CDS FEATURES Location/Qualifiers source 1..3165 /organism="Staphylococcus bacteriophage 812" /virion /mol_type="genomic DNA" /strain="phi812" /lab_host="Staphylococcus aureus CCM 4028" /type="wild type" gene 654..3017 /gene="lyt812" CDS join(654..1449,2329..3017) /gene="lyt812" /experiment="peptide sequencing" /note="Lyt812" /codon_start=l /transl_table=ll /product="endolysin" /translation="MAKTQAEI_______________ " misc_feature join(1239..1449,2329..2576) /gene="lyt812" /note="SM00644; Ami_2; This family includes zinc amidases that have N-acetylmuramoyl-L-alanine amidase activity; Region: Ami_2" intron 1450..2328 /gene="lyt812" /standard_name="lyt812-Il" /experiment="cDNA synthesis and sequencing" CDS 1617..2117 /gene="lyt812" /note="ORFI-812HI" /codon_start=l /transl_table=ll /product="putative HNH endonuclease Příklady některých dalších modifikací deskriptorů Title - Informace vyskytující se v databázi v DEFINITION LINE Comment - Poznámka k různým vlastnostem Technique - Umožňuje výběr techniky použité pro vytvoření nebo experimentální evidenci vlastností sekvence Přehled deskriptorů pro popis vlastností sekvence (http://www.ncbi. nim. nih. qov/Banklt/helo. html) attenuator • misc_RNA • S_region C-region • misc_signal • satellite CAAT signal • misc_structure • scRNA CDS • modified base • sig_peptide conflict • mRNA • snRNA D-loop • N_region • snoRNA D-segment • old_sequence • source enhancer • operon • stem loop exon • oriT • STS gap • polyA_signal • TATA_signal GC_signal • polyA_site • terminator gene • precursor_RNA • transit_peptide iDNA • prim_transcript • tRNA intron • primer_bind • unsure J_segment • promoter • V_region LTR • protein_bind • V_segment mat_peptide • RBS • variation misc_binding • repeat_region • 3'clip misc_difference • repeat_unit • 3'UTR misc_feature • rep_origin • 5'clip misc_recomb • rRNA • 5'UTR