Zaslání sekvence DNA do primární databáze GenBank/EMBL/DDBJ Nejdůležitější databáze sekvencí nukleových kyselin a proteinů • V každém ze tří hlavních bioinformatických center je spravována genomová databáze sekvencí nukleových kyselin a odpovídajících, z nich přeložených proteinů. - EMBL Nucleotide Sequence Database (v rámci institutu EBI)- 1980 - GenBank (v rámci institutu NCBI) - 1982 - DDBJ (The DNA Data Bank of Japan) -1984 • Tři samostatné báze vznikly v důsledku potřeby rychlé dostupnosti databáze sekvencí na jednotlivých kontinentech v době, kdy ještě nebyly rozvinuté vysokorychlostní komunikační sítě. Mezinárodní spolupráce sekvenčních databází Databáze sdílejí stejná data NIH NCBI ENTREZ GenBank NIG CIB Get Entry DDBJ Identifikace záznamu v primárních sekvenčních databázích • GenBank • EMBL-Bank (European Nucleotide Archive, ENA) • DDBJ • Přístupový kód (Accession Number) • číslo Gl (GenBank Identifier) LOCUS AY870395 553 bp DNA linear BCT 30-JAN-2005 DEFINITION Macrococcus brunensis strain CCM 4811 60 kDa chaperonin (cpn60) gene, partial cds. ACCESSION AY870395 4 VERSION AY870395.1 GI:58119461 4 LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL REMARK COMMENT FEATURES source AY182241 1931 bp mRNA linear PLN 04-MAY-2004 Malus x domestica (E,E)-alpha-farnesene synthase (AFS1) mRNA, complete cds. AY182241 AY182241.2 GI:32265057 Malus x domestica (cultivated apple) Malus x domestica Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; rosids; eurosids I; Rosales; Rosaceae; Maloideae; Malus. 1 (bases 1 to 1931) Pechous,S.W. and Whitaker,B.D. Cloning and functional expression of an (E,E)-alpha-farnesene synthase cDNA from peel tissue of apple fruit Planta 219, 84-94 (2004) 2 (bases 1 to 1931) Pechous,S.W. and Whitaker,B.D. Direct Submission Submitted (18-NOV-2002) PSI-Produce Quality and Safety Lab, USDA-ARS, 10300 Baltimore Ave. Bldg. 002, Rm. 205, Beltsville, MD 20705, USA 3 (bases 1 to 1931) Pechous,S.W. and Whitaker,B.D. Direct Submission Submitted (25-JUN-2003) PSI-Produce Quality and Safety Lab, USDA-ARS, 10300 Baltimore Ave. Bldg. 002, Rm. 205, Beltsville, MD 20705, USA Sequence update by submitter On Jun 26, 2003 this sequence version replaced gi:27804758. Location/Qualifiers 1..1931 /organism="Malus x domestica" / mo l_type= "mRNA " /cultivar="'Law Rome'" /db_xref="taxon:3750" /tissue_type="peel" 1..1931 /gene="AFSl" 54..1784 /gene="AFSl" /note="terpene synthase" /codon_start=l /product="(E,E)-alpha-farnesene synthase" /protein_id="AA022848.2" /db_xref="GI:32265058" /translation "MEFRVHLQADNEQKIFQNQMKPEPEASYLINQRRSANYKPNIWK NDFLDQSLISKYDGDEYRKLSEKLIEEVKIYISAETMDLVAKLELIDSVRKLGLANLF EKEIKEALDSIAAIESDNLGTRDDLYGTALHFKILRQHGYKVSQDIFGRFMDEKGTLE DFLHKNEDLLYNISLIVRLNNDLGTSAAEQERGDSPSSIVCYMREVNASEETARKNIK GMIDNAWKKVNGKCFTTNQVPFLSSFMNNATNMARVAHSLYKDGDGFGDQEKGPRTHI LSLLFQPLVN" 1 ttcttgtatc ccaaacatct cgagcttctt gtacaccaaa ttaggtattc actatggaat 61 tcagagttca cttgcaagct gataatgagc agaaaatttt tcaaaaccag atgaaacccg 121 aacctgaagc ctcttacttg attaatcaaa gacggtctgc aaattacaag ccaaatattt 181 ggaagaacga tttcctagat caatctctta tcagcaaata cgatggagat gagtatcgga 241 agctgtctga gaagttaata gaagaagtta agatttatat atctgctgaa acaatggatt gene -\ Tradiční záznam GenBank Header J y Feature Table Sequence Jak se data dostanou do databází? • Předání dat prostřednictvím WWW - Banklt (GenBank) • http://www.ncbi.nlm.nih.qov/WebSub/?tool=qenbank - Webln (EMBL/European Nucleotide Archive) • http://www.ebi.ac.uk/ena/submit - Sakura (DDBJ) • http://www.ddbi.nig.ac.jp/sub/websub-e.html • Samostatná aplikace pro PC - Sequin • http://www.ncbi.nlm.nih.gov/Sequin/download/seq download.html - pro delší sekvence (genomy) - fylogenetické, populační nebo mutační studie obsahující sekvenční přiložení • TPA (Third Party Annotation) anotace třetí stranou - záznamy, které upřesňují existující sekvence uložené do databází jinými autory - striktní požadavek na přímý experimentální důkaz navrhované anotace The GenBank Submissions Handbook • http://www.ncbi.nlm.nih.gov/books/NBK51157/ GenBank Submission* Handbook NCB1 Help Manual e hJnliand C«rtfÉf íŕoaiihrMiJpgjí InFttfflulfM U.S. Na Submit and update Submitting and updating data We offer a number of services through which data (including updates) can be submitted to the European Nucleotide Archive (ENA). These technologies provide options appropriate for the scale and frequency of submission, the expertise and capacity of the submitter and the nature of the data to be transferred. The choices below lead users most directly to the appropriate submission route, Submit & Submit read data assembled sequence and/or annotation (No partial or complete assemblies) I Submit genome assemblies (contigs/scaffolds/chrornosornes) Email ENA helpdesk Typy sestavených anotovaných sekvencí deponovaných v databázích • m RNA sekvence • prokaryotické geny a genomy • eukaryotické geny a genomy • rRNA a nebo ITS • virové sekvence • transpozony a inzerční sekvence • mikrosatelity • pseudogeny • klonovací vektroy • fylogenetické nebo populační studie (alignmenty) • nekódující RNA Sekvence, které nejsou akceptovány v primárních databázích sekvence <200 bp (vyjma patentových) genomové sekvence více exonů bez údajů o sekvencích intronů sekvence primerů (mohou být zaslány do NCBľs Probe database) Douze sekvence proteinů (mohou být zaslány do J n i P rot/S wi ss P rot) sekvence složené z genomové sekvence a mRNA reprezentované jako jedna sekvence sekvence bez fyzického (biologického) protějšku - např. konsenzní sekvence High-Throughput Genomic Sequences (HTGS) • HTGS je divize nukleotidové databáze vytvořená pro uložení nekompletních genomových sekvencí stanovených ve velkých genomových centrech • Cílem je zajistit dostupnost sekvencí pro vědeckou veřejnost, zejména prostřednictvím analýzy homologie s BLAST • Nedokončené sekvence HTG jsou delší než 2 kb a splňují požadavky na kvalitu stanovení • Jsou získané z jednotlivých klonů (kosmidy, BAC, YAC nebo P1) • Kolekce klonů má přiřazený přístupový kód • Může obsahovat chyby Whole Genome Shotgun (WGS) WGS sekvenační projekty jsou celé genomy nebo chromozomy sekvenované strategií celogenomového shotgun sekvenování DDBJ/EMBL/GenBank akceptují jak kompletní, tak nekompletní genomy WGS projekty mohou být anotovány, ale anotace není vyžadována Části WGS projektu jsou kontigy (překrývající se sekvence), které nesmí obsahovat mezery Soubor AGP ukazuje, jak jsou kontigy oddělené mezerami uspořádány na chromozomu Nezpracovaná data z genomových projektů • Trace Archive - sekvence získaní Sangerovou technikou sekvenování TOP_DIRECTORY/ TOP_DIRECTORY/T RACEINFO.txt TOP_DIRECTORY/MD5 TOP_DIRECTORY/README TOP_DIRECTORY/traces TOP_DIRECTORY/traces/HBBA/ TO P_D IR ECTO R Y/tra ces/H B BA/H B BAA 1U0001 .scf TOP_DIRECTORY/traces/HBBA/HBBAA1U0002.scf TOP_DIRECTORY/traces/HBBA/HBBAA1U0003.scf • Sequence Read Archive (SRA) - archiv obsahující alignment sekvencí získaných při 454, lonTorrent, lllumina, SOUD, Helicos, PacBio nebo Complete Genomics Metagenomy • Metagenomika je genomová analýza společenstev mikroorganismů nezávislá na kultivaci • Nejrozmanitější skupinou organismů na planetě jsou nekultivovatelné organismy • Sekvenační metody nezávislé na kultivaci jsou důležité pro pochopení - genetické diversity - struktury populací - ekologické úlohy - metabolických funkcí - stanovení kompletních genomů nekultivovatelných organismů - izolaci nových mikroorganismů z prostředí • Metagenomové projekty se skládají z neanotovaných sekvencí - shromážděné z určitých ekologických zdrojů nebo organismů - sestavené do kontigů - často obsahují částečné genomy z taxonomicky různých skupin - mohou obsanovat převahu informačních sekvencí jako je 16S rRNA • Sekvence jsou vzájemně propojené v rámci BioProject ID Formát dat a minimální požadavky pro SRA • Doporučený formát dat je BAM (aligned) • Další akceptovatelné formáty dat jsou - SRF - General Fastq - SOUD Fastq - Illumina Fastq - 454 SFF - Ion Torrent SFF - PacBioHDF5 - CompleteGenomics Data Package • Minimální požadavek je: primární sekvence (báze) a kvalita = FASTQ BAM formát • Kompletní data z jednotlivých čtení • Bez priložení / s přiložením • Informace o kvalitě • Mapování k referenční sekvenci • Konsenzní sekvence • Variace • Definice např. zde: • http://qenome.sph.umich.edu/wiki/SAM#What is SAM FASTQ formát • Řádek 1 začíná hlavičkou '@'ID + popis sekvence • Řádek 2 obsahuje primární sekvenci • Řádek 3 začíná '+' a může následovat stejné ID a popis • Řádek 4 obsahuje zakódované hodnoty o kvalitě sekvence a musí obsahovat stejný počet znaků jako řádek 2 • Příklad FASTQ souboru: • @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAA + •''*((( (***+) ) %%%++) (%%%%) . 1***-+* ' ' ) ) **55CCF»»A • Kódování kvality, !=nejnižší kvalita, ~= nejvyšší kvalita: !"#$%&' ()* + ,- ./ 0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]abcdefghijklmnopqrstuvwxyz{ | }~ Metadata v SRA Datové soubory jsou zasílány s metadaty - Studie - Experiment - Vzorek - Běh - Analýza - eticky citlivá data (EGA) ŽI.H Fítm DlU.il % NCBI Banklt Submission Requirements GenBank Submissions Handbook Annotation Examples HEW: If you are only submitting 16S rRHA sequences from a prokaryotic source, please try the submission tool: https://submit.ncbi nlm nih.gov/subs/genbank If you have any questions about using the Banklt sequence submission tool, please contact GenBank User services at: info@ncbi nlm.nih.gov and use 'Banklf and your Ban kit ID# in the subject line. Be aware of Bankrt's newfeatures and submitting options: 1. Once a submitter registers to use Banklt, the submitter's contact information is saved and is automatically displayed each subsequent time the submitter logs in to submit 2. Banklt can be used to submit both a single sequence and a set of sequences in one submission 3. Banklt accepts source qualifier and sequence feature data both as text input and as uploaded files 4. Banklt allows a submitter to stop in the middle of a submission and to continue with that submission at a later time 5. Banklt allows submitters to use the tabs at the top of the submission input pages to navigate and to edit previously visited pages. mRHAsequence GenBank Submission Options Prokaryotic gene Eukaryotic gene rRHA and/or ITS Promoter region Viral sequence HIV-1 Influenza viruses Transposon or insertion sequence Microsatellite sequence Repeat regions Pseudogene Translocation and/or fusion protein Cloning vector Gapped Sequence Phylogenetic or population set EST submissions GSS submissions STS submissions Use Banklt if: < you have a single sequence, a simple set of sequences (for example:16S rRHA, matK, iTS/rRHA, amoE, tefB. cytb, or COI sets), or a small batch of different sequences ■ you prefer to use a web-based submission tool - the feature annotation for your sequences is not complicated + you do not require advanced sequence analysis tools Use Sequin if: - you prefer to work on your submission off-line - you have a sequence or sequences that are complex ■ you would like graphical viewing and editing options, including an alignment editor - you would iike the option to have network access to related analytical tools How does Banklt work with MyNCBI login system? I MyHCBI allows you to create an account that will act as your gateway to NCBI's databases and submission tools, such as the Banklt Submission Tool. MyHCBI associates your Banklt submissions with your login name and remembers your contact information to expedite future Banklt submissions. The Banklt tool also associates your most recent incomplete submission with your MyHCBI login name; if you're interrupted while submitting a Banklt submission, you can return to the tool to complete the submission later. To register through MyHCBI, follow the 'Sign in to use Banklf link at the top of the Banklt homepage and click the 'Register for an account1 link on the left side of the resulting MyHCBI Sign In page. To Sign in, enter your Username and Password on that same page after you have completed the registration process. HOTE: Previous Banklt users who have exisiting HCBI PDA login accounts should use the same PDA username and password to sign In orderto ensure that the user currently using the Banklt submission tool is the person submitting the Banklt submission, you will be prompted foryour MyNCBI user name and password before you begin a Banklt submission. l to MyHCBI now. GenBank Sequence Submission Policy 1. the GenBank database is intended for new sequence data that is determined by and annotated by the submitter 2. sequences built or derived from other GenBank primary data intended for the Third Parti/ Annotation (TPA) database may be submitted through Banklt 3. the following types of submissions are HOT acceptable: * sequences less than 200 nucleotides long, unless they represent complete exons, non-coding RHAs (ncRNAs), microsateMites or ancient DHA * non-contiguous sequences that have been artificially joined; for example, multiple exons without their intervening introns or without a 'gap' of internal NHHs representing any missing sequence + primer-only sequences e protein-only sequences + single sequences that are a mix of molecule types, such as mix of genomic and mRNA sequence data sequences without a physical counterpart (consensus sequences) Expressed Sequence Tags(ESTs; these should be submitted through the dbEST system) * Genome Survey Sequences(GSSs; these should be submitted through the dbGSS system) * Sequence Tagged Sites(STSs; these should be submitted through the dbSTS system) Sequence Read Archive data (SRA1] What is needed to submit a sequence through Banklt? (See Submission Requirements page for more detail) registration through the MyHCBI Login System (register on Sign in page through link above) sequence data can be either cut-and-pasted as text or uploaded as file (multiple sequences must be in a FAST A format) date for public release (immediate or at a specified future date) basic information (authors and a working title)for a corresponding reference paper name(s) of the organism(s) from which the sequence data were isolated and any other related descriptive data sequence features (for example: CDS, gene, rRNA, tRNA, with nucleotide intervals and product names) Banklt Etanklt - Windows Internet Explorer Nástroje NCBI Hans Searcíi Ste Ma New Banklt Logged in as Raman Pantu cek [roman, pantu cek) Lot? crut Submissions New Submission Complete Submissions ID Date Submitted Record 1391012 15 Sep 2010 10:35:52 Download File r.zipl Contact | Copyright | Disclaimer | Privacy | Accessibility National Center for Biotechnology Information , U5 National Library of Medicine EfiflO Rodcville Pilse . Bethesda. MD LfSA 2BS94 S Ü Q- f^-B<» http://www.nebi.nim.nih.gov/WebSub/index.cgi?tool= fyŕ Internet Sequin - příprava zaslání sekvence Welcome to Sequin Mise Sequin Sequin Application Version 6.0 0 Standard Release [Oct 27 2005] National Center for Biotechnology Information National Library of Medicine National Institutes of Health (301)496-2475 info@ncbi.nlm. nih.gov Database for submission (* GenBank C EMBL C DDBJ Start New Submission Read Existing Record Show Help Quit Program Sequence Format File Submission type (* Single Sequence C Gapped Sequence C Segmented Sequence C Population Study C Phylogenese Study C~ Mutation Study C Environmental Samples C~ Batch Submission Sequence data format (* FASTA (no alignment) Submission category r Alignment (FASTA+GAP, NEXUS, PHYLIP, etc.; (* Original Submission ( Third Party Annotation « Prev Form Next Form >> Požadavky na každé zaslání sekvence kontaktní informace Submitting Authors File Edit Submission Contact Authors Af f iliation First Name M.I. Charles R Darwin Last Name SfK -3 Please include country code for non-U.S. phone numbers. □ 01 44 171-007-1212 Fas dar win@beagle. edu.uk Submitting Authors File Edit Submission Contact Authors Affiliation « Prev Page | Ne: Institution Department Address City State/Province Country Oxbridge University Evolutionary Biology Department 1859 Tennis Court Lane Carinford Zip/Postal Code GX1 2BH United Kingdom « Prev Page | Next Form » Další požadavky na zaslání sekvence • Informace o datu zveřejnění • Informace o relevantních publikacích • Popis zdroje sekvence • Vlastní sekvence -typ a tvar molekuly - anotace vlastností sekvence Popis zdroje sekvence 1 organism nezkrácené vědecké jméno Příklad: [organism=Drosophila melanogaster] lineage taxonomické zařazení organismu (dle NCBI taxonomy database) http://www.ncbi.nlm.nih.qov/Taxonomy/Browser/wwwtaxxqi7m molecule ve tvaru "DNA" nebo "RNA". Příklad : [molecule=DNA] moltype může nabývat následujících hodnot Příklad : [moltype=Genomic DNA] - Genomic DNA - Genomic RNA - Precursor RNA - mRNA [cDNA] - Ribosomal RNA - Transfer RNA - Small nuclear RNA - Small cytoplasmic RNA - Other-Genetic - cRNA - Small nucleolar RNA • topology Popis zdroje sekvence 2 location může nabývat následujících hodnot Příklad: [location=mitochondrion] - genomic - chloroplast - kinetoplast - mitochondrion - plastid - macronuclear - extrachromosomal - plasmid - cyanelle - proviral - virion - nucleomorph - apicoplast - leucoplast - proplastid - endogenous-virus - hydrogenosome Genetic code (http://www.ncbi.nlm.nih.gov/Taxonomy/Uti ls/wprintgc.cqi?mode=c) Popis zdroje sekvence 3 Další popisovače ke zdroji sekvence acronym • forma-specialis • serogroup anamorph • fwd-pcr-primer-name • serotype authority • fwd-pcr-primer-seq • serovar biotype • genotype • sex biovar • group • specific-host breed • haplotype • specimen-voucher cell-line • identified-by • strain cell-type • isolate • sub-species chemovar • isolation-source • subclone chromosome • lab-host • subgroup clone • lat-lon • substrain clone-lib • map • subtype collected-by • note • synonym common • pathovar • teleomorph country • plasmid-name • tissue-lib cultivar • plastid-name • tissue-type dev-stage • pop-variant • type ecotype • rev-pcr-primer-name • variety endogenous-virus-name • rev-pcr-primer-seq forma • segment Formát sekvence • Sekvence nukleové kyseliny a kódovaných proteinů připravené ve formátu FASTA Nucleotide Sequence: >ABC-1 [organism=Saccharomyces cerevisiae][strain=ABC][clone=l] ATTGCGTTATGGAAATTCGAAACTGCCAAATACTATGTCACCATCATTGA TGCACCTGGACACAGAGATTTCATCAAGAACATGATCACTGGTACTT Protein Sequences: >4E-I [gene=eIF4E] [protein=eukaryotic initiation factor 4E-I] MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGEPAGN ... >4E-II [gene=eIF4E] [protein=eukaryotic initiation factor 4E-II] MWLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGEPAGNTATTTAPAGDD . . . Přsrušená sekvence >m_gagei [organism=Mansonia gagei] Mansonia gagei NADH dehydrogenase ... ATGGAGCATACATATCAATATTCATGGATCATACCGTTTGTGCCACTTCCAATTCCTATTTTAATAGGAA TTGGACTCCTACTTTTTCCGACGGCAACAAAAAATCTTCGTCGTATGTGGGCTCTTCCCAATATTTTATT GTTAAGTATAGTTATGATTTTTTCGGTCGATCTGTCCATTCAGCAAATAAATAAAAGTTCTATCTATCAA TATGTATGGTCTTGGACCATCAATAATGATTTTTCTTTCGAGTTTGGCTACTTTATTGATTCGCTTACCT >?2oo a- Délka přerušení GGTATAATAACAGTATTATTAGGGGCTACTTTAGCTCTTGC TCAAAAAGATATTAAGAGGGGTTTAGCCTATTCTACAATGTCCCAACTGGGTTATATGATGTTAGCTCTA GGTATGGGGTCTTATCGAGCCGCTTTATTTCATTTGATTACTCATGCTTATTCGAAGGCATTGTTGTTTT TAGGATCCGGATCCGTTATTCATTCCATGGAAGCTATTGTTGGATATTCTCCAGATAAAAGCCAGAATAT GGTTTTTATGGGCGGTTTAAGAAAGCATGTGCCAATTACACAAATTGCTTTTTTAGTGGGTACACTTTCT CTTTGTGGTATTCCACCCCTTGCTTGTTTTTGGTCCAAAGATGAAATTCTTAGTGACAGCTGGTTGT >?unkioo a- Přerušení neznámé délky TCAATAAAACTATGGGGTAAAGAAGAACAAAAAATAATTAACAGAAATTTTCGTTTATCTCCTTTATTAA T AT T AACGAT GAAT AAT AAT GAGAAGCC AT AT AGAAT T GGT GAT AAT GT AAAAAAAGGGGCT CT T AT T AC TATTACGAGTTTTGGCTACAAGAAGGCTTTTTCTTATCCTCATGAATCGGATAATACTATGCTATTTCCT ATGCTTATATTGGCTCTATTTACTTTTTTTGTTGGAGCCATAGCAATTCCTTTTAATCAAGAAGGACTAC ATTTGGATATATTATCCAAATTATTAACTCCATCTATAAATCTTTTACATCAAAATTCAAATGATTTTGA GGATTGGTATCAATTTTTAACAAATGCAACTCTTTCAGTGAGTATAGCCTGTTTCGGAATATTTACAGCA TTCCTTTTATATAAGCCTTTTTATTCATCTTTACAAAATTTGAACTTACTAAATTTATTTTCGAAAGGGG GTCCTAAAAGAATTTTTTTGGATAAAATAATATACTTGATATACGATTGGTCATATAATCGTGGTTACAT Sekvenční přiložení • Fasta+GAP >ABC-1 [organism=Saccharomyces cerevisiae][strain=ABC][clone=l] ---ATTGCGTTATGGAAATTCGAAACTGCCAAATACTATGTCACCATCAT TGATGCACCTGGACACAGAGATTTCATCAAGAACATGATCACTGGTACTT >ABC-2 [organism=Saccharomyces cerevisiae][strain=ABC][clone=2] GATATTGCTTTATGGAAATTCGAAACTGCCAAATACTATGTCACCATCAT TGATGCACCTGGACACAGAAATTTCATCAAGAACATGATCACTGGTACTT >ABC-3 [organism=Saccharomyces cerevisiae][strain=ABC][clone=3] ---ATTGCTTTATGGAAATTCGAAACTGCCAAATACTATGTTA------- TGATGCACCTGGACACAGAGATTTCATCAAAAACATGATCACTGGTACTT • PHYLIP 3 100 ABC-1 —ATTGCGT TATGGAAATT CGAAACTGCC AAATACTATG TCACCATCAT ABC-2 GATATTGCTT TATGGAAATT CGAAACTGCC AAATACTATG TCACCATCAT ABC-3 —ATTGCTT TATGGAAATT CGAAACTGCC AAATACTATG TTA------- TGATGCACCT GGACACAGAG ATTTCATCAA GAACATGATC ACTGGTACTT TGATGCACCT GGACACAGAA ATTTCATCAA GAACATGATC ACTGGTACTT TGATGCACCT GGACACAGAG ATTTCATCAA AAACATGATC ACTGGTACTT >[organism=Saccharomyces cerevisiae][strain=ABC][clone=1] >[organism=Saccharomyces cerevisiae][strain=ABC][clone=2] >[organism=Saccharomyces cerevisiae][strain=ABC][clone=3] File Edit Search Options Mise Annotate Done Target Sequence |elF4E Format | GenBank Mode | Sequin Style | Normal CDS: eukaryotic initiation factor 4E-II cl LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL FEATURES source gene CDS eIF4E 2881 bp DNA linear INV 27-OCT-2005 Drosophila melanogaster eukaryotic initiation factor 4E (eIF4E) gene, alternative splice products, complete cds. Drosophila melanogaster (fruit fly) Drosophila rnelanogaster Eukaryota; Hetazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha; Ephydroidea; Drosophilidae; Drosophila. 1 (bases 1 to 2881) Burnett,F.H., van der Uaals,J.D. and Szent-Gyorgi,A. Environmental influences on the expansion of germline tandem repeats in several species of Galapagos finches Unpublished 2 (bases 1 to 2881) Burnett,F.H., van der Uaals,J.D. and Szent-Gyorgi,A. Direct Submission Submitted (27-OCT-2ÜÜ5) Evolutionary Biology Department, Oxbridge University, 1859 Tennis Court Lane, Camford 0X1 2BH, United Kingdom Locat ion/ Cjual if iers 1. .2881 /organism= "Drosophila rnelanogaster" /mol_type="genomic DNA" /strain="Oregon R" jo in(201. .224, 1550. .1920, 1986. .2085,2317. /gene="eIF4E" jo in(201..224, 1550. .192 0, 198 6..2085,2317. /gene="eIF4E" /codon_start=1 /product="eukaryotic initiation factor 4E-II" /trans lat ion= "HWLETEKTS APSTEQGRPEPPTS AAAP AE AKDVKPKEDPQETG EPAGNTATTTAPAGDDAVRTEHLTKHPL MNVWTL WYL END RS KS WE D MQNEITS F D TV EDFUSLYNHIKPPSEIKLGSDTSLFKKNIRPHWEDAANKQGGRWITLNKSSKTDLDN LWLDVLLCLIGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAALEIGHKLRDAL RLGRNNSLQYQLHKDTHVKQGSNVKSIYTL" .2404,2466..2629) .2404,2466..2629) File Edit Search Options Mise Annotate Target Sequence |elF4E ~3 Done Format ;.........................K Tl CDS: eukaryotic initiation factor 4E-II Feature display: Target Numbering : Top ~ZJ Grid: Off ' 61 File Edit Search Options Mise Annotate Target Sequence |elF4E 3 Done 10 20 30 40 50 60 I I I I I I cggttgcttg cjcjttt.tat.aa catcagtcag tgacaggcat ttccagagtt cjccctgttca 70 80 90 100 110 120 I I I I I I acaatcgata getgectttg gccaccaaaa tcccaaactt aattaaagaa ttaaataatt 130 140 150 160 170 180 I I I I aacctacgc agcttgagtg cgtaaccgat atctagtata 210 220 230 240 I I I I tggtagtgt tggagacgga gaaggtaaga cgatgataga Format |Graphic ^\ Style |Default jj Filter |Default jj Scale |10 eIF4E| I i i i i I i i i i I i i i i I i i i i I i i i 1 1000 2000 Gene: eIF4E I I I I 2331 HVV LETE K 270 280 I I I 290 300 tttgcgctg agccgtggca gggaacaaca aaaacagggt CDS: ^eukaryotic inj^ti.a^^Gj| ^actgr^^E-II CDS: eukaryotic initiation, factor 4E-I 330 340 350 3 60 I I I I atagtcgag eggaaaagag tgcagttggc gtggctacat 390 400 410 420 I I I I ttttttgea caattgetta atattaattg tacttgeacg File Edit Coding Region Coding Region ^ Properties ^ Location ^ Product Protein Exceptions Mise Genetic Code Reading Frame Standard ^ Protein Length 248 Protein Product |4E-II Q File Edit Coding Region Jnjxj MWLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVJl ATTTAPAGDDAVRTEHLYKHPLMNViTLiYLENDll TVEDFUSLYNHIKPPSEIKLGSDYSLFKKNIRPMll NKSSKTDLDNLULD VLLCLIGE AFDHSDQI CG A V" I GNNEEAALEIGHKLRDALRLGRNNSLQYQLHKDTll Predict Interval Translate Product Edit I- Retranslate on Accept |7 Synchroi Accept Cancel f Coding Region ^Properties^ Location j I* General ^ Comment ^ Citations Cross-Fiefs ^[Evidence Identifiers ^ Flags I- Partial \~ Pseudo Evidence \ I- Exception Explanation Standard eKplanation |"~ Gene | elF4E Map by (T Overlap C Cross-reference Edit Gene Feature ~3 Coding Region File Edit ^ Coding Region ^ Properties^Location I- 5' Partial |~ 3'Partial From To Strand SeqID 201 224 Plus jj elF4E J_ 1550 1320 Plus 2J elF4E_^ 1986 2085 Plus 2J elF4E_^J 2317 2404 Plus _^J|elF4E I- Retranslate on Accept \7 Synchroi Accept Cancel | 'order' (intersperse intervals with gaps) | Retranslate on Accept Synchronize Partials Accept | Cancel | Anotace vlastní sekvence • Kódované proteiny -CDS interval nekompletnost na N- nebo C- konci - gene interval odpovídající CDS u experimentálně prokázaných genů - mRNA interval obsahující 5'-UTR a 3'-UTR • Kódované strukturní RNA Příklady sekvencí Sekvence mRNA nebo cDNA Kódující oblasti včetně iniciačního a terminačního kodonu Název proteinu Název genu Sekvence proteinu Horno sapiens prolidase (PEPD) mRNA, complete cds. FEATURES source mRNA gene CDS Location/Qualifiers 1..1888 /organism="Homo sapiens' /chromosome="19" /map="19ql2-ql3.2" /cell_type="fibroblasts' 1. .1888 /gene="PEPD" 1..1888 /gene="PEPD" 17..1498 /gene="PEPD" /EC_number="3.4.13.9" /note="imidodipeptidase' /product="prolidase" Sekvence prokaryotického genu Kódující intervaly Název proteinu Název genu, je-li známý Aminokyselinová sekvence Escherichia coli RecA protein (recA) gene, complete cds FEATURES Location/Qualifiers source gene CDS 1. .3300 /organism="Escherichia coli" /strain="K-12" 783..1961 /gene="recA" 783..1961 /gene="recA" /function="DNA repair protein" /product="RecA protein" Sekvence eukaryotického genu Intervaly kódujících oblastí včetně start- a stop-kodonů a intervaly všech intronů Název proteinu Název genu, je-li známý Aminokyselinová sekvence Caenorhabditis elegans tyrosine kinase PTK-2 (ptk-2) gene, complete cds. FEATURES source gene mRNA CDS Location/Qualifiers 1. .3180 /organism="Caenorhabditis elegans" 211. .3011 /gene="ptk-2" join(211..288,533..703,763..890, 940..1024, 1084..1380,1838..1962,2018..2099,2301..3011) /gene="ptk-2" /product="protein kinase PTK-2" join(250..288,533..703,763..890, 940..1024, 1084..1380,1838..1962,2018..2099,2301..2456) /gene="ptk-2" /product="protein kinase PTK-2" Ribosomální RNA a vnitřní přepisované mezerníky • Názvy jakékoli strukturní RNA (např. tRNA-lle, 16S ribosomal RNA) Názvy mezerníkových oblastí (např., internal transcribed spacer 1, 16S/23S intergenic spacer) Nukleotidové pozice Saccharomyces cerevisiae 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence. FEATURES source rRNA mi sc RNA rRNA mi s c RNA rRNA Location/Qualifiers 1..540 /organism="Saccharomyces cerevisiae" /strain="UMD 334" <1. .5 /product="18S ribosomal RNA" 6. .178 /product="internal transcribed spacer 1 179..377 /product="5.8S ribosomal RNA" 378..519 /product="internal transcribed spacer 2" 520..>540 /product="28S ribosomal RNA" 47 Oblast promotoru Název proteinu nebo genu, ke kterému patří promotor a jeho 5' a 3' obklopující sekvence Intervaly přepisovaných a kódujících sekvencí, pokud jsou přítomné Homo sapiens enhancer-binding protein 2 (EBP2) gene, promoter region and partial cds. FEATURES Location/Qualifiers source gene promoter TATA_signal mRNA 5'UTR CDS 1. .3061 /organism="Homo sapiens" /chromosome="15" /map="15ql3" /cell_line="H441" /tissue_type="lung" 1..>3061 /gene="EBP2" 1..2947 /gene="EBP2" 2918..2923 /gene="EBP2" 2948..>3061 /gene="EBP2" /product="enhancer-binding protein 2" 2948..3010 /gene="EBP2" 3011..>3061 /gene="EBP2" /product="enhancer-binding protein 2" Transpozon nebo inzerční sekvence Specifické jméno elementu Nukleotidoné pozice Jména a intervaly kódovaných genových produktů, pokud jsou přítomny (např., transposase) Pozice a intervaly dalších vlastností (např. LTRs, repeat regions) Bacillus subtilis transposon BLT transposase (tnpA) gene, complete cds FEATURES source source repeat_region gene CDS repeat_region Location/Qualifiers 1..1221 /organism="Bacillus subtilis" /strain="RS2" 21. .1127 /organism="Bacillus subtilis" /strain="RS2" /transposon="BLT" 21..61 /rpt_type=inverted 128..1034 /gene="tnpA" 128..1034 /gene="tnpA" /product="transposase" 1085..1127 /rpt_type=inverted Oblasti repeticí Intervaly repetitivních sekvencí Rodina repeticí (napr., Alu, Mer) • Typ repetice (tandem, inverted, flanking, terminal, direct, dispersed, or other) Jednotka repetice (repeat unit) popis intervalů, jestliže sekvence obsahuje více než jednu repetici Homo sapiens repeat regions FEATURES source repeat_region repeat_region repeat_region repeat_region repeat_region Location/Qualifiers 1..2050 /organism="Homo sapiens" /chromosome^"6" /map="6q25" 8. .126 /rpt_type=dispersed /rpt_family="B2" 197..344 /rpt_type="direct" /rpt_unit="197..220" 389..673 /rpt_family="AluSx" /rpt_type=dispersed 847..876 /note="microsatellite BT21" /rpt_type="tandem" /rpt_unit="ca" 1000..2000 /rpt_family="human endogeneous retrovirus K-10 Klonovací vektor Jedinečné jméno vektoru Kódující intervaly, jména genů a proteinů Cloning vector pRB223, complete sequence FEATURES source gene CDS RBS rep_origin gene CDS misc feature RBS promoter Location/Qualifiers 1..4361 /organism="Cloning vector pRB223" 86..1276 /gene="tet" 86..1276 /gene="tet" /product="tetracycline resistance protein" 1905..1909 /note="Shine-Dalgarno sequence" 2535 complement(3293..4194) /gene="bla" complement(3293..4153) /gene="bla" /product="beta-lactamase" 4069..4125 /note="multiple cloning site" complement(4161..4165) /gene="bla" /note="Shine-Dalgarno sequence" complement(4188..4194) /gene="bla" Bacteriophage lysis module; endolysin and HNH endonuclease genes, complete CDS FEATURES Location/Qualifiers source 1..3165 /organism="Staphylococcus bacteriophage 812" /virion /mol_type="genomic DNA" /strain="phi812" /lab_host="Staphylococcus aureus CCM 4028" /type="wild type" gene 654..3017 /gene="lyt812" CDS join(654..1449,2329..3017) /gene="lyt812" /experiment="peptide sequencing" /note="Lyt812" /codon_start=l /transl_table=ll /product="endolysin" /translation="MAKTQAEI_______________ " misc_feature join(1239..1449,2329..2576) /gene="lyt812" /note="SM00644; Ami_2; This family includes zinc amidases that have N-acetylmuramoyl-L-alanine amidase activity; Region: Ami_2" intron 1450..2328 /gene="lyt812" /standard_name="lyt812-Il" /experiment="cDNA synthesis and sequencing" CDS 1617..2117 /gene="lyt812" /note="ORFI-812HI" /codon_start=l /transl_table=ll /product="putative HNH endonuclease Príklady některých dalších modifikací deskriptorů Title - Informace vyskytující se v databázi v DEFINITION LINE Comment - Poznámka k různým vlastnostem Technique - Umožňuje výběr techniky použité pro vytvoření nebo experimentální evidenci vlastností sekvence Přehled deskriptorů pro popis vlastností sekvence (http://www.ncbi.nlm.nih.gov/Banklt/help.htmn attenuator • misc_RNA • S_region C-region • misc_signal • satellite CAAT signal • misc_structure • scRNA CDS • modified base • sig_peptide conflict • mRNA • snRNA D-loop • N_region • snoRNA D-segment • old_sequence • source enhancer • operon • stem loop exon • oriT • STS gap • polyA_signal • TATA_signal GC_signal • polyA_site • terminator gene • precursor_RNA • transit_peptide iDNA • prim_transcript • tRNA intron • primer_bind • unsure J_segment • promoter • V_region LTR • protein_bind • V_segment mat_peptide • RBS • variation misc_binding • repeat_region • 3'clip misc_difference • repeat_unit • 3'UTR misc_feature • rep_origin • 5'clip misc_recomb • rRNA • 5'UTR