Zaslání sekvence DNA do primární databáze GenBank/EMBL/DDBJ Nejdůležitější instituce zabývající se shromažďováním biomedicínských informací • K nejdůležitějším institucím zabývajícím se, správou dat a vývojem nástrojů pro jejich analýzu a poskytováním informací patří: - Evropský institut pro bioinformatiku (EBI) se sídlem v Hinxtonu v UK (http://www.ebi.ac.uk/), - Národní centrum pro biotechnologické informace (NCBI) založené původně v rámci Národní lékařské knihovny (NLM) v USA (http://www.ncbi.nlm.nih.gov/), - Centrum pro informační biologii (CIB) založené jako oddělení Národního genetického institutu (NIG) v Mishimě, Japonsko (http://www.cib.niq.ac.ip/). Nejdůležitější databáze sekvencí nukleových kyselin a proteinů • V každém ze tří hlavních bioinformatických center je spravována genomová databáze sekvencí nukleových kyselin a odpovídajících, z nich přeložených proteinů. - EMBL Nucleotide Sequence Database (v rámci institutu EBI)-1980 - GenBank (v rámci institutu NCBI) - 1982 - DDBJ (The DNA Data Bank of Japan) -1984 • Tři samostatné báze vznikly v důsledku potřeby rychlé dostupnosti databáze sekvencí na jednotlivých kontinentech v době, kdy ještě nebyly rozvinuté vysokorychlostní komunikační sítě. Mezinárodní spolupráce sekvenčních databází Databáze sdílejí stejná data NI Cl Get Entry DDBJ ENTREZ GenBank wBĚ SRS EMBL Identifikace záznamu v primárních sekvenčních databázích • GenBank • EMBL • DDBJ • Přístupový kód (Accession Number) • číslo Gl (GenBank Identifier) LOCUS AY870395 553 bp DNA linear BCT 30-JAN-2005 DEFINITION Macrococcus brunensis strain COM 4811 60 kDa chaperonin (cpn60) gene, partial cds. ACCESSION AY870395 i VERSION AY870395.1 GI:581194614 LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL REMARK COMMENT FEATURES source // AY182241 1931 bp mRNA linear PLN 04-MAY-2004 Malus x domestica (E,E) - alpha-fame sene synthase (AFS1) mRNA, complete cds. AY182241 AY182241.2 GI:32265057 Malus x domestica (cultivated apple) Malus x domestica Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; rosids; eurosids I; Rosales; Rosaceae; Maloideae; Malus. 1 (bases 1 to 1931) Pechous,S.W. and Whitaker,B.D. Cloning and functional expression of an (E,E)-alpha-farnesene synthase cDNA from peel tissue of apple fruit Planta 219, 84-94 (2004) 2 (bases 1 to 1931) Pechous,S.W. and Whitaker,B.D. Direct Submission Submitted (18-NOV-2002) PSI-Produce Quality and Safety Lab, USDA-ARS, 10300 Baltimore Ave. Bldg. 002, Rm. 205, Beltsville, MD 20705, USA 3 (bases 1 to 1931) Pechous,S.W. and Whitaker,B.D. Direct Submission Submitted (25-JUN-2003) PSI-Produce Quality and Safety Lab, USDA-ARS, 10300 Baltimore Ave. Bldg. 002, Rm. 205, Beltsville, MD 20705, USA Sequence update by submitter On Jun 26, 2003 this sequence version replaced gi:27804758. Location/Qualifiers 1..1931 /organism="Malus x domestica" /mol_type="mRNA" / cultivar=" ' Law Rome ' " /db_xref="taxon:3750" /tissue_type="peel" 1..1931 /gene="AFSl" 54..1784 /gene="AFSl" /note="terpene synthase" /codon start=l /product="(E,E)-alpha-farnesene synthase" /protein_id="AA022848.2" /db_xref="GI:32265058" /translation="MEFRVHLQADNEQKIFQNQMKPEPEASYLINQRRSANYKPNIWK NDFLDQSLISKYDGDEYRKLSEKLIEEVKIYISAETMDLVAKLELIDSVRKLGLANLF EKEIKEALDSIAAIESDNLGTRDDLYGTALHFKILRQHGYKVSQDIFGRFMDEKGTLE DFLHKNEDLLYNISLIVRLNNDLGTSAAEQERGDSPSSIVCYMREVNASEETARKNIK GMIDNAWKKVNGKCFTTNQVPFLSSFMNNATNMARVAHSLYKDGDGFGDQEKGPRTHI LSLLFQPLVN" 1 ttcttgtatc ccaaacatct cgagcttctt gtacaccaaa ttaggtattc actatggaat 61 tcagagttca cttgcaagct gataatgagc agaaaatttt tcaaaaccag atgaaacccg 121 aacctgaagc ctcttacttg attaatcaaa gacggtctgc aaattacaag ccaaatattt 181 ggaagaacga tttcctagat caatctctta tcagcaaata cgatggagat gagtatcgga 241 agctgtctga gaagttaata gaagaagtta agatttatat atctgctgaa acaatggatt Tradiční záznam GenBank Header y Feature Table Sequence Jak se data dostanou do databází? Předání dat prostřednictvím WWW - Banklt (GenBank) • http://www.ncbi.nlm.nih.gov/Banklt/ - Webln (EMBL) • http://www.ebi.ac.uk/embl/Submission/webin.html - Sakura(DDBJ) • http://sakura.ddbj.nig.ac.jp/ Samostatná aplikace pro PC - Sequin • http://www.ncbi.nlm.nih.gov/Sequin/download/seq download.html - pro delší sekvence (genomy) - fylogenetické, populační nebo mutační studie obsahující sekvenční přiložení TPA (Third Party Annotation) anotace třetí stranou - záznamy, které upřesňují existující sekvence uložené do databází jinými autory - striktní požadavek na přímý experimentální důkaz navrhované anotace Typy sekvencí deponovaných v databázích • m RNA sekvence • prokaryotické geny • eukaryotické geny • rRNA a nebo ITS • virové sekvence • transpozony a inzerční sekvence • mikrosatelity • pseudogeny • klonovací vektroy • fylogenetické nebo populační studie (alignmenty) • nekódující RNA Sekvence, které nejsou akceptovány v primárních databázích • sekvence <200 bp • genomové sekvence více exonů bez údajů o sekvencích intronů • sekvence primem (mohou být zaslány do NCBľs Probe database) • pouze sekvence proteinů (mohou být zaslány do JniProt/SwissProt) • sekvence složené z genomové sekvence a mRNA reprezentované jako jedna sekvence • sekvence bez fyzického (biologického) protějšku - např. konsenzní sekvence Whole Genome Shotgun (WGS) WGS sekvenační projekty jsou jsou celé genomy nebo chromozomy sekvenované strategií celogenomového shotgun sekvenování DDBJ/EMBL/GenBank akceptují jak kompletní, tak nekompletní genomy WGS projekty mohou být anotovány, ale anotace není vyžadována Části WGS projektu jsou kontigy (překrývající se sekvence), které nesmí obsahovat mezery Soubor AGP ukazuje, jak jsou kontigy oddělené mezerami uspořádány na chromozomu High-Throughput Genomic Sequences (HTGS) • HTGS je divize nukleotidové databáze vytvořená pro uložení nekompletních genomových sekvencí stanovených ve velkých genomových centrech • Cílem je zajistit dostupnost sekvencí pro vědeckou veřejnost, zejména prostřednictvím analýzy homologie s BLAST • Nedokončené sekvence HTG jsou delší než 2 kb a splňují požadavky na kvalitu stanovení • Jsou získané z jednotlivých klonů (kosmidy, BAC, YAC nebo P1) • Kolekce klonů má přiřazený přístupový kód • Může obsahovat chyby Metagenomy • Metagenomika je genomová analýza společenstev mikroorganismů nezávislá na kultivaci • Nejrozmanitější skupinou organismů na planetě jsou nekultivovatelné organismy • Sekvenační metody nezávislé na kultivaci jsou důležité pro pochopení - genetické diverzity - struktury populací - ekologické úlohy - metabolických funkcí - stanovení kompletních genomů nekultivovatelných organismů - izolaci nových mikroorganismů z prostředí • Metagenomové projekty se skládají z neanotovaných sekvencí - shromážděné z určitých ekologických zdrojů nebo organismů - sestavené do kontigů - často obsahují částečné genomy z taxonomicky různých skupin - mohou obsahovat převahu informačních sekvencí jako je 16S rRNA • Sekvence jsou vzájemně propojené v rámci BioProject ID Nezpracovaná data z genomových projektů • Trace Archive - sekvence získaní Sangerovou technikou sekvenování TO P_DI RECTORY/ TOP_DIRECTORY/TRACEINFO.txt TOP_DIRECTORY/MD5 TOP_DI RECTORY/README TO P_D IR ECTO R Y/traces TO P_D IR ECTOR Y/traces/H BBA/ TOP_DIRECTORY/traces/HBBA/HBBAA1 U0001 .scf TOP_DIRECTORY/traces/HBBA/HBBAA1U0002.scf TO P_D IR ECTOR Y/traces/H BBA/H BBAA1U0003 .scf • Sequence Read Archive (SRA) - archiv obsahující alignment sekvencí získaných při 454, lonTorrent, lllumina, SOUD, Helicos, PacBio nebo Complete Genomics Banklt ^Banklt - Windows ^vjr w ?j http:S/www.nebi,nim,nih,gov/Web5ub/?fomn=historySdtool=i v X j| Bankit Soubor Úpravy Zobrazit Oblíbené položky. Nástroje Nápověda Oblíbené položky <^ Banklt TjjÍ t e! q ^ T % Stránka - Zabezpečení ~ Nástroje r-í NCBI New Banklt Logged in as Roman Pantu cek (roman, pantu cek} Log put Submissions New Submission Complete Submissions ID Date Submitted Record 1391012 15 Sep 2010 10:35:52 Download File r.zipl Contact | Copyright | Disclaimer | Privacy | Accessibility National Center for Biotechnology Information . U5 National Library of Medicine SSO0 Rockville Pike , Bethesda, MD USA 20694 vi http: //www.ncbi.nlm, nih, go v/WebSub/index, cgi?tool= Internet ffl- ' ■ ^ 100% Požadavky na každé zaslání sekvence kontaktní informace Submitting Authors File Edit Submission Contact Authors Af f iliation First Name M.I. Charles Darwin Last Name SfK -3 Please include country code for non—U.S. phone numbers. □ 01 44171-007-1212 FaK darwin@beagle.edu.uk Submitting Authors File Edit Submission Contact Authors Affiliation « Prev Page | Ne: Inst i tut ion Department Address City State/Province Country Oxbridge University Evolutionary Biology Department 1859 Tennis Court Lane Cannford Zip/Postal Code GX1 2BH United Kingdom « Prev Page | Next Form » Další požadavky na zaslání sekvence • Informace o datu zveřejnění • Informace o relevantních publikacích • Popis zdroje sekvence • Vlastní sekvence -typ a tvar molekuly - anotace vlastností sekvence Popis zdroje sekvence 1 organism nezkrácené vědecké jméno Příklad: [organism=Drosophila melanogaster] lineage taxonomické zařazení organismu (dle NCBI taxonomy database) http://www.ncbi.nlm.nih.qov/Taxonomv/Browser/wwwtaxxqi?mode=Root molecule ve tvaru "DNA" nebo "RNA". Příklad : [molecule=DNA] moltype může nabývat následujících hodnot Příklad : [moltype=Genomic DNA] - Genomic DNA - Genomic RNA - Precursor RNA - mRNA [cDNA] - Ribosomal RNA - Transfer RNA - Small nuclear RNA - Small cytoplasmic RNA - Other-Genetic - cRNA - Small nucleolar RNA topology Popis zdroje sekvence 2 location může nabývat následujících hodnot Příklad: [location=mitochondrion] - genomic - chloroplast - kinetoplast - mitochondrion - plastid - macronuclear - extrachromosomal - plasmid - cyanelle - proviral - virion - nucleomorph - apicoplast - leucoplast - proplastid - endogenous-virus - hydrogenosome Genetic code (http://www.ncbi.nlm.nih.qov/Taxonomv/Utils/wprintqc.cqi?mode=c) Popis zdroje sekvence 3 Další popisovače ke zdroji sekvence acronym anamorph authority biotype biovar breed cell-line cell-type chemovar chromosome clone clone-lib collected-by common country cultivar dev-stage ecotype endogenous-virus-name forma forma-specialis • serogroup fwd-pcr-primer-name • serotype fwd-pcr-primer-seq • serovar genotype • sex group • specific-host haplotype • specimen-voucher identified-by • strain isolate • sub-species isolation-source • subclone lab-host • subgroup lat-lon • substrain map • subtype note • synonym pathovar • teleomorph plasmid-name • tissue-lib plastid-name • tissue-type pop-variant • type rev-pcr-pri mer-name • variety rev-pcr-pri mer-seq segment Formát sekvence • Sekvence nukleové kyseliny a kódovaných proteinů připravené ve formátu F AST A Nucleotide Sequence: >ABC-1 [organism=Saccharomyces cerevisiae][strain=ABC][clone=l] ATTGCGTTATGGAAATTCGAAACTGCCAAATACTATGTCACCATCATTGA TGC AC C T GGAC AC AGAGAT T T CAT CAAGAAC AT GAT C AC T GGTAC T T Protein Sequences: >4E-I [gene=eIF4E] [protein=eukaryotic initiation factor 4E-I] MQSDFHRMKNFANPKSMFKT SAP S TEQGRPE PPT SAAAPAEAKDVKPKEDPQE TGE PAGN . . . >4E-II [gene=eIF4E] [protein=eukaryotic initiation factor 4E-II] MWLE TE KT SAP S TEQGRPE PPT S AAAPAEAKDVKPKED PQE TGE PAGNTAT T TAPAGDD . . . Přsrušená sekvence >m_gagei [organism=Mansonia gagei] Mansonia gagei NADH dehydrogenase ... ATGGAGCATACATATCAATATTCATGGATCATACCGTTTGTGCCACTTCCAATTCCTATTTTAATAGGAA TTGGACTCCTACTTTTTCCGACGGCAACAAAAAATCTTCGTCGTATGTGGGCTCTTCCCAATATTTTATT GTTAAGTATAGTTATGATTTTTTCGGTCGATCTGTCCATTCA.GCAAATAAATAAAAGTTCTATCTATCAA TATGTATGGTCTTGGACCATCAATAATGATTTTTCTTTCGAGTTTGGCTACTTTATTGATTCGCTTACCT >?2oo <- Délka přerušení GGTATAATAACAGTAT TAT TAGGGGC TAC T T TAGC TC T TGC TCAAAAAGATATTAAGAGGGGTTTAGCCTATTCTACAATGTCCCAACTGGGTTATATGATGTTAGCTCTA GGTATGGGGTCTTATCGAGCCGCTTTATTTCATTTGATTACTCATGCTTATTCGAAGGCATTGTTGTTTT TAGGATCCGGATCCGTTATTCA.TTCCATGGAAGCTATTGTTGGATATTCTCCAGATAAAAGCCA.GAATAT GGTTTTTATGGGCGGTTTAAGAAAGCATGTGCCAATTACA.CAAATTGCTTTTTTAGTGGGTACA.CTTTCT CTTTGTGGTATTCCACCCCTTGCTTGTTTTTGGTCCAAAGATGAAATTCTTAGTGACAGCTGGTTGT >?unkioo a- Přerušení neznámé délky TCAATAAAAC TATGGGGTAAAGAAGAACAAAAAATAAT TAACAGAAAT T T TCGT T TATC TCC TT TAT TAA TAT TAACGATGAATAATAATGAGAAGCCA.TATAGAAT TGGTGATAATGTAAAAAAAGGGGC TCT TAT TAC TATTACGAGTTTTGGCTACAAGAAGGCTTTTTCTTATCCTCATGAATCGGATAATACTATGCTATTTCCT ATGCTTATATTGGCTCTATTTACTTTTTTTGTTGGAGCCATAGCAATTCCTTTTAATCAAGAAGGACTAC ATTTGGATATATTATCCAAATTATTAACTCCATCTATAAATCTTTTACATCAAAATTCAAATGATTTTGA GGATTGGTATCAATTTTTAACAAATGCAACTCTTTCAGTGAGTATAGCCTGTTTCGGAATATTTACAGCA T TCC T T T TATATAAGCC T T T TTAT TCATC T T TACAAAATT TGAAC T TAC TAAAT T TAT T T TCGAAAGGGG GTCCTAAAAGAATTTTTTTGGATAAAATAATATACTTGATATACGATTGGTCATATAATCGTGGTTACAT Sekvenční přiložení • Fasta+GAP >ABC-1 [organism=Saccharomyces cerevisiae][strain=ABC][clone=l] ---ATTGCGTTATGGAAATTCGAAACTGCCAAATACTATGTCACCATCAT TGATGCACC TGGACACAGAGAT T TCATCAAGAACATGATCACTGGTAC T T >ABC-2 [organism=Saccharomyces cerevisiaG][strain=ABC][clone=2] GATATTGCTTTATGGAAATTCGAAACTGCCAAATACTATGTCACCATCAT T GAT GCAC C T GGACACAGAAATTTCATCAAGAACATGATCACTGGTACTT >ABC-3 [organism=Saccharomyces cerevisiaG][strain=ABC][clone=3] ---ATTGCTTTATGGAAATTCGAAACTGCCAAATACTATGTTA------- TGATGCACCTGGACACAGAGATTTCATCAAAAACATGATCACTGGTACTT • PHYLIP 3 100 ABC-1 —ATTGCGT TATGGAAATT CGAAACTGCC AAATACTATG TCACCATCAT ABC-2 GATATTGCTT TATGGAAATT CGAAACTGCC AAATACTATG TCACCATCAT ABC-3 —ATTGCTT TATGGAAATT CGAAACTGCC AAATACTATG TTA------- TGATGCACCT GGACACAGAG ATTTCATCAA GAACATGATC ACTGGTACTT TGATGCACCT GGACACAGAA ATTTCATCAA GAACATGATC ACTGGTACTT TGATGCACCT GGACACAGAG ATTTCATCAA AAACATGATC ACTGGTACTT >[organism=Saccharomyces cerevisiae][strain=ABC][clone=1 ] >[organism=Saccharomyces cerevisiae][strain=ABC][clone=2] >[organism=Saccharomyces cerevisiae][strain=ABC][clone=3] Sequin - příprava zaslání sekvence Welcome to Sequin Sequin Sequin Application Version 6.00 Standard Release [Oct 2 7 2005] National Center for Biotechnology Information National Library of Medicine National Institutes of Health (301) 436-2475 info@ncbi. nlm. nih. gov Database for submission {* GenBank C EMBL C DDBJ Start New Submission Read Existing Record Show Help Quit Program Sequence Format File Submission type (* Single Sequence C~ Gapped Sequence C Segmented Sequence C" Population Study C~ Phylogenetic Study C Mutation Study C Environmental Samples C Batch Submission Sequence data format (• FAS TA (no alignment) Submission category r Alignment (FASTA+GAP, NEXU (* Original Submission C Third Party Annotation « Prev Form Next Form » File Edit Search Options Mise Annotate Target Sequence |elF4E 3 Done Format | GenBank Mode | Sequin Style | Normal CDS: eukaryotic initiation factor 4E-II LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL FEATURES source gene CDS eIF4E 2881 bp DNA linear INV 27-OCT-2005 Drosophila rnelanogaster eukaryotic initiation factor 4E (eIF4E) gene, alternative splice products, complete cds. Drosophila rnelanogaster (fruit fly) Drosophila rnelanogaster Eukaryota; Hetazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Diptera; Brachycera; Muscornorpha; Ephydroidea; Drosophilidae; Drosophila. 1 (bases 1 to 2881) Burnett,F.H., van der Uaals,J.D. and Szent-Gyorgi,A. Environmental influences on the expansion of germline tandem repeats in several species of Galapagos finches Unpublished 2 (bases 1 to 2881) Burnett,F.H., van der Waals,J.D. and Szent-Gyorgi,A. Direct Submission Submitted (27-OCT-2005) Evolutionary Biology Department, Oxbridge University, 1859 Tennis Court Lane, Carnford 0X1 2BH, United Kingdom Location/Qualifiers 1..2881 /organism="Drosophila rnelanogaster" /mol_type="genomic DNA" /strain="Oregon R" jo in(201..224, 1550. .192 0, 198 6..2085,2317. /gene="eIF4E" jo in(201..224, 1550. .192 0, 198 6. .2085,2317. /gene="eIF4E" /codon_start=l /product="eukaryotic initiation factor 4E-II" /translation^"HWL E TE KTS APSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETG E P AGNTATTTAP AGD D AVRTE HL YKHP LHNVUTL UYL END RS KS UE D HQNEITS F D TV EDFWSLYNHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRUVITLNKSSKTDLDN LWLDVLLCLIGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAALEIGHKLRDAL PL GRNNS L Cj YQL HKD THVKCjGSNVKS IYTL " .2404,2466..2629) .2404,2466..2629) File Edit Search Options Misc Annotate Target Sequence |elF4E Format Done CDS: eukaryotic initiation factor 4E-II Feature display: Target Numbering : Top Grid: Off Tl 10 20 30 40 I I I I cggttgcttg ggttttataa catcagtcag tgacaggcat 70 80 90 100 I I I I acaatcgata gctgcctttg gccaccaaaa tcccaaactt 61 130 140 ^jnjxj File Edit Search Options Mise Annotate Target Sequence | elF4E "3 Done Format | Graphic ^ Style | Default jj Filter | Default Scale |l0jj eIF4E| I i I i i I I i i i I i i i I I i i I i I i I i i 1 1000 2000 Gene: eIF4E 1111 2881 150 160 I I aacctacgc agcttgagtg 210 220 I I tggtagtgt tggagacgga 50 60 I I ttccagagtt gccctgttca 110 120 I I aattaaagaa ttaaataatt 170 180 I I cgtaaccgat atctagtata 230 240 I I gaaggtaaga cgatgataga H V V L E T E 270 280 I I tttgcgctg agccgtggca K 290 300 I I gggaacaaca aaaacagggt CDS: ^eukaryotic i n it^i^^^| ^ff^^ E-11 CDS: eukaryotic initiation, factor 4E—I 330 340 I I latagtcgag eggaaaagag 350 360 I I tgcagttggc gtggctacat 390 400 410 420 I I I I ttttttgea caattgetta atattaattg tacttgeacg "fl Coding Region injxj File Edit If Codi Genetic Code Reading Frame Protein Product |4E-II Coding Region ^jf Properties ^jf location ^ J Product Protein Exceptions Mise Standard -3 t| Protein Length 248 □ Coding Region File Edit injxj MWLETEKTSAPSTEQGRPEPPTSAAAPAEAKDV ATTTAPAGDDAVRTEHIYKHPLMNVUTLWYLEND TVEDFWSLYNHIKPPSEIKLGSDYSLFKKNIRPlfl NKSSKTDLDNLWLDVLLCLIGEAFDHSDQICGAV GNNEEAALEIGHKLRDALRIGRNNSIQYQIHKDT: f Coding Region ^|fProperties^|f Looation j f General If Comment If Citations |f Cross-Refs ^[Evidence If Identifiers ^ Flags I- Partial |~ Pseudo Evidence |~ \~ Exception Explanation ~3 Coding Region Predict Interval Translate Product Edit \~ Retranslate on Accept Synchrot Accept 1 Cancel Standard explanation bene |elF4E jj Map by (T Overlap (~ Cross-reference Edit Gene Feature ^JnJxJ Coding Region ^f Properties ^Location From T 5' Partial To T 3' Partial Strand SeqID 201 224 Plus ZJ elF4E Z. ■ 1550 1320 Plus ZJ elF4E Z. ' 1986 2085 Plus ZJ elF4E zl 2317 2404 Plus jj|elF4E zl I- Retranslate on Accept p" Synchroi Accept Cancel I- 'order' (intersperse intervals with gaps] I- Retranslate on Accept Synchronize Partials Accept J Cancel | Anotace vlastní sekvence • Kódované proteiny -CDS interval nekompletnost na N- nebo C- konci -gene interval odpovídající CDS u experimentálně prokázaných genů - mRNA interval obsahující 5'-UTR a 3'-UTR • Kódované strukturní RNA Příklady sekvencí Sekvence mRNA nebo cDNA Kódující oblasti včetně iniciačního a terminačního kodonu Název proteinu Název genu Sekvence proteinu Horno sapiens prolidase (PEPD) mRNA, complete cds. FEATURES source mRNA gene CDS Location/Qualifiers 1..1888 /organism="Homo sapiens" /chromosome="19" /map="19ql2-ql3.2" /cell_type="fibroblasts" 1..1888 /gene="PEPD" 1..1888 /gene="PEPD" 17..1498 /gene="PEPD" /EC_number="3.4.13.9" /note="imidodipeptidase" /product="prolidase" Sekvence prokaryotického genu Kódující intervaly Název proteinu Název genu, je-li známý Aminokyselinová sekvence Escherichia coli RecA protein (recA) gene, complete cds FEATURES Location/Qualifiers source gene CDS 1..3300 /organism="Escherichia coli" /strain="K-12" 783..1961 /gene="recA" 783..1961 /gene="recA" /function="DNA repair protein" /product="RecA protein" Sekvence eukaryotického genu Intervaly kódujících oblastí včetně start- a stop-kodonů a intervaly všech intronů Název proteinu Název genu, je-li známý Aminokyselinová sekvence Caenorhabditis elegans tyrosine kinase PTK-2 (ptk-2) gene, complete cds. FEATURES source gene mRNA CDS Location/Qualifiers 1..3180 /organism="Caenorhabdi tis elegans" 211..3011 /gene="ptk-2" join(211..288,533..703,763..890,940..1024, 1084..1380,1838..1962,2018..2099,2301..3011) /gene="ptk-2" /product="protein kinase PTK-2" join(250..288,533..703,763..890,940..1024, 1084..1380,1838..1962,2018..2099,2301..2456) /gene="ptk-2" /product="protein kinase PTK-2" Ribosomální RNA a vnitřní přepisované mezerníky • Názvy jakékoli strukturní RNA (např. tRNA-lle, 16S ribosomal RNA) Názvy mezerníkových oblastí (např., internal transcribed spacer 1, 16S/23S intergenic spacer) Nukleotidové pozice Saccharomyces cerevisiae 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence. FEATURES Location/Qualifiers source 1..540 /organism=MSaccharomyces cerevisiae" /strain="UMD 334" rRNA <1..5 /product="18S ribosomal RNA" misc_RNA 6..178 /product="internal transcribed spacer 1 " rRNA 179..377 /product="5.8S ribosomal RNA" misc_RNA 378..519 /product="internal transcribed spacer 2" rRNA 520..>540 /product="28S ribosomal RNA" 47 Oblast promotoru • Název proteinu nebo genu, ke kterému patří promotor a jeho 5' a 3' obklopující sekvence Intervaly přepisovaných a kódujících sekvencí, pokud jsou přítomné Horno sapiens enhancer-binding protein 2 (EBP2) gene, promotér region and partial cds. FEATURES Location/Qualifiers source gene promoter TATA_signal mRNA 5 'UTR CDS 1..3061 /organism="Homo sapiens" /chromos ome="15" /map="15ql3" /cell_line="H441" /tissue_type="lung" 1..>3061 /gene="EBP2" 1..2947 /gene="EBP2" 2918..2923 /gene="EBP2" 2948..>3061 /gene="EBP2" /product="enhancer-binding protein 2" 2948..3010 /gene="EBP2" 3011..>3061 /gene="EBP2" /product="enhancer-binding protein 2" Transpozon nebo inzerční sekvence Specifické jméno elementu Nukleotidoné pozice Jména a intervaly kódovaných genových produktů, pokud jsou přítomny (např., transposase) Pozice a intervaly dalších vlastností (např. LTRs, repeat regions) Bacillus subtilis transposon BLT transposase (tnpA) gene, complete cds FEATURES source source repeat_region gene CDS repeat region Location/Qualifiers 1. .1221 /organism="Bacillus subtilis' /strain="RS2" 21..1127 /organism="Bacillus subtilis' /strain=nRS2n /transpo son="BLT" 21..61 /rpt_type=inverted 128..1034 /gene="tnpA" 128..1034 /gene="tnpA" /product="transposase" 1085..1127 /rpt type=inverted Oblasti repeticí Intervaly repetitivních sekvencí Rodina repeticí (napr., Alu, Mer) Typ repetice (tandem, inverted, flanking, terminal, direct, dispersed, or other) Jednotka repetice (repeat unit) popis intervalů, jestliže sekvence obsahuje více než jednu repetici Homo sapiens repeat regions FEATURES source repeat region repeat region repeat region repeat region repeat region Location/Qualifiers 1..2050 /organism="Homo sapiens" /chromosome="6" /map="6q25" 8. .126 /rpt_type=di spersed /rpt_family="B2" 197..344 /rpt_type="direct" /rpt_unit="197..220" 389..673 /rpt_family="AluSx" /rpt_type=di spersed 847..876 /note="microsatellite BT21" /rpt_type="tandem" /rpt_uni t="ca" 1000..2000 /rpt family="human endogeneous retrovirus K-10 Klonovací vektor Jedinečné jméno vektoru Kódující intervaly, jména genů a proteinů Cloning vector pRB223, complete sequence FEATURES source gene CDS RBS rep_origin gene CDS mise feature RBS promoter Location/Qualifiers 1..4361 /organism=MCloning vector pRB223" 86..1276 /gene=MtetM 86..1276 /gene=MtetM /product="tetracycline resistance protein" 1905..1909 /note="Shine-Dalgarno sequence" 2535 complement(3293..4194) /gene="bla" complement(3293..4153) /gene="bla" /product="beta-lactamase" 4069..4125 /note="multiple cloning site" complement(4161..4165) /gene="bla" /note="Shine-Dalgarno sequence" complement(4188..4194) /gene="bla" Bacteriophage lysis module; endolysin and HNH endonuclease genes, complete CDS FEATURES Location/Qualifiers source 1..3165 /organism="Staphylococcus bacteriophage 812" /virion /mol_type="genomic DNA" /strain="phi812" /lab_host="Staphylococcus aureus CCM 4028" /type="wild type" gene 654..3017 /gene="lyt812" CDS join(654..1449,2329..3017) /gene="lyt812" /experiment="peptide sequencing" /note="Lyt812" /codon_start=l /transl_table=ll /product="endolysin" /translation="MAKTQAEI............... " misc_feature join(1239..1449,2329..2576) /gene="lyt812" /note="SM00644; Ami_2; This family includes zinc amidases that have N-acetylmuramoyl-L-alanine amidase activity; Region: Ami_2" intron 1450..2328 /gene="lyt812" /standard_name="lyt812-I1" /experiment="cDNA synthesis and sequencing" CDS 1617..2117 /gene="lyt812" /note="ORFI-812III" /codon_start=l /transl_table=l1 /product="putative HNH endonuclease Příklady některých dalších modifikací deskriptorů • Title - Informace vyskytující se v databázi v DEFINITION LINE • Comment - Poznámka k různým vlastnostem • Technique - Umožňuje výběr techniky použité pro vytvoření nebo experimentální evidenci vlastností sekvence Přehled deskriptorů pro popis vlastností sekvence (http://www.ncbi.nlm.nih.gov/Banklt/help.html) attenuator • misc_RNA • S_region C-region • misc signal • satellite CAAT signal • misc_structure • scRNA CDS • modified base • sig peptide conflict • mRNA • snRNA D-loop • N_region • snoRNA D-segment • old_sequence • source enhancer • operon • stem loop exon • oriT • STS gap • polyA_signal • TATA_signal GC_signal • polyA_site • terminator gene • precursor_RNA • transit peptide iDNA • prim_transcript • tRNA intron • primer_bind • unsure J_segment • promoter • V_region LTR • protein bind • V_segment mat_peptide • RBS • variation misc_binding • repeat_region • 3'clip misc_difference • repeat_unit • 3'UTR misc_feature • rep origin • 5'clip misc_recomb • rRNA • 5'UTR The GenBank Submissions Handbook • http://www.ncbi.nlm.nih.gov/books/NBK51157/ GenBank Stibmi&&ion& Handbook NCBI Help Manual • rtolianiil tflMw U.5. NoliomJ library uF Mndnina