UNI SCI MASARYK UNIVERSITY FACULTY OF SCIENCE DEPARTMENT OF EXPERIMENTAL BIOLOGY LABORATORY OF MICROBIAL MOLECULAR DIAGNOSTICS BÍ5000 - Bioinformatika Zpracování sekvenčních dat pro zaslání do nukleotidových databází Mezinárodní spolupráce primárních sekvenčních databází Všechny tři hlavní bioinformatická centra (databáze) sídlejí stejná data NIH NCBI ENTREZ GenBank NIG CIB Get Entry DDBJ Zakladatel Instituce Prohlížeč Databáze Divize GenBank https://www.ncbi.nlm.nih.gov/genbank/htgs/divisions/ ftp://ftp.ncbi.nlm.nih.gov/genbank Resources® How To® GenBank Nucleotide ]GenBank ~ | Submit -r | Genomes -r WGS HTGs - EST/GSS -r Metagenonnes ▼ TPA TSA - INSDC GenBank Database Divisions GenBank divisions are divided into two general categories and were described in an (Genome Research (1997) 7(10)) article by Ouellette and Boguski; the full-text article is available fDatabase Divisions and Homology Search Files: A Guide for the PerplexedV The "Organismal" category includes databases pertaining to sequences derived from specific organisms and the "Functional" databases pertain to different types of sequence data being collected. Sequence records exist only in one GenBank division. For example, the HTG division includes unfinished sequences (phases 0, 1, and 2) being generated from several different organisms. As a sequence is updated to phase 3, it is moved into the appropriate organismal division. For instance, human phase 3 (finished) HTG sequences are located in the PRI division. The GenBank divisions listed here represent the location of the annotated sequence records; for homology search purposes the records are reformatted and stored in the BLAST databases. The different database divisions currently available, as well as the related BLAST database, are listed below. An example of a submission (one accession number) that has progressed through phase 1, phase 2, and phase 3 is available I Examples'). HTGs Resource About HTGs Submitting HTGs Processing HTGs HTGs FAQ Organismal Divisions: Database Division BLAST Example BCT Bacterial sequences nr, month PRI Primate sequences nr, month Human Phase 3 ROD Rodent sequences nr, month MAM Other mammalian sequences nr, month VRT Other vertebrate sequences nr, month INV Invertebrate sequences nr, month Drosophila, C. elegans Phase 3 PLN Plant and Fungal sequences nr, month Arabidopsis Phase 3 VRL Viral sequences nr, month PHG Phage sequences nr, month RNA Structural RNA sequences nr, month SYN Synthetic and chimeric sequences nr, month UNA Unannotated sequences nr, month <- Divize podle organizmů Functional Divisions: Database Division BLAST Example EST Expressed Sequence Tags dbest, month STS Sequence Tagged Sites dbsts, month GSS Genome Survey Sequences dbgss, month HTG High Throughput Genomic sequences htgs, month All Organisms: Phase 0, 1, and 2 <- Funkční divize Postup zpracování sekvenčních dat • Primární analýza dat ze sekvenátoru - Zachycení obrazu - Zpracování obrazu - Base calling - Provedení kontroly kvality • Sekundární analýza dat - Alingment (RefSeq data) • Mismatches, validace, vizualizace - Assembly -> kontigy/scaffoldy • Terciární analýza - automatická anotace - Anotace, Geny, Variace, Diferenciální exprese, Metylace, atd o Sequence Read Archive: Nezpracovaná sekvenační data pro zvýšení reprodukovatelnosti a usnadnění nových objevů. Whole Genome Shotgun: sestavy neúplných nebo kompletních genomů a chromozomů prokaryot a eukaryot získané NGS. Řada specializovaných databází: GenBank, Genomy, SNP, GEO Komplexní přístup vs. manuální zpracování Komplexní přístupy vyžadují strukturovaná, indexovaná a anotovaná data Integrated Applications ^ Programy CjlD Viewers Project File Reads, Alignments, Annotations API • Zpracování velkého množství dat • Integrace více typů dat • Porovnávání vzorků mezi sebou Formáty sekvenačních dat z NGS • FASTQ ( - Illumina - Standardní formát akceptovaný databázemi • SFF, BAM, qual - starší formáty používané 454 a lon Torrent - Obsahují alignment jednotlivých čtení - Většinou lze konvertovat do FASTQ • fast5, HDF5 - Hierarchické formáty dat - formáty pro dlouhá čtení - PacBio, Nanopore Hlubší integrace dat do komplexních databází (BioHDF) Integrate data across platforms Sequence Reads Aligmnemts HDFfilel Sample 1 HDFfileT Sample 2 HDFfile(n) Sample (n) Annotations c/1 ■ Qf2 D TI3 ■ c ■ c □ t ■ n ■ a/o ic.i maa uia Integrate samples / annotations Sample 1 (exon-crossing) 4 Sample 2 (exon-crossinq) 1 [1 1 ft u 1 J Jl 1 L Integrate between systems Repeating Elements 0 FASTQ formát Univerzální formát akceptovaný databázemi Každý záznam obsahuje 4 řádky - řádek 1 začíná hlavičkou '@'ID sekvence - Řádek 2 obsahuje primární sekvenci - Řádek 3 začíná '+' a může následovat stejné ID a popis - Řádek 4 obsahuje zakódované hodnoty o kvalitě sekvence a musí obsahovat stejný počet znaků jako řádek 2 Label Sequence @FORJUSP02AJWD1 CCGTCAATTCATTlTJftAGTTTTAACCTTGCGGCCGTACTCCCCAGGCGGT 4 AAAAAAAAAAAA: 99@::::? ?@@: : F F AA AAAC C AA::::BB@@?A? g scorn (as ASCII chars) Base=T,Q=':,=25 Starší Sequence-alignment-mapping formáty (SAM/BAM) struktura dat 454, lonTorrent a starší PacBio Tabulkový textový formát Odvozený z formátu pro sekvenční přiložení Alignment je součástí formátu má volnou definici http://genome.sph.umich.edU/wiki/SAM#What is SAM BAM je zkomprimovaná binární verze nekomprimovaného formátu SAM (sequence, alignment, mapping) - SAM Tools Nese informace - Kvalita bází (QUAL+33) Mapování k referenční sekvenci Example Header Lines §PG VN:1.0 SN:1 SN:2 SN:3 SO:coordinate LN:249250621 LN1243199373 LN:198022436 H 5:1b 2 2 b9Sc deb4a9304c b5 d4S 026a 8 5128 H 5:a0d9B 51da00400dec109 8 a 9 25 5 a c 712e H 5: f df dBUS49c c 2f adebc 9 29 b b 9 25 9 02e 5 SM:SD37743 CN:UMCORE SPI: SD37743 CN: UMCORE AS:N£BI37 UR: f ile:/data/local/ref/GATK7huinan_glk_v37 . f asta AS : NCBI37 UR: f ile:/data/ local/ ref/GATK/hunian_glk_v37 . f asta AS:NC B13 7 UR:f ile:/data/local/ref/GATK7h u man_g1k_v 3 7.fa st a ID:UM009S:1 PL:ILLUMINA PU:HUUSI-EA51707-615LHAAXX-L001 LB:80 DT:2616-65-65T26:00:00-0400 ID:UM0098:2 PL:ILLUMINA PU:HUUSI-EAS1707-615LHAAXX-L002 LB:80 DT: 2616-65-65T26:00:00-0400 ID:bwa VN:0.5.4 ID:QATK. TableRecalibration VTJ: 1.0. 3471 CL:Covariates= [ReadGroupCovariate} QualityScoreCovariate, CycleCovariatej DinucCovariate, TileCovariate]} default_read^group=null, default_platforiri=nLill, force_read_group=nullj force_platform=nullj 5olid_recal_iriode=SET_Q_ZERO_, window_size_nqs=5j homopolymer_nback=73 exception_if_no_tile=f alse., ignore_nocall_color5pace=false, pO_=5, iriax0_=46_, 5moothing=l In the alignment examples below: you will see that the 2nd alignment maps back to the RG line with ID UM009B.1, and all of the alignments point back to the SQ line with SN:1 because their RNAME is 1. Example Alignments This is what the alignment section of a SAM file looks like: 1:497:R:-272-1-13M17 D24M 113 1 497 37 37H 15 100338662 ==9; »»>=»>>>>>>>>>=>>>»»»> XT:A:L NH: i:0 SH:i:37 AH: i:0 X0:i : 1 XI:1:0 19:203S9:F:275-H8M2D19M 99 1 17644 0 37M = 17919 314 >>>>>>>>>>»»»»»«»>«»4: : » : <9 KG:2:UM009E :1 XT:A:R NH: i:0 SM:i:3 AM:i:6 19:20389: F : 27 5-1-1SM2D19M 147 1 171-11- 0 1SH2D19H = 17644 ; 44999; 499-<8<8<<<8<<><<<<><7<»<9»<»>9»><> XT:A:R NH: i: 2 SH: i:0 AH: i: 0 X0: i:5 XI:i : 3 XM:i:6 6 CGGGTCTG ACCTGAGGAGAACTGTGCTCCGC C TTCAG 6;==- XM:i:6 XO:i:B XG:i:0 MD:Z:37 TATGACTGCTAATAATACCTACACATGTTAGAACCAT X6:i:4 Xl:i:0 XM:i:B XO:i:0 XG:i:0 MD:Z:37 - 314 GTAGTACCAACTGTAAGTCCTTATCTTCATAC TTTGT XM:i:6 XO:i:l XQ:i:2 MD:Z:18ACA19 CACCACATCACATATACCAAGCCTGGCTGTGTCTTCT <;9<<5><«<> XO:i:l XG:i:2 HD:Z:35 Struktura sekce lllumina Header 0HWUSI- EAS611:34:66 69YAAXX:5:1:5069:1159 1:N:O: Starts with @ (required by fastq spec) Instrument ID (HWUSI-EAS611) Run number (34) Flowcell ID (6669YAAXX) Lane (5) Tile (1) X-position (5069) Y-position (1159) [space] Read number (1) Was filtered (Y/N) (N) - You wouldn't normally see the Ys Control number (0 = no control) Sample number (only if demultiplexed using lllumina's software) 4 HDF5 a Fast5 formáty PacBio a Nanopore HDF (hierarchical data formát) - zkomprimovaná složka s hierarchickou strukturou • Skupiny • Datové sady • Atributy Fast5 - komplexní formát - odvozený z HDF5 - má definovanou konkrétni hierarchii souborů Obsahuje data pro base calling - vyšší informační obsah, base calling může být provedeno opakovaně - pro složení sekvence může být převeden do FASTQ nno HDFVÍew File Window Tools Help I Log Info [. Metadat File/URL /Users/msw/ D isktop/seqc_brain_3.txt.h5 C ~j seqc_brain_3.txt.h5 U TableView - cluster - /alignments/genome/ - /u... tí I ä r S alignments *■ CJ byproduct > Cj eKancrass_all ■? ttnpnnmp lable Jfó[ 4, num_re... 47 3-0 ref id beg pos end pos num read 0 22 5705 14703 454656 1 alignment 1 22 661 5649 246223 cluster 2 0 556117 559948 244852 3 0 554323 556061 63856 1 'eadmask 4 22 14712 16570 47040 m 'efmap 5 4 134290167 134291100 41455 Eli 6 4 79982071 79983331 32404 *- £j genome_all 7 16 48538223 48538748 27540 o- £j junk 8 2 97819217 97819732 20338 9 2 97818721 97819082 18151; "-□junk_all 10 4 134291101 134291462 14506 > Cl mirbasejr 11 1 49310335 49310542 14429 12 5 62341988 62342229 14024 > Ej mirbase tr all 13 10 10486225 10486552 12565 14 10 10486762 10487151 12228 o- u transcript 15 23 225-222K 125433757 11051 °-Cjtranscript_all 16 1 87905671 87905992 1C365 > Q sequences 17 4 134288734 134289496 10687 13 0 559952 560170 9975 r-liseaid 19 4 79981593 79981750 9813 20 17 45633522 4353380S 9797 q§ sequence 21 6 45258094 45258249 J147 cluster (1136145282) Cornpound/Vdata, 1270853 Jak čteme sekvence z NGS? 1. Demultiplexing 2. Base Call Quality 3. Adapter Content (trimming) 4. Mapping Quality QC Metrics Kontrola kvality • Statistiky čtení - počet čtení a medián jejich délky - obsah G+C - skóre kvality bází a jeho distribuce • Kontaminace - adaptory, primery - hostitelská DNA u nebuněčných genomů - křížové kontaminace • Hloubka pokrytí - Volba vyžadované hloubky závisí na aplikaci - pro celogenom je potřeba minimálně 30-50x pokrytí u krátkých čtení a minimálně 100-300x u dlouhých čtení • FastQC - příklad nástroje pro hodnocení kvality u lllumina https://www.bioinformatics.babraham.ac.uk/proiects/fastac/ Základní statistiky na Filenair.e File type Encoding Total Sequences CCM9024_R1.fastq Conventional tese cells 5enger / Illuir.ina 1.9 2761796 Hodnotí se především: • počet čtení • délka čtení • distribuce délek čtení Sequences flagged as poor quality 0 Sequence length Nanopore General summary: Mean read length: Mean read qualify: Median read length: Median read quality Number of reads: Read length N50: Total bases: 150 34 336.9 11.8 99.0 11.5 11,266.0 5,927.0 4,353,461.0 42 Hodnocení kvality stanovení báze • Q score nebo Phred skóre • Celočíselná hodnota představující odhadovanou pravděpodobnost chyby • Kódování může být specifické dle platformy ■ 26D9_SH279 - Chrom a 5 File Edit Options Help |Sar*le: 2&09_SH2t/ □ X Open Save Export ■+N #| *. , r Print Next Find Reverse nhance 1 2ř'j 130 150 Zun 210 220 r 230 r 24; 2i ; 260 270 230 ■ ■■■■■■■■■■ ■■■■■■■■■■■■■■■■■■ ■■■■■ ATCTCAGCAGCGGATGAaGaJlälCGGilGCJlTTTATCTCTGÄAGCAJlTGGäGäJiaGTäGGTaäCGACGGCGTIJlTCJlCAAITGAAGAJlTCTAÄAGGÄTTCAAJlACTGAÄCTTGAAGTCGTÍ Příklad hodnocení prostřednictvím Q-skóre u Sangerova sekvenování PHRED skóre kvality O • Skóre kvality jsou reprezentována jako znaky ASCII • Phred+33 - v současnosti nejpoužívanejší - Illumina 1.8+, Sanger, PacBio ! = nejnižší kvalita ~ = nejvyšší kvalita !W/o&X)*+r/0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]A_'abcdefghijklmnopqrstuvwxyz{|}~ • Phred+64 - lze se s ním setkat u starších dat před r. 2018 - Illumina 1.3+, Illumina 1.5+, Solexa - Před použitím dat může být nutný převod na Phred+33 Výpočet Phred Scores • Stanovení pravděpodobnosti, že uvedená báze je nesprávná: hodnota (p) • Transformace na skóre Phred z plovoucí desetinné čárky, tedy kladné celé číslo: Phred = -10* (int)log10(p) • p=0.1 Phred = 10 • p=0.01 Phred = 20 • p=0.001 Phred = 30 Statistické hodnocení kvality sekvence na bázi z lllumina čtení nástrojem FastQC Dobrá kvalita 2 ž i Q) V -O O CO co Quality scores across all bases (Sanger / lllurnina 1.9 encoding) Spatná kvalita Quality scores across all bases (Sanger / lllurnina 1.9 encoding) ■■= N CO f á ' d) O s- CN "O O CO M 123456789 15-19 30-34 45-49 60-64 75-79 90-94 105-109 120-124 135-139 150 0 Position In read (bp] 123456789 10-14 20-24 30-34 40-44 50-59 70-79 90-99 150-199 300-301 Position in read (bp) metriky kontroly kvality, jsou hlášeny systémem varování na semaforech, normální (zelená), abnormální (oranžová), špatná (červená) Basic Statistics Basic Statistics Distrubce skóre kvality 90 % -horní decil 75 % - horní kvartil Medián Průměr 25 % - dolní kvartil 10 %-dolní decil ^jfrper base sequence quality Per tile sequence quality Per sequence quality scores ^j^Per base sequence content ^j^Per sequence GC content ^^Per base N content Sequence Length Distribution ^)Sequence Duplication Levels ( jOverrepresented sequences (Qj Adapter Content Per base sequence quality Per sequence quality scores Per base sequence content Per base GC content Per sequence GC content Per base N content Sequence Length Distribution Sequence Duplication Levels (^) Overrepresented sequences Kmer Content 4 o o 00 ■o CD Hodnocení distribuce G+C pomocí FastQC Distrubce CG je první parametr, kde se zjistí kontaminace dat Zdroje kontaminace mohou být různé - technické sekvence DNA jako primery, adaptory, hostitelská DNA, rRNA Pokud je znám zdroj kontaminace, pak je možné tyto sekvence odfiltrovat GC distribution over all sequences 0 2 4 6 8 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 S3 87 91 95 99 Mean GC content [%J Distribuce obsahu CG pro každé čtení, je dobrá a pouze s jedním vrcholem. Data tedy pravděpodobně obsahují DNA pouze z jednoho organismu. GC distribution over all sequences GC count per read Theoretical Distributior 0 2 4 6 8 11 15 19 23 27 3 1 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 Mean GC content (%) Nerovnoměrná distrubce CG % znamená pravděpodobnou kontaminaci. V tomto případě se jedná RNAseq s nedostatečně odstraněnou rRNA. FastQC -kontaminace adaptory Overrepresented sequences Sequence Count Percentage Possible Source GArCGGAAGAGCGGrrCAGCAGGAATGCCGAGACCGATCT 8122 8 .122 IllJir.ina Faired End PCR Friir.er 2 (100% over 40fcp) GArCGGAAGAGCGGrrCAGCAGGAATGCCGAGArCGGAAG 5086 5.086 Illuraina Paired End PCR Primer 2 (97% over 36bp} AATGArACGGCGACCACCGAGArcrACACTCTTTCCCTAC 1085 1. 035 Illuraina Single End PCR Friir.er 1 (100% over 40bp) GArCGGAAGAGCGGrrCAGCAGGAATGCCGAGACCGGAAG 508 0 . 508 IllJir.ina Faired End PCR Primer 2 (97% over 36fcp) AArrATACGGCGACCACCGAGArcrACACrcrrrCCCTAC 242 0 . 242 Illjmina Single End PCR Primer- 1 (97% over 40bp) GArCGGAAGAGCGGrrCAGCAGGAATGCCGAAGArCGGAA 235 0.2 3500000000000001 Illuraina Paired End Adapter 2 (96% over 31bp) GArCGGAAGAGCGGrrCAGCAGGAATGCGAGArCGGAAGA 228 0.227999999999999 93 IllJir.ina Faired End Adapter 2 (96% over 2 3fcp) GATCGGAAGAGCGGrrCAGCAGGAATGCCGAGACCGGACG 205 0 .2 0500000000000002 Illjmina Paired End PCR Primer 2 (97% over 36fcp) GArCGGAAGAGCGGrrCAGCAGGAATGCCGAGGArCGGAA 183 0 .133 Illuraina Paired End Adapter 2 (100% over 32bp) GArCGGAAGAGCGGrrCAGCAGGAATGCCGAGGrCGGAAG 183 0 .133 Illuraina Paired End Adapter 2 (100% over 32bp) GArCGGAAGAGCGGrrCAGCAGGAATGCCGAGACCGAACT 164 0 .164 Illuraina Paired End PCR Primer 2 (97% over 40bp) GArCGGAAGAGCGGrrCAGCAGGAATGCCGAGACCGGTCT 129 0 .12 9 Illjmina Paired End PCR Primer 2 (97% over 40bp) AArrArAcrrcrACCACcrArArcrACACTCTTTCccTAC 123 0.123 No Hit GArCGGAAGAGCGGrrCAGCAGGAATGCCGAGACCGGACT 122 0.122 Illuraina Paired End PCR Primer 2 (97% over 36bp) CGGrrCAGCAGGAATGCCGAGATCGGAAGAGCGGrrCAGC 113 0.112 93939393939393 Illjmina Paired End PCR Primer 2 (96% over 25fcp) Příliš mnoho adaptorových sekvencí může znamenat chybu při přípravě sekvenační knihovny. Řešením je opět odfiltrovat tyto sekvence, pokud je dostatek čtení. Pokud ne, může být nutné zopakovat sekvenování. Filtrování podle kvality: co můžeme© dělat s nekvalitními daty • Odstranění nejhorších čtení podle skóre kvality • Odstranění kontaminant • Oříznutí (trimming) - Na začátku (adaptory, primery) - Na konci (klesající kvalita) • Automatické nebo manuální stanovení cutoff limitů • Při dostatečné hloubce pokrytí se upřednostňuje méně čtení o vyssi kvalitě • Sloučení párových čtení - snížení redunance dat, pokud mají čtení velký překryv • Obecně se podle typu dat a typu experimentu provádí odlišné kroky Oříznutí čtení sekvence (trimming) báze 1->5 zbytek adaptoru báze 6->150 zachovaný úsek báze 150->300 ztráta kvality ořez cca od 200. báze! Quality scores across all bases (Sanger / lllumina 1.9 encoding) v ran 23456789 10-14 20-24 30-34 40-44 50-59 70-79 90-99 150-199 300-301 Position in read (bp) cutadapt, trimmomatic - command line programy se širokými možnostmi filtrování a úprav čtení filtlong - command line, pro filtrování kvality u dlouhých čtení Závěr: Kontext je klíčem pro hodnocení kvality \ \ \ Očekávání / y Pozorování / y Kritická analýza / / >— QC by měla být o tom, co očekáváte a co vidíte Vývojový diagram sekvenování a assembly Příklady programů Závislé na: • Sekvenační platformě • Získaném pokrytí • Typu genomu Library Preparation SGS platform i LlUlluilJJi / MCI) TGS platform (PacBio/ONT) Quality Control & Adapter Trimming (Trim Galore!) Dataset Subsampling (Rasusa) ř-mer-based Genome Profiling (Jellyfish / GenomeS cSSI Data set Sub sampling (S*qtk) Hybrid Assembly (MaSuRCA, WENGAN) Quality Control & Homomer Count (LongQC, NH[iüTJüI, li ri Lim nii' ■' L' ri LJ li I. |>> ] Long-read Assembly (Flye, WTDBG2, Cairn) I Draft Assembly Polishing (2 Cycle) (PILON) 1 Contiguity Evaluation (QUAST, LAST, AliTV) Repetice jsou příčinou Q rozdělení genomů do kontigů Jestliže čtení je kratší než repetice-^ nemožnost sestavení sekvence RPT A1 RPT A2 Kontig tvořený jedinečnou sekvencí, Čtení z mnoha podobných repetic ohraničený repetitivními sekvencemi vedou k vytvoření kontigů s pozměněnou strukturou Krátká čtení, hlavní příčina omezení kompletního sestavení Stejná sekvence se vyskytuje v genomu vícekrát Délka čtení není schopna překlenout tuto repetici Pokrytí může indikovat multiplicitu Složení genomu - assembly Principy assembly - OLC - overlap layout - De Bruijnův graf consensus • ztráta části informace • výpočetně náročné * vhodnější pro krátká čtení • vhodnější pro dlouhá čtení Consensus sequence Příklad de Bruijnova grafu u mikrobiálního genomu (lllumina) A - kvalitní sestavení B - sestavení vyžadující optimalizaci, kombinace dlouhých a krátkých kontigů C - nekvalitní sestavení vycházející z nekvalitních dat, velké množství nezařazených krátkých kontigů Hybridní assembly a bridging Kombinace krátkých čtení (Illumina, lonTorrent) a dlouhých čtení (PacBio, Nanopore) umožňuje hybridní assembly —► repetice vyřešeny namapováním dlouhých čtení —► chyby vyřešeny namapováním krátkých čtení Repeat region in unbridged graph Semi-global long read alignment Consensus read sequence Remove ends aligning J l to single-copy contigs \/ Multiple sequence J I alignment Consensus Path finding Bridged graph Pro assembly obvykle využíváme připravené pipeline Mohou být založeny na kombinaci různých assemblerů • Unicycler: Short reads and hybrid assembly pipeline • Trycycler: long-read assembly pipeline Full read Subsa mpled ==- Assemblies Clustering and Alignment and reconciliation consensus Polishing - p= - oooo o— o Final assembly oooo o i o ^ Q( ooo Oo ^-v-> K-v-' "-v-' Pre Trycycler assembly Trycycler Post-Trycyrter refinement Klasifikace assemblerů a využívané strategie Assembler Error correction Contig extension Complexity reduction Fly e Graph-based disjointing correction Disjointig construction WTDBG2 Direct Fuzzy Bruijn graph Partial order alignment Hash table based on the /?-mer block (bin) Non-redundant /?-mer removing Can u Hierarchical Best overlap graph CABOG PBDAG-CON tf-idf weighted MHAP MaSuRCA Hybrid de Bruijn CABOG Super-read construction WENGAN de Bruijn Partial order alignment Synthetic scaffolding graph SPAdes Multisized de Bruijn — ABySS Short-read only de Bruijn Paired-end-based contig extension — Statistiky assembly • N50 a L50 statistiky sady délek kontigů nebo skafoldů, prostřednictvím kterých můžeme srovnat kvalitu assembly • N50 definuje kvalitu assembly z hlediska spojitosti. Délka sekvence nejkratšího kontigů který přispěl k sestavení 50 % celkové délky. • L50 je definován jako nejmenší počet kontigů, jejichž součet délek tvoří polovinu velikosti genomu. Automatická anotace • Algoritmy- viz lekce Hledání genů • Servery pro automatickou anotaci - NCBI Prokaryotic Genome Annotation Pipeline (PGAP) https://www.ncbi.nlm.nih.gov/genome/annotatio prok/process/ - NCBI Eukaryotic Genome Annotation Pipeline https://www.ncbi.nlm.nih.gov/genome/annotation euk/process/ - RAST http://rast.nmpdr.org/ • Offline command line aplikace - Prokka, bakteriální genomy https://github.com/tseemann/prokka - MARK, eukaryotické genomy https://reslp.github.io/blog/My-MAKER-Pipeline/ % NCBI Resources @ How To 0 Sian in to NCBI Genome Genome t Limits Advanced Prokaryotic Annotation Home Documentation Complete Genome Submission ▼ WGS Genome Submission ■» NCBI Prokaryotic Genome Annotation Pipeline NCBI Prokaryotic Genome Annotation Pipeline(PGAP) is designed to annotate bacterial and archaeal genomes (chromosomes and plasmids). Genome annotation is a multi-level process that includes prediction of protein-coding genes, as well as other functional genome units such as structural RNAs, tRNAs, small RNAs, pseudogenes, control regions, direct and inverted repeats, insertion sequences, transposons and other mobile elements. NCBI has developed an automatic prokaryotic genome annotation pipeline that combines ab initio gene prediction algorithms with homology based methods. The first version of NCBI Prokaryotic Genome Pipeline was developed in 2001 and is regularly upgraded to improve structural and functional annotation quality [Haft DH et al 2018, Tatusova T et al 2016). Recent improvements utilize curated protein profile hidden Markov models (HMMs), including TIGRFAMS and new HMMs for antimicrobial resistance proteins, and curated complex domain architectures for functional annotation of proteins. NCBI's annotation pipeline depends on several internal databases and is not currently available for download or use outside of the NCBI environment. Related documentation: ■ Annotation process ■ Annotation standards ■ Assemblies excluded from RefSeq ■ Release notes GenBank The NCBI prokaryotic annotation pipeline is available as a sen/ice for GenBank submitters. The pipeline is capable of annotating both complete genomes and draft WGS genomes consisting of multiple contigs. You can request PGAP annotation when you submit your genome to GenBank. Both WGS and non-WGS genomes, including gapless complete bacterial chromosomes, can be submitted via the Submission Portal. You will be asked to choose whether the genome being submitted is considered WGS or not. The differences for GenBank purposes are: non-WGS: • Each chromosome is in a single sequence and there are no extra sequences ■ Each sequence in the genome must be assigned to a chromosome or plasmid or organelle ■ Plasmids and organelles can still be in multiple pieces. WGS: ■ One or more chromosomes are in multiple pieces and/or some sequences are not assembled into chromosomes % NCBI Resources 0 How To 0 Sian into NCBI Genome Genome t Limits Advanced Eukaryotic Annotation Home Documentatior ▼ Annotated Genomes ▼ Annotation Policy Request Annotation The NCBI Eukaryotic Genome Annotation Pipeline The NCBI Eukaryotic Genome Annotation Pipeline provides content for various NCBI resources including Nucleotide, Protein, BLAST, Gene and the Genome Data Viewer genome browser. This page provides an overview of the annotation process. Please refer to the Eukaryotic Genome Annotation chapter of the NCBI Handbook for algorithmic details. The pipeline uses a modular framework for the execution of all annotation tasks from the fetching of raw and curated data from public repositories (sequence and Assembly databases) to the alignment of sequences and the prediction of genes, to the submission of the accessioned annotation products to public databases. Core components of the pipeline are alignment programs (Splion and ProSplion) and an HMM-based gene prediction program (Gnomon) developed at NCBI. Important features of the pipeline include: • flexibility and speed • higher weight given to curated evidence than non-curated evidence ■ utilization of RNA-Seq for gene prediction ■ production of models that compensate for assembly issues ■ tracking of gene loci from one annotation to the next ■ ability to co-annotate multiple assemblies forthe same organism The products of an annotation run (chromosome, scaffolds and model transcripts and proteins) are labeled with an Annotation Release number. The Annotation Release name is the combination of the organism name and Annotation Release number (e.g. NCBI Pongo abelii Annotation Release 103) and is used throughout NCBI as a wayto uniquely identify annotation products originating from the same annotation run. Contents • Process o Source of genome assemblies o Masking ° Transcript alignments o RNA-Seq read alignments ° Protein alignments o Model prediction o Curated RefSeq genomic sequence alignments ° Choosing the best models for a gene o Protein naming and determination of locus type o Assignment of GenelDs ° Annotation of small RNAs RAST (Rapid Annotation using Subsystem Technology) Server http://rast.nmpdr.org/ Upload a Genome Complete Upload Pita sc consider the following options forth* RAST Annotation pipeline: -RAST Annotation Setting!: Qioose RAST [ RASTtk annotation K-rr::: Customize Yes RASTtk pipeline D Ctwose "Classic RAST' for the current production RAST, or "RASTtk" far the new modular RAST pipeline currently In siting. Customize the RASTtk pipeline Stage name Enabled Parameter« Condition I Cill-reatures-rRNA-SEED g Ye* A t call-features-tRNA- tmastan g Yes i A t call-features- repeat- region-SEED g Yes Minimum Identity && i /X Minimum length 100 t call-stteftocrotsins g Ye* Ä * call-pyrrnlysoprobei ns g Yes A * iall-featu res-Insertion-sequences ves A Automatically fix errors? t«li-reeture*-*trep-suis-repeat g Yes t call-fcaturcs-stncp-pncumo-rcocat V" Yes tcall-features-crispr g Yes tcall-reatures-CDS-glimmera g Yes t enii-reatu res-CDS-prodigal ^ Yes t call-Features' COS■oenemark Yes t annotate-protelns-kmer-v2 g Yes i annotate-oroteins-kmcr-vl ^ Yes I annotate-protelns-slmllarlty g Yes t resolve-overteppin.g-features g Yes ifind-close-ncijhbors J Yes tcall-features-prophage phispy Yes / Ye^ Minimum training length iCCX Minimum kmer hits required 5 Only annotate hypothetical proteins Yes Kmcr dataset to u*c j Re eascTO Only annotate hypothetical proteinsj/ Yes Only annotate hypothetical proteins:/ Yes Sgeno me- H«ie niHnc_n«m« ^ Sgena me- IHscie ntific_name V, A ä!«lcasr59 4 Fi> frameshifts? Yes Build metabolic Yes model? Turn on de&uo? Yes Set verbose !b :■: vol Disable Yes replication The automate annotattort process may run Into problems, such as gene candidates overlapping RNAs, or genes errtfteiWetf inside otner genes, to eutemeiicWr resolve these problems (even if that requires deleting some gent candidates), plc&sv check this box. If you wish for the pipeline to fix frameshifts, check this oofon. Otherwise frameshifts will not be corrected. If you wish RAST to build a metabolic model for this genome, check this opWon. If you wish debug statements to be printed tor this Job, cheek this box. Set this to the verbosity level of choicer for error messages. Even If this job is Identical to a previous job, run it from scratch. Submit a genome Submit batches of genomes (improved) Find rRNA genes (new version) Find tRNA genes Find repeat regions Find pyrrolysyl and selenoproteins Call ORFs (expanded) Find Streptocococcus repeats (if necessary) Find CRISPR elements Annotate genes with k-mers: FIGfam or annotation-based Annotate hypothetical proteins using related genomes 4 Add user-defined features and annotations (optional) Remove overlapping features (new version) Export Genome Fli>iA ilKupktid RAST anotace bakteriálho genomu a klasifikace do subsystémů Subsystem Coverage Subsystem Category Distribution Subsystem Feature Counts Cofactors, Vitamins, Prosthetic Groups, Pigments (152) Cell Wall and Capsule (100) Virulence, Disease and Defense (71) Potassium metabolism (6) Photosynthesis (0) Miscellaneous (32) Phages, Prophages, Transposable elements, Plasmids (45) Membrane Transport (50) Iron acquisition and metabolism (32) RNA Metabolism (122) Nucleosides and Nucleotides (90) Protein Metabolism (200) Cell Division and Cell Cycle (40) Motility and Chemotaxis (0) Regulation and Cell signaling (46) Secondary Metabolism (4) DNA Metabolism (82) Fatty Acids, Lipids, and Isoprenoids (93) Nitrogen Metabolism (23) Dormancy and Sporulation (11) Respiration (31) Stress Response (74) Metabolism of Aromatic Compounds (5) Amino Acids and Derivatives (262) Sulfur Metabolism (15) Phosphorus Metabolism (27) Carbohydrates (173) Vizualizace úseku anotovaného genomu a srovnávací analýzy i VH-l.:!l lil: J :;■ !-.'m-i-.hI Tl(Uu J' Ryjiyn | ^L>r i r-dl "J-". transposa&e Staphylococcus aureus MJJ5 Tn-induted deletion MecR Vizualizace lokusů: • Srovnání anotace genů Vizualizace celých genomů: • Míra konzervovanosti • Inzerce/delece Platformy pro manipulaci sekvencí usnadňují práci uživatelům, kteří nejsou zběhlí v programování a administraci systémů Webový server Galaxy - open source - p ři p rave n é wo rkfI ows - od jednoduchých textových manipulací po analýzu sekvenačních dat, genome assembly, metagenomiku - nástroje pro vizualizaci dat - https://usegalaxy.org Tools Galaxy PROJECT Analysis History i V Ô Baue Statistics f : i... i: Tn i 1 vi-n-p. UnmJanl FWT¥lřfl r.Tij.n.'llin TirtfcrtiÉI-i t.,.,1........ M.,i~ íivr.i-- nfrmu-. rvujK '. .Lil. GEWMttN Ite) ĽomTfjfcicil ksc ills &Yiif i.'lliiriii IJ ľuUl Sticht; HH1M0 Koíiíŕrrľlrrgľ. Tü 4GC B Menu 1 Prt haw s«]Lipnfŕ quality >ME-^iH.'l.ns:.5:Tri-tf f] n: j ť.:-LH ftÄ-f.tv I.Ti » ŕ S n:it^mit nii-J : OutK r,i .1. . y'i. _ Acalll: □ situ AlcIIJI : q sl... rcn la. Zoom view Details view 5 S A K 3 L FIR *PR5R5S'W V.V..... ■ ■ _ ■ . - ■ ■ . ■■ ■ r TTCTTtt^Tflg | A.CTCGCAGC GTT T C CGtGAGCCtGA^CGfiJACGAGCAGCCACTACATGAAGrSGTCGACGCGCTTCÄfiCGAGAAGAACfJVCC | TAFA5PHAÜ5TP 5rS*WSR5TARRS P BBLPAffPQHAPKNHVEGAliHlNEEQH ■ ANi=-JĹJrJe-:i.ie; lUJUľl gen| # Auto-^rrotkthwH Ipeilľl.qen | flf 4fl5T Annotation editor Sequence View Annotations Dotplot (Self) Text View Lineage Info <^J + G* Extract ^( R.C. S$ Translate AddrEdit Annotation ^ Allow Editing ife Annotate £ Predict Save multiple cloning site (Xhol-Stu!) Promoter rnnJ--X__ terminator .' ',° 2,° 3? ÄAG CTT GAAA A AAATGAA ATTCT C TAC TATATTAC ■Ml k f s t TTAATTTCCGTTGT TATGG CTGCTCCAGTTTCTAC s v v mm aap hm s t 100 110 120 130 ačgatcttccaatatcggttcč ag_a_agaagc čttg p .3d s mm p hm a mb 150 160 170 1B0 ctťaaccggggaťgaagtttccťtgttgcctgťta ■m t g d h v s l mm p mm 220 230 ACTGGTATTCTATTCTTAAACACCACCATCGCTGA T g t mh F mb n T T hm a H 250 260 270 28 ACAAGGATGATCTCGAGAAAAGAGÄGGCTGAAGCT d d ^^^^^^m k r ^m a ^m a 300 310 320 TCCTAGGG G TA C CGTCG AC G GCGCGCCTGCGGCCG p r t ^^■■e a p a a 350 360 370 TGAATCGAGAATTTATÁCTTAGATAAGTATGTACT 40O 410 420 TATGAGAŤACTGATGTATACATGCATGÁTAATATT Alt click on a sequence position or annotation, or select a region to zoom in. Alt-shift click to zoom out. Jak se data dostanou do databází? Bacteria and Bacteriophage A Compilation from the Genbank® and EMBL Data Libraries UmIt . mg7-........ PHIX174CS: bacteriophage phu;74 gene a pfulsiri cleavage sit.*, (ss-DHAj EHBL ID: PH174CS ACCESSION NUHfiESS: KÚ0S13 REFERENCES: KEVHŮRD5: SflUBCE: COMMENT: SITES: ORIGIN: SEQUENCE: [1J I basts 1 to &5! flro"n,D.R., 5ehBidt-Glene"lnhel, T. , Rslnberg.D. pre-entry &4-D6-01 ; "dna sequences 94Q2-&412 |1&S3| DATE and Huf"itirJ which support activities of tne bacteriophage phljc!74 gene a protein'-; J fllol Chen £5BP closing activity: gene Aj niching activity; origin of replication: replication form, bacteriophage pMjl74 (strain ai3; dna, grown in s.coli JiM?M. Bacteriophage piw-XltA the gene a protein of phiil74 nediates bůth initiation and termination of viral strand dna synthesis, it nicks and closes within a 3D nucleotide sequence |basts 13-4? | "hich Is well conserved aiong ieosohadral ss(c! dna phages; tbis 33 bp region is implicated as the specific target fůr gene a protein action, and as tne essential dna sequence required for replication origin function, key site span description 1 sequence not numbered in [1] D gene a protein cleavage site of phlnl74. 18 c 12 g 12 t refnuobr 1 eulss £C replication origin &5 bp £3 a 1 aatgtgctre cccaacttga tattaataac actatagacc accgccccga aggggacgaa aaatg PHIX1T4DE: bacteriophage phliclT4 d and e genes. EMBL 10: * ACCESSION NUMBERS: REFERENCES: |1] [bases 1 la SSI! flarrell,B.C.. Air,CM. and bacteriophage phi*174"; Nature 264d 34-41 (1976! J02493 HutChiSOh,C.A.III. DATE: pre-entry B3-Q3-D1 "overlapping genes in SOURCE:: SEQUENCE: 1 101 £C1 301 4D1 501 phijt;74. 521 bp gagtccgatg tcaggcttct gttgaggctt ccgtcaacat cgcgtttacc ctaaaggtaa Bacteriophage 125 a 115 c ctgttcaacc actaataggt gccgttttgg gcgtttatgg tcaaacggcc ttgcgtgtac aaaacgttct atttaaccga tacgctggac tgtctcatca gcgcaggaaa B phl-Hl74 124 g 157 t aagaaatcat agatgatttc tttgtgggat tggaaggcgc eaetgaegtt gagtcaagtt actgaacaat ccgtacgttt ccagaccgct ttggcctcta ttaagctcat gattttctga cgagtaacaa agtttggatt gctactgacc gctctcgtgc tcgtcgctgc aeectegctt tcctgctcct gttgagttta ttgctgccgt cattgcttat tatgtlcalc tgaatttaeg gaaaacatta ttaatggcgt cgagcgtccg gttaaagccg ctgaattgtt cttactgaeg cagaagaaaa cgtgcgtcaa aaattacgtg cggaaggagt gatgtaatgt Jak se data dostanou do databází? • Submission - Vložení do databáze • webový portál - Banklt (GenBank) https://submit.ncbi.nlm.nih.gov/about/bankit/ - Submission Portal (GenBank) https://submit.ncbi.nlm.nih.gov/subs/qenome/ - Webln (EMBL/European Nucleotide Archive) http://www.ebi.ac.uk/ena/submit - Sakura (DDBJ) http://www.ddbj.nig.ac.jp/sub/websub-e.html • samostatná aplikace pro PC - Sequin, delší manuálně anotované sekvence, fylogenetické, populační nebo mutační studie obsahující sekvenční přiložení http://www.ncbi.nlm.nih.gov/Seguin/download/seg download.html - Tbl2asn, command line program, celé genomy EST, STS a zasílaní velkých dávek sekvencí, automatizuje vytvoření záznamu sekvence • Minimální požadavky pro vložení GenBank formát • Záznam anotovaného genomu • Skládá se ze tří sekcí - Header Informace o vlastnostech sekvence a jejím zdroji - Feature Table Anotacemi formou deskriptorů; u genů může obsahovat i jejich translaci do proteinu - Sequence Vlastní nukleotidová sekvence • Historické omezení na 60 znaků na řádek - pole v hlavičce tak mají maximální délku - v současnosti už neplatí striktně LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL REMARK COMMENT FEATURES source AY182241 1931 bp mRNA linear PLN 04-MAY-2004 Malus x domestica (E,E)-alpha-farnesene synthase (AFS1) mRNA, complete cds. AY182241 AY182241.2 GI:32265057 Malus x domestica (cultivated apple) Malus x domestica Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; rosids; eurosids I; Rosales; Rosaceae; Maloideae; Malus. 1 (bases 1 to 1931) Pechous,S.W. and Whitaker,B.D. Cloning and functional expression of an (E,E)-alpha-farnesene synthase cDNA from peel tissue of apple fruit Planta 219, 84-94 (2004) 2 (bases 1 to 1931) Pechous,S.W. and Whitaker,B.D. Direct Submission Submitted (18-NOV-2002) PSI-Produce Quality and Safety Lab, USDA-ARS, 10300 Baltimore Ave. Bldg. 002, Rm. 205, Beltsville, MD 20705, USA 3 (bases 1 to 1931) Pechous,S.W. and Whitaker,B.D. Direct Submission Submitted (25-JUN-2003) PSI-Produce Quality and Safety Lab, USDA-ARS, 10300 Baltimore Ave. Bldg. 002, Rm. 205, Beltsville, MD 20705, USA Sequence update by submitter On Jun 26, 2003 this sequence version replaced gi:27804758. Location/Qualifiers 1..1931 /organism="Malus x domestica" /mol_type= "mRNA" /cultivar="1 Law Rome 1" /db_xref="taxon:3750" /tissue_type="peel" 1..1931 /gene="AFS1" 54..1784 /gene="AFS1" /note="terpene synthase" /codon_start=l /product="(E,E)-alpha-farnesene synthase" /protein_id="AA022848.2" /db_xref="GI:32265058" / trans lation= "MEFRVHLQADNEQKIFQNQMKPEPEASYLINQRRSANYKPNIWK NDFLDQSLISKYDGDEYRKLSEKLIEEVKIYISAETMDLVAKLELIDSVRKLGLANLF EKEIKEALDSIAAIESDNLGTRDDLYGTALHFKILRQHGYKVSQDIFGRFMDEKGTLE DFLHKNEDLLYNISLIVRLNNDLGTSAAEQERGDSPSSIVCYMREVNASEETARKNIK GMIDNAWKKVNGKCFTTNQVPFLSSFMNNATNMARVAHSLYKDGDGFGDQEKGPRTHI LSLLFQPLVN" 1 ttcttgtatc ccaaacatct cgagcttctt gtacaccaaa ttaggtattc actatggaat 61 tcagagttca cttgcaagct gataatgagc agaaaatttt tcaaaaccag atgaaacccg 121 aacctgaagc ctcttacttg attaatcaaa gacggtctgc aaattacaag ccaaatattt 181 ggaagaacga tttcctagat caatctctta tcagcaaata cgatggagat gagtatcgga 241 agctgtctga gaagttaata gaagaagtta agatttatat atctgctgaa acaatggatt gene Tradiční záznam GenBank Header v Feature Table Sequence Identifikace záznamu v primárních sekvenčních databázích Databáze - GenBank - EMBL-Bank (European Nucleotide Archive, ENA) - DDBJ Identifikátory sekvence GenBank< Send to: Escherichia coli citrate lyase beta-subunit (citE) gene, partial cds lyase gamma-subunit (citD), citrate lyase ligase (citC), histidine ki two component response regulator (dpiA) genes, complete cds GenBank: U46667.1 FASTA Graphics Go to: R LOCUS DEFINITION ACCESSION VERSION BCT Z5-3UL-2Ö16 gene, partial ECU46667 5B24 bp DNA linear Escherichia coli citrate lyase beta-subunit (citE) cds; and citrate lyase gamma-subunit (citD)^ citrate lyase ligase (citC)j histidine kinase (dpiB)., and two component response regulator (dpiA) geneSj complete cds. U46667 U46667.1 ® Complete Record OGene Features Choose Destination ® File O Clipboard O Collections O Ana lys is Tool Download 1 item. Format GenBank Show Gl Q Create File Protein Historie verzí • Sequence Revision History tool - Struktura zápisu: http://www.ncbi. nim. nih.gov/nuccore/U46667?report=girevhist Revision History » Send to: » Show difference between I and II as GenBank/GenPept v Compare Escherichia coli citrate lyase beta-subunit (citE).gere, partial cds; and citrate lyase gamma-subunit (citD), citrate lyase ligase (cite}, histidine kinase id piB}. and two component response re gulator (d pi A) g enes. com plete cds 5,024 bp linear DNA Accessi or: U46667.1 Gl: 3172140 Current status: live I II Version Gi Accession Update Date Action ® ® 3172140 3172140 U 46667.1 U 46667.1 Jul 25. 2016 12:54 PM Jun 23 2010 09 27 AM o o 1 3172140 U46667.1 Nov 30. 2009 01:55 PM o o ' 3172140 U46667.1 AlW 7 1998 0928AM o o 1 3172140 U46667.1 Jun 2. 1993 04:31 PM o o 0 2734632 U46667.0 Jan 3. 1998 12:12AM o o 0 2734632 U46667.0 Jan 1. 1998 12:30 AM https://submit.ncbi.nlm.nih.gov/ National Library of Medicine national Centerfor Biotechnology Information Submission Portal Submission Portal Submit to the world's largest public repository of biological and scientific information Type a few words about the sequence data you are submitting and select an option to learn more. You can also browse submission information below. What do you want to submit? Enters few words about your sequence data. Enter sequence type Q Suggest tool SARS-CoV-2 1 16SrRNA 1 genome 1 'TS SRA GenBank Gen Bank is the world's largest nucleotide archive containing sequences from all branches of life. The archive is a foundation for medical and biological discovery. http://www.ebi.ac.uk/ena/subnriit N Submit and update Submitting and updating data We offer a number of services through which data (including updates) can be submitted to the European Nucleotide Archive (ENA). These technologies provide options appropriate for the scale and frequency of submission, the expertise and capacity of the submitter and the nature of the data to be transferred. The choices below lead users most directly to the appropriate submission route, Submit read data Submit assembled sequence and/or annotation (No partial or complete assemblies) I Submit genome assemblies (contigs/scaffolds/chromosomes) Email ENA helpdesk https://ddbi.niq.ac.ip/submission DDBJ submission portal Nucleotide Submission of small-scale nucleotide sequence data with annotation. In case of project data, please use BioProject, MSS, and DRA. skbbbbb Create new submission BioProject You must obtain BioProject ID and/dr locustag prefix, before the submission of project data, such as WGS, complete genome, transcriptome project data, DRA: and DTA. The BioProject database collects information about a higher order organization of research projects and its corresponding data Using BioProject ID make it possible to obtain the same project from various nucleotide sequence databases. Mass Submission System (MSS) Please use mass submission system for the submission of following data. WGS, WGS scaffold(s), complete bacterial/eukaryotic genome, HTG, CON, GSS, EST, TSA, and other data includes huge number of sequences. DDBJ Sequence Read Archive (DRA) For repository of output data generated by next-generation sequencing machines including Roche 454 GS System®, lllumina Genome Analyzer®, Applied Biosystems SOLiD® System, and others. Podklady pro GenBank Povinné položky • Autoři sekvence • Kontakt na autory • Publikace (PubMed) • Použitá sekvenační technologie • Použitá metoda assembly • FASTA nukleotidová sekvence • Název organismu, taxonomické zařazení • Metadata -izolát, kmen, datum odběru, země původu • Anotace sekvencí - buď vlastní nebo automatická Protokoly pro zaslání do nukleotidové databáze • Standard • Whole Genome Shotgun (WGS) • Complete Microbial or Eukaryotic Genomes • ESTs (expressed sequence tags) a GSSs (genome survey sequences) • High-Throughput Genomic Sequences (HTGs) • Transcriptome Shotgun Assembly (TSA) • Third Party Annotation (TPA) - záznamy, které upřesňují existující sekvence uložené do databází jinými autory - striktní požadavek na přímý experimentální důkaz Typy standardních anotovaných sekvencí (nucleotide sequence database) • prokaryotické geny a části genomu • eukaryotické geny a části genomu • mRNA sekvence • rRNA a nebo ITS • nekódující RNA • virové sekvence • transpozony a inzerční sekvence • mikrosatelity • pseudogeny • klonovací vektroy • fylogenetické nebo populační studie (alignmenty) Sekvence, které nejsou akceptovány v primárních databázích sekvence bez fyzického (biologického) protějšku - např. konsenzní sekvence genomové sekvence více exonů bez údajů o sekvencích intronů sekvence <200 bp (vyjma patentových) sekvence primem (mohou být zaslány do NCBľs Probe database) Douze sekvence proteinů (mohou být zaslány do JniProt/SwissProt) sekvence složené z genomové sekvence a mRNA reprezentované jako jedna sekvence Nezpracovaná zdrojová data z genomových projektů BioSample & BioProject mohou obsahovat různé typy archivů - Trace Archive • sekvence získaní Sangerovou technikou sekvenování • struktura složek se *.scf nebo *.abi soubory TOP_DIRECTORY/ TOP_D I RECTORY/TRACE I NFO.txt TOP_DIRECTORY/MD5 TOP_DIRECTORY/README TOP_DIRECTORY/traces TOP_D I RECTORY/traces/H BBA/ TOP_DIRECTORY/traces/HBBA/HBBAA1 U0001 .scf TOP_DIRECTORY/traces/HBBA/HBBAA1U0002.scf TOP_DIRECTORY/traces/HBBA/HBBAA1U0003.scf - Sequence Read Archive (SRA) • archiv obsahující alignment sekvencí získaných při 454, lonTorrent, lllumina, SOUD, Helicos, PacBio nebo Complete Genomics - The database of Genotypes and Phenotypes (dbGaP) • interakce genotypu a fenotypu člověka Sequence Read Archive (SRA) Formát dat a minimální požadavky • Submission portal https://submit.ncbi.nlm.nih.gov/subs/sra/ • Volitelné nahrání primárních sekvenačních dat • SRA toolkit https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software • Minimální požadavek je: primární sekvence (báze) a kvalita = FASTQ • Doporučený formát dat je BAM (aligned) • Další akceptovatelné formáty dat z různých platforem jsou - SRF - General Fastq - SOUD Fastq - Illumina Fastq - 454 SFF - Ion Torrent SFF - PacBio, Nanopore HDF5 - CompleteGenomics Data Package SRA Sequence Read Archive {: ;l-.'Aj makes biological sequence data available to the research communily to enhance reproducibility and allow for new discoveries by comparing data sets The SRA stores raw sequencing data and alignment information from high-throughput sequencing platforms, including Roche 454 GS System®. Illumina Genome Analyzer®. Applied Biosystems SOLiD System®. Helicos Heliscope®. Complete Genomics®, and Pacific Biosciences SMRT®. Getting Started How to Submit How to search and download Mnw to use SPA in the cloud Submit to SRA Tools and Software Download SRA Toolkit SRA Toolkit Documentation SRA-BLAST SRA Run Browser SRA Run Selector Related Resources Submission Portal Trace Archive ()t)Q.ll'll()l[|(- lildl ■llljl'l.t Rion.jrnplf? Metadata v SRA • Datové soubory jsou zasílány s metadaty - Studie - Experiment - Vzorek - Běh - Analýza - eticky citlivá data (EGA) Příklad SRAs mikrobiálním genomem https://trace.ncbi.nlm.nih.qov/Traces/sra/?run=SRR9600155 Whole Genome Shotgun (WGS) • WGS sekvenační projekty jsou celé genomy nebo chromozomy sekvenované strategií celogenomového shotgun sekvenování • Části WGS projektu jsou kontigy, které nesmí obsahovat mezery • WGS projekty mohou být anotovány, může být zvolena automatická anotace s NCBI pipeline • Volitelně - soubor AGP ukazuje, jak jsou kontigy oddělené mezerami uspořádány na chromozomu • Zasílají se přes Genome submissoin portal Metagenomy • Sekvenační projekty analýzy společenstev z určitých ekologických zdrojů nezávislé na kultivaci slouží pro studium - genetické diversity, struktury populací, ekologické úlohy - metabolických funkcí - stanovení kompletních genomů nekultivovatelných organismů - izolaci nových mikroorganismů (genetických zdrojů) z prostředí • Sekvence jsou vzájemně propojené v rámci BioProject • Bývá vyžadováno nahrání do SRA • Metagenomové projekty mohou představovat - Neanotované sekvence s převahou informačních sekvencí rRNA - Celkové metagenomové projekty sestavené do kontigů • obsahují částečné genomy z taxonomicky různých skupin • MG-RAST - anotace metagenomu na serveru • Mothur a QIIME2 obsahují nástroje pro přípravu dat NCBI Gene Expression Omnibus (GEO) - mezinárodní veřejné úložiště v NCBI • https://www.ncbi.nlm.nih.qov/qeo - archivuje zpracované datové soubory a metadata o • genové expresi • epigenomice - generované technologiemi • sekvenování nové generace • Microarray - nabízí webové nástroje, pro analýzu a vizualizaci diferenciální genové exprese NCBI Gene Expression Omnibus (GEO) 100% 90% 80% oj s. I 70% 1 □ C ft w 60% 50% 40% 30% 20% 10% 0% 2013 2014 20LS 20L6 2017 201fi Year HHM expression profiling by NGS epigĚnůmie pra filing by NGS total nunnberoF studies 250000 200000 « u 'S 150000 Ž o 100OO0 I É 500O0 2 2019 2020 2021 2022 exprÉ^iDľt profiling by array B epigonům k profil i ng by array isooo 14000 12000 Růst a trendy datových typů za poslední desetiletí v databázi GEO •Total number of RNA-seq studies Z toho počet studií RNA-seq a jednobuněčné RNA-seq v GEO 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 Year- NCBI Gene Expression Omnibus (GEO) C5£4i$8& cwitroi ví low k * i B Top differentially expressed penes Download hill table MM columns ■ ..-■■..■n' 1W37JMT 114É24 231* pad] DlOD * S7b-S74 1 GTe-JOl GSE4lS86/23ie/FLNC 100 63 40 3D • expression vaije ODD a 70b-27» 2 44b-204 TI1 -4i«u uvap piol. nbri -4 1527 1»1 419S Syntbúl EHVFCI F L NC Volcano plot D GSE41536: Expression data for HT29 cells treated with... control vs low, Pad]«0r05 GenelD 113730 Symbol KmOC7B [;.:v.ri(j !>-r-. kekfi domain containing 78 kJí2((0M change) -3677 JojKXPvSue) 140 84S ^ £if GO Process Cell cycle RNA processing Positive regulation o1 metabolic process Immunoglobulin V(D)J recombination Cell surface receptor signaling pathway Signal transduction 2- Sco re Příklady vizualizace dat z databáze GEO nástrojem GE02R. Poskytuje interaktivní grafy (Umístěním kurzoru na bod se zobrazí jeho GenelD, Symbol, Popis, log2 (násobná změna) a -log10 ( P -hodnota), tabulky nejlepších odlišně exprimovaných genů se statistikou („Top" diferenciálně exprimované geny) Struktura databází (BioSample & BioProject) BioProject PRJNAxxxxx Biologické replikáty I BioSample SAMNOOxxxxxx ^^AMNOOxxxxx^J I Různé vzorky Technické replikáty BioSample SAMNOOxxxxxx Sequence Read IArchive (SRA) ^SRXOxxxxx T Sequence Read Archive (SRA) SRX0)QQOQ<^B Sequence Read Archive (SRA) Short reads lumina) SRXOxxxxx Genome Assembly (ASM) [ GCA_000000000 } Whole Genome Shotgun (WGS) I [ ABCD000000000 jj Long reads (PacBio) Genome Assembly (ASM) GCA_000000001 l i<—■ i BioSample SAMNOOxxxxxx mple )xxxxxx Sequence Read Archive (SRA) SRXOxxxxx RNA-seq umina) Gene Expression Omnibus (GSE) GSE00000 NCBI RefSeq assembly GCF 000000001 GenBank CP000000 RefSeq NC CP000000 Genome submissoin portal https://www.ncbi.nlm.nih.gov/qenbank7qenomesubmit/ % NCBI Resources© How To© pantucek My NCBI Sign C Gen Bank Nucleotide * I Search GenBank ▼ | Submit ▼ | Genomes ▼ WGS ▼ Metagenonnes ▼ TPA ▼ TSA ▼ INSDC ▼ Other ▼ 1 III II Prokaryotic and Eukaryotic Genomes Submission Guide Both WGS and non-WGS genomes; including gapless complete bacterial chromosomes, can be submitted via the Submission Portal. You will be asked to choose whether the genome being submitted is considered WGS or not. The differences for GenBank purposes are: non-WGS ■ Each chromosome is in a single sequence and there are no extra sequences • Each sequence in the genome must be assigned to a chromosome or plasmid or organelle ■ Plasmids and organelles can still be in multiple pieces WGS Genome Resources About WGS WGS Browser Genome Submission Guide Genome Submission Portal Update Genome Records FAQ tb!2asn Create Submission Template Eukaryotic Annotation Guide Prokaryotic Annotation Guide Ann eta'Jen Example Files Discrepancy Report NCBI Prokaryotic Genome Annotation Pipeline AGP Format Complex Assembly Submission Guide Metagenorne Submission Guide Bio Project Postup zaslání GenBank Standardního typu • http://www.ncbi.nlm.nih.gov/books/NBK51157/ The GenBank Submissions Handbook GenBank Submissions Handbook NJCBI Help Manual V N"oliono| CflP In r U.S. NalioroJ libra^ oF Madkín* https://www.ncbi.nlm.nih.gov/WebSub/ Banklt Submit new sequences to GenBank What type of sequence data do you have? O SARS-CoV-2 Q O Ribosomal RNA (rRNA) or rRNA-ITS O Metazoan (multicellular animal) C0X1 '. ■ Influenza virus O IMorovirus O Dengue virus O Eukaryotic and Prokaryotic Genomes (WGS or Complete) C Transchptome Shotgun Assembly (TSA) O Unassembled sequence reads (SRA) O Sequence data not listed above (through Banklt): mRNA, genomic DNA, organelle, ncRNA, plasmids, other viruses, phages, synthetic constructs Start Need help? Contact GenBank user services at info@ncbi.nlm.nih.gov. Další požadavky na zaslání sekvence • Informace o datu zveřejnění • Informace o relevantních publikacích • Popis zdroje sekvence • Vlastní sekvence -typ a tvar molekuly - anotace vlastností sekvence Popis zdroje sekvence 1 organism nezkrácené vědecké jméno Příklad: [organism=Drosophila melanogaster] lineage taxonomické zařazení organismu (dle NCBI taxonomy database) http://www.ncbi.nlm.nih.gov/Taxonomv/Browser/wwwtaxxgi?mode=Root molecule ve tvaru "DNA" nebo "RNA". Příklad : [molecule=DNA] moltype může nabývat následujících hodnot Příklad : [moltype=Genomic DNA] - Genomic DNA - Genomic RNA - Precursor RNA - mRNA [cDNA] - Ribosomal RNA - Transfer RNA - Small nuclear RNA - Small cytoplasmic RNA - Other-Genetic - cRNA - Small nucleolar RNA topology Popis zdroje sekvence 2 location může nabývat následujících hodnot Příklad: [location=mitochondrion] - genomic - chloroplast - kinetoplast - mitochondrion - plastid - macronuclear - extrachromosomal - plasmid - cyanelle - proviral - virion - nucleomorph - apicoplast - leucoplast - proplastid - endogenous-virus - hydrogenosome Genetic code (http://www.ncbi.nlm.nih.qov/Taxonomy/Utils/wpri ntgc.cqi?mode=c) Popis zdroje sekvence 3 Další popisovače ke zdroji sekvence acronym • forma-specialis • serogroup anamorph • fwd-pcr-primer-name • serotype authority • fwd-pcr-primer-seq • serovar biotype • genotype • sex biovar • group • specific-host breed • haplotype • specimen-voucher cell-line • identified-by • strain cell-type • isolate • sub-species chemovar • isolation-source • subclone chromosome • lab-host • subgroup clone • lat-lon • substrain clone-lib • map • subtype collected-by • note • synonym common • pathovar • teleomorph country • plasmid-name • tissue-lib cultivar • plastid-name • tissue-type dev-stage • pop-variant • type ecotype • rev-pcr-primer-name • variety endogenous-virus-name • rev-pcr-primer-seq forma • segment Formát sekvence • Sekvence nukleové kyseliny a kódovaných proteinů připravené ve formátu FASTA Nucleotide Sequence: >ABC-1 [organism=Saccharomyces cerevisiae][strain=ABC][clone=l] AT T GC GT TAT 66AAAT T C GAAAC T GC C AAAT AC TAT GT C AC CAT CAT T GA T GC AC C T GGAC AC AGAGAT T T CAT C AAGAAC AT GAT C AC T GGT AC T T Protein Sequences: >4E-I [gene=eIF4E] [protein=eukaryotic initiation factor 4E-I] MQSDFHRMKNFANPKSMFKT SAPS TEQGRPE PPT SAAAPAEAKDVKPKED PQE TGE PAGN . . . >4E-II [gene=eIF4E] [protein=eukaryotic initiation factor 4E-II] MWLE TE KT SAP S TE QGRPE PPT S AAAPAE AKD VKPKED PQE T GE PAGNT AT T T APAGDD . . . Přerušená sekvence >m_gagei [organism=Mansonia gagei] Mansonia gagei NADH dehydrogenase ... ATGGAGCATACATATCAATATTCATGGATCATACCGTTTGTGCCACTTCCAATTCCTATTTTAATAGGAA TTGGACTCCTACTTTTTCCGACGGCAACAAAAAATCTTCGTCGTATGTGGGCTCTTCCCAATATTTTATT GTTAAGTATAGTTATGATTTTTTCGGTCGATCTGTCCATTCAGCAAATAAATAAAAGTTCTATCTATCAA TATGTATGGTCTTGGACCATCAATAATGATTTTTCTTTCGAGTTTGGCTACTTTATTGATTCGCTTACCT >?2oo <- Délka přerušení GGT AT AAT AACAGT AT T AT T AGGGGC T AC T T T AGC T C T T GC TCAAAAAGATATTAAGAGGGGTTTAGCCTATTCTACAATGTCCCAACTGGGTTATATGATGTTAGCTCTA GGTATGGGGTCTTATCGAGCCGCTTTATTTCATTTGATTACTCATGCTTATTCGAAGGCATTGTTGTTTT TAGGATCCGGATCCGTTATTCATTCCATGGAAGCTATTGTTGGATATTCTCCAGATAAAAGCCAGAATAT GGT T T T T AT GGGC GGT T T AAGAAAGC AT GT GC CAAT T ACAC AAAT T GC T T T T T T AGT GGGT ACAC T T T C T CTTTGTGGTATTCCACCCCTTGCTTGTTTTTGGTCCAAAGATGAAATTCTTAGTGACAGCTGGTTGT >?unkioo <- Přerušení neznámé délky T C AAT AAAAC T AT GGGGT AAAGAAGAACAAAAAAT AAT T AACAGAAAT T T T CGT T T AT C T CC T T T AT T AA TATTAACGATGAATAATAATGAGAAGCCATATAGAATTGGTGATAATGTAAAAAAAGGGGCTCTTATTAC TATTACGAGTTTTGGCTACAAGAAGGCTTTTTCTTATCCTCATGAATCGGATAATACTATGCTATTTCCT ATGCTTATATTGGCTCTATTTACTTTTTTTGTTGGAGCCATAGCAATTCCTTTTAATCAAGAAGGACTAC ATTTGGATATATTATCCAAATTATTAACTCCATCTATAAATCTTTTACATCAAAATTCAAATGATTTTGA GGATTGGTATCAATTTTTAACAAATGCAACTCTTTCAGTGAGTATAGCCTGTTTCGGAATATTTACAGCA TTCCTTTTATATAAGCCTTTTTATTCATCTTTACAAAATTTGAACTTACTAAATTTATTTTCGAAAGGGG GTCCTAAAAGAATTTTTTTGGATAAAATAATATACTTGATATACGATTGGTCATATAATCGTGGTTACAT Sekvenční přiložení • Fasta+GAP >ABC-1 [organism=Saccharomyces cerevisiae][strain=ABC][clone=l] ---ATTGCGTTATGGAAATTCGAAACTGCCAAATACTATGTCACCATCAT TGATGCACCTGGACACAGAGATTTCATCAAGAACATGATCACTGGTACTT >ABC-2 [organism=Saccharomyces cerevisiae][strain=ABC][clone=2] GATATTGCTTTATGGAAATTCGAAACTGCCAAATACTATGTCACCATCAT TGATGCACCTGGACACAGAAATTTCATCAAGAACATGATCACTGGTACTT >ABC-3 [organism=Saccharomyces cerevisiae][strain=ABC][clone=3] ---ATTGCTTTATGGAAATTCGAAACTGCCAAATACTATGTTA------- TGATGCACCTGGACACAGAGATTTCATCAAAAACATGATCACTGGTACTT 3 100 ABC-1 —ATTGCGT TATGGAAATT CGAAACTGCC AAATACTATG TCACCATCAT ABC-2 GATATTGCTT TATGGAAATT CGAAACTGCC AAATACTATG TCACCATCAT ABC-3 —ATTGCTT TATGGAAATT CGAAACTGCC AAATACTATG TTA....... TGATGCACCT GGACACAGAG ATTTCATCAA GAACATGATC ACTGGTACTT TGATGCACCT GGACACAGAA ATTTCATCAA GAACATGATC ACTGGTACTT TGATGCACCT GGACACAGAG ATTTCATCAA AAACATGATC ACTGGTACTT • PHYLIP >[organism=Saccharomyces cerevisiae][strain=ABC][clone=1] >[organism=Saccharomyces cerevisiae][strain=ABC][clone=2] >[organism=Saccharomyces cerevisiae][strain=ABC][clone=3] Anotace vlastní sekvence • Kódované proteiny -CDS interval nekompletnost na N- nebo C- konci - gene interval odpovídající CDS u experimentálně prokázaných genů -mRNA interval obsahující 5'-UTR a 3'-UTR • Kódované strukturní RNA Příklady některých dalších modifikací deskriptorů • Title - Informace vyskytující se v databázi v DEFINITION LINE • Comment - Poznámka k různým vlastnostem • Technique - Umožňuje výběr techniky použité pro vytvoření nebo experimentální evidenci vlastností sekvence Přehled deskriptorů pro popis vlastností sekvence (http://www.ncbi.nlm.nih.gov/Banklt/help.html) attenuator • misc_RNA • S_region C-region • misc_signal • satellite CAAT_signal • misc_structure • scRNA CDS • modified_base • sig_peptide conflict • mRNA • snRNA D-loop • N_region • snoRNA D-segment • old_sequence • source enhancer • operon • stem loop exon • oriT • STS gap • polyA_signal • TATA_signal GC_signal • polyA_site • terminator gene • precursor_RNA • transit_peptide iDNA • prim_transcript • tRNA intron • primer_bind • unsure J_segment • promoter • V_region LTR • protein_bind • V_segment mat_peptide • RBS • variation misc_binding • repeat_region • 3'clip misc_difference • repeat_unit • 3'UTR misc_feature • rep_origin • 5'clip misc_recomb • rRNA • 5'UTR Příklady sekvencí Sekvence mRNA nebo cDNA Kódující oblasti včetně iniciačního a terminačního kodonu Název proteinu Název genu Sekvence proteinu Homo sapiens prolidase (PEPD) mRNA, complete cds. FEATURES source mRNA gene CDS Location/Qualifiers 1..1888 /organism="Homo sapiens /chromosome="19" /map="19ql2-ql3.2" /cell_type="fibroblasts 1..1888 /gene="PEPD 1..1888 /gene="PEPD 17..1498 /gene="PEPD /EC_number="3.4.13.9 /note="imidodipeptidase /product="prolidase ii n in n Sekvence prokaryotického genu Kódující intervaly Název proteinu Název genu, je-li známý Aminokyselinová sekvence Escherichia coli RecA protein (recA) gene, complete cds. FEATURES Location/Qualifiers source 1..3300 /organism="Escherichia coli" /strain="K-12" gene 783..1961 /gene="recA" CDS 783..1961 /gene="recA" /function="DNA repair protein" /product="RecA protein" Sekvence eukaryotického genu Intervaly kódujících oblastí včetně start- a stop-kodonů a intervaly všech intronů Název proteinu Název genu, je-li známý Aminokyselinová sekvence Caenorhabditis elegans tyrosine kinase PTK-2 (ptk-2) gene, complete cds. FEATURES source gene mRNA CDS Location/Qualifiers 1..3180 /organism="Caenorhabditis elegans" 211..3011 /gene="ptk-2" join(211..288,533..703,763..890,940..1024, 1084..1380,1838..1962,2018..2099,2301..3011) /gene="ptk-2" /product="protein kinase PTK-2" join(250..288,533..703,763..890,940..1024, 1084..1380,1838..1962,2018..2099,2301..2456) /gene="ptk-2" /product="protein kinase PTK-2" Ribosomální RNA a vnitřní přepisované mezerníky Názvy jakékoli strukturní RNA(např. tRNA-lle, 16S ribosomal RNA) Názvy mezerníkových oblastí (např., internal transcribed spacer 1, 16S/23S intergenic spacer) Nukleotidové pozice Saccharomyces cerevisiae 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence. FEATURES Location/Qualifiers source 1..540 /organism="Saccharomyces cerevisiae" /strain="UMD 334" rRNA <1..5 /product="18S ribosomal RNA" misc_RNA 6..178 /product="internal transcribed spacer 1 " rRNA 179..377 /product="5.8S ribosomal RNA" misc_RNA 378..519 /product="internal transcribed spacer 2" rRNA 520..>540 /product="28S ribosomal RNA" Oblast promotoru • Název proteinu nebo genu, ke kterému patří promotor a jeho 5' a 3' obklopující sekvence Intervaly přepisovaných a kódujících sekvencí, pokud jsou přítomné Homo sapiens enhancer-binding protein 2 (EBP2) gene, promoter region and partial cds. FEATURES Location/Qualifiers source gene promoter TATA_signal mRNA 5 'UTR CDS > n > 11 1. .3061 /organism=11 Homo sapiens" /chromo s ome="15" /map="15ql3" /cell_line="H441" /tissue_type="lung" 1..>3061 /gene="EBP2 1. .2947 /gene="EBP2 2918..2923 /gene=IfEBP2" 2948..>3061 /gene=nEBP2" /product="enhancer-binding protein 2" 2948..3010 /gene=IfEBP2" 3011..>3061 /gene=IfEBP2" /product="enhancer-binding protein 2" Transpozon nebo inzerční sekvence Specifické jméno elementu Nukleotidoné pozice Jména a intervaly kódovaných genových produktů, pokud jsou přítomny (např., transposase) Pozice a intervaly dalších vlastností (např. LTRs, repeat regions) Bacillus subtilis transposon BLT transposase (tnpA) gene, complete cds FEATURES source source repeat_region gene CDS repeat region Location/Qualifiers 1..1221 /organism="Bacillus subtilis" /strain="RS2" 21..1127 /organism="Bacillus subtilis" /strain="RS2" /transposon="BLT" 21..61 /rpt_type=inverted 128..1034 / gene= " tnpA" 128..1034 / gene= " tnpA" /product="transposase" 1085..1127 /rpt type=inverted Oblasti repeticí Intervaly repetitivních sekvencí Rodina repeticí (napr., Alu, Mer) • Typ repetice (tandem, inverted, flanking, terminal, direct, dispersed, or other) Jednotka repetice (repeat unit) popis intervalů, jestliže sekvence obsahuje více než jednu repetici Homo sapiens repeat regions FEATURES Location/Qualifiers source 1..2050 /organism="Homo sapiens" /chromosome="6" /map="6q25" repeat_region 8..126 /rpt_type=dispersed /rpt_family="B2" repeat_region 197..344 /rpt_type="direct" /rpt_unit="197..220" repeat_region 389..673 /rpt_family="AluSx" /rpt_type=dispersed repeat_region 847..876 /note="microsatellite BT21" /rpt_type="tandem" /rpt_unit="ca" repeat_region 1000..2000 /rpt family="human endogeneous retrovirus K-10 Klonovací vektor Jedinečné jméno vektoru Kódující intervaly, jména genů a proteinů Cloning vector pRB223, complete sequence FEATURES source gene CDS RBS rep_origin gene CDS misc feature RBS promoter Location/Qualifiers 1. .4361 /organism="Cloning vector pRB223" 86..1276 /gene="tetff 86..1276 /gene="tetff /product="tetracycline resistance protein' 1905..1909 /note="Shine-Dalgarno sequence" 2535 complement(3293..4194) /gene="bla" complement(3293..4153) /gene="bla" /product="beta-lactamase" 4069..4125 /note="multiple cloning site" complement(4161..4165) /gene="bla" /note="Shine-Dalgarno sequence" complement(4188..4194) /gene="bla" Bacteriophage lysis module; endolysin and HNH endonuclease genes, complete CDS FEATURES source gene CDS mi sc feature intron CDS Location/Qualifiers 1..3165 /organism="Staphylococcus bacteriophage 812" /virion /mol_type=" genomic DNA" /strain="phi812" /lab_host="Staphylococcus aureus CCM 4028" /type="wild type" 654..3017 /gene="lyt812" join(654..1449,2329..3017) /gene="lyt812" /experiment="peptide sequencing" /note="Lyt812" /codon_start=l /transl_table=ll /product="endolysin" /translation="MAKTQAEI............... " join(1239..1449,2329..2576) /gene="lyt812" /note="SM00644; Ami_2; This family includes zinc amidases that have N-acetylmuramoyl-L-alanine amidase activity; Region: Ami_2 " 1450..2328 /gene="lyt812" /s tandard_name="ly1812-11" /experiment="cDNA synthesis and sequencing" 1617..2117 /gene="lyt812" /note="ORFI-812HI" /codon_start=l /transl_table=ll /product="putative HNH endonuclease