Analýza sekvenčních dat v molekulární biologii • Bioinformatika je disciplína na rozhraní počítačových věd, informačních technologií, matematiky a biologie • Termín bioinformatika se objevil poprvé až v roce 1991 • Představuje spojení technologií z oblastí - molekulární biologie - informačních technologií • Bioinformatika zahrnuje - studium - praktické uchovávání - vyhledávání - zobrazování - manipulaci - a modelování biologických dat • Potřeba pracovat s velice obsáhlými databázemi si vyžádala vývoj výpočetních nástrojů umožňujících analýzu dat a stanovení jejich vzájemných vztahů. • Vývoj vysoce výkonných technologií umožňujících získání molekulárně biologických dat přispěl k jejich dramatickému nárůstu a tím současně zvýšil obtížnost jejich zkoumání a hodnocení ve vztahu k biologickým otázkám. Trend nárůstu množství dat v bioinformatických databázích Assembled/annotated sequence growth Assembled/annotated sequence growth 22-Apr-2019 1985 1990 1995 2000 2005 2010 2015 Year — Sequences (2,253.8 millions) — Bases (5,692.1 billions) Základní zdroje a aplikace bioinformatiky Výpočetní základy Zdroje dat Aplikace bioinformatiky Algoritmy \ Obecně \ dostupné \ databáze Zpracování \ laboratorních \ dat \ Získávání dat Grafika, vizualizace Nástroje pro přístup k databázím Zpracování signálu Mapování a srovnávání genomů Architektura hardwaru Sekvenční přiložení, assembly Informační teorie Identifikace genů Správa databází Funkční identifikace proteinů Statistika Molekulární evoluce Simulace Molekulární modelování Umělá inteligence Predikce struktur Zpracování obrazu Srovnávání struktur Robotika Stanovení makromolekulárních struktur Softwarové inženýrství Vývoj léčiv na základě struktur „..omiky" v molekulární biologii Proteomika Fenomika ^5 *_____ ŕ Ťra n s kri ptom i ka£ } 2D - elektroforéza Hmotnostní spektrometrie Kvantitativní PCR Management labor, informací Xray krystal o graf i q NMR Sekvencování proteinů Chrom atografie ^1 Proteinové čipy Molekulární interakce Bioinformatika Nejdůležitější instituce zabývající se shromažďováním biomedicínských informací • K nejdůležitějším institucím zabývajícím se, správou dat a vývojem nástrojů pro jejich analýzu a poskytováním informací patří: - Evropský institut pro bioinformatiku (EBI) se sídlem v Hinxtonu v UK (http://www.ebi.ac.uk/), - Národní centrum pro biotechnologické informace (NCBI) založené původně v rámci Národní lékařské knihovny (NLM) v USA (http://www.ncbi.nlm.nih.gov/), - Centrum pro informační biologii (CIB) založené jako oddělení Národního genetického institutu (NIG) v Mishimě, Japonsko (http://www.cib.nig.ac.jp/). • V současné době je prostřednictvím Internetu dostupných přibližně 550 databází zabývajících se shromažďováním bioinformací. - Jejich přehled a popis je každoročně publikován ve specializovaném, volně dostupném čísle časopisu Nucleic Acids Research. Nejdůležitější databáze sekvencí nukleových kyselin a proteinů • V každém ze tří hlavních bioinformatických center je spravována genomová databáze sekvencí nukleových Kyselin a odpovídajících, z nich přeložených proteinů. - EMBL Nucleotide Sequence Database / European Nucleotide Archive (v rámci institutu EBI) - 1980 - GenBank (v rámci institutu NCBI) - 1982 - DDBJ (The DNA Data Bank of Japan) -1984 • Tři samostatné báze vznikly v důsledku potřeby rychlé dostupnosti databáze sekvencí na jednotlivých kontinentech v době, kdy ještě nebyly rozvinuté vysokorychlostní komunikační sítě. Sdílení dat ve třech základních databázích V každém z bioinformatických center jsou dostupné jednoduché nástroje pro manipulaci s daty 1 NCBI GenBank http://www. nebi. nim. nih. gov/ National Center for Biotechnology Information (NCBI) ■ ■ ■ ■ E M B L! http:/Xwww. ebi. ac. uk EMBL European Biojnformatics Institute DDBJ D D B J! httpďwww. ddbj. nig. ac.jp/ ■■■■■■■■■■■■■■■■i National Institute of Genetics (NIG) ExPASy: httpMw.expasy.org Expert Protein Analysis System Databáze sekvencí proteinů • Sekvence proteinů, u nichž byly experimentálně stanoveny jejich aminokyselinové sekvence, charakterizovány jednotlivé proteinové domény a stanovena jejich funkce jsou ukládány v databázi SWISS-PROT založené na Univerzitě v Ženevě v roce 1986. • Databázi spravuje Švýcarský institut pro bioinformatiku (SIB), který se podílí na vytváření sítě propojených databází sekvencí. • Kompletní databázi sekvencí proteinů obsahuje SWISS-PROT spolu s doplňkem označeným TrEMBL, který obsahuje automaticky doplňované překlady kódujících oblastí z databáze sekvencí nukleových kyselin EMBL. Mezinárodní spolupráce sekvenčních databází Databáze sdílejí stejná data QiickTrne™ anda TIFF (U rcompesssJ) decorrpn NIG CIB Get Entry DDBJ NIH NCBI ENTREZ GenBank Získání dat a manipulace se sekvencemi Databases 1 Enťrez SRS Ret rival System Information Sequnece, PDB, Image h BI-GenBANK BJ I-EMBL Protein PIR SWISSPROT EXPASY, PDB Softwares t GenBANK GCG FAS TA Staden Image WEB tor NTI oMAX Workbench ugene Galaxy Formats Sequence Converter • Ve sféře biotechnologií a medicíny je důležitou stránkou bioinformatiky přístup k publikované vědecké literatuře a také k patentovým archivům. -Jednou z největších databází na světe je MEDLINE (PubMed), obrovský archiv odkazů z biologických a biomedicínských odborných časopisů pokrývající období od roku 1965 do současnosti a v poskytující kromě abstraktů také odkazy na celé texty článků u jednotlivých vydavatelů. Textové vyhledávání v databázích • Množství důležitých molekulárně-biologických dat se zvyšuje tak rychle, že je nezbytné mít k dispozici prostředky, pomocí kterých můžeme k těmto datům snadno přistupovat. • Existují tři prostředky na získávání informací, které umožňují vyhledávání v molekulárně biologických databázích. • Tyto prostředky jsou vstupním bodem do mnoha integrovaných databází a každý z nich byl vyvinut v jednom ze tří hlavních center pro bioinformatiku. • Navzájem se liší v databázích, které mohou prohledávat, ve vazbách, které vytvářejí mezi jednotlivými databázemi a ve vazbách vztahujících se k dalším informacím Entrez http://www.ncbi-nlm.nih.gov/ • Entrez je vyhledávací systém pro molekulárně biologické databáze vyvinutý v NCBI • Je vstupním bodem pro průzkum 45 různých integrovaných databází z nichž řada je virtuálních. K nejvýznamnějším databázím patří - databáze PubMed, umožňující přístup k literární databázi MEDLINE - databáze sekvencí nukleových kyselin a proteinů - databáze 3-D struktur MMDB (Molecular Modeling Database) - skupina databází genomů - taxonomická databáze usnadňující získávání sekvencí na základě taxonomických skupin Ze tří vyhledávacích prostředků je Entrez uživatelsky nejpřijatelnější "3 NCBI HOME SEARCH SITE MAP o—, Entrez, The Life Sciences Search Engine PubMed Human Genome GenBank Map Viewer Search across databases I I —^-H Help Welcome to the new Entrez cross-database search page PubMed: biomedical literature citations and abstracts (j^) PubMed Central: free, full text journal articles mm Journals: detailed information about journals in Entrez MeSH: detailed information about NLM's controlled ^IP vocabulary (Zl Books: online books OMIM: Online Mendelian Inheritance in Man BRj Site Search: NCBI web and FTP sites £^ Nucleotide: sequence database (GenBank) *#*#* Protein: sequence database jjj Genome: whole genome sequences Gene: gene-centered information GEO DataSets: experimental sets of GEO data ft- UniGene: gene-oriented clusters of transcript sequences 12) CDD: conserved protein domain database (?) 3D Domains: domains from Entrez Structure (?) Structure: three-dimensional macromolecular structures (?) UniSTS: markers and mapping data (?) Taxonomy: organisms in GenBank (D PopSet: population study data sets (?) llTll SNP: single nucleotide polymorphism (?) £ .fir GEO: expression and molecular abundance profiles (?) íl Entrez Molecular Sequence Database System NCBI http://www.ncbi.nlm.nih.gov/ NCBI I All Databases v| National Center for Bintech no cay lr""c"Ts:inr COVID-19 Pjblic health ii Endln| Structural Racism NCBI Home Resource List (A-Z) All Resources Chemicals & Bioassays Data & Software DNA & RNA Domains & Structures All Databases Assembly Bio collect ions Bio Project Bio Sample Bio Systems Books ClinVar Conserved Domains dbGaP dbVar Gene Genome GEO DataSets GEO Profiles GTR Homolo Gene Identical Protein Groups Med Gen MeSH Genes & Expression Genetics & Medicine Genomes & Maps Homology Literature Proteins Sequence Analysis Taxonomy Training & Tutorials Variation [formation INIW SAR5-CoV-2 data I NCBI) I Prevention and treatment information IHHS1 | Espaňol nd structural racism and achieve racial equity in the biomedical research enterprise. NCBI er tor Biotechnology Information advances science and health by providing access to nomic information. Abcu; the NCBI I Mission | Organzaticn | NCBI Ne'.vs i B oj Submit Deposit data or manuscripts into NCBI databases Download Transfer NCBI data to your computer Learn Find help documents, attend a class or watch a tutorial Develop Use NCBI APIs and code libraries to build applications Analyze Identify an NCBI tool for your data analysis task Research Explore NCBI research and collaborative projects Á Popular Resources PubMed Bookshelf PubMed Central BLAST Nucleotide GeioTie SNP Gene Protein PubChem NCBI News & Blog Data for SARS-CoV-2 variants now available at NCBI 23Apr2021 Looking for genomes for the B 1.1.7 RARR-CnV-? variant? WCRI now New NCBI Datasets home and documentation pages provide easier access 20Apr 2021 NCBI Datasets the new set of services Remembering Mark Boguski 14 Apr 2021 It is with much sadness that we recently learned of the passing of Mark Boguski. MD PhD a former Senior lnvft.qtinatnr in quence Retrieval System (SRS) I http://www.ebi.ac.uk/ EBI Home ■P European Bioi nformatics Institute About EB] Research ces Overview □oi'jiioada — FTP Senner — Database Repository — Softmare Repository — Domnloads Help Files Services Toolbox SERVICES OVERVIEW FASTLINK Databases Downloads Submissions [its baa*? _Djlabjse Browsing • SRS . Nucleotide D^l^bdses SL±irri aniens — EMBL via WEBIN B'.'1BL-lnfQ. Submitters -SWISS-PROT — Webin- fflgn — PDB-Auto Pep — MIAMIE-press — IMGT/LIGM — IMGT/HLA — Sequin Softuare ToolboK _Homology 3 SniiLarrLy • Fasta • WU-Blast2 + NCBI-Blast2 + Blast; EVEC Gencme/ProteomeFasta + MPsroh + Scanps2.3 + Parasite-Blast • EG I-Blast + SNP-Fasta3 Server _ Prot. Function. Anar/^K • CluSTr Search • InterProScan • FingerPRINTScan • ppseareh • Gene Qui; • Pratt • Radar • EMBL Nucleo. Sequence • Ensembl • Genomes Server • Genome MOT • EMBL-flign • Simple Queries • dbSTS Queries • Parasites • Mutations • IMGT . Protein D^labroes • SWISS-PRQT • TrEMBL ■ InterPro CluSTr IPI GOA Proteome Analysis HPI IntEnz DBGET/Link DB http://www,genome-ad-ip/dbget DBGET/Link DB je integrovaný systém pro získávání dat z databází vyvinutý v Institutu pro chemický výzkum na Univerzitě Kyoto v Japonsku Unikátní je propojení na databázi KEGG (Kyoto Encyclopedia of Genes and Genomes), cožje databáze regulačních a metabolických drah u organizmů ze známvm aenomem. Link-only Databases Jak se data dostanou do databází? Předání dat prostřednictvím WWW portálu - Banklt (GenBank) • http://www.ncbi.nlm.nih.govAA/ebSub/?tool=genbank - Submission Portal • https://submit.ncbi.nlm.nih.gov/ - Webln (EMBL/European Nucleotide Archive) • http://www.ebi.ac.uk/ena/submit - Sakura (DDBJ) • http://www.ddbi.niq.ac.ip/sub/websub-e.html Samostatná aplikace pro PC - Sequin • http://www. nebi .nim. ni h .qov/Seq ui n/download/seq download. html - pro delší sekvence (genomy) - fylogenetické, populační nebo mutační studie obsahující sekvenční přiložení Tbl2asn - batch submissin - command-line program for MAC a Unix - automatizuje vytvoření záznamu sekvence - určený pro celé genomy, EST, STS a zaslání velkých dávek sekvencí Zápis sekvence O ■ Sekvence - zápis posloupnosti jednoznačných znaků odpovídajících jednotlivým zbytkům (monomerům), které se nacházejí v odpovídající posloupnosti v dané makromolekule DNA nebo RNA od 5ť-konce k 3'-konci ♦ 5'CAAACGTCGTCTA3' ♦ protein od N-konce k C-konci ♦ (NH2-) MKRLSALGPGGLTRR (-COOH) ■ používají se jednopísmenové kódy dle pravidel IUPAC Standardní kódy pro sekvence Q nukleových kyselin podle IUB/IUPAC A adenosin C cytidin G guanidin T thymidin U uridin R G/A(puRin) Y T/C (plrimidin) K G/T (nukleosid s Keto skupinou) M A/C (nukleosid s aJVHno skupinou) S G/C (silná = Strong vazba) W A/T (slabá = Weak vazba) B G/T/C(notA) D G/A/T (not C) H A/C/T (not G) V G/C/A (not T) N A/G/C/T (jakýkoli) mezera (gap) neurčené délky Využití zápisu s degenerovanými nukleotidy tacggt tataat tataat gatact t at gat t at at t Konsenzní sekven Degenerovaná sek kayrnt tataat Standardní kódy pro sekvence aminokyselin podle IUB/IUPAC A alanin B kys. asparagová nebo asparagin C cystein D kys. asparagová E kys. glutamová F fenylalanin G glycin H histidin I isoleucin K lysin L leucin M metionin N asparagin P prolin Q glutamin R arginin S serin T treonin U selenocystein V valin W tryptofan Y tyrosin Z kys. glutamová nebo glutamin X jakákoli aminokyselina * translační stop (terminační kodon) mezera (gap) neurčené délky FASTA FORMAT Může obsahovat více sekvencí Začíná specifickým záhlavím „>", za kterým následuje definice Příklad: >U03518 Aspergillus awamori internal transcribed spacer 1 (ITS1) AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAACCTCCCATCCGTGTCTATTGTACCC TGTTGCTTCGGCGGGCCCGCCGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTGCCCGC C G GAGAC CC CAACACGAACAC T GT C T GAAAG >LinB_protein MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGR LIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALG FDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVE QVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYA GWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAA IAAFVRRLRPA Použití: univerzální formát pro zápis sekvence vhodný jako vstupní data pro většinu software. Identifikace záznamu v primárních sekvenčních databázích • GenBank • EMBL-Bank (European Nucleotide Archive, ENA) • DDBJ • Přístupový kód (Accession Number) LOCUS AY870395 553 bp DNA linear BCT 30-JAN-2005 DEFINITION Macrococcus brunensis strain CCM 4811 60 kDa chaperonin (cpn60) gene, partial cds. ACCESSION AY870395 4 VERSION AY870395.1 Struktura zápisu sekvence ve formátu GenBank http://www.ncbi.nlm.nih.gov/Genbank/ OCT AGjtffc A ÍTGŮT- ATATA.CAC.ACAC, CTTCGCATAC 'CA fl^BKCTTÁCTÁACC OCO<^TAGCAXGŕ.CT|GATCT.ŕ U PubMed Nucleotide Genome Search f Nucleotide for |barley NAD EH oxidase Preview/Index Limite Structure History Taxononv [Go ] I Clear Clipboard Details Display default ; ] I Save ] [' Text ] [ Add to Clipboard □ 1: AJ251717. Hoiueum vulgare p... [gi: 152822S9] Lute LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL MEDLINE REFERENCE AUTHORS TITLE JOURNAL HVU251717 337 bp mRNA linear PLN 1S-JAN-2002 Hordeum vulgare partial mRNA for putative NAD(F)H oxidase (pNAox gene). AJ251717 AJ251717.1 GI:15282239 NAD EH oxidase; pNAox gene. Hordeum vulgare subsp. vulgare Hordeum vulgare subsp. vulgare Eukaryotaf Vijridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; Pooideaep Tritioeae; Hordeum. 1 Hue kelhoven,R., Dechert,C., Tru j i1! Differential expression of. putativ* near-isogenic, resistant and suscej interaction with the powdery raildel Plant Mol. Biol. 47 (6), 739-748 ( 21643210 2 (bases 1 to 337) Hue c kelhoven,R. Direct Submission Submitted (02-DEC-1999) Hueckelhov* Phytopatho1gy and Applied Eoology, Giessen, Ludwigstr. 23, 35390 Gies FEATURES source vulgare" Location/Qualifiers 1. .337 /organistu = "Hordeum vulgare subsp. /cultivar="Pal1as" /db_xref="taxon: 112509" /tissue_type="primary leaf" /dev_stage="7-days old plant" gene 1..337 /gene="pNAox" CDS <1..>337 /gene="pNAox" /£unction="superoxide generating enzyme" /note="gp9lphox homolog" /codon_start=2 /produet="putative NAD( P) H oxidase" /pro te in_i d="CAC51517. 1" /db_xre£="GI:15282290" /trans1ati on="FKGIMNEIAE LDORNIIEMHNYLTSVYEEGDARSALITMLOALN HAKNGVDWSGTRVRTHFARPNFKRVLSKVAAKHPYAKIGVFYCGAPVLAOE LSNLCH EFNGKCTTKF" BASE COUMT 102 a 70 c Slg 83 t 1 others ORIGIN 1 gtttaaagga atcatgaatg agattgetga actagatcaa aggaatatca ttgagatgea 61 caactatctc acaagtgttt atgaggaagg ggatgetegg tcagcactca teacaatget 121 gcaagctctc aaccatgcca agaatggtgt cgatgtagtg tctggmactc gagtceggae 181 acattttgea agaccaaatt ttaagagggt gctgtctaag gtagccgcca aacatcctta 241 tgecaagata ggagtgttct attgeggage tccagttctg gegcaggaac taagcaacct 301 ttgecatgag ttcaatggca aatgeacgae aaaattc Genomové databáze v NCBI - prokaryot OVERVIEW Views: Graphical View Coding Regions ^Genome :>Med Nucleotide Protein Genome Structure PopSet Taxonomy Help Bacillus anthracis A2012, unfinished sequence 4171029..4221028 Start from Go Search for gene 57 protein coding genes ® Find Open Reading Frames Click on the rectangle to get BLAST neighbors for the gene of interest or click on the overview below to see a distant region BR_4511 BR_4513 Efl_4515 Bfl_4516 Efl_4517 HŽZID DOC ] c ] CTJC BR_4519 BR_452S JCŽZDCŽZ 4171029 4173161 4175294 4177427 4179559 BR 4521 BR 4523 Bfl 4524 BR 4525 Bfl 4526 Bfl 4527 DDL" II 9 4181329 4183161 4135294 4187427 4139559 BR 4529 BR 4530 Bfl 4532 BR 4535 BR 4537 Bfl 4539 BR 4543 li n □□on DC I DD DDOC 9 4191329 4193161 4195294 4197427 4199559 BR 4545 BR 4547 Bfl 454B Bfl 4549 Bfl 4553 BR 4551 Bfl 4552 JZL DDL" 42S1329 4233161 4235294 4207427 4239559 Bfl 4553 Bfl 4554 Bfl 4555BFI 4557 Bfl 4563 BR 4563 Bfl 4565 BR 4566 II I I I Protein coding genes distribution map To see map locations of genes, click on a region in the map to zo ora in on that re gion Translation., r i bosoma I structure and biogenesis Transcr i pt ion DNfl rep I i cat i orij recombination and repair Cell division and chromosome partitioning Genomové databáze v NCBI - eukaryota O NCBI "'^'l&Šiff, Ii II ^Genome PubMed Nucleotide Protein Genome Structure PopSet Taxonomy OMIM Help Search for | I I Show linked entries oncluomosomeisj FTP AraMdopsis thaHana genome view Find ELAST seaich Arabidopsis genome II III iu i 0 MT 0 CHL Lineage: Eulcaryota; Viilnllplaiitaje: Streptophyta; EiuTaryaphyta; Trflchcaphyta; Spennatophyta; Magna ltiphyta; eudicotyledons; cone eudigate; Rosidae; eurosids II; Brassicales; Biassicaceae; Aiabidopsis fo-atMopsis tha&cma is a small flowering plant tliat is widely used as a model organism ill plaiit biology. Aiaoidopsis is a member of the mustard (Biassicaceae) family, which uicludes cultivated species such as cabbage arid radish. Arabidopsis is mot of major agiouoiuic significance, but it offers importaitt advaiitages for basic research ill genetics aud molecular biology. Its genome lias been sequenced by an inteinational collaboration collectively termed the Arabidopsis Genome Initiative iAGI} (The Arabidopsis Genome Initiative, ^000, Nature, 408:796-815V This sequence, map, and annotations are the result of a collaboration between TIGR MIPS, and TAIR. The non-iedundant sequence of the chromosomes pseudomolecules) and their annotations weie provided to NCBI by TIGR on behalf of the collaborators. Entrez Genomes MapViewer Home Prominent organisms FTP SITE Related Databases: TAIR TIGR MIPS KAÜS Sequencing Projects: SPP Consortium CSH /WashU TIGR Kazusa ESS A Genoscope Důležitou databází spojenou s proteiny je PDB (The Protein Databank), která se zabývá archivací a analýzou 3-D proteinových struktur. PDB http://www.rcsb.org/ RCSB PDB Deposit ▼ Search Visualize ^ Analyze ▼ Download » Learn More ▼ Documentation ▼ MyPDB T 177219 Biological Macromolecular Structures Enabling Breakthroughs in BANK Research and Education to Bifer searcrt řemffsj Advanced Search | Browse Annotations HepC 'T>J?-101 Pi.-'*,- I Fu.-i YEARS OF Protein Data Bank | J WgIcoitig Deposit C( Search Eál Visualize ::: Analyze Download II Learn A Structural View of Biology This resource is powered by the Protein Data Bark archive-information about the 3D shapes of proteins, nucleic acids, and complex assemblies that helps students and researchers understand all aspects of biomedicirie and agriculture, from protein synthesis to health and disease. As a member of the wwPDB, the RCSB PDB curates and annotates PDB data. The RCSB PDB builds upon the data by creating tools and resources for research and education in molecular biology, structural biology, computational biology, and beyond. COVID-19 CORONAVII Resources PDB50: A special symposiu May Á-5, 2021 Register by ASBMB April Molecule of the Month SARS-CoV-2 Spike and Antibodies Stanovení podobnosti sekvencí • Textové vyhledávání sekvencí v databázích (podle klíčových slov) - Neefektivní - chybí anotace řady sekvencí - Nejednotná nomenklatura genů - Řada nesouvisejících výsledků • Prohledávání databází podle podobnosti sekvencí - Výpočet lokálního/párového přiložení (alignment) = uspořádání do 2 pod sebou ležících řádků tak, aby identické zbytky ležely pod sebou - Výpočet mnohonásobného přiložení (multiple alignment) pro 3 a více sekvencí Význam sekvenčního přiložení Použití Princip Stanovení podobnosti Identifikace stejných (podobných) zbytků na základě přiložení Hledání v databázích Identifikace podobných sekvencí, charakterizace genů Identifikace vzorů Stanovení konzervovaných vzorů, profilů a identifikace funkčních oblastí a domén Predikce, extrapolace Klasifikace necharakterizovaných sekvencí do rodin / skupin Fylogenetická analýza Rekonstrukce evoluce z ortologních sekvencí Predikce struktury Kvalitní přiložení umožňují predikci sekundární struktury jak u RNA, tak proteinů Sestavení celogenomových Využívá techniky přiložení pro vytváření kontigů ze sekvencí (assembly) sekvenačních dat Analýza oligonukleotidů pro Design primem a sond, posouzení sekundárních PCR struktur Terminologie použitá pro Q srovnávání sekvencí • Identita sekvencí (Sequence identity), podíl identických aminokyselinových nebo nukleotidových zbytků ve stejné pozici • Podobnost sekvencí (Sequence similarity/positivity), podíl identických plus substituovaných zbytků s podobnými chemickými vlastnostmi. • Homologie sekvencí (Sequence homology), termín použitelný pouze u evolučně příbuzných sekvencí, např. stanovení ANI (average nucleotide identity) z celogenomových sekvencí nebo data z DNA-DNA hybridizací Nástroje pro vyhledávání lokálních podobností sekvencí Sady programů zahrnujících algoritmy pro vyhledávání podobnosti v dostupných databázích sekvencí bez ohledu na to zdali dotazovaná sekvence je DNA nebo protein. • BLAST • Altschulet al., 1990 • • dostupný na serveru • NCBI FASTA Lipman a Pearson 1985 dostupný na serveru EBI Co je to BLAST? Basic Local Alignment Search Tool - Hledání lokálních podobností - Heuristický přístup založený na Smith-Watermanově algoritmu - Vyhledá nejoptimálnější přiložení sekvencí - Poskytuje data o statistické významnosti - Zobrazuje vzájemně párové přiložení sekvencí - Lokalizuje oblasti sekvencí s vysokou podobností a umožňuje zobrazení jejich primární struktury a funkce Co je to BLAST? Basic Local Alignment Search Tool - Hledání lokálních podobností - Heuristický přístup založený na Smith-Watermanově algoritmu - Vyhledá nejoptimálnější přiložení sekvencí - Poskytuje data o statistické významnosti - Zobrazuje vzájemně párové přiložení sekvencí - Lokalizuje oblasti sekvencí s vysokou podobností a umožňuje zobrazení jejich primární struktury a funkce Basic Local Alignment Search Tool blast finds region s of similarity between biological sequences. The program comparts nucleotide or protein sequences to sequence databases and calculates the statistical significance. Learn more Web BLAST N October 26th NCBI M inute NCBI itaffnill introduce hid m BLAST databases: the Refei ItepiBsentauVe Genomes database and the Madel 0 njanisms or 'Landmark p lutein database. Fri.OTOctiOie. lSiOflO EST blast* translated nucleotide ► protein tblastn protein ► translated nucleotide HI. ' I l:p? BL-SI newt.. I I Protein BLAST protein ť protein O Výchozí stránka BLAST n common name, scientific :ic:\Te, or fc? id http://www.ncbi.nlm.nih.gov/BLAS1 o Basic BLAST - výběr programů Program Dotaz Databáze Úroveň srovnání Použití blastn DNA DNA DNA Hledání identických sekvencí DNA blasp Protein Protein Protein Hledání podobných proteinů blastx DNA Protein Protein Hledání genů a podobných proteinů na DNA tblastn Protein DNA Protein Hledání genů u necharakterizovaných DNA tblastx DNA DNA Protein Studium struktury genů Uživatelské rozhraní BLAST U.S. National Library of Mediane Sign ľn to NCBI BLAST » blastn suite Home Recent Results Saved Strategies Help Standard Nucleotide BLAST blastn blastp blastx tblasln tblastx BLASTN programs search nucleotide databases using a nucleotide query, more Enter Query Sequence Enter accession numhei i s i. ijii s *. or FASTA sequence(s) clear Querysiiraqe .1 From| I Tor Or, upload file Joh Title Vybrat soubor Soubor nevybrán | Enter a descriptive title for your BLAST search Align two or more sequences Choose Search Set Database Organism Optional Exclude Optional Limit to Optional Entrez Query Optional OHuman genomic + transcript Mouse genomic + transcript • Others (nr etc.): | Nucleotide collection (nrfnfj * | # |Eriter organism name or id-completions will be suggej U Exclude * Enter organism common name, binomial, or tax id. Only 20 top taxa will be shown & Models (XMJXP) Unculturedlenvironmental sample sequences Sequences from type material 1 YaulffliT] Create custom database Enter an Entrez query to limit search Program Selection Optimize for ® Highly similar sequences (megablast) O More dissimilar sequences (discontiguous megablast) O Somewhat similar sequences (blastn) Choose a BLAST algorithm & Reset page Bookmark Search database Nucleotide collection (nrAit) using Megablast (Optimize for highly similar sequences) B Show results in a new window (+1 Algorithm parameters JE Home Tab: Odkaz na úvodní stránku Recent Results Tab: Odkaz na výsledky, které jste získali za posledních 36 hodin Saved Strategies Tab: Vyplněné vstupní formuláře pro hledání, které jste uložili do MyNCBI Help Tab: Katalog s dokumentací a nápovědou Jak používat BLAST? • http://www.ncbi.nlm.nih.gov/BLAST 1. Vybrat příslušný BLAST-program (blastn, blastp, blastx, tblastn, tblastx, specializované varianty algoritmů) 2. Vložit sekvenci (DNA nebo protein nebo Accession number) 3. Vybrat databázi, která má být prohledána 4. Upřesnit nastavení parametrů algoritmu 5. Odeslat požadavek na vyhledání Jak BLAST pracuje? • Proces zahrnuje 3 kroky 1. Příprava dotazu - rozseká zkoumanou sekvenci na krátké úseky a sestaví z nich vhodnou tabulku 2. Vyhledává shody v databázi 3. Rozšiřuje vyhledávání v oblasti nalezených shod, tak aby byla splněna zadaná kritéria Jak BLAST pracuje? • Proces zahrnuje 3 kroky 1. Příprava dotazu - rozseká zkoumanou sekvenci na krátké úseky a sestaví z nich vhodnou tabulku 2. Vyhledává shody v databázi 3. Rozšiřuje vyhledávání v oblasti nalezených shod, tak aby byla splněna zadaná kritéria Tvorba dotazu pro nukleotidové sekvence Dotaz: 6T AC T 66AC AT 66AC C C T AC AGGAA GTACTOGACAT O Word size = 11 minimální velikost = 7 TACTGGACATG blastn default = 11 tabulka se všemi ACTGGACATGG me9ablast default = 28 slovy dotazu (16 - 256) CTGGACATGGA TGGACATGGAC GGACATGGACC GACATGGACCC ACATGGACCCT přiložení sekvencí, které BLAST může nalézt 1 AAT GGT AAAGAC T AC T GGAT CAT T AAGAAC T CC T GGGGAG I I I I I I I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I 1 AATGGAAAAGACTACTGGATCATCAAAAACTCCTGGGGAG sekvence obsahují definovanou shodu slova přiložení sekvencí, které BLAST nemůže nalézt 1 GAAT ATAT GAAGACCAAGAT T GCAGT CC T GC T GGCC T GAACCACGC TAT T C T T GC T GT T G I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I I I I I I I 1 GAGTGTACGATGAGCCCGAGTGTAGCAGTGAAGATCTGGACCACGGTGTACTCGTTGTCG 61 GT TACGGAACCGAGAATGGTAAAGAC TACTGGATCAT TAAGAAC TCC TGGGGAGCCAGT T I I I I I II I I I I I I I I I I I I I I I I I I I I I I I I I I I I 61 GCTATGGTGTTAAGGGTGGGAAGAAGTACTGGCTCGTCAAGAACAGCTGGGCTGAATCCT 121 GGGGTGAACAAGGTTATTTCAGGCTTGCTCGTGGTAAAAAC I I I I I I I I I I I I I II I I I I I I I I I I I 121 GGGGAGACCAAGGCTACATCCTTATGTCCCGTGACAACAAC Tvorba dotazu pro proteinové sekvence Dotaz: GTQITVEDLFYNIATRRKALKN QřfQ Word size = 3 j Velikost slova může být 2, 3 (default tabulka se všemi HTT siovydotazu W-1-1 Sousedící slova ITV — LTV, MTV, ISV, LSV, etc. TVE VED EDL DLF Minimální požadavek pro shodu® atcgccatgcttaattgggctt catgcttaatt přesná shoda slova 1 nalezená shoda • Nucleotidový BLAST vyžaduje jednu přesnou shodu • Proteinový BLAST vyžaduje dvě sousedící shody v úseku 40 aa gtqitvedlfyni sei yyn sousedící slova 2 nalezené shody Hodnocení výsledků přiložení • K posouzení významnosti shody nalezených úseků se používá numerická hodnota označovaná jako skóre sekvenčního přiložení (S) - Hrubé skóre (Raw score) • Suma skóre pro identity plus substituce minus penalizace mezer - Normalizované skóre (Normalised score) • Nezávislé na systému, umožňuje srovnání různých priložení Typy matic pro výpočet skóre Matice identity - Především pro nukleotidové sekvence - Neschopné transformovat na jiné zbytky - Pro přiložení velmi podobných sekvencí Matice podobnosti - Používané u proteinových sekvencí -Vyjadřují biochemické/biologické vlastnosti aminokyselin -Vyšší účinnost při srovnávání sekvencí Matice BLOSUM • BLocks Substitution Matrix • Matice BLOSUM jsou sestaveny na základě analýzy mnohonásobných přiložení evolučně příbuzných proteinů v databázi BLOCKS • BLOSUM-x používá analýzu pouze těch proteinů, které mají alespoň x % identitu - BLOSUM45, BLOSUM50, BLOSUM62, BLOSUM80 • Matice BLOSUM jsou vhodné pro hledání v databázích • Změny probíhající během dlouhodobé evoluce nejsou často vhodné pro výpočty a sledování malých recentních změn Příklad matice BLOSUM62 A A L phenylalaiiine {IQ L-tyrosine QQ BLAST -výstup, výsledky o BLAST » blastn suite » results for RID-SKGS6ZHW016 Home Recent Results Saved Strategies Help < Edit Search Save Search Search Summary v Job Title Nucleotide Sequence RID SKGS6ZHW016 Search expires on 10-1723:57pm Download All v Program BLASTN© Citation v Database nt See details v Query ID lcl|Query_43165 Description None Molecule type dna Query Length 2774 Other reports Distance tree of results MSA viewer & 0 How to read this report? O BLAST Help Videos OBack to Traditional Results Page Filter Results Organism only top 20 will appear ] exclude Type common name, binomial, taxid or group name + Add organism Percent Identity E value Query Coverage to to to Descriptions Graphic Summary Alignments Taxonomy Sequences producing significant alignments seřazeno podle hodnot E ink to entrez D Staphylococcus hominis sir; Staphylococcus hominis sir. D Staphylococcus hominis sir. Staphylococcus hominis strain 19A chromosome, complete genome D Staphyl D Staphyl D Staph y us hominis strain FDAARGOS 745 chromosome ominis strain FDAARGOS 136 chromosome, complete genome jnis strain FDAARGOS 752 chromosome, complete genome D Staphylococcus hominis strain FDAARGOS 575 chromosome, complete genome D Staphylococcus aureus strain ER02&93.3 chromosome, complete genome BLAST -výstup, výsledky BLAST » blastn suite » results for RlD-SKGS6ZHW016 Home Recent Results Saved Strategies Help < Edit Search Save Search Search Summary v Job Title Nucleotide Sequence RID SKGS6ZHW016 Search expires on 10-1723:57pm Download All v Program BLASTN© Citation v Database nt See details v Query ID lcl|Query_43165 Description None Molecule type dna Query Length 2774 Other reports Distance tree of results MSA viewer Q Descriptions Taxonomy ■£) hover to see the tide ^ dick to show alignments 6 How to read this report? D BLAST Help Videos "DBack to Traditional Results Page Filter Results Organism only top 20 wilt appear | exclude Type common name, binomial, taxid or group name + Add organism Percent Identity ro E value to Query Coverage to Reset 43 sequences selected © Alignment Scores ^-=40 ^40-SO □50-30 □30-200 H>= 200 © Distribution of the top 58 Blast Hits on 43 subject sequences Color Key for Rlignnent Scores 50-80 1.104361 ^^^^^^^ 50 ^^^^^^^^^^^^^^^^ 100 pohyb myši Lokální versus mnohonásobné srovnání • Dosud jsme srovnávali pouze dvě sekvence navzájem • Podobnosti mezi dvěma sekvencemi se stávají významnými, pokud se vyskytují i u dalších sekvencí • Mnohonásobné přiložení sekvencí je srovnání tří a více sekvencí nukleových kyselin nebo proteinů s mezerami vloženými do sekvencí tak, že úseky sekvencí s úplnou nebo částečnou homologií jsou seřazeny nad sebou ve stejném sloupci • Může identifikovat podobnosti a identifikovat konzervativní motivy, které nejsme schopni identifikovat lokálním srovnáním • Využití mnohonásobných sekvenčních přiložení: - Analýza struktury genů (identifikace konzervativních domén, konzervativních regulačních oblastí) - Analýza příbuznosti, konstrukce fylogenetických stromů z ortologních genů - Assembly sekvenačních dat - Identifikace konzervativních nebo jedinečných cílů pro diagnostiku, identifikační databáze - Klasifikace proteinů, databáze sekvenčních motivů, domén (PROSÍTE, Pfam, PRINTS, ProDom, SMART, Blocks) integrované databáze (InterPro, CDD search) Příklad analýzy mnohonásobného přiložení hba_bofSe_l/l-142 frV L S AA| hba_horse_2/l-142 M V L S A A hba_caphi_l/1-142 MV L5AA hba_caphi_2/l-l42 tyVJ-L5_AA hba_taima/1-142 MVJJSAaI pigeon_hbadf 1 14Qrz m_L_T_D5MKi-_V_L_QVwE .' iba d_ c a 10/i 141 - M L T A E Hk L I V Q V Vi' E 10 tnVkaäwsI tnvkaaws snvkaawc snvkaawc ťnvkgv fs 20 IVCCHÄČ ÍYGA VCCHAG EYGA VCCNACAYCA lyiLCNACAYGA LC_C_HAE EYGA |>'JA1P iPCGA |V AC HQ E E PCS" 40 mf~l~c fpť m f l c f p tb mfl5tptt m_f_l_s_r_ptt| m_f_I_avpqi l f_t_t_ypqt| mf lay p d" Conservation fingerprint motif insertions 'cydeggii cyedggis eyeeggit cyhgdggs ycyrgdgnt, frequency matrix weight matrix (block) Přínos genomových sekvencí záleží na kvalitě anotace • Anotace - Charakterizace vlastností genomů - s použitím výpočetních a experimentálních metod • Hledání genů: - Predikce - Kde jsou geny lokalizovány? - Podobnost - Jak geny vypadají? - Funkce - Jakou funkci mají kódované proteiny? - Jakých procesů se účastní - V jakých metabolických drahách? - Regulace - Oblasti důležité pro expresi genů - Evidence - Experimentální důkaz genu / omiky (omics) • Transkriptom • Proteom Hledání genů • Geny tvoří obsahovou složku genomu - Jedinečné sekvence odpovědné za funkční produkt • Variabilní délka • Strukturní geny - jednoduché - složené z exonů a intronů - Geny pro funkční RNA • rRNA (ribosomal RNA) • tRNA, tmRNA (transfer RNA) • snRNA (small nuclear) • snoRNA (small nucleolar) • RNAi (interfering RNA) a jiné regulační RNA • CRISPR lokusy - Regulační sekvence (ori, promotory terminátory) Co nás zajímá při hledání genu U necharakterizované sekvence DNA zjišťujeme: - Která oblast kóduje protein - Který DNA řetězec je kódující - Který čtecí rámec je využíván - Jaké jsou koordináty genu - Kde jsou hranice exonů a intronů - Kde se nacházejí regulační sekvence - Jaká je modulární struktura genomů Sekvenování RNA pak umožňuje popsat expresi genů a její regulaci Přístupy pro hledání genů 1. Metody založené na hledání podobností s již popsanými geny 2. Metody srovnávací genomiky • Srovnání více dokončených genomů • Hledání konzervativních oblastí, které jsou využity pro predikci genů 3. Využití algoritmů a statistických metod pro analýzu sekvence 4. Integrované přístupy, automatické anotace Příklady velikostí genomů Druh Velikost Genů Genů na Mb H. sapiens 3 200 Mb 22 000 7 D. melanogaster 137 Mb 13 338 97 C. elegans 85,5 Mb 18 266 214 A. thaliana 115 Mb 25 800 224 S. cerevisiae 15 Mb 6 144 410 E. coli 4,6 Mb 4 300 934 Prokaryoticky versus eukaryoticky gen |AJ EUCAHYOTES IB I FROCARYQTES \ TRANSLATION Prokaryotický versus eukaryotický gen vyžadují odlišné přístupy o Pro kary ota - malé genomy 0.5 - 10-106 bp - Vysoká hustota kódujících sekvencí (>90%) - Žádné introny (výjimky Archea. fágy) - Hledání otevřených čtecích rámců - Doplněno např. hledáním signálů pro vazebná místa ribozómu - Operony: jeden transkript, mnoho genů - Úspěšnost cca 99 % - Problémy: překrývající se ORFs, krátké geny, místa TSS a promotory E u kary ota - Velké genomy 107 - 1010 bp - Nízká hustota kódujících sekvencí (<50%) - Konzervovanost UTRs - Struktura intron/exon - Statistické modely frekvencí nukleotidů - Sledování závislostí přítomných ve struktuře kodonů - Obsah GC - Přesnost dosahuje cca 50 % - Problémy: mnoho! • postranskripční modifikace • alternativní sestřih 3. Predikce kódující oblasti na Q základě hledání (ab initio) • Využívá pouze sekvenční data a výpočetní přístupy integrující analýzu sekvence a detekci signálů • Pro kary ota - Hledání otevřených čtecích rámců doplněné hledáním konzervativních signálů v transkripčních jednotkách - ORF Finder (Open Reading Frame Finder) http://www.ncbi.nlm.nih.gov/gorf/gorf.html • Eu kary ota - Predikce promotorů - Predikce polyA-signálů - Predikce míst sestřihu a start/stop kodonů - Analýza frekvencí Vyhledání otevřených čtecích rámců (http://www.ncbi.nlm.nih.gov/proiects/gorf/) "3 NCBI ORF Finder {Open Reading Frame Finder) PubMed BLAST OMIM Taxonomy Structure The ORF Finder (Open Reading Frame Finder) is a graphical analysis tool which finds all open reading frames of a selectable minimum size in a user's sequence or in a sequence already in the database. This tool identifies all open reading frames using the standard or alternative genetic codes. The deduced amino acid sequence can be saved in various formats and searched against the sequence database using the WWW BLAST server. The ORF Finder should be helpful in preparing complete and accurate sequence submissions. It is also packaged with the Sequin sequence submission software. Enter Gl or ACCESSION OrfFind Clear or sequence in FASTA format FROM: TO: Genetic codes E 1 Standard NCBI I ~ Tools for data mining GenBank sequence submission support and software FTP site download data and software 3. Predikce kódující oblasti na Q základě hledání (ab initio) • Využívá pouze sekvenční data a výpočetní přístupy integrující analýzu sekvence a detekci signálů • Pro kary ota - Hledání otevřených čtecích rámců doplněné hledáním konzervativních signálů v transkripčních jednotkách - ORF Finder (Open Reading Frame Finder) http://www.ncbi.nlm.nih.gov/gorf/gorf.html • Eu kary ota - Predikce promotorů - Predikce polyA-signálů - Predikce míst sestřihu a start/stop kodonů - Analýza frekvencí o Klíčové signály pro odhalení genů • iniciační a terminační kodony • promotory • vazebná místa pro ribozómy (RBS) • místa sestřihu • terminátory transkripce • polyadenylační místa • vazebná místa pro transkripční faktory Struktura prokaryotické transkripční jednotky RBS RBS RBS promotor gen (CDS) 3 gen (CDS) \ gen (CDS) terminátor start i stop operon Struktura prokaryotického genu Přepisovaná oblast do mRNA start kodon stop kodon / \ Kódující oblast 3' \ Nepřekládané oblasti (UTR) Promotor \ ▲ Začátek transkripce (+1) Terminátor transkripce -upstream (proti směru transkripce) downstream (po směru) -► Konzervativní struktury v promotoru prokaryot mRNA 5' — PuPuPuPiťiPiťiťu — ' AUG -30 ■10 +1 -30 region Promoter | transcription start site -10 region TTGACA AACTGT TATAAT ATATTA -36 ■31 mRNA T T G ACA 82 84 79 64 53 45% -12 -7 Príbnowbox TATAAT 79 95 44 59 51 96% +1 +10 +20 Ribosomal binding site (RBS) GGAGG ÄTG consensus sequences protein Signály - senzory ve struktuře eukaryotického genu Start codon ^odons ponpr site AGTGAG Transcription start Exon Promoter Acceptor site Intron Stop codon GATCCCCATGCCTGAGGGCCCCTC Poly-A site GGCAGAAACAATAAAEH5H Příklad konsenzní sekvence signálu • Získána výběrem nejčastěji se vyskytující báze v každé pozici mnohonásobného přiložení příslušné subsekvence našeho zájmu TACGAT TATAAT TATAAT GATACT TATGAT TATGTT konsensus sequence PSEEM konsensus (IUPAC) TATRNT • Vede ke ztrátě informací a získání mnoha falešně pozitivních i negativních výsledků Příklad poziční vážené matice • Vyjadřuje frekvenci každé báze v každé pozici příslušné sekvence TACGAT 1 2 3 4 5 6 TATAAT A 0 6 0 3 4 0 TATAAT k C 0 0 10 10 GATACT G 1 0 0 3 0 0 TATGAT T 5 0 5 0 1 6 TATGTT • Skóre každého předpokládaného místa je vyjádřeno součtem hodnot z matice (převedeno na pravděpodobnosti) • Nevýhody: - Je vyžadována hraniční hodnota - Předpokládá nezávislost sousedících bází Vazebné místo pro ribozóm (RBS) a iniciační kodon ATG u E. coli Predikce míst sestřihu Příklad signálů: místa sestřihu (myš) Statistická analýza sekvence O predikovaného genu • Důležité je posouzení charakteru sekvence -délka genu -frekvence využití kodonů -obsah GC (indikace horizontálního přenosu) - GC skew a AT skew • GC skew = (G - C)/(G + C) • AT skew = (A - T)/(A + T) -statistické modely modely frekvencí nukleotidů (využití hexamerů) - periodicita nukleotidů Testovani exonu AA codon /1000 frac Ser TCG 4 . 31 0 . 05 Ser TCA 11. 44 0. 14 Ser TCT 15. 70 0. 19 Ser TCC 17 . 92 0. 22 Ser AGT 12 . 25 0. 15 Ser AGC 19. 54 0. 24 Pro CCG 6. 33 0 . 11 Pro CCA 17 . 10 0. 28 Pro CCT 18 . 31 0. 30 Pro CCC 18 . 42 0. 31 vyuziti kodonu AA codon /1000 frac Leu CTG 39. 95 0 .40 Leu CTA 7 . 89 0 .08 Leu CTT 12 . 97 0 . 13 Leu CTC 20. 04 0 .20 Ala GCG 6. 72 0 .10 Ala GCA 15. 80 0 .23 Ala GCT 20. 12 0 .29 Ala GCC 26. 51 0 .38 Gin CAG 34 . 18 0 .75 Gin CAA 11. 51 0 .25 Codon usage database: http://www.kazusa.or.jp/codon/ Obsah G+C - příklad využití pro identifikaci mobilního elementu Odlišný obsah G+C indikuje horizontální přenos GC skew - příklad využití pro identifikaci počátku replikace Markovovy modely • Nejčastěji používané statistické modely pro hledání genů • Vyjadřují pravděpodobnost sekvenčních událostí Hidden Markov Models (HMM) Příklad komplexního algoritmu se skrytými Markovovy modely (HMM) viti liilangůnlc ^~ SUTR--^Q 5'Splice —í^ř— ^ Spíce -+(J—- M S'Splice —jľ^7 3fSpt» -p*( _ I _ S'Splice -fc^í- 3Splioe -§>Q" RAST Rapid Annotation using Subsystem Technology The NMPDR, SEED-based, prokaryotic genome annotation service. For more information about The SEED please visit theSEED.org. |^^p'//f*3St thSSSSCl OTQ/FIG/fSSt CQJ RAST (Rapid Annotation using Subsystem Technology) -Anotace na základě vlastní pipeline - Využívá integrovaný přístup včetně NCBI databáze (BLAST) - Klasifikace genů do subsystémů a identifikace metabolických drah podle KEGG: Kyoto Encyclopedia of Genes and Genomes (https://www.genome.ip/kegq/) - Příklad parametrů anotovaného genomu: Organism Overview for Massilia sp. CCM 8692 (6666666.478097) Genome Domain Taxonomy Neighbors Size GC Content N50 L 50 Massilia sp. CCM 6692 Bacteria Bacteria; Massilia sp. CCM B692 View closest neighbors 7,576,397 63,3 l?lt^2 11 For each genome we offer a wide set of information to browse, compare and download. Number of Contigs (with PEGs) 141 Number of Subsystems 475 Number of Coding Sequences 6982 Number of RNAs 104 Browse Compare Download Annotate Browse through the features of Massilia sp, CCM 3692 both graphically and through a table. Both allow quick navigation and filtering for features of your interest. Each feature is linked to its own detail page. Click here to get to the Genome Browser - RAST rozdělí anotované geny do jednotlivých funkčních kategorií, ty zahrnují další podkategorie - např. geny zapojené do jednotlivých metabolických drah Subsystem Information Subsystem Statistics Subsystem Coverage Features in Subsystems Subsystem Category Distribution Subsystem Feature Counts Cofactors, Vitamins, Prosthetic Groups, Pigments (327) Cell Wall and Capsule (145) Virulence, Disease and Defense (116) Potassium metabolism (19) Photosynthesis (0) Miscellaneous (45) Phages, Prophages, Transposable elements, Plasmids (13) Membrane Transport (248) Ircr acquisition and metabolism (IS) RNA Metabolism (135) Nucleosides and Nucleotides (103) Protein Metabolism (343) Cell Division and Cell Cycle (39) Motility and Chemotaxis (280) Regulation and Cell signaling (71) Secondary Metabolism (5] DNA Metabolism (115) Fatty Acids, Lipids, and Isoprenoids (178) Nitrogen Metabolism (63) Dormancy and Spoliation (4) Respiration [118) Stress Response (222) Metabolism of Aromatic Compounds (24) Amino Acids and Derivatives (428) Sulfur Metabolism (69) Phosphorus Metabolism (57] Carbohydrates (346) KEGG mapa všech metabolických drah nalezených u daného organismu dle automatické anotace RASTem. - možnost sledovat jednotlivé metabolické dráhy tSrr 1 J TpwiiMl ■ i Ti—! ! I l—7t—H—rfi—r t-■ í ~ľ—*_ * * I i ■ 1 1_ 4-:+.-» h f-! T t «i i ■#■» i ■ y* Cm ■ ■ ■ 14 * —r—-—•—•—■—í-il 1 , ľ^ui*-. .. * . p.--14--r-ŕ--H—-M--t—1-1—I--f- h i. A i * \ I I_I_I ■ t J I fj\_ V-_3 j_I_* t * __I— J__1_, vU^, ■ _vtjj-* i----- »i t ^—* t*™-. íí^™""" . J. , . 1 H I . 1—- J1 ..___ L J "í í L ■ TI F I T it.t.i.. □ i uiii jjjmjij.r. *-' * ■■ !■ ■■ I *: m^jĽt'^ * \ J *~ — lam "Y