MASARYK UNIVERSITY FACULTY OF SCIENCE DEPARTMENT OF EXPERIMENTAL BIOLOGY LABORATORY OF MICROBIAL MOLECULAR DIAGNOSTICS BÍ5000 - Bioinformatika Vyhledávání genů a funkčních oblastí na DNA Přínos genomových sekvencí záleží na kvalitě anotace • Anotace - Charakterizace vlastností genomů - s použitím výpočetních a experimentálních metod • Hledání genů: - Predikce - Kde jsou geny lokalizovány? - Podobnost - Jak geny vypadají? - Funkce - Jakou funkci mají kódované proteiny? - Jakých procesů se účastní-V jakých metabolických drahách? - Regulace - Oblasti důležité pro expresi genů - Evidence - Experimentální důkaz genu / omiky (omics) • Transkriptom • Proteom Hledání genů • Geny tvoří obsahovou složku genomu - Jedinečné sekvence odpovědné za funkční produkt • Variabilní délka • Strukturní geny - jednoduché - složené z exonů a intronů - Geny pro funkční RNA • rRNA (ribosomal RNA) • tRNA, tmRNA (transfer RNA) • snRNA (small nuclear) • snoRNA (small nucleolar) • RNAi (interfering RNA) a jiné regulační RNA • CRISPR lokusy - Regulační sekvence (ori, promotory, terminátory) Co nás zajímá při hledání genu U necharakterizované sekvence DNA zjišťujeme: - Která oblast kóduje protein - Který DNA řetězec je kódující - Který čtecí rámec je využíván - Jaké jsou koordináty genu - Kde jsou hranice exonů a intronů - Kde se nacházejí regulační sekvence - Jaká je modulární struktura genomů Sekvenování RNA pak umožňuje popsat expresi genů a její regulaci Přístupy pro hledání genů 1. Metody založené na hledání podobností s již popsanými geny 2. Metody srovnávací genomiky • Srovnání více dokončených genomů • Hledání konzervativních oblastí, které jsou využity pro predikci genů 3. Využití algoritmů a statistických metod pro analýzu sekvence 4. Integrované přístupy, automatické anotace Příklady velikostí genomů Druh Velikost Genů Genů na Mb H. sapiens 3 200 Mb 28 000 7 D. melanogaster 137 Mb 13 338 97 C. elegans 85,5 Mb 18 266 214 A. thaliana 115 Mb 25 800 224 S. cerevisiae 15 Mb 6 144 410 E. coli 4,6 Mb 4 300 934 Prokaryoticky versus eukaryoticky gen |AJ EUCARYOTES IB I PROCARVOTES TflAMrtFMFNO-J TRANSLATION Integrovaný přístup při expertní anotaci genomů similarity to Human gene shown in Red ~o DO ÍH li □O ; 11 n [ I II III II / _ _ The three / d «, m □ * * □ □ forward/** || || II I II I reading \ = - frames \ »_ _ \ II Illl Exon Regions 00 □ i INI Illl II I I Several BLASTX similarities in this line Codon Usage gene prediction Potential Start Codons I Mill III II I II II II do □ □ ■ <:< dh <:< m o m c " II III I I Illl I I II ll-—-i ŕ— Ml I II I II I I I-*-Stop Codons ii _■ " -Features: PolyA signals o o in o o o o o m t— Scale (bp) 3 Total Coding Region Prokaryotický versus eukaryotický gen vyžadují odlišné přístupy o Pro kary ota - malé genomy 0.5 - 10-106 bp - Vysoká hustota kódujících sekvencí (>90%) - Žádné introny (výjimky Archea, fágy) - Hledání otevřených čtecích rámců - Doplněno např. hledáním signálů pro vazebná místa ribozómu - Operony: jeden transkript, mnoho genů - Úspěšnost cca 99 % - Problémy: překrývající se ORFs, krátké geny, místa TSS a promotory E u kary ota - Velké genomy 107 - 1010 bp - Nízká hustota kódujících sekvencí (<50%) - Konzervovanost UTRs - Struktura intron/exon - Statistické modely frekvencí nukleotidů - Sledování závislostí přítomných ve struktuře kodonů - Obsah GC - Přesnost dosahuje cca 50 % - Problémy: mnoho! • postranskripční modifikace • alternativní sestřih 1. Metody založené na hledání " podobností s již popsanými geny • Založené na konzervativním charakteru sekvencí s určitou funkcí • Využívají nástroje pro lokální nebo globální přiložení sekvencí (BLAST, FASTA, LAGAN, AVID, atd.) • Specializované databáze: proteiny, EST (cDNA), GSS • Nemohou identifikovat geny, které nejsou v databázi (~50% genů) • Omezení u sekvencí s nízkou podobností Odhalení genů eukaryot s použitím sekvencí cDNA • Expressed Sequence Tags (EST) databáze reprezentují sekvence exprimovaných genů (cDNA). • Jestliže se oblast shoduje s EST s vysokou stringencí, pravděpodobně se jedná o gen - EST podává přesnou predikci hranic exonů. • Genome Survey Sequences (GSS) je divize GenBank podobná EST s rozdílem, že sekvence jsou genomového původu 2. Srovnávací genomika - hledání na základě konzervovanosti • Hledání založené na předpokladu, že významné sekvence jsou více konzervativní než sekvence bez funkce • Dva přístupy: - intra-genomický (genové rodiny) - inter-genomický (mezi druhy) • Mnohonásobné přiložení homologických oblastí - exony - regulační oblasti Konzervativní charakter regulačních oblastí a exonů Multi-Species Comparative Analysis lumiaii macaque 0KB human/ Pig Liver Enhancer Apolipoproteiii AI gene 10KB 75% t-ja 50/100% Co je srovnáváno? • Lokalizace genů v genomu • Struktura genů - Počet exonů - Délky exonů - Délky intronů - Podobnost sekvencí • Vlastnosti genů - Místa sestřihu - Využití kodonů - Konzervované sekvence lidský vs. myší genom- srovnání chromozómů 99% genů má ortology u lidí, divergence 75 milionů let Genomy během evoluce procházejí podstatnými změnami. Charakterizace rozdílů umožňuje odhalit mechanismy změn Human chromosomes 123456769 Mouse chromosomes n r~y r\ f~\ I I 18 ~ 15 I 10 11 12 13 14 15 16 17 18 8 -|3 4 3 1 5 6 É J2 ľ u" 0* ľ 11° li'l 16 3 ŕ 10 11 ■ 12 13 10 22 21 19 22 I f S S 17 14 15 ■ 3 10 b 14 13 1 Iß 22 22 12 21 Q*. s _ 19 _ IB U i 18 A" 5 19 5 II u m a n Locus: H U M P C N A Alignment: Human Mouse Rat Mouse Locus: M M PC N A G - Parse Evoluce na úrovni DNA -Problém globálního přiložení Delece é IVI L J—4 Mutace .ACGGTGCAGT ACCA... I .AC—CAGTCCACCA... Výsledná sekvence PŘESKUPENI Inverze Translokace ->-> > Duplikace ->-> > > Nalezení nejefektivnější transformace jedné sekvence do druhé vyžaduje využití přístupů pro identifikaci přestaveb Proč používat přístupy srovnávací genomiky ? • Konzervovanost sekvencí v průběhu značných evolučních vzdáleností značí specifickou funkci (geny, funkční-regulační oblasti) • Ztráta konzervovanosti během krátkých evolučních vzdáleností značí adaptivní evoluci • Obtížné stanovení limitů podobnosti a optimální evoluční vzdálenosti Vista Browser 2.0 - Netscape Curve View Help ER!® + - Control Panel Reference (Base) genöme: Human July 2003 V Position (gene name or chrX:start-end): ;hr13:69,595,483-71,312,411 Gene annotation: FlefSeq genes V 3 more organisms: select/add V Auto Color Leaend Annotations: Repeats: j-Gene » LINE E non UTR CNS Contigs: Conti g ^™ Overlap LTR SINE RNA DNA Other ALKjN ■-MENT ■ t-1-r l.BM 69 .SM 1. Nov. 2003 chimpanzee Arachne assembly, NCEII Build 1 Version 1 (UCSC: panTrol) (LAGAN) rDQWN 1 2. Oct. 2003 Mouse Genome Assembly (MLAGAN) 3. Feb. 2004 Chicken Genome Assembly (UCSC: galGal2) (LAGAN) 4. FuguAug. 2002 (SLAGAN) Window resized: 1016x503 I AiitnRfísÍ7R šimpanz myš kuře Fugu Základní zdroje a přístupy Databáze - NCBI: Genomy, Geny, Proteiny, SNPs, ESTs, GSSs, Taxonomie, atd. - databáze genomových center Analytický software - Databázové dotazy (nalezení podobných sekvencí), algoritmy pro přiložení, shluková analýza, predikce genů, identifikace motivů v DNA Algoritmy pro dlouhá globální přiložení - lokální přiložení s rozšířeným vkládáním mezer - citlivé, ale málo specifické pro dlouhé sekvence • BLASTZ • BLAT - globální přiložení • AVI D • LAGAN • S-LAGAN • M AVI D, MLAGAN Lokální přiložení o 1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG.... 67 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 7 0 14 TCAGAAGCAGCTAAAGCGT 1 AGGATTGGAATGCT 39 AGGATTGGAAT 62 AGACCG I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I 42 TCAGAAGCA-CTAAAGCGT 1 AGGATTGGAATGCT 1 AGGATTGGAAT 66 AGACCG Globální přiložení Dvě sekvence sdílejí oblasti s lokální podobností (end-to-end alignment) 1 AGGAT T GGAAT GC T C AGAAGCAGC T AAAGCGT GT AT GC AGGAT T GGAAT T AAAGAGGAGGT---AGACCG 67 I I I I I I I I I I I I I I I I I III II II III I I I I I 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 7 0 Algoritmy pro globální přiložení • AVID - Umožňuje srovnání pouze homologních sekvencí bez duplikací, inverzí nebo translokací - vyžaduje předem přípravu a identifikaci vzájemně si odpovídajících regionů • LAGAN (Limited Area Global Alignment) - Umožňuje srovnat mnohem delší sekvence než AVID - Používá se společně s lokálním přiložením dlouhých sekvencí (BLAT) • Multi-LAGAN - mnohonásobná globální přiložení - Umožňuje konstrukci fylogenetických stromů na základě globálního přiložení genomů Shuffle-LAGAN (S-LAGAN) • Slouží pro globální přiložení kompletních sekvencí genomů • Detekuje genomová přeskupení a inverze • Poskytuje přiřazení všech kombinací vložených sekvencí Shuffle-LAGAN (S-LAGAN) • Slouží pro globální přiložení kompletních sekvencí genomů • Detekuje genomová přeskupení a inverze • Poskytuje přiřazení všech kombinací vložených sekvencí 1. Nalezení lokálních \ \ J \ \ \ \ \ přirazeni 2. Sestavení hrubé mapy homologií 3. Globální zarovnání dle odpovídajících si časti Shuffle-LAGAN (S-LAGAN) 1. Nalezení lokálních přiřazení 2. Sestavení hrubé mapy homologií 3. Globální zarovnání dle odpovídajících si časti Shuffle-LAGAN (S-LAGAN) \ N i \ i 1. Nalezení lokálních přirazeni 2. Sestavení hrubé mapy homologií 3. Globální přiložení dle odpovídajících si časti Biologie genomů U významných skupin organismů jsou k dispozici rozsáhlá genomová srovnání (Precomputed alignments) - UC Santa Cruz/PennState (translated BLAT or BLASTZ) - Berkeley Genome Pipeline (BLAT/AVID) - Ensembl (Phusion/Blastn) - Vista Genome Server (LAGAN/SLAGAN/AVID) - NMPDR (Microbial Pathogen Data Resource) Funkční genomika Populační genomika Evoluční genomika Lékařská genomika a rakovina o Genome Browsers ^ EnSGUlbi BLASTJBLAT | VEP | Tools | BioMart | Downloads | HeJpSDocs | Sog q Base v , Version: WS278 About Directory Tools Downloads Community Support Search directory... Submit Data Micropublication □ Para Site I U.S.NationalLibraryofMerJicine \ ncbi Nationale anterior Biotechnology Info mation Log in 1 Genome Data Viewer GDVisa genDme nf mnrp than rowser supporting the exploration and analysis enkaryotir Rpf.Ser] jpiomp as^pmhlips. 0 =C. elegans (BioProject PRJNA13758): 11.61 kbp from lll:9,060,076..9,071,680 Browser Select Tracks Snapshots Cus.on b Search Landmark or Region:__ |lll:9I060;Q76..9I071;6BO | Search | =-C:R_pr-::luct sjjBOOIS 1. t t:=-. ■= E : = =..^NA13758) v| □ Overview Scroll/Zooin: « < | Show 11.61 kbp v | b Region □ Details Homo sapiens (hi man) genome w Locaticn.genecrphenDtype Assembly GRCh3£.pl3 V | Browse genome J J BLAST genorr • 1 e Assembly details Nam* GRC-3&.pld HefSeq accession GCF_O0C'Oul405.3S Gen Bank accession GCA_000CO14I)5.2 Download iria FTP Re-Saq, GenBank Submitter Genome Keference Consortium Level rlirnmnsomp Category Re-"e-eice genome Annotation details Annotation Release 109 Release date 202O-CE.-l^ data-mining tool BLAST/BLAT > Search our genomes fc your DNA or protein sequence Analyse your own variants and predict the functional consequences of known eg BRCA2or rat 5:62797333-63627669 or rs699 or Favourite genomes / ^T^B Human r. J GRCh3S.p13 Pig breeds sail using GRCh37? j Pig reference genome and 12 additional ■■l Mouse KJL GRCm38 Generic Genome Browser (CSHL) NCBI Genome Viewer WWW.WOrmbase.org/db/sea/abrowse https://www.ncbi.nlm.nih.gov/genome/gdv/ Ensembl Genome Browser www.ensembl .org/ Base Fosition Chromosome Band STS Markers Gap DGSI ENST00009252137 Genscan Genes Mus BC013711 MUS HF037256 □rosoph RV069792 Mouse Elat 6, G 5, G 4, 0 Mouse Cons 3,6 2, 6 1 , 0 lastz Best Mouse Random SNFs I 16066000| 16067000| 160680001 16069000| 16070000| Chromosome Bands Localized by FISH Mapping Clones 22qll .21 STS Markers on Genetic dlolue} and Radiation Hybrid {black} Maps 0 http://www.bdgp.org/annut/apullu/ liJatihjs Seq Genes Ensembl Gene Predictions Gens can Gene Pred i et i ons Nonhuman mRNfis from Genbank Mouse Translated Elat ň 1 gnrnent Human/Mouse Evolutionary conservation score 1 Blastz Mouse Best in Genome Alignments Single Nucleotide Polymorphisms . hentie ľ- \y. Apollo Genome Browser https://genomearchitect. readthedocs. io/ Vista Tools http://genome.lbl.gov/vista/index.shtml Tools for Comparative Genomics fj^) About Us Contact U* VISTA Home Custom Alignment Broivser Enhancer DB Drjtvn 1 oad 5. Publ ications Help This web site will be down for maintenance on Tuesday Nov, 11, 2014, Sorry for the inconvenience. VI ST A is 3 com pre-hensive su ite of programs and data bases for corn pa rative ana lysis of gen om i c seq uen oes. There; are: two ways of usi ng VI ST A - you can su bm it you r awn seq uen ces and al ig n merits foi ana lysis- IVISTA servers; em examine pre-compute-d \vh ole-gen ome alignments of-d ifferent species. Submit Your Sequences m VISTA » mVI 5TA Aligr are corr pare yoL r aeeLeroes "ronr multiple =.pecie=. » rVI STA Locate regulatory sequences in your data using comparative seuLaroa arary=-i=- are trar=-priptior -"aster bir-3irg =-ite search. » qVI STA Compare yoLr aseLeros^ again at whole-geronre a=aenrblis=-. n woVI STA Align pair of sequences up to 10Mb long {finished or draft) including microbial whole-genome -= Precomputed Alignments VISTA Browser VI STA-Foint Adoee-e. doit plete □ata arc vi=.Lal pre=ertatior of pa i mise arc rrLltiple aligrirertE. 0- whole genome i » VI STA Browser Exanrire pre-sorr pL tes paimisa are rrLltiple aligr nrart=- o-" whole gerome assemblies. » Whole Genome rVI STA leer try trar=-Eriptior "aster binding =-ite=- that are ooraarve:: between species and over-repreEer te:: ir upstream regions of g r-dl pE. o-~ genes. Microbial Genomes .-.:: = = = l e :: " l _ a : j_ e :a " : : = ;-■" = - = ■=:-■-- :.-:: = genomes through the VISTA component of IMG. N ew to 01 fro nn VI STA fa m i ly! VI STA Red ion Vjev.et IR Vieler! is an interactive on-line tool for :: " l e " _ : e " : i ~ : - e. - : genomic intervals. Updates April 2014 _:"=: -= z : mz '.'=■-key 'lower. kJoss. h'aize. h'e^ isa-jo. Switphe rass-. arc Boy bear aE-senrblieE-. are aeeeq _ rev: plart=-: C. qrarei'bra. DrLrrnrore =■ rockpre=-s. Tltnp rr l = tare. A. halleri. are Hall =- par ic-q ra=-=-. " £0 New whole-geronre plart aligr nrerts. are added to VISTA Browser. Augu&t 2013 Updates the C. eleqars arc C. brkj-qsae z- = = = -"z == =-z ~ zz = z 7 - = .. ■.:""" = Z' brerreri. C. rerrarei. C. isporipa. C. =-p. ". are C. angaria. '■■"JEt^ rj = ^rchiv = Enhancer CE JGI Gěiiomě Psrtal » Other Projects Experinrer tally validated human noncoding "ragnrerti- with gere er harder activity as assessed in transgenic mice. h ttp:..er har car. Ibl.-jcv.- Find VISTA aignments for a number of gei sequenced in tlie Department of Energy Joint 3ercnre Ir = titLte http:..geronre.kj-ps-'.crq.1 PI-yb-VIBTA ~iiC- ' = PGA VISTA Browser: Alignment Details Curve View Help CZ] + Control Panel- Reference (Base) genome: [nurnan May 2004 ^ Tib 0 3 Position (gene name or chrX:start-end): =hr7:127,475,232-127,491,632 m Go Gene annotation: 4 3 BROW SERS ALGN IÜ-ment Q- =4, J? I-^- en repetice Art /S 127,476.33k exon n AAV a 7.437.23k 127.433.23k Přiložení 127.439.23k contig: ^^^^^^ Annotations: Repeats: '-Gel-1-1 Exon UTR CNS Contigs: Color Legend Annotations: J-Gene Exon UTR CNS Contigs: Contig Overlap Repeats: - LINE - LT R SINE RNA DNA Other SNPs: - SNP A. A 1001Í E AutoResize 3. Predikce kódující oblasti na Q základě hledání (ab initio) • Využívá pouze sekvenční data a výpočetní přístupy integrující analýzu sekvence a detekci signálů • Pro kary ota - Hledání otevřených čtecích rámců doplněné hledáním konzervativních signálů v transkripčních jednotkách - ORF Finder (Open Reading Frame Finder) http://www.ncbi.nlm.nih.gov/gorf/gorf.html • Eu kary ota - Predikce promotorů - Predikce polyA-signálů - Predikce míst sestřihu a start/stop kodonů - Analýza frekvencí o Klíčové signály pro odhalení genů • iniciační a terminační kodony • promotory • vazebná místa pro ribozómy (RBS) • místa sestřihu • terminátory transkripce • polyadenylační místa • vazebná místa pro transkripční faktory Struktura prokaryotické transkripční jednotky RBS RBS RBS promotor gen (CDS) \ gen (CDS) \ gen (CDS) terminátor v. start \ \ stop operon Struktura prokaryotického genu Přepisovaná oblast do mRNA start kodon stop kodon / \ Kódující oblast 3' \ Nepřekládané oblasti (UTR) Promotor \ ▲ Začátek transkripce (+1) Terminátor transkripce <-upstream (proti směru transkripce) downstream (po směru) -► Konzervativní struktury v promotoru prokaryot mRNA 5' — PuPuPuP ď ď ď ď u ' AUG -30 ■10 +1 •30 region Promoter | transcription start site -10 region TTGACA AACTGT TATAAT ATATTA -36 ■31 mRNA TTGACA 82 84 79 64 53 45% -12 -7 Príbnowbox TATAAT 79 95 44 59 51 96% +1 +10 +20 Ribosomal binding site (RBS) GGAGG ATG consensus sequences protein Signály v jednoduchém strukturním genu fem gene _ 1 ATATGGTCAGTGCATATAAAATTTGTTATCATTAGAGTAATTAAAGGTCATTTAATAACTTTTGGAATCA 70 71 ATTGGA|GTTCTCAT^BlTATCTTTTAGTCAAAATAGAAGTCATAGCTTAGAACAATCTTTAAAAGAAG 140 141 GATATTCACAAATGGCTGATTTAAATCTCTCCCTAGCGAACGAAGCTTTTCCGATAGAGTGTGAAGCATG 210 211 CGATTGCAACGAAACATATTTATCTTCTAATTCAACGAATGAATCATTAGACGAGGAGATGTTTATTTAG 280 281 CAGATTTATCACCAGTACAGGGATCTGAACAAGGGGGAGTCAGACCTGTAGTCATAATTCAAAATGATAC 350 351 TGGTAATAAATATAGTCCTACAGTTATTGTTGCGGCAATAACTGGTAGGATTAATAAAGCGAAAATACCG 420 421 ACACATGTAGAGATTGAAAAGAAAAAGTATAAGTTGGATAAAGACTCAGTTATATTATTAGAACAAATTC 490 491 GTACACTTGATAAAAAACGATTGAAAGAAAAACTGACGTACTTATCCGATGATAAAATGAAAGAAGTAGA 560 561 TAATGCACTAATGATTAGTTTAGGGCTGAATGCAGTAGCTCACCAGAAAAATTAGGCGTCTATTATATGT 630 631 AI I I I ICAGAGATAAATAAAATATTGATATAAAAGACAATAACTTTATAATAATTATAACTATTTCTAAA 700 701 TTCTGTACGAAGAATTTTCTTATAAACAAAGATTTTAGCAAATACCAGTTATGATATTCATAI I I I I I AT 770 771 TATAAAAGGATGTCTTAAGI I I I I IAGGCTTTAGGTATTCCATCCTAAAGI I I I I I f IAGCTTAAAAGTA 840 841 TCATCTACAGCAAAATTGCAAACGACAAAATTGATAAGTGCAATTAAATAAATGTTAGTAAGTGAATCAT 910 911 AATTATCCTTGCTTAAGCATTTGCTTTGTAAGGGAAGTGAGGAGGCAACTAATCG 965 rsbU gene itive promotor ►utative RBS stoj terminator typical protein coding state atypical protein coding state stop codor^- RBS —^ spacer —^ CDS ■( gene ^- Model pro hledání jednoduchých genů isolated gene intergenic region overlapping genes series C=£> Signály - senzory ve struktuře eukaryotického genu Start codon ^ Donor site AGTGAG Transcription start Exon Promoter Acceptor site Intron Stop codon GATCCCCATGCCTGAGGGCCCCTC Poly-A site GGCAGAAACAATAAAEHSiH Metody pro vyhledávání signálů • hledání konvenční sekvence spolu s možnostmi přípustných odchylek • použití vážených matic - každá pozice vzoru signálu připouští shodu s jakýmkoli zbytkem - různé zbytky mají v každé pozici přiřazenou jinou významnost Příklad konsenzní sekvence signálu • Získána výběrem nejčastěji se vyskytující báze v každé pozici mnohonásobného přiložení příslušné subsekvence našeho zájmu TACGAT TATAAT TATAAT GATACT TATGAT TATGTT konsensus sequence PSiSSB konsensus (IUPAC) TATRNT • Vede ke ztrátě informací a získání mnoha falešně pozitivních i negativních výsledků Příklad poziční vážené matice • Vyjadřuje frekvenci každé báze v každé pozici příslušné sekvence TACGAT 1 2 3 4 5 6 TATAAT A 0 6 0 3 4 0 TATAAT k C 0 0 1 0 10 GATACT G 1 0 0 3 0 0 TATGAT T 5 0 5 0 1 6 TATGTT • Skóre každého předpokládaného místa je vyjádřeno součtem hodnot z matice (převedeno na pravděpodobnosti) • Nevýhody: - Je vyžadována hraniční hodnota - Předpokládá nezávislost sousedících bází Příklad signálu RBS (vazebné místo pro ribozóm) u Bacillus subtilis Vazebné místo pro ribozóm (RBS) a iniciační kodon ATG u E. coli Predikce míst sestřihu Pozičně vážená matice pro odvození donorového místa sestřihu Donor site 5' Příklad signálů: místa sestřihu (myš) Statistická analýza sekvence O predikovaného genu • Důležité je posouzení charakteru sekvence - délka genu - frekvence využití kodonů -obsah GC (indikace horizontálního přenosu) - GC skew a AT skew • GC skew = (G - C)/(G + C) • AT skew = (A - T)/(A + T) - statistické modely modely frekvencí nukleotidů (využití hexamerů) - periodicita nukleotidů Testovani exonu AA codon /1000 frac Ser TCG 4 . 31 0 . 05 Ser TCA 11. 44 0 . 14 Ser TCT 15. 70 0 .19 Ser TCC 17 . 92 0 .22 Ser AGT 12 . 25 0 . 15 Ser AGC 19. 54 0 .24 Pro CCG 6. 33 0 . 11 Pro CCA 17 . 10 0 .28 Pro CCT 18 . 31 0 .30 Pro CCC 18 . 42 0 .31 vyuziti kodonu AA codon /1000 frac Leu CTG 39. 95 0 .40 Leu CTA 7 . 89 0 . 08 Leu CTT 12 . 97 0 . 13 Leu CTC 20. 04 0 .20 Ala GCG 6. 72 0 . 10 Ala GCA 15. 80 0 .23 Ala GCT 20. 12 0 .29 Ala GCC 26. 51 0 .38 Gin CAG 34. 18 0 .75 Gin CAA 11. 51 0 .25 Codon usage database: http://www.kazusa.or.jp/codon/ Obsah G+C - příklad využití pro identifikaci horizontálně přeneseného mobilního elementu Odlišný obsah G+C indikuje horizontální přenos GC skew - příklad využití pro identifikaci prokaryotického počátku replikace GC skew = [G% - C%] / [G% + C%] AT skew - příklad využití pro identifikaci kódujícího vlákna DNA AT skew AT skew = [A% - T%] / [A% + T%] Frekvence oligonukleotidů - rozlišení mezi kódujícími a nekódujícími oblastmi • Rozdíly v distribuci jiných oligonukleotidů než kodonů, tj. tri-nukleotidů, např. hexamerů odráží závislosti mezi sousedními aminokyselinami v proteinech 50 40 - 30 - £0 10 -10 -20 - i i 0 —-fi-v-f--,-...41--J..... ! I r-\f y i ^' \ -1- Markov Model Markov Model Markov^ Model -1— order 1 order2 order 5 ■ i i i I i j . í í|'V Mí v-> r'{ _3Q I_I_I_I_I_I_I_I_I_I_I 0 200 400 600 800 1000 1200 1400 1600 1800 2000 Markovovy modely • Nejčastěji používané statistické modely pro hledání genů • Vyjadřují pravděpodobnost sekvenčních událostí Hidden Markov Models (HMM) Příklad komplexního algoritmu se skrytými Markovovy modely (HMM) 5'UTR -, 3 UTR Populární programy pro predikci genů • Programy využívající explicitní pravidla - GeneFinder • Programy založené na „Hidden Markov Models" - GeneMark - Glimmer - GenScan - TwinScan • Programy využívající neuronové sítě - Grail - GrailEXP GeneMark http://opal.bioloqy.qatech.edu/GeneMark/ GeneMark A family of gene prediction programs developed by Mark Borodovsky's Bioinformatics Group at the Georgia Institute of Technology , Atlanta, Georgia, USA. What's New: Supported Gene identification in novel -L Mir* eukaryotic genomes by self-training algorithm: GeneMark.hmm-ES Gene Prediction in Bacteria, Archaea and Metagenomes For bacterial and archaeal gene prediction you can use the parallel combination of GeneMark-P and GeneMark.hmm-P. For a novel genome you can use either the Heuristic models option (if the sequence is shorter than 200 kb) or the self-training program GeneMarkS (aka GeneMark.hmm-PS). Borodovsky Group Gene Prediction Programs Gene Prediction in Eukaryotes For eukaryotic gene prediction you can use the parallel combination of GeneMark-E and GeneMark.hmm-E. For a novel genome (the one whose name is not in the list of available models) you can run GeneMark.hmm-ES, the self-training program (Just 10MB sequence is needed for training). Gene Prediction in Viruses For gene prediction in novel viruses and phages you can use GeneMark.hmm. Viral genome annotations are accessible via VIOLIN database. Gene Prediction in EST and cDNA GeneMark GeneMark.hmm GeneMarkS Heuristic models Frarne-by-Frarne Information Background References In GenBank FAQ Contact Databases of predicted genes To analyze ESTs and cDNAs you can use GeneMark-E. • Prokaryotesclosedj Updating • Viruses/Phages (VIOLIN) Models for Gene Prediction Glimmer http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi Microbial Genomes >**+2+#*3 HOME SEARCH SITE MAP Genome Project | Genome | Prokaryotic Projects | Collaborators | gMap | ProtMap | TaxPlot | BLAST | FTP | Contact us Genomes Microbial Genome Annotation Tools GLIMMER is a system for finding genes in microbial DNA. especially the genomes of bacteria and archaea. GLIMMER (Gene Locator and Interpolated Markov ModelER} uses interpolated Markov models to identify coding regions. DelcherAL, Harmon D, Kasif S, Wh ite 0, Salzberg SL. Improved microbial gene identification with GLIMMER, Nucleic Adas Research 27:2ä [1999}, 4636^1641. Salzberg £, DelcherA, Kasif S, Wh ite O. Microbial gene identification using interpolated Markov models, Nucleic Acitls Resesrch 26:2 (1 &&S}, 544-54B. Download GLIMMER from the Centerfor FJioinforrnatics and Computational Biology. Genome Projects Prokaryotic Projects Microbial Genomes Home Complete Genomes Draft Assemblies Registered Entrez Genome Submit a Genome Sequin Submission Guide Register a Project Submit a Genome Submit Traces Tools Resources Sequencing Centers Collaborators Upload your ssquanc s from fits: Procházet.. Of c opy past s your ssqusnc s FAS TA hars:_ Příklad srovnání různých přístupů pro vyhledávání prokaryot. genů 6. subtilis £ coii o Input Output Process PGAP - NCBI Prokaryotic Genome Annotation Pipeline Víceúrovňový proces kombinuje ab initio predikci a metody založené na podobnosti • predikce genů kódujících protein • další funkční jednotky strukturní RNA tRNA malé RNA pseudogeny kontrolní oblasti Repetice mobilní elementy NON-CODING GENES AND CRISPR LOCI ANNOTATION \S) (S) {&) CODING GENES STRUCTURAL ANNOTATION ORFfinder J L BLAST + ProSplign HMM search Ho m o logy-based predictions _i i_ ™ Homology-based models including pseudogeno, partial gerteü, arad Selenoproteins ft lark hin 4> GeneMarkS2+ with hints Structural annotation of coding genes feeds into functional annotation ...............I................. FUNCTIONAL ANNOTATION Yes Vr.". Name by BlastRules No Name by HMMs No N a m e by d omas n arch itectu res No Name by protein homology No Named Proteins Yes Yes Name by identity to existing proteins —^ < AST Rapid Annotation using Subsystem Technology The NMPDR, SEED-based, prokaryotic genome annotation service. For more information about The SEED please visit theSEED.org. UUn■ llv****4- /M>n/Cl^/i«n^* 11 up. li i ao i. li icoccu.ui y i n v^i i ao i. uy i RAST (Rapid Annotation using Subsystem Technology) -Anotace na základě vlastní pipeline -Využívá integrovaný přístup včetně NCBI databáze (BLAST) - Klasifikace genů do subsystémů a identifikace metabolických drah podle KEGG: Kyoto Encyclopedia of Genes and Genomes (https://www.qenome.ip/keqq/) - Příklad parametrů anotovaného genomu: Organism Overview for Massilia sp. CCM 8692 (6666666.478097) Genome Domain Taxonomy Neighbors Size GC Content N50 L5G Massilia sp. CCM 8692 Bacteria Bacteria; Massilia sp. CCM 8692 View closest neighbors 7.570,397 63.8 : c i t.i 2 11 Number of Contigs (with PEGs) 141 Number of Subsystems 475 Number of Coding Sequences 6982 Number of RNAs 104 For each genome we offer a wide set of information to browse, compare and download. Browse Compare Download Annotate Browse through the features of Massilia sp, CCM 3692 both graphically and through a table. Both allow quick navigation and filtering for features of your interest. Each feature is linked to its own detail page. Click here to get to the Genome Browser - RAST rozdělí anotované geny do jednotlivých funkčních kategorií, ty zahrnují další podkategorie - např. geny zapojené do jednotlivých metabolických drah Subsystem Information Subsystem Statistics Subsystem Coverage Features in Subsystems Subsystem Category Distribution Subsystem Feature Counts Cofactors, Vitamins, Prosthetic Groups, Pigments (327) Cell Wall and Capsule (145) Virulence, Disease and Defense (116) Potassium metabolism (19) Photosynthesis (0) Miscellaneous (45) Phages, Prophages, Transposable elements, Plasmids (13) Membrane Trarsport (248) Iron acquisition and metabolism (16) RNA Metabolism (135) Nucleosides and Nucleotides (108) Protein Metabolism (343) Cell Division and Cell Cycle (39) Motility and Chemotaxis (280) Regulation and Cell signaling (71) Secondary Metabolism (5) DNA Metabolism (116) Fatty Acids, Lipids, and Isoprenoids [178] Nitrogen Metabolism (63) Dormancy and Sporulation (4) Respiration (118) Stress Response (222) Metabolism of Aromatic Compounds (24) Amino Acids and Derivatives (428) Sulfur Metabolism (69) Phosphorus Metabolism (57] Carbohydrates (346) KEGG mapa všech metabolických drah nalezených u daného organismu dle automatické anotace RASTem. - možnost sledovat jednotlivé metabolické dráhy t u~ykv um ."Tin rhr^LJ r I [ksbbí[ í T 11 I T — i-1-f-T T T L-- Í Í ♦"Tí— "5«-^r * >1 n 4 i.: -* ■ ■ ■ | j,m||| 11 *H -n I ¥-"-T !írrr' —í —i h-— —, S3ET,i - BCDT mtaš * k i r hi'ŕfP MM fisser r-•1 ™^—■—í—»+ >Ľi~Íl'" J í-—£ *-—^ ^ ESSSi" i_ ■ ŕ=H-f ■ » r-"^L--fflFE * * * * n t——■ »i t t i v »í—j \-1—_ -—i—l j. ■ -r-^—lil I v^^ipäŕ—.„A\ TTT1 ^Jj^lLj^f^ . sä- Ir^s"!* »94 Í.j,mÍiYV""""" —;— i " J 1 -h to ■ ■ ■ r" "h ■ T. ™ 3-1 « : T * masa-f ľ ■ ■ ■ Grafické znázornění proteinů, které byly v daném organismu identifikovány -identifikace na základě podobností v BLASTu NITROGEN ME TABULI SM . REDUCTtON AND FIXATION I I I I I 1 Formurad* H3CC& _ CO2 * :2.]\U 3.5.1.41 TTŠXJ- T 1731 L.7.7 2 L.9JÖI L.7.1.1 L.j.l 1 1 1.7.1.3 111.1 1112 421 1(H|- ö.3.i.lfi OaíbaiiB5ii-P S.3.1J Atciitiií and piobe iTiemolisni_ 1J.1Ü +0 41 M 1 ■j^ 1.3 I t. . ] "M-l oArunn actis Cti. HitregíBOUS _^ ÍOlť.pjTlHíiS ) 1.72.1 l.LSjfi.l l.LSd.L Nilricořidl* O-l L.1JP.1j-»Q-|UJP]fl h^Ó^ B,-[W \^ L 1 11412351 "t-l.L. |- l 14 L2L 43. L. 1.4.3. 4A] ] II 4A] 2~|l 4.4,] 8 I -OAtraiwe 3.5.4 -Oftmjdw —-- 3.5.5.1 um- -OAtíidijiues I m 3 I -OIljllLfr^ Vyhledávače eukaryotických genů Využívají integrované přístupy - Genie používá informace ze známých genů a odhaduje, které oblasti genomu pravděpodobně obsahují nové geny - Fgenes je vhodný pro hledání exonů a stanovení struktury genů - Genscan přehledný vyhledávač využívá integrované přístupy - Veil komplexní vyhledávač exonů a intronů a míst sestřihu, HMM modely Veil komplexní vyhledávač exonů a intronů a míst sestřihu, HMM modely • Obsahuje 9 skrytých modulů, z nichž každý je komplexní Markovův model Exon HMM Model Upstream I Start Codon Exon Stop Codon 1 3'Splice Site Intron I 5' Splice Site Downstream 5'Poly-A Site Start Codon 16 Backedges 3' Splice Site 5' Splice Site DowiistLeam Predikce eukaryotických genů GRAIL II: využívá neuronové sítě score of Srners in candidate region score of Gmers in flanking regions Markov model score flanking region GG composition candidate region GG composition Q score for splicing acceptor site Q length of reg on Exon Score Output Hidden layar Input layer EGAP - NCBI Eukaryotic Genome Annotation Pipeline ^ Nuel&otlde~^ +_+ Protein Curated RefSeq genomic, sequence alignment 1 Transcript alignment Ranking Filtering Ranking Filtering Source of genome assemblies Masking RNA-Seq read alignments Transcriptomics long read alignments Protein alignments Model prediction Curated RefSeq genomic sequence alignments Choosing the best models for a gene Protein naming and determination of locus type Gene Ontology Assignment of GenelDs Annotation of small RNAs Annotation of transcription start sites (TSS) Known RefSeq transcripts Assembly! i es) Masking of genomic seque nee Protein alignment Ranking Filtering if if V "T. Algnmentto SwissProt proteins selection Sequence Read Archive RNA-Seq, tang read, CAGE alignment I Ranking and filtering Collapsing Filtering Small non-coding RNAs (RFAIVl, tRNAscan-SE) Gene \j—»| Gene assignment, naming | BLAST l^t- — Data formatting rV FTP / Nucleotide Datasets Protein Nomenklatura používaná při anotacích genomů • Known Gene - Predikovaný gen shodující se v celé délce se známým experimentálně dokázaným genem. • Putative Gene - Predikovaný gen obsahující region homologický s konzervovaným regionem známého genu. Also referred to as "like" or "similar to". • Unknown Gene - Predikovaný gen vykazující shodu s genem nebo EST, jejichž funkci neznáme. • Hypothetical Gene - Predikovaný gen nevykazující významnou podobnost k žádnému známému genu nebo ES Evaluace vyhledávačů genů' • Citlivost versus specificita • Musí být optimalizovány / „trénovány" pro specifický organizmus • Citlivost - Kolik genů bylo nalezeno? • Specificita - Kolik pred i kovaných genů představuje skutečné geny? • Odpověď nám poskytne srovnání výsledků s transkriptomickými a proteomickými daty