Počítačové vyhledávání genů a funkčních oblastí na DNA Hodnota genomových sekvencí záleží na kvalitě anotace • Anotace - Charakterizace genomových vlastností s použitím výpočetních a experimentálních metod • Hledání genů: - Predikce - Kde jsou geny lokalizovány? - Podobnost - Jak geny vypadají? - Domény - Jakou funkci mají proteiny? - Funkce - V jakých metabolických drahách? - Evidence - Experimentální důkaz genu Hledání genů • Geny tvoří obsahovou složku genomu - Jedinečné sekvence odpovědné za funkční produkt - Variabilní délka - Strukturní geny • jednoduché • složené z exonů a intronů - Geny pro funkční RNA • RNAi (interfering RNA) • rRNA (ribosomal RNA) • tRNA (transfer RNA) • snRNA (small nuclear) • snoRNA (small nucleolar) • Jakým způsobem vyhledávat geny? Přístupy pro hledání genů 1. Metody založené na hledání podobností s již popsanými geny 2. Metody srovnávací genomiky • Srovnání více dokončených genomů • Hledání konzervativních oblastí 3. Využití algoritmů a statistických metod pro analýzu sekvence • Hledání signálů 4. Integrované přístupy Integrovaný přístup predikce genu EHon_ Regions p— similarity to Human gene shown in Red l~i DO fn Ii Several BLASTX □D similarities in this line The three forward reading \ frames [ I I I I II I I m D O »DD I I I "III I Codon Usage gene prediction Potential Start Codons I lllll I Mill III II I II II II O KD O DD O KD C I I I III I I Hl-—-I ŕ— Ml I II I II I I I-*- Stop Codons li _■ '■ -Features: PolyA signals o o in o o o o D Scale (bp) Total Coding Region Prokaryotický versus eukaryotický gen vyžadují odlišné přístupy • Prokaryota - malé genomy 0.5 - 10-106 bp - Vysoká hustota kódujících sekvencí (>90%) - Žádné introny (výjimky Archea, fágy) - Hledání otevřených čtecích rámců - Doplněno napr. hledáním signálů pro vazebná místa ribozómu - Operony: jeden transkript, mnoho genů - Úspěšnost cca 99 % - Problémy: překrývající se ORFs, krátké geny, místa TSS a promotory • E u karyota - Velké genomy 107 - 1010 bp - Nízká hustota kódujících sekvencí (<50%) - UTRs - Struktura intron/exon - Statistické modely frekvencí nukleotidů - Sledování závislostí přítomných ve struktuře kodonů - Obsah GC - Přesnost dosahuje cca 50 % - Problémy: mnoho! • postranskripční modifikace • alternativní sestřih Příklady velikostí genomů Druh Velikost Genů Genů na Mb H. sapiens 3 200 Mb 22 000 7 D. melanogaster 137 Mb 13 338 97 C. elegans 85,5 Mb 18 266 214 A. thaliana 115 Mb 25 800 224 S. cerevisiae 15 Mb 6 144 410 E. coli 4,6 Mb 4 300 934 1. Metody založené na hledání podobností s již popsanými geny • Založené na konzervativním charakteru sekvencí s určitou funkcí • Využívají nástroje pro lokální nebo globální přiložení sekvencí (BLAST, FASTA, LAGAN, AVID, atd.) • Nemohou identifikovat geny, které nejsou v databázi (~50% genů) • Omezení u sekvencí s nízkou podobností Metody založené na hledání podobností • Databáze - Proteiny - cDNA (evidence RNA) - EST, UniGene • Nástroje pro párové přiložení sekvencí umožňující analýzu genů - Hledání genů na základě podobnosti sekvencí proteinů • blastx • tblastn • fastX • genomové prohlížeče 2. Srovnávací genomika -hledání na základě homologie • Hledání založené na předpokladu, že kódující sekvence jsou více konzervativní než nekódující • Dva přístupy: - intra-genomický (genové rodiny) - inter-genomický (mezi druhy) • Mnohonásobné přiložení homologických oblastí - exony - regulační oblasti • Obtížné stanovení limitů podobnosti a optimální evoluční vzdálenosti Co je srovnáváno? • Lokalizace genů v genomu • Struktura genů - Početexonů - Délky exonů - Délky intronů - Podobnost sekvencí • Vlastnosti genů - Místa sestřihu - Využití kodonů - Konzervované sekvence Proč používat přístupy srovnávací genomiky ? Konzervovanost sekvencí v průběhu značných evolučních vzdáleností značí specifickou funkci (geny, funkční-regulační oblasti) Ztráta konzervovanosti během krátkých evolučních vzdáleností značí adaptivní evoluci 1 Vista Browser 2.0 - Netscape Curve View Help + - IS P Control Panel Reference (Base) genome: Human July 2003 Position (gene name or chrX:start-end): ;hr13:69,595,483-71,312,411 Go] Gene annotation: RefSeq genes 3 more organisms: select/add * R onus: Auto Color Legend Annotations: Repeats: J-Gene *" LINE Exon UTR CNS Contigs: Contig □ verlap LT R . SINE : RNA : DNA Other BROW SERS MENT -1-1— 1IJ _i_i_ -1-1— _i_i_ —i-1— _i_i_ _L_ —i— 7D.4M j 1. Nov. 2003 chimpanzee Arachne assembly, NCBI Build 1 Version 1 (UCSC: panTrol) (LAGAN) [TPOWN 2. Oct. 2003 Mouse Genome Assembly (MLAGAN) 3. Feb. 2004 Chicken Genome Assembly (UCSC: galGal2) (LAGAN) 4. FuguAug. 2002 [SLAGAN) Window resized: 1016x503 -1-1— _i_i_ —i-1-1— TIM 71.;w 50^ \CI0X 5ÜU 1ÜQV W\ ň.ltnRRSÍ7R • šimpanz • myš • kuře • Fugu Konzervativní charakter regulačních oblastí a exonů Lokální versus globalizované sekvenční přiložení a b abc -b-a- a c - abc b Local "~T q n Local a__b _ abc "b a" °a "a- ~"global Problém globálního přiložení Nalezení nejefektivnější transformace jedné sekvence do druhé vyžaduje využití přístupů pro identifikaci přestaveb Bodové změny, delece Inverze Translokace Duplikace Kombinace uvedených změn Human Mouse Rat Příklad srovnání lokusů a chromozómů Charakterizace rozdílů umožňuje odhalit mechanismy změn II um mi Locus: IIIJMPCNA Alignment Parsi Mouse Locus: M M PCN AG Základní zdroje a přístupy • Databáze - NCBI: Genomy, Geny, Proteiny, SNPs, ESTs, Taxonomie, atd. - databáze genomových center • Analytický software - Databázové dotazy (nalezení podobných sekvencí), algoritmy pro přiložení, shluková analýza, vyhledávání repetic, predikce genů • Algoritmy pro dlouhá globální přiložení - lokální přiložení s rozšířeným vkládáním mezer - citlivé, ale málo specifické pro dlouhé sekvence • BLASTZ • BLAT - globální přiložení • AVI D • LAGAN • S-LAGAN • M AVI D, M LAGAN AVID • Umožňuje srovnání pouze homologních sekvencí bez duplikací, inverzí nebo translokací • Pokud je aplikován na celé genomy, vyžaduje předem přípravu a identifikaci vzájemně si odpovídajících regionů LAGAN (Limited Area Global Alignment) • Umožňuje srovnat mnohem delší sekvence než AVID v důsledku jiného algoritmu pro identifikaci vzájemně odpovídajících si úseků • Používá se společně s následným lokálním přiložením dlouhých sekvencí (BLAT) - rat - mouše - rat - human Multi-LAGAN (MLAGAN) • V porovnání s LAGAN provádí navíc mnohonásobná globální přiložení • Nejprve provede přiřazení více příbuzných genomů a následně přiřazuje genomy více fylogenetický vzdálené • Umožňuje konstrukci fylogenetických stromů na základě globálního přiložení genomů Shuffle-LAGAN (S-LAGAN) • Slouží pro globální přiložení kompletních sekvencí genomů • Detekuje genomová přeskupení a inverze • Poskytuje přiřazení všech kombinací vložených sekvencí Precomputed alignments • U významných skupin organismů jsou k dispozici rozsáhlá mezidruhová srovnání - UC Santa Cruz/PennState (translated BLAT or BLASTZ) - Berkeley Genome Pipeline (BLAT/AVID) - Ensembl (Phusion/Blastn) - Vista Genome Server (LAGAN/SLAGAN/AVID) - NMPDR (National Microbial Pathogen Data Resource) I —Phusion/blastn —WABA | Genome Browsers ~3 fri H. Sapiens (via NCBI-annotation April 2002) IllkUrpc I lUII-k. I -1 ■■ I- -1 • .11 c h II S-iriiJ H n......C €■ ININC. ÍJGIIť! lUmi. lnuli. Or Gl tier iHIKlllUlk Thr wilchitrclch^rjcE^r ' r.,i1k>wrd. lYamph^ Chr7Ů. ClirO «(i.(MK).I 80.000, AU I ,'J1 f.li, Ulii/I l,BRtAř, tycHn. IHeFpl In : .-Ii"!-- Oll i ■■■ - ■■ ťlitkTht ruler.: -. - ,l„- I i......buLLÜPH 10 = Ii i.|.-ilk in.t- ,11 ní [iiv.ii :i>n. I <,.!!.■ I Hr. s i.^-n. :>..ol in.i'k I Iii^i link. I Jiidmiik or H-píiion r Data 3our« Ihimpy \rartŤir% and pthf r OpcralcDm 7TÖT73 |-- v,, n,........ r.,.., T] Aht.ť I frirňiju:H E Tracks ruirn^ WmYtv* F.ďAft rc:iDin-s fCvTvimtf P LeCiriLhlh pUMl rAHunrtjIv tflinpmicrHi r pkigfei .FfcMi iu km S ilcr, (nob Fftťfiťq TidiibaipLv riVTtůrUiqv Iriuijn- WiiJEIi r i-y [XI Ml i.. 11 ram rt4U p*oy r id?4 PEet*ppn re --■ l-T- : -. I l.llMlrjH frng- Upload your o Upload a file' ■ Add icmolc innCKHiont [Hclpl I ntfi Remote4 Auriůtatiún URI Add, MS J ^] hi- p:,',' d,--,--,-. -í±. . rÉTi. nh v^fnapfew/^. ErtfcjjrWst»t. htrŤT" WCSJ Map ťříriv#r Search |H*!lmit]n|iini!ini DtdiMsri«É, http://www,en5embl.org/ £7 ^Ensembl Ensembl Genome Browser J The Wellcomt T > Sanger [nslifc el ... .- ; and the to develop a son.v are vyvio!:; which P ilhS r^aif'SalnS S'.i!0iT!Í=t!C •• tö ail the ■-BisefrikJ'presents up-to-date s ^isElJila.-atitbrnatlc annotation 1 Available now are human, moi Others will be added soon. For an introduction to the Ensembl project, t; t< ur, and then 30 through a step-by-step which introduces Ensembl's main functions. jiTsnce d?ta an i the oest S'.h:?':• stic genomes. , and ■ Nucleic Acids Resesrcli e Ensembl • Ensembl Species 2 Dec 2002 2 Dec 2002 25 Nov 2002 1 S Nov 2002 1 S Nov 2002 2 Dec 2002 Help and documentation ► Species-specif Fcj-.íjůctaxierit"attori is available via tb species home pages shove. *■ Take the ■■ , go through a step-hy-step example, or read this short : ■:[_ in Nucleic Acids Research. * For context-sensive.Kelp onany web cage ciicn Generic Genome Browser (CSHL) NCBI Map Viewer www.wormbase.org/db/seq/gbrowse www.ncbi.nlm.nih.gov/mapview/ Ensembl Genome Browser www.ensembl.org/ Ease Fosition Chromosome Band STS Markers Gap DGS1 ENST00090S5S137 Genscan Genes MUS BC013711 MUS AF037256 Drosoph flV069792 Mouse Blat s, e 5, e 4, e Mouse cons 3.e lastz Best Mouse Random SNFs 16066000| 150570001 Chromosome " 22ql 1 ,21 STS Markers on Genetic Maps pap L-p'pF ip*}--] RefSeq Genes ,E.nsei ■mbl Gene Fredi Genscan Gene Predictions Monhuman mRNňs from Genbank Mouse Translated Elat Alignments Human/Mouse Evolutionary Conservation Score L ii Elastz Mouse Best in Genome Alignments Single Nucleotide Polymorphisms (SMFs} from Random Re. [»] http://www.bdgp.org/annot/apollo/ Apollo Genome Annotation and Curation Tool ■ H UCSC Genome Browser genome.ucsc.edu/cgi-bin/hgGateway?org=human Apollo Genome Browser www.bdgp.org/annot/apollo/ Vista Tools http://genome.lbl.gov/vista/index.shtml j^*^ Tools for Comparative Genomics ^ 3 About Us cttslfs íQ\ Contact Lil VI-STA Home Custom Alignment Browser Enhancer CE Downloads Publications Help This web site will be down for maintenance on Tuesday Nov. 11, 2014. Sorry for the inconvenience. VISTA i j a comprehensive suite of programs and databases for comparative analysis of genomic sequences. There are hvo ways of using VISTA - you can submit your own sequences and alignments for analysis r\/l5TA servers) or examine ore-computed whole-genome alignments of different species. Submit Your Sequences m VISTA GACAC I I I I GACAT » mVI STA Align and -compare your sequences from multiple » rVI STA Locate r-eguLitGry sequences In your data using comparative sequence analysts, and transcription Factor binding site search. » qVI STA Compare your sequences agairtst whole-genome assemblies. » wqVI STA Align pair of sequences up to 'OK^b long (finished or draft} incJudmg microbial whc la-gen err a assemblies. Precomputed Alignments VISTA Browser » VISrA-Foint Access complete data and visual presentation, of paiwise and ■multiple alignments or," whole geronr.e as semblies. » VI-STA Browser Exam Ire pre-computed pairwise and multiple aJign-men-ts of whole gercrre assemblies. » Whole Genome rVISTA Identify transcription factor binding sites that are conserved between species- ar-1 over-rep re sented in l pstrearn regions of _■■■_£= _~ 2 = r = = » Microbial Genomes Access pre-computed full scaffold alignments for microbial genomes through the VISTA component of fMG. Nevv tool fr:)in VISTMannlly! VI-STA Region VieVdSr jTjViewgr] is an interactive on-line tool for comparing and pnoritbring genomic intervals. April 2014 Wage. ÜeJ. Updates ihum, Monfcey I i Boybear :■ new plants: C. ! rii^c^ess. Turnir. rrLstar^, A. haltari. arc Half = psricjr-ass. 1£0 New whole-genome plant alignments are added to VISTA Browser. August 201J Upiate^ tre C alegars s<--z\ C brc-^=ae assemblies-, and added 5 new worms: C. brer reri. C. remarei. C. japon-a. C. =□. ''. ar-d C. arcana. » Vista News Archive Enhancer DB JGI Genome Portal » Other Projects Experimentally validated -human noncoding fragments with gene enhancer activ ity as-assessed in transgenic mice. nttp://enhancer. Ibl.gov.1 Find VISTA alignments- for a number of genomes sequenced in tne Dapsrtmert of Energy Joint Serorre Irstitu-te http^j-jeFome.ijJ-psf.orsť1 Flivto-VISTA TreeQ-Vtsta FGA Odhalení genů s použitím ESTs • Expressed Sequence Tags (ESTs) reprezentují sekvence exprimovaných genů (cDNA). • Jestliže se oblast shoduje s EST s vysokou stringencí, pravděpodobně se jedná o gen - EST podává přesnou predikci hranic exonů. 3. Predikce kódující oblasti na základě hledání signálů • Prokaryota - Hledání otevřených čtecích rámců doplněné hledáním konzervativních signálů v transkripčních jednotkách - ORF Finder (Open Reading Frame Finder) http://www.ncbi.nlm.nih.gov/qorf/qorf.html • Eu kary ota - Predikce promotorů - Predikce polyA-signálů - Predikce míst sestřihu a start/stop kodonů Výpočetní přístupy Klíčové jsou signály pro odhalení genů • iniciační a terminační kodony • promotory • vazebná místa pro ribozómy (RBS) • místa sestřihu • terminátory transkripce • polyadenylační místa • vazebná místa pro transkripční faktory start codon typical protein coding state atypical protein coding state stop codon)- »C RBS ^—^ spacer ^—^ CDS ^ gene J- Model pro hledání jednoduchých genů isolated gene intergenic region overlapping genes series <-i Struktura prokaryotické transkripční jednotky promotor gen gen gen terminátor start ) stop operon Konzervativní struktury v promotoru pro kary o t mRNA ■PuPuPuPuPuPuPuPu' 1 AUG -30 -10 +1 Promoter | transcription start site -30 region -10 region TTGACA AACTGT TATAAT ATATTA ■36 -31 TTGACA 82 84 79 64 53 45% mRNA -12 -7 Pribnowbox TATAAT 79 95 44 59 51 96% +1 +10 +20 Ribosomal binding site GGAGG consensus sequences Signály v jednoduchém strukturním genu fem gene _ 1 ATATGGTCAGTGCATATAAAATTTGTTATCATTAGAGTAATTAAAGG|"CATTTAATAACTTTTGGAATCA 70 71 ATTGGAGGTTCTCAT^BlTATCTTTTAGTCAAAATAGAAGTCATAGCTTAGAACAATCTTTAAAAGAAG 140 141 GATATTCACAAATGGCTGATTTAAATCTCTCCCTAGCGAACGAAGCTTTTCCGATAGAGTGTGAAGCATG 210 211 CGATTGCAACGAAACATATTTATCTTCTAATTCAACGAATGAATCATTAGACGAGGAGATGTTTATTTAG 280 281 CAGATTTATCACCAGTACAGGGATCTGAACAAGGGGGAGTCAGACCTGTAGTCATAATTCAAAATGATAC 350 351 TGGTAATAAATATAGTCCTACAGTTATTGTTGCGGCAATAACTGGTAGGATTAATAAAGCGAAAATACCG 420 421 ACACATGTAGAGATTGAAAAGAAAAAGTATAAGTTGGATAAAGACTCAGTTATATTATTAGAACAAATTC 490 491 GTACACTTGATAAAAAACGATTGAAAGAAAAACTGACGTACTTATCCGATGATAAAATGAAAGAAGTAGA 560 561 TAATGCACTAATGATTAGTTTAGGGCTGAATGCAGTAGCTCACCAGAAAAATTAGGCGTCTATTATATGT 630 631 AI I I I ICAGAGATAAATAAAATATTGATATAAAAGACAATAACTTTATAATAATTATAACTATTTCTAAA 700 701 TTCTGTACGAAGAATTTTCTTATAAACAAAGATTTTAGCAAATACCAGTTATGATATTCATAI I I I I I AT 770 771 TATAAAAGGATGTCTTAAGI I I I I IAGGCTTTAGGTATTCCATCCTAAAGI I I I I I I IAGCTTAAAAGTA 840 841 TCATCTACAGCAAAATTGCAAACGACAAAATTGATAAGTGCAATTAAATAAATGTTAGTAAGTGAATCAT 910 911 AATTATCCTTGCTTAAGCATTTGCTTTGTAAGGGAAGTGAGGAGGCAACTAATCG 965 rsbU gene putative promotor putative RBS sta r| stop terminator Signály - senzory ve struktuře eukaryotického genu Start codon codons Donor site CGCeTWW-W.,,'.V GTGAG Transcription start Exon Promoter Acceptor site Intron Stop codon GATCCCCATGCCTGAGGGCCCCTC Poiy-A site G G C AG AAACAATAAA WW t Metody pro vyhledávání signálů • hledání konvenční sekvence spolu s možnostmi přípustných odchylek • použití vážených matic - každá pozice vzoru signálu připouští shodu s jakýmkoli zbytkem - různé zbytky mají v každé pozici přiřazenou jinou významnost Příklad konsenzní sekvence signálu • Získána výběrem nejčastěji se vyskytující báze v každé pozici mnohonásobného přiložení příslušné subsekvence našeho zájmu TACGAT TATAAT TATAAT GATACT TATGAT TATGTT konsensus sequence BSB^BM konsensus (IUPAC) TATRNT • Vede ke ztrátě informací a získání mnoha falešně pozitivních i negativních výsledků Příklad poziční vážené matice Vyjadřuje frekvenci každé báze v každé pozici příslušné sekvence TACGAT 1 2 3 4 5 6 TATAAT A 0 6 0 3 4 0 TATAAT C 0 0 10 10 GATACT G 1 0 0 3 0 0 TATGAT T 5 0 5 0 16 TATGTT Skóre každého předpokládaného místa je vyjádřeno součtem hodnot z matice (převedeno na pravděpodobnosti) Nevýhody: - Je vyžadována hraniční hodnota - Předpokládá nezávislost sousedících bází Príklad signálu RBS (vazebné místo pro ribozóm) Vazebné místo pro ribozóm (RBS) a iniciační kodon ATG u E. coli Predikce míst sestřihu Intron Exon 1 GU' ■A- (Y),AG Exon 2 c ^ph^ 11 '^^^ I I LJ ^^^^ Afi cgxcUUg 5' splice site Branch site AaaAAG^Ga 3' splice site Pozičně vážená matice pro odvození donorového místa sestřihu Donor site 5' Příklad signálů: místa sestřihu (myš) Statistická analýza sekvence predikovaného genu • Důležité je posouzení charakteru sekvence - délka - obsah GC - statistické modely modely frekvencí nukleotidů - frekvence využití kodonů Testování ORF - využití kodonů The Human Codon Usage Table 0\y GGG 17.08 0.23 Arg AGG 12.09 0.22 Tip TGG 14.74 1.00 Arg CGG 10.40 0.19 GGA 19.31 0.26 Arg AGA 11.73 0.21 End TGA 2.64 0.61 Arg CGA 5.63 0.10 G\y GGT 13.66 0.18 Ser AGT 10.18 0.14 TGT 9.99 0.42 Arg CGT 5.16 0.09 0\y GGG 0.33 Ser AGG 18.54 0.25 TGG 13.86 0.58 Arg CGG 10.82 0.19 Olu GAG 38.82 0.59 Li* AAG 33.79 0.60 End TAG 0.73 0.17 Gin CAG 32.95 0.73 Olu GAA 27.51 0.41 L!* AAA 22.32 0.40 End TAA 0.95 0.22 Gin CAA 11.94 0.27 A5P GAT 21.45 0.44 Asn AAT 16.43 0.44 TU- TAT 11.80 0.42 His CAT 9.56 0.41 Asp GAC 27.06 0.56 Asn AAC 21.30 0.56 TW TAG 16.48 0.58 His CAC 14.00 0.59 i.-'sJ GTG Qs.eoJ 0.48 Met ATG 21.86 1.00 Leu TTG 11.43 0.12 Leu CTG 39.93 0.43 UďJ GTA (fe.og^ 0.10 lie ATA 6.05 0.14 Leu TTA 5.55 0.06 Leu CTA 6.42 0.07 UďJ GTT 10.30 0.17 He ATT 15.03 0.35 Phe TTT 15.36 0.43 Leu CTT 11.24 0.12 UďJ GTC 15.01 0.25 He ATC 22.47 0.52 Phe TTC 20.72 0.57 Leu CTC 19.14 0.20 Ala. GCG 7.27 0.10 Thr AGG 6.80 0.12 Ser TGG 4.38 0.06 Pro CGG 7.02 0.11 Ali. GCA 15.50 0.22 Thr AGA 15.04 0.27 Ser TGA 10.96 0.15 Pro CCA 17.11 0.27 Ala. GCT 20.2 3 0.28 Thr ACT 13.24 0.23 Ser TGT 13.51 0.18 Pro CCT 18.03 0.29 Ala. GCC 28.4 3 0.40 Thr AGG 21.52 0.38 Ser TGG 17.37 0.23 Pro CCC 20.51 0.33 Testování ORF - frekvence nukleotidů start co don Codon model stop codon 30 Markovovy modely • Vyjadřují pravděpodobnost sekvenčních událostí • Nejčastěji používané statistické modely pro hledání genů Príklad komplexního algoritmu se skrytými Markovovy modely (HMM) Start Codon 16 Backedges Příklad komplexního algoritmu se skrytými Markovovy modely (HMM) Populární programy pro predikci genů • Programy využívající explicitní pravidla - GeneFinder • Programy založené na „Hidden Markov Models" - GeneMark - Glimmer - GenScan - TwinScan • Programy využívající neuronové sítě - Grail, - GrailEXP GeneMark http://opal.bioloqy.qatech.edu/GeneMark/ GeneMark A family of gene prediction programs developed by Mark Borodovsky's Bioinformatics Group at the Georgia Institute of Technology , Atlanta, Georgia, USA. What's New: Gene identification in novel eukaryotic genomes by self-training algorithm: GeneMark.hmm-ES Supported by NIH Gene Prediction in Bacteria, Archaea and Metagenomes For bacterial and archaeal gene prediction you can use the parallel combination of GeneMark-P and GeneMark.hmm-P. For a novel genome you can use either the Heuristic models option (if the sequence is shorter than 200 kb) or the self-training program GeneMarkS (aka GeneMark.hmm-PS). Gene Prediction in Eukaryotes For eukaryotic gene prediction you can use the parallel combination of GeneMark-E and GeneMark.hmm-E. For a novel genome (the one whose name is not in the list of available models) you can run GeneMark.hmm-ES, the self-training program (just 10MB sequence is needed for training). Gene Prediction in Viruses For gene prediction in novel viruses and phages you can use GeneMark.hmm. Viral genome annotations are accessible via VIOLIN database. Gene Prediction in EST and cDNA To analyze ESTs and cDNAs you can use GeneMark-E. owered by IBM Borodovsky Group Gene Prediction Programs • GeneMark • GeneMark. hmm . GeneMarkS • Heuristic models • Frame-by-Frame Information • Background • References • In GenBank . FAQ • Contact Databases of predicted genes • Prokaryotesclosed' Updating • Viruses/Phages (VIOLIN) Models for Gene Prediction • Download Glimmer http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi I&4 3 NCBI Microbial Genomes jJP^j Genome Project I Genome I Prokaryatic Projects | Collaborators | gMap | ProtMap | TaxPlot | BL _ Microbial Genome Annotation Tools GLIMMER is a system for finding genes in microbial DNA, especially the genomes of bacteria and archaea. GLIMMER (Gene Locator and Interpolated Markov ModeER} uses interpolated Markov models to identify coding regions. DelcherAL, Harmon D. Kasif S, White □. Salzberg SL. Improved microbial gene identification with GLIMMER, Nucleic Actus Reseencri 27:23 (1999), 4S36^)641. Salzberg S, DelcherA. Kasif S, White 0. Microbial gene identification using interpolated Markov models, Nucleic Acids Research 26:2 ("1 BBS), 544-34S. Download GLIMMER from the Centerfor Bioinformatics and Computational Biology. Genome Projects Prokaryotic Projects Microbial Genomes Home Complete Genomes Draft Assemblies Registered Entrez Genome_ Submit 3 Genome Sequin Submission Guide Register a Project Submit a Genome Submit Traces Resources Sequencing Centers Col laoorators Upload your sequence fiptn file: Prochäzet. Or copy past s your sequsnce FA5TA hare: Genscan http://genes.mit.edu/GENSCAN.html The GENSCAN Web Server at MIT Identification of complete gene structures in genomic DMA For information, about Gens can, click here Seirer update, Narember, 2009: We've been recently upgrading the GEN SCAN webserver hardware, which resulted in some problems in the output of GEN SCAN. We apologize for the inconvenience. These output errors were resolved. This server provides access to the program Genscau for predicting the locations and exon-intron structures of genes in genomic sequences from a variety of organisms. This server can accept sequences up to 1 million base pairs (1 Mbp) in length. If you have trouble with the web server or if you have a large number of sequences to process, request a local copy of the program (see instructions at the bottom of this page). El Organism: j£^yg^^^^^^3J Suboptimal exon cutoff (optional): jQSli Sequence name (optional): Print options: Upload your DNA sequence file (upper or lower case, spaces."numbers ignored): J Or paste your DNA sequence here (upper or lower case, space ^numbers ignored): Predikce eukaryotických genů: GRAIL II: využívá neuronové sítě IrpLii layer Užitečné nástroje • Vyhledávače ORF - NCBI: http://www.ncbi.nih.gov/gorf/gorf.html • Predikce promotoru - CSHL: http://rulai.cshl.org/software/index1.htm - BDGP: fruitfly.org/seg tools/promoter.html - ICG: TATA-Box predictor • Predikce polyA signálu - CSHL: argon.cshl.org/tabaska/polyadg form.html • Predikce míst sestřihu - BDGP: http://www.fruitfly.org/seg tools/splice.html • Identifikace start/stop kodonu - DNALC: Translator/ORF-Finder - BCM: Searchlauncher Evaluace vyhledávačů genů • Citlivost versus specificita • Citlivost - Kolik genů bylo nalezeno? • Specificita - Kolik predikovaných genů představuje skutečné geny? Srovnání různých přístupů pro vyhledávání genů Nomenklatura používaná při anotacích genomů Known Gene - Predikovaný gen shodující se v celé délce se známým experimentálně dokázaným genem. Putative Gene - Predikovaný gen obsahující region homologický s konzervovaným regionem známého genu. Also referred to as "like" or "similar to". Unknown Gene - Predikovaný gen vykazující shodu s genem nebo EST, jejichž funkci neznáme. Hypothetical Gene - Predikovaný gen nevykazující významnou podobnost k žádnému známému genu nebo ES'