Počítačové vyhledávání genů a funkčních oblastí na DNA Hodnota genomových sekvencí záleží na kvalitě anotace • Anotace - Charakterizace genomových vlastností s použitím výpočetních a experimentálních metod • Hledání genů: - Predikce - Kde jsou geny lokalizovány? - Podobnost - Jak geny vypadají? - Domény - Jakou funkci mají proteiny? - Funkce - V jakých metabolických drahách? - Evidence - Experimentální důkaz genu Hledání genů • Geny tvoří obsahovou složku genomu - Jedinečné sekvence odpovědné za funkční produkt - Variabilní délka - Mnohdy složené z exonů a intronů - Geny pro funkční RNA • RNAi (interfering RNA) • rRNA (ribosomal RNA) • tRNA (transfer RNA) • snRNA (small nuclear) • snoRNA (small nucleolar) • Jakým způsobem vyhledávat geny? Přístupy pro hledání genů 1. Metody založené na hledání podobností s již popsanými geny 2. Metody srovnávací genomiky • Srovnání více dokončených genomů • Hledání konzervativních oblastí 3. Využití algoritmů a statistických metod pro analýzu sekvence • Hledání signálů 4. Integrované přístupy Integrovaný přístup predikce genu similarity Id Human gene shown in Red ~LZ\ O O (TI II Several BLASTK □D similarities in this line The three / forward/*- reading \ frames \ Eicon _ Regions II II III II III III [ m d o a a a I I I I II I I 1 1 DO 1 □ -o onom o nm I I Mil I I II II I I I I ^—-h ŕ^——-r o t—i—r O O in o o o o o in I II II II Codon Usage gene prediction Potential Start Codons I I I |-*- Stop Codons ii " '■ -Features: PolyA signals -,—i—i— Scale (bp) i Total Coding Region Prokaryotický versus eukaryotický gen vyžadují odlišné přístupy • Pro kary ota - malé genomy 0.5 - 10-106 bp - Vysoká hustota kódujících sekvencí (>90%) - Žádné introny (výjimky Archea, fágy) - Hledání otevřených čtecích rámců - Doplněno např. hledáním signálů pro vazebná místa ribozómu - Operony: jeden transkript, mnoho genů - Úspěšnost cca 99 % - Problémy: překrývající se ORFs, krátké geny, místa TSS a promotory • E u kary ota - Velké genomy 107 - 1010 bp - Nízká hustota kódujících sekvencí (<50%) - UTRs - Struktura intron/exon - Statistické modely frekvencí nukleotidů - Sledování závislostí přítomných ve struktuře kodonů - Obsah GC - Přesnost dosahuje cca 50 % - Problémy: mnoho! • postranskripční modifikace • alternativní sestřih Příklady velikostí genomů Druh Velikost Genů Genů/Mb H. sapiens 3 200 Mb 22 000 7 D. melanogaster 137 Mb 13 338 97 C. elegans 85,5 Mb 18 266 214 A. thaliana 115 Mb 25 800 224 S. cerevisiae 15 Mb 6 144 410 E. coli 4,6 Mb 4 300 934 1. Metody založené na hledání podobností s již popsanými geny • Založené na konzervativním charakteru sekvencí s určitou funkcí • Využívají nástroje pro lokální nebo globální přiložení sekvencí (BLAST, FASTA, LAGAN, AVID, atd.) • Nemohou identifikovat geny, které nejsou v databázi (~50% genů) • Omezení u sekvencí s nízkou podobností Metody založené na hledání podobností • Databáze - Proteiny - cDNA (evidence RNA) - EST, UniGene • Nástroje pro párové přiložení sekvencí umožňující analýzu genů - Hledání genů na základě podobnosti sekvencí proteinů • blastx • tblastn • fastX • genomové prohlížeče 2. Srovnávací genomika -hledání na základě homologie • Hledání založené na předpokladu, že kódující sekvence jsou více konzervativní než nekódující • Dva přístupy: - intra-genomický (genové rodiny) - inter-genomický (mezi druhy) • Mnohonásobné přiložení homologických oblastí - exony - regulační oblasti • Obtížné stanovení limitů podobnosti a optimální evoluční vzdálenosti Co je srovnáváno? • Lokalizace genů v genomu • Struktura genů - Početexonů - Délky exonů - Délky intronů - Podobnost sekvencí • Vlastnosti genů - Místa sestřihu - Využití kodonů - Konzervované sekvence Proč používat přístupy srovnávací genomiky ? • Konzervovanost sekvencí v průběhu značných evolučních vzdáleností značí specifickou funkci (geny, funkční-regulační oblasti) • Ztráta konzervovanosti během krátkých evolučních vzdáleností značí adaptivní evoluci 1 Vista Browser 2.0 - Netscape Curve View Help Control Panel Reference (Base) genome: Human Julii 2003 Position (gene name or c h rX:sta rt- e n d ): :hľ1 3:69,595,483-71,312,411 [GÖ) Gene annotation: RefSeq genes 3 more organisms: select/add rř Ro Auto Color Legend Annotations: Repeats: J-Gene — LINE E Hon UTR CNS Contigs: — Contig Overlap « LTR ■ SINE RNA - DNA : Other BROW SERS ALIGN MENT 1_k _l 1. Nov. 2003 chimpanzee Arachne assembly, NCBI Build 1 Version 1 (UCSC: panTrol) [LAGAN) fTDOWN 1 2. Oct. 2003 Mouse Genome Assembly (MLAGAN) 3. Feb. 2004 Chicken Genome Assembly (UCSC: galGal2) (LAGAN) 4. FuguAug. 2002 (SLAGAN) Window resized: 101 £x5Ü3 EMI® 1ÜÜ 11Q Hi W\ A.itnRRSJ7R • šimpanz • myš • kuře • Fugu Konzervativní charakter regulačních oblastí a exonů Mul ri-Species Comparative Analysis lumicui' macaque 0KB human/ Pig human/ labbit human/ mouse human/ iat Juuuau/ clucken Liver Enhancer Apolipoproteiu AI gene Ji_£2L 50/100% 50/100% 75% 50/100% 50/100% 75% 50% Lokální versus globalizované sekvenční přiložení A B ABC _B-A- A C - ABC B Local * ä r Local A__B _ ABC "b a" °a "A— ~"Global Human Mouse Rat Příklad srovnání lokusů a chromozómů Charakterizace rozdílů umožňuje odhalit mechanismy změn i 1 u m 21 it Locus: IIUMPCNA I i g n m c n t ■ Pars« Mouse Locus: M M PCN AG Problém globálního přiložení Nalezení nejefektivnější transformace jedné sekvence do druhé vyžaduje využití přístupů pro identifikaci přestaveb Bodové změny, delece Inverze Translokace Duplikace Kombinace uvedených změn Základní zdroje a přístupy • Databáze - NCBI: Genomy, Geny, Proteiny, SNPs, ESTs, Taxonomie, atd. - databáze genomových center • Analytický software - Databázové dotazy (nalezení podobných sekvencí), algoritmy pro přiložení, shluková analýza, vyhledávání repetic, predikce genů • Algoritmy pro dlouhá globální přiložení - lokální přiložení s rozšířeným vkládáním mezer - citlivé, ale málo specifické pro dlouhé sekvence • BLASTZ • BLAT - globální přiložení • AVI D • LAGAN • S-LAGAN • M AVI D, M LAGAN AVID • Umožňuje srovnání pouze homologních sekvencí bez duplikací, inverzí nebo translokací • Pokud je aplikován na celé genomy, vyžaduje předem přípravu a identifikaci vzájemně si odpovídajících regionů LAGAN (Limited Area Global Alignment) • Umožňuje srovnat mnohem delší sekvence než AVID v důsledku jiného algoritmu pro identifikaci vzájemně odpovídajících si úseků • Používá se společně s následným lokálním přiložením dlouhých sekvencí (BLAT) - rat - mouše - rat - human Multi-LAGAN (MLAGAN) • V porovnání s LAGAN provádí navíc mnohonásobná globální přiložení • Nejprve provede přiřazení více příbuzných genomů a následně přiřazuje genomy více fylogenetický vzdálené • Umožňuje konstrukci fylogenetických stromů na základě globálního přiložení genomů Shuffle-LAGAN (S-LAGAN) • Slouží pro globální přiložení kompletních sekvencí genomů • Detekuje genomová přeskupení a inverze • Poskytuje přiřazení všech kombinací vložených sekvencí Precomputed alignments • U významných skupin organismů jsou k dispozici rozsáhlá mezidruhová srovnání - UC Santa Cruz/PennState (translated BLAT or BLASTZ) - Berkeley Genome Pipeline (BLAT/AVID) - Ensembl (Phusion/Blastn) - Vista Genome Server (LAGAN/SLAGAN/AVID) - NMPDR (National Microbial Pathogen Data Resource) Vista Tools http://genome.lbl.gov/vista/index.shtml Tools for Comparative Genomics Custom Alignment Enhancer DB Downloads Publi-c-ations Help This web site will be down for maintenance on Tuesday Nov. 11, 2014. Sorry for the inconvenience. VISTA is a comprehensive suite cf pfogiams and databases for comparative analysis of genomic sequences. There are two ways of using VISTA - you can submit your own sequences and alignments fo* analysis {VISTA servers) or examine pie-computed, whole-genDme alignments of different species. Submit Your Sequences m VI STA » mVI STA Align- and compare your sequences from multiple apecies » rVI STA Locate regulatory sequences in your data using comparative EE-l-E-1-IE- E.r 5 \'E E = ~Z Zr= ~ E ?r Z Z Z r - = Zi'.- Z- "~Z "~ 2 E EE- E E E " j1" » qVI STA Compare you-r sea iier ces against whole-genome assemblies. » wqVI 5TA Align- pair of seguerices up to IGWb brg l^in-fsbes Dr-3 rs/t:-including microbial rvr-^le-gercrrs a sserr-bites. Precomputed Alignments VISTA Browser (ä1 » VI STA-Point Access complete data and visual presentation of pair-wise ana -multiple aJtgp ments or." whole gerorre ee serrblies. >s VISTA Browser Examine pre-compirted pairwise and multiple adjgp.-ments of whole gerorre assemblies. » IVhole Genome rVISTA Identify trans-ciiptiQn factor binding sites that are conserved! between species arvd over-repre=en ted ir Lpstreanr regions of groups o' genes. >■> Microbial Genomes Access pre-computed full scaffold alignments for microbial genomes through the VISTA component of fMG. New tool Trorn VISTA family! 0 VISTA Region Viewer IRViewer: is an interactive on-line tool for comparing and prioritEJng -=rZ^~ ~: ■"tE-rVE E. Updates April 2014 w:: = l=-: the r- Key "tower, h-'css, V? _= '.' = : :71: i . •: ~: ~= = = . =■■-- ^cyces:-assemblies, and added £• new plants: C qraro if bra. Cr_----:~: = v :-.:-eee. Turnip mustarg.. A. Kalleri. ana Hsll = pa r icgrass. *£■!> New who la-genome plant alignments are added to VISTA Browser. August 2013 Updated" the C. eJeoars an J C. brki-iiEss assemblies, and added 5 new worms: C. brenneri. C. reroanel. C. iapoiiica. C. sp. 11. and C. anqarta. » Vista News Archive Enh?nserEE _:fj| Qencme Pcrtal Other Projects Experimentally validated human noncodoig fragments with gene enhancer activ rty as assasse-J in transgenic mice. http://enhancer. Ibl.gov.1 Find! VISTA alignments for a number of genomes Ear_a-ced in the Department of Energy Joint Genome Institute httpi/j-aer-orre.Ki-ps ".or-3.1 Fbvto-VISTA TreeQ-Vtsta PGA Other Genome Browsers ~3 ft H. Sapiens (via NCBI-annotation April 2002) hikurpc i imi-k. |ii,i-| Sfi.ndi u^nij H ".i'nuciufi i uinc. gern» lume. laon, or Otter landriKUk. The wilClWrdíriirínti " fcjllowrcl. rumpln f lir?Ů. Chr$:$0,ClůO.. 1 SŮ.ŮW. NM_UH/}rM,ALIIfJ-l MU. MHO?. Wim. IHílp] in : .-ii-!-- hi á toCJIiOU.. i-1 in ■ rultr.: -. - 5ťi0llíŽ0oríi buUnpr. ló = li i.|.--ilk ir ■■ T- ,ni(f riiv.ii :i>n. I <,.!!.■ I lir. \ i^n. :>"0Hii.i'k I hu link. I Jiidrnojk or H-píjion I StMfl I J Data JOUI/Cť_ Ihimp*. ^rjrt hrv jud pthf r {Jpprjtmrv. |i< e<-', ijwi« ■ ;■_ Li': : ■ 1.jLi_*J pr^TTTThTTTTTTTT^ T| Ahmf | C^inäijuiH | f.r>| Tracks |Hide| rUVii^ U»rkrj* FiďArS r í Idiil-s ffxTfiňit P LotinLiPik gents, rAiiembly toinpmicrH* rphigin.FIcMpíUíoh SKK mob Fftťfiťg TidiibtriDLi riVTtůrUigv lm*qc Width n->- purl inn ram rtill p$OU r \oH ^ Between :.■ -i ■ I I.VilnjH Immg+i l■ i■ V,,|M O Upload a nie' ^ J Add icrnolc iiiPiotaTion%. Act* HS J -] hi- p:.'-v-r-i. "w±-. r*Ti. r#, ,3c.';m.sp«*,1's tatfcjMu ir-r r. h trri Search J l*!lini Cnpruiim ED http://www,ensembl.org/ Ensembl > The WeUcOOL« T > Sanger liislifi e! Ensembl Genome Browser_ embl Ensembl Species Fnseml';! is a irjint project between . and the : tt develop a "w n.v ere system which Well:■ . Access to all the data produced by 1h.....: cjei:. Lo the- s fl wars used to anal'; 56 :-. p.; . ; I. • wflhOlj! Constraint*. fricembi presents up-rc-oate lequ^nce daw sjna the oesr paeaibi-3 aulciriErtic innotatrc ■. jukoryolif; qj! Available now are , and Others will be added soon. i; 31 an intrriiTJClicir: lq the eniamtil prcjeoi, sake Ihe , and then :;■: through s step-by-step which introduces EnsaitM'sTTtain-functions. For more information read this short in Nucleic Acids Research. ✓ ,9.30a,1 v.a.3a'.1 2 Dec 2002 2 Dec 2002 25 Nov 2002 18 Nov 2002 18 Nov 2002 2 Dec 2002 Help and documentation species home pages above. »■ Takethe gothi juah s step-by-step ■ example, or read this short ■ in Nucleic Acids Research. For context-sensitve.'h'etp on-any Web page click: Generic Genome Browser (CSHL) NCBI Map Viewer www.wormbase.org/db/seq/gbrowse www.ncbi.nlm.nih.gov/mapview/ Ensembl Genome Browser www.ensembl.org/ Ease Position | Chromosome Band sts Markers Gap □GS 1 I EHST00000252137 Genscan Genes mus EC013711 mus flF037256 Drosoph HY06979S Mouse Blat 6, 0 5, 0 4, 0 Mouse Cons 3,0 S , 0 lastz Best Mouse Random SHFs 160660Ö0I 160670001 160680001 160690001 16070000 Chromosome Bands Localized Py FISH Mapping Clones S2ql1.SI STS Markers on Genetic (Pluej and Radiation HyPrid {black} Maps 1 Ensembl Gene Predict Genscan Gene Predict ^?onnur5r mRNfls from GenPank Mouse Translated Blat Alignments Human/Mouse Evolutionary Conservation Score mm Elastz Mouse Best in Genome Rlignments Single Nucleotide FdliimpriprhiferHskeHFs) flrom Rarfidprn #|t- @http://www.bdop.oro/annüt/apüllü/ Apollo Genome Annotation and Curation Tool mm' 'm ■■i—1 ř till ' i aw 1 UCSC Genome Browser genome.ucsc.edu/cgi-bin/hgGateway?org=human Apollo Genome Browser www.bdgp.org/annot/apollo/ Odhalení genů s použitím ESTs • Expressed Sequence Tags (ESTs) reprezentují sekvence exprimovaných genů (cDNA). • Jestliže se oblast shoduje s EST s vysokou stringencí, pravděpodobně se jedná o gen - EST podává přesnou predikci hranic exonů. 3. Predikce kódující oblasti na základě hledání signálů • Pro kary ota - Hledání otevřených čtecích rámců doplněné hledáním konzervativních signálů v transkripčních jednotkách - ORF Finder (Open Reading Frame Finder) http://www.ncbi.nlm.nih.gov/qorf/qorf.html • Eu kary ota - Predikce promotorů - Predikce polyA-signálů - Predikce míst sestřihu a start/stop kodonů Výpočetní přístupy Klíčové jsou signály pro odhalení genů • iniciační a terminační kodony • promotory • vazebná místa pro ribozómy (RBS) • místa sestřihu • terminátory transkripce • polyadenylační místa • vazebná místa pro transkripční faktory *{st start codon typical protein coding state atypical protein coding state stop codor^- RBS 3~~*C spacer y~*C CDS J- *Q gene J- Model pro hledání jednoduchých genů isolated gene intergenic region overlapping genes series Struktura prokaryotické transkripční jednotky promotor gen gen gen terminátor start 17 stop operon Konzervativní struktury v promotoru prokaryot mRNA ■ PuPuPuPiŕififiŕu < ' AUG -30 -10 +1 Promoter | transcription start site -30 region -10 region TTGACA AACTGT TATAAT ATATTA ■36 ■31 mRNA TTGACA 82 84 79 64 53 45% -12 -7 Pri b now box TATAAT 79 95 44 59 51 96% +1 +10 +20 Ribosomal binding site GGAGG consensus sequences Signály v jednoduchém strukturním genu fem gene 1 ATATGGTCAGTGCATATAAAATTTGTTATCATTAGAGTAATTAAAGGÍ"CATTTAATAACTTTTGGAATCA 70 71 ArrGGAGGTTCTCAT^BrTATCTTTTAGTCAAAATAGAAGTCATAGCTTAGAACAATCTTTAAAAGAAG 140 141 GATATTCACAAATGGCTGATTTAAATCTCTCCCTAGCGAACGAAGCTTTTCCGATAGAGTGTGAAGCATG 210 211 CGATTGCAACGAAACATATTTATCTTCTAATTCAACGAATGAATCATTAGACGAGGAGATGTTTATTTAG 280 281 CAGATTTATCACCAGTACAGGGATCTGAACAAGGGGGAGTCAGACCTGTAGTCATAATTCAAAATGATAC 350 351 TGGTAATAAATATAGTCCTACAGTTATTGTTGCGGCAATAACTGGTAGGATTAATAAAGCGAAAATACCG 420 421 ACACATGTAGAGATTGAAAAGAAAAAGTATAAGTTGGATAAAGACTCAGTTATATTATTAGAACAAATTC 490 491 GTACACTTGATAAAAAACGATTGAAAGAAAAACTGACGTACTTATCCGATGATAAAATGAAAGAAGTAGA 560 561 TAATGCACTAATGATTAGTTTAGGGCTGAATGCAGTAGCTCACCAGAAAAATTAGGCGTCTATTATATGT 630 631 AI I I I ICAGAGATAAATAAAATATTGATATAAAAGACAATAACTTTATAATAATTATAACTATTTCTAAA 700 701 TTCTGTACGAAGAATTTTCTTATAAACAAAGATTTTAGCAAATACCAGTTATGATATTCATAI I I I IIAT 770 771 TATAAAAGGATGTCTTAAGI I I I I IAGGCTTTAGGTATTCCATCCTAAAGI I I I1 M IAGCTTAAAAGTA 840 841 TCATCTACAGCAAAATTGCAAACGACAAAATTGATAAGTGCAATTAAATAAATGTTAGTAAGTGAATCAT 910 911 AATTATCCTTGCTTAAGCATTTGCTTTGTAAGGGAAGTGAGGAGGCAACTAATCG 965 rsbU gene putative promotor putative RBS Signály - senzory ve struktuře eukaryotického genu ^5 3 cod o n ^ Donor site Transcription start GTGAG Exon Promoter Acceptor site Intron Stop codon GATCCCCATGCCTGAGGGCCCCTC Poly-A site ...../ GGCAGAAACAATAAAEH3H ŕ Metody pro vyhledávání signálů • hledání konvenční sekvence spolu s možnostmi přípustných odchylek • použití vážených matic - každá pozice vzoru signálu připouští shodu s jakýmkoli zbytkem - různé zbytky mají v každé pozici přiřazenou jinou významnost Příklad konsenzní sekvence signálu • Získána výběrem nejčastěji se vyskytující báze v každé pozici mnohonásobného přiložení příslušné subsekvence našeho zájmu TACGAT TATAAT TATAAT GATACT TATGAT TATGTT konsensus sequence PSflSISB konsensus (IUPAC) TATRNT • Vede ke ztrátě informací a získání mnoha falešně pozitivních i negativních výsledků Příklad poziční vážené matice Vyjadřuje frekvenci každé báze v každé pozici příslušné sekvence TACGAT 12 3 4 5 6 TATAAT A 0 6 0 3 4 0 TATAAT C 0 0 10 10 GATACT G 1 0 0 3 0 0 TATGAT T 5 0 5 0 16 TATGTT Skóre každého předpokládaného místa je vyjádřeno součtem hodnot z matice (převedeno na pravděpodobnosti) Nevýhody: - Je vyžadována hraniční hodnota - Předpokládá nezávislost sousedících bází Příklad signálu RBS (vazebné místo pro ribozóm) Vazebné místo pro ribozóm (RBS) a iniciační kodon ATG u E. coli Pozičně vážená matice pro odvození donorového místa sestřihu Donor site 5' Příklad signálů: místa sestřihu (myš) Statistická analýza sekvence predikovaného genu • Důležité je posouzení charakteru sekvence - délka - obsah GC - statistické modely modely frekvencí nukleotidů - frekvence využití kodonů Testování ORF - využití kodonů The Human Codon Usage Table GGG 17.08 0.23 Arg AGG 12.09 0.22 Trp TGG 14.74 1.00 Arg CGG 10.40 0.19 Gly GGA 19.31 0.26 Arg AGA 11.73 0.21 End TGA 2.64 0.61 Arg CGA 5.63 0.10 Gly GGT 13.66 0.18 5er AGT 10.18 0.14 CVS TGT 9.99 0.42 Arg CGT 5.16 0.09 Gly GGC 0.33 Ser AGG 18.54 0.25 Cys TGG 13.86 0.58 Arg CGC 10.82 0.19 Olu GAG 38.82 0.59 Lus AAG 33.79 0.60 End TAG 0.73 0.17 Gin CAG 32.95 0.7 3 Clu GAA 27.51 0.41 AAA 22.32 0.40 End TAA 0.95 0.22 Gin CAA 11.94 0.27 Asp GAT 21.45 0.44 Asn AAT 16.4 3 0.44 TM- TAT 11.80 0.42 His CAT 9.56 0.41 Asp GAC 27.06 0.56 Asn AAC 21.30 0.56 TU- TAG 16.48 0.58 His CAC 14.00 0.59 UďJ GTG \2$.60J 0.48 Met ATG 21.86 1.00 Leu TTG 11.43 0.12 Leu CTG 39.93 0.4 3 1,'EiJ GTA (fe.ogj 0.10 lie ATA 6.0 5 0.14 Leu TTA 5.55 0.06 Leu CTA 6.42 0.07 UďJ GTT 10.30 0.17 He ATT 15.0 3 0.35 Phe TTT 15.36 0.43 Leu CTT 11.24 0.12 UďJ GTC 15.01 0.25 He ATC 22.47 0.52 Phe TTC 20.72 0.57 Leu CTC 19.14 0.20 Ala. GCG 7.27 0.10 Thr AGG 6.80 0.12 Ser TGG 4.38 0.06 Pro CCG 7.02 0.11 Ala. GCA 15.50 0.22 Thr AGA 15.04 0.27 Ser TCA 10.96 0.15 Pro CCA 17.11 0.27 Ala. GCT 20.23 0.28 Thr ACT 13.24 0.23 Ser TGT 13.51 0.18 Pro CCT 18.03 0.29 Ala. GCC 28.43 0.40 Thr ACC 21.52 0.38 Ser TCC 17.37 0.23 Pro CCC 20.51 0.33 Testování ORF - frekvence nukleotidů TESTOODE ofl ^.baJEcůonpa ckl 778, 1 tůt 2270 WTncbw: £00 bp October 6. 1993 10í54 i*i i i i i ****** i ni i i * to 41 ■* *HM 4 ■*-* 4 *!*>*■» |* * III 14 4 | *>*> *>4 *4 * 4 4 4 4- 4 4 14 44ífr *> I ** H- 4Í*4 4Í* * *í* Y#r 4t* 4 4 *> *> 4 *> * I SOD i,&]Ů 2hi]ii[' A * T * G A* A start co don Codon model stop codon Markovovy modely • Vyjadřují pravděpodobnost sekvenčních událostí • Nejčastěji používané statistické modely pro hledání genů Příklad komplexního algoritmu se skrytými Markovovy modely (HMM) Start Codon 16 Backedges Příklad komplexního algoritmu se skrytými Markovovy modely (HMM) -5'LřTft -ľilergenc 3' UTR 5 Splice F Spíce 5 Splice H Splice 5 Splice ■ Single E/o^ Intergenic 51 Splice 5' Splice 51 Splice 5' Splice 6' Splice 51 Splice Predikce míst sestřihu Intron Exoíi 1 GU' ■A- 0%AG Exoíi 2 c u u 5' splice site GC A C AU G cC^uCU UagUgvVcgaa Branch site AAAAAG^^Ga 3' splice site Populární programy pro predikci genů • Programy využívající explicitní pravidla - GeneFinder • Programy založené na „Hidden Markov Models" - GeneMark - Glimmer - GenScan - TwinScan • Programy využívající neuronové sítě - Grail, - GrailEXP Srovnání různých přístupů pro vyhledávání genů S. subtiiis E coli GeneMark http://opal.bioloqy.qatech.edu/GeneMark/ GeneMark A family of gene prediction programs developed by Mark Borodovsky's Bioinformatics Group at the Georgia Institute of Technology ^Atlanta, Georgia, USA. What's New: Gene identification in novel eukaryotic genomes by self-training algorithm: GeneMark.hmm-ES Supported by NIH Gene Prediction in Bacteria, Archaea and Metagenomes For bacterial and archaeal gene prediction you can use the parallel combination of GeneMark-P and GeneMark.hmm-P. For a novel genome you can use either the Heuristic models option (if the sequence is shorter than 200 kb) or the self-training program GeneMarkS (aka GeneMark.hmm-PS). Gene Prediction in Eukaryotes For eukaryotic gene prediction you can use the parallel combination of GeneMark-E and GeneMark.hmm-E. For a novel genome (the one whose name is not in the list of available models) you can run GeneMark.hmm-ES, the self-training program (just 10MB sequence is needed for training). Gene Prediction in Viruses For gene prediction in novel viruses and phages you can use GeneMark.hmm. Viral genome annotations are accessible via VIOLIN database. Power Gene Prediction in EST and cDNA To analyze ESTs and cDNAs you can use GeneMark-E. ered by IBM Borodovsky Group Gene Prediction Programs • GeneMark • GeneMark. hmm . GeneMarkS • Heuristic models • Frame-by-Frame Information • Background • References • In GenBank . FAQ • Contact Databases of predicted genes Prokaryotesclosed' Updating Viruses/Phages (VIOLIN) Models for Gene Prediction • Download Glimmer http://www.ncbi. nlm.nih.gov/genomes/MICROBES/glimmer_3. cgi NCBI Microbial Genomes>2S##*#J$ Genome Project Genome aryotic Projects íllaborator: ]Map I ProtMap | TaxPlot | BLAST IFF? Microbial Genome Annotation Tools GLIMMER is □ system for finding genes in microbial DNA. especially the genomes of bacteria and archaea. GLIMMER (Gene Locator and Interpolated Markov ModeER} uses interpolated Markov mo dels to identify coding regions. DelcherAL, Harmon □. Kasif S. White O. Salzberg SL. Improved microbial gene identification with GLIMMER. Nucleic Adas Reseercf? 27:23 [1999}, 4636-4641. Salzberg s, DelcherA, Kasif s, White o. Microbial gene identification using interpolated Markov models, Nucleic Acids Research 26:2 (1993), 544-543 Download GLIMMER from the Center for Bio informatics and Computational Biology. Genome Projects Prokaryotic Projects Microbial Genomes Home Complete Genomes Draft Assemblies Registered Entrez Genome Submits Genome Sequin Submission Guide Register a Project Submit a Genome Submit Traces Tools Resources Sequencing Centers Collaborators Upload yr>uf sequence from file: Procházet.. Or copy pasts youx sequence FA5TA bars: Genscan http://genes.mit.edu/GENSCAN.html The GENSCAN Web Server at MIT Identification of complete gene structures in genomic DNA For iJifcirmatLon. about Gens can... click Kere Sender update. NaFember, We've been recently upgrading the GENSCAN webserver hardware, which resulted in wme problems, in the output of GENSCAN. We apologize for the inconvenience. These output errors were resolved. This server provides access to the program Genscan for predicting the locations and exon-intron structures of genes in genomic sequences from a variety of organisms. This server can accept sequences up to 1 million base pairs (1 Mbp) in length. If you have trouble with the web server or if you have a large number of sequences to process, request a local copy of the program (see instructions at the bottom of this page). Organism: j££^£^^^^^^^3| ^ub optimal exon cutoff (optional): Sequence name (optional): ^^^^^^^^^^^^^^^^^^^^^^^^^^^^B Upload your DNA sequence file (upper or lower case, spacesr'numbers ignored): J Or paste your DNA sequence here (upper or lower case, spaces/numbers ignored): Predikce eukaryotických genů: GRAIL II: využívá neuronové sítě Input layer Užitečné nástroje • Vyhledávače ORF - NCBI: http://www.ncbi.riih.gov/gorf/gorf.htrril • Predikce promotoru - CSHL: http://rulai.cshI.org/software/index 1.htm - BDGP: fruitfly.org/seg tools/promoter.html - ICG: TATA-Box predictor • Predikce polyA signálu - CSHL: argon.cshl.org/tabaska/polyadg form.html • Predikce míst sestřihu - BDGP: http://www.fruitfly.org/seg tools/splice.html • Identifikace start/stop kodonu - DNALC: Translator/ORF-Finder - BCM: Searchlauncher Evaluace vyhledávačů genů • Citlivost versus specificita • Citlivost - Kolik genů bylo nalezeno? • Specificita - Kolik predikovaných genů představuje skutečné geny? Nomenklatura používaná při anotacích genomů Known Gene - Predikovaný gen shodující se v celé délce se známým experimentálně dokázaným genem. Putative Gene - Predikovaný gen obsahující region homologický s konzervovaným regionem známého genu. Also referred to as "like" or "similar to". Unknown Gene - Predikovaný gen vykazující shodu s genem nebo EST, jejichž funkci neznáme. Hypothetical Gene - Predikovaný gen nevykazující významnou podobnost k žádnému známému genu nebo ES'