Predikce genů Pro zajímavost… Důležité… Molekulárně biologická data •Výkonné technologie: • Automatické sekvencování • MALDI-TOF • NMR spektroskopie • Proteinová krystalografie • • •Výrazný nárůst množství biologických dat. Rozdělení molekulárně biologických databází •Databáze: • Primární • Sekundární • Strukturní • • Genomové zdroje Molekulárně biologická data „Syrové“ sekvence DNA Identifikace a anotace genů a proteinů Predikce genů kódujících proteiny •Prokaryotické geny •Nepřerušované úseky DNA mezi startovním kodonem (ATG, GTG, TTG, CTG) a stop kodonem (TAA, TGA, TAG). • •Eukaryotické geny •Přerušovány introny. Průměrná délka exonu je 50 kodonů, některé jsou mnohem kratší. •Některé introny extrémně dlouhé, geny zabírají mbp v genomové DNA. Predikce eukaryotických genů je mnohem složitější než predikce genů prokaryotických a představuje STÁLE NEVYŘEŠENÝ problém! Prokaryotické geny •Prokaryotický gen = nejdelší ORF odpovídající danému úseku DNA. GTATGCTGGTGATTGTGGATGCCGTTACCCTGCTGAGCGCCTATCCGGAAGCCAGCCGTGATCCGGCCGCCCCGACCGTGATTGATGGTCGCCACCTGT ATGTTGTTAGCCCGGGCGATGCCGCGCAGCTGGGCCATAACGATAGCCGTCTGTTTACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGAAACCG CGCTGGCGCTGCGCGCGGAAGTGAGCGTGCTGTTTATTCGCTTTGCCCTGAAAGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGCGTGATGCCG CCACCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTCCGCTGAAAGATCATTATTGGCGCAGCGATGTGCTGGCGGCGGGCGCGACCA CCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATGGCACCGTGAGCGGTTATTTTCGTTGGGAAACCAGCATTGAAATTGCGGGCAGCCAGCCGGATA CCAAACAGCCGGGCTTTAAACCGAGCAGCGATCGCAATGGCAACTTTAGCCTGCCGCCGAATACCGCCTTTAAAGCGATCTTCTATGCGAACGCGGCGG ATCGTCAGGATCTGAAACTGTTTATTGATGATGCGCCGGAACCGGCCGCCACCTTTGTGGGTAACAGCGAAGATGGTGTGCGTCTGTTTACCCTGAATA GCAAAGGTGGTAAAATTCGTATTGAAGCGAGCGCGAACGGCCGTCAGAGCGCGACCGATGCCCGTCTGGCGCCGCTGAGCGCGGGCGATACCGTGTGGC TGGGCTGGCTGGGCGCGGAAGATGGTGCCGATGCGGATTATAATGATGGCATTGTTATTCTGCAGTGGCCGATTACCTAATGGG Překlad DNA sekvence Překlad DNA sekvence •ExPASy • http://web.expasy.org/translate/ •ORF Finder (NCBI) • http://www.ncbi.nlm.nih.gov/gorf/gorf.html ExPASy http://www.expasy.org/vg/index/dna GTATGCTGGTGATTGTGGATGCCGTTACCCTGCTGAGCGCCTATCCGGAAGCCAGCCGTGATCCGGCCGCCCCGACCGTGATTGATGGTCGCCACCTGT ATGTTGTTAGCCCGGGCGATGCCGCGCAGCTGGGCCATAACGATAGCCGTCTGTTTACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGAAACCG CGCTGGCGCTGCGCGCGGAAGTGAGCGTGCTGTTTATTCGCTTTGCCCTGAAAGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGCGTGATGCCG CCACCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTCCGCTGAAAGATCATTATTGGCGCAGCGATGTGCTGGCGGCGGGCGCGACCA CCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATGGCACCGTGAGCGGTTATTTTCGTTGGGAAACCAGCATTGAAATTGCGGGCAGCCAGCCGGATA CCAAACAGCCGGGCTTTAAACCGAGCAGCGATCGCAATGGCAACTTTAGCCTGCCGCCGAATACCGCCTTTAAAGCGATCTTCTATGCGAACGCGGCGG ATCGTCAGGATCTGAAACTGTTTATTGATGATGCGCCGGAACCGGCCGCCACCTTTGTGGGTAACAGCGAAGATGGTGTGCGTCTGTTTACCCTGAATA GCAAAGGTGGTAAAATTCGTATTGAAGCGAGCGCGAACGGCCGTCAGAGCGCGACCGATGCCCGTCTGGCGCCGCTGAGCGCGGGCGATACCGTGTGGC TGGGCTGGCTGGGCGCGGAAGATGGTGCCGATGCGGATTATAATGATGGCATTGTTATTCTGCAGTGGCCGATTACCTAATGGG ExPASy http://web.expasy.org/translate/ ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html Prokaryotické geny •Velmi jednoduchý přístup k predikci genů • Zjednodušení vede k chybám, ale jejich množství je POMĚRNĚ MALÉ. • •Chyby mohou vznikat při SEKVENCOVÁNÍ DNA. • Přidání/odstranění startovního a/nebo stop kodonu může vést ke ZKRÁCENÍ, PRODLOUŽENÍ nebo úplnému VYNECHÁNÍ genu. Opravdu ORF kóduje protein? •ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí ALIGNMENTU). • •ORF má typický obsah GC nebo frekvenci kodonů. Srovnání s charakteristickými vlastnostmi známých genů ze stejného organismu. • • Před ORF se nachází typické RBS (ribosome-binding site) nebo promotor. Translační a transkripční signální sekvence Pergamen TATA box Pribnowův box Promotor Shine-Dalgarnova sekvence Prokaryota Translační a transkripční signální sekvence Pergamen Eukaryota TATA box Hognessův box GC box GC box (gcc)gccRccAUGG Kozak sequence Sekvence Kozakové Promotor RNA-polymerasy II Opravdu ORF kóduje protein? •ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí ALIGNMENTU) = nejspolehlivější ověření. • •Nástroje pro překlad DNA jsou propojeny s prohledáváním databází. • ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html Eukaryotické geny Jednobuněčná eukaryota •Genomy jednobuněčných eukaryot se výrazně liší (frekvence intronů, jak velká část genomu je tvořená geny kódujícími proteiny). • •Saccharomyces cerevisiae – 67% genomu je protein-kódující, jen 4% obsahují introny. •Hlenky – průměrný gen obsahuje 3,7 intronu. • •Pro některá jednobuněčná eukaryota (kvasinky) je možné použít stejné postupy jako pro prokaryota. File:Dog vomit slime mold.jpg Slime mold = hlenka Fuligo septica Dog vomit slime mold •Mnohobuněčná eukaryota • Komplexní organizace genomu, geny separovány dlouhými INTERGENOVÝMI úseky, geny obsahují množství INTRONŮ, i velmi DLOUHÝCH. • Eukaryotické geny Mnohobuněčná eukaryota Glyceraldehyd-3-fosfát-dehydrogenasa Candida albicans •Mnohobuněčná eukaryota • Komplexní organizace genomu, geny separovány dlouhými INTERGENOVÝMI úseky, geny obsahují množství INTRONŮ, i velmi DLOUHÝCH. • Eukaryotické geny Mnohobuněčná eukaryota Glyceraldehyd-3-fosfát-dehydrogenasa Homo sapiens •Rozpoznání exonů/intronů • Identifikace míst sestřihu: GT na 5´konci, AG na 3´konci. •Chyby při rozpoznávání exonů/intronů • Velké množství chyb. Dlouhé introny – určeny jako intergenové úseky. Krátké intergenové useky – určeny jako introny. • Eukaryotické geny Mnohobuněčná eukaryota ch28f29 Splicing Mechanism Used for mRNA Precursors. The upstream (5′) exon is shown in blue, the downstream (3′) exon in green, and the branch site in yellow. Y stands for a purine nucleotide, R for a pyrimidine nucleotide, and N for any nucleotide. The 5′ splice site is attacked by the 2′-OH group of the branch-site adenosine residue. The 3′ splice site is attacked by the newly formed 3′-OH group of the upstream exon. The exons are joined, and the intron is released in the form of a lariat. [After P. A. Sharp. Cell 2(1985):3980.] Algoritmy a nástroje pro identifikaci genů •Predikce genů na základě sekvenční homologie – vyhledávání v databázích pomocí algoritmů. •Predikce genů ab initio – predikce na základě statistických parametrů DNA sekvence. •Většina běžně používaných metod kombinuje oba dva přístupy. Prokaryota ATG………………TAA Bez intronů SEKVENČNÍ HOMOLOGIE IDENTIFIKOVANÉ GENY VYUŽITY PRO „TRÉNOVÁNÍ“ STATISTICKÉ METODY ANALÝZA ZBÝVAJÍCÍCH ČÁSTÍ GENOMU Eukaryota Mnoho intronů, dlouhé intergenové úseky Ab initio STATISTICKÉ METODY IDENTIFIKOVANÉ EXONY SEKVENČNÍ HOMOLOGIE •Každý program má výhody a nevýhody – rozumné použít více predikčních nástrojů. • GeneMark • GlimmerM • GRAIL • GenScan • Fgenes • • Algoritmy a nástroje pro identifikaci genů •GeneMark • http://exon.gatech.edu/GeneMark • • Využívá Markovovy modely • • Vyžaduje parametry specifické pro daný organismus = nutné „natrénování“ pomocí známých genů • • Varianty pro prokaryotické, eukaryotické, virové sekvence Algoritmy a nástroje pro identifikaci genů GeneMark http://exon.gatech.edu/GeneMark Algoritmy a nástroje pro identifikaci genů •GeneScan • http://genes.mit.edu/GENSCAN.html • • Komplexní model struktury genu (transkripční, translační, sestřihové signály + statistické vlastnosti kódujících a nekódujících úseků) • • Primární analýza velkých úseků eukaryotické genomové DNA • • GeneScan http://genes.mit.edu/GENSCAN.html Algoritmy a nástroje pro identifikaci genů Shrnutí •Predikce prokaryotických genů mnohem jednodušší než u eukaryotických. • •Predikce genů ab initio/na základě sekvenční homologie. • •Nutné kombinovat oba přístupy. • •Rozumné využívat více predikčních programů.