Predikce genů • • •Pro zajímavost… • • • •Důležité… • • Molekulárně biologická data •Výkonné technologie: • Automatické sekvencování • MALDI-TOF • NMR spektroskopie • Proteinová krystalografie • • •Výrazný nárůst množství biologických dat. • Rozdělení molekulárně biologických databází •Databáze: • Primární • Sekundární • Strukturní • • Genomové zdroje • Molekulárně biologická data • •„Syrové“ sekvence DNA •Identifikace a anotace genů a proteinů • • Predikce genů kódujících proteiny •Prokaryotické geny •Nepřerušované úseky DNA mezi startovním kodonem (ATG, GTG, TTG, CTG) a stop kodonem (TAA, TGA, TAG). • •Eukaryotické geny •Přerušovány introny. Průměrná délka exonu je 50 kodonů, některé jsou mnohem kratší. •Některé introny extrémně dlouhé, geny zabírají mbp v genomové DNA. • Predikce eukaryotických genů je mnohem složitější než predikce genů prokaryotických a představuje STÁLE NEVYŘEŠENÝ problém! • Prokaryotické geny •Prokaryotický gen = nejdelší ORF odpovídající danému úseku DNA. GTATGCTGGTGATTGTGGATGCCGTTACCCTGCTGAGCGCCTATCCGGAAGCCAGCCGTGATCCGGCCGCCCCGACCGTGATTGATGGTCGCCACCTGT ATGTTGTTAGCCCGGGCGATGCCGCGCAGCTGGGCCATAACGATAGCCGTCTGTTTACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGAAACCG CGCTGGCGCTGCGCGCGGAAGTGAGCGTGCTGTTTATTCGCTTTGCCCTGAAAGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGCGTGATGCCG CCACCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTCCGCTGAAAGATCATTATTGGCGCAGCGATGTGCTGGCGGCGGGCGCGACCA CCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATGGCACCGTGAGCGGTTATTTTCGTTGGGAAACCAGCATTGAAATTGCGGGCAGCCAGCCGGATA CCAAACAGCCGGGCTTTAAACCGAGCAGCGATCGCAATGGCAACTTTAGCCTGCCGCCGAATACCGCCTTTAAAGCGATCTTCTATGCGAACGCGGCGG ATCGTCAGGATCTGAAACTGTTTATTGATGATGCGCCGGAACCGGCCGCCACCTTTGTGGGTAACAGCGAAGATGGTGTGCGTCTGTTTACCCTGAATA GCAAAGGTGGTAAAATTCGTATTGAAGCGAGCGCGAACGGCCGTCAGAGCGCGACCGATGCCCGTCTGGCGCCGCTGAGCGCGGGCGATACCGTGTGGC TGGGCTGGCTGGGCGCGGAAGATGGTGCCGATGCGGATTATAATGATGGCATTGTTATTCTGCAGTGGCCGATTACCTAATGGG • Překlad DNA sekvence Překlad DNA sekvence •ExPASy • http://web.expasy.org/translate/ •ORF Finder (NCBI) • https://www.ncbi.nlm.nih.gov/orffinder/ • •ExPASy •http://www.expasy.org/vg/index/dna • •"Expert Protein Analysis System" GTATGCTGGTGATTGTGGATGCCGTTACCCTGCTGAGCGCCTATCCGGAAGCCAGCCGTGATCCGGCCGCCCCGACCGTGATTGATGGTCGCCACCTGT ATGTTGTTAGCCCGGGCGATGCCGCGCAGCTGGGCCATAACGATAGCCGTCTGTTTACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGAAACCG CGCTGGCGCTGCGCGCGGAAGTGAGCGTGCTGTTTATTCGCTTTGCCCTGAAAGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGCGTGATGCCG CCACCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTCCGCTGAAAGATCATTATTGGCGCAGCGATGTGCTGGCGGCGGGCGCGACCA CCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATGGCACCGTGAGCGGTTATTTTCGTTGGGAAACCAGCATTGAAATTGCGGGCAGCCAGCCGGATA CCAAACAGCCGGGCTTTAAACCGAGCAGCGATCGCAATGGCAACTTTAGCCTGCCGCCGAATACCGCCTTTAAAGCGATCTTCTATGCGAACGCGGCGG ATCGTCAGGATCTGAAACTGTTTATTGATGATGCGCCGGAACCGGCCGCCACCTTTGTGGGTAACAGCGAAGATGGTGTGCGTCTGTTTACCCTGAATA GCAAAGGTGGTAAAATTCGTATTGAAGCGAGCGCGAACGGCCGTCAGAGCGCGACCGATGCCCGTCTGGCGCCGCTGAGCGCGGGCGATACCGTGTGGC TGGGCTGGCTGGGCGCGGAAGATGGTGCCGATGCGGATTATAATGATGGCATTGTTATTCTGCAGTGGCCGATTACCTAATGGG •ExPASy •http://web.expasy.org/translate/ •ORF Finder (NCBI) •https://www.ncbi.nlm.nih.gov/orffinder/ •ORF Finder (NCBI) •https://www.ncbi.nlm.nih.gov/orffinder/ • • •ORF Finder (NCBI) •https://www.ncbi.nlm.nih.gov/orffinder/ • • • Prokaryotické geny •Velmi jednoduchý přístup k predikci genů • Zjednodušení vede k chybám, ale jejich množství je POMĚRNĚ MALÉ. • •Chyby mohou vznikat při SEKVENCOVÁNÍ DNA. • Přidání/odstranění startovního a/nebo stop kodonu může vést ke ZKRÁCENÍ, PRODLOUŽENÍ nebo úplnému VYNECHÁNÍ genu. • Opravdu ORF kóduje protein? •ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí ALIGNMENTU). • •ORF má typický obsah GC nebo frekvenci kodonů. Srovnání s charakteristickými vlastnostmi známých genů ze stejného organismu. • • Před ORF se nachází typické RBS (ribosome-binding site) nebo promotor. • Translační a transkripční signální sekvence Pergamen •TATA box •Pribnowův box •Promotor •Shine-Dalgarnova •sekvence •Prokaryota Translační a transkripční signální sekvence Pergamen •Eukaryota •TATA box •Hognessův box •GC box •GC box •(gcc)gccRccAUGG •Kozak sequence •Sekvence Kozakové •Promotor RNA-polymerasy II Opravdu ORF kóduje protein? •ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí ALIGNMENTU) = nejspolehlivější ověření. • •Nástroje pro překlad DNA jsou propojeny s prohledáváním databází. • • •ORF Finder (NCBI) •https://www.ncbi.nlm.nih.gov/orffinder/ • • • Eukaryotické geny Jednobuněčná eukaryota •Genomy jednobuněčných eukaryot se výrazně liší (frekvence intronů, jak velká část genomu je tvořená geny kódujícími proteiny). • •Saccharomyces cerevisiae – 67% genomu je protein-kódující, jen 4% obsahují introny. •Hlenky – průměrný gen obsahuje 3,7 intronu. • •Pro některá jednobuněčná eukaryota (kvasinky) je možné použít stejné postupy jako pro prokaryota. • File:Dog vomit slime mold.jpg • •Slime mold = hlenka •Fuligo septica •Dog vomit slime mold •Mnohobuněčná eukaryota • Komplexní organizace genomu, geny separovány dlouhými INTERGENOVÝMI úseky, geny obsahují množství INTRONŮ, i velmi DLOUHÝCH. • Eukaryotické geny Mnohobuněčná eukaryota •Glyceraldehyd-3-fosfát-dehydrogenasa •Candida albicans • •Mnohobuněčná eukaryota • Komplexní organizace genomu, geny separovány dlouhými INTERGENOVÝMI úseky, geny obsahují množství INTRONŮ, i velmi DLOUHÝCH. • Eukaryotické geny Mnohobuněčná eukaryota •Glyceraldehyd-3-fosfát-dehydrogenasa •Homo sapiens •Rozpoznání exonů/intronů • Identifikace míst sestřihu: GT na 5´konci, AG na 3´konci. •Chyby při rozpoznávání exonů/intronů • Velké množství chyb. Dlouhé introny – určeny jako intergenové úseky. Krátké intergenové useky – určeny jako introny. • Eukaryotické geny Mnohobuněčná eukaryota • ch28f29 •Splicing Mechanism Used for mRNA Precursors. The upstream (5′) exon is shown in blue, the downstream (3′) exon in green, and the branch site in yellow. Y stands for a purine nucleotide, R for a pyrimidine nucleotide, and N for any nucleotide. The 5′ splice site is attacked by the 2′-OH group of the branch-site adenosine residue. The 3′ splice site is attacked by the newly formed 3′-OH group of the upstream exon. The exons are joined, and the intron is released in the form of a lariat. [After P. A. Sharp. Cell 2(1985):3980.] • • Predikce genů – příklad z praxe •Hypotetický gen/protein, predikovaný při anotaci genomu Aspergillus fumigatus Af293 • • •Transkripce,Sestřih •Translace •mRNA •Protein •DNA •MADPEVEADG ELDLEKRASA QTCKIVNVDT YVNCRYDAKL DAGAIFGFPK GEKLTFACWK HGDCYNGVCS WDQVTYLKTT CYVNGYFTDS NCSSSMLSRC •Identifikace genu/proteinu na úrovni mRNA (příprava cDNA pro klonování) •DNA • •Transkripce •mRNA (cDNA) • •Translace •Protein •MADPEVEADG ELDLEKRASA QTCKIVNVDT YVNCRYDAKL DAGAIFGFPK GEKLTFACWK HGDCYNGVW • Predikce genů – příklad z praxe •Hypotetický gen/protein, predikovaný při anotaci genomu Aspergillus fumigatus Af293 • • •Transkripce,Sestřih •Translace •mRNA •Protein •DNA •MADPEVEADG ELDLEKRASA QTCKIVNVDT YVNCRYDAKL DAGAIFGFPK GEKLTFACWK HGDCYNGVCS WDQVTYLKTT CYVNGYFTDS NCSSSMLSRC •Identifikace genu/proteinu na úrovni mRNA (příprava cDNA pro klonování) •DNA • •Transkripce •mRNA (cDNA) • •Translace •Protein •MADPEVEADG ELDLEKRASA QTCKIVNVDT YVNCRYDAKL DAGAIFGFPK GEKLTFACWK HGDCYNGVW • •Chybná predikce intronu? •Alternativní sestřih? •Různé kmeny/životní podmínky/buněčný cyklus? •Chyba při přípravě cDNA knihovny? • Algoritmy a nástroje pro identifikaci genů •Predikce genů na základě sekvenční homologie – vyhledávání v databázích pomocí algoritmů. •Predikce genů ab initio – predikce na základě statistických parametrů DNA sekvence. •Většina běžně používaných metod kombinuje oba dva přístupy. • Prokaryota •ATG………………TAA •Bez intronů •SEKVENČNÍ HOMOLOGIE •IDENTIFIKOVANÉ GENY VYUŽITY PRO „TRÉNOVÁNÍ“ STATISTICKÉ METODY •ANALÝZA ZBÝVAJÍCÍCH ČÁSTÍ GENOMU • • • Eukaryota •Mnoho intronů, dlouhé intergenové úseky •Ab initio STATISTICKÉ METODY •IDENTIFIKOVANÉ EXONY •SEKVENČNÍ HOMOLOGIE • • • •Každý program má výhody a nevýhody – rozumné použít více predikčních nástrojů. • GeneMark • GlimmerM • GRAIL • GenScan • Fgenes • • Algoritmy a nástroje pro identifikaci genů • •GeneMark • http://exon.gatech.edu/GeneMark • • Využívá Markovovy modely • • Vyžaduje parametry specifické pro daný organismus = nutné „natrénování“ pomocí známých genů • • Varianty pro prokaryotické, eukaryotické, virové sekvence Algoritmy a nástroje pro identifikaci genů •GeneMark •http://exon.gatech.edu/GeneMark Algoritmy a nástroje pro identifikaci genů •GeneScan • http://genes.mit.edu/GENSCAN.html • • Komplexní model struktury genu (transkripční, translační, sestřihové signály + statistické vlastnosti kódujících a nekódujících úseků) • • Primární analýza velkých úseků eukaryotické genomové DNA • • •GeneScan •http://genes.mit.edu/GENSCAN.html • Algoritmy a nástroje pro identifikaci genů • • • Shrnutí •Predikce prokaryotických genů mnohem jednodušší než u eukaryotických. • •Predikce genů ab initio/na základě sekvenční homologie. • •Nutné kombinovat oba přístupy. • •Rozumné využívat více predikčních programů. •