Predikce genů
Pro zajímavost…
Důležité…

Molekulárně biologická data
•Výkonné technologie:
• Automatické sekvencování
• MALDI-TOF
• NMR spektroskopie
• Proteinová krystalografie
•
•
•Výrazný nárůst množství biologických dat.

Rozdělení molekulárně biologických databází
•Databáze:
• Primární
• Sekundární
• Strukturní
•
• Genomové zdroje

Molekulárně biologická data


„Syrové“ sekvence DNA
Identifikace a anotace genů a proteinů


Predikce genů kódujících proteiny
•Prokaryotické geny
•Nepřerušované úseky DNA mezi startovním kodonem (ATG, GTG, TTG, CTG) a stop kodonem (TAA, TGA,
TAG).
•
•Eukaryotické geny
•Přerušovány introny. Průměrná délka exonu je 50 kodonů, některé jsou mnohem kratší.
•Některé introny extrémně dlouhé, geny zabírají mbp v genomové DNA.

Predikce eukaryotických genů je mnohem složitější než predikce genů prokaryotických a představuje
STÁLE NEVYŘEŠENÝ problém!


Prokaryotické geny
•Prokaryotický gen = nejdelší ORF odpovídající danému úseku DNA.
GTATGCTGGTGATTGTGGATGCCGTTACCCTGCTGAGCGCCTATCCGGAAGCCAGCCGTGATCCGGCCGCCCCGACCGTGATTGATGGTCGCCACCTGT
ATGTTGTTAGCCCGGGCGATGCCGCGCAGCTGGGCCATAACGATAGCCGTCTGTTTACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGAAACCG
CGCTGGCGCTGCGCGCGGAAGTGAGCGTGCTGTTTATTCGCTTTGCCCTGAAAGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGCGTGATGCCG
CCACCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTCCGCTGAAAGATCATTATTGGCGCAGCGATGTGCTGGCGGCGGGCGCGACCA
CCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATGGCACCGTGAGCGGTTATTTTCGTTGGGAAACCAGCATTGAAATTGCGGGCAGCCAGCCGGATA
CCAAACAGCCGGGCTTTAAACCGAGCAGCGATCGCAATGGCAACTTTAGCCTGCCGCCGAATACCGCCTTTAAAGCGATCTTCTATGCGAACGCGGCGG
ATCGTCAGGATCTGAAACTGTTTATTGATGATGCGCCGGAACCGGCCGCCACCTTTGTGGGTAACAGCGAAGATGGTGTGCGTCTGTTTACCCTGAATA
GCAAAGGTGGTAAAATTCGTATTGAAGCGAGCGCGAACGGCCGTCAGAGCGCGACCGATGCCCGTCTGGCGCCGCTGAGCGCGGGCGATACCGTGTGGC
TGGGCTGGCTGGGCGCGGAAGATGGTGCCGATGCGGATTATAATGATGGCATTGTTATTCTGCAGTGGCCGATTACCTAATGGG

Překlad DNA sekvence


Překlad DNA sekvence
•ExPASy  http://www.expasy.org/tools/dna.html
•
•ORF Finder (NCBI)
• http://www.ncbi.nlm.nih.gov/gorf/gorf.html

ExPASy
http://www.expasy.org/tools/dna.html


ExPASy
http://www.expasy.org/tools/dna.html


GTATGCTGGTGATTGTGGATGCCGTTACCCTGCTGAGCGCCTATCCGGAAGCCAGCCGTGATCCGGCCGCCCCGACCGTGATTGATGGTCGCCACCTGT
ATGTTGTTAGCCCGGGCGATGCCGCGCAGCTGGGCCATAACGATAGCCGTCTGTTTACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGAAACCG
CGCTGGCGCTGCGCGCGGAAGTGAGCGTGCTGTTTATTCGCTTTGCCCTGAAAGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGCGTGATGCCG
CCACCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTCCGCTGAAAGATCATTATTGGCGCAGCGATGTGCTGGCGGCGGGCGCGACCA
CCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATGGCACCGTGAGCGGTTATTTTCGTTGGGAAACCAGCATTGAAATTGCGGGCAGCCAGCCGGATA
CCAAACAGCCGGGCTTTAAACCGAGCAGCGATCGCAATGGCAACTTTAGCCTGCCGCCGAATACCGCCTTTAAAGCGATCTTCTATGCGAACGCGGCGG
ATCGTCAGGATCTGAAACTGTTTATTGATGATGCGCCGGAACCGGCCGCCACCTTTGTGGGTAACAGCGAAGATGGTGTGCGTCTGTTTACCCTGAATA
GCAAAGGTGGTAAAATTCGTATTGAAGCGAGCGCGAACGGCCGTCAGAGCGCGACCGATGCCCGTCTGGCGCCGCTGAGCGCGGGCGATACCGTGTGGC
TGGGCTGGCTGGGCGCGGAAGATGGTGCCGATGCGGATTATAATGATGGCATTGTTATTCTGCAGTGGCCGATTACCTAATGGG
ExPASy
http://www.expasy.org/tools/dna.html


ORF Finder (NCBI)
http://www.ncbi.nlm.nih.gov/gorf/gorf.html


ORF Finder (NCBI)
http://www.ncbi.nlm.nih.gov/gorf/gorf.html


ORF Finder (NCBI)
http://www.ncbi.nlm.nih.gov/gorf/gorf.html


Prokaryotické geny
•Velmi jednoduchý přístup k predikci genů
• Zjednodušení vede k chybám, ale jejich množství je POMĚRNĚ MALÉ.
•
•Chyby mohou vznikat při SEKVENCOVÁNÍ DNA.
• Přidání/odstranění startovního a/nebo stop kodonu může vést ke ZKRÁCENÍ, PRODLOUŽENÍ nebo úplnému
VYNECHÁNÍ genu.

Opravdu ORF kóduje protein?
•ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí
ALIGNMENTU).
•
•ORF má typický obsah GC nebo frekvenci kodonů. Srovnání s charakteristickými vlastnostmi známých
genů ze stejného organismu.
•
• Před ORF se nachází typické RBS (ribosome-binding site) nebo promotor.

Translační a transkripční signální sekvence
Pergamen
TATA box
Pribnowův box
Promotor
Shine-Dalgarnova
sekvence
Prokaryota

Translační a transkripční signální sekvence
Pergamen
Eukaryota
TATA box
Hognessův box
GC box
GC box
(gcc)gccRccAUGG
Kozak sequence
Sekvence Kozakové
Promotor RNA-polymerasy II

Opravdu ORF kóduje protein?
•ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí
ALIGNMENTU) = nejspolehlivější ověření.
•
•Nástroje pro překlad DNA jsou propojeny s prohledáváním databází.
•

ORF Finder (NCBI)
http://www.ncbi.nlm.nih.gov/gorf/gorf.html


ORF Finder (NCBI)
http://www.ncbi.nlm.nih.gov/gorf/gorf.html


Eukaryotické geny
Jednobuněčná eukaryota
•Genomy jednobuněčných eukaryot se výrazně liší (frekvence intronů, jak velká část genomu je
tvořená geny kódujícími proteiny).
•
•Saccharomyces cerevisiae – 67% genomu je protein-kódující, jen 4% obsahují introny.
•Hlenky – průměrný gen obsahuje 3,7 intronu.
•
•Pro některá jednobuněčná eukaryota (kvasinky) je možné použít stejné postupy jako pro prokaryota.

File:Dog vomit slime mold.jpg
Slime mold = hlenka
Fuligo septica
Dog vomit slime mold

•Mnohobuněčná eukaryota
• Komplexní organizace genomu, geny separovány dlouhými INTERGENOVÝMI úseky, geny obsahují množství
INTRONŮ, i velmi DLOUHÝCH.
•
Eukaryotické geny
Mnohobuněčná eukaryota
Glyceraldehyd-3-fosfát-dehydrogenasa
Candida albicans

•Mnohobuněčná eukaryota
• Komplexní organizace genomu, geny separovány dlouhými INTERGENOVÝMI úseky, geny obsahují množství
INTRONŮ, i velmi DLOUHÝCH.
•
Eukaryotické geny
Mnohobuněčná eukaryota
Glyceraldehyd-3-fosfát-dehydrogenasa
Homo sapiens

•Rozpoznání exonů/intronů
• Identifikace míst sestřihu: GT na 5´konci, AG na 3´konci.
•Chyby při rozpoznávání exonů/intronů
• Velké množství chyb. Dlouhé introny – určeny jako intergenové úseky. Krátké intergenové useky –
určeny jako introny.
•
Eukaryotické geny
Mnohobuněčná eukaryota

ch28f29
Splicing Mechanism Used for mRNA Precursors. The upstream (5′) exon is shown in blue, the
downstream (3′) exon in green, and the branch site in yellow. Y stands for a purine nucleotide, R
for a pyrimidine nucleotide, and N for any nucleotide. The 5′ splice site is attacked by the 2′-OH
group of the branch-site adenosine residue. The 3′ splice site is attacked by the newly formed
3′-OH group of the upstream exon. The exons are joined, and the intron is released in the form of a
lariat. [After P. A. Sharp. Cell 2(1985):3980.]

Algoritmy a nástroje pro identifikaci genů
•Predikce  genů na základě sekvenční homologie – vyhledávání v databázích pomocí algoritmů.
•Predikce genů ab initio – predikce na základě statistických parametrů DNA sekvence.
•Většina běžně používaných metod kombinuje oba dva přístupy.

Prokaryota
ATG………………TAA
Bez intronů
SEKVENČNÍ HOMOLOGIE
IDENTIFIKOVANÉ GENY VYUŽITY PRO „TRÉNOVÁNÍ“ STATISTICKÉ METODY
ANALÝZA ZBÝVAJÍCÍCH ČÁSTÍ GENOMU

Eukaryota
Mnoho intronů, dlouhé intergenové úseky
Ab initio STATISTICKÉ METODY
IDENTIFIKOVANÉ EXONY
SEKVENČNÍ HOMOLOGIE

•Každý program má výhody a nevýhody – rozumné použít více predikčních nástrojů.
•   GeneMark
• GlimmerM
• GRAIL
• GenScan
• Fgenes
•
•
Algoritmy a nástroje pro identifikaci genů

•GeneMark
• http://exon.gatech.edu/GeneMark
•
• Využívá Markovovy modely
•
• Vyžaduje parametry specifické pro daný organismus = nutné „natrénování“ pomocí známých genů
•
• Varianty pro prokaryotické, eukaryotické, virové sekvence
Algoritmy a nástroje pro identifikaci genů

GeneMark
http://exon.gatech.edu/GeneMark


Algoritmy a nástroje pro identifikaci genů
•GeneScan
• http://genes.mit.edu/GENSCAN.html
•
• Komplexní probablistický model struktury genu (transkripční, translační, sestřihové signály +
statistické vlastnosti kódujících a nekódujících úseků)
•
• Primární analýza velkých úseků eukaryotické genomové DNA
•
•

GeneScan
http://genes.mit.edu/GENSCAN.html


Algoritmy a nástroje pro identifikaci genů


Shrnutí
•Predikce prokaryotických genů mnohem jednodušší než u eukaryotických.
•
•Predikce genů ab initio/na základě sekvenční homologie.
•
•Nutné kombinovat oba přístupy.
•
•Rozumné využívat více predikčních programů.