Základy genomiky II, Identifikace genů
Logo1me Logo1me
Základy genomiky
II. Identifikace genů
Jan Hejátko
Masarykova univerzita, Laboratoř funkční genomiky a proteomiky
Laboratoř molekulární fyziologie rostlin

Základy genomiky II, Identifikace genů
Logo1me
§Zdrojová literatura ke kapitole II:
Základy genomiky II.
§Plant Functional Genomics, ed. Erich Grotewold, 2003, Humana Press, Totowa, New Jersey
§
§Majoros, W.H., Pertea, M., Antonescu, C. and Salzberg, S.L.  (2003) GlimmerM, Exonomy, and Unveil:
three ab initio eukaryotic genefinders.  Nucleic Acids Research, 31(13).
§Singh, G. and Lykke-Andersen, J. (2003) New insights into the formation of active nonsensemediated
decay complexes. TRENDS in Biochemical Sciences, 28 (464).
§Wang, L. and Wessler, S.R. (1998) Inefficient reinitiation is responsible for upstream open
reading frame-mediated translational repression of the maize R gene. Plant Cell, 10, (1733)
§de Souza et al. (1998) Toward a resolution of the introns earlyylate debate: Only phase zero
introns are correlated with the structure of ancient proteins PNAS, 95, (5094)

Základy genomiky II, Identifikace genů
Logo1me
§Predikce funkce genů in silico
§příprava genově obohacených knihoven pomocí technologie metylačního filtrování
§Experimentální identifikace genů
§genomová kolinearita a genová homologie
§EST knihovny
§struktura genů a jejich vyhledávání
§Postupy „přímé“ a reverzní genetiky
§rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí
Základy genomiky II.

Základy genomiky II, Identifikace genů
Logo1me
§Postupy „přímé“ a reverzní genetiky
§rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí
Základy genomiky II.

Základy genomiky II, Identifikace genů
Logo1me mut_1 mut_2
3               :              1
Přístupy „klasické“ genetiky
„Reverzně genetický“ přístup
?
mut4
inzerční mutageneze
5‘TTATATATATATATTAAAAAATAAAATAAAAGAACAAAAAAGAAAATAAAATA….3‘
Přímá vs. reverzní genetika
Revoluce v chápání pojmu genu

Základy genomiky II, Identifikace genů
Logo1me
• Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis
Identifikace role genu ARR21

FGP_logo LMFR_con
Hormonal regulations of plant development
Identifikace role genu ARR21
regulátor odezvy v dvoukomponentním signálním systému
NUCLEUS
Adobe Systems
PM
AHK sensor histidine kinases
• AHK2
• AHK3
• CRE1/AHK4/WOL
REGULATION OF TRANSCRIPTION
INTERACTION WITH EFFECTOR PROTEINS
HPt Proteins
• AHP1-6
Response Regulators
• ARR1-24
Recent Model of the CK Signaling via Multistep Phosphorelay (MSP) Pathway

Základy genomiky II, Identifikace genů
Logo1me
• Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis
Identifikace role genu ARR21
• Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site)
pomocí programu BLAST

Základy genomiky II, Identifikace genů
Logo1me
Identifikace role genu ARR21 identifikace inzerčního mutanta
§vyhledávání v databázi inzerčních mutantů (SINS)
§lokalizace inzerce dSpm v genomové sekvenci ARR21 pomocí sekvenace PCR produktů

Základy genomiky II, Identifikace genů
Logo1me
• Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis
Identifikace role genu ARR21
• Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site)
pomocí programu BLAST
• Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA

Základy genomiky II, Identifikace genů
Logo1me
Identifikace role genu ARR21 analýza expresního profilu
Standardní typ
Inzerční mutant

Základy genomiky II, Identifikace genů
Logo1me
• Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis
Identifikace role genu ARR21
• Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site)
pomocí programu BLAST
• Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA
• Analýza fenotypu inzečního mutanta

Základy genomiky II, Identifikace genů
Logo1me Fig 5
Identifikace role genu ARR21 analýza fenotypu inzerčního mutanta
• Analýza citlivosti k regulátorům růstu rostlin
§2,4-D a kinetin
§etylén
§světlo různých vlnových délek
• Doba kvetení i počet semen nezměněn

Základy genomiky II, Identifikace genů
Logo1me
• Funkční redundance v rámci genové rodiny?
Identifikace role genu ARR21
možné příčiny absence odchylek fenotypu u inzerčního mutanta

Základy genomiky II, Identifikace genů
Logo1me ARR-tree
Identifikace role genu ARR21
příbuznost jednotlivých ARR genů u Arabisopsis

Základy genomiky II, Identifikace genů
Logo1me
Identifikace role genu ARR21
možné příčiny absence odchylek fenotypu u inzerčního mutanta
• Funkční redundance v rámci genové rodiny?
• Fenotypový projev pouze za velmi specifických podmínek (?)

Základy genomiky II, Identifikace genů
Logo1me
§Gen ARR21 identifikován pomocí srovnávací analýzy genomu Arabidopsis
Inzerční mutageneze ve funkční genomice  Arabidopsis thaliana
§Byla prokázána místně specifická exprese genu ARR21 na úrovni RNA
§Inzerční mutageneze v případě identifikace funkce genu ARR21 ve vývoji Arabidopsis byla neúspěšná,
pravděpodobně v důsledku funkční redundance v rámci genové rodiny
§Na základě analýzy sekvence byla předpovězena jeho funkce

Základy genomiky II, Identifikace genů
Logo1me
§Predikce funkce genů in silico
§struktura genů a jejich vyhledávání
§Postupy „přímé“ a reverzní genetiky
§rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí
Základy genomiky II.

Základy genomiky II, Identifikace genů
Logo1me Adobe Systems Adobe Systems
Predikce funkce genů in silico
struktura genů
§struktura genů
§promotor
§počátek transkripce
§5´UTR
§počátek translace
§místa sestřihu
§stop kodon
§3´UTR
§polyadenylační signál
TATA
ATG….ATTCATCAT
ATTATCTGATATA
5´UTR
3´UTR
….ATAAATAAATGCGA

Základy genomiky II, Identifikace genů
Logo1me
§vyhledávání genů ab inicio
Predikce funkce genů in silico
vyhledávání genů
§zanedbání 5‘ a 3‘ UTR
§
§identifikace počátku translace (ATG) a stop kodonu (TAG, TAA, TGA)
§nalezení donorových (většinou GT) a akceptorových (AG) míst sestřihu
§většina ORF není skutečně kódujícími sekvencemi – u Arabidopsis je asi 350 mil. ORF na každých 900
bp (!)
§využití různých statistických modelů (např. Hidden Markov Model, HMM, viz doporučená studijní
literatura, Majoros et al., 2003) k posouzení a ohodnocení váhy identifikovaných donorových a
akceptorových míst

Základy genomiky II, Identifikace genů
Logo1me
§vyhledávání genů ab inicio
Predikce funkce genů in silico
vyhledávání genů
§programy pro predikci míst sestřihu (specificita přibližně 35%)
§
¨  GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene_spl.html)
¨  SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi)

Základy genomiky II, Identifikace genů
Logo1me
Predikce funkce genů in silico
vyhledávání genů

Základy genomiky II, Identifikace genů
Logo1me
§vyhledávání genů ab inicio
Predikce funkce genů in silico
vyhledávání genů
§programy pro predikci míst sestřihu (specificita přibližně 35%)
§
¨  GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene_spl.html)
¨  SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi)
¨  NetGene2 (http://www.cbs.dtu.dk/services/NetGene2/)

Základy genomiky II, Identifikace genů
Logo1me
Predikce funkce genů in silico
vyhledávání genů

Základy genomiky II, Identifikace genů
Logo1me
Predikce funkce genů in silico
vyhledávání genů
§odchylky rozpoznávání míst sestřihu u rostlin v praxi  - příklad vývojové plasticity (nejen)
rostlin
•identifikace mutanta s bodovou mutací (tranzice G→A) přesně v místě sestřihu na 5‘ konci 4. exonu
•analýza pomocí RT PCR prokázala přítomnost fragmentu kratšího než by odpovídalo cDNA po normálním
sestřihu
•sekvenace tohoto fragmentu pak ukázala na alternativní sesřih s využitím nejbližšího možného místa
sestřihu v exonu 4
RTPCR_EN
•existence podobných obranných mechanizmů prokázána i u jiných organizmů, např. nestabilita
mutantní mRNA se vznikem předčasného stopkodonu (> 50-55 bp před normálním stop kodonem) u
eukaryot, viz doporučená studijní literatura, Singh and Lykke-Andersen, 2003)

Základy genomiky II, Identifikace genů
Logo1me
§vyhledávání genů ab inicio
Predikce funkce genů in silico
vyhledávání genů
§programy pro predikci míst sestřihu (specificita přibližně 35%)
§
¨  GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene_spl.html)
¨  SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi)
¨  NetGene2 (http://www.cbs.dtu.dk/services/NetGene2/)
§programy pro predikci exonů
§
q   4 typy exonů (podle polohy):
• iniciační
• vnitřní
•  terminální a
• jednoduché
¨  Genescan (http://genes.mit.edu/GENSCAN.html)
qprogramy kromě rozpoznávání míst sestřihu  zohledňují i strukturu jednotlivých typů exonů
¨  GeneMark.hmm (http://opal.biology.gatech.edu/GeneMark/)
•   iniciační:
•   interní:
¨  MZEF (http://rulai.cshl.org/tools/genefinder/)

Základy genomiky II, Identifikace genů
Logo1me
Predikce funkce genů in silico
vyhledávání genů

Explanation Gn.Ex : gene number, exon number (for reference) Type : Init = Initial exon (ATG to 5'
splice site) Intr = Internal exon (3' splice site to 5' splice site) Term = Terminal exon (3'
splice site to stop codon) Sngl = Single-exon gene (ATG to stop) Prom = Promoter (TATA box /
initation site) PlyA = poly-A signal (consensus: AATAAA) S : DNA strand (+ = input strand; - =
opposite strand) Begin : beginning of exon or signal (numbered on input strand) End : end point of
exon or signal (numbered on input strand) Len : length of exon or signal (bp) Fr : reading frame (a
forward strand codon ending at x has frame x mod 3) Ph : net phase of exon (exon length modulo 3) –
the position of the intron towards the ORF of the exon (0, 1 or 2) I/Ac : initiation signal or 3'
splice site score (tenth bit units) Do/T : 5' splice site or termination signal score (tenth bit
units) CodRg : coding region score (tenth bit units) P : probability of exon (sum over all parses
containing exon) Tscr : exon score (depends on length, I/Ac, Do/T and CodRg scores) Comments The
SCORE of a predicted feature (e.g., exon or splice site) is a log-odds measure of the quality of
the feature based on local sequence properties. For example, a predicted 5' splice si te with score
> 100 is strong; 50-100 is moderate; 0-50 is weak; and below 0 is poor (more than likely not a real
donor site). The PROBABILITY of a predicted exon is the estimated probability under GENSCAN's model
of genomic sequence structure that the exon is correct. This probability depends in general on
global as well as local sequence properties, e.g., it depends on how well the exon fits with
neighboring exons. It has been shown that predicted exons with higher probabilities are more likely
to be correct than those with lower probabilities.
What are the suboptimal exons?
Under the probabilistic model of gene structural and compositional properties used by GENSCAN, each
possible "parse" (gene structure description) which is compatible with the sequence is assigned a
probability. The default output of the program is simply the "optimal" (highest probability) parse
of the sequence. The exons in this optimal parse are referred to as "optimal exons" and the
translation products of the corresponding "optimal genes" are printed as GENSCAN predicted
peptides. (All the data in our J Mol Biol paper and on the other GENSCAN web pages refer
exclusively to the optimal parse/optimal exons.) Of course, the optimal parse does not always
correspond to the actual (biological) parse of the sequence, that is, the actual set of exons/genes
present. In addition, there may be more than one parse which can be considered "correct", for
example, in the case of a gene which is alternatively transcribed, translated or spliced. For both
of these reasons, it may be of interest to consider "suboptimal" ("near-optimal") exons as well,
i.e. exons which have reasonably high probability but are not present in the optimal parse.
Specifically, for every potential exon E in the sequence, the probability P(E) is defined as the
sum of the probabilities under the model of all possible "parses" (gene structures) which contain
the exact exon E in the correct reading frame. (This quantity is calculated as described on the
GENSCAN exon probability page.) Given a probability cutoff C, suboptimal exons are those potential
exons with P(E) > C which are not present in the optimal parse.
Suboptimal exons have a variety of potential uses. First, suboptimal exons sometimes correspond to
real exons which were missed for whatever reason by the optimal parse of the sequence. Second,
regions of a prediction which contain multiple overlapping and/or incompatible optimal and
suboptimal exons may in some cases indicate alternatively spliced regions of a gene (Burge &
Karlin, in preparation). The probability cutoff C used to determine which potential exons qualify
as suboptimal exons can be set to any of a range of values between 0.01 and 1.00. The default value
on the web page is 1.00, meaning that no suboptimal exons are printed. For most applications, a
cutoff value of about 0.10 is recommended. Setting the value much lower than 0.10 will often lead
to an explosion in the number of suboptimal exons, most of which will probably not be useful. On
the other hand, if the value is set much higher than 0.10, then potentially interesting suboptimal
exons may be missed.

Základy genomiky II, Identifikace genů
Logo1me
• Funkční význam sestřihu v nepřekládaných oblastech  - důležitá regulační součást genů
§Translační represe prostřednictvím krátkých ORF v 5‘UTR
Predikce funkce genů in silico
vyhledávání genů
§Identifikováno např. u kukuřice (Wang and Wessler, 1998, viz doporučená lit.)
§V případě CKI1 pokus prokázat tento způsob regulace genové exprese pomocí transgenních linií
nesoucích uidA pod kontrolou dvou verzí promotoru, zatím nepotvrzeno
ATGaaaagagcttttTAG
M    K    R    A    F   .
ATGaaaagagcttttTAG
M    K    R    A    F   .
ATGatggtgaaagttaca….
M    M   V   K   V  T …
ATGatggtgaaagttaca….
fig_1

Základy genomiky II, Identifikace genů
Logo1me
§vyhledávání genů ab inicio
Predikce funkce genů in silico
vyhledávání genů
§programy pro genové modelování
§
¨  Genescan (http://genes.mit.edu/GENSCAN.html)
velice dobrý pro predikci exonů v kódujích oblastech (testováno na genu PDR9, identifikoval všech
23 (!) exonů
¨  GeneMark.hmm (http://opal.biology.gatech.edu/GeneMark/)
qzohledňují také další parametry, např. návaznost ORF

Základy genomiky II, Identifikace genů
Logo1me
Predikce funkce genů in silico
vyhledávání genů

Základy genomiky II, Identifikace genů
Logo1me
§vyhledávání genů podle homologií
Predikce funkce genů in silico
vyhledávání genů
§porovnávání s EST databázemi
§
¨  BLASTN (http://www.ncbi.nlm.nih.gov/BLAST/, http://workbench.sdsc.edu/)
¨  BLASTX (http://www.ncbi.nlm.nih.gov/BLAST/, http://workbench.sdsc.edu/)
§porovnávání s proteinovými databázemi
¨  Genewise (http://www.ebi.ac.uk/Wise2/)
§porovnávání s homologními genomovými sekvencemi z příbuzných druhů
¨  VISTA/AVID  (http://www.lbl.gov/Tech-Transfer/techs/lbnl1690.html)
o  porovnávají proteinovou sekvenci s genomovou DNA (po zpětném překladu), je nutná znalost
aminokyselinové sekvence

Základy genomiky II, Identifikace genů
Logo1me
§Predikce funkce genů in silico
§genomová kolinearita a genová homologie
§struktura genů a jejich vyhledávání
§Postupy „přímé“ a reverzní genetiky
§rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí
Základy genomiky II.

Základy genomiky II, Identifikace genů
Logo1me
§genomová kolinearita a genová homologie
Predikce funkce genů in silico
vyhledávání genů
§genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích,
možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích
§
¨  mapování malých genomů s využitím nízkokopiových DNA markerů (např. RFLP)
§obecné schéma postupu při využívání geonomové kolinearity (také „komparativní genomika“) při
experimentální identifikaci genů příbuzných organizmů:
¨využití těchto markerů k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí)
příbuzného organizmu
¨malý genom (např. rýže, 466 Mbp) může sloužit jako vodítko, kdy jsou identifikovány molekulární
nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti jsou pak použity jako sonda
při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí velkých genomů (např.
ječmene nebo pšenice, 5000, resp. 16000 Mbp)

Základy genomiky II, Identifikace genů
Logo1me Obrázek
“file:///C:/Documents%20and%20Settings/hejatko/My%20Documents/teaching/pics/comp_gen_grasses.jpeg”
nelze zobrazit, protože obsahuje chyby.
Feuillet and Keller, 2002
Predikce funkce genů in silico
vyhledávání genů-genomová kolinearita

Základy genomiky II, Identifikace genů
Logo1me
§genomová kolinearita a genová homologie
Predikce funkce genů in silico
vyhledávání genů
§genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích,
možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích
§
¨  mapování malých genomů s využitím nízkokopiových DNA markerů (např. RFLP)
§obecné schéma postupu při využívání geonomové kolinearity (také „komparativní genomika“) při
experimentální identifikaci genů příbuzných organizmů:
¨vvyužití těchto markerů k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí)
příbuzného organizmu
¨malý genom (např. rýže, 466 Mbp, 46-55 tis. genů) může sloužit jako vodítko, kdy jsou
identifikovány molekulární nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti
jsou pak použity jako sonda při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí
velkých genomů (např. ječmene nebo pšenice, 5000, resp. 16000 Mbp)
§zejména využitelné u trav (např. využití příbuznosti u ječmene, pšenice, rýže a kukuřice)
§malé geonomové přestavby (dalece, duplikace, inverze a translokace menší než několik cM) jsou pak
detekovány podrobnou sekvenční komparativní analýzou
§během evoluce dochází u příbuzných druhů k odchylkám především v nekódujících oblastech (invaze
retrotranspozonů atd.)
Obrázek
“file:///C:/Documents%20and%20Settings/hejatko/My%20Documents/teaching/pics/comp_gen_grasses.jpeg”
nelze zobrazit, protože obsahuje chyby.

Základy genomiky II, Identifikace genů
Logo1me
§Predikce funkce genů in silico
§příprava genově obohacených knihoven pomocí technologie metylačního filtrování
§Experimentální identifikace genů
§genomová kolinearita a genová homologie
§struktura genů a jejich vyhledávání
§Postupy „přímé“ a reverzní genetiky
§rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí
Základy genomiky II.

Základy genomiky II, Identifikace genů
Logo1me
§příprava genově obohacených knihoven pomocí technologie metylačního filtrování
Experimentální identifikace genů
§geny jsou (větsinou!) hypometylované, kdežto nekódující oblasti jsou metylované
¨  McrBC rozpoznává v DNA metylovaný cytozin, který předchází purin (G nebo A)
§využití bakteriálního RM systému, který rozpoznává metylovanou DNA pomocí rest. enzymů McrA a
McrBC
¨pro štěpení je nutná vzdálenost těchto míst z 40-2000 bp
§schéma postupu při přípravě BAC genomových knihoven pomocí metylačního filtrování:
¨  příprava genomové DNA bez příměsí organelární DNA (chloroplasty a mitochondrie)
¨  fragmentace DNA (1-4 kbp) a ligace adaptorů
¨  příprava BAC knihovny v mcrBC+ kmeni E. coli
¨  selekce pozitivních klonů
§omezené využití: obohacení o kódující DNA o pouze cca 5-10´%

Základy genomiky II, Identifikace genů
Logo1me
§Predikce funkce genů in silico
§příprava genově obohacených knihoven pomocí technologie metylačního filtrování
§Experimentální identifikace genů
§genomová kolinearita a genová homologie
§EST knihovny
§struktura genů a jejich vyhledávání
§Postupy „přímé“ a reverzní genetiky
§rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí
Základy genomiky II.

Základy genomiky II, Identifikace genů
Logo1me
§příprava EST knihoven
§izolace mRNA
§RT PCR
§ligace linkerů a syntéza druhého řetězce cDNA
§klonování do vhodného bakteriálního vektoru
§transformace do bakterií a izolace DNA (amplifikace DNA)
§sekvenace s použitím primerů specifických pro použitý plasmid
§uložení výsledků sekvenace do veřejné databáze
TTTTTTTTTT
TTTTTTTTTT
TTTTTTTTTT
TTTTTTTTTT
AAAAAAAAAA
AAAAAAAAAA
AAAAAAAAAA
AAAAAAAAAA
Adobe Systems
AAAAAAAAAA
TTTTTTTTTTT
Adobe Systems
cctacgattatacccccaa
ggatgctaatatgggggttatacaagtgtt
AAAAAAAAAA
Experimentální identifikace genů

Základy genomiky II, Identifikace genů
Logo1me
§Predikce funkce genů in silico
§příprava genově obohacených knihoven pomocí technologie metylačního filtrování
§Experimentální identifikace genů
§genomová kolinearita a genová homologie
§EST knihovny
§struktura genů a jejich vyhledávání
§Postupy „přímé“ a reverzní genetiky
§rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí
Základy genomiky II.
shrnutí

Základy genomiky II, Identifikace genů
Logo1me
Základy genomiky II.
diskuse