Základy genomiky II, Identifikace genů Logo1me Logo1me Základy genomiky II. Identifikace genů Jan Hejátko Masarykova univerzita, Laboratoř funkční genomiky a proteomiky Laboratoř molekulární fyziologie rostlin Základy genomiky II, Identifikace genů Logo1me §Zdrojová literatura ke kapitole II: Základy genomiky II. §Plant Functional Genomics, ed. Erich Grotewold, 2003, Humana Press, Totowa, New Jersey § §Majoros, W.H., Pertea, M., Antonescu, C. and Salzberg, S.L. (2003) GlimmerM, Exonomy, and Unveil: three ab initio eukaryotic genefinders. Nucleic Acids Research, 31(13). §Singh, G. and Lykke-Andersen, J. (2003) New insights into the formation of active nonsensemediated decay complexes. TRENDS in Biochemical Sciences, 28 (464). §Wang, L. and Wessler, S.R. (1998) Inefficient reinitiation is responsible for upstream open reading frame-mediated translational repression of the maize R gene. Plant Cell, 10, (1733) §de Souza et al. (1998) Toward a resolution of the introns earlyylate debate: Only phase zero introns are correlated with the structure of ancient proteins PNAS, 95, (5094) Základy genomiky II, Identifikace genů Logo1me §Predikce funkce genů in silico §příprava genově obohacených knihoven pomocí technologie metylačního filtrování §Experimentální identifikace genů §genomová kolinearita a genová homologie §EST knihovny §struktura genů a jejich vyhledávání §Postupy „přímé“ a reverzní genetiky §rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Základy genomiky II. Základy genomiky II, Identifikace genů Logo1me §Postupy „přímé“ a reverzní genetiky §rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Základy genomiky II. Základy genomiky II, Identifikace genů Logo1me mut_1 mut_2 3 : 1 Přístupy „klasické“ genetiky „Reverzně genetický“ přístup ? mut4 inzerční mutageneze 5‘TTATATATATATATTAAAAAATAAAATAAAAGAACAAAAAAGAAAATAAAATA….3‘ Přímá vs. reverzní genetika Revoluce v chápání pojmu genu Základy genomiky II, Identifikace genů Logo1me • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis Identifikace role genu ARR21 FGP_logo LMFR_con Hormonal regulations of plant development Identifikace role genu ARR21 regulátor odezvy v dvoukomponentním signálním systému NUCLEUS Adobe Systems PM AHK sensor histidine kinases • AHK2 • AHK3 • CRE1/AHK4/WOL REGULATION OF TRANSCRIPTION INTERACTION WITH EFFECTOR PROTEINS HPt Proteins • AHP1-6 Response Regulators • ARR1-24 Recent Model of the CK Signaling via Multistep Phosphorelay (MSP) Pathway Základy genomiky II, Identifikace genů Logo1me • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis Identifikace role genu ARR21 • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST Základy genomiky II, Identifikace genů Logo1me Identifikace role genu ARR21 identifikace inzerčního mutanta §vyhledávání v databázi inzerčních mutantů (SINS) §lokalizace inzerce dSpm v genomové sekvenci ARR21 pomocí sekvenace PCR produktů Základy genomiky II, Identifikace genů Logo1me • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis Identifikace role genu ARR21 • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA Základy genomiky II, Identifikace genů Logo1me Identifikace role genu ARR21 analýza expresního profilu Standardní typ Inzerční mutant Základy genomiky II, Identifikace genů Logo1me • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis Identifikace role genu ARR21 • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA • Analýza fenotypu inzečního mutanta Základy genomiky II, Identifikace genů Logo1me Fig 5 Identifikace role genu ARR21 analýza fenotypu inzerčního mutanta • Analýza citlivosti k regulátorům růstu rostlin §2,4-D a kinetin §etylén §světlo různých vlnových délek • Doba kvetení i počet semen nezměněn Základy genomiky II, Identifikace genů Logo1me • Funkční redundance v rámci genové rodiny? Identifikace role genu ARR21 možné příčiny absence odchylek fenotypu u inzerčního mutanta Základy genomiky II, Identifikace genů Logo1me ARR-tree Identifikace role genu ARR21 příbuznost jednotlivých ARR genů u Arabisopsis Základy genomiky II, Identifikace genů Logo1me Identifikace role genu ARR21 možné příčiny absence odchylek fenotypu u inzerčního mutanta • Funkční redundance v rámci genové rodiny? • Fenotypový projev pouze za velmi specifických podmínek (?) Základy genomiky II, Identifikace genů Logo1me §Gen ARR21 identifikován pomocí srovnávací analýzy genomu Arabidopsis Inzerční mutageneze ve funkční genomice Arabidopsis thaliana §Byla prokázána místně specifická exprese genu ARR21 na úrovni RNA §Inzerční mutageneze v případě identifikace funkce genu ARR21 ve vývoji Arabidopsis byla neúspěšná, pravděpodobně v důsledku funkční redundance v rámci genové rodiny §Na základě analýzy sekvence byla předpovězena jeho funkce Základy genomiky II, Identifikace genů Logo1me §Predikce funkce genů in silico §struktura genů a jejich vyhledávání §Postupy „přímé“ a reverzní genetiky §rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Základy genomiky II. Základy genomiky II, Identifikace genů Logo1me Adobe Systems Adobe Systems Predikce funkce genů in silico struktura genů §struktura genů §promotor §počátek transkripce §5´UTR §počátek translace §místa sestřihu §stop kodon §3´UTR §polyadenylační signál TATA ATG….ATTCATCAT ATTATCTGATATA 5´UTR 3´UTR ….ATAAATAAATGCGA Základy genomiky II, Identifikace genů Logo1me §vyhledávání genů ab inicio Predikce funkce genů in silico vyhledávání genů §zanedbání 5‘ a 3‘ UTR § §identifikace počátku translace (ATG) a stop kodonu (TAG, TAA, TGA) §nalezení donorových (většinou GT) a akceptorových (AG) míst sestřihu §většina ORF není skutečně kódujícími sekvencemi – u Arabidopsis je asi 350 mil. ORF na každých 900 bp (!) §využití různých statistických modelů (např. Hidden Markov Model, HMM, viz doporučená studijní literatura, Majoros et al., 2003) k posouzení a ohodnocení váhy identifikovaných donorových a akceptorových míst Základy genomiky II, Identifikace genů Logo1me §vyhledávání genů ab inicio Predikce funkce genů in silico vyhledávání genů §programy pro predikci míst sestřihu (specificita přibližně 35%) § ¨ GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene_spl.html) ¨ SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi) Základy genomiky II, Identifikace genů Logo1me Predikce funkce genů in silico vyhledávání genů Základy genomiky II, Identifikace genů Logo1me §vyhledávání genů ab inicio Predikce funkce genů in silico vyhledávání genů §programy pro predikci míst sestřihu (specificita přibližně 35%) § ¨ GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene_spl.html) ¨ SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi) ¨ NetGene2 (http://www.cbs.dtu.dk/services/NetGene2/) Základy genomiky II, Identifikace genů Logo1me Predikce funkce genů in silico vyhledávání genů Základy genomiky II, Identifikace genů Logo1me Predikce funkce genů in silico vyhledávání genů §odchylky rozpoznávání míst sestřihu u rostlin v praxi - příklad vývojové plasticity (nejen) rostlin •identifikace mutanta s bodovou mutací (tranzice G→A) přesně v místě sestřihu na 5‘ konci 4. exonu •analýza pomocí RT PCR prokázala přítomnost fragmentu kratšího než by odpovídalo cDNA po normálním sestřihu •sekvenace tohoto fragmentu pak ukázala na alternativní sesřih s využitím nejbližšího možného místa sestřihu v exonu 4 RTPCR_EN •existence podobných obranných mechanizmů prokázána i u jiných organizmů, např. nestabilita mutantní mRNA se vznikem předčasného stopkodonu (> 50-55 bp před normálním stop kodonem) u eukaryot, viz doporučená studijní literatura, Singh and Lykke-Andersen, 2003) Základy genomiky II, Identifikace genů Logo1me §vyhledávání genů ab inicio Predikce funkce genů in silico vyhledávání genů §programy pro predikci míst sestřihu (specificita přibližně 35%) § ¨ GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene_spl.html) ¨ SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi) ¨ NetGene2 (http://www.cbs.dtu.dk/services/NetGene2/) §programy pro predikci exonů § q 4 typy exonů (podle polohy): • iniciační • vnitřní • terminální a • jednoduché ¨ Genescan (http://genes.mit.edu/GENSCAN.html) qprogramy kromě rozpoznávání míst sestřihu zohledňují i strukturu jednotlivých typů exonů ¨ GeneMark.hmm (http://opal.biology.gatech.edu/GeneMark/) • iniciační: • interní: ¨ MZEF (http://rulai.cshl.org/tools/genefinder/) Základy genomiky II, Identifikace genů Logo1me Predikce funkce genů in silico vyhledávání genů Explanation Gn.Ex : gene number, exon number (for reference) Type : Init = Initial exon (ATG to 5' splice site) Intr = Internal exon (3' splice site to 5' splice site) Term = Terminal exon (3' splice site to stop codon) Sngl = Single-exon gene (ATG to stop) Prom = Promoter (TATA box / initation site) PlyA = poly-A signal (consensus: AATAAA) S : DNA strand (+ = input strand; - = opposite strand) Begin : beginning of exon or signal (numbered on input strand) End : end point of exon or signal (numbered on input strand) Len : length of exon or signal (bp) Fr : reading frame (a forward strand codon ending at x has frame x mod 3) Ph : net phase of exon (exon length modulo 3) – the position of the intron towards the ORF of the exon (0, 1 or 2) I/Ac : initiation signal or 3' splice site score (tenth bit units) Do/T : 5' splice site or termination signal score (tenth bit units) CodRg : coding region score (tenth bit units) P : probability of exon (sum over all parses containing exon) Tscr : exon score (depends on length, I/Ac, Do/T and CodRg scores) Comments The SCORE of a predicted feature (e.g., exon or splice site) is a log-odds measure of the quality of the feature based on local sequence properties. For example, a predicted 5' splice si te with score > 100 is strong; 50-100 is moderate; 0-50 is weak; and below 0 is poor (more than likely not a real donor site). The PROBABILITY of a predicted exon is the estimated probability under GENSCAN's model of genomic sequence structure that the exon is correct. This probability depends in general on global as well as local sequence properties, e.g., it depends on how well the exon fits with neighboring exons. It has been shown that predicted exons with higher probabilities are more likely to be correct than those with lower probabilities. What are the suboptimal exons? Under the probabilistic model of gene structural and compositional properties used by GENSCAN, each possible "parse" (gene structure description) which is compatible with the sequence is assigned a probability. The default output of the program is simply the "optimal" (highest probability) parse of the sequence. The exons in this optimal parse are referred to as "optimal exons" and the translation products of the corresponding "optimal genes" are printed as GENSCAN predicted peptides. (All the data in our J Mol Biol paper and on the other GENSCAN web pages refer exclusively to the optimal parse/optimal exons.) Of course, the optimal parse does not always correspond to the actual (biological) parse of the sequence, that is, the actual set of exons/genes present. In addition, there may be more than one parse which can be considered "correct", for example, in the case of a gene which is alternatively transcribed, translated or spliced. For both of these reasons, it may be of interest to consider "suboptimal" ("near-optimal") exons as well, i.e. exons which have reasonably high probability but are not present in the optimal parse. Specifically, for every potential exon E in the sequence, the probability P(E) is defined as the sum of the probabilities under the model of all possible "parses" (gene structures) which contain the exact exon E in the correct reading frame. (This quantity is calculated as described on the GENSCAN exon probability page.) Given a probability cutoff C, suboptimal exons are those potential exons with P(E) > C which are not present in the optimal parse. Suboptimal exons have a variety of potential uses. First, suboptimal exons sometimes correspond to real exons which were missed for whatever reason by the optimal parse of the sequence. Second, regions of a prediction which contain multiple overlapping and/or incompatible optimal and suboptimal exons may in some cases indicate alternatively spliced regions of a gene (Burge & Karlin, in preparation). The probability cutoff C used to determine which potential exons qualify as suboptimal exons can be set to any of a range of values between 0.01 and 1.00. The default value on the web page is 1.00, meaning that no suboptimal exons are printed. For most applications, a cutoff value of about 0.10 is recommended. Setting the value much lower than 0.10 will often lead to an explosion in the number of suboptimal exons, most of which will probably not be useful. On the other hand, if the value is set much higher than 0.10, then potentially interesting suboptimal exons may be missed. Základy genomiky II, Identifikace genů Logo1me • Funkční význam sestřihu v nepřekládaných oblastech - důležitá regulační součást genů §Translační represe prostřednictvím krátkých ORF v 5‘UTR Predikce funkce genů in silico vyhledávání genů §Identifikováno např. u kukuřice (Wang and Wessler, 1998, viz doporučená lit.) §V případě CKI1 pokus prokázat tento způsob regulace genové exprese pomocí transgenních linií nesoucích uidA pod kontrolou dvou verzí promotoru, zatím nepotvrzeno ATGaaaagagcttttTAG M K R A F . ATGaaaagagcttttTAG M K R A F . ATGatggtgaaagttaca…. M M V K V T … ATGatggtgaaagttaca…. fig_1 Základy genomiky II, Identifikace genů Logo1me §vyhledávání genů ab inicio Predikce funkce genů in silico vyhledávání genů §programy pro genové modelování § ¨ Genescan (http://genes.mit.edu/GENSCAN.html) velice dobrý pro predikci exonů v kódujích oblastech (testováno na genu PDR9, identifikoval všech 23 (!) exonů ¨ GeneMark.hmm (http://opal.biology.gatech.edu/GeneMark/) qzohledňují také další parametry, např. návaznost ORF Základy genomiky II, Identifikace genů Logo1me Predikce funkce genů in silico vyhledávání genů Základy genomiky II, Identifikace genů Logo1me §vyhledávání genů podle homologií Predikce funkce genů in silico vyhledávání genů §porovnávání s EST databázemi § ¨ BLASTN (http://www.ncbi.nlm.nih.gov/BLAST/, http://workbench.sdsc.edu/) ¨ BLASTX (http://www.ncbi.nlm.nih.gov/BLAST/, http://workbench.sdsc.edu/) §porovnávání s proteinovými databázemi ¨ Genewise (http://www.ebi.ac.uk/Wise2/) §porovnávání s homologními genomovými sekvencemi z příbuzných druhů ¨ VISTA/AVID (http://www.lbl.gov/Tech-Transfer/techs/lbnl1690.html) o porovnávají proteinovou sekvenci s genomovou DNA (po zpětném překladu), je nutná znalost aminokyselinové sekvence Základy genomiky II, Identifikace genů Logo1me §Predikce funkce genů in silico §genomová kolinearita a genová homologie §struktura genů a jejich vyhledávání §Postupy „přímé“ a reverzní genetiky §rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Základy genomiky II. Základy genomiky II, Identifikace genů Logo1me §genomová kolinearita a genová homologie Predikce funkce genů in silico vyhledávání genů §genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích, možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích § ¨ mapování malých genomů s využitím nízkokopiových DNA markerů (např. RFLP) §obecné schéma postupu při využívání geonomové kolinearity (také „komparativní genomika“) při experimentální identifikaci genů příbuzných organizmů: ¨využití těchto markerů k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí) příbuzného organizmu ¨malý genom (např. rýže, 466 Mbp) může sloužit jako vodítko, kdy jsou identifikovány molekulární nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti jsou pak použity jako sonda při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí velkých genomů (např. ječmene nebo pšenice, 5000, resp. 16000 Mbp) Základy genomiky II, Identifikace genů Logo1me Obrázek “file:///C:/Documents%20and%20Settings/hejatko/My%20Documents/teaching/pics/comp_gen_grasses.jpeg” nelze zobrazit, protože obsahuje chyby. Feuillet and Keller, 2002 Predikce funkce genů in silico vyhledávání genů-genomová kolinearita Základy genomiky II, Identifikace genů Logo1me §genomová kolinearita a genová homologie Predikce funkce genů in silico vyhledávání genů §genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích, možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích § ¨ mapování malých genomů s využitím nízkokopiových DNA markerů (např. RFLP) §obecné schéma postupu při využívání geonomové kolinearity (také „komparativní genomika“) při experimentální identifikaci genů příbuzných organizmů: ¨vvyužití těchto markerů k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí) příbuzného organizmu ¨malý genom (např. rýže, 466 Mbp, 46-55 tis. genů) může sloužit jako vodítko, kdy jsou identifikovány molekulární nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti jsou pak použity jako sonda při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí velkých genomů (např. ječmene nebo pšenice, 5000, resp. 16000 Mbp) §zejména využitelné u trav (např. využití příbuznosti u ječmene, pšenice, rýže a kukuřice) §malé geonomové přestavby (dalece, duplikace, inverze a translokace menší než několik cM) jsou pak detekovány podrobnou sekvenční komparativní analýzou §během evoluce dochází u příbuzných druhů k odchylkám především v nekódujících oblastech (invaze retrotranspozonů atd.) Obrázek “file:///C:/Documents%20and%20Settings/hejatko/My%20Documents/teaching/pics/comp_gen_grasses.jpeg” nelze zobrazit, protože obsahuje chyby. Základy genomiky II, Identifikace genů Logo1me §Predikce funkce genů in silico §příprava genově obohacených knihoven pomocí technologie metylačního filtrování §Experimentální identifikace genů §genomová kolinearita a genová homologie §struktura genů a jejich vyhledávání §Postupy „přímé“ a reverzní genetiky §rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Základy genomiky II. Základy genomiky II, Identifikace genů Logo1me §příprava genově obohacených knihoven pomocí technologie metylačního filtrování Experimentální identifikace genů §geny jsou (větsinou!) hypometylované, kdežto nekódující oblasti jsou metylované ¨ McrBC rozpoznává v DNA metylovaný cytozin, který předchází purin (G nebo A) §využití bakteriálního RM systému, který rozpoznává metylovanou DNA pomocí rest. enzymů McrA a McrBC ¨pro štěpení je nutná vzdálenost těchto míst z 40-2000 bp §schéma postupu při přípravě BAC genomových knihoven pomocí metylačního filtrování: ¨ příprava genomové DNA bez příměsí organelární DNA (chloroplasty a mitochondrie) ¨ fragmentace DNA (1-4 kbp) a ligace adaptorů ¨ příprava BAC knihovny v mcrBC+ kmeni E. coli ¨ selekce pozitivních klonů §omezené využití: obohacení o kódující DNA o pouze cca 5-10´% Základy genomiky II, Identifikace genů Logo1me §Predikce funkce genů in silico §příprava genově obohacených knihoven pomocí technologie metylačního filtrování §Experimentální identifikace genů §genomová kolinearita a genová homologie §EST knihovny §struktura genů a jejich vyhledávání §Postupy „přímé“ a reverzní genetiky §rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Základy genomiky II. Základy genomiky II, Identifikace genů Logo1me §příprava EST knihoven §izolace mRNA §RT PCR §ligace linkerů a syntéza druhého řetězce cDNA §klonování do vhodného bakteriálního vektoru §transformace do bakterií a izolace DNA (amplifikace DNA) §sekvenace s použitím primerů specifických pro použitý plasmid §uložení výsledků sekvenace do veřejné databáze TTTTTTTTTT TTTTTTTTTT TTTTTTTTTT TTTTTTTTTT AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA Adobe Systems AAAAAAAAAA TTTTTTTTTTT Adobe Systems cctacgattatacccccaa ggatgctaatatgggggttatacaagtgtt AAAAAAAAAA Experimentální identifikace genů Základy genomiky II, Identifikace genů Logo1me §Predikce funkce genů in silico §příprava genově obohacených knihoven pomocí technologie metylačního filtrování §Experimentální identifikace genů §genomová kolinearita a genová homologie §EST knihovny §struktura genů a jejich vyhledávání §Postupy „přímé“ a reverzní genetiky §rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Základy genomiky II. shrnutí Základy genomiky II, Identifikace genů Logo1me Základy genomiky II. diskuse