Základy genomiky EH Hal MASARYK UNIVERSITY Masarykova univerzita, Laboratoř funkční genomiky a Laboratoř molekulární fyziologie rostlin pľCfllHS! Základy genomiky II, Identifikace genů Základy genomiky II. ■ Zdrojová literatura ke kapitole II: ■ Plant Functional Genomics, ed. Erich Grotewold, 2003, Humana Press, Totowa, New Jersey ■ Majoros, W.H., Pertea, M., Antonescu, C. and Salzberg, S.L. (2003) GlimmerM, Exonomy, and Unveil: three ab initio eukaryotic genefinders. Nucleic Acids Research, 31(13). ■ Singh, G. and Lykke-Andersen, J. (2003) New insights into the formation of active nonsensemediated decay complexes. TRENDS in Biochemical Sciences, 28 (464). ■ Wang, L. and Wessler, S.R. (1998) Inefficient reinitiation is responsible for upstream open reading frame-mediated translational repression of the maize R gene. Plant Cell, 10, (1733) Základy genomiky II, Identifikace genů Základy genomiky II. Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Predikce funkce genů in silico ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie Experimentální identifikace genů ■ příprava genově obohacených technologie metylačního filtrování EST knihovny knihoven pomocí ■ ■ ■ Základy genomiky II, Identifikace genů Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Základy genomiky II, Identifikace genů Základy genomiky II, Identifikace genů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis Základy genomiky II, Identifikace genů Identifikace role genu ARR21 regulátor odezvy v dvoukomponentním signálním systému Základy genomiky II, Identifikace genů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST Základy genomiky II, Identifikace genů Identifikace role genu ARR21 identifikace inzerčního mutanta vyhledávání v databázi inzerčních mutantů (SINS) Ins ert Query: Sbj ct: JLrr21: Insert Query: Sbj ct: Arr21: SIHS : "80 5 8319 1830 S IHS : 140 58379 1890 01 09 6 4 t cc t a gcgt t ca t ga gcgt a cca t a c 11 y a caana gagaa cgtagccagccat 11 acagg 139 I I I I I I I I I I I I I I I 11111 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I M I I I I I tcctagcgttcatgagcgta ccat a c11gacaagagagaacgtagccagccatttacagg 5837 8 01 09 6 4 tttgatatctcttgtcaaaa atgtttttggattttactgt 179 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I tttgatatctcttgtcaaaa atgtttttggattttactgt 58418 lokalizace inzerce dSpm v genomové sekvenci ARR21 pomocí sekvenace PCR produktů Základy genomiky II, Identifikace genů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA Základy genomiky II, Identifikace genů Identifikace role genu ARR21 analýza expresního profilu Standardní typ Inzerční mutant Základy genomiky II, Identifikace genů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA Základy genomiky II, Identifikace genů Identifikace role genu ARR21 analýza fenotypu inzerčního mutanta Analýza citlivosti k regulátorům růstu rostlin ■ 2,4-D a kinetin ■ etylén ■ světlo různých vlnových délek Doba kvetení i počet semen nezměněn Základy genomiky II, Identifikace genů Identifikace role genu ARR21 možné příčiny absence odchylek fenotypu u inzerčního mutanta • Funkční redundance v rámci genové rodiny? Základy genomiky II, Identifikace genů Identifikace role genu ARR21 příbuznost jednotlivých ARR genů u Arabisopsis Základy genomiky II, Identifikace genů Identifikace role genu ARR21 možné příčiny absence odchylek fenotypu u inzerčního mutanta • Funkční redundance v rámci genové rodiny? • Fenotypový projev pouze za velmi specifických podmínek (?) Základy genomiky II, Identifikace genů Inzerční mutageneze ve funkční genomice Arabidopsis thaliana ■ Gen ARR21 identifikován pomocí srovnávací analýzy genomu Arabidopsis ■ Na základě analýzy sekvence byla předpovězena jeho funkce ■ Byla prokázána místně specifická exprese genu ARR21 úrovni RNA ■ Inzerční mutageneze v případě identifikace funkce genu ARR21 ve vývoji Arabidopsis byla neúspěšná, pravděpodobně v důsledku funkční redundance v rámci genové rodiny Hfflí Základy genomiky II, Identifikace genů Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Predikce funkce genů in silico ■ struktura genů a jejich vyhledávání Základy genomiky II, Identifikace genů Predikce funkce genů in silico struktura genů Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ vyhled ávání genů ab inicio ■ zanedbání 5' a 3' UTR ■ identifikace počátku translace (ATG) a stop kodonu (TAG, TAA, TGA) ■ nalezení donorových (většinou GT) a akceptorových (AG) míst sestřihu ■ většina ORF není skutečně kódujícími sekvencemi - u Arabidopsis je asi 350 mil. ORF na každých 900 bp (!) ■ využití různých statistických modelů (např. Hidden Markov Model, HMM, viz doporučená studijní literatura, Majoros et al., 2003) k posouzení a ohodnocení váhy identifikovaných donorových a akceptorových míst Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ vyhled ávání genů ab inicio ■ programy pro predikci míst sestřihu (specificita přibližně 35%) □ GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene spl.html) □ SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi) Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ vyhled ávání genů ab inicio ■ programy pro predikci míst sestřihu (specificita přibližně 35%) □ GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene spl.html) □ SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi) □ NetGene2 (http://www.cbs.dtu.dk/services/NetGene2/) Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ odchylky rozpoznávání míst sestřihu u rostlin v praxi - příklad vývojové plasticity (nejen) rostlin ^^^^^^^^ • identifikace mutanta s bodovou mutací (tranzice G^A) přesně v místě sestřihu na 5' konci 4. exonu LFF istence podob stabilita mutar [rmálním stop k^e-Andersen, LFFLL 400 bn 300 bp zxjyj up 100 bp PGR, AT AA GAA GA AC GAG £-\J\J kj [._/ ľAAAAAAACGACGTCGACACACTTCAAAC ATGGAAAAG -- 300bp * - 200 bp 100 bp BspMI PmjII no spicinc EXON 4 L TLLLG PPSCGKTTLL KALSGNLENNLK -PDR exon 4 ORF - DDR_Ľ Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů vyhledávání genů ab inicio ■ programy pro predikci míst sestřihu (specificita přibližně 35%) i GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene spl.html) i SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi) i NetGene2 (http://www.cbs.dtu.dk/services/NetGene2/) programy pro predikci exonů 4 typy exonů (podle polohy): • iniciační • vnitřní • terminální a • jednoduché programy kromě rozpoznávání míst sestřihu zohledňují i strukturu jednotlivých typů exonů iniciační: □ Genescan (http://genes.mit.edu/GENSCAN.html) □ GeneMark.hmm (http://opal.biology.gatech.edu/GeneMark/) interní: MZEF (http://rulai.cshl.org/tools/genefinder/) ■ n Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů The New GENSCAN Web Server at MIT MASARYK UNIVERSITY I npimnk □ 5 h i-i, II, 'he lop Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů • Funkční význam sestřihu v nepřekládaných oblastech - důležitá regulační součást genů aaagttaca.... K V T... aaagttaca.... BamHI GAGGAGGCACAAAATGACGAA -//- TGTATTCTTTTGTTATCAAAGG0TTTCGACTTTGCTCCGA00AAO\AGATAATATCAGGATCCCCCG0GTAG0T CAGTCCCTTATGTTACGTCCTGT AGAAACCCCAACC ® R I PRV GQSL ML RPVETPT 3TTATCAAAGGCTTTCGACTTTGCTCCGA -2739 ■ GAGGAGGCACAAAATGACGAA -//- GT [A7ACAAGT ÍCACT CAAATGATGGľGAAAGT TAGAAAGCTTGTGGCTTCACGTCSSATCCCCCGGGTAGGTCAGTCCCTIATGÍ ÍACGÍ CCTGT AGAAACCCCAACC MMVKVTKLVASR R I P R V Q Q S L íl L 3 P V E T P 1 intron I exon V případě CKI1 pokus prokázat tento způsob regulace genové exprese pomocí transgenních linií nesoucích uidA pod kontrolou dvou verzí promotoru, zatím nepotvrzeno Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ vyhled ávání genů ab inicio ■ programy pro genové modelování □ zohledňují také další parametry, např. návaznost ORF □ Genescan (http://genes.mit.edu/GENSCAN.html) velice dobrý pro predikci exonů v kódujích oblastech (testováno na genu PDR9, identifikoval všech 23 (!) exonů □ GeneMark.hmm (http://opal.biology.gatech.edu/GeneMark/) Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů I_ Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ vyhledávání genů podle homologií ■ porovnávání s EST databázemi □ BLASTN (http://www.ncbi.nlm.nih.gov/BLAST/, http://workbench.sdsc.edu/) ■ porovnávání s proteinovými databázemi □ BLASTX (http://www.ncbi.nlm.nih.gov/BLAST/, http://workbench.sdsc.edu/) □ Genewise (http://www.ebi.ac.uk/Wise2/) o porovnávají proteinovou sekvenci s genomovou DNA (po zpětném překladu), je nutná znalost aminokyselinové sekvence ■ porovnávání s homologními genomovými sekvencemi z příbuzných druhů □ VISTA/AVID (http://www.lbl.gov/Tech-Transfer/techs/lbnl1690.html) Základy genomiky II, Identifikace genů Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Predikce funkce genů in silico ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ genomová kolinearita a genová homologie ■ genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích, možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích ■ obecné schéma postupu při využívání geonomové kolinearity (také „komparativní genomika") při experimentální identifikaci genů příbuzných organizmů: □ mapování malých genomů s využitím nízkokopiových DNA markem (např. RFLP) □ využití těchto markem k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí) příbuzného organizmu □ malý genom (např. rýže, 466 Mbp, 46-55 tis. genů) může sloužit jako vodítko, kdy jsou identifikovány molekulární nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti jsou pak použity jako sonda při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí velkých genomů (např. ječmene nebo pšenice, 5000, resp. 16000 Mbp) Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů-genomová kolinearita Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů genomová kolinearita a genová homologie ■ genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích, možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích obecné schéma postupu při využívání geonomové kolinearity (také „komparativní genomika") při experimentální identifikaci genů příbuzných organizmů: ■ mapování malých genomů s využitím nízkokopiových DNA markerů (např. RFLP) □ vvyužití těchto markerů k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí) příbuzného organizmu □ malý genom (např. rýže, 466 Mbp, 46-55 tis. genů) může sloužit jako vodítko, kdy jsou identifikovány molekulární nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti jsou pak použity jako sonda při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí velkých genomů (např. ječmene nebo pšenice, 5000, resp. 16000 Mbp) zejména využitelné u trav (např. využití příbuznosti u ječmene, pšenice, ^^■IfTSIAfZi malé geonomové přestavby (dalece, duplikace, inverze a translokace menší než několik cM) jsou pak detekovány podrobnou sekvenční komparativní analýzou během evoluce dochází u příbuzných druhů k odchylkám především v Q^^^H nekódujících oblastech (invaze retrotranspozonů atd.) ^M^^^H n Základy genomiky II, Identifikace genů Základy genomiky II. Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Predikce funkce genů in silico ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie Experimentální identifikace genů ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování ■ geny jsou (větsinou!) hypometylované, kdežto nekódující oblasti jsou metylované ■ využití bakteriálního RM systému, který rozpoznává metylovanou DNA pomocí rest. enzymů McrA a McrBC □ McrBC rozpoznává v DNA metylovaný cytozin, který předchází purin (G nebo A) □ pro štěpení je nutná vzdálenost těchto míst z 40-2000 bp schéma postupu při metylačního filtrování: přípravě BAC genomových knihoven pomocí □ příprava genomové DNA bez příměsí organelární DNA (chloroplasty a mitochondrie) □ fragmentace DNA (1-4 kbp) a ligace adaptorů □ příprava BAC knihovny v mcrBC+ kmeni E. coli □ selekce pozitivních klonů omezené využití: obohacení o kódující DNA o pouze cca 5-10 % Základy genomiky II, Identifikace genů Základy genomiky II. Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Predikce funkce genů in silico ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie Experimentální identifikace genů příprava genově obohacených technologie metylačního filtrování EST knihovny knihoven pomocí Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů-EST knihovny příprava EST knihoven ■ izolace mRNA ■ RT PCR ■ ligace linkerů a syntéza druhého řetězce cDNA ■ klonování do vhodného bakteriálního vektoru ■ transformace do bakterií a izolace DNA (amplifikace DNA) sekvenace s použitím primerů specifických pro použitý plasmid uložení výsledků sekvenace do veřejné databáze ggatgctaatatgggggttatacaatatcttccttatcattcatcacaagaaggatgggt cctacgattatacccccaatatgttatagaaggaatagtaagtagtgttcttcctaccca TTTTTTTTTTT AAAAAAAAAAA m Základy genomiky II, Identifikace genů Základy genomiky II. shrnutí Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Predikce funkce genů in silico ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie Experimentální identifikace genů ■ příprava genově obohacených technologie metylačního filtrování EST knihovny knihoven pomocí Základy genomiky II, Identifikace genů ■ ■ ■ Základy genomiky II. diskuse Základy genomiky II, Identifikace genů