Základy genomiky I M^éntif i kaceg^J MASARYK UNIVERSITY JairHejátko A/ Masarykova univerzita, Laboratoř funkční genomiky a proteomiky Laboratoř molekulární fyziologie rostlin f(ďpMpi m i — i Základy genomiky II, Identifikace genů Základy genomiky II. Zdrojová literatura ke kapitole II: Plant Functional Genomics, ed. Erich Grotewold, 2003, Humana Press, Totowa, New Jersey Majoros, W.H., Pertea, M., Antonescu, C. and Salzberg, S.L. (2003) GlimmerM, Exonomy, and Unveil: three ab initio eukaryotic genefinders. Nucleic Acids Research, 31(13). Singh, G. and Lykke-Andersen, J. (2003) New insights into the formation of active nonsensemediated decay complexes. TRENDS in Biochemical Sciences, 28 (464). Wang, L. and Wessler, S.R. (1998) Inefficient reinitiation is responsible for upstream open reading frame-mediated translational repression of the maize R gene. Plant Cell, 10, (1733) Základy genomiky II, Identifikace genů Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Predikce funkce genů in si li co struktura genů a jejich vyhledávání genomová kolinearita a genová homologie ■ Experimentální identifikace genů příprava genově obohacených technologie metylačního filtrování EST knihovny knihoven pomocí o ŕ/ *(* • i — Základy genomiky II, Identifikace genů Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Základy genomiky II, Identifikace genů Základy genomiky II, Identifikace genů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis II I is y RYK UNIVERSIT'' Základy genomiky II, Identifikace genů Identifikace role genu ARR21 regulátor odezvy v dvoukomponentním signálním systému output domain response regulator(s) Základy genomiky II, Identifikace genů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST Základy genomiky II, Identifikace genů Identifikace role genu ARR21 identifikace inzerčního mutanta vyhledávání v databázi inzerčních mutantů (SINS) lokalizace inzerce dSpm v genomové sekvenci ARR21 pomocí sekvenace PCR produktů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA Základy genomiky II, Identifikace genů Identifikace role genu ARR21 analýza expresního profilu Standardní typ Inzerční mutant Základy genomiky II, Identifikace genů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA Základy genomiky II, Identifikace genů Identifikace role genu ARR21 analýza fenotypu inzerčního mutanta Analýza citlivosti k regulátorům růstu rostlin 2,4-D a kinetin etylén světlo různých vlnových délek Doba kvetení i počet semen nezměněn • Základy genomiky II, Identifikace genů Identifikace role genu ARR21 možné příčiny absence odchylek fenotypu u inzerčního mutanta • Funkční redundance v rámci genové rodiny? Základy genomiky II, Identifikace genů Identifikace role genu ARR21 příbuznost jednotlivých ARR genů u Arabisopsis Základy genomiky II, Identifikace genů Identifikace role genu ARR21 možné příčiny absence odchylek fenotypu u inzerčního mutanta • Funkční redundance v rámci genové rodiny? • Fenotypový projev pouze za velmi specifických podmínek (?) Základy genomiky II, Identifikace genů Inzerční mutageneze ve funkční genomice Arabidopsis thaliana Gen ARR21 identifikován pomocí srovnávací analýzy genomu Arabidopsis Na základě analýzy sekvence byla předpovězena jeho funkce Byla prokázána místně specifická exprese genu ARR21 na úrovni RNA Inzerční mutageneze v případě identifikace funkce genu ARR21 ve vývoji Arabidopsis byla neúspěšná, pravděpodobně v důsledku funkční redundance v rámci genové rodiny o ŕ/ *(* m i — Základy genomiky II, Identifikace genů ■ ■ ■ ■ Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Predikce funkce genů in si li co struktura genů a jejich vyhledávání Základy genomiky II, Identifikace genů Predikce funkce genů in silico struktura genů ■ struktura genů promotor počátek transkripce 5'UTR Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ vyhledávání genů ab inicio zanedbání 5' a 3' UTR identifikace počátku translace (ATG) a stop kodonu (TAG, TAA, TGA) nalezení donorových (většinou GT) a akceptorových (AG) míst sestřihu většina ORF není skutečně kódujícími sekvencemi - u Arabidopsis je asi 350 mil. ORF na každých 900 bp (!) využití různých statistických modelů (např. Hidden Markov Model, HMM, viz doporučená studijní literatura, Majoros et al., 2003) k posouzení a ohodnocení váhy identifikovaných donorových a akceptorových míst Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ vyhledávání genů ab inicio programy pro predikci míst sestřihu (specificita přibližně 35%) □ GeneSplicer (http://www.tiqr.org/tdb/GeneSplicer/qene spl.html) □ SplicePredictor (http://deepc2.psi.iastate.edu/cqi-bin/sp.cqi) Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů I CC2AAT3CCTGAGATATTGTTTC:TAAAA"GAGATGATTGTTT"TA"TTA"TACCATGATTT2T"T2Ta:TAA2C"TCCTTTCCCCTTTGCAATACATAGGATATAAATTCATACATGTTCCTAATTTTATTTT What do the output columns mean? SplicePredictor. Version of February 13, 2005. Date run: Wed Nov 9 11:30:14 2005 Species: Homo sapiens Model: 2-class Bayesian Prediction cutoff [2 In[BF]): 3.00 Local pruning: on Non-canonical sites: not scored Sequence your-sequence, from 1 to 9490. Potential splice sites — -— -— H— —I—- -- -- H— H— -- -- gg:t-a:ggac-ctataacaaag^a-tttactctac-aacaaaaataaataatggtactaaa:aaa:a-^a-t:gaacgaaaggcgaaacgt-atg-atccta_atttaagtatgtacaaggattaaaataaaa p.puEI |Bglll -g:acttga^t-tatg^t-ttc-ttggtggaagatc-atat^tat:-ata-ctatat-attttact:t-ttcttcgtcgt:a-ttatag-atatta_atatatgcacacacacacacacctatatgtatagctc ACGTGAACTCAAATACCAAAAGAAACCACCTTCTAGATA"A:A"A^ATATAGATATAATAAAATGAGAAAAGAAGCAGCAGTAAATATCATATAATATATATACGTGTGTGT2TGTG"GSA"ATACATATCGAG jXbal puEi aattctagataaaatatatagaaatggatcľtgagaatcattt"tt~t2tattcttt"gttatcaaagggtttcgactttgctccgaggaagaagataatatgaaaagagcttt~tagg^t"ta~cat~ctcct "taagatctat"ttatatat:t~tacctagaact:t~ag"aaaaaaaa:a~aagaaaacaatag~ttcc:aaa^c"gaaa:gaggct:c"t:~t:tattatac"tttctcgaaaaatcc:aaatagtaagagga I. ! loc sequence _; c rhc g arr.a * p R A ■ -- 75 ttttttcgatctcAGat :) .973 7 . 16 0 0 000 7 (5 1 A ■ -- :>a attatttttctttAGtt j .999 H 6 0 0 000 7 (5 1 A ■ -- 500 :j -: :.g-._'_gLLLAGLc. :) .977 7 . ■- : .000 0 000 / fb 1 A <— a::: tctgttattgtatAGct j .986 h 6 " .000 0 000 7 (5 1 A ■ -- 848 1 -: :. -i.-il A! .-. 1 :.) .968 6. 8 C : .000 0 000 / fb 1 A ■ -- : Ľ •: 1 caatttatttttaAGaa ..) .930 19 : .000 0 000 / fb 1 A ■ -- 1213 ttatttattttttAGtt j .998 14 0 0 000 7 (5 1 A ■ -- 1373 1.1. :..c:.c:.ca . . :) .999 17 0 0 000 7 fb 1 A ■ -- 1487 tttatatattgatAGtg :) .883 : 4 : 0 000 y fb 1 A <— 1581 atgtgttgcttgtAGga :) .982 8. ..: :í :.. 0 000 / fb 1 A <— 1781 ggttgtgcgaaatAGgg :) .886 : 10 0 0 000 / fb 1 A . __ 2440 taattaaaaatttAGat j . - 3 - 4 6 : .000 0 000 v fb 1 A ■ -- 2479 catctaaaattttAGat j .942 b 9 : .000 0 000 y fb 1 Ľ -----> 2546 aagGTagta :) .909 : &: 0 .885 . 903 15 fb b A <— 2572 ttttttttttggcAGca :) .930 16 0 0 000 y fb 1 A <---- 2763 ctcaaattcacaaAGgt :) .873 H 6 : .185 0 000 11 fb b A 2782 tttcgttttcattAGcg j .952 'a : .220 0 000 11 fb b A <---- 3022 tttgtttgtactaAGct :.] .956 6. 16 : .221 0 000 11 fb b A <---- 3048 ctttgcaatacatAGga :.] .973 7 . i;- : .229 0 000 11 f b b A ■ -- 3171 cgtcgtcatttatAGta :) .988 8 . /4 . 000 0 000 f b 1 A el:.. ■} .-i ::h-■-.<'■::) 0 :«.;. ■ H f b 1 L ----- 2 ;. 0 2 ■■ í b pegľ Bcgl |Sr - 029311b_low-Hsal ■ ~gac~t tgcaaaacgtí g:actt~gatcgt"gtactt~gttgct"tttatacgta~c^c~tcctacaataa^t~aacaatgct~c:tcgtagaa"t^caaaacat~tg"g^ac:g~gat~tacat ■actgaaacgttttgcac ccgtgaaactagcaacatgaaacaacgaaaaa_atgcatagcgaaggatgttattcaattgttacgaaggagcatcttaa:gttt~gtaaacagctggcactaaatgta jSad pi ■ga:tga2ct:t"ttca2tgg:t~:t"t^cagcag:t~ct"c:t"g^ag2actaatcaagacagaaatc~2T"c:tctaaaaacgatcgccgti ■ g ■ ucttgccattcttgacgagtcttgatctttaga ■ ctgactcgagaaaagtcaccgaagaaa:g"cg~c2aagaag2aac:~c:tgat"a^t"ctgt:t~taga:aag2agat~tttgctagcggcaagatccattagaacggtaagaactgctcagaactagaaatct aľ,ľ,ľ,ľ, j vri in v j vimťi n iv lui nitiii D TARF.K 1 1 PS\\ ,BSSSI ASvl 1_ aatttataagggatca:ga^a~a:acgtattaattatta~tt~ttt~tt~tttgctttttgtggtt -taaata~t:cctagt^c~:tat^tgcaaaat~aa~aataaaaaaaaaaaaaacgaaaaaca:caata' ľmg BI lT"CAC"CAAATGATGGTGAAAGTTACAAAGCTTGTGGCTTCACGTCCAATTGTGGTC fCAAGTGAGTTTACTACCACTTTCAATGTTTCGAACACCGAAGTGCAGGTTAACACCAG L; . - : : l L 1 ; 0 000 848 11 5 "~~ IMMMMMMMMMt : . JU IIIII • - 111111í _ IIIII ■ . . ■ A j ,. 12 8 2 000 1 .-. A ■ -- 4351 tttcttacattgcAGaa 0 991 9 ,2 000 0 000 y fb 1 1 A <— 4633 gtcttgtttctttAGgg 0 879 :í y y 0 000 0 000 / fb 1 1 A <— 4976 cttgttgtttctcAGct 952 5 A 0 000 0 000 / fb 1 1 A ■ -- 5004 L 1-'-".'.'-'..gcoACag 0 996 17 000 0 000 y fb 1 1 L; ----> 5356 0 821 :í y 4 0 387 0 000 ii fb b 1 L; ----> 5384 ■ :. ..• , 0 941 5 54 0 478 0 090 13 fb b A ■ -- 5403 ac:.c ;.g-..'.-..cLLA.AGcL 0 894 4 21 000 0 000 y fb 1 1 A 5441 c u. :.c ;.c..c..aacAGaa 0 995 :c ■-. 387 0 000 ii (5 b 1 A <---- 5472 ttgttaaaattacAGct 96b 6 6 2 478 0 090 13 fb b j L; -----> 5745 gcgGTaaga 991 9 990 : 956 i.b fb b b A <---- 5808 catcatatcctaaAGgt 0 948 b ěí:í 0 458 0 000 íi (5 b 1 A <---- 6135 ggtctattattatAGgt 0 999 ::í 59 0 508 0 050 12 fb b 2 A ■ -- 6 b b 2 ggattttcacctcAGag 938 b 42 000 0 000 / f b 1 1 "TTTGCGTC:TGGTAATTCTGC~TTCTTTCTTCTAAATTATACGATGATTCTACATTTCTACTCATCTCGT"CTTGTT"TTCAAA"GATATAATTA"TGTGTG"ATAT:ACC:A"TCATGTATA"TTA"TGAAA -■ ■ I ■ ■ ■ ■ l ■ ■ ■ ■ I--'--H---—-H---—+----—H---,-^-h-~-h--H--^-""-H-i-"l—l-■---'-----2Sou I 1A AAA C G L A G j A l Ĺ A T T A A G A Z G A A AG A A A G A A G A T T ~ AA ~ A T G l T AC TAA G A T G ľ AA A GA T GAG ~ A :jA G L A A GAA C AA A A AGT TT A C T A T A T T A AT A AC A C AC A ľ AT AG T G GGT AAG ~ A L A ~ A T AAA T A Al ~ T T ?-^ 1^—exon 4 —1 BO II B: _tatat:cgtaagsac:accaacaaaa^c~cacgtaaacctagagt~taacc^cttg~t^tt^cct:t~^gat:agtt"ctccagcgaagtaaatggcttctagaggcctgttcagatcaaagcctctaacttt ,aflvvvfeciwisnwrtttenlvkevasftedlr"3lvse i e Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ vyhledávání genů ab inicio programy pro predikci míst sestřihu (specificita přibližně 35%) □ GeneSplicer (http://www.tiqr.org/tdb/GeneSplicer/qene spl.html) □ SplicePredictor (http://deepc2.psi.iastate.edu/cqi-bin/sp.cqi) □ NetGene2 (http://www.cbs.dtu.dk/services/NetGene2/) Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů Prediction done ********************* NetGene2 v 24 **- The sequence: Sequence has the following c Length: 9490 nucleotides. 31.8% A, 17.0% C, 19.6% G, 31.7% T, 0.0% } Donor splice sites, direct strand pos 5r->3' phase strand c 1704 0 + K'c 0 + :-,hb.2. : + 4134 0 + 4619 1 + 4915 0 + 5356 0 + 5384 1 + 5809 1 + 6057 0 + 6096 1 + 7369 0 + 7886 0 + 9323 0 + Donor splice sites, complement strand pos 3'->5' pos 5'->3' phase strand c Acceptor splice sites, direct strand pos 5 1 ->31 phase strand con 1213 0 + 1221 2 + 1373 ľ + 14J7 1 liiiiiiilllllll ■ ■ ■-. 2 b ■-. liiiiiiiiiiiiiil c: + 4 b 32 2 + 5:kk ľ + 5472 L + 6135 C + 6490 : + • ; ľ + 7 4 47 c; + 77» j 2 + 7786 2 + I ccjäAT jCCTGagatat tgt T tcc taaaa~gágatgAT TGT t t~ta~T tä~taccatgat tt jT~T jTAlľ TaajC~TCCT T tcccct T tgcaatac ATaggatATaäat tcatácatgt tcctäat t T~at~t t I ggcttacggactctataacaaaggattttactctactaacaaaaataaataatggtactaaa:aaa:a"ga"t:gaaggaaaggggaaacgt"atgtatcctatatttaagtatgtacaaggat"aaaataaaa "g:acttga2T"tatg^t"ttc"ttggtggaagatc"atat^tat:"ata"ctatat"attttact:t"ttcttcgtcgtca"ttatag"atatta"atatatgca-;a:/-\a;:a-.acac:tata"gta"agct: CENTERFO RB10LO&I CALSEQU ENCEANA LYSIS CBS .7.-1 iľ:."t^:--r™-ía iai 4GCAGTAAA_ATCATA_AATATATATACGTGT2TGTSTGTG_G2A~ATACATATCGA2 it-t^c-ccga^caa.aa^a'aatatgaaaagagcttt-tagg^t-ta-cat-ctcct saaa:gaggct:c"t:_t:tattatac"tttctcgaaaaatcccaaatagtaagagga CBS » Prodic.Lioi i Servers » NctGenc2 NetGene2 Server — 029311b_low-1 1-Xho67-1 JHpal 4TAAST"AACAATGCT"C:TCGTAGAA"T^CAAAACAT"TG"GGAC:G"GAT"TACAT rATTCAATTGTTACGAAGGAGCATCTTAA:GTTT-gtaaacac:TG^cactaaatgta The NetGene2 server is a service producing neural network predictions of splice sites in human, C. ologans and A. thaliai ^vul Instructions Output format Abstract Performanc rAAMACGA_CGCCGTTqil3^ SUBMISSION Submission of a local file with a single sequence: File in FA5TA format_| Browse.." I ® Human Cc. elegans Ca. thaliana . v. a ac t ag a a a" c t |Hinülll pel ;t~cac~caaatgatsgtsaaa3ttacaaagcttgtggcttcacgtccaattgtggtc :aagtgagtttactaccactttcaatgtttcgaacaccgaagtgcaggttaacaccag VTKLVAERP ] vv t_ttcaaa-gatataatta"títgtg"atat:acc:a"tcatgtata-tta_tgaaa iAAAAG~T tacta_at_aataacacacatatagtgggtaagtacatataaataacttt Submission by pasting a single sequence: Sequence name (J Human Cc. elegans •>a. thaliana Sequence GAG GAG GC ACAAAAT GACGAATATACAAAATGATCTTAAACAGC TAAACTATAT TGGACATTTTTTCGATC TCAGATATA AAAGATTTCATTCAATATAATACTTGGATAAATACTCTTATTATTTTTCTTTAGTTTATTAAAAAAAACCT CTAATAAAT ACGAGTTTAAGTCCACAAAATC GC T TAGACTAAAATACAC CATATAATTTCAAAC GATAAAGTTTAC7AAAA [ Clear fields"^ |~Sc":-l fi NOTE: The submitted sequences are kept confidential and will be erased immediately after processing. Kg II Bssb iAAGAGGTCGCTTCAT~TACCGAAGATCT;CGjACAAG";TAGT T~;GGA5A~TGAAA t_ctccagcgaagtaaatggcttctagaícc:tgttcagatcaaagcctctaacttt kevasftedlrtslvseie 0.92 TC AG AT AC A G ■"■ AAC ACÄTGCA Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ odchylky rozpoznávání míst sestřihu u rostlin v praxi - příklad vývojové plasticity (nejen) rostlin identifikace mutanta s bodovou mutací (tranzice G—>A) přesně v místě sestřihu na 5' konci 4. exonu Bsml /jwNI PflMI bpml PflMI Asd Pbil ■I.........h ■I...... +++ ■I.........I' +++ (^03CITAATGITIUÄCAATA C * Ä* ľ! ft £ P.T." ? A' 13 A X 2GA\Cľ^A2 £ i? ľ ftř P 3 ^CIirtXTIGACCACTTG^ CTGCGAATTACAAAť . O PDR_U1a/PDR_L1 wt pisl PDR_U1b/PDR_L1b wt pisl GACGCTTAATGTTTI X3GTCCTTCCAATCATCAACAGAGGATTGATCAAAACTAGTTTCAAAATATGGAAGTTCACACGA L F F — m TA TT CTT CT TGC TG istence podobí stabilita mutar jrnálním stop IkRe-Andersen, L F F L L -no splicing 500 bp 400 bn /ch mechaniz e^z/iikem pn íukafyot, viz — i i k p g : JCCAGGAAGGTTAGTAGTTG- . =-50-55nt Active NM D complex j - 500 bp I. 4oc bp \-» ■ - 300bp R u V V 1 j I K V -no splicing — ———' 300 bp ATAAGAAGAACGAC. — 200 b P TAAAAAAACGACGTCGACACACTTCAAACATGGAAAAG 200 bp 100 bp Vľ TT TTT TG CTGCAGCTGT GTGAAGTTTG TAC CT TTT C 100 bp ______► ■■■■■ 14 7 1653 3CTGTTC - EXON 4 LTLLLGťťSCGKTTLLKALSGJMLtíJMJMLK -PDR exon 4 ORF - PDR_L1 Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů vyhledávání genů ab inicio programy pro predikci míst sestřihu (specificita přibližně 35%) □ GeneSplicer (http://www.tiqr.org/tdb/GeneSplicer/qene spl.html) □ SplicePredictor (http://deepc2.psi.iastate.edu/cqi-bin/sp.cqi) □ NetGene2 (http://www.cbs.dtu.dk/services/NetGene2/) programy pro predikci exonů □ 4 typy exonů (podle polohy): iniciační vnitřní terminálni a jednoduché □ programy kromě rozpoznávání míst sestřihu zohledňují i strukturu jednotlivých typů exonů iniciační: □ Genescan (http://qenes.mit.edu/GENSCAN.html) □ GeneMark.hmm (http://opal.bioloqv.qatech.edu/GeneMark/) interní: □ MZEF (http://rulai.cshl.org/tools/qenefinder/) o ŕ/ *(* • i — Základy qenomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů The New GENSCAN Web Server at MIT "his truc "his he w >rogi e.g., )rga iequ 'rint Jplo GENSCANW output for sequence CKI1 GENSCAN 1.0 Date run: lO-Nov-105 Time: 02:24:26 Sequence CKI1 : 9490 bp : 36.53% C+G : Isochore 1 (0-43 C+G%) Parameter matrix: Arabidopsis,smat Predicted genes/exons: Gn.Ex Type S .Begin ...End .Len Fr Ph l/Ac Do/T CodRg P.... Tscr.. 1 1 GO 01 Prom In it + + 1497 3-703 1536 40 3764 57 2 0 63 51 -3 . 85 37 0.499 4 . 03 1 1 02 03 In t r In tr + 3894 4255 4133 240 2 0 4914 660 0 0 -3 8 6 59 327 0,713 17.32 296 0.771 22.57 1 0 4 Intr + 5005 5383 379 0 1 70 91 343 0.772 31 .41 1 05 Intr + 5473 6056 584 2 2 38 99 582 0.722 50.76 1 06 Intr + 6136 7368 1233 0 0 68 108 655 0.977 56.86 1 07 Term + 7448 A T TR ■31-3 n Q Q Q 11 fiR 1 08 PlyA + 7910 GENSCAN predicted genes in sequence 02:56:23 2 2 03 02 PlyA Term - 7976 8793 2 01 Init - 9253 Suboptimal exons with Exnum Type S .Begin . /MIX III/ : with >rowse — uorf- /-lindlll I 9julfel :•! A, 5.001 Init 5.002 Init 5.003 Intr 5.004 Intr 5.005 Intr 5.006 Intr 1867 2374 3894 4352 5005 5442 |ACG, GTAATATCC IAAGTATCTCATAGTCAACATATATATAC GTATCTTAT J '1 '1 I'GGG ľGG GAG'l GG ľ GAG ľGG IGTTTTAGAT iagaacaaaataagtgt c c gaaggaat gl Iaataaaaac - salk_057881 (l) (q)sal k_057881 - To have the results mailed to you. 110 ^^^^^^^^^^^^m________________________________________________________________I Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů • Funkční význam sestřihu v nepřekládaných oblastech - důležitá regulační součást genů aaagttaca.... K V T ... aaagttaca.... V případě CKI1 pokus prokázat tento způsob regulace genové exprese pomocí transgenních linií nesoucích uidA pod kontrolou dvou verzí promotoru, zatím nepotvrzeno Predikce funkce genů in silico vyhledávání genů ■ vyhledávání genů ab inicio programy pro genové modelování □ zohledňují také další parametry, např. návaznost ORF □ Genescan (http://genes.mit.edu/GENSCAN.html) velice dobrý pro predikci exonů v kódujích oblastech (testováno na genu PDR9, identifikoval všech 23 (!) exonů □ GeneMark.hmm (http://opal.biologv.gatech.edu/GeneMark/) Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů mí o * S r* t Result of last submittal: View PDF Graphical Output (icncMark.ilmm Listing Go to: Gene.Mark.hmm Protein Translations Go to: Job Submittal GeneMark.hmm (Version 2.2a) Sequence name: Thu Nov 10 03:24:47 EST 2005 Sequence length: 94 90 bp G+C content: 36,53% GeneMark.hmm prediction Matrix: Homo sapiens Thu Nov 10 03:24:48 2005 Predicted genes/exons Thu Nov 10 03:23:47 EST 2005, Order 5, Window 96, Step 12, 4/6 Gene Exon Strand Exon # # Type Ifvl Jj ľ 11 / 1 \ y i i ľ i fv _ + Internal + Internal + Internal + Internal + Terminal Terminal Initial :;4 4 é: • 744 778 be:;-; o9 3 Z Generate PDF graphics (sere CI Generate PostScript graphic § r Print GeneMark 2.4 predlctk | r~ Translate predicted genes ir£ J_L_I J\_I_lA I ■ I_L J_L__I_L í ./ r A J 1 1,1 1 1 ,1 1 1 , ,1 _ ,14 i , 1 .Ul 1, / \ i i 1 1,1 1,1 1, 1 ,1 K , 1A 1 , 1 1, 1 , 4400 rJ\ \ f\ \ , \ !\. 1 4800 5200 5 600 6000 1., ,. ,/I ,h f \ ' ' "tl ^ 1 I.I .1 ^ 1 ill, 1 ,1 5200 5600 Nucleotide Position A Základy genomiky Predikce funkce genů in silico vyhledávání genů vyhledávání genů podle homologií porovnávání s EST databázemi □ BLASTN (http://www.ncbi.nlm.nih.gov/BLAST/, http://workbench.sdsc.edu/) porovnávání s proteinovými databázemi □ BLASTX (http://www.ncbi.nlm.nih.gov/BLAST/, http://workbench.sdsc.edu/) □ Genewise (http://www.ebi.ac.uk/Wise2/) o porovnávají proteinovou sekvenci s genomovou DNA (po zpětném překladu), je nutná znalost aminokyselinové sekvence porovnávání s homologními genomovými sekvencemi z příbuzných druhů □ VISTA/AVI D (http://www.lbl.gov/Tech-Transfer/techs/lbnl1690.html) o & Mí 3 í Základy genomiky II, Identifikace genů Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Predikce funkce genů in si li co struktura genů a jejich vyhledávání genomová kolinearita a genová homologie Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ genomová kolinearita a genová homologie genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích, možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích obecné schéma postupu při využívání geonomové kolinearity (také „komparativní genomika") při experimentální identifikaci genů příbuzných organizmů: □ mapování malých genomů s využitím nízkokopiových DNA markem (např. RFLP) □ využití těchto markem k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí) příbuzného organizmu □ malý genom (např. rýže, 466 Mbp, 46-55 tis. genů) může sloužit jako vodítko, kdy jsou identifikovány molekulární nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti jsou pak použity jako sonda při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí velkých genomů (např. ječmene nebo pšenice, 5000, resp. 16000 Mbp) MASARYK UNIVERSIT"' Základy genomiky II, Identifikace genů Základy qenomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ genomová kolinearita a genová homologie genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích, možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích obecné schéma postupu při využívání geonomové kolinearity (také „komparativní genomika") při experimentální identifikaci genů příbuzných organizmů: □ mapování malých genomů s využitím nízkokopiových DNA markem (např. RFLP) □ vvyužití těchto markerů k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí) příbuzného organizmu □ malý genom (např. rýže, 466 Mbp, 46-55 tis. genů) může sloužit jako vodítko, kdy jsou identifikovány molekulární nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti jsou pak použity jako sonda při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí velkých genomů (např. ječmene nebo pšenice, 5000, resp. 16000 Mbp) zejména využitelné u trav (např. využití příbuznosti u ječmene, pšenice, rýže a kukuřice) malé geonomové přestavby (dalece, duplikace, inverze a translokace menší než několik cM) jsou pak detekovány podrobnou sekvenční komparativní analýzou ■ během evoluce dochází u příbuzných druhů k odchylkám především v nekódujících oblastech (invaze retrotranspozonů atd.) Základy genomiky II, Identifikace genů Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Predikce funkce genů in si li co struktura genů a jejich vyhledávání genomová kolinearita a genová homologie ■ Experimentální identifikace genů příprava genově obohacených knihoven pomocí technologie metylačního filtrování o ŕ/ *(* • i — Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování geny jsou (většinou!) hypometylované, kdežto nekódující oblasti jsou metylované využití bakteriálního RM systému, který rozpoznává metylovanou DNA pomocí rest. enzymů McrA a McrBC □ McrBC rozpoznává v DNA metylovaný cytozin, který předchází purin (G nebo A) □ pro štěpení je nutná vzdálenost těchto míst z 40-2000 bp schéma postupu při přípravě BAC genomových knihoven pomocí metylačního filtrování: □ příprava genomové DNA bez příměsí organelární DNA (chloroplasty a mitochondrie) □ fragmentace DNA (1-4 kbp) a ligace adaptorů □ příprava BAC knihovny v mcrBC+ kmeni E. coli □ selekce pozitivních klonů omezené využití: obohacení o kódující DNA o pouze cca 5-10'% m i — Základy genomiky II, Identifikace genů Základy genomiky II. Postupy „přímé" a reverzní genetiky rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Predikce funkce genů in si li co struktura genů a jejich vyhledávání genomová kolinearita a genová homologie Experimentální identifikace genů příprava genově obohacených technologie metylačního filtrování EST knihovny knihoven pomocí o ŕ/ *(* • i — Základy qenomiky II, Identifikace genů Predikce funkce genů in si li co vyhledávání genů-EST knihovny příprava EST knihoven izolace mRNA RT PCR ligace linkerů a syntéza druhého řetězce cDNA klonování do vhodného bakteriálního B^BJJ^äBBMBIií^^^^^^^^^^^^^B vektoru ^^^EÍÍÍSHH^^^^^^^^^^^^^^^I transformace do bakterií a izolace DNA (amplifikace DNA) ggatgctaatatgggggttatacaatatcttccttatcattcatcacaagaaggatgggt sekvenace s použitím _^ cctacgattatacccccaatatgttatagaaggaatagtaagtagtgttcttcctaccca primerů specifických pro _ — ~ ttttttttttc: — použitý plasmid uložení výsledků sekvenace ^^^^ do veřejné databáze Základy genomiky II, Identifikace genů Základy genomiky shrnutí Postupy „přímé" a reverzní genetiky rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Predikce funkce genů in si li co struktura genů a jejich vyhledávání genomová kolinearita a genová homologie ■ Experimentální identifikace genů příprava genově obohacených technologie metylačního filtrování EST knihovny knihoven pomocí o ŕ/ *(* • i — Základy genomiky II, Identifikace genů ■ Základy genomiky II. diskuse Základy genomiky II, Identifikace genů