CG020 Genomika UMI S C I Přednáška 1 Identifikace genů Jan Hejátko Funkční genomika a proteomika rostlin, Středoevropský technologický institut (CEITEC) a Národní centrum pro výzkum biomolekul, Přírodovědecká fakulta, Masarykova univerzita, Brno hejatko(5)sci. muni.cz, www.ceitec.eu ™ Literatura ■ Zdrojová literatura ke kapitole 2 ■ Plant Functional Genomics, ed. Erich Grotewold, 2003, Humana Press, Totowa, New Jersey Majoros, W.H., Pertea, M., Antonescu, C. and Salzberg, S.L. (2003) GlimmerM, Exonomy, and Unveil: three ab initio eukaryotic genefinders. Nucleic Acids Research, 31(13). ■ Singh, G. and Lykke-Andersen, J. (2003) New insights into the formation of active nonsensemediated decay complexes. TRENDS in Biochemical Sciences, 28 (464). ■ Wang, L. and Wessler, S.R. (1998) Inefficient reinitiation is responsible for upstream open reading frame-mediated translational repression of the maize R gene. Plant Cell, 10, (1733) ■ de Souza et al. (1998) Toward a resolution of the introns earlyylate debate: Only phase zero introns are correlated with the structure of ancient proteins PNAS, 95, (5094) ■ Feuillet and Keller (2002) Comparative genomics in the grass family: molecular characterization of grass genome structure and evolution Ann Bot, 89 (3-10) ■ Frobius, A.C., Matus, D.Q., and Seaver, E.C. (2008). Genomic organization and expression demonstrate spatial and temporal Hox gene colinearity in the lophotrochozoan Capitella sp. I. PLoS One 3, e4004 ^CEITEC Osnova Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Identifikace genů ab initio ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie Experimentální identifikace genů ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování ■ EST knihovny ■ přímá a reverzní genetika Osnova Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů jejich funkcí Přímá vs. reverzní genetika Revoluce v chápání pojmu genu Přístupy „klasické" genetiky „Reverzně genetický" přístup 5TTATATATATATATTAAAAAATAAAATAA Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis 6 .i^CEITEC Identifikace role genu ARR21 Recent Model of the CK Signaling via Multistep Phosphorelay (MSP) Pathway Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST 8 .i^CEITEC Identifikace role genu ARR21 - izolace inz. mutanta vyhledávání v databázi inzerčních mutantů (SINS) InsertS IIIS : 01 09 64 Query: 80 t cct a gcgt t cat ga gcgt a ccat a et t ga caana gagaa cgt agccagc cat 11 acagg 139 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 5 8319 tcctagcgttcatgagcgtaccata ettgacaagagagaacgtagccagccat11acagg 5837 8 Axr21: 1830 InsertSIHS: 010964 Query: 140 tttgatatctcttgtcaaaaatgtttttggattttactgt 179 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 5 8379 tttgatatctcttgtcaaaaatgtttttggattttactgt 58418 Arr21: 1890 lokalizace inzerce dSpm v genomové sekvenci ARR21 pomocí sekvenace PCR produktů atg| D2 D1 K W 1727 bp 1728 bp 16k-16p Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA 10 .i^CEITEC Identifikace role genu ARR21 - analýza exprese Standardní typ Inzerční mutant 11 .i^CEITEC Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA • Analýza fenotypu inzečního mutanta 12 .i^CEITEC Identifikace role genu ARR21 - analýza fenotypu mutanta Analýza citlivosti k regulátorům růstu rostlin 2,4-D a kinetin etylén světlo různých vlnových délek 100 30 o) 10 Q l Doba kvetení i počet semen nezměněn \ľ O sř » 3 10 30 100 300 1000 kinetin ■ ľ1 ££2>(=EEITEEC= Identifikace role genu ARR21 - příčiny absence fenotypu Funkční redundance v rámci genové rodiny? Identifikace role genu ARR21 - příbuznost ARR genu Legenda: □ AitR-A ■ AitR-B O nalezena alespoň jedna EST \ I .—, i-.n-J Identifikace role genu ARR21 - příčiny absence fenotypu Funkční redundance v rámci genové rodiny? Fenotypový projev pouze za velmi specifických podmínek (?) Identifikace role genu ARR21 - shrnutí Gen ARR21 identifikován pomocí srovnávací analýzy genomu Arabidopsis Na základě analýzy sekvence byla předpovězena jeho funkce Byla prokázána místně specifická exprese genu ARR21 na úrovni RNA Identifikace funkce genu pomocí inzerční mutageneze v případě ARR21 ve vývoji Arabidopsis byla neúspěšná, pravděpodobně v důsledku funkční redundance v rámci genové rodiny Osnova Identifikace genů ab initio ■ struktura genů a jejich vyhledávání Sestřih RNA 5 splice 5 site exon 4 intron 3' splice site 3' enon conserued regions 20 ££2><=EEITEEC= Identifikace Genů Ab Initio zanedbání 5' a 3' UTR ■ identifikace počátku translace (ATG) a stop kodonu (TAG, TA A, TG A) ■ nalezení donorových (většinou GT) a akceptorových (AG) míst sestřihu ■ využití různých statistických modelů (např. Hidden Markov Model, HMM, viz doporučená studijní literatura, Majoros et al., 2003) k posouzení a ohodnocení váhy identifikovaných donorových a akceptorových míst 21 ££2>(=EEITEEC= Predikce míst sestřihu programy pro predikci míst sestřihu (specificita přibližně 35%) □ GeneSplicer (http://www.tiqr.org/tdb/GeneSplicer/qene spi.html) □ SplicePredictor (http://deepc2.psi.iastate.edu/cqi-bin/sp.cqi) SplicePredictor „ „„ _ Bioinformatics 2 ~ , . . . _ . . . „ ,. ^. , BCB JD ISU Download Help Tutorial References Contact SplicePredictor - a method to identify potential splice sites in (plant) prc-mRNA by sequence inspection using Bayesian statistical models (click here to access the older method using logitlincar models) Sequences should be in the one-letter-code ({a,b,c,g,h,k,ni,n,r,s,t,u,\v,y}), upper or lower case; all other characters are ignored during input. Multiple sequence input is accepted in FAST A format (sequences separated by identifier lines of the form ">SQ;name_of_sequcnce comments") or in C en Bank format. Paste your genomic DNA sequence here: gaggaggcacaaaatgacgaatatacaaaatgat c ttaaagaggtaaactatat tggacattttttcgat ct cagatata aaagatttcattcaatataatacttggataaatactcttattatttttctttagtttattaaaaaaaacctctaataaat acgagtttaagtccacaaaatcgcttagactaaaatacaccatataatttcaaacgataaagtttacaaaagtaatatcc aagtatgtcatagtcaacatatatatagtaataat tagt t gag gtataagaaaataaaaataaataaat tagtatcttat tttgggtggtgctgactggtgactggtgactgcagaatgctcggcaaatggaaccatatcccaagacatgggttttagat ... or upload your sequence file (specify file name): \ Browse.. ... or type in the Gen Bank accession number of your sequence: 23 ^CEITEC SplicePredictor What do the output columns mean? SplicePredictor. Version of February 13, 2 005. Date run: Wed Nov 9 11:30:14 2005 Species: Mode1: Prediction, cutoff (2 In [BF] ) : Local pruning: Non-canonical si tes: Homo sapiens 2-class Bayesian 3.00 on not scored your-sequence, from 1 to 9490. Potential splice sites CCSAAT jCCTGAGATATTGT TTCII TAAAA~GÁGATGAT TGT T T~TA~T TA_TACCATGAT TT jT_T STAC TAAjC~TCCT TTCCCCT T TGCAATACATAGGATATAÄATTCATACATGT TCCTAAT TT~AT~T T GG:T"A:GGAC"CTATAACAAAG2A"TTTACTCTAC"AACAAAAATAAATAATGGTACTAAACAAACATGATTCGAASGAAAGGGGAAACGTTATSTATCCTATATTTAAGTATGTACAAGGATTAAAATAAAA BpuEl Bglll "G:ACTTGA^T"TATGiT"TTC"TTGGTGGAAGATC"ATAT^TAT:_ATA"CTATAT"ATTTTACT:T"TTCTTlGTCGT:A"TTATAG"ATaTTA"ATATATGlAlA:ACA:ACAlAi::TaTA"GTA"AGCT: ACGTGAAlTCAAATACCAAAAGAAACCACCTTCTAGATATACATAGATATAGATATAATAAAATGAGAAAAGAAGCASCAGTAAATATCATATAATATATATACGTGTGTGTGTGTGTGGATATACATATCGAG AATTCTAGATAAAATATATAGAAATGGATCTTGAGAATCATTTTTTTTGTATTCTTTTGTTATCAAASG3T"T:GACT"T2C"CCGA2GAAGAAGATAATATGAAAAGAGCTTT"TAGG3T"TA"CAT"CTCCT TTAAGATCTATTTTATATATtTTTACCTAGAACTtTTAGTAAAAAAAAtATAAGAAAACAATAGiTTTCCCAAAGCTGAAAtGiAGGCTCCTTCTTtTATTATACTTTTCTCGAAAAATCCCAAATAGTAAGAGGA < R A -uORF- 1. • loc sequence rho g arj3.a * 3 3 >G* a <— 75 ttttttcgatctcAGat 'J 973 7 13 3 333 0 000 7 ;5 i 1) A <— ::;í attatttttctttAGtt 0 14 86 3 33 0 000 7 (5 i 1) A <— 500 gattttgttgtttAGtc 0 977 7 48 3 ooc 0 000 7 i 1) R <— ■/«:_: tctgttattgtatAGct 0 986 3 56 3: ooc 0 000 7 -.!-■ i 1) A <— 346 tattttttgaaatAGat 0 968 6 80 3 ooc 0 000 7 [5 i 1) A <— 1051 =aatttatttttaAGaa 'J 93C 5 19 3 33 3 0 000 7 : 3 i 1 R <— 32 33 ttatttattttttAGtt 0 998 12 14 0 33 3 D ccc 7 [5 i 1 A <— 1373 tttcctctctcacAGga 'J 999 13 17 3 33 3 0 000 7 : 3 i 1) A <— 14:-: ■ tttatatattgatAGtg 0 883 4 34 0 33 3 3 000 7 (5 i 1) A <— 1581 atgtgttgcttgtAGga 'J 982 3 03 3 33 3 0 000 7 :5 i 1) A <— : '81 ggttgtgcgaaatAGgg 0 886 4 10 0 33 3 3 000 7 (5 i 1 A <— 2440 taattaaaaatttAGat 0 939 5 46 3 ooc 3 000 7 : 3 i 1 A <— 2479 catctaaaattttAGat 0 942 5 59 3: ooc D 000 7 :5 i 1 3 ---> 2546 aagGTagta 0 90S 4 61 3 885 1 903 15 : 3 3 5; A <— 2572 ttttttttttggcAGca 'J 93C 5 13 3 33 3 0 000 7 : 3 1 i A ---- 2763 ctcaaattcacaaAGgt 0 873 3 86 0 185 3 ccc 11 [5 '-. i A < ---- 2782 tttcgttttcattAGcg 'J 952 5 96 3 32 3 D 000 11 : 3 3 i A ---- ic22 tttgtttgtactaAGct 0 9.- 6 16 0 221 3 000 11 (5 '-. i A ---- 3046 =tttgcaatacatAGga 0 973 7 1:. 3 229 3 000 11 (5 3 i A <— 3171 "gtcgtcatttatAGta 0 988 3 74 0 33 3 3 000 7 (5 1 i) A ť--- 3234 cttttgttatcaaAGgg 'J 993 10 03 0 33 3 0 006 3 (3 1 21 D ---> 3372 aatGTaagg 3 933 5 28 0 855 1 849 15 (5 5 ^| A ---- 3451 act grl 1 crA rn\ AGaa 0 91 6 4 3 3 n 293 0 065 1 7 f 3 3 3 ) A 3581 cgatcgccgttctAGgt 0 850 3 47 0 000 0 ■ (5 1 D -- —> 3 6 4 3 cacGTatta 3 933 5 25 0 33 3 1 343 11 (5 1 31 A --- 4254 attattgttottcAGat 3 998 32 82 3 33 3 3 002 8 ( 3 1 2) A <— 4351 tttcttacattgcAGaa 0 991 9 42 3 ooc 3 000 7 1 1 A <— 4633 gtcttgtttctttAGgg 0 879 3 9 33 3 3 000 7 (5 1 1 A <— 4976 cttgttgtttctcAGct 0 952 5 9E 0 33 3 3 ccc 7 [5 1 1 A <— 04 ttttttttttgccAGag 0 996 11 17 3: ooc D 000 7 :5 1 1) D — —> 5356 caaGTgaat 0 821 3 04 3 387 3 000 11 [5 '-. 1 C — —> 5384 ttgGTaaga 3 941 5 54 3 4 IS 0 090 1: : 3 3 A <— 5403 actctgtttctttAGct 0 894 4 26 0 33 3 3 ccc 7 [5 1 1) A < ---- 5441 ^tttctctctaacAGaa 0 995 10 43 3 387 3 ccc 11 :5 3 1 A ---- 5 4 72 ttgttaaaattacAGct 0 965 6 62 0 478 3 090 13 (5 '-. 3) 3 ---> 5745 gcgGTaaga 0 991 9 46 3 990 1 956 13 3 5; A < ---- ::-:<: 3 catcatatcctaaAGgt 0 948 5 3 Í 456 3 000 11 (5 3 i A ---- 6135 ggtctattattatAGgt 0 999 13 59 0 3.3 = 3 c - c 15 [5 5 2; A <— hzb2 ggattttcacctcAGag 0 938 5 45 3 ooc D 000 7 :5 1 li -0293-' : H=al Bcgl ^cgl jSnaBI tgactttglaaaa:gtííůatgtaagg:actt"gatcgttgtactttgttgctttttatacgtatcgcttcctacaataagttaa:aatělttcctcgtagaattgcaaaacatttgtggaccgtgatttacat actgaaacgtt"t^ca:ittacat tccjTGAAactagcaagatgaaacaacgaaaaa~atgcatag;gaaggatg~ta-t;aat tgt tacgaagsagcatgt taacgt tt-gtaaacagctggcactaaatgta EcolCRI I |Sacl ^vul gactgagctcttttcagtggcttctttgcagcagcttcttccttggaggactaatcaagacagaaatctgttcctctaaaaacgatcgccgttí^^^atcttgccattcttgacgagtcttgatctttaga ctgact:gagaaaagt:accgaagaaa:g"cg"cgaagaaggaac:_c:tgat"agt"ctgt:t"taga:aag^agatttttgctagcgg:aa: tagaa:ggtaagaactgct:agaactagaaatct ^sil |BssSI jAsf atcaaatttataagggatca:gasa"a:acgtattaattatta"tt"ttt"tt"tttg[:tttttgtg£tt -a:h-taaata-t:cctagt2c-:tatstěca-aat-aa-aataaaaaaaaaaaaaacgaaaaacacc^^ - TAWWti Hlndlll ttcactlaaatg,atggtgaaagttacaaagcttgtsgcttca:g-:gaattgtggt: ttttgcgtcctggtaattctgctttctttcttctaaattatacgatgattctacatttctactcatctcgttcttgtttttcaaatgatataatta"tgtgtg"atat:acc:a"tcatgtata"ttattgaaa aaaacg:aggaccattaaga:gaaagaaagaagatt"aa"atgctactaagatgtaaagatgag"agag:aagaacaaaaag"ttacta"at"aataa:acacatatagtgg2taag"a:a"ataaataac"tt -exon 4 - F c I- L , AATATAGGCATTCCTGGTGGTTGTTTTCGAGTGlATTTGGATCTGAAATTGGCGAACAACAACGGAGAACCTAGTCAAAGAGGTCGlTTCATTTACCGAAGATCTCCGGACAAGTCTAGTTTCGGAGATTGAAA TTATATCCGTAAGGACCACCAACAAAAĚCTCACGTAAACCTAGůGTTTAACCSCT TG~TjTT GCCT;T~GGaT 2AGT T~CTCCAGCGAAGTAAATSGCTTlTAGAGGC2 TGTTCaGA~lAAaGCCT;TaAC~TT .AFLVVVFEC I W I SNWRTTTENLVKEVASFTEDLRTSLVSEIE Identifikace Genů Ab Initio ■ programy pro predikci míst sestřihu (specificita přibližně 35%) □ GeneSplicer (http://www.tiqr.org/tdb/GeneSplicer/qene spi.html) □ SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi) □ NetGene2 (http://www.cbs.dtu.dk/services/NetGene2/) .i^CEITEC Ü^SS FH5UJ3«iWJ7B El IS"!«?. OTTra IT/ TEiaua iu CBS » Prodiction Servi:^; » NclGoneZ NetGene2 Server The NetGene2 server is a service producing neural network predictions of splice sites in human, C. elegans and A thaliai Instructions Output format Abstract Performanc SUBMISSION Submission of a local file with a single sequence: File in FASTA format_I Browse,,! 1 © Human Cc. elegans Ca. thaliana [ Clear fields ] Send file "| NetGene 2 CENTERFO RBIOLOGI CALSEQU ENCEANA LYSIS CBS I. .T.J rir7.';,; ■■- Submission by pasting a single sequence: Sequence name CHuman Oc. elegans ©a. thaliana Sequence GAGGAGGCACAAAATGACGAATATACAAAATGATCTTAAACAGCTAAaCTATATTGGACATTTTTTCGATC I TCAGATATA AAAGATTTCATTCAATATAATACTTGGATAAATACTCTTATTATTTTTCTTTAGTTTATTAAAÄAAAACCT CTAATAAAT ACGAGTTTAAGTCCACAAAATCGCTTAGACTAAAATACACCATATAATTTCAAACGATAAAGTTTACAAAA J [ Clear fields ] Send file | NOTE: The submitted sequences are kept confidential and will be erased immediately after processing Prediction done NetGene 2 lATGCCTGAGATATT G TTTCC TAAAA" GAGAT GAT TGT T T~TA~ T TA~T ACGAT GATTTGT TTGTACTAAjC"TCGT T TCCCC T T TGCAATACA TAGGAT ATAAA T TGATACATGT T CCTAATTTTAT TTT j G ^ T~A^ GGAt"C TATAACAAAGGA~T T T A CTCTAC_AACAAAAAT AAATAA TGGTAC TAAA^ AAACA~ GA~T „ G AAGGAAAGGGGAAAGGT TATGTATCCTATATTTAAGTAT G TAGAAGGAT~AAAAT AAAA BpuEl pglll ~G:ACTTGAG:T~TATGG;T~TTC~TTGGTG,GAAGATCTATATGTATCTATATCT; acgtgaact:aaatac:aaaagaaaccaccttctagata~a:a~ag;atataga" actcttttcttcgtcgtcatttatagtatatta~atatatgcaga:aca::acacac:t; ,TGa:,AAAAGAAGCAGCA^TAAA~ atcata~aatatatatacgtgt^tgt^tgtg~g^,a" .tgtatagctc tacatatcga^ ********************** NetGene2 v. 2.4 * The sequence: Sequence has the following composition: Length: 9490 nucleotides* 31.8% A, 17.08 C, 19.6% g, 31.7« t 0.0% X, 36.55 g+c Donor splice sites, direct strand pos 5[->3' phase strand confidence 5 * exon intron 3 1704 :: + 0.87 ttccaaacacgttaatattt 1906 c + 0.99 cggtgaacgg"gtcagaacat 3582 1 + 1.00 GCCGTTCTAG'GTAATCTTGC 3765 1 + 1.00 TTGCGTCCTG"GTAMTCTGC 4134 0 + 0.74 tcaaacacag"gttgttaaaa 4619 : + 0.74 agcaagaaag"gtcttgtttc d + 0.94 :gttcctctg"GTAaatactg 5356 D + 0.87 tctcaaccaa*gtgaatgttt 5384 : + 1.0C gatt t ggt t g " g t A ag actct 5809 : + 1.0C tatcctaaag'gtgtgtccaa 6057 D + 1.00 gcagtctttg"gtaagctact 6096 1 + 0.74 ctcttcacaa"gtaaatctag 7369 0 + 1.0C ggactgccaa"gtaagtttaa 7886 D + 0.74 gaacaaaatg"gttagatgaa 9323 :: + 0.74 gaagattagg"gtttttctct AA T TGT AGATAAAATATA~AGAAA TGGAT C TTGAGAATCATTT~TT~TGTATTCTTT~[ TTAAGATCTATTTTATATATCTTTACCTAGAACT.T'AG'AAAAAAAACATAAGAAAAl J, /y,^aaaa.gagc t~tagggt~ta~cat~ctcct ■ ■■ ■ II| .... | .... | .... | .... | .... | .... |.........| ; caaagc tgaaacgaggc tccttc ttcta t tatac ~ t t tc t cgaa.aaatcc z aaata g taagagga TGACTTTGCAAAACGTGAAATG_AAGGCACTT_GATCGT_GTACTT~GTTGCT_TTTATACGTA~CGC~TCCTACAATAAGT~AACAATGCT ~CcTCGTAGAA~TGCAAAACAT~TG~GGACCG~GAT~TACAT A C TGAAACGT T~ TGCACT T TAGAT TCGGT G AAAC T AGCAACA TGAAA CAACGAAAAA-ATGGA T AGCGAAGGAT g ~TA~Tcaat TG T TACGAAGiAG catgt t aacgt t ttgtaaacacc tggca c taaat gta -exon 2-1 ECOICRI | pad pul GA;TGASCT;T"TTCAiTGG;T-;T-TJCAGCAG;T-CT~C; T~GiA GjAGT AaT 1'AA GACA iAAATt" i T~C; T CT AaAAACGA" C GCCGT "[ gtgact:gagaaaagt:accgaagaaa:g"cg"CjAagaaGjAac:"cltgat"agt"ctgt:t"taga:aagg;agat"tttgctaglggcaa[.«tccat'.'.gaa:ggtaagaactgct:agaactagaaa"ct bcttgccattcttgacgagtcttgatctttaga r r atcaaa tttataagggat cacgagatacaggt a t taatt attatttt ttttttt tttgctt tttgtggtta~a„aagt~cac~caaat gat ggt 3aaa3tt acaaagc ttgt gg c t tcacgjccaatt g tggtc tagtttaaatattccctagtgctctatgtgcataat"aa"aataaaaaaaaaaaaaacgaaaaaca:caatat^t"caagtgagt"tac"a:ca:t"t:aatg"ttcgaaca:cgaagtgca^g"taacacgag Donor splice sites, complement strand pos 3'->5' pos 5[->3" phase strand, con.tiden.ce Acceptor splice sites, direct strand exon intron pos 5' - >31 phase strand, confidence 5' intron exon 31 1213 0 + 0.59 TATTTTTTAG"TTATGGAGAC 1221 2 + 0.87 AGTTAT GGAGAACAAGAATCG 1373 0 + 0.71 TCTCTCACAGA GACACAGAAT 1487 1 + 0.81 ATATTGATAG^TGGGACATTA "TTTGCjTCC rGCTAATICTGCTTTCTTTGTTCTAAflTTATACGATGATTCTACATTTCTACTCATCTCGTTCTTGTTTTTCAAATGATATAATTATTGTGTGTATATCACCCATTCATGTATATTTATTGflAA AAAACG^AGGr' "CflTT ■"-j aCGAAaG aA.A.GaaG ATT" AA" aTGCTACTA.A.GaTGTA.A.aGATGAG"AiAGCAAGAACAAAAAGTTTACTATATTAATAACACACATATAiTGGaAG~A^ATATAAATAACTTT F C V 1 ■ psoil Bglll |BspEI AATA~AGGCATTCCTGGTGGTTGTTTTCGAGTGCATTTGGATCTCAAATTGGCGAACAACAACGGAjAACC"AjTCAAAGACGTCGC t tcat"tACCGAAGATGTCCG3ACAAGJCTAGTTTCGGAGATTGAAA "tatat:cgtaag^ac:accaacaaaa^c"cacgtaaacctagagt"taacc3cttg"T3ttgcct:t"ggat:agtt"ctccagcgaagtaaatggcttctagaggc:tgttca^a"caaa3cgt:taac"tt 4254 C ■ 00 TGTTCTTCAG'ATCGCACCAT 4832 2 I 54 AAAATTGCAG~TTCCAGTGGC 5004 C ■ 0 9; TTTTTGCCAG" AGATACACAC 5472 . ■ ■ AAAATTACAC-CTCTGCTCAA 6135 . 00 ATTATTATAG"GTAAGATTAA 6490 ■ 90 AAAGTTACAG~TGGTGGAGAA 6744 c ; 59 TGTCAAACACTTTCGTAGAG 7447 0 96 TTCTGCACAG'ATGCCAGAAA 7780 2 + If, TCCATTTCAG"ATACAGAACA 7786 2 0 92 TCAGATACAG"AACACATGCA Sestřih RNA a adaptace odchylky rozpoznávání míst sestřihu u rostlin v praxi - příklad vývojové plasticity (nejen) rostlin identifikace mutanta s bodovou mutací (tranzice G—>A) přesně v místě sestřihu na 5' konci 4. |EXON| IPDR exon 3 Ol Hno splicir^H Hpisl DEM | pisl EXO^ Ipisl exon 4 Ol IPDR exon 4 Ol 28 ££2>(=EEITEEC= Sestřih RNA a adaptace odchylky rozpoznávání míst sestřihu u rostlin v praxi - příklad vývojové plasticity (nejen) rostlin identifikace mutanta s bodovou mutací (tranzice G—>A) přesně v místě sestřihu na 5' konci 4. exonu Bsml AIwNI I Bpml PflMI Asel Psil Spel Bell III II II CTGCG^TTACAAAGITGIWTGTCITGATCCTA^TIGWGCICTTGIGOT^ .........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I GACGCTTAATGTTTCAACAATAACAGAACTAGGATTTAACTTACGAGA^ ^^^^^ RLVVVS . LVLI KVLYLQVC -PDR_U1-b L sJ-no splicing- -pisl intrcm- ELVKLTGAKTHEAKINIINDVNGIIKPGR -PDR exon 3 ORF- Pstl |BspMI |Hpal ptul |pvull WTCOTCTTGCTGTIGO^^TAACACTGITGCTIGGrCCTCnTAGCT .........I...............I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I ■ ■ ■ ATAAG^GAACGACAACGTCnWTGTGACAACGAACCAGGAGGATCGAC^ LFFLLLQ LTLLLGPP -no splicing- —pisl DEt-1 1-pisl EXON-4 H CGKTTLLKALSGNLENNLK —11-pisl exon 4 ORF- GCTGTTGCAa -I- LTLLLGPPSCGKTTLLKALSGNLENNLK -PDR exon 4 ORF- Sestřih RNA a adaptace identifikace mutanta s bodovou mutací (tranzice G—>A) přesně v místě sestřihu na 5' konci 4. exonu analýza pomocí RT PCR prokázala přítomnost fragmentu kratšího než by odpovídalo cDNA po normálním sestřihu PDRJJIa/PDRJJ PDR_U1b/PDR_Llb wt pisl wt pisl - 500 bp _c - 400 bp - 500 bp - 400 bp - 300 bp H - 300 bp - 200 bp - 100 bp - 200 bp - 100 bp Sestřih RNA a adaptace odchylky rozpoznávání míst sestřihu u rostlin v praxi - příklad vývojové plasticity (nejen) rostlin identifikace mutanta s bodovou mutací (tranzice G—>A) přesně v místě sestřihu na 5' konci 4. exonu analýza pomocí RT PCR prokázala přítomnost fragmentu kratšího než by odpovídalo cDNA po normálním sestřihu sekvenace tohoto fragmentu pak ukázala na alternativní sesřih s využitím nejbližšího možného místa sestřihu v exonu 4 existence podobných obranných mechanizmů prokázána i u jiných organizmů (např. nestabilita mutantní mRNA se vznikem předčasného stopkodonu (> 50-55 bp před normálním stop kodonem) u eukaryot, viz doporučená studijní literatura, Singh and Lykke-Andersen, 2003) Oc=EEi-r Identifikace genů ab initio ■ programy pro predikci exonů □ 4 typy exonů (podle polohy): iniciační vnitřní terminálni jednoduché □ programy kromě rozpoznávání míst sestřihu zohledňují i strukturu jednotlivých typů exonů • iniciační: □ Genescan (http://hollvwood.mit.edu/GENSCAN.html) □ GeneMark.hmm (http://opal.biologv.gatech.edu/GeneMark/) • interní: □ MZE F (http://rulai.cshl.org/tools/genefinder/) 32 ££2>(=EEITEEC= GENESCAN The New GENSCAN Web Server at MIT Identification of complete gene structures in genomic DNA w i// (o o) . .-. .-oOOo-£_)-oOOo-. .-. ixi i i\ /I I I x i i i \ / i I ix i I i\ /1 I I x i i i \ /i i ixi i i\ / I I I x I I I \ /I I |x i i |\ /i i |xi i i\ /Mix / \| I |x| I 1/ Mllxiii/ \ I I |x I I I / \ I I |x I I I y SI I I x| I 1/ M i ixi i 1/ \ I I I x I I I / MIlxlM/ For information about Gens-can, click here "his server provides access to the program Genscan for predicting the locations and exon-intron tructures of genes in genomic sequences from a variety of organisms. "his server can accept sequences up to 1 million base pairs (1 Mbp) in length. If you have trouble with le web server or if you have a large number of sequences to process, request a local copy of the rogram (see instructions at the bottom of this page) or use the GENSCAN email server. If your browse e.g., Lynx) does not support file upload or multipart forms,, use the older version. )rganism: ^^^^^^ | Suboptimal exon cutoff (optional): ^^Q^ equence name (optional): | l>KniJ V'un sequence file (one-letter code, upper or lower case, spaces/numbers ignored): r paste your DNA sequence here (one-letter code, upper or lower case, spaces/numbers ignored): GAGGAGGCACAAAATGACGAATATACAAAATGATCTTAAACAGCTAAACTATATTGGACATTTTTTCGATC rCAGATATA AAA GA T TT GAT TCAAT ATAAT AC TTGGATAAATACTCTT AT TAT TT TTC TT TAGTT TAT TAAAAAAAAC CT "TAATAAAT ACGAGTTTAAGTCCACAAAATCGCTTAGACTAAAATACACCATATAATTTCAAACGATAAAGTTTACAAAA 3TAÄTATCG AAG TA T CT CATAG TCAACATA TA TAT AGTAATAATTAGT TGACGTATAAGAAAATAAAAAT AAATAAAT TA GTATCTTAT TTTGGGTGGTGCTGACTGGTGACTGGTGACTGCAGAATGCTCGGCAAATGGAACCATATCCCAAGACATGG 3TTTTAGAT AGAACAAAATAAG TGT CC GAA GGAAT GATATTAAAAGTC AAATAGAATAATTATAAATATT GTAAT TAG CA AAT AAAAA C GENESCAN GENSCANW output for sequence CKI1 GENSCAN 1,0 Date run: 10-Nov-105 Time: 02:24:26 Sequence CKI1 : 9490 bp : 36.53% C+G : Isochore 1 (0-43 C+GZ) Parameter matrix: Arabidopsis.smat Predicted genes/exons: Gn Ex Type s .Begin . .End . Len Fr Ph I/Ac Do/T CodRg P Tsar.. 1 00 Prom + 1497 1536 40 -3 B5 i 01 Init ■+ 3708 3764 57 2 0 63 51 37 0 499 4 03 1 02 Intr + 3894 4133 240 2 0 327 0 713 17 32 1 03 Intr + 4255 4914 660 0 0 86 59 296 0 771 22 57 1 04 Intr + 5005 5383 379 0 1 70 91 343 0 772 31 41 1 05 Intr + 5473 6056 584 2 2 38 99 582 0 722 50 76 1 06 Intr + 6136 7368 1233 0 0 68 ioa 655 0 977 56 86 1 07 Term + 7448 7660 213 1 0 43 35 212 0 999 12 65 1 08 PlyA + 7910 7915 6 -0 45 2 03 PlyA - 7976 7971 6 -4 B3 2 02 Term - 8793 8050 744 0 0 107 37 542 0 997 48 46 2 01 Init - 9253 8936 3ie 1 0 105 73 386 0 999 41 18 S-uboptimal exons with probability > 0.100 Exnum Type s .Begin . . End . Len Fr Ph B/AC Do/T CodRg P Tsar.. S.001 Init + 1867 1905 39 0 0 64 40 57 0 298 3 74 S.002 Init + 2374 2442 69 0 0 55 95 -11 0 132 2 40 S.003 Intr + 3894 4110 217 2 1 -3 -34 307 0 177 11 55 3.004 Intr + 4352 4914 563 0 2 75 59 338 0 187 26 20 3.005 Intr + 5005 5379 375 0 0 70 8 335 0 212 22 99 S.006 Intr + 5442 6056 615 2 0 95 39 589 0 208 57 32 GENESCAN CENSCAN predicted genes in sequence 02:56:23 □ c J kb an ii.5 I 0 1.5 4.( i-ir 5.0 5 5 60 S.5 V.I I I Optimal exo]i Key: Initial I [Menial Terminal Single-excn ^ exon ■ exon » exon ^ gene |-| ffion Regulace translace Funkční význam sestřihu v nepřekládaných oblastech - důležitá regulační součást genů Translační represe prostřednictvím krátkých ORF v 5'UTR Identifikováno např. u kukuřice (Wang and Wessler, 1998, viz doporučená lit.) V případě CKI1 pokus prokázat tento způsob regulace genové exprese pomocí transgenních linií nesoucích uidA pod kontrolou dvou verzí promotoru, zatím nepotvrzeno M K R A F . ATGaaaagagcttttTAG ATGatggtgaaagttaca.... M K R A F . M M V K V T... ATGaaaagagcttttTAG ATGatggtgaaagttaca.... 36 ££2>(=EEITEEC= Genové modelování ■ programy pro genové modelování □ zohledňují také další parametry, např. návaznost ORF □ Genescan (http://hollvwood.mit.edu/GENSCAN.html) velice dobrý pro predikci exonů v kódujích oblastech (testováno na genu PDR9, identifikoval všech 23 (!) exonů □ GeneMark.hmm (http://opal.bioloqv.qatech.edu/GeneMark/) □ GlimmerHMM (https://ccb.jhu.edu/software/qlimmerhmm/) GeneMark GeneMark™ A family of gene prediction programs provided by Mark Borodovsky's Bioinformatics Group at the Georgia Institute of Technology, Atlanta, Georgia. Gene Prediction in Bacteria and Archaea For bacterial and archaeal gene prediction, you can use the parallel combination of the GeneMark and GeneMark.hmm programs here. If the DNA sequence of interest belongs to a species whose name is not in the list of available models, you should use either the Heuristic models option or, if the sequence is longer than 1 Mb, generate models with the self-training program GeneMarkS. Both options will allow you to generate models and then to use GeneMark.hmm and GeneMark in parallel. Gene Prediction in Eukaryotes For eukaryotic gene prediction, you can * ^ ;■• use the parallel combination of the GeneMark and GeneMark.hmm programs here. Gene Prediction in EST and cDNA To analyze ESTs and cDNAs, please follow What's New: - November, 2005 Supported Prokaryotes: predicted by nih gene database. Prokaryotes: models for V GeneMark and GeneMark. hmm. ne P (jOvims c link. What the programs do: Borodovsky Group Gene Prediction Programs • GeneMark . GeneMark.hmm • Frame-by-Frame . GeneMarkS • Heuristic models Statistics . Documented GeneMark.* usage Help • References • Papers . FAQ . Contact Databases of predicted genes • ProkaryotesNew • Viruses/Phages (VIOLIN) Bioinformatics Resources • Links Gene Prediction in Viruses nral gene prediction, or to access our ; database VIOLIN, please follow this link. Bioinformatics Studies at Georgia Tech • MS Degree Progr. • PhD Program • Lectures • Seminars • Center for Bioinformatics and I gram ,d Eukaryotic GeneMark.hmm^1,2^ onload this paqei References: 1Borodovsky M. and Lukashin A. (unpublished) 2Lornsadze A., Ter-Hovhannisyan V., Chernoff Y. and Borodovsky M., "Gene identification in novel eukaryotic genomes by self-training algorithm" Nucleic Acids Research, 2005, Vol. 33, No. 20, 6494-6506 Accuracy comparison UPDATE October 2005. Added pre-built models of eukaryotic GeneMark .hmm ES-3.0 (E -eukaryotic; S - self-training; 3.0 - the version) Listing of previous updates Input Sequence Title (optional): &_ (ckTi S eq uence:fr_ iitt itt c ict c ujtt c ic iiiggtt ittt cgtttt c itt igc gc c cttt ctctc gicttt cttgit giit cttt ittt ctt ct it gt giiit ,;t iittiigictitttt c gt gtt ititt git gttt uuit guut ctttt ggttttt it gttt iit c itttt c itgigt it igitttiigtt iii iit Atcc giit gc ctgigit itt gttt cct iiiitgigit gitt gttttt itttitt icczt gitttgttt gt cttt c cc cttt gciit ic it iggit it iiittc it ic itgtt cctiitttt ittttt gc ictt gigttt itggtttt cttt ggtggiiga t ct it it ct it itt ittttict ctttt ctt c gt c gt c ittt it igt it itt it it it it gc ic i<:j<: íc i<:j<: íc ct it it gt it igctc iiiit it it igidit ggitctt gigiit c itttttttt gt ittctttt gtt it c iiig^gttt c gicttt get c c giggiigiigit iit ctttttigggtttit c ittet c ctt gicttt gc ííííc gt giiitgt iiggcicttt git c gtt gt ictttgtt gcttttt it ic gt itc it iigtt ííc iitgett c ct c gt igiitt gc ííííc ittt gt ggic c gt gittt íc itgict gigct ctttt c igt ggctt cttt gc igc tt :tiitc iigicig ct gtt c ct ct íííííc git cgc c gtt ct iggt iit ctt gec itt ctt gic gigt ctt git cttti t it iigggit c icgigit ic ic gt itt iitt itt itttttttttttttt gcttttt gtggtt it íc iigttc ict c iiAT &AT G&T &AAA TT &T&GCTT C ACETCC A ATT &T &&T CTTTT &C&T C CT > iitt ct gcttt cttt cttct iiittit ic git gitt ctic itttct ict c ;gttttt c iiit git it iitt itt gtgt gt itit c íc c citt citgt it ittt itt giiiiit itig&C ATT C CT &&T&&TT &TTTT C &A AT CT C AAATT &&C&AAC AAC AAC &&A&AAC CTA&T C AAA&A&&T C&CTT C ATTT AC C &AA&AT CTC C&&ACAA&T CT A&TTT C G&A&ATT i-AAAATTT AC AT AT &C C A AG-AC AAACTT AT CTAC &AT C G&TTTAGC &A&A&TT AT A&ATT CTT AT AT C AC CAAC AAC &AC ACT G&TTTT A AAC AC AG-gtt gttiiiictiitt ic it iiittc iitt itt ctt igtt itt itctt iggitt igttt gigttit it citt iict it iit t gtt gtt gtt gttitt ittgtt ctt cigAT CGCACCATTGTT GTTT GT AGCTT ATT C AiC GAT C CTT C AAGT CT C AC AAGTTT CGT AC AT GGT CT CAT GTTTTCTT AC ATT GC AGAAT C AAAC AC AAGTGT C GCTGTTTTT GC C AATTC CT C GT CGAATT CAAGT C GT&&AGACT AC ACT AAAC C GT &&AT C A&TT AACT GGT C &TCTT AAC&&&AACTC AAC&AAAT CT C A&T C &TTA&AT GT AAC C C ATAC A&ATT&&TT C CAA&C AG T AACT AC ACT AC A&C CTTT&T A&&AAC &A&CTT &&&A&&A&AA&AT AAC &A&ACT CT AiT AC A&A&C &T &&TT A&CTT&T AC A&C AA&AA T CTTT A&&&TTT CC &&TT AA&ACTTTAAC C &AA&TTTT &AAC A&TTT &AAT CT AC AC &&C &AA&A&CTTT AC AT &T &&AC AAA&&AC &&G TT C &T &AA&&TT CACT &AAT &ATT CTTT CTT CAT CT C C AAT &&CTC &ATTT &CTT C &&T A&A&AAT C &AACT C C CT CT&&T CT CAAT &C A TT &C A&TT C C A&T&&CT AC&A&&T &&A&AT C AAAA&ATTAA&AT AC C AA&CTTTTT &CT CT &TT ATT &AA&TTT C &&&C &TT C CT CT > ic it ittt c icttt git gcigt iiiiit gc itc gictt gtt gtttct c igctt ctt c ciit ggtttttttttt gc c igA&AT ACAC ACTC Sequence File upload:e Species :©|AihalianaES-3.0 Model description Output Options Email Address: (required for graphical output or sequences longer than 400000 bpX I B Generate PDF graphics (screen) H Generate PostScript graphics (ernail)o H Print GeneMark 2.4 predictions in addition to GeneMark.hmm predictions* H Translate predicted genes into proteins Run fefault | Start GeneMark .hmm | GENESCAN GENSCANW output for sequence CKI1 GENSCAN 1,0 Date run: 10-Nov-105 Time: 02:24:26 Sequence CKI1 : 9490 bp : 36.53% C+G : Isochore 1 (0-43 C+GZ) Parameter matrix: Arabidopsis.smat Predicted genes/exons: Gn Ex Type s .Begin . .End . Len Fr Ph I/Ac Do/T CodRg P Tsar.. 1 00 Prom + 1497 1536 40 -3 B5 i 01 Init ■+ 3708 3764 57 2 0 63 51 37 0 499 4 03 1 02 Intr + 3894 4133 240 2 0 327 0 713 17 32 1 03 Intr + 4255 4914 660 0 0 86 59 296 0 771 22 57 1 04 Intr + 5005 5383 379 0 1 70 91 343 0 772 31 41 1 05 Intr + 5473 6056 584 2 2 38 99 582 0 722 50 76 1 06 Intr + 6136 7368 1233 0 0 68 ioa 655 0 977 56 86 1 07 Term + 7448 7660 213 1 0 43 35 212 0 999 12 65 1 08 PlyA + 7910 7915 6 -0 45 2 03 PlyA - 7976 7971 6 -4 B3 2 02 Term - 8793 8050 744 0 0 107 37 542 0 997 48 46 2 01 Init - 9253 8936 3ie 1 0 105 73 386 0 999 41 18 S-uboptimal exons with probability > 0.100 Exnum Type s .Begin . . End . Len Fr Ph B/AC Do/T CodRg P Tsar.. S.001 Init + 1867 1905 39 0 0 64 40 57 0 298 3 74 S.002 Init + 2374 2442 69 0 0 55 95 -11 0 132 2 40 S.003 Intr + 3894 4110 217 2 1 -3 -34 307 0 177 11 55 3.004 Intr + 4352 4914 563 0 2 75 59 338 0 187 26 20 3.005 Intr + 5005 5379 375 0 0 70 8 335 0 212 22 99 S.006 Intr + 5442 6056 615 2 0 95 39 589 0 208 57 32 GeneMark Result of last submission: View PDF Graphical Output GeneMaikhmm Listing Go to: GeneMarkhnuiiProteinTranslations Go to: Job Submission Eujkariotyc &eneMark .hmm vtrsion bp 3.9 ^ril 25, 2008 Sequence naifie: CKI1 Sequence length: 5043 bp E+C content: 38.73* Hat rices file: /home/genmark/ eiik_ghm.matr ices/ athal iana_hmm3_ Omod Thu Oct 1 11:09:24 2009 GeneMark.hmm prediction Thu Nqv 10 03:23:47 est 2005: Order 5, Window 96, Slep 12. 4/6 Predicted genes/ exons Eicon Strand Eicon Eicon Rang e Eicon Start/End # 9 Type Length frame 1 1 + In it ial ■3Ě3 1025 57 1 3 - - 1 £ + Internal 1155 1394 2 40 13- 1 3 + Internal 151Í 2175 550 13- 1 4 + Internal 2265 2544 379 11- 1 5 + Internal 2734 3317 584 2 3- 1 e + Internal 3397 4529 1233 13- 1 7 + Terminal 4709 4921 213 13- 1 ./ — i i iiii^iit II ^ / ■ 1 ii 111 1 1 1 A 1 i i.i i./I i i ,i A I, w, , , i, i j, i >■ 4400 ^ I 44;"; S- i a i . i_n. li 5200 6600 Nucleotide Position 40 ,Q><=i=i Genové homologie ■ vyhledávání genů podle homologií ■ porovnávání s EST databázemi □ BLASTN (http://www.ncbi.nlm.nih.gov/BLAST/) ■ porovnávání s proteinovými databázemi □ BLASTX (http://www.ncbi.nlm.nih.gov/BLAST/) □ Genewise (https://www.ebi.ac.uk/Tools/psa/genewise/) porovnávají proteinovou sekvenci s genomovou DNA (po zpětném překladu), je nutná znalost aminokyselinové sekvence ■ porovnávání s homologními genomovými sekvencemi z příbuzných druhů □ VISTA (http://qenome.lbl.gov/vista/index.shtml) Osnova Identifikace genů ab initio ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homolog Genomová kolinearita genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích, možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích Obecné schéma postupu při využívání genomové kolinearity (také „komparativní genomika") při experimentální identifikaci genů příbuzných organizmů: □ mapování malých genomů s využitím nízkokopiových DNA markem (např. RFLP) □ využití těchto markem k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí) příbuzného organizmu □ malý genom (např. rýže, 466 Mbp) může sloužit jako vodítko, kdy jsou identifikovány molekulární nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti jsou pak použity jako sonda při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí velkých genomů (např. ječmene nebo pšenice, 5000, resp. 16000 Mbp) Genomová kolinearita j 40 kb Maize (2 5 00 Mbp) A-► j Rice (400 Mbp) 20 kb Hexaploid wheat (16 000 Mbp) ] Barley (5000 Mbp) □ Rice (400 Mbp) ► High gene density Feuillet and Keller, 2002 A Genomová kolinearita zejména využitelné u trav (např. využití příbuznosti u ječmene, pšenice, rýže a kukuřice) malé geonomové přestavby (dalece, duplikace, inverze a translokace menší než několik cM) jsou pak detekovány podrobnou sekvenční komparativní analýzou během evoluce dochází u příbuzných druhů k odchylkám především v nekódujících oblastech (invaze retrotranspozonů atr1 ^ «=LJ-»-U ■=■=0 45 ££2>(=EEITEEC= Genomová kolinearita Genomová kolinearita HOX genů u živočichů ■ Transkripční faktory řídící organizaci těla v anterio-posteriorní ose ■ Pozice genů v genomu odpovídá i prostorové expresi během vývoje ■ Mezidruhově konzervováno Wh:lil Jíl •••• -t-a- 1-1-l-L-Ě- nínai Cípi-Dia Cjp.i-Srr Clpi-Aütp Cnpl-IÍJíJ li no i rin D Oi-|> I-Capl-pb Cíp I-Hod Capl.DH Ch.ii. ;..] GEE) - Haarlaa. -T^^lj-i c-iKsla-nr. HíkíI ianilirĚM Prst Captala Cdx*- ■ riacc^agillscdx B'anr,:icjťWTT' rz? Ti líLlÍU'1 Jrjj. 5-ym5í*gi|irTtr3 cíJí PG9-14 Posterior ji^sÄÄ I Med Post PG8 Cdx Lupryn___ -JlJp*- Capitata kn4 _L l4WötflHH4 . il:._«n,rTi Jh.,« — ""!.■ 111,! nl::,A ^ Caplctl alü.2*- ^— fter«!, lnic? - FtiiasagttaKjid t r — EranchiDönm; ■ 1 - Nsrfll5iHoi7 — LiDítallB Anta 4- ^EjjBQřrnna scr CapTtel wSfir - ■— Tribokum Scr ::: £□0 IlMü í z*. ■ i U* i íagillřfcra abia '- BfanonosilurnBrijíř -- ü1: 1: ■ii:i!,:i:i ■ ;i h ■.■>: Trbolium ero - Ů.1 I Mox Eve PlkIo-o- da st PG7 PG6 PG5 PG4 Xlox Gsx PG3 PG1-2 Anterior Central Osnova Experimentální identifikace genů ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování Metylační filtrování příprava genově obohacených knihoven pomocí technologie metylačního filtrování geny jsou (většinou!) hypometylované, kdežto nekódující oblasti jsou metylované využití bakteriálního RM systému, který rozpoznává metylovanou DNA pomocí rest. enzymů McrA a McrBC □ IvTcrBC rozpoznává v DNA metylovaný cytozin, který předchází purin (G nebo A) □ pro štěpení je nutná vzdálenost těchto míst z 40-2000 bp Metylační filtrování ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování ■ Schéma postupu při přípravě BAC genomových knihoven pomocí metylačního filtrování: □ příprava genomové DNA bez příměsí organelární DNA (chloroplasty a mitochondrie) □ fragmentace DNA (1-4 kbp) a ligace adaptorů příprava BAC knihovny v mcrBC+ kmeni E. coli □ selekce pozitivních klonů ■ omezené využití: obohacení o kódující DNA o pouze cca 5-10 % ££2>(=EEITEEC= Osnova Experimentální identifikace genů ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování ■ EST knihovny knihovn příprava EST knihoven izolace mRNA ligace linkerů a syntéza druhého řetězce cDNA klonování do vhodného bakteriálního vektoru transformace do bakterií a izolace DNA (amplifikaoe-DNA) ^ sekvenace s použitím primem specifických pro použitý plasmid uložení výsledků sekvenace do veřejné databáze cctacgattatacccccaa ggatgctaatatgggggttatacaagtgtt TTTTTTTTTTT " AAAAAAAAAA Základy genomiky II, Identifikace genů Klíčové koncepty Přímá vs. reverzní genetika ■ Gen jako faktor určující frekvenci fenotypu vs. fyzická entita, která existuje nezávisle na fenotypu Identifikace genů ab initio ■ struktura genů a často i jejich poloha v genomu je konzervovaná Experimentální identifikace genů ■ lze připravit genově obohacené knihovny ■ EST knihovny umožňují identifikaci transkripčně aktivních genů ■ přímá a reverzní genetika (přednáška 03) Diskuse 53 .i^CEITEC