CG020 Genomika Přednáška 2 Identifikace genů Jan Hejátko Funkční genomika a proteomika rostlin, Mendelovo centrum genomiky a proteomiky rostlin, Středoevropský technologický institut (CEITEC), Masarykova univerzita, Brno hejatko@sci.muni.cz, www.ceitec.muni.cz investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Literatura ■ Zdrojová literatura ke kapitole 2 Plant Functional Genomics, ed. Erich Grotewold, 2003, Humana Press, Totowa, New Jersey Majoros, W.H., Pertea, M., Antonescu, C. and Salzberg, S.L. (2003) GlimmerM, Exonomy, and Unveil: three ab initio eukaryotic genefinders. Nucleic Acids Research, 31(13). ■ Singh, G. and Lykke-Andersen, J. (2003) New insights into the formation of active nonsensemediated decay complexes. TRENDS in Biochemical Sciences, 28 (464). Wang, L. and Wessler, S.R. (1998) Inefficient reinitiation is responsible for upstream open reading frame-mediated translational repression of the maize R gene. Plant Cell, 10, (1733) de Souza et al. (1998) Toward a resolution of the introns earlyylate debate: Only phase zero introns are correlated with the structure of ancient proteins PNAS, 95, (5094) Feuillet and Keller (2002) Comparative genomics in the grass family: molecular characterization of grass genome structure and evolution Ann Bot, 89 (3-10) Frobius, A.C., Matus, D.Q., and Seaver, E.C. (2008). Genomic organization and expression demonstrate spatial and temporal Hox gene colinearity in the lophotrochozoan Capitella sp. I. PLoS One 3, e4004 investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Osnova ■ Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Identifikace genů ab initio ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie ■ Experimentální identifikace genů ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování ■ EST knihovny ■ přímá a reverzní genetika investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Osnova ■ Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání mládeže a tělovýchovy pro konkurenceschopnost > ~Á- ^^^^^jfl investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Přímá vs- reverzní genetika Revoluce v chápání pojmu genu Přístupy „klasické" genetiky „Reverzně genetický" přístup 5TTATATATATATATTAAAAAATAAAATAAAA Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání mládeže a tělovýchovy pro konkurenceschopnost > ~Á- ^^^^^jfl investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Identifikace role genu ARR21 Recent Model of the CK Signaling via Multistep Phosphorelay (MSP) Pathway HPt Proteins pm AHK sensor histidine kinases • ahk2 • ahk3 • cre1/ahk4/wol • ahp1-6 nucleus Response Regulators ARR1"24 regulation of transcription interaction with effector proteins Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání mládeže a tělovýchovy pro konkurenceschopnost > investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Identifikace role genu ARR21 - izolace inz. mutanta vyhledávání v databázi inzerčních mutantů (SINS) Insert_SIKS: 01_09_64 Query: 80 tcctagcgttcatgagcgtaccatacttgacaanagagaacgtagccagccatttacagg 139 i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i Sbjct: 58319 tcctaycyttcatyaycytaccatacttgacaagagagaacgtagccagccatttaeagg 58378 Arr21: 1830 InsertSIHS: 010964 Query: 140 tttgatatctcttgtcaaaaatgtttttggattttactgt 179 i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i Sbjct: 5 8379 tttgatatctcttgtcaaaaatgtttttggattttactgt 58418 Arr21: 1890 lokalizace inzerce dSpm v genomové sekvenci ARR21 pomocí sekvenace PCR produktů atg| D2 16k-d11 D1 K W 1727 bp 1728 bp 16k-16d Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Identifikace role genu ARR21 - analýza exprese Standardní typ Inzerční mutant gene /cycles ACTIN 2/20 ACTIN 2/25 controls water DNA F 4 o — investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA •Analýza fenotypu inzečního mutanta investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Identifikace role genu ARR21 - analýza fenotypu mutanta Analýza citlivosti k regulátorům růstu rostlin 2,4-D a kinetin etylén světlo různých vlnových délek 100 ^ 30 O) Q CM 10 Doba kvetení i počet semen nezměněn <^ o ^ % > IMI EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzdělávání mládeže a tělovýchovy pro konkurenceschopnost 3 10 30 100 300 1000 kinetin jxg ■ I-1 investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Identifikace role genu ARR21 - příčiny absence fenotypu Funkční redundance v rámci genové rodiny? EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzděiávání mládeže a tělovýchovy pro konkurenceschopnost > 1/1 ~Á- ^^^^^jfl in a* investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Identifikace role genu ARR21 - příbuznost ARR genu Legpjida: □ AKR-A ■ AÍLR-B • nalezena alespoň jedna EST Identifikace role genu ARR21 - příčiny absence fenotypu Funkční redundance v rámci genové rodiny? Fenotypový projev pouze za velmi specifických podmínek (?) EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzděiávání mládeže a tělovýchovy pro konkurenceschopnost > 1/1 ~Á- ^^^^^jfl investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Identifikace role genu ARR21 - shrnutí ■ Gen ARR21 identifikován pomocí srovnávací analýzy g enom u A rab id o psi s ■ Na základě analýzy sekvence byla předpovězena jeho funkce ■ Byla prokázána místně specifická exprese genu ARR21 na úrovni RNA ■ Identifikace funkce genu pomocí inzerční mutageneze v případě ARR21 ve vývoji Arabidopsis byla neúspěšná, pravděpodobně v důsledku funkční redundance v rámci genové rodiny investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Osnova Identifikace genů ab initio * struktura genů a jejich vyhledávání EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání mládeže a tělovýchovy pro konkurenceschopnost > ~Á- ^^^J,ť in a* investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Struktura genů místa sesftřij ícni attatctgatata ... .ataaataaatgcga 3'utr MASARYK UNIVERSITY Sestřih RNA 5 site ] intruik 3" spi i CP site + 3" e h on n i construed regions EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání mládeže a tělovýchovy pro konkurenceschopnost > ~Á- ^^^J,ť in a* investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Identifikace Genů Ab Initio ■ zanedbání 5' a 31 UTR ■ identifikace počátku translace (ATG) a stop kodonu (TAG, TAA, TGA) ■ nalezení donorových (většinou GT) a akceptorových (AG) míst sestřihu ■ využití různých statistických modelů (např. Hidden Markov Model, HMM, viz doporučená studijní literatura, Majoros et al., 2003) k posouzení a ohodnocení váhy identifikovaných donorových a akceptorových míst EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ mládeže a tělovýchovy OP Vzdělávání pro konkurenceschopnost > -j- 1 ji investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Predikce míst sestřihu programy pro predikci míst sestřihu (specificita přibližně 35%) □ GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene spl.html) □ SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi) EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzděiávání mládeže a tělovýchovy pro konkurenceschopnost > 1/1 investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky SplicePredictor BCB © ISU Download Help Tutorial References Contact SplicePredictor - a method to identify potential splice sites in (plant) prc-mRNA by sequence inspection using Bayesian statistical models (click here to access the older method using logitlincar models) Sequences should be in the onc-lcttcr-code ({a,b,c,«,h,k,in,n,r,s,t,u,w,y}), upper or lower ease; all other characters are ignored during input. Multiple sequence input is accepted in FA ST A format (sequences separated by identifier lines of the form ">SQ;name_of_sequence comments") or in CenBank format. Paste your genomic DMA sequence here: GAG GA G G C ACAAAAT GAC GMT ATAC AAAAT G AT C TT A A AC A G C T AAAC T AT AT T G G AC AT T T T T T C G AT C T C A G AT AT A AAAGATTTCATTCAATATAATACTTGGATAAATACTCTTATTATTTTTCTTTAGTTTATTAAAAAAAACCTCTAATAAAT ACGAGTTTAAGTCCACAAAATCGCTTAGACTAAAATACACCATATAATTTCAAACGATAAAGTTTACAAAAGTAATATCC AAGT ATCTCATAGTC AAC A T AT AT AT AGTAATAAT TAGTTGACGT ATAAGAAAAT AAAAAT AAATAAAT TAGTATCTTAT TTTGGGTGGTGCTGACTGGTGACTGGTGACTGCAGAATGCTCGGCAAATGGAACCATATCCCAAGACATGGGTTTTAGAT ... or upload your sequence file (specify file name): \ Browse... ] ... or type in the GenBank accession number of your sequence: EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzděiávání mládeže a tělovýchovy pro konkurenceschopnost > i/i j. investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky SplicePredictor What do the output columns mean? SplicePredictor. Version of February 13, 2005. □ate run: Wed Nov 9 11:30:14 2005 CCGAATGCCTGAGATATTGTTTC:TAAAA"GAGATGATTGTTT"TA"TTA"TACCATGATTTGT~TGTa:TAAGC~TCCTTTCCCCTTTGCAATACATAGGATATAAATTCATACATGTTCCTAATTT~AT~TT gg:t"a:ggac"ctataacaaaggattttactctactaacaaaaataaataatggtactaaacaaacatgattcgaaggaaaggsgaaacgttatgtatcctatatttaagtatgtacaasgattaaaataaaa BpuEl Bglll tgcacttgagt~T atggt~t tc~t tggtggaagatc~atat gtat !]~AT a~CT at attatttt actct~t tct TCGTC^ 2 Species; Model: Prediction cutoff [2 ln[BF]): Local pruning: Non-canonical sites: Homo sapiens 2-class Bayesian 3.ÜQ on not scored Sequence your-sequence, from 1 to 9490. Potential splice sites —- <— <— <— —- <— ACjTGAACTCAAATACCäAAAGAAäCCACCTTCTAGATA~A-A~AjATATAGA~ATAATAAAATGAjAAAAGAAGCAGCAGTAAATATCATATAATATATATACGTGTGTGTGTGTGTGGATATACATATCGAG AATTCTAGATAAAATATATAGAAATGGATCTTGAGAATCATTTTTTTTGTATTCTTTTGTTATCAAAGGGT"T:GACT"TGC"CCGAGGAAGAAGA"AATATGAAAAGAGCTTTTTAGGGTTTATCATTCTCCT ttaagatctattttatatatctttacctagaactcttagtaaaaaaaacataagaaaacaatagtttcccaaagctgaaacgaggctccttcttctattatacttttctcgaaaaatcccaaatagtaagagga h k r a 1-uorf- 1. ■ loc sequence ■ 74 rho gamma * - .H a <- - !h ttttttcgatctcAGat C .973 7 16 :": OOC 0 (' c c 7 [5 l) ft <- - 1 M attatttttctttAGtt C .999 14 86 :■: 0 (' c c i [5 l) a - - 500 gattttgttgtttAGtc c .977 4 8 4 0 000 7 :'-; 1 l) a <- - ■k:: tctgttattgtatAGct c .986 = 56 0 0 000 7 [5 1 l) a <- - 3 48 tattttttgaaatAGat c .968 6 80 4 0 c c c i ;5 1 i) a <- - _l 51 caatttatttttaAGaa c .93C .-. 19 0 000 7 : 5 1 i a <- - 1213 ttatttattttttAGtt c .998 12 14 :■: 0 (' c c 7 [5 i; a <- - 1373 tttcctctctcacAGga c .999 17 :■: 0 (' c c 7 : 5 i; a <- - 1487 tttatatattgatAGtg c .883 4 04 4 0 ( c C 1 [5 1 i) a <- - 1591 atgtgttgcttgtAGga c .982 : 03 4 0 000 7 ;5 1 i a <- - 1781 ggttgtgcgaaatAGgg c .886 4 10 4 OOC 0 000 7 : 5 1 i; ft <- - 2440 taattaaaaatttAGat c .939 - 4 6 4 0 c c c 7 :5 i; ft <- - 2479 satctaaaattttAGat c .942 ; 59 4 0 c c c i :5 i; D > 2546 aagGTagta :: ■ 4 61 4 _ 903 15 : 5 ':. 5: a <- - 2572 ttttttttttggcAGca :: .93C .: 16 ;; 0 c c c 7 [5 1 1 a < — - 2763 ~tcaaattcacaaAGgt c .873 3 86 4 185 0 000 11 : 5 i; a < — - 2782 tttcgttttcattAGcg c .952 - 4 22C 0 000 11 : 5 5 i; ft < — - 3022 tttgtttgtactaAGct c .956 6 16 4 221 0 c c c 11 5 i; ft < — - 3048 ~tttgcaatacatAGga c .973 15 4 229 0 c c c 11 :5 5 i a <- - 3171 =gtcgtcatttatAGta :: .988 ■ 74 4 0 c c c 7 ;5 1 li a <-- - 3284 cttttgttatcaaAGgg 0 .993 10 03 0 000 0 006 8 1 5 1 21 > 3372 aatGTaagg 0 933 5 28 855 1 849 15 !5 5 a < — - 34 jl aatgettcctcgtAGaa 0 .916 4 77 0 293 0 065 12 [5 5 2] a - - 3581 cga tcgccgttctAGgt 0 850 3 47 0 000 0 000 [5 - 1) Lj 3649 cacGTatta 0 .933 5 25 0 000 1 848 li i 5 1 5) .-. - - 3695 a - 4254 attattgttcttcAGat 3 12 82 0 ■' 002 8 (5 1 2 1 a - 4351 tttcttacattgcAGaa c .991 9 47 4 OOC 0 (' c c 7 [5 1 a <- - 4633 gtcttgtttctttfißgg c .879 3 97 4 0 I c c 7 1 1 a <- - 4976 ittgttgtttotcfißot c .952 5 96 4 0 • C C 7 ;s 1 1 a <- - 5004 ttttttttttgccAGag c .996 __ 17 s 0 C C C 7 [5 1 1) u — —> 5356 caaGTgaat c .821 3 04 4 387 0 (' c c 11 : 5 ':, 1 14 — —> 5384 ttgGTaaga c .941 .-. ,4 4 0 C9C 13 [5 5 a - - 5403 actctgtttctttAGct c .894 4 26 4 0 000 7 :':; 1 1] a < — - 5441 itttctctctaacAGaa c .995 :c 4 >. 4 387 0 000 11 : s 5 1 a < — - 54 12 ttgttaaaattacAGct c .965 6 62 s 0 090 12 ;5 >:. 3) c > 5745 gcgGTaaga c .991 3 4E s 99C _ 956 15 [5 5; a < — - 5808 ~atcatatcctaaAGgt c .948 : 83 4 458 0 (' C C 11 :.5 5 1 a < — - 6135 ggtctattattatAGgt c .999 13 .'- 9 :■: . 0 (' ; C 12 5 2; a <- - 6552 ggattttcacctcAGag c .938 5 4 7 4 0 ( c C 7 [5 1 i] Hc:l -Ü290!" OJM Hpal fCACTTTCCAAMC6TSAAAT6TAA66CACTT"CATCCT"6TACTT~6TT6CT"TTTATAC6TA"CÄ"TCCTACWTAA5T~AACAAT6^ ———I———+————---1—-———■————*---1———-1———-—+-—-————--1——E~—~———-'--1-'———H—— 3t84 *CTG*AACGTT~T3M:iTrAC«TTCC3TGM*CTAGCMMTI»UC«iCGA«UATATCMT*KGMGMTGTTATTCM^ EcolCRI J peel ^vul GACTGAGCTCTTTTCAGTGGCTTCTTTGCAGCAGCTTCTTCCTTGGAGGACTAATCAAGACAGAAATCTGTTCCTCTAAAAACGATCGCCGT-GTAGGIAATCTTGCCATTCTTGACGAGTCTTGATCTTTAGA CTGACTCGAGAAAAGTCACCGAA4AAACG_CG~CjAAGAAGGAAGCTGCTGATTAGT~CTGT ZT~TAGA1AAG4AGAT~TTTGGTAGCGGCAAGATCCATTAGAACGGTAAGAACTGCTCAGAACTAGAAATCT hLLLL TBPTTR ^■sil pssSI jAsel atcaaatttataagggatca:gaga~a:acgtattaattattattttttttttttttgctttttgtggtt -H I-M-~-^-~-,-^-H-~-H-^|---—-h-- "A3T"taaatattccctagtgctctatgtgcataattaataataaaaaaaaaaaaaacgaaaaacaccaata" taWPTca rngB VII: TTCACTCAAATGAT4GT4AAA4TTACAAAGCTTGT4GCTTCA:G_4CAATTGTGGT: --K~-——H-——-1--.---.--1-—I— 3752 'CAAGTGAGT"TAC"A4CA4T"T4AATG"TTCGAACA:CGAAGT3CA3G"TAACACCA3 MMVKVTKLVASRF ttttgcgtc:tggtaattctgc_ttctttcttctaaattatacgatgattctacatttctactcatctcgttcttgtttttcaaatgatataattattgtgtgtatatcacccattcatgtatatttattgaaa .......I.........I ■ ^-1--h-—-1-—-' " I -.....I.........I......... ^-1---+h—' '-^—H—.......I.........I...... AAAACGCAGGACCATTAAGAtGAAAGAAAGAAGATTTAATATGCTACTAAGATGTAAAGATGAGTAGAGCAAGAACAAAAAGTTTACTATATTAATAACACACATATAGTGGGTAAGTACATATAAATAAC"TT -e>:on 4 -f g v L | psml pglll |BspEI aata_aggcat_c:tggtggttgttttcgagtgcatttggatctcaaattggcgaacaacaacggagaacctagtcaaagaggtcgcttcatttaccgaagatctccggacaagtctagtttcggagattgaaa TTATATCCGTAAGGACCACCAACAAAAGCTCACGTAAACCTAGAGTTTAACCGCTTGTTGTTGCCT:T"4GAT:AGTT"CTCCAGCGAAGTAAATGGCTTCTAGAGGCCTGTTCAGA"CAAA4CCT:TAAC"TT .aflvvvfeciwisnwrtttenlvkevasftedlrtslvs Identifikace Genů Ab Initio programy pro predikci míst sestřihu (specificita přibližně 35%) □ GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene spl.html) □ SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi) □ NetGene2 (http://www.cbs.dtu.dk/services/NetGene2/) investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky NetGene 2 CENTERFO RBIOLOGI CALSEQU ENCEANA LYSIS CBS ir-.r-- eis issg i33S I?: Pi FC IU CBS » Prediction Servers » NelGene2 NetGene2 Server The NetGene2 server is a service producing neural network predictions of splice sites in human. C. elegans and A. thaliai Instructions Output format Abstract Performanc SUBMISSION Submission of a local file with a single sequence: File in FASTA format_I Browse.,. 1 !S Human Cc. elegans A. thaliana [ Clear fields ] | Send file ] Submission by pasting a single sequence: Sequence name Z) Human Cc. elegans ® A. thaliana Sequence gaggaggcacaaaatgacgaatatacaaaatgatcttaaacagctaaactatattggacattttttcgatc tcagatata aaagatttcattcaatataatacttggataaatactcttattatttttctttagtttattaaaaaaaacct ctaataaat acgagtttaagtccacaaaatcgcttagactaaaatacaccatataatttcaaacgataaagtttacaaaa | [ Clear fields ] | Send file "| NOTE: The submitted sequences are kept confidential and will be erased immediately after processing 1 NetGene 2 Prediction done n i t t - - * *** NetGene2 v. 2.4 ** The sequence: Sequence has the following composition; Length: 9490 nucleotides. 31.8% A, 17.04 C, 19.6% G, 31.74 T, 0.0* X, 3 6.54 G+C Donor splice sites, direct strand pos 51->3' phase :1 can idence 5 f exon intron 3 1704 0 + 0 . 87 TTCCAAACAC "GTTAATATTT 1906 0 + 0 . 99 CGGTGAACGGAGTCAGAACAT 3582 1 + 1 .00 GCCGTTCTAGAG.AATCTTGC 3765 1 + 1 .00 TTGCGTCCTGAG.AATTCTGC 4134 c + 0 . 74 TCAAACACAGAGTTGTTAAAA 4619 : + J . AGCAAGAAAGAGTCTTGTTTC 4915 0 + 0 CGTTCCTCTGAGTAAATACTG 535 0 + J . ' TCTCAACCAAAGTGAATGTTT 5384 : + _ . 00 GATTTGGTTGAGTAAGACTCT 5809 _ + _ . 00 TATCCTAAAGAGTGTGTCCAA 6057 0 + : . 00 GCAGTCTTTGAGTAAGCTACT 6096 1 + 0 .74 CTCTTCACAAAGTAAATCTAG 7369 c + _ . 00 GGACTGCCAAAGTAAGTTTAA 7886 c + 0 .74 GAACAAAATGAGTTAGATGAA 9323 c + J . GAAGATTAGGAGTTTTTCTCT Donor splice sites, complement strand pos 3 T->5' pos 5'->31 phase strand confidence 5' Acceptor splice sites, direct strand exon intron >os 5 ' ->3 1 phase strand confidence 51 intron exon 31 1213 0 \ 0. TATTTTTTAGATTATGGAGAC 1221 2 ■ 0. .87 AGTTATGGAG'ACAAGAATCG 1373 C 0. 7: TCTCTCACAGA GACACAGAAT 1487 1 + 0. .81 ATATTGATAGATGGGACATTA 4254 0 + 1. .00 TGTTCTTCAGAATCGCACCAT H 4832 2 • 0. .54 AAAATTGCAGATTCCAGTGGC 5004 C + 0. ■I TTTTTGCCAGAAGATACACAC 5472 : ■ 0. .96 AAAATTACAGACTCTGCTCAA 6135 c ■ 1. 0 0 ATTATTATAGA GTAAGATTAA H 6490 l + 0. .-n: AAAGTTACAG"TGGTGGAGAA 6744 c ■ 0- .59 TGTCAAACAGATTTCGTAGAG 7447 c i 0. .96 TTCTGCACAGAATGCCAGAAA 7780 2 0. .76 TCCATTTCAG"ATACAGAACA 7786 2 ■ 0. ■i2 TCAGATACAGAAACACATGCA "CGAATGGCTGAGATATTGTTTCCTAAAATGAGATGATTGT T T_TA_TTA_TACCATGATTTjT_T3TA2TAAjC_TCCTTTCCCCT T TGCAATACATAGGATATAAAT TCATACATGT TCCTAAT T T~AT~T T 2GCTT]ftCGGACTCTATAflCAAAGGATTTTACTCTAC~AACAAAAfiTAAATAATGGTACTAAACAAA^A"jfl~T GGAAGGAAAGGGGAAACGT~ATG~flTCCTA~ATTTAflGTATGTACAAGGATTAAAATAAAfl TGCACTTGAGTTTATGGTTTTCTTTGGTGGAAGATC"ATat jTaT 2"ATa"CTATAT~at TTTACT;T"t TCT TCGTCGT 2A"t tATaq"ATat TA~atATATGCACA;aca;ACACAC^TATa~GTA"AGCT 2 ACGTGAACT!! AAATACCAAAAGAAACCACCT TCTAGATA~ACA~AGATATAGA~ATAATAAAATGAGAAAAGAAGCAGCAGTAAA~ATCATA~AATATATATACGTGTGTGTGTGTGTGGATATACBTATCGAG AAT TCTAGAT AaAATAT A~AGAA.ATGG.ATCT TGAGAATC at T T~TT~TjTaTTCTTT~GTTAH lGT~T l"G A CT~T GC~CCGAGG AA jAAGA~A.ATATG AAAAG.AGCT TT~TAGGjT~TA~CAT~CTCCT "taagatctat"ttatatat:t"tacctagaact:t"ag_aaaaaaaala aagaaaacaa ., ;tTTJ^:aaagc"gaaa:gaggct:c"t:"t:tattatac"tttctcgaaaaatcc:aaatagtaagagga "GAC"TTGCAAAA:GTGAAATG"AAGG:ACTT"GATCGT"GTACTT"GTTGCT"TTTATACGTA"CGC"TCCTACAATAAGT"AACAATGCT"C:TCGTAGAA"TGCAAAACAT"TG"GGAC:G"GAT"TACAT aCTGaAACGTT~TjCAl,T-TACaTTCCjTGaa.aC T AG CAaCATGA.AaCAACGAaA.AA~ ATGCAT aG^Ga.AGCATGTTATTCAATTGT T ACGAAG jA.GC ATCT TAA^GTTT" GT A.aAC AC ^TGGCaCTAaATGTA -exon 2 — EcolCRI GAG TGAGCTC T~T TCAGTGGG T~^T~T GCAGC AGG T~CT~CG T~GGAGGACTAATCAAGACAGAAATC~GT~r,G TCTAAAAACGA~r,GCCGT~C ^TGACTCGAGAAAAGJCACCGAAjAaA;C~CG~CGa.aGaaG^AAC _'~C;TGAT~AGT~CTGT;T~TAGa;AaCGAGAT~TT TGCTaCCGGCAaGS' . C"TjCCAT~CTTGACGAGTCTTGATCTTTAGA TtGAACGGT AaGAACTGCT ;AG.AACT AG AAA"CT Psil pssSI /\sel |Hlndlll plfel AT:AAATTTATAAGGGATCA:GAjA"A:ACGTATTAATTATTA"TT"TTT"TT"TTTGCTTTTTGTGG"TA"A:AAGT"CAC"CAAATGATGGTGAAAGTTACAAAGCTTGTGGCTTCACGTCCAATTGTGGTC "AGT"TAAATA"T:CCTAGTGC":TATGTGCA"AAT"AA"AATAAAAAAAAAAAAAACGAAAAACACCAATATGTTCAAGTGAGTTTACTACCACTTTtAATGTTTCGAACACCGAAGTGCAGGTTAACACCAG ttttgcgtccII i:TGC"TTCTTTCTTCTAAATTATACGATGATTCTACATTTCTACTCATCTCGT"CTTGTT"TTCAAA"GATATAATTA"TGTGTG"ATAT:ACC:A"TCATGTATA"TTA"TGAAA iAAA.CGwA.G^,"- ;a:GAAA.GAAAGAA.GA AA A T. AC A AG A G AAAGA GAG A i AG ^ A. a G A AC A A. a AAG ' ; A A A A lA^A.CACV A A; GG; ' A'l A:A A ' AA iAC F c v L I aata'asgcat'c^gstggttgtt't^agtgcat'tggatc'caaattgg^gaacaa^a^gagaa^c'astcaaagaggtcgcttcat'taccgaagatct^g^acaag'nagtt'^gasa'tgaaa ttatatccgtaaggaccaccaacaaaagctcacgtaaacctagagtttaaccscttg~tgttscct;t~jGat;agtt~ctccagcgaagtaaatggcttctagaggcctgttcagatcaaagcctctaacttt .aflvvvfec iwi snwrtttenlvkevasf tedlrtslvse ie Sestřih RNA a adaptace odchylky rozpoznávání míst sestřihu u rostlin v praxi - příklad vývojové plasticity (nejen) rostlin identifikace mutanta s bodovou mutací (tranzice G—>A) přesně v místě sestřihu na 5' konci 4. exonu Bsml Bpml AIwNI PflMI Asel Psil ....... _____ . ... Spei Bell I II II CTGCGAATTACAAAGITGriATlGlCmGATCCr^ .........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I GACGCITffilGITrCAACAATAACAGAACmSGATITffiCI^^ -PDR UÚ> R L V V V S -SJ- LVLI KVLYLQVC -no splicing- EXON3- •f -pisl introfl- E LVKLT GAKTH EAKIN I INDVNGI I K PGR -PDR exon 3 ORF- Pstl Pvull BspMI Hpal Stul WrCrrCTKKIGTIGC \G. nRACACTGITGCnGGrCCrCC^CT^ ......I..... t-H ■I.........I.........I.........I.........I.........I.........I.........I.........h ■I.........I.........h 'I.........I.........I.........I' ATAAGAAGAAQGACAACGTO^AATTGTGACAAaGAACCAGGAGGATCGAaXCT^ L F F L L L Q LTLLLGPP -no splicing- —pisl DEL— -pisl EXON-4- -pisl introfi- ^CGKTTLLKALSGNLENNLK —11-pisl exon 4 ORF- - GCTGTTGCAa - EXON 4- LTLLLGPPSCGKTTLLKALSGNLENNLK -PDR exon 4 ORF- -PDR L4- EVROPSKA UNIE MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání MLÁDEŽE A TĚLOVÝCHOVY pro konkurenceschopnost a .n a státním rozpočtem České republiky Sestřih RNA a adaptace identifikace mutanta s bodovou mutací (tranzice G—>A) přesně v místě sestřihu na 5' konci 4. exonu analýza pomocí RT PCR prokázala přítomnost fragmentu kratšího než by odpovídalo cDNA po normálním sestřihu PDR Ula/PDR LI 500 bp 400 bp 300 bp 200 bp 100 bp PDR Ulb/PDR Lib 500 bp 400 bp 300 bp 200 bp 100 bp wt pisl Sestřih RNA a adaptace odchylky rozpoznávání míst sestřihu u rostlin v praxi - příklad vývojové plasticity (nejen) rostlin identifikace mutanta s bodovou mutací (tranzice G—>A) přesně v místě sestřihu na 5' konci 4. exonu analýza pomocí RT PCR prokázala přítomnost fragmentu kratšího než by odpovídalo cDNA po normálním sestřihu sekvenace tohoto fragmentu pak ukázala na alternativní sesřih s využitím nejbližšího možného místa sestřihu v exonu 4 Psil Spei Bell CT GCGAATT ACAAAGTT GT TAT TGTCT TG ATCCT AAATT GAATG CTCTT GTG TT TTC TATTT CT CCAGGAAC TGGTGAAGCT CACTGGT GCAAAAACACATGAAGCCAAGAT AAACATT ATT AATGATGTTAAT GGCAT TAT AAAGC CAGGAAG GTT AG TAG TT GTC TC CTAACTAGTT TTGAT CAAAGTTT TATACCT TCAAG TGT GC T GACGCTT AATGT TT CAACAATAACAGAAC TAGGATTT AACTT AC GAGAACAC AAAAG AT AAAGAGGT CCTTG ACCAC TT CGAGT GACCACGT TT TTGTGTACTT CGGTT CTATT TGT AATAATT ACT ACAAT TACCGTAATATT TCG GT CCT TC CAATC ATC AACAG AG GAT TGATCAAAACTAGTT TCAAAAT ATGGAAGT TC ACACG A ^^^^^^^ RLVVVS. LVLIKVLYLQVC -PDR_U1b J LsJ-no splicing - ppMI |Hpal TATT CTT CT TGCTGTTGCAGGT TAACACTGTT GC TTGGTCC AT AAGAAGAACGACAACGT CCAAT TGT GACAACG AACCAGGí L F F L L L Q L T L L L G -no splicing -1-pis1 DEL — - GCTGTTGCAa - L T L L L G CGKTTLLKALS GNLENNLK -pis1 exon 4 ORF - Msti lr ACAAC TT TGT TAAAG GCCTT GT CT G GAAAT T T AGAAAACAAT CTAAAGGT TC TAATG ATG AAAGC AG TTATATCATT TTCTT GTGAAGAT TT TTT TG CTG CAGCT GT GTG AA GTT TG T AC CT T TT C TGTTG AAACAAT TTC CGGAACAGACCT TTAAATCT TT TGT TAGAT TT CCAAGATT AC TAC TT TCG TC AAT AT AGT AAAAGAACACTT CTAAAAAAAC GAC GT CGACACAC TT CAAACATGGAAAAG Sestřih RNA a adaptace ■ odchylky rozpoznávání míst sestřihu u rostlin v praxi - příklad vývojové plasticity (nejen) rostlin identifikace mutanta s bodovou mutací (tranzice G—>A) přesně v místě sestřihu na 5' konci 4. exonu analýza pomocí RT PCR prokázala přítomnost fragmentu kratšího než by odpovídalo cDNA po normálním sestřihu sekvenace tohoto fragmentu pak ukázala na alternativní sesřih s využitím nejbližšího možného místa sestřihu v exonu 4 existence podobných obranných mechanizmů prokázána i u jiných organizmů (např. nestabilita mutantní mRNA se vznikem předčasného stopkodonu (> 50-55 bp před normálním stop kodonem) u eukaryot, viz doporučená studijní literatura, Singh and Lykke-Andersen, 2003) EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání mládeže a tělovýchovy pro konkurenceschopnost > 1/1 investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Identifikace genů ab initio programy pro predikci exonů □ 4 typy exonů (podle polohy): iniciační vnitřní terminálni jednoduché □ programy kromě rozpoznávání míst sestřihu zohledňují i strukturu jednotlivých typů exonů • iniciační: □ Genescan (http://hollvwood.mit.edu/GENSCAN.html) □ GeneMark.hmm (http://opal.biologv.gatech.edu/GeneMark/) • interní: □ MZEF (http://rulai.cshl.org/tools/genefinder/) investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky GENESCAN The New GENSCAN Web Server at MIT Identification of complete gene structures in genomic DNA w i // to o) . .-. .-oOOo-[_)~o00o-. .-. .-. .-. .-. .-. .-. .-. .-. ..-. 1X1 I IX / I I |X| I I \ /I I |X| | |\ l\ I IXI I |\ /ll|X|||\ / I I IX I I I \ /ll|X||| \ /I I |X| | |\ /MIX / \ I I I x I I I / \l I I x| I 1/ \ I I I x I I I / \ I I I x I I I / \l I |X| I 1/ \ I I I x I I I / \ I I I x I I I / \ I I I x i i I / For information about Genscan, click here riis server provides access to the program Genscan for predicting the locations and exon-intron tmctures of genes in genomic sequences from a variety of organisms. 'his server can accept sequences up to 1 million base pairs (1 Mbp) in length. If you have trouble with le web server or if you have a large number of sequences to process, request a local copy of the rogram (see instructions at the bottom of this page) or use the GENSCAN email server. If your browse s.g., Lynx) does not support file upload or multipart forms, use the older version. Organism: i Suboptimal exon cutoff (optional): Q iequence name (optional): Tint options: Jpload your DNA sequence file (one-letter code, upper or lower case, spaces/numbers ignored): r paste your DNA sequence here (one-letter code, upper or lower case, spaces/numbers ignored): GAGGA G G CACAAAAT GAG GAATATACAAAATGAT C T TAAACAGCTAAACTATAT T GGACATTTTTTCGATC TCAGATATA AAAGATTTCATTCAATATAATACTTGGATAAATACTCTTATTATTTTTCTTTAGTTTATTAAAAAAAACCT ~TAATAAAT ACGAGTTTAAGTCCACAAAATCGCTTAGACTAAAATACACCATATAATTTCAAACGATAAAGTTTACAAAA 3TAATATCC AAGT A T C TCATAG TCAACATATATATAGTAATAAT TAGTTGAC GTATAAGAAAAT AAAAAT AAATAAATTA 3TATCTTAT TTTGGGTGGTGCTGACTGGTGACTGGTGACTGCAGAATGCTCGGCAAATGGAACCATATCCCAAGACATGG 3TTTTAGAT AGAACAAAATAAGTGTCCGAAGGAATGATATTAAAAGTCAAATAGAATAATTATAAATATTGTAATTAGCA AATAAAAAG 'o have the results mailed to you, enter your email address here (optional): GENESCAN CENSCANW output for sequence CKI1 GENSCAN 1,0 Date run: 10-Nov-105 Time: 02:24:26 Sequence CKI1 : 9490 bp : 36.53% C+G : Isochore 1 (0-43 C+G%) Parameter matrix: Arabidopsis. smat Predicted genes/exons: Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr.. 1 . 00 Prom + 1497 1536 40 3 85 1.01 Init + 3708 3764 57 0 63 51 37 0 499 03 1.02 Intr + 3894 4133 240 0 327 0 713 17 32 1.03 Intr + 4255 4914 660 0 0 86 59 296 0 771 22 57 1 . 04 Intr + 5005 5383 37 9 0 1 70 91 343 0 772 31 41 1 .05 Intr + 5473 6056 584 2 2 38 99 582 0 722 50 76 1 . 06 Intr + 6136 7368 1233 0 0 58 108 655 0 977 56. 86 1 . 07 Term + 7448 7660 213 1 0 43 35 212 0 999 12 65 1 .08 PlyA + 7910 7915 6 -0. 45 2 . 03 PlyA - 7976 7971 6 -4 83 2 . 02 Term - 8793 8050 744 0 0 107 37 542 0 997 48 46 2.01 Init - 9253 8936 318 1 0 105 73 336 0 999 41. 18 Suboptimal exons with probability > 0 100 Exnum Type s .Begin . .End . Len Fr Ph B/AC Do/T CodRg p Tscr.. S.001 Init + 1867 1905 39 0 0 54 40 57 0 298 3. 74 S.002 Init + 2374 2442 69 0 0 55 95 -11 0 132 2. 40 S.003 Intr + 3894 4110 217 2 1 -3 -34 307 0 177 11 55 S.004 Intr + 4352 4914 563 0 2 75 59 338 0 187 26 20 S.005 Intr + 5005 5379 375 0 0 70 8 335 0 212 22 99 S.006 Intr + 5442 6056 615 2 0 95 99 589 0 208 57 32 r r GENESCAN GENSCAN predicted genes in sequence 02:56:23 2 El I I i... 11111111... i.... i......... i.... i I . . .......I .... i .... I kb 0.0 0.5 1.0 1.5 2.0 2.5 3.0 4.0 4.5 5.0 i ir i....i....i.... i.... i.... i.... i i....i....i....i....i....i....i....i 5.0 5.5 6.0 6.5 Si :■ K.5 Key: Initial ex on Internal exon lonriinal exon Single-ex on Optimal exon Subopthual exon Regulace translace • Funkční význam sestřihu v nepřekládaných oblastech - důležitá regulační součást genů Translační represe prostřednictvím krátkých ORF v 5'UTR Identifikováno např. u kukuřice (Wang and Wessler, 1998, viz doporučená lit.) V případě CKI1 pokus prokázat tento způsob regulace genové exprese pomocí transgenních linií nesoucích uidA pod kontrolou dvou verzí promotoru, zatím nepotvrzeno m k r a f . ATGaaaagagcttttTAG ATGatggtgaaagttaca.... m k r a f . m m v k v t... ATGaaaagagcttttTAG ATGatggtgaaagttaca.... EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzděiávání MLÁDEŽE A TĚLOVÝCHOVY pro konkurenceschopnost > investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Regulace translace • Funkční význam sestřihu v nepřekládaných oblastech - důležitá regulační součást genů 1 V případě CKI1 pokus prokázat tento způsob regulace genové exprese pomocí transgenních linií nesoucích uidA pod kontrolou dvou verzí promotoru, zatím nepotvrzeno BamHI gaggaggcacaaaatgacgaa -//- tgtattcttttgttatcaaagggtttcgactttgctccgaggaagaagataatatgftqgatcccccgggtaggtcagtcccttatgttacgtcctgtagaaaccccaacc (m)ri prvgqslmlrpvetpt -2739 vkvtk. BamHI gaggaggcacaaaatgacgaa-//- gttatacaagttcactcaaatgatggtgaaagttacaaagcttgtggcttcacgtcggatcccccgggtaggtcagtcccttatgttacgtcctgtagaaaccccaacc MMVKVTKLVASR Rl PRVGQSLMLRPVETPT - intron I exon EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání MLÁDEŽE A TĚLOVÝCHOVY pro konkurenceschopnost > investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Genové modelování programy pro genové modelování □ zohledňují také další parametry, např. návaznost ORF □ Genescan (http://hollvwood.mit.edu/GENSCAN.html) velice dobrý pro predikci exonů v kódujích oblastech (testováno na genu PDR9, identifikoval všech 23 (!) exonů □ GeneMark.hmm (http://opal.biologv.gatech.edu/GeneMark/) □ GlimmerHMM (https ://ccb. i h u. ed u/softwa re/g I i m me rh m m/) investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky GeneMark GeneMark™ A family of gene prediction programs provided by Mark Borodovsky's Bioinformatics Group at the Georgia Institute of Technology, Atlanta, Georgia. What's New: - November, 2005 Supported Prokaryotes: predicted by NIH gene database. Prokaryotes: models for GeneMark and GeneMark.hmm. Gene Prediction in Bacteria and Archaea For bacterial and archaeal gene prediction, you can use the parallel combination of the GeneMark and GeneMark.hmm programs here. If the DNA sequence of interest belongs to a species whose name is not in the list of available models, you should use either the Heuristic models option or, if the sequence is longer than 1 Mb, generate models with the self-training program GeneMarkS. Both options will allow you to generate models and then to use GeneMark.hmm and GeneMark in parallel. Gene Prediction in Eukaryotes For eukaryotic gene prediction, you can use the parallel combination of the GeneMark and GeneMark.hmm programs here. Gene Prediction in EST and cDNA To analyze ESTs and cDNAs, please follow this link. Gene Prediction in Viruses ztfmb F°r viral gene prediction, or to access our mE» virus database VIOLIN, please follow this link. What the programs do: Borodovsky Group Gene Prediction Prog rams • GeneMark • GeneMark.hmm • Frame-by-Frame • GeneMarkS • Heuristic models Statistics • Documented GeneMark.* usage Help . References • Papers . FAQ • Contact Databases of predicted genes . ProkaryotesNevv! • Viruses/Phages (VIOLIN) Bioinformatics Resources • Links Bioinformatics Studies at Georgia Tech • MS Degree Program • PhD Program • Lectures . Seminars . Center for Bioinformatics and Eukaryotic GeneMark.hmm^1|2' jM°iithLLEMe) References: ^Borodovsky M. and Lukashin A, (unpublished) zLonnsadze A., Ter-Hovhannisyan V., Chernoff Y. and Borodovsky M., "Gene identification in novel eukaryotic genomes by self-training algorithm" Nucleic Acids Research, 2005, Vol. 33, No. 20, 6494-6506 Accuracy comparison UPDATE October 2005. Added pre-built models of eukaryotic GeneMark.hmm ES-3.0 (E -eukaryotic; S - self-training; 3.0 - the version) Listing of previous updates Input Sequence Title (optional): 9_ fl EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání MLÁDEŽE A TĚLOVÝCHOVY pro konkurenceschopnost > [ČKŤT Sequence:^ iittittcartcaiattciíiiajgttitttcjttttcjttjgigíccíttítitcjjctttcttjitgaaSctttitťtcttctit gtgaijtctajttaajactjttttcgtf^tatattgjt^ttajjjatgaajatcttttggtttttatgttt aatcattttcatgagtat agatttaagfctaaaactaatatccgaat gcctgagatatfc gfcťfccctaaaatgagatgatt gtttttaťfctattaccatgatttgfctt gt cfcttccccfcfctgcaatacÄajgafcafeaaattcafcaeatjfcfccetaattfcfcÄttttgcact* j tctatatctatattattttactcttttcttcgtcgtcatttatagtatattatatatatgcacacacacacacacctatatgtatagctc aaaatatatagaaa.tggatcttgagaatcattttttttgSattcttttgfetafccaaagggtttcgac^ttgctc^gaggaagaagataat ctttttagggtttatcattctccttgactttgcaaaacgfcgaaatgtaaggcactttgatcgttgtactttgttgctttttatabľgtatc at aa gttaacaat gctt cct c gtagaattgcaaaacattfcgtggacc gtgatfctacatgact jagctcttttcagtggcttcttfcgcajc rtggaggactaatcaagacagaaatcfcgttcctctaaaaLacgatcgccgttcfcagjtaatcttgccattc-ttgacgagtc-ttgatct-t-ta rataagggafceacjagafcaeacgfcat*aa*ta*fcatt*rttfcfctt**ttgct*t*tgfcgg*tataĽaag**cac rTtT&KTTCACCTCCňňTTtT&&TCTTTT&C&TCCT>aattctgctttcfcttcttctaaattatacgatgattctacatttctac-tc z gttttt c aut jat at aatt att gtgt gt atat c ac c catt c atgt at attt at t gaaaaat atag&C ATT C CT>G-GTTGTTTT C G-A ATCTCAAATTGGC&AACAACAAC&&ň&AACCTA&TCAAA&A&&TCGCTTCňTTT^ jAAAATTTACATAT&CCAA&ACAAACTTATCTAC&ATCr^TTTAKGA&A&TTATA& A AC AC Laactaatt acat aaatti att ctt agfct att atctt gttat at aacatt aact at a at r gtt gHrt qHrt gtt att attgtt ctt cagAT C « AC C ATT&TT &TTT &T A&CTC j&TCTCAT&TTTTCTTACATT&CA&AATCAAACACAA&T&TC&CTGTTTTTKCAAT^ AAACCCT&&ATCA&TTAACTG&TC&TCTTAAC&&&AACTCAACGAAATCTCA^ TAACTACACTACA&CCTTTGTA&&AACGA&CTT&&GA&r^&AAGATAAC& rCTTTA&&G-TTTCC&&TTAAGACTTTňňCC&AAG-TTTT^ACAGTTTG-AňTCrňCACGGC&ňAG-A&CTTTACATG-T&GňCAAňGGňC&G-C TT C &T r^A&&TT C ACT&AAT G ATT CTTT CTT CAT CT C C AAT&&CTC&ATTT «^ rTGCACTTCCň&TG-&CTňCGňG-&T&^GňTCAAňňGňTTAA&ňTACCAA&CTTTTT&CTCTGTTATT&ňňCTTTC&&HG-TTCCTCT> acat attt c act tt gatgcagt aaaaat g c atcgactt gtt gtttct c agctt ctt ccaatggttfcttttttt gccagAGAT AC AC ACT C ACAAAWA&&A&CAACACKATCAAKACCAA&C&GAAAA&&CAAAATATCAACTTATTCT ľ GT GT GG-TTT AT GATGC AAGC AAC AAG-GAGAGAGAT GC AT AT G-C GTGC AAC KT GAT AAAC C AAATGGAAGCGACACAACAAGCTGAGAG Sequence File upload:e Species :0| Aihdiana ES-3.0 Model description Output Options Email Address: (required for graphical output or sequences longer than 400000 bp)6 I b£] Generate PDF graphics (screen) H Generate PostScript graphics (email)* n Print GeneMark 2,4 predictions in addition to GeneMark,hmm predictions* □ Translate predicted genes into protein* 1 Run Default I Start GeneMark.hmm | LÁVÁNÍ ...nancovana Evropským sociálním fondem a státním rozpočtem České republiky GeneMark Result of last submission: View PDF Graphical Output GeneMarkhmm Listing Go to: GeneMarkhmm Protein Translations Go to: Job Submission EuJtariofcyc G-erueElArk . hnun version, bp 3.9 ^>zil £5, £008 Sequence mine: CKI1 Sequence lsri.gt±i: 5043 bp G+C content: 38.79* Eta.tr ices file: /honni/genjinark/ 4uJí_ghjiň. matr icts/ atb-a.1 i ana_hjYun3. Ornod Thu Oct 1 11:09:24 £009 r r r1 r r„ r r iBpuEI I6* r r Predicted gcries/ «cutis Gene Eicon. Strand Eh on. Eicon Raxigs Eicon Start/End It S Typt Length. Frame 1 1 + lni* ial 963 ľ . ' 57 1 S - - 1 2 :.....-. 1155 1394 240 1 J Iivfc c r ni 1 1516 £175 £60 1 4 + Internal ZZ66 £644 379 1 S + Int e indl £"734 3317 584 1 5 + Int e ihaI 3397 45£9 1233 1 T + Terminal 4109 49£1 £13 r r Wir EVROPSKÁ UNIE N ER MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání MLÁDEŽE A TĚLOVÝCHOVY pro konkurenceschopnost > /zdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky GeneMark Result of last submission: View PDF Graphical Output GeneMarkhmm Listing Go to: GeneMarkhmm Protein Translations Go to: Job Submission EuJtariotyc GeneHark . bnran version, bp 3.9 ^>zil Z5{ £008 Seojuence name: CKI1 Seq-uence lengtli: 5043 bp G+C content: 3S."J3* Eta.tr ices file: /honňe/gerairiark/ euJí_ghjiň. matr icts/ atb-al i ana_hjYuiri3. Ornod Thu Oct 1 11:09:24 £009 GeneMark.hmm prediction Thu Nov 10 03:23:47 EST 2005. Order 5. Window 96. Step 12, 4/6 Predicted genes/ exons Gene Ex on Strand Ex on S S Type Eicon Range Ľ son Length. St art/End frame Genové homologie ■ vyhledávání genů podle homologií ■ porovnávání s EST databázemi □ BLASTN (http://www.ncbi.nlm.nih.gov/BLAST/) ■ porovnávání s proteinovými databázemi □ BLASTX (http://www.ncbi.nlm.nih.gov/BLAST/) □ Genewise (https://www.ebi.ac.uk/Tools/psa/genewise/) porovnávají proteinovou sekvenci s genomovou DNA (po zpětném překladu), je nutná znalost aminokyselinové sekvence ■ porovnávání s homologními genomovými sekvencemi z příbuzných druhů □ VISTA (http://genome.lbl.gov/vista/index.shtml) investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Osnova Identifikace genů ab initio ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzděiávání MLÁDEŽE A TĚLOVÝCHOVY pro konkurenceschopnost > 1/1 investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Genomová kolinearita genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích, možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích Obecné schéma postupu při využívání genomové kolinearity (také „komparativní genomika") při experimentální identifikaci genů příbuzných organizmů: □ mapování malých genomů s využitím nízkokopiových DNA markem (např. RFLP) □ využití těchto markem k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí) příbuzného organizmu □ malý genom (např. rýže, 466 Mbp) může sloužit jako vodítko, kdy jsou identifikovány molekulární nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti jsou pak použity jako sonda při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí velkých genomů (např. ječmene nebo pšenice, 5000, resp. 16000 Mbp) Genomová kolinearita 140 kb A 20 kb Maize (2500 Mbp) Rice (400 Mbp) B 50 kb Hexaploid wheat (16 000 Mbp) I Barley (5000 Mbp) □ Rice (400 Mbp) c High gene density Feuillet and Keller, 2002 1 Mb Genomová kolinearita zejména využitelné u trav (např. využití příbuznosti u ječmene, pšenice, rýže a kukuřice) malé geonomové přestavby (dalece, duplikace, inverze a translokace menší než několik cM) jsou pak detekovány podrobnou sekvenční komparativní analýzou během evoluce dochází u příbuzných druhů k odchylkám především v nekódujících oblastech (invaze retrotranspozonů atd.) Maize 12500 Mbp] =■=□=»0 I lexaploid whttt (16 000 Mhp) Barky (5000 Mbp) Ri« (400 Mbp) > IMI EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzdělávání MLÁDEŽE A TĚLOVÝCHOVY pro konkurenceschopnost INVESTICt uu KU/ivujt vz.utLMVÁNi Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Genomová kolinearita Genomová kolinearita HOX genů u živočichů ■ Transkripční faktory řídící organizaci těla v anterio-posteriorní ose ■ Pozice genů v genomu odpovídá i prostorové expresi během vývoje Mezidruhově konzervováno -h-:_i—i—h- ^ř:i,-..',i;. i li na i do i -^8i*ncHu*jipiaH(jw13 1 DD PG9-14 Posterior Cdx Lup Ts1 mna ť: Capitnlí-a IojU * r-ibJiu"i Jbi Tu!.ii ii.i h!::.A hawaa|MedPost - FtKosanKa l-a»-a „, n — Branch cela tg Hc^B QraroTioplQfna HovA - BiaiTy.ipagy^JtoK? rnbafixn anb — ■ l.i'.:.-.t;ii;.,i htař.7 1— ĚLg-virrBump E ■— TrítoiuirScr - Hvirsig.liHr--1, rf íopítdtu Itr1 - , . . ..... na srr - id -j IlHIu Bh ■i Ii-1 r1 flI i:L5F.F. ŤÍMUg Itbiul nHhU — djun::hi:iH:i:n;i bvx Trbolium rmi - Ů.l Eve i Mox PG8 PG7 PG6 PG5 PG4 Xlox Gsx PG3 PG1-2 Anterior Central Osnova ■ Experimentální identifikace genů ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání MLÁDEŽE A TĚLOVÝCHOVY pro konkurenceschopnost > investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Metylační filtrování ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování ■ geny jsou (většinou!) hypometylované, kdežto nekódující oblasti jsou metylované ■ využití bakteriálního RM systému, který rozpoznává metylovanou DNA pomocí rest. enzymů McrA a McrBC □ McrBC rozpoznává v DNA metylovaný cytozin, který předchází purin (G nebo A) □ pro štěpení je nutná vzdálenost těchto míst z 40-2000 bp investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Metylační filtrování ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování ■ Schéma postupu při přípravě BAC genomových knihoven pomocí metylačního filtrování: příprava genomové DNA bez příměsí organelární DNA (chloroplasty a mitochondrie) □ fragmentace DNA (1-4 kbp) a ligace adaptorů příprava BAC knihovny v mcrBC+ kmeni E. coli □ selekce pozitivních klonů ■ omezené využití: obohacení o kódující DNA o pouze cca 5-10 % investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Osnova ■ Experimentální identifikace genů ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování ■ EST knihovny EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání MLÁDEŽE A TĚLOVÝCHOVY pro konkurenceschopnost > 1/1 j. investice do rozvoje vzdělávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky knihovn příprava EST knihoven izolace mRNA ligace linkerů a syntéza druhého řetězce cDNA klonování do vhodného bakteriálního vektoru transformace do bakterií a izolace DNA (amplifikacě DNA) ^ sekvenace s použitím primem specifických pro použitý plasmid uložení výsledků sekvenace do veřejné databáze cctacgattatacccccaa ggatgctaatatgggggttatacaagtgtt jjttttttit: Základy genomiky II, Identifikace genů Klíčové koncepty ■ Přímá vs. reverzní genetika ■ Gen jako faktor určující frekvenci fenotypu vs. fyzická entita, která existuje nezávisle na fenotypu ■ Identifikace genů ab initio ■ struktura genů a často i jejich poloha v ■ Experimentální identifikace genů ■ příprava genově obohacených knihoven ■ EST knihovny ■ přímá a reverzní genetika (přednáška 03) genomu je konzervovaná investice do rozvoje vzdělávání Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Diskuse EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, MLÁDEŽE A TĚLOVÝCHOVY 4Ĺ OP Vzdělávání pro konkurenceschopnost investice do rozvoje vzdelávaní Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky