CG020 Genomika Přednáška 2 Identifikace genů Jan Hejátko Funkční genomika a proteomika rostlin, Středoevropský technologický institut (CEITEC) a Národní centrum pro výzkum biomolekul, Přírodovědecká fakulta, U l\l I Masarykova univerzita, Brno heiatko@sci.muni.cz, www.ceitec.eu ^ SCI Literatura ■ Zdrojová literatura ke kapitole 2 Plant Functional Genomics, ed. Erich Grotewold, 2003, Humana Press, Totowa, New Jersey Majoros, W.H., Pertea, M., Antonescu, C. and Salzberg, S.L. (2003) GlimmerM, Exonomy, and Unveil: three ab initio eukaryotic genefinders. Nucleic Acids Research, 31(13). Singh, G. and Lykke-Andersen, J. (2003) New insights into the formation of active nonsensemediated decay complexes. TRENDS in Biochemical Sciences, 28 (464). Wang, L. and Wessler, S.R. (1998) Inefficient reinitiation is responsible for upstream open reading frame-mediated translational repression of the maize R gene. Plant Cell, 10, (1733) de Souza et al. (1998) Toward a resolution of the introns earlyylate debate: Only phase zero introns are correlated with the structure of ancient proteins PNAS, 95, (5094) Feuillet and Keller (2002) Comparative genomics in the grass family: molecular characterization of grass genome structure and evolution Ann Bot, 89 (3-10) Frobius, A.C., Matus, D.Q., and Seaver, E.C. (2008). Genomic organization and expression demonstrate spatial and temporal Hox gene colinearity in the lophotrochozoan Capitella sp. I. PLoS One 3, e4004 ^CEITEC Osnova Postupy „přímé" a reverzní genetiky rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Identifikace genů ab initio ■ struktura genů a jejich vyhledávání genomová kolinearita a genová homologie Experimentální identifikace genů příprava genově obohacených knihoven pomocí technologie metylačního filtrování EST knihovny ■ přímá a reverzní genetika Osnova Postupy „přímé" a reverzní genetiky rozdíly v myšlenkových přístupech k identifikaci gen jejich funkcí Přímá vs. reverzní genetika Revoluce v chápání pojmu genu Přístupy „klasické" genetiky „Reverzně genetický" přístup 5 TT AT AT AT AT AT ATT AAAAAAT AAAAT AA Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis 6 Identifikace role genu ARR21 Recent Model of the CK Signaling via Multistep Phosphorelay (MSP) Pathway HPt Proteins • AHP1-6 NUCLEUS PM AHK sensor histidine kinases • AHK2 • AHK3 • CRE1/AHK4/WOL 2 Response Regulators ^^n^n^- ARR1-24 REGULATION OF TRANSCRIPTION INTERACTION WITH EFFECTOR PROTEINS Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST 8 ^CEITEC Identifikace role genu ARR21 - izolace inz. mutanta vyhledávání v databázi inzerčních mutantů (SINS) Insert SI1ÍS; 01 09 64 Query: 80 tcctagcqtt Eatgagcgtaccatacttgacaanagagaicgtagccagccatttacagq 139 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 58319 tcctagcgttcatgagcgtaccatacttgacaagagagaacgtagccagccatttacagg 58378 flrr21: 1830 Insert_SIHS: 01_09_64 Query: 140 tttgatatctcttgtcaaaaatgtttttggattttantgt 179 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 58379 tttgatatctcttgtcaaaaatgtttttggattttantgt 58418 Ai* 21: 1890 lokalizace inzerce dSpm v genomové sekvenci ARR21 pomocí sekvenace PCR produktů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA 10 ^CEITEC Identifikace role genu ARR21 - analýza exprese Standardní typ Inzerční mutant 11 ^CEITEC Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA •Analýza fenotypu inzečního mutanta Identifikace role genu ARR21 - analýza fenotypu mutanta Analýza citlivosti k regulátorům růstu rostlin 2,4-D a kinetin etylén světlo různých vlnových délek O) Q 4 100 30 10 Doba kvetení i počet semen nezměněn 3 10 30 100 300 1000 kinetin j.ig ■ 11 8p> (ZZEElTEEd Identifikace role genu ARR21 - příčiny absence fenotypu Funkční redundance v rámci genové rodiny? Identifikace role genu ARR21 - příbuznost ARR genu Legpnda: □ AKR.-A ■ AER-B O nalezena alespoň jedna EST Identifikace role genu ARR21 - příčiny absence fenotypu Funkční redundance v rámci genové rodiny? Fenotypový projev pouze za velmi specifických podmínek (?) Identifikace role genu ARR21 - shrnutí Gen ARR21 identifikován pomocí srovnávací analýzy genomu Arabidopsis Na základě analýzy sekvence byla předpovězena jeho funkce Byla prokázána místně specifická exprese genu ARR21 na úrovni RNA Identifikace funkce genu pomocí inzerční mutageneze v případě ARR21 ve vývoji Arabidopsis byla neúspěšná, pravděpodobně v důsledku funkční redundance v rámci genové rodiny Osnova Identifikace genů ab initio struktura genů a jejich vyhledávání Struktura genů ATG.... ATTCATCAJ místa sešfij kodot 3'UTR / polyadei signál Identifikace Genů Ab Initio zanedbání 51 a 31 UTR identifikace počátku translace (ATG) a stop kodonu (TAG, TAA, TGA) nalezení donorových (většinou GT) a akceptorových (AG) míst sestřihu využití různých statistických modelů (např. Hidden Markov Model, HMM, viz doporučená studijní literatura, Majoros et al., 2003) k posouzení a ohodnocení váhy identifikovaných donorových a akceptorových míst 20 á£& (=EEITEECI Sestřih RNA 5' splice 5 site eKon 4 intron 3 splice site 3' eHon □n conserued regions 21 S£2> C^EITEECI Identifikace Genů Ab Initio ■ programy pro predikci míst sestřihu (specificita přibližně 35%) (https://services.healthtech.dtu.dk/services/NetGene2-2.42/) NetGene 2 CENTERFO RBIOLOGI CALSEQU ENCEANA LYSIS CBS CBS » Prediction Servers » NetGenc2 IS Haaras Bf CM 03 IF; (.1 NetGene2 Server The NetGene2 server is a service producing neural network predictions of splice sites in human. C. elegans and A. thaliai Instructions Output format Abstract Performanc SUBMISSION Submission of a local file with a single sequence: File in FASTA format_I Browse." I B Human Cc. elegans A thaliana I Clear fields j | Send file "| Submission by pasting a single sequence: Sequence name (J Human Cc. elegans A. thaliana Sequence GAGGAGGCACAAAATGACGAATATACAAAATGATCTTAAACAGCTAAACTATATTGGACATTTTTTCGATC I TCAGATATA AAAGATTTCATTCAATATAATACTTGGATAAATACTCTTATTATTTTTCTTTAGTTTATTAAAAAAAACCT CTAATAAAT ACGAGTTTAAGTCCACAAAATCGCTTAGACTAAAATACACCATATAÄTTTCAAACGATAAAGTTTÄCAAAA \ I Clear fields"^ [ Send file ] NOTE: The submitted sequences are kept confidential and will be erased immediately after processing NetGene 2 i I _ ALL*- llii I II L-l ' Ci' flAGC Prediction done NetGene2 v. 2.4 The sequence: Sequence has the following composition: Length: 9490 nucleotides. 31.8% A, 17.0% C, 19.6% G, 31.7% t, 0.0% X, 36.5% G+C Donor splice sites, direct strand pos 5'->3' phase strand confidence 1704 3 + 0 87 1906 0 + 0 99 3582 1 + 1 00 3765 1 + 1 00 4134 0 + 0 74 4619 : + D 7 4 4915 3 + D 94 5356 3 + D k; 5384 _ + 1 CC 5809 _ + 1 cc 605 1 0 + 1 00 6096 1 + D 7 4 7369 3 + 1 cc 7886 3 + D 7 4 9323 3 + D 7 4 Donor splice sites, complement strand pos 3'->5' pos 5'->3' phase strand confidence Acceptor splice sites, direct strand 5' exon intron 31 ttccaaacac"gttaatattt cgctgaacgcgtcagaacat gccgttctacg taatcttgc h ttgcgtcctgagtaattctgc h tc aaac ac ag " [tl't gttaaaa agcaagaaag"gtcttgtttc cgtrcctctcgtaaatactg tctcaaccaa"gtgaatgttt gatttggttg"gtaagactct h tatcctaaag"gtgtgtccaa gcastctttg"gtaagctact h g-tcttcacaa"gtaaatctag ggactgccaa"gtaagtttaa h gaacaaaatg"gttagatgaa gaagattagcgtttttctct exon intron pos 5f->3' phase confidence 5' intron exon 3' 1213 0 - 0 TATTTTTTAGA TTATGGAGAC 1221 2 ■ 87 AGTTATGGAGAACAAGAATCG 1373 V. - 71 TCTCTCACAGA GACACAGAAT 1487 1 + 0 81 ATATTGATAGATGGGACATTA 4254 0 + 1 00 TGTTCTTCAGAATCGCACCAT H 4032 2 • 0 AAAATTGCAG A TTCCAGTGGC 5004 C ■ TTTTTGCCAGAAGATACACAC 5472 1 ■ 0 AAAATTACAGACTCTGCTCAA 6135 c ■ l CC ATTATTATAG A GTAAGATTAA H 6490 1 ■ 0 AAAGTTACAGATGGTGGAGAA 6744 c ■ TGTCAAACAGATTTCGTAGAG 7447 c - 0 TTCTGCACAGAATGCCAGAAA 7780 2 ■ ■ TCCATTTCAG AATACAGAACA 7786 2 • 92 TCAGATACAG AAACACATGCA USUCTCTTaSTUUlU ^gl jSn^fl. r ^Sll BS3SI ATC"*llUTA*KClUa[G6C*T*r4[LUrTAlTrATU^ ;rtL* 1 ** ' i as I »a :AAAAAAj.*iA*AA*::;;ju.tA/inf.LCAA*j I [TiLfiTCtTGGTAAITCTlrZTl 1CTTTCTTC?#AATr*7ACGATJHTTC'KkTrTCTiLTC4TCrCGTTCTTfiT'IT77C)l4AIGAT|lTWrTATTIiTtTETATirc»£CCAlK*.TSlATATTTATrijM> '■: .i-'i'-'iijrAi^Wi'.-'in ' r>'-1 n 1 [^r.I AT I "r;i mhm W, Ii".^:LTm jf.'jL3;.\_/.;. 1rL| ■ IlLlllfl 11 AtUlCJ AATmCGeATTECTQQiBCNqTTTTCCilCTCMTITWAlCTCAU^ iqccaact uiit Sestřih RNA a adaptace odchylky rozpoznávání míst sestřihu u rostlin v praxi - příklad vývojové plasticity (nejen) rostlin identifikace mutanta s bodovou mutací (tranzice G—>A) přesně v místě sestřihu na 5' konci 4. exonu Bsmi AIWNI r Bsml AIwNI Bpml PflMI Asel Psil Spel Bell ^^^^^ RLVVVS . LVLI KVLYLQVC -PDR_Uli LsJ-no splicing- 1-11 -EXON 3-L ELVKLT GAKTHEAKINIINDVNGIIKPGR -PDR exon 3 ORP- Pstl BspMI jHpal |Stul jpvull ■mTTCTTCTTGCTGTTGC \G rTAACACTGTTGCTIGGrO^OCTASCTGGGGAAW .........I........fff.......I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I.........I ' ■ ■ ATAAG^GAACGACAACGTOTOT L F F L L L Q I ^^^^^^^^^^^^^^^^^^^H — no splicing— -I E-pisl EXON-4- C GKTTLLKALS GNLENNLK -pis1 exon 4 ORP- LTLLLGPPSCGKTTLLKALSGNLENNLK -PDR exon 4 ORP- PDR_L4 Sestřih RNA a adaptace identifikace mutanta s bodovou mutací (tranzice G—>A) přesně v místě sestřihu na 5' konci 4. exonu analýza pomocí RT PCR prokázala přítomnost fragmentu kratšího než by odpovídalo cDNA po normálním sestřihu PDR_U1a/PDR_L1 PDRJJ1 b/PDR_L1b wt pisl 500 bp 400 bp 300 bp 200 bp 100 bp - 500 bp - 400 bp - 300 bp - 200 bp - 100 bp wt pisl Sestřih RNA a adaptace ■ odchylky rozpoznávání míst sestřihu u rostlin v praxi - příklad vývojové plasticity (nejen) rostlin identifikace mutanta s bodovou mutací (tranzice G—>A) přesně v místě sestřihu na 5' konci 4. exonu analýza pomocí RT PCR prokázala přítomnost fragmentu kratšího než by odpovídalo cDNA po normálním sestřihu sekvenace tohoto fragmentu pak ukázala na alternativní sesřih s využitím nejbližšího možného místa sestřihu v exonu 4 existence podobných obranných mechanizmů prokázána i u jiných organizmů (např. nestabilita mutantní mRNA se vznikem předčasného stopkodonu (> 50-55 bp před normálním stop kodonem) u eukaryot, viz doporučená studijní literatura, Singh and Lykke-Andersen, 2003) ^CEITEC Identifikace genů ab initio programy pro predikci exonů □ 4 typy exonů (podle polohy): iniciační vnitřní terminálni jednoduché □ programy kromě rozpoznávání míst sestřihu zohledňují i strukturu jednotlivých typů exonů • iniciační: □ Genescan (http://hollvwood.mit.edu/GENSCAN.html) i (h ď) • interní: □ MZE F (http://rulai.cshl.org/tools/qenefinder/) á£2>(=Err GENESCAN The New GENSCAN Web Server at MIT Identification of complete gene structures in genomic DNA \\ l N (o o} . .-0OO0-[_j-aOOo-. .-. .-. .-. .-, .-. .-. IX) ||\ /| l IXI I IV /I I IXI I|\ /I I|X|Il\ /MIKIIIV /I]|X|I I\ /MIXIIIV /I I IXI 1 |\ /MIX / MHXill/ S I 1X111/ MUX! 1/ \ I I IX E I 1/ MIX!' Ml XII!/ '■. . I ■ X i \ ! I I X I I .-' For in Tor mat i on about Cicnncaii, click here "his server pncivides attie^K lo Lhu pmjjnim Genst:axi fnr predicting, the locations and exon-antron imaurcs of genes in genomic sequences from a variety of organisms, "his server can accept sequences up to I mil Lion base pairs (I Ylhpj in length. If you have trouble with "m; weh server or if"you have a large number of sequences (n process, request a kital POpy ofthe ■roe ram (see insLruciions at the bottom of this page)orusc itie GENSCAN email server. If your browse C,gr-, lynv^docs nni suppon file upfuad or mijliipjn forms. U5e the colder version. Suboptimal c-Atjn tulflT(tjpti(.m&lj, equenc-e name (optional): | rim options: " load your DNA sequence file (one-letter code, upper or lower case-.. spaces/n umbers i^nnre-d): )rpaste your UNA sequence here (one-letter code, upper or lower cuseL spaee^n umbers ignored); AAAGATTTCATTCAATATAATACTTG<^TAAATACTCTTATTATT^ CTAATAAAT ACGAOTTTWGTCCACAAftňTCGCTTAGACTAAAATRCACCATftTAATTTCAAACGATAAAGTTTACAAAA GTAATATCC AA GT ATCT CAT AGTCAACAT ATAT ATAGT AATAATTAG TTG ACGTAT AAGAAAAT AAAA ATAAAT AAATTA GTATCTTAr TTTGGGTGGTGCTGACTGGTGACTGGTGACTGCAGAATGCTGGGCAAATGG AACCATATCCCAAGACATGG GTTTTAGAT AG AACAAňATAftGTC T C CĚAAGGAATGňT ATTflflAAGT CAAATAfiAftTAftTTATflAATňTTCTAATTAGCA AATAAAAAC To have (he results- mailed lo yon, enter your email address here (optional): GENESCAN CENSCANW output for sequence CKI1 GENSCAN 1.0 Date run: 10-Nov-105 Time: 02:24:26 Sequence CKI1 : 9490 bp : 36.53% C+G : Isochore 1 (0-43 C+G%) Parameter matrix: Arabidopsis.smat Predicted genes/exons: Gn Ex Type s .Begin . .End . Len Fr Ph I/AG Do/t CodRg P Tscr.. 1 00 Prom + 1397 1536 40 -3 85 1 CI Init + 3708 3764 57 2 0 63 51 37 0 499 03 1 02 Intr + 3894 4133 240 2 0 327 0 713 17 32 1 03 Intr + 4255 4914 660 0 0 86 59 296 0 771 22 57 1 04 Intr + 5005 5383 37 9 0 1 70 91 343 0 772 31 41 1 05 Intr + 5473 6056 584 2 2 38 99 582 0 722 50 76 1 06 Intr + 6136 7368 1233 0 0 68 108 655 0 977 56 86 1 07 Term + 7448 7660 213 1 0 43 35 212 0 999 12 65 1 08 PlyA + 7910 7915 6 -0 45 2 03 PlyA - 7976 7971 6 -4 83 2 02 Term - 8793 8050 744 0 D 107 37 542 0 997 48 46 2 01 Init - 9253 8936 318 1 0 105 73 386 0 999 41 18 Suboptimal axons with probability > 0.100 Exnum Typs s .Begin ...End . Len Fr Ph b/ag do/t CodRg P.... Tscr.. s 001 Init + 1867 1905 39 0 0 64 40 57 0 298 3 74 s 002 Init + 2374 2442 69 0 0 55 95 -11 0 132 2 40 s 003 Intr + 3894 4110 217 2 1 -3 -34 307 0 177 11 55 s 004 Intr + 4352 4914 563 0 2 75 59 338 0 187 26 20 s 005 Intr + 5005 5379 375 0 0 70 8 335 0 212 22 99 s 006 Intr + 5442 6056 615 2 0 95 99 589 0 208 57 32 GENESCAN GENSCAN predicted genes in sequence 02:56:23 J kb 5.0 5.5 6.0 6.5 7.0 7.5 I Optimal exo]i Ke\: [nitia] I Interna] Tennina] Single-exon ^ BXOD ■ «on ^ cxon ^ gene |-| SuboptilIlill ^ Regulace translace Funkční význam sestřihu v nepřekládaných oblastech - důležitá regulační součást genů Translační represe prostřednictvím krátkých ORF v 5'UTR Identifikováno např. u kukuřice (Wang and Wessler, 1998, viz doporučená lit.) V případě CKI1 pokus prokázat tento způsob regulace genové exprese pomocí transgenních linií nesoucích uidA pod kontrolou dvou verzí promotoru, zatím nepotvrzeno M K R A F . ATGaaaagagcttttTAG ATGatggtgaaagttaca.... M K R A F . M M V K V T... ATGaaaagagcttttTAG ATGatggtgaaagttaca.... 32 á£& (ZľEElTEECI Genové modelování ■ programy pro genové modelování □ zohledňují také další parametry, např. návaznost ORF □ Genescan (http://hollvwood.mit.edu/GENSCAN.html) velice dobrý pro predikci exonů v kódujích oblastech (testováno na genu PDR9, identifikoval všech 23 (!) exonů i (http://opal.bioloqy.qatech.edu/GeneMark/) íMM (http tt/) GeneMark GeneMark™ A Family of gene prediction programs provided by Mark Borodovsky's Bio in for ma tics Group at the Georgia Institute of Technology, Atlanta, Georgia. What's New: - November, Prokaryotes: predicted gens datahase. Prokaryotes: models for GeneMark and Gen eMa r k. hrom. Gene Prediction in Bacteria and Archaea For bacterial and archaeal gene prediction, you can use the parallel - combination of the GeneMark and GeneMark,hmm programs here. If the DNA sequence of interest belongs to a species whose name js not in the list of available models., you should use either the Heuristic models- option or, if the sequence is longer than 1 Mb, generate models with the self-training program GeneMarkS. Both options will allow vou to generate models and then to use GeneMark.hmm and GeneMark in parallel. Gene Prediction in Eukaryotes For eukaryotic gene prediction, you can use the parallel combination of the GeneMark and GeneMark.hmm programs here, Gene Prediction in EST and cDNA ■u*>f To analyze EST$ and cDNAs, please follow thi-5 link. Ii Borodovsky Group Gene Prediction Programs • GeneMark • GeneMark.hmm • Frame-by-Frame . Gene Marks • Heuristic models Statistics • Documented GeneMark.» usage Help . References • Papers . FAQ • Contact Databases of predicted genes • ProkaryotesNew! • Vi ruses/Phages (VIOLIN) Bioinformatics Resources • Links Gene Prediction in Viruses For viral gene prediction, or to access our ! vims database VIOLIN, please follow this link What the programs do: Bioinformatics Studies at Georgia Tech • MS Degree Program • PhD Program t Lectures • Seminars • Center For Bioinforrnatics and am Eukaryotic GeneMark.hmm'1,2'iReiMithis_eaa±} References: 1Borodovsky M. and Lukashin A. (unpublished) 2Lornsadze A., Ter-Hovhannisyan V., ChernoffY. and Borodovsky M., "Gene identification in novel eukaryotic genomes by self-training algorithm" Nucleic Acids Research, 2005, Vol, 33, No. 20, 6494-6506 Accuracy comparison UPDATE October 2005. Added pre-built models of eukaryotic GeneMark.hmm ES-3.0 (E -eukaryotic; S - self-training; 3,0 - the version) Listing of previous updates Input Sequence Titie (optional): _ Sequence; - att c act c aaatt c ac aaaggtt attt cgtttt c *t age gc cettt cC et c gaettt cttgat gaat cttt attt cttrt at gt gaaat ct aattaagactatttt c gt gtt atatt gat gttt auiit giaut ctttt ggttttt at gttt jjt c atttt c atgagt at .gatttaagtt auict J.at at c c gaat gc ctgagat att gttt cctaaaatgagat g gttttt atttatt ac c at gatttgttt gt ttt ccc cttt gcaat ac at aggat at aaattc at ac atgtt c ctaatttt atttttgeaett gagttt atggtttt cttt ggtggaaga et at at et at att attttact ctttt ctt c gt cgt c attt at agt at att at at at at gc ac acac ac acacac ct at at gt at agct c aaat at at a ggatctt gagaat c atttttttt gt att ctttt gtt at c aaagggttt c gacttt get c c gaggaagaagat aat tttttagggtttat c attctc ctt gacttt gc aaaac gt gaaatgtaaggcacttt gate gtt gt actttgtt gcttttt at ac gt at c .taagttaacaatgcttcctcgtagaattgcaaaac attt gt ggaccgtgatttacatgactgagct ctttt cagtggctt cttt gcagc tt ggaggact aatc aagacagaaat ct gtt c ct ct aaaaac gat cgee gtt ct aggt aat ctt gec att ctt gac gagt ctt gat cttt a aagggat ■= acgagat ac ac gt att aatt att atttttttttttttt gcttttt gtggtt at ac aagttc act c aaAT GAT GG-TGAAA TT GT GGCTT C AC CT C C AATT GT GGT CTTTTGCGTCCTGgt aatt ct gcttt cttt cttctaaattat ac gat gatt ctac atttctact c t gttttt caaat gat at aattattgtgtgtatatcacccattcatgrtat attt att gaaaaatatag&C ATT CCT G&T>T&TTTT CGA AT CT C AAATT GGCGAAC A AC AAC GGAGAAC CTAGT C AAAGAGGT CGCTT C ATTT AC C GAAGAT CTC C GGACAAGT CT A&TTT C GG-AGATT GAAAATTTAC AT AT GC C A AG-AC AAACTT AT CTACGAT C GGTTT AGC GAGAGTT AT AGATTCTT AT AT C AC CAAC AAC GAC ACT GGTTTT A AAC AC AG gtt gttaaaactaatt ac at aaattc aatt att ctt a gtt att atctt aggatt agttt gagttat at aacatt aact at aat ; gtt gtt gtt gttatt attgtt ctt cagAT C GC AC C ATTGTT CTTT GT AGCTT ATT C AAC GAT C CTT C AAGT CT C AC AAGTTT CGTAC AT GGT CTCATGTTTTCTT AC ATTGC AGAAT C AAAC AC AAGTGT C GCTGTTTTT GC C AATTC CT C GT CGAATT CAAGT C GT&GAGACT AC ACT AAACCGTGGATC AGTT AACTGGT C GTCTT AACGGGAACTC AAC GAAATCT C AGT C GTTAGAT GT AAC C C ATACAGATTGGTT C CAAGC AG T AACTAC ACT AC AGC CTTTGTAGGAAC GAGCTT GGGAGGAGAAGAT AAC GAGACT CT AATACAGAGC GT GGTT AGCTTGT AC AGC AAGAA TCTTT AGGGTTTCCGGTTAAGACTTTAACCGAAGTTTTGAACAGTTTGAATCTACACGGCGAAGAGCTTTAC AT GTGGACAAAGGACGGG TTC&TGAAGGTTCACT&AATGATTCTTTCTTCATCTCCAAT&&CTCGATTTGCTTCGGTA&A&AAT C&AACT CCCTCT&&TCTCAATGCA TT GC AGTTCC A&T&&CT AC&A&&T &GA&AT C AAA AG ATTA AG AT AC C AA&CTTTTT &CT CT GTT ATT &AAGTTT C &&GC GTT CCT CT Ggt ac at attt c acttt gat gcagt aaaaat gc ate gactt gtt gtttct c agctt ctt c caat ggtttttttttt gc c agA&AT ACAC ACT C Sequence File upload\9 5pecies:e|Aih^i3iaES-3.0 Model description Output Options Email Address: (required for graphical output or sequences longer than 400000 bp.! I B Generate PDF graphics (screen) H Generate PostScript graphics (email)* LI Print GeneMark 2.4 predictions in addition to GeneMark.hrnrn predictions H Translate predicted genes into protein* Default I Start GeneMark.hmm j GENESCAN CENSCANW output for sequence CKI1 GENSCAN 1.0 Date run: 10-Nov-105 Time: 02:24:26 Sequence CKI1 : 9490 bp : 36.53% C+G : Isochore 1 (0-43 C+G%) Parameter matrix: Arabidopsis.smat Predicted genes/exons: Gn.Ex Type s .Begin . . .End . Len Fr Ph I/AC Do/T CodRg P ____ Tscr.. 1 .00 Prom + 1397 1536 40 -3 . 85 1.01 Init + 3708 3764 57 2 0 63 51 37 0 .499 03 1.02 Intr + 3894 4133 240 2 0 327 0 .713 17 32 1 . 03 Intr + 4255 4914 660 0 0 86 59 296 0 .771 22 57 1 .04 Intr + 5005 5383 37 9 0 1 70 91 343 0 .772 31 .41 1 .05 Intr + 5473 6056 584 2 2 38 99 582 0 . 722 50 .76 1 .06 Intr + 6136 7368 1233 0 0 68 108 655 0 . 977 56 .86 1 .07 Term + 7448 7660 213 1 0 43 35 212 0 . 999 12 . 65 1 .08 PlyA + 7910 7915 6 -0 . 45 2.03 PlyA - 7976 7971 6 -4 . 83 2.02 Term - 8793 8050 744 0 D 107 37 542 0 . 997 48 .46 2.01 Init - 9253 8936 318 1 0 105 73 386 0 . 999 41 .18 Suboptimal exons with probability > 0 .100 Exnum Type s .Begin . . .End . Len Fr Ph b/ag Do/T CodRg p Tscr.. S.001 Init + 1867 1905 39 0 0 64 40 57 0 .298 3 .74 S.002 Init + 2374 2442 69 0 0 55 95 -11 0 . 132 2 .40 S.003 Intr + 3894 4110 217 2 1 -3 -34 307 0 .177 11 . 55 S.004 Intr + 4352 4914 563 0 2 75 59 338 0 .187 26 .20 S.005 Intr + 5005 5379 375 0 0 70 8 335 0 .212 22 . 99 S.006 Intr + 5442 6056 615 2 0 95 99 589 0 .208 57 .32 fr r" r GeneMark Result of last submission: View PDF Graphical Output GeneMaikhmm Listing Go to: GeneMarkhmm Protein Translations Go to: Job Submission Eultariotyc GeneMark. hnun version bp 3.9 ^ril £5, £008 Secjuence name : CK II Secjuence length: 5043 bp Qt-C c ontent: 38.79* Matrices file: /rionne/gerijriark/ eTÜt_grLrn_matr ices/ atrial i ana_hjttrri3. Omod Thu Oct 1 11:09:24 £009 Predicted genes/ ex oris Ex on St r arid Ex on Exon Range Exon St arty End # * Type Length. Frame 1 1 + In it ial 1025 57 1 3 - - 1 z + Internal 11« 1394 £40 13- 1 3 + Internal 1516 £175 6 6 0 13- 1 4 + Int e mal ££66 £644 379 11- 1 5 + Internal £734 3317 5 8 4 £ 3 - 1 6 + Internal 3397 4623 1233 13- 1 7 + Terminal 4709 49£1 £13 13- GeneMark.hmm prediction Thu Nm 1Q maiAJ £ST 2005 Me; 5 Wmdow g6 S|ep ,2 m - ..... ; J i i.i i./I i i .i J — 1 W, , 1, 1 4 1 I ii I-ii ii ii ■ I Ii t— r~ r I a J_J_l_J_L_J_I_I_■ I K . IA I . I_I, , I 5200 S< 0 5 ......Jf A. 1 . 1 /l.l TT n1 . 1 Ii V. I l.l .1 .„ 1 Ml .1 J_L_J_L_I -Ml_ IV ll I_I_J_I ■ I 5200 5600 Nucleotide Position A _ 36 Genové homologie ■ vyhledávání genů podle homologií porovnávání s EST databázemi □ BLASTN (http://www.ncbi.nlm.nih.gov/BLAST/) porovnávání s proteinovými databázemi □ BLASTX (http://www.ncbi.nlm.nih.gov/BLAST/) swise (https://www.ebi.ac.uk/Tools/psa/genewise/) porovnávají proteinovou sekvenci s genomovou DNA (po zpětném překladu), je nutná znalost aminokyselinové sekvence porovnávání s homologními genomovými sekvencemi z příbuzných druhů TA (http://genome.lbl.gov/vista/index.shtml) Osnova Identifikace genů ab initio struktura genů a jejich vyhledávání genomová kolinearita a genová homolog Genomová kolinearita genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích, možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích Obecné schéma postupu při využívání genomové kolinearity (také „komparativní genomika") při experimentální identifikaci genů příbuzných organizmů: mapování malých genomů s využitím nízkokopiových DNA markem (např. RFLP) ] využití těchto markem k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí) příbuzného organizmu i malý genom (např. rýže, 466 Mbp) může sloužit jako vodítko, kdy jsou identifikovány molekulární nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti jsou pak použity jako sonda při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí velkých genomů (např. ječmene nebo pšenice, 5000, resp. 16000 Mbp) á£& (ZZEElTEEd Genomová kolinearita 140 kb Maize (2500 Mbp) 3 Rice (400 Mbp) 20 kb B Hexaploid wheat (16 000 Mbp) □ Barley (5000 Mbp) =i Rice (400 Mbp) 50 kb High gene density c Gene-rich region Feuillet and Keller, 2002 1 Mb Genomová kolinearita zejména využitelné u trav (např. využití příbuznosti u ječmene, pšenice, rýže a kukuřice) malé geonomové přestavby (dalece, duplikace, inverze a translokace menší než několik cM) jsou pak detekovány podrobnou sekvenční komparativní analýzou během evoluce dochází u příbuzných druhů k odchylkám především v nekódujících oblastech (invaze retrotranspozonů atr1 ^ Genomová kolinearita Genomová kolinearita HOX genů u živočichů ■ Transkripční faktory řídící organizaci těla v anterio-posteriorní ose Pozice genů v genomu odpovídá i prostorové expresi během vývoje --ClJlHl CjpKirilipDilK arH PG9-14 Posterior Mezidruhově konzervováno 7(1 .iyil.A-C.vr.- ■cd—i— fill IDI ■ no i cif\ Cspl.lb Caplpb CapiĎtd Capt-Stf CapHmiä •rti.-i.-io ■-.-íjiPrsií 1 - Cdx CapiLcI .i la.** ^js£iaÄ I MedPost PG8 nčT • Tnttfnír -Lil* — Fůtasaqtta h--- — SrancMcsíaTn HexB Bninffwslnrnii Honfl- — Miu-=ii--lni7 Lap-iďlln Anrtp - - i - baíLrn art? : ITM iir'i.i I ■ r ni - ^— TrlboHiT Scr taň C "3 T- Capitata EbE<4- Z-J L- iL.... - NldrbdIH HM ■EffflWi ' T-'Ia.*Il"i Ifliiil Itnta, latini OlpriBTlA IIUi«tl — ■ Euwin, latini Syrniagillfftm labia* Jh.i>_- i i- AHn. C.f.hpii« - I. il.i ■ il i ■ Tnboliurr dys q.l I Eve i Mox Ros dali PG7 PG6 PG5 PG4 Xlox Gsx PG1-2 Anterior Central Osnova Experimentální identifikace genů příprava genově obohacených knihoven pomocí technologie metylačního filtrování Metylační filtrování příprava genově obohacených knihoven pomocí technologie metylačního filtrování geny jsou (většinou!) hypometylované, kdežto nekódující oblasti jsou metylované využití bakteriálního RM systému, který rozpoznává metylovanou DNA pomocí rest. enzymů McrA a McrBC □ McrBC rozpoznává v DNA metylovaný cytozin, který předchází purin (G nebo A) □ pro štěpení je nutná vzdálenost těchto míst z 40-2000 bp Metylační filtrování ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování Schéma postupu při přípravě BAC genomových knihoven pomocí metylačního filtrování: příprava genomové DNA bez příměsí organelární DNA (chloroplasty a mitochondrie) fragmentace DNA (1-4 kbp) a ligace adaptorů □ příprava BAC knihovny v mcrBC+ kmeni E. coli selekce pozitivních klonů omezené využití: obohacení o kódující DNA o pouze cca 5-10 % Osnova Experimentální identifikace genů příprava genově obohacených knihoven pomocí technologie metylačního filtrování ■ EST knihovny knihovn příprava EST knihoven izolace mRNA RT ligace linkerů a syntéza druhého řetězce cDNA klonování do vhodného bakteriálního vektoru transformace do bakterií a izolace DNA (amplifikacě DNA) ^ sekvenace s použitím primem specifických pro použitý plasmid uložení výsledků sekvenace do veřejné databáze cctacgattatacccccaa ggatgctaatatgggggttatacaagtgtt TTTTTTTTTTT- yWWWWWWWVvM a Základy genomiky II, Identifikace genů Klíčové koncepty Přímá vs. reverzní genetika Gen jako faktor určující frekvenci fenotypu vs. fyzická entita, která existuje nezávisle na fenotypu Identifikace genů ab initio ■ struktura genů a často i jejich poloha v genomu je konzervovaná Experimentální identifikace genů lze připravit genově obohacené knihovny EST knihovny umožňují identifikaci transkripčně aktivních genů přímá a reverzní genetika (přednáška 03) Diskuse 49 ^CEITEC