Molekulárně biologická data Výkonn nologie Automatické sekvenování NMR spektroskopie Proteinová krystalografie Výrazný nárůst množství biologických dat. Rozdělení molekulárně biologických databází Databáze: Primární Sekundární Strukturní Genomové zdroje Total species (5023) Viruses Eukaryota Archaea Plasmids 2105 1759 _ y^. 72 ., \., 38 Bacteria Viroids 1010 39 Total records (9315) Viroids 41 Plasmids 39 ^Síiqjses Eukaryota Bacteria Archaea 3249 a 1015 chromosomes 1447 chromosomes 66 chromosomes 1771 organelles 1590 plas m ids 58 plasmids 39 plasmids Molekulárně biologická data CAGCGGACGACAG CT CGG ATGCAGCAGAT CAT CC GCATC CGGAACGGCGG GGCGGC ATCACGCACTTCCAG TTCGATCGGGGCAACAATG CCGGCATCT 160 170 180 190 200 210 220 230 240 250 CGGTTTCGCGCAGATGCAGCTGATCACCCGGGCTCAGACCGGTAAACAGACGGCTATCGTTATGGCCCAGC TGCGCGGCATCGCCCGGGCTAACAACATA' 310 320 330 340 350 360 370 380 390 400 GATAGCGTAATGATCGGCTGGCTGCCGCATTTCATGCTGGTTTCCCAACGAAAATAACCGCTCACGGTGCCATCACGATCGCACACCGCAAAATCGGCGG TACAGGTGGTCGCGCCCGCCGCCAGCACATCGCTGCGCCAATAATGATCTTTCAGCGGACGACAGCTCGGATGCAGCAGATCATCCGCATCCGGAACGGC GGTGGCGGCATCACGCACTTCCAGTTCGATCGGGGCAACAATGCCGGCATCTTTCAGGGCAAAGCGAATAAACAGCACGCTCACTTCCGCGCGCAGCGCC AGCGCGGTTTCGCGCAGATGCAGCTGATCACCCGGGCTCAGACCGGTAAACAGACGGCTATCGTTATGGCCCAGCTGCGCGGCATCGCCCGGGCTAACAA CATACAGGTGGCGACCATCAATCACGGTCGGGGCGGCCGGATCACGGCTGGCTTCCGGATAGGCGCTCAGCAGGGTAACGGCATCCACAATCACCAGCAT GATAGCGTAATGATCGGCTGGCTGCCGCATTTCATGCTGGTTTCCCAACGAAAATAACCGCTCACGGTGCCATCACGATCGCACACCGCAAAATCGGCGG TACAGGTGGTCGCGCCCGCCGCCAGCACATCGCTGCGCCAATAATGATCTTTCAGCGGACGACAGCTCGGATGCAGCAGATCATCCGCATCCGGAACGGC GGTGGCGGCATCACGCACTTCCAGTTCGATCGGGGCAACAATGCCGGCATCTTTCAGGGCAAAGCGAATAAACAGCACGCTCACTTCCGCGCGCAGCGCC AGCGCGGTTTCGCGCAGATGCAGCTGATCACCCGGGCTCAGACCGGTAAACAGACGGCTATCGTTATGGCCCAGCTGCGCGGCATCGCCCGGGCTAACAA CATACAGGTGGCGACCATCAATCACGGTCGGGGCGGCCGGATCACGGCTGGCTTCCGGATAGGCGCTCAGCAGGGTAACGGCATCCACAATCACCAGCAT DNA 1 o a genu a • Posloupnost písmen může (a nemusí) mít význam sekvence nukleotidů, počítačové 0 a 1, v běžném jazyku Smysluplná sekvence? Themainchalle nandthewayinw ousthatthesep estructureoft tureofDNAThen tedgeneticist j obcou1dbedon waspartlybase* ixWealsoknewt ctionphotogra; c tu re The rewas eighteenmonth idatedwefregu tructurehavet ticmoodsweoft HThatisitwou rethansomethi: elixthusbroug ablyinterestii oposalf orthemi Letters in English text 14%- 12%- 10% Frekvenční analýza derstand gene control protein oblems could be ure of the gene ructure of DNA. Then he interested ndish lab, we thought ithin a few months. Pauling's feat in ew that Maurice on photographs from structure. There was ing the next eighteen ure became necessity that the self-replication. ied that the correct uld suggest e than something double helix thus brought us not only joy but great relief. It was unbelievably interesting and immediately allowed us to make a serious proposal for the mechanism of gene duplication. Smysluplná sekvence? jcvbyfmmktllkrfsuogqfoqzpjklhvzgnkifytjtbjavafjlvqnlyf ozkcbjbwkdyueayklxkietj zclpgrknxhjdnqitaxyvuorfxgihkyr rcxummzwuoxzujxj zyrzbsebpzfxjwjrxapzpyaqcneijgdwtpsweo t j qqepnl ty khvmf e linhshvjf^^u^^^r^^^^'^^y^c^^^^j^^J^^'^^^^roD^^^x-djpdipxftmdhyothcvoixoc yhkyfgkyqvghibnyjamluoj cczxvnkzcxyuxrfwdosxqsn vktgj xhhvrvwxtfiudbvqj syiqexibxtsvyxepvdocaht egzdkhegrcwmwtselofmfyí asesfptktyacpxlmmqj jqtc iecnowaemfmrpqcbretesns ildrxuepplewxrqujadbwlě bxxdihdyspvfccj dneaeacr yupyekrqpcjalsehvnzsnqn ggeyhpwobwtaatwgxcamj ur lqpogupltfpbwj j ahdkbwhd xehqemc i yak fkpwcyc jdds c nqmqqloukfrfpwbxyluffp\ ogncuj kyj uj orbpssmweqfs Letters in random text 14%n 12% 10%- 8% 6% 4%- - 2% 0% . J 1 a bed e f g h I j k Imnopqistuv wxyz Frekvenční analýza Smysluplná sekvence? 01010101010101010101 01010101010101010101 0101 ÍÉÉÉÉÉÉÉÉÉÉÉÉÉÉ^^^^^H__ 0101i Sekvence nemůže být současně 0101i náhodná i smysluplná! o i o i fnTnTnTnTnTnrnT^^^^^^^^ Náhodná nebo smysluplná? Frekvenční analýza číslo počet poměr 10 (60) 50% 1 10 (60) 50% 01010101010101010101 číslo počet poměr 50% 1 10 50% Očekávaná frekvenční analýza párů pro náhodnou sekvenci číslo počet poměr 00 25% 11 25% 25% 10 25% Frekvenční analýza párů pro výše uvedenou sekvenci číslo počet poměr 00 0% 11 0 0% 53% 10 9 47% K čemu je to dobré? Obsah GC je např. vyšší v genových částech než intergenových GC ostrůvky se objevují v oblastech regulujících transkripci, ... Genes: HBZ HBZP HBAP1 HBAP2 HBA2 HBA1 HBQ1 CG dinucleotide rich regions Tabic 1 Software commonly used lor bacterial genome annotation and comparison D:\'A level annotation GcncMarlt Glimmer SHOW tRNAscan-SE RNArnmcr Rep SecV IslundPalb b LLp://c>ion .gaLcch .cd j/gencmark/ b Lip:// ww w .genomic s.jh j .cd j/Glimmcr/ h LLp://gcnomc.jojy. inra.fr/ ssb/SHOW/ b LLp://lo wclab. jc sc .cd j/lRN A scan - SE/ b LLp:// ww w.cbs.dtu .dk/scr viccs/RN Ammcr/ b LLp:// ww w.abi .snv.jjssicLj .fr/%9 Hp jbl ic/RcpScck/ b LLp:// ww w.paLbogcnomic s. si'j.ca/i slandpaLb/ Protein level annotation BLAST b LLp://www.cbijic.jl/blasL/ In icrProScan b LLp:// ww w.cbi jív. . jk/ InLcrFtoScan/ COGX1TOR h L Lp ://\v w w. n l- b i. n I n:. n Lh. i? i> v/C O (i/ol d'\o i? n i id r. h I n :l PRIAM h Llp://bioin rb.gcnopolc' to j Ioj sc.prd.lr/priam/ GQAnno bLlp://bips.u-sLrasbg.rrAjOAnno/ PSORTb http://www.psort_org4>sortb/ TMHMM b Ltp://w^ w^cbs.dtu .dk/scr viccs/T M HM M/ S ignal P bLLp:// ww w.cbs.dtu .dk/scrviccs/S ignal P/ Comparative genomic tools Ma jvc htLp://gcl.ahabs.wLsc.cdj/majvc/ MOSAIC b LLp://mig jo jy. inra.fr/m ig/m ig_cng/ prcscnLaLion^in jjee U mosaic ACT b LLp:// ww w.sangcr.ac. jk/Sot'L ware/ACT/ CGAT http://Tnbgd.gcriDTiic.ad.jp/CGAr/ MaGc b LLp:// ww w_gcooscopc.cn s.l'r/agc/magc/ PaLbologic bLLp://biocyc.org/ PL1 MA2 b LLp://compbio. mcs.anl.gov/pj ma2/ The SEED http://thcscedjchicago.cd j^FIG/ STRING bLLp://sLring.cmbl.de/ Py Pb y b [ Lp:// ww w.cbs.dtj .dk/sLaliAhoma.s.py pby / HuS-'lj] h LLp://p^ji I. jn i v -ly on 1. fir/ &c>li. warc/HoSeq V ProLcin gene prcdicLion Protein gene prcdicLion Protein gene prcdicLion tRNA gene prcdicLion rRNA gene prcdicLion Scaren lor approximate rcpcaLs in complcLc DNA scqjcnccs Identification of genomic islands Compare a novel scqjcncc wiLb Lbosc conLaincd in njclcotidc and protein daLabascs Scarcb for domains/motifs in tbc IntcrPro daLabasc Compare a qjcry scqjcncc Lo Lbc COG (Cl j ster of QrLbologojs Grojps or' proteins) daLabasc DcLccLion of enzymatic f jnction in a fully scqjcnccd genome, based on all scqjcnccs available in Lhc ENZYME daLabasc BLAST scarcb on the Gene Ontology daLabasc PrcdicLion of bacterial protein sjbcclljlar localization Prediction of Lrarismcmbranc bcliccs in protein scqjcnccs Prediction of signal peptide cleavage sites in protein scqjcnccs Multiple genome alignments in tbc presence of large-scale cvoljtionary events Dclinc Lbc scl of bac It bones and loops in closely rclaLcd bacLcrial genomes Comparative genome analysis and visjalizaLion tools for multiple genome alignments Compjtation of gene order conservation (syntonics) between available bacterial genomes McLabolic network rcconsLrjcLion and comparaLivc pathway analysis McLabolic paLbway rcconsLrjcLion OjmparaLivc analysis and annotation Lools jsing Lbc sjbsysLcm approach Scarcb Tool for the Retrieval of Interacting Proteins RcconsLrjcLion of phylogcnctic relationships of complete microbial genomes Ajtomatically assign sequences Lo homologous gene families from Lbc HOGENOM databa.se Predikce genů kódujících proteiny Prokaryotické geny Nepřerušované úseky DNA mezi startovním kodonem (ATG, gtg,ttg, ctg) a stop kodonem (TAA, TGA, TAG). Eukaryotické geny Přerušovány introny. Průměrná délka exonu je 50 kodonů, některé jsou mnohem kratší. Některé introny extrémně dlouhé, geny zabírají mbp v genomové DNA. Predikce eukaryotických genů je mnohem složitější než predikce genů prokaryotických a představuje STÁLE NEVYŘEŠENÝ problém! Prokaryotické geny • Prokaryotický gen = nejdelší ORF odpovídající danému úseku DNA. GTATGCTGGTGATTGTGGATGCCGTTACCCTGCTGAGCGCCTATCCGGAAGCCAGCCGTGATCCGGCCGCCC CGACCGTGATTGATGGTCGCCACCTGTATGTTGTTAGCCCGGGCGATGCCGCGCAGCTGGGCCATAACGATA GCCGTCTGTTTACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGAAACCGCGCTGGCGCTGCGCGCGG AAGTGAGCGTGCTGTTTATTCGCTTTGCCCTGAAAGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGC GTGATGCCGCCACCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTCCGCTGAAAGATCATT ATTGGCGCAGCGATGTGCTGGCGGCGGGCGCGACCACCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATG GCACCGTGAGCGGTTATTTTCGTTGGGAAACCAGCATTGAAATTGCGGGCAGCCAGCCGGATACCAAACAGC CGGGCTTTAAACCGAGCAGCGATCGCAATGGCAACTTTAGCCTGCCGCCGAATACCGCCTTTAAAGCGATCT TCTATGCGAACGCGGCGGATCGTCAGGATCTGAAACTGTTTATTGATGATGCGCCGGAACCGGCCGCCACCT TTGTGGGTAACAGCGAAGATGGTGTGCGTCTGTTTACCCTGAATAGCAAAGGTGGTAAAATTCGTATTGAAG CGAGCGCGAACGGCCGTCAGAGCGCGACCGATGCCCGTCTGGCGCCGCTGAGCGCGGGCGATACCGTGTGGC TGGGCTGGCTGGGCGCGGAAGATGGTGCCGATGCGGATTATAATGATGGCATTGTTATTCTGCAGTGGCCGA TTACCTAATGGG nonpolar polar basic acidic 11 (stop codön) Preklad DNA sekvence The table shows the 64 codons and the amino acid for each. The direction of the mRNA is 5" to 3'. 2nd base U C A G U UUU (Phe/F) Phenylalanine UUC (Phe/F) Phenylalanine UCU (Ser/S) Serine UCC (Ser/S) Serine UAU (Tyr/Y) Tyrosine UAC (Tyr/Y) Tyrosine UGU (Cys/C) Cysteine UGC (Cys/C) Cysteine UUA (Leu/L) Leucine UCA (Ser/S) Serine UAA Ochre (Stop) UGA Opal (Stop) UUG (Leu/L) Leucine UCG (Ser/S) Serine UAG Amber (Stop) UGG (Trp/W) Tryptophan c CUU (Leu/L) Leucine CUC (Leu/L) Leucine CCU (Pro/P) Proline CCC (Pro/P) Proline CAU (His/H) Histidine CAC (His/H) Histidine CGU (Arg/R) Arginine CGC (Arg/R) Arginine 1st CUA (Leu/L) Leucine CUG (Leu/L) Leucine CCA (Pro/P) Proline CCG (Pro/P) Proline CAA (Gln/Q) Glutamine CAG (Gln/Q) Glutamine CGA (Arg/R) Arginine CGG (Arg/R) Arginine base A AUU (lle/l) Isoleucine AUC (lle/l) Isoleucine ACU (Thr/T) Threonine ACC (Thr/T) Threonine AAU (Asn/N) Asparagine AAC (Asn/N) Asparagine AGU (Ser/S) Serine AGC (Ser/S) Serine AUA (lle/l) Isoleucine ACA (Thr/T) Threonine AAA (Lys/K) Lysine AGA (Arg/R) Arginine AUG (Met/M) Methionine. Start[A] J.CG (Thr/T) Threonine AAG (Lys/K) Lysine AGG (Arg/R) Arginine G GUU (Val/V) Valine GUC (Val/V) Valine GCU (Ala/A) Alanine GCC (Ala/A) Alanine GAU (Asp/D) Aspartic acid GAC (Asp/D) Aspartic acid GGU (Gly/G) Glycine GGC (Gly/G) Glycine GUA (Val/V) Valine GUG (Val/V) Valine GCA (Ala/A) Alanine GCG (Ala/A) Alanine GAA (Glu/E) Glutamic acid GAG (Glu/E) Glutamic acid GGA (Gly/G) Glycine GGG (Gly/G) Glycine Překlad DNA sekvence ATG TGA CAUGGUGCUGUCUCCUGCCGACAAGACCAAUAA I-►RFl RF1 CAU GGU GCU GUC UCC UGC CGA CAA UAA GAC CAA i_i i_i i_i i_i i_i i_i i_i i_i i_i i_i i_i His Gly Ala Val Ser Cys Arg Gin end Asp Gin |-►RF2 RF2 C AUG GUG CUG UCU CCU GCC GAC AAU AAG ACC AA i_i i_i i_i i_i i_i i_i i_i i_i i_i i_i Val Leu Ser Pro Ala Asp Asn Lys Thr |->RF3 RF3 CA UGG UGC UGU CUC CUG CCG ACA AUA AGA CCA A l_l l_l l_l l_l l_l l_l l_l l_l l_l l_l Trp Cys Cys Leu Leu Pro Thr Ile Arg Pro Překlad DNA sekvence ExPASy http://web.expasy.org/translate/ ORF Finder(NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html ExPASy http://www.expasy.org/vg/index/dna ExPASy Bioinformatics Resource Portal Visual Guidance DNA RNA Protein Cell Organism Population Categories Resources A..Z Links/Documentation Selected keywords > translation Q > Keywords Choose a category or a keyword COQOn conversion tool protein protein Sequence reverse transcription reverse translation sequence analysis transcription 59 SIB resources External resources - (No support from the ExPASy Team) "Expert Protein Analysis System" Databases (0) Tools (5) [f? EMBOSS translation tools EMBOSS sequence translation tools, incl. backtranslation [more] Keywords: codon, DMA sequence, protein, translation Graphical Codon Usage Analyser Displays the codon bias in a graphical manner [more] Keywords: codon, DMA sequence, sequence analysis, translation Reverse Transcription and Translation Tool Transcription, translation and reverse transcription [more] Keywords: DNA sequence, protein sequence, reverse transcription, transcription, translation [v? Reverse Translate a protein sequence back to a nucleotide sequence [more] Keywords: DNA^^uence protein sequence, reverse translation, translation U Translate Translation oUTnucleotide (DNA/RNA) sequence to a protein lore] Keywords: codon, conversion tool, DNA sequence, protein, protein sequence, translation ExPASy http://web.expasy.org/translate/ Translate is a tool which allows the translation of a nucleotide (DNA/RNA) sequence to a protein sequence. Please enter a DNA or RNA sequence in the box below (numbers and blanks are ignored) GTATGCTGGTGATTGTGGATGCCGTTACCCTGCTGAGCGCCTATCCGGAAGCCAGCCGTGATCCGGCCGCCC CGACCGTGATTGATGGTCGCCACCTGTATGTTGTTAGCCCGGGCGATGCCGCGCAGCTGGGCCATAACGATA GCCGTCTGTTTACCGGTCTGAGCCCGGGTGATCAGCTGCATCTGCGCGAAACCGCGCTGGCGCTGCGCGCGG AAGTGAGCGTGCTGTTTATTCGCTTTGCCCTGAAAGATGCCGGCATTGTTGCCCCGATCGAACTGGAAGTGC GTGATGCCGCCACCGCCGTTCCGGATGCGGATGATCTGCTGCATCCGAGCTGTCGTCCGCTGAAAGATCATT ATTGGCGCAGCGATGTGCTGGCGGCGGGCGCGACCACCTGTACCGCCGATTTTGCGGTGTGCGATCGTGATG GCACCGTGAGCGGT TAT T T TCGT TGGGAAACCAGCAT TGAAAT TGCGGGCAGCCAGCCGGATACCAAACAGC CGGGC T T TAAACCGAGCAGCGATCGCAATGGCAAC T T TAGCC TGCCGCCGAATACCGCC T T TAAAGCGATC T TCTATGCGAACGCGGCGGATCGTCAGGATCTGAAACTGTTTATTGATGATGCGCCGGAACCGGCCGCCACCT T TGTGGGTAACAGCGAAGATGGTGTGCGTC TGT T TACCC TGAATAGCAAAGGTGGTAAAAT TCGTAT TGAAG CGAGCGCGAACGGCCGTCAGAGCGCGACCGATGCCCGTCTGGCGCCGCTGAGCGCGGGCGATACCGTGTGGC TGGGCTGGCTGGGCGCGGAAGATGGTGCCGATGCGGATTATAATGATGGCATTGTTATTCTGCAGTGGCCGA T TACC TAATGGG Output format: Verbose ("Met", "Stop", spaces between residues) v Reset I or [ TRANSLATE SEQUENCE ] Translate Tool - Results of translation Open reading frames are highlighted in red. Please select one of the following frames - in the next page, you will be able to select your initiator and retrieve your amino acid sequence: 5'3' Frame 1 _ _ V C W Stop L VV Met P L P C Stop APIRKPAVIRPPRP Stop L Met V A T C Met L L A R A Met PRSWAITIAVCLPV Stop ARVISCICAKPRWRCARK Stop ACCLFALP Stop K Met PALLPRSNWKCV Met P P P P F R Met R Met I C C I R A VV R Stop K 111 G A A Met CWRRARPPVPPILRCAIV Met A P Stop A V I F V G K P A L K L R A A S R I P N S R A L N R A A I A Met A T L A C R R I P P L K R S S Met R T R R I V R I Stop N C L L Met Met R R N R P P P L W V T A K Met V C V C L P Stop I A K V V K F V L K R A R T A V R A R P Met P V W R R Stop ARAIPCGWAG W A R K Met V P Met R 11 Met Met A L L F C S G R L P N G 5'3' Frame 2 YAGDCGCRYPAERLSGSQP Stop S G R P D R D Stop W S P P V C C Stop PGRCRAAGP Stop R Stop PSVYRSEPG Stop SAASARNRAGAAR GSERAVYSLCPERCRHCCPDRTGSA Stop CRHRRSGCG Stop SAASELSSAERSLLAQRCAGGGRDHLYRRFCGVRS Stop WHRE RLFSLGNQH Stop NCGQPAGYQTAGL Stop TEQRSQWQL Stop P A A E Y R L Stop SDLLCERGGSSGSETVY Stop Stop CAGTGRHLCG Stop QRRWCASVYPE Stop Q R W Stop N S Y Stop SERERPSERDRCPSGAAERGRYRVAGLAGRGRWCRCGL Stop Stop WHCYSAVAD YLlet 5'3' Frame 3_ Met LVIVDAVTLLSAYPEASRDPAAPTVIDGRHLYVVSPGDAAQLGHNDSRLFTGLSPGDQLHLRETALALRAEVSVLFIRFALKD AGIVAPIELEVRDAATAVPDADDLLHPSCRPLKDHYWRSDVLAAGATTCTADFAVCDRDGTVSGYFRWETSIEIAGSQPDTKQP GFKPSSDRNGNFSLPPNTAFKAIFYANAADRQDLKLFIDDAPEPAATFVGNSEDGVRLFTLNSKGGKIRIEASANGRQSATDARL APLSAGDTVWLGWLGAEDGADADYNDGIVILQWPIT Stop W 3'5' Frame 1 P I R Stop S A T A E Stop QCHHYNPHRHHLPRPASPATRYRPRSAAPDGHRSRSDGRSRSLQYEFYHLCYSG Stop TDAHHLRCYPQRW RPVPAHHQ Stop TVSDPDDPPRSHRRSL Stop R R Y S A A G Stop SCHCDRCSV Stop SPAVWYPAGCPQFQCWFPNENNRSRCHHDR TPQNRRYRWSRPPPAHRCANNDLSADDSSDAADHPHPERRWRHHALPVRSGQQCRHLSGQSE Stop TARSLPRAAPARFRAD AADHPGSDR Stop TDGYRYGPAARHRPG Stop QHTGGDHQSRSGRPDHGWLPDRRSAG Stop RHPQSPAY 3'5' Frame 2 PLGNRPLQNNNAIIIIRIGTIFRAQPAQPHGIARAQRRQTGIGRALTAVRARFNTNFTTFAIQGKQTHTIFAVTHKGGGRFRRIINKQF QILTIRRVRIEDRFKGGIRRQAKVAIAIAARFKARLFGIRLAARNFNAGFPTKITAHGAITIAHRKIGGTGGRARRQHIAAPllet I F Q R T TAR Met QQIIRIRNGGGGITHFQFDRGNNAGIFQGKANKQHAHFRAQRQRGFAQ Met QLITRAQTGKQTAIV Met AQLRGIARANNIQV ATINHGRGGRITAGFRIGAQQGNGIHNHQH 3'5' Frame 3 _ H Stop V I G H C R I T Met P S L Stop SASAPSSAPSQPSHTVSPALSGARRASVAL Stop R P F A L A SIRILPPLLFR VNRRTPSSLLPTKVAA GSGASSINSFRS Stop R S A A F A Stop KIALKAVFGGRLKLPLRSLLGLKPGCLV SGWLP AIS Met L VSQRK Stop PLTVPSRSHTA K S A VQVVAPAASTSLRQ Stop Stop SFSGRQLGCSRSSASGTAVAASRTSSSIGAT Met PASFRAKRINSTLTSARSASAVSRRCS Stop S PGLRP VNRRLSLWPSC A A S P G L TT Y R W R P S IT V G A AGSRL A S G Stop ALSR VTASTITSI ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html % NC 1 ORF Finder (Open Reading Frame Finder) PubMed Entrez BLAST OMIM Taxonomy m Tools for data mining GenBank sequence submission support and software FTP site download data and software The ORF Finder (Open Reading Frame Finder) is a graphical analysis tool which finds selectable minimum size in a user's sequence or in a sequence already in the databas This tool identifies all open reading frames using the standard or alternative genetic co sequence can be saved in various formats and searched against the sequence databa The ORF Finder should be helpful in preparing complete and accurate sequence subm the Sequin sequence submission software. Enter Gl or ACCESSION OrfFind Clear or sequence in FASTA format FROM: TO: Genetic codes 1 Standard ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html % NC 1 ORF Finder (Open Reading Frame Finder) PubMed Entrez BLAST OMIM Taxonomy m Tools for data mining GenBank sequence submission support and software FTP site download data and software The ORF Finder (Open Reading Frame Finder) is a graphical analysis tool which finds selectable minimum size in a user's sequence or in a sequence already in the databas This tool identifies all open reading frames using the standard or alternative genetic co sequence can be saved in various formats and searched against the sequence databa The ORF Finder should be helpful in preparing complete and accurate sequence subm the Sequin sequence submission software._ Enter Gl or orsequenc FROM: Genetic codes The Standard Code The Vertebrate Mitochondrial Code The Yeast Mitochondrial Code The Mold, Protozoan, and Coelenterate Mitochondrial Code and the Mycoplasma Spiroplasma Code The Invertebrate Mitochondrial Code The Ciüate. Dasycladacean and Hexamita Nuclear Code The Echinoderm and Flatworm Mitochondrial Code The Euplotid Nuclear Code The Bacterial and Plant Plastid Code The Alternative Yeast Nuclear Code The Ascidian Mitochondrial Code The Alternative Flatworm Mitochondrial Code Blepharisma Nuclear Code Chlorophycean Mitochondrial Code Trematode Mitochondrial Code Scenedesmus Obüquus Mitochondrial Code Tliraustochytriurn Mitochondrial Code ORF Finder (NCBI) http://www.ncbi.nlm.nih.gov/gorf/gorf.html View 1 GenBank v Redraw 100 V Six Frames | Frame from to Length +3 □ 3..872 870 -2 □ 1..857 857 5'3' Frame 3 MetLVIVDAVTLLSAYPEASRDPAAPTVIDGRHLYVVSPGDAAQLGHNDSRLFTGLSPGDQLHLRETALALRAEVSVLFIRFALKDAGIVAPI ELEVRDAATAVPDADDLLHPSCRPLKDHYWRSDVLAAGATTCTADFAVCDRDGTVSGYFRWETSIEIAGSQPDTKQPGFKPSSDRNGN FSLPPNTAFKAIFYANAADRQDLKLFIDDAPEPAATFVGNSEDGVRLFTLNSKGGKIRIEASANGRQSATDARLAPLSAGDTVWLGWLGA EDGADADYNDGIVILQWPIT StopW 3*5' Frame 2 PLGNRPLQNNNAIIIIRIGTIFRAQPAQPHGIARAQRRQTGIGRALTAVRARFNTNFTTFAIQGKQTHTIFAVTHKGGGRFRRIINKQFQILTI RRVRIEDRFKGGIRRQAKVAIAIAARFKARLFGIRLAARNFNAGFPTKITAHGAITIAHRKIGGTGGRARRQHIAAPI Met I F Q R T T A R P.let Q Q 11 RIRNGGGGITHFQFDRGNNAGIFQGKANKQHAHFRAQRQRGFAQ Met QLITRAQTGKQTAIV Met A QLRGIARANNIQVATINHGRGGRITA GFRIGAQQGNGIHNHQH CTO4■.,.... . . . ..... . - . . . - , ......... ......... .. - ............................. - - ............................. .... The diagram shows 4522 bp of the lactose Operon of Escherichia coli with all ORFs longer than 50 codons marked. The sequence contains two real genes - lacZ and lacY - indicated by the red lines. These real genes cannot be mistaken because they are much longer than the spurious ORFs, shown in blue. Translační a transkripční signální sekvence Regulační signály pro transkripci Regulační signály pro iniciaci translace Promotor _ TGTTGACA +1 SD TATAATG TAAGGAG ATG -35 -10 TATA box Pribnowův box Vedoucí sekvence mRNA Shine-Dalgarnova sekvence protein STOP T _ P roka ry ota oblast bohatá na puriny ~ cca 8 bází upstream Translační a transkripční signální sekvence Regulační signály pro transkripci n m GC box -75 -50 GC box -25 TATA box Hognessův box Promotor RNA-polymerasy II itiRNA 1A1AA 1 1 e Regulační signály pro iniciaci translace E u kary ota (gcc)gccRccAUGG Kozák sequence Sekvence Kozákové Promotor sequences ^ggcctataaaattctctttccattgtgtttcag|tgca~ ^tatataaataagctgcatactcggtctctcag|actg~ ^gcgtataaaagcatgccagccctcactgcctttatttc|gaat~ ^ggtataaatcacttgctcgtctgccatgcag|ctcg~ ttataaattcaaatttctccgtctctcaccctgcagatgc^ ^cctataaaagcgagtgagccgtgtctattctag|gcgg~ Prokaryotické geny Velmi jednoduchý přístup k predikci genů Zjednodušení vede k chybám, ale jejich množství je POMĚRNĚ MALÉ. Chyby mohou vznikat při SEKVENOVÁNÍ DNA. Přidání/odstranění startovního a/nebo stop kodonu může vést ke ZKRÁCENÍ, PRODLOUŽENÍ nebo úplnému VYNECHÁNÍ genu. Vynechání-inzerce nukleoticu pak ke ZMĚNĚ ČTECÍHO RÁMCE Experimental vs. database sequence PLL -------MPN PDNTEAYVAGEVEI EN S AIAL S GIVS VANNADNRLE VFGVS TD S AVWHNW 53 PLU0732 MKKEPIKMPNPDNTEAYVAGEVAIENSAIALSGIVSVANNADNRLEVFGVSTDSAVWHNW 60 PLL QTAPLPNSSWAGWNKFNGWTSKPAVHRNSDGRLEVFVRGTDNALWHNWQTAADTNTWSS 113 PLU0732 QTAPLPNSSWAGWNKFNGWTSKPAVHRNSDGRLEVFVRSTDNALWHNWQTAADTNTWSS 120 PLL WQPLYGGITSNPEVCLNSDGRLEVFVRGSDNALWHIWQTAAHTNSWSNWKSLGGTLTSNP 173 PLU0732 WQPLYGGITSNPEVCLNSDGRLEVFARGTDNALWHIWQTAAHTNSWSNWKSLGGTLTSNP 180 PLL AAHLNADGRIEVFARGADNALWHIWQTAAHTDQWSNWQSLKS VIT SD PWINNCDGRLEV 233 PLU0732 AAHINADGRIEVFARGADNALWHIWQTAAHTDQWSNWQSLKS VIT SD PWIGNCDGRLEV 240 PLL FARGADSTLRHISQIGSDSVSWSNWQCLDGVITSAPAAVKNISGQLEVFARGADNTLWRT 293 PLU0732 FARGADNTLRHISQIGSDSVSWSNWQCLDGVITSAPAAVKNISGRLEVFARGADNTLWRT 300 PLL WQTSHNGPWSNWSSFTGIIASAPTVAKNSDGRIEVFVLGLDKALWHLWQTTSSTTSSWTT 353 PLU0732 WQTSQNGPWSNWSSFTGIIASAPTVAKNSDGRIEVFVLGLDKALWHLWQTTSSTTSSWTT 360 PLL WALIGGITLIDASVI- 368 PLU0732 WALIGGITLIDASVIK 376 Opravdu ORF kóduje protein? ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí ALIGNMENTU). ORF má typický obsah GC nebo frekvenci kodonů. Srovnání s charakteristickými vlastnostm známých genů ze stejného organismu. Před ORF se nachází typické RBS (ribosome-binding site) nebo promotor. Opravdu ORF kóduje protein? • ORF kóduje protein, který je podobný již dříve popsanému proteinu (prohledávání DATABÁZÍ pomocí alignmentu) = nejspolehlivější ověření. • Nástroje pro překlad DNA jsou propojeny s prohledáváním databází. Translate Tool - Results of translation ID AC DE DE CC cc DR SQ VIRT18492 Unreviewed; 289 AA. VIRT18492; Translation of nucleotide sequence generated on ExPASy on 08-May-2014 by 147.251.28.220. -!- This virtual protein sequence will automatically be deleted from the server after a few days. SWISS-2DPAGE; VIRT18492; VIRTUAL. SEQUENCE 2 89 AA; 266AF312C81FBE3D CRC64. HLVIVDAVTL LSAYPEASRD PAAPTVIDGR HLYWSPGDA AQLGHNDSRL FTGLSPGDQL HLRETALALR AEVSVLFIRF ALKDAGIVAP IELEVRDAAT AVPDADDLLH PSCRPLKDHY WRSDVLAAGA TTCTADFAVC DRDGTVSGYF RUETSIEIAG SQPDTKQPGF KPSSDRNGNF SLPPNTAFKA IFYANAADRQ DLKLFIDDAP EPAATFVGNS EDGVRLFTLN SKGGKIRIEA SANGRQSATD ARLAPLSAGD TVWLGWLGAE DGADADYNDG IVILQUPIT Sequence in FASTA format blast BLAST submission on ExPASy/SIB ScanProsite Sequence analysis tools: ProtParam, ProtScale, Compute pl/Mw, Direct Submission to SWISS-MODEL ORF Finder (NCBI) http://vvvYw.ncbi.nlm.nih.gov/gorf/gorf.html .Program blastp v atabase nr BLAST I □ with parameters _Cognitor | View 1 GenBank V Redraw 100 SixFrames] Frame from to Length -3 □ 3 872 870 -2 □ 1..857 857 ZD Length: 289 aa 3 ctggtgattgtggatgccgttaccctgctgagcgcctatccg LVIVDAVTLLSAYP 48 gaagccagccgtgatccggccgccccgaccgtgattgatggtcgc EASRDPAAPTVIDGR 93 cacctgtatgttgttagcccgggcgatgccgcgcagctgggccat HLYVVS PGDAAQLGH 138 aacgatagccgtctgtttaccggtctgagcccgggtgatcagctg NDSRLFTGLSPGDQL 183 catctgcgcgaaaccgcgctggcgctgcgcgcggaagtgagcgtg HLRETALALRAEVSV 228 ctgtttattcgctttgccctgaaagatgccggcattgttgccccg LFIRFALKDAGIVAP 273 atcgaactggaagtgcgtgatgccgccaccgccgttccggatgcg IELEVRDAATAVPDA 318 gatgatctgctgcatccgagctgtcgtccgctgaaagatcattat DDLLHPSCRPLKDHY 363 tggcgcagcgatgtgctggcggcgggcgcgaccacctgtaccgcc WRSDVLAAGATTCTA 408 gattttgcggtgtgcgatcgtgatggcaccgtgagcggttatttt DFAVCDRDGTVSGYF 453 cgttgggaaaccagcattgaaattgcgggcagccagccggatacc RHETSIEIAGSQPDT 498 aaacagccgggctttaaaccgagcagcgatcgcaatggcaacttt KQPGFKPSSDRNGNF 543 agcctgccgccgaacaccgcctrraaagcgarcttctatgcgaac SLPPNTAFKAI FYAN 588 gcggcggatcgtcaggatctgaaactgtttattgatgatgcgccg AADRQDLKLFIDDAP 633 gaaccggccgccacctttgtgggtaacagcgaagacggcgtgcgt EPAATFVGNSEDGVR 678 ctgtttaccctgaatagcaaaggtggtaaaattcgtattgaagcg LFTLNSKGGKIRIZA 723 agcgcgaacggccgtcagagcgcgaccgatgcccgtctggcgccg SANGRQSATDARLAP 768 ctgagcgcgggcgataccgtgtggctgggctggctgggcgcggaa LSAGDTVWLGWLGAE 813 gatggtgccgatgcggattataatgatggcattgttattctgcag DGADADYNDGIVILQ 858 tggccgattacctaa 872 W P I T * Query seq. Specific hits Superf anilies Searching for PA-IIL protein Putative conserved domains have been detected, click on the image below for detailed results. 1 20 40 60 80 100 114 ATQGVFTLPANTRFGVTAFANSSGTQTVNVLVNNETAATFSGQSTNNAVIGTQVLNSGSSGKVQVQVSVNGRPSDLVSAQVILTNELNFALVGSEDGTDNDYNDAVWINWPLG PA-IIL superfamily Distribution of 100 Blast Hits on the Query Sequence Mouse over to see the defline, click to show alignments Color key for alignment scores Query i <40 40-50 50-30 80 -200 >=200 20 i 40 i eo i so 100 999999999^ Alignment statistics for match #1 Score Expect Method Identities_Positives_Gaps_ 207 bits(527)_3e-66 Compositional matrix adjust. _107/107( 100%) 107/107( 100%) 0/107(0%)_ Query 8 LPANTRFGVTAFANSSGTOTVNVLVNNETAATFSGOSTNNAVIGTOVLNSGSSGKVOVOV 67 _LPANTRFGVTAFANSSGTOTVNVLVNNETAATFSGOSTNNAVIGTOVLNSGSSGKVOVOV Sbict 1 LPANTRFGVTAFANSSGTOTVNVLVNNETAATFSGOSTNNAVIGTOVLNSGSSGKVOVOV 60 Query 68 SVNGRPSDLVSAOVILTNELNFALVGSEDGTDNDYNDAVWINWPLG 114 _SVNGRPSDLVSAOVILTNELNFALVGSEDGTDNDYNDAVWINWPLG Sbict 61 SVNGRPSDLVSAOVILTNELNFALVGSEDGTDNDYNDAVWINWPLG 107 LOCUS NZ_JUUU01000485 5873 bp DNA linear CON 21-AUG-2015 DEFINITION Pseudomonas aeruginosa strain 744_PAER 959_5873_75941, whole genome shotgun sequence. ACCESSION NZ JUUU01000485 NZ JUUU00000000 gene complement(5548..>5873) /locus_tag="ADF63_RS25535" CDS complement(5548..>5873) /locus_tag="ADF63_RS25535" /inference="EXISTENCE: similar to AA sequence:RefSeq:WP_009876850.1" /note="Derived by automated computational analysis using gene prediction method: Protein Homology." /codon_start=3 /transl_table=ll /product="fucose-binding lectin" /protein_id="WP049233417.1" /db_xref="GI:896235191" / translation="LPANTRFGVTAFANSSGTQTVNVLVNNETAATFSGQSTNNAVIG TQVLNSGSSGKVQVQVSVNGRPSDLVSAQVILTNELNFALVGSEDGTDNDYNDAVVVI NWPLG" Chyby • Nejcastejsi • - chyby v sekvenaci • - špatná predikce -alternace startovního kodonu • - shot gun sekvenace Eukaryotické geny Jednobuněčná eukaryota • Genomy jednobuněčných eukaryot se výrazně liší (frekvence intronů, jak velká část genomu je tvořená geny kódujícími proteiny). • Saccharomyces cerevisiae - 67% genomu je protein-kódující, jen 4% obsahují introny. • Hlenky - průměrný gen obsahuje 3,7 intronu. • Pro některá jednobuněčná eukaryota (kvasinky) je možné použít stejné postupy jako pro prokaryota. Eukaryotické geny Mnohobuněčná eukaryota Mnohobuněčná eukaryota Komplexní organizace genomu, geny separovány dlouhými INTERGENOVÝMI úseky, geny obsahují množství INTRONŮ, i velmi DLOUHÝCH. ■ - coding region I - untranslated region Glyceraldehyd-3-fosfát-dehydrogenasa Candida albicans Eukaryotické geny Mnohobuněčná eukaryota • Mnohobuněčná eukaryota Komplexní organizace genomu, geny separovány dlouhými INTERGENOVÝMI úseky, geny obsahují množství INTRONŮ, i velmi DLOUHÝCH. 5' I ■-1- ■ - cooíins region ■ untranslated region Glyceraldehyd-3-fosfát-dehydrogenasa Homo sapiens TATA ATG i TAG Exon Intron Exon Intron Exon ' 3' DNA pre mRNA Transcription mRNA Processing Translation Protein TATA ATG GT AG TGA —Cr Promoter • Exon Intron Exon Intron Exon 3- DNA Transcription pre mRNA Processing mRNA IAAAAAAAAAA Translation Protein Precursor Lariat Spliced Lariat form intermediate product of intron Splicing Mechanism Used for mRNA Precursors. The upstream (5') exon is shown in blue, the downstream (3') exon in green, and the branch site in yellow. R stands for a purine nucleotide, Y for a pyrimidine nucleotide, and N for any nucleotide. The 5' splice site is attacked by the 2'-OH group of the branch-site adenosine residue. The 3' splice site is attacked by the newly formed 3'-OH group of the upstream exon. The exons are joined, and the intron is released in the form of a lariat. [After R A. Sharp. Ce//2(1985):3980.] Eukaryotické geny Mnohobuněčná eukaryota Eukaryotické geny Mnohobuněčná eukaryota • Rozpoznání exonů/intronů Identifikace míst sestřihu: GT na 5'konci, AG na 3 'konci. • Chyby při rozpoznávání exonů/intronů Velké množství chyb. Dlouhé introny - určeny jako intergenové úseky. Krátké intergenové úseky -určeny jako introny. Algoritmy a nástroje pro identifikaci genů • Predikce genů na základě sekvenční homologie - vyhledávání v databázích pomocí algoritmů. • P red i kce g e n ů a b initio - p red i kce n a základě statistických parametrů DNA sekvence. • Většina běžně používaných metod kombinuje oba dva přístupy. P roka ry ota ATG..................TAA Bez intronů SEKVENČNÍ HOMOLOGIE 4 IDENTIFIKOVANÉ GENY VYUŽITY PRO „TRÉNOVÁNÍ" STATISTICKÉ METODY 4 ANALÝZA ZBÝVAJÍCÍCH ČÁSTÍ GENOMU E u kary ota Mnoho intronů, dlouhé intergenové úseky Ab initio STATISTICKÉ METODY 4 IDENTIFIKOVANÉ EXONY 4 SEKVENČNÍ HOMOLOGIE Algoritmy a nástroje pro identifikaci genů • Každý program má výhody a nevýhody -rozumné použít více predikčních nástrojů. GeneMark GlimmerM GRAIL GenScan Fgenes Algoritmy a nástroje pro identifikaci genů • GeneMark http://exon.gatech.edu/GeneMark Využívá Markovovy modely Vyžaduje parametry specifické pro daný organismus = nutné „natrénování" pomocí známých genů Varianty pro prokaryotické, eukaryotické, virové sekvence GeneMark http://exon.gatech.edu/GeneMark Gene Prediction in Bacteria, Archaea and Metagenomes For bacterial and archaeal gene prediction we recommend to use a parallel combination of GeneMark-P* and GeneMark.hmm-P with precompiled models. A novel genome can be analyzed either by the program with Heuristic models (if the sequence is shorter than 100 kb) or by the self-training program GeneMarkS* (aka GeneMark.hmm-PS). Metagenomic sequences can be analyzed by our new program with updated heuristic models. Gene Prediction in Eukaryotes For eukaryotic gene prediction you can use the parallel combination of GeneMark-E* and GeneMark.hmm-E. A^^k For a novel genome (the one whose name is not in the list of available models) you can install and run locally GeneMark.hmm-ES, the self-training program (just 10MB sequence is needed for training). Gene Prediction in Viruses, Phages and Plasmids For novel virus, phage and plasmid gene prediction you can use either the Heuristic approach (if the sequence is shorter than 50 kb) or the self- training program GeneMarkS (aka GeneMark.hmm-PS). Both options will run the parallel combination of GeneMark and GeneMark.hmm. Algoritmy a nástroje pro identifikaci genů • GeneScan http://genes.mit.edu/GENSCAN.html Komplexní model struktury genu (transkripční, translační, sestřihové signály + statistické vlastnosti kódujících a nekódujících úseků) Primární analýza velkých úseků eukaryotické genomové DNA GeneScan http://genes.mit.edu/GENSCAN.html The New GENSCAN Web Server at MIT Identification of complete gene structures in genomic DNA (o o) -. .-. .-oOOo~(_)-oOOo-. .-. .-. .-. .-. .-. .-. .-. .-. .-. .-. .-. .-. .-. .-. .-. .-. i|X|||\ /|||X|||\ /|||X|||\ /|||X|||\ /|||X|||\ /|||X|||\ /|||X|||\ /|||X|||\ /|||X|||\ /|||X|||\ /|||X|||\ 1/ \i i |X| i i/ \i i |X| i i/ \i i |X| i i/ \i i |X| i i/ \i i |X| i i/ \i i |X| i i/ \i i |X| i i/ \i i |X| i i/ \i i|X|i i/ \i i|X|i i/ \||| This server provides access to the program Genscan for predicting the locations and exon-intron structures of genes in genomic sequences from a variety of organisms. This server can accept sequences up t -> 1 million base pairs (1 T^bp) in length. If you have trouble with the web server or if you have a large number of sequences to process, request a local copy of the pi^^^m (see instn<--^ons at the bottom of this page) or use the GENSCAN email server. If your browser (e.g., Lynx) does not support file upload or multipart forms, use the older version. Algoritmy a nástroje pro identifikaci genů Program Organism Algorithm* Website Homology GenelD Vertebrates, plants DP http://ww wl .imim.es/geneid. hit ml FGENESH Human, mouse, Drosophila, rice HMM http:/ /www.softberry.com/ berry. phtml?topic =rgenesh_;group=progr_iTis_isubgrQup=gfi_Ld GeneParser Vertebrates N.N http://beagle.colorado.edu/^eesnyder/ Gene Parser, html EST Genie Drosophila,, human, other GHMM http:/ /www. fruit fly.org/seq_tools/genie. html protein GenLang Vertebrates, Drosophila, dicots Grammar rule http://www.cbil. upenn.edu/genlang/ genlangJiome. html GENSCAN Vertebrates, Arabidopsis, maize GHMM http://giei_es.mit.edu/GENSCAN.html GlimmerM Small eularyotes, Arabidopsi., rice http:/ /www.tigr.org/tdb/glimmerm/ glmr_form.html GRAIL Human, mouse. NN, DP http://compbio.ornl.gov/Grail-bin/ EST, Arabidopsis, EmptyGrailForm cDNA Drosophila HMMgene Vertebrates, C. elegtms CI [MM http: / /ww w.cbs .dtu.dk/services/HMMgene/ AUGUSTUS Human. Arabidopsis IMM.WWAM http://august us. gobics.de/ W/.Y.V Human, mouse, Arabidopsis, Fission yeast Quadratic discriminant analysis http://rulai. cshl.org/tools/genefinder/ *DP, dynamic programming; NN, neural network; MM,{Markov model; KM\1 Hidden Markov model:_pHMM. class HMM; GHMM, generalized HMM; IMM, interpolated MKE«^__ ^/ — Shrnutí Predikce prokaryotických genů mnohem jednodušší než u eukaryotických. Predikce genů ab initiolna základě sekvenčn homologie. Nutné kombinovat oba přístupy. Rozumné využívat více predikčních programů. Ukol - deadline 21 .dubna ! • DEFINITION fucose-specific lectin rArthroderma otae CBS 1134801. • ACCESSION XP 002846975 • VERSION XP 002846975.1 • DBSOURCE REFSEQ: accession XM 002846929.1