IV107 Bioinformatika I -Přednáška 4 IV107 Bioinformatika I Přednáška 5 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat Katedra informačních technologií Masarykova Univerzita Brno Jaro 2019 Předchozí týden IV107 Bioinformatika I -Přednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště ► Struktura genu Analýza proteinových sekvencí, strukturních a funkčních dat ► prokaryotického ► eukaryotického ► Porovnání sekvencí ► globální (Needleman-Wunsch) ► semi-globální ► lokální (Smith-Waterman) Outline IV107 Bioinformatika I -Prednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat Bioinformatické databáze I Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Analýza proteinových sekvencí, strukturních a funkčních dat 3 = ^) c\(y GenBank Genetic Sequence Data Bank August 2009 NCBI-GenBank Flat File Release 164.0 National Center for Biotechnology Information IV107 Bioinformatika I Prednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat ► 106533156756 bp ► 108431692 sekv. ftp ://http ://www. nebi. nim. nih. gov/gen ban k/ □ fip> -šl = GenBank IV107 Bioinformatika I -Prednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat NCBI-GenBank Flat File Release 232.0 June 15 2019 Distribution Release Notes ► 329 835 282 370 bp ► 213 383 758sekv. ftp://ftp.ncbi.nlm.nih.gov/genbank/ □ Součásti databáze GenBank ► INV, VRT, MAM, PLN, PRI, ROD, BCT, VRL ► PAT (Patents) ► HTGS (High Throughput Genomic Sequences) ► GSS (Genome Survey Sequences) ► ETS (Expressed Sequence Tags) ► STS (Sequence Tagged Sites) ► WGS (Whole Genome Shotgun) Príklad záznamu v databázi GenBank IV107 Bioinformatika I Přednáška 4 LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM SCU49845 5028 bp DNA Saccharomyces cerevisiae TCPl-beta gene, Ax 12 p (AXL2) and Rev7p (REV7) genes, complete U49845 U49845.1 GI:1293613 ■ Saccharomyces cerevisiae (baker's yeast) Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomy Saccharomycetes; Saccharomycetales; Saccharomycetaceae; S Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat □ rS - = _š = ávání v sekvenčních databázích IV107 Bioinformatika I -Přednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat textové (klíčová slova) sekvenční (BLAST) UniProt IV107 Bioinformatika I Prednáška 4 Uniprot September, 2019 UniprotKB release 2019.08 The UniProt consortium: European Bioinformatics Institute (EBI), Swiss Institute of Bioinformatics (SIB) and Protein Information Resource (PIR) Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat ► 560,823 (SwissProt) ► 171,501,488 (TrEMBL) ► 37,597,356 (UniRef50) Release 2019_08 of 18-Sep-19 of UniProtKB/Swiss-Prot contains 560823 sequence entries, comprising 201585439 amino acids abstracted from 268349 references. http://expasy.org/sprot/ Príklad záznamu v databázi UniProt IV107 Bioinformatika I Přednáška 4 Entry rsamo Primary atcössion r.mncGr LM07HUMAN Q8WWII Secondary accession numbers Integrated into Swiss-Prot on Sequence was last modified on ;015 4£2 09&34 6 Q9UKC1 Q9yQH5 C9Y6AT Match S i, 2004 March IS, (Sequence version 21 nnotatior.s were last modified on .July 25, 2C06 (Entry version 39) LIM domain only protein 7 ane and ocigin of the protein Protein name Synor.yjns Sene r.ame From ľan on omy LOM P ■■'bor-: only pro ta i n 20 Name: Synonyms: FBX2G, FBJÍ02 Ů, KIAA0Ů5Ě Homo sapiens (Human) | [ XääíS.: 9606} j äXÁ^yJXJi.: tUSSS&BaJ £o£&áá£a-- Sžě&U&AS Ve r te b r a t a ,* Ejj£ s i ess tQ 55 j J Mamma 1. Primates; jiorc i r. i da e; Homo. References [ 1) NUCLEOTIDE SEQUENCE | MRNAJ (ISOFOHM 3) , AND TISSUE SPECIFICITY, TISSCHB-Srain, arid Peripheral blood leukocyte; 1dOI=10.100Vs00439-001-Ö64€-6; £ubJtJejä=ll93S3l6 I KCBI, SB1' Israel, Japan] Rozenbluir E.. Vahteristo P., Sandberq T., oerqthorsspn J.T., Svriakoski K.. Weaver D., Haraidssor. Kv. Johar.nsdottir H.K., Vehmanen P., Niqam S., Golberqer N., Robbins C, Pai< E., Dutra A., Gillar.der S., Stephan D.A., Bailey-Wilson J., S --Ii - H. , ^ißR 53 GS, Ka^^ojndOTii 0.-P.; "A genomic map of a 6-Mb region at 13q2i-q22 implicated in cancer development: identification and characterization of candidate genes."i Kum. Genet. 110:111-121(20021. Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat http ://www. u n i prot. o rg/ Příklad záznamu v databázi UniProt Key From To Length Description FTId CHAIN 1 1683 1683 LIM domain only protein 7. PROJ000075824 DOMAIN 54 168 115 CH. DOMAIN 1042 1128 87 PDZ. DOMAIN 1612 1678 67 LIM zinc-binding. 10 20 30 40 50 60 MKKIRICHIF TFYSWMSYDV LFQRTELGAL EIWRQLICAH VCICVGWLYL RDRVCSKKDI 70 80 90 100 110 120 ILRTEQNSGR TILIKAVTEK NFETKDFRAS LENGVLLCDL INKLKPGVIK KINRLSTPIÄ 130 140 150 160 170 180 GLDNINVFLK ACEQIGLKEA QLFHPGDLQD LSNRVTVKQE ETDRRVKNVL ITLYWLGRKA Příklad záznamu v databázi U ni Prot IV107 Bioinformatika I -Přednáška 4 Category Description NC Complete genomic molecules NG Incomplete genomic region NM mRNA NR ncRNA NP Protein XM predicted mRNA model XR predicted ncRNA model XP predicted Protein model feukaryotic sequences) WP predicted Protein model (prokaryotic sequences) Refseq Content Description curated non-redundant sequence database of genomes. Contact Research center National Center for Biotechnology Information Primary citation Pruitt KD & al. [2005)1^ Access Website hrtps;//www,n:bi,nlm.nlh,g ov/RefSeqÉ3 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat PDB IV107 Bioinformatika I -Prednáška 4 An Information Portal to Biological MacromoJecular Structures I FOB Slatistics® CO yy-. P HOT E I K DATA BANK I Adv n r- cŕd Í-iehoti Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat Homr| Search]' AcmiIEi) QuortosH |~ «1 Stíurtijr*Jflti| ill Web FogtHdUj 1 unrekaStp-jctL,f* ■ n^wni¥(i-ioof3i> ■ Results ID List ■ KaFirte [his Search a 1 -'l*i*t Bití; 14'Nav- 1005 Cíp. HatTiedi NMR SO SttuOur«! Cittiťfietť'm Metal Binding Protein Compound Moli Id. t l+rfttuLr; SkiIflUl WuEtl* Um ftnrtln 3 Fragment: Um Domí m Aatťtr* He, F., MutP, T\, Inoue, M.. Kigawa, T,. ShínUUU, M., Terasa-, T,, Yokohama, n L Q Rj 83 Salution structure of Litt doma in In fo u r ptrtrt a tig If lim domains protein 31 G>wr*ct«rtiHci Rfl*j+c Date; H-Na*'200i trp.Hrlhodi NMR 20 StrurivfM €l***itit*t'e<< Melal Binding Protein Comjwund Mo]r Jd. t MriicuJu 34«l*t»l Nucdc 4..m fl-ot«ifl 3 FrjgminT:Uifi hiAilil .Antrim He f HMO, V. lncuer M. KFgawa, t,. ShFrqu^u, «,. lerarja, i. YDkoyama, Záznam v PDB IV107 Bioinformatika I -Přednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG header hydrolase(0-glycosyl) 20-jan-92 1hew 1hew 2 compnd lysozyme (e.c.3.2.1.17) complexed with the inhibitor 1hew 3 compnd 2 tri-n- -acetylchitotriose 1hew 4 source hen (gallus gallus) egg white 1hew 5 author j.c.cheetham,p.j.artymiuk,d.c.phillips 1hew 6 revdat 1 31-, jan-94 1hew 0 1hew 7 jrnl auth j.c.cheetham,p.j.artymiuk,d.c.phillips 1hew 8 jrnl titl refinement of an enzyme complex with inhibitor 1hew 9 jrnl titl 2 bound at partial occupancy. hen egg-white 1hew 10 jrnl titl 3 lysozyme and tri-n-acetylchitotriose at 1.75 1hew 11 jrnl titl 4 angstroms resolution 1hew 12 jrnl re f j.mol.biol. v. 224 613 1992 1hew 13 jrnl refn astm jmobak uk issn 0022-2836 070 1hew 14 remark 1 1hew 15 remark 1 reference 1 1hew 16 remark 1 auth l.n.johnson,j.c.cheetham,p.j.mc*laughlin, 1hew 17 remark 1 auth 2 k.r.acharya,d.barford,d.c.phillips 1hew 18 remark 1 titl protein-oligosaccharide interactions: lysozyme, 1hew 19 remark 1 titl 2 phosphorylase, amylases 1hew 20 remark 1 re f curr.top.microbiol.immunol. v. 139 81 1988 1hew 21 remark 1 refn astm ctmia3 gw issn 0070-217x 761 1hew 22 Příště Analýza proteinových sekvencí, strukturních a funkčních dat Záznam v PDB IV107 Bioinformatika I -Přednáška 4 REMARK 5 THE THREE SUGAR UNITS OF ' THE INHIBITOR MOLECULE ARE BOUND 1HEW 56 REMARK 5 IN THE UPPER THREE SITES ; (a TO i Z) OF ' THE : LYSOZYME ACTIVE 1HEW 57 REMARK 5 SITE CLEFT. NAG MOLECULES, NUMBERED i 203 , 202, AND : 201, ARE 1HEW 58 REMARK 5 BOUND IN SITES A, B, ANĽ 1 c, RESPECTIVELY. 1HEW 59 SEQRES 1 129 LYS VAL PHE GLY ARG CYS GLU LEU ALA ALA ALA MET LYS 1HEW 60 SEQRES 2 129 ARG HIS GLY LEU ASP ASN TYR ARG GLY TYR SER LEU GLY 1HEW 61 SEQRES 3 129 ASN TRP VAL CYS ALA ALA LYS PHE GLU SER ASN PHE ASN 1HEW 62 SEQRES 4 129 THR GLN ALA THR ASN ARG ASN THR ASP GLY SER THR ASP 1HEW 63 SEQRES 5 129 TYR GLY ILE LEU GLN ILE ASN SER ARG TRP TRP CYS ASN 1HEW 64 SEQRES 6 129 ASP GLY ARG THR PRO GLY SER ARG ASN LEU CYS ASN ILE 1HEW 65 SEQRES 7 129 PRO CYS SER ALA LEU LEU SER SER ASP ILE THR ALA SER 1HEW 66 SEQRES 8 129 VAL ASN CYS ALA LYS LYS ILE VAL SER ASP GLY ASN GLY 1HEW 67 SEQRES 9 129 MET ASN ALA TRP VAL ALA TRP ARG ASN ARG CYS LYS GLY 1HEW 68 SEQRES 10 129 THR ASP VAL GLN ALA TRP ILE ARG GLY CYS ARG LEU 1HEW 69 HET NAG 201 15 N-ACETYL- -D-GLUCOSAMINE 1HEW 70 HET NAG 202 14 N-ACETYL- -D-GLUCOSAMINE 1HEW 71 HET NAG 203 14 N-ACETYL- -D-GLUCOSAMINE 1HEW 72 FORMÚL 2 NAG 3 (C£ i HIS > Nl 06) 1HEW 73 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat Záznam v PDB IV107 Bioinformatika I -Přednáška 4 HELIX 1 A ARG 5 HIS 15 1 1HEW 75 HELIX 2 B LEU 25 GLU 35 1 1HEW 76 HELIX 3 C CYS 8 0 LEU 84 5 1HEW 77 HELIX 4 D THR 89 ILE 98 1 1HEW 78 HELIX 5 E VAL 10 9 ASN 113 1 1HEW 79 SHEET 1 SI 2 LYS 1 PHE 3 0 1HEW 80 SHEET 2 SI 2 PHE 38 THR 40 -1 N THR 40 0 LYS 1 1HEW 81 SHEET 1 S2 3 ALA 42 ASN 46 0 1HEW 82 SHEET 2 S2 3 SER 50 GLY 54 -1 0 SER 50 N ASN 46 1HEW 83 SHEET 3 S2 3 GLN 57 SER 60 -1 0 ILE 58 N TYR 53 1HEW 84 TURN 1 Tl MET 12 HIS 15 TYPE III 1HEW 85 TURN 2 T2 LYS 13 GLY 16 TYPE I 1HEW 86 TURN 3 T3 LEU 17 TYR 20 TYPE II 1HEW 87 TURN 4 T4 ASN 19 GLY 22 DISTORTED TYPE II 1HEW 88 TURN 5 T5 TYR 2 0 TYR 23 TYPE ľ 1HEW 89 TURN 6 T6 SER 2 4 ASN 27 TYPE III 1HEW 90 TURN 7 T7 LEU 25 TRP 28 TYPE III 1HEW 91 TURN 8 T8 SER 3 6 ASN 39 TYPE III' 1HEW 92 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat Záznam v PDB IV107 Bioinformatika I -Přednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG CRYSTl 78 . .860 78 . 860 38 . 250 90 . 00 90 .00 90.00 P 43 21 2 8 1HEW 113 ORIGXl 1.000000 0 . 000000 0 . 000000 0 . 00000 1HEW 114 ORIGX2 0 .000000 1. 000000 0 . 000000 0 . 00000 1HEW 115 ORIGX3 0.000000 0 . 000000 1 . 000000 0 . 00000 1HEW 116 SCALEl 0.012681 0 . 000000 0 . 000000 0 . 00000 1HEW 117 SCALE2 0.000000 0 . 012681 0 . 000000 0 . 00000 1HEW 118 SCALE3 0.000000 0 . 000000 0 . 026144 0 . 00000 1HEW 119 ATOM 1 N LYS 1 3 .398 9 . 981 10 . 408 1 .00 30 . 48 1HEW 120 ATOM 2 CA LYS 1 2 . 459 10 .365 9 .364 1 .00 28 . 03 1HEW 121 ATOM 3 C LYS 1 2 . 458 11 .880 9 . 149 1 .00 21. 93 1HEW 122 ATOM 4 O LYS 1 2 .481 12 . 672 10 . 100 1 .00 14 . 10 1HEW 123 ATOM 5 CB LYS 1 1 . 026 9 . 935 9 . 695 1 .00 30 . 54 1HEW 124 ATOM 6 CG LYS 1 0 . 028 10 .169 8 . 558 1 .00 37 . 93 1HEW 125 ATOM 7 CD LYS 1 -1 .415 10 .089 9 . 048 1 .00 33. 23 1HEW 126 ATOM 8 CE LYS 1 -2 .357 10 . 822 8 . 082 1 .00 32 . 17 1HEW 127 ATOM 9 NZ LYS 1 -3 . 661 10 .090 8 . 025 1 .00 31. 92 1HEW 128 ATOM 10 N VAL 2 2 . 429 12 .232 7 . 880 1 .00 17 . 30 1HEW 129 ATOM 11 CA VAL 2 2 .395 13 . 653 7 .465 1 .00 14 . 47 1HEW 130 ATOM 12 C VAL 2 0 . 977 13 .868 6 . 903 1 .00 17 . 58 1HEW 131 ATOM 13 O VAL 2 0 . 642 13 .368 5 . 826 1 .00 32 . 65 1HEW 132 ATOM 14 CB VAL 2 3 .533 14 .012 6 . 536 1 .00 22 . 88 1HEW 133 Příště Analýza proteinových sekvencí, strukturních a funkčních dat Gene Ontology IV107 Bioinformatika I -Prednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat ► Funkce genů a proteinů zjišfujeme experimentálně ► Slovní popis není jednoznačný ► syntéza proteinů ► syntéza polypeptidů ► translace ► aktivita ribozomů ► Ontológie je způsob jak do používaných termínů vnést systém Gene Ontology IV107 Bioinformatika I -Prednáška 4 is a biological process is-/ physiological process cellular process cellular physiological process is_^/ \^ a cell cycle cell division M phase meiotic cell cycle is a \ J part_of is_a\ / M phase of meiotic cell cycle cytokinesis Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat part_of is a I = >oao Gene Ontology IV107 Bioinformatika I -Prednáška 4 ► Molekulární proces ► katalytická aktivita ► transport ► intermolekulární vazba ► Biologický proces ► přenos signálu ► aktivace imunitního sytému ► regulace genů ► Buněčná složka ► buněčné jádro ► plazmatická membrána Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat Gene Ontology - kódy zdroje dat IV107 Bioinformatika I -Přednáška 4 Curator-assigned Evidence Codes ► Experimental Evidence Codes ► IDA: Inferred from Direct Assay ► IPI: Inferred from Physical Interaction ► IMP: Inferred from Mutant Phenotype ► IGI: Inferred from Genetic Interaction ► IEP: Inferred from Expression Pattern ► Computational Analysis Evidence Codes ► ISS: Inferred from Sequence or Structural Similarity ► IGC: Inferred from Genomic Context ► RCA: inferred from Reviewed Computational Analysis ► Author Statement Evidence Codes ► TAS: Traceable Author Statement ► NAS: Non-traceable Author Statement ► Curator Statement Evidence Codes ► IC: Inferred by Curator ► ND: No biological Data available ► Automatically-assigned Evidence Codes ► IEA: Inferred from Electronic Annotation ► Obsolete Evidence Codes Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat □ Metabolické dráhy IV107 Bioinformatika I -Přednáška 4 Interaction i Association types Interaction (stimulatory) iHtelMton (inhti(Oly) Interaction Association (tranKfipltonitl actwlion) Signalling Modules H IFrWfl h IFN-r I» ' ° 1 a b IftXjl f jíl ,.\ ŕ ľ" ■ 0 Q IRF3 module lKŕié é® Cneinoklne TolHike receptor D P TLR module CT 13 CT CT CT B CCl'j 'N" ťg) @> © © T TilFN-ll '■/i BD IFN-o/p module áä á IFN-T STATI module Chemokine i module module i/äiW i 11 1/ ibib i mJSlEfllBOSDSEflDGflüflD Ed D EB Q 01 ® @> é) é) © < lllif liTLIOCj. Cotnpontnt7 im......m h •......■" i-ľ"-' Mi«h ►>."•..• nvi.i -.ai....... fCcmpwwj; J on sbmuialoiy inťuractlorv fel 0*0) ©a i Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat http ://www. g e n o m e. j p/keg g/ UCSC Genome Browser IV107 Bioinformatika I Prednáška 4 ,592 - UCSC Genome Browser vl34 - Konqueror Location Edit View Bookmarks lools Settings Help y id=73350821&k:nownGene=full T *Jj [E Ü Human chr5:7ü,2561524-7D128... Home enomes "ables Gene Sorter PGR DNA Convert PDF/PS Help UCSC Genome Browser on Human Mar. 2006 Assembly zoom out move <<< zoom in [ L5lí I 3* I 10k | base lux 1.5x 3x I josition/search [chrSi70.256.524-70.284.592 11 jump | clea~| size 28,069 bp. | configure chrs {ql3,2) ■ B3-1 _l J cnrs: 70260000I 70265000I 70270090! 70275000I 70280000I STS Markers on Genetic (blue) and Radiation Hybrid (black) Maps STS Markers UCSC Known Genes Eased on UniProt, RefSeq, and GenBank mRNFi Hrfrt-f. HI. C ( ( C ( ( ( C( ( C ( ( C ( ( (-H-H-H-i-H-H-t-j C C ( C H ( C (.( It (t (((((( C (-t-j ( C C ( ( ( ((-m-t-H-HHH-t-H-t-{-H-& J )))))»)))) HK130633 SMfl3ii)))))) SMN1 SMN2 4<-.Trn SMN1 SMM2É) )))>))>))>)))>))>)) — ))))))))))) — — ------ >) j >) )■» i i j i i i i i i i i ji i li I ))))an 1) I'll Mr RefSeq Genes Human mRNfl Sb1 i ced ESTs RefSeq Genes H-h H—H~ 4- — mi)) I mi))))))) — — si- Human mRNňs from GenBank —-1-1—H- H-h H-H- Human ESTs mat Have Been Spliced I I II III II I I Vertebrate Multiz Alignment & Conservation (17 SpeciesJ Conservat ion mouse rat rabb it dog armadi1lo e lepnant opossum ŕln i f l/_K-i L I http://genome,ucsc,edu/cgi-bin/hgc?hgsid=733,,,523£*r=70284592&db=hgl8&pix=620 ííjc Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat Ensembl Genome Browser Chr. 9 tend DNA(cortigs) Ivtarkers 1 >-3 ' 1 21.60 Mb i 21.30 Mb ■i i 22.00 M i ) i 22.20 Mb ■i i 22.40 Mb r- i I—*-:----- P- ■5* 1 "> K ErEembl Genes Vega Havana Genes rcRNA Genes est Genes Gens legend I d9s736 □931642 i II □9s1749 d9s1607 d9s016 i □9s2ü6ü □9s2143 □9s2137 d9s974 d9s942 d9s1748 d9s1gü4 d8s9s8 cesieo d9s175ě MTAP LC9orf53 LCDKN2A LCDKN2 rMeiged Known Proteincoding [Vega Havana Putative Processed trancript IVega Havana Krown Protein codirg RNAPseudogene (NowI) Iest gene I d9s1&14 d9: 1083 D9;.ie7Ü D9ES75 i II d9s96s d9s790 □9s97g □mrta1 Havana Known Proteincoding Vega Havana Processed pseudogene IV107 Bioinformatika I -Prednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat G Browse IV107 Bioinformatika I -Přednáška 4 GBrowse view of the Pto DC3000 region near PSPTCU375 1111111 1507k i i| i i 1508k 1509k pseu min 1510k 1511k 1512k 1513k 1514k 1515k 1516k 1517k 1518k. fill Genes uith links to pseudononas.con hopNl hopAňl-1 hrpWl PSPT0_1371 shell hopMl fill proteins uith links to NCBI type III effector HopNl type III helper protein HrpWl H 28868578 type III chaperone ShcM 28868582 type III effector HopMl 28868581 conserved effector locus protein 28868579 type HI effector HopAAl-1 28868580 28868583 Putative orthologs in Pseudomonas aeruginosa PR01 Putative orthologs in Pseudononas aeruginosa PH14 Putative orthologs in Pseudononas fluoresceins Pf-5 Putative orthologs in Pseudononas putida Putative orthologs in Pseudononas syringae b728a Psyr_1185 shcE avrEl type III chaperone ShcE 28868584 type III effector protein ftvrEl 28868585 Psyr_1182 Protein of unknown function UPF0187 Psyr_1184 Psyr_1188 Pectate lyase conserved effector locus protein avirulence protein AvrE(Pto) Psyr_1186_ type III effector HopPtoM Psyr_1187 DspFAvrF Putative orthologs in Pseudononas syringae pv. phaseolicola PSPPH_1264 type III helper protein HrpWl PSPPH.1265 PSPPH_1267 type III chaperone protein AvrF PSPPH_1268 type III chaperone protein Shell Putative orthologs in Pseudononas entonophila L4S fill COGs uith links to NCBI COG database C0G3781 Function unknown type III effector ňvrEl Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat Argo IV107 Bioinformatika I Prednáška 4 r £ Arg« File Treifc Edit Stint View Emm ftulf-rs Analyze Uiir tooknurfts Window Help ľJUTTATATA TUCAEAEATGM UJAhJAJUAA^TUTAAECJU. HA. IT. LATH. JLU, IL LL..LJC r AM" AC í TC m-ri r j t lt > 11, r.ri-j-r mrrr,: i r 11 n i n;j i iL.nnŕ-jĽTH MCCCTTjC^AATCCCJUJMkKWJCrTTiriTCCAAATAT Al 7^1 JÍ.J.T..1 ■:: Kia jCUi'-M'AGC mitCMTATQ- IL MUL, TĽKICK I IL. I CCTCCTĽ*TLLjJJ.ľ hucVnlnlr C 1Z7/M1I1 t--V. ľ- ■ " '.......MIHMI Afrí LT1Ľ.Ľ.____I^TTĽJUľJUUUUU TAJ ■ AAA TOT AAAI CÍAÍiTTGA TAArTTT MUin^ATn"* TC AJIfAA ĽTTTTUGUT.1ľ*Jl'i£,AAAJU1AXKL^^ ^ť^rňCT^J^fl:TT^I^JU^AÍJ^A^A^■TY■J^^ OíŤ 7:~i A-L^l >." ľ Tí h! Tír/Ť »ACJUIT- ArCTC^ťČM^^KiMTh f ATrT^AATIlWTríTLCAAJĽiLTTTrAlX"^TiTTUJUgĽľlL ľľl-fJJA-TWl^fJU^^yr,TTrAHTAyTMTILA4T7ÍVT ■v lern Ifirujf f whaií Ubrl DC roníiľPF + - Proltin IrngTh j ] [> j \ 50 íurch Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat DecodeMe Browser IV107 Bioinformatika I Prednáška 4 rihiCOW chrl- ^ d*d 4hrE íhrr chrt Cll _ Gtl El- «■ Gl C, fc.C < e íhrX p suje* riBü IhlH-IIHrlhllih MM« irtiPlk Iii MIHI i • I -ü 9 U IMrtlIiJutarřlr Jill l-tttrinllll i »Hill rim-III uMl* liitÉi ;UiAliiHIIMI* H ŕ-til- Z if--+rrt - íi ŕ r.-: in p Sŕ-qur.ii-.r fluild 30 R a? g ť- Ic-zlny*. Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat ířflgilW lufl* "Wll .j^la-, irg.imir» tň S Uŕ> řai rhu \13.l Jll EHPt ■ ■ ---i □ r5P - = _š = Golden Helix Genome Browser IV107 Bioinformatika I Prednáška 4 Ptot af Column Cwr/Trend -teglO P from AsiKlation T«tí (Additiv* Mod|>ly ■ Zoom - 1.5x 3x KJx AA General :p Perrnalink Add custom tracks + Strand Flip | i Open : Close Toolbar I Size: 100000 Fe.ituie: JAM UserModels:522 m Sl+l HiJiJ ■ d±l±liJ UBEdLtliJiJ El .iliJ.U estExtDG_fgenesh_newKGs_kg Ílš]=IĹil±liJ EuGene Base Position H Content Scaffold scaffolcLl GeneCatalog User Models □1+1 ±l±liJ : ±ld±l±liJ □1+1 TjjJiJ CSUSľLunigenes Blát fgenesh_newKGs_kg estExtDG_fgenesh_newKGs_pm .Hj+1. .i+Jiljj □1+1 TjiJ-Ll day7_ESTs Blat lOoOO! 20 WO I 3O0Ů0I «0001 6OO00I 700001 B0OD0! 900001 65.00 ^ Contigs in Scaffolds ľ lij m in JtN jib III ■■ III llll Ill 111 IB |ll MM iii 'si i ii ■ ii IU U III Ml III iti n m mi in i 39161 transcripts in catalog per Fri Jan 30 17:18:22 2009, 750 manually curated ► i* h h H IHM +11 Hli iimhhip User Hödels h um i in EST-extended Fgenesh cDNA-based h EuGene models hi I models 1 1 HI < CSUSMjjnigenes! Blat ► UHU l'ÜHIB.-.- II i IB 11 n h i ■ - - i nil HI Fgenesh cDNA-based models 1 day i ÉST-extended Fgenesh homo ii 7 post-inoculation ESTs Blat mil ogy-base;d model si iiu1u11 iii iii iii H I h 100O00 I h h m. i irrr Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat RIKEN Genome Browser IV107 Bioinformatika I Prednáška 4 Pfdtw kit 'SUibU FUIT04U - g He.-!* UuLrt Hiwm i B UauM E nunil I ß 'J- GTOP 'B^C I4frj*r, f-,!,,,*, 1 0 VtjH RafSaa DNA B" -.«KWUCSt-llll )Um* In>M¥ VtllOim i L"!ujOit MCBI* JUovWi MG) Of«t S 5 Í700J|fW5+n.itn» WflIŮ51ŮÍJUnwt'SPTnEUft MOUSE FiHřii Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat Gŕtv/nr Wra AI 4m povím :Pwl4^i uw« . CJHJE |S»S3»CL__ 1 I • i * 4 t « n n MrljMl InivM tifiíM Tur&TiÉ « 1b :Mw-cilc* W'j__I >*•**!<•) GenoDive IV107 Bioinformatika I Prednáška 4 ■ o o genoEJĚve Pfo Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat highGlowPoints 954 (threshold 0.500000) sogt 0.6 highGlowPoints 199 (threshold 0.600000) load r ox:0000030:expression ■load option data successful JhighGlowPoints 199 (threshold 0.600000) load r ex0000030:expression ,l:load option data successful highGlowPoints 199 (threshold 0.600000) load p photosystem_genes:kazusa ;load option data successful highGlowPoints 199 (threshold 0.600000) ang .01 s slrl311 Příště IV107 Bioinformatika I -Přednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat Analýza proteinových sekvencí, strukturních a funkčních dat Outline IV107 Bioinformatika I Přednáška 4 Příloha For Further Reading Příloha For Further Reading IV107 Bioinformatika I Přednáška 4 Příloha For Further Reading X