IV1O7 Bioinformatika I -Prednaška 4 IV1O7 Bioinformatika I Přednaška 5 Bioinformaticke databaze Databaze GenBank Databaze UniProt Protein Data Bank Gene Ontology KEGG Prište Katedra informaccnich technologií Ma arykova Univerzita Brno Jaro 2O11 n [ Analýza proteinových šekven štrukturních a funkcnich dat Předchozí týden IV107 Bioinformatika I -Přednáška 4 Bioinformatické databáze Datab. GenBank Datab. U ni Prot Protein Data Bank Gene Ontology KEGG Příště Struktura genu Analýza proteinových sekveni strukturních a funkčních dat - prokaryotického - eukaryotického ► Porovnání sekvencí - globální (Needleman-Wunsch) - semi-globální - lokální (Smith-Waterman) Outline IV107 Bioinformatika I Prednaška 4 Bioinformaticke databaze Datab GenBank Datab UniProt Protein Data Bank Gene Ontology KEGG Príšte Analýza proteinových sekvem strukturních a funkcních dat Bioinformaticke databaze Databaí ze GenBank Databaí ze UniProt Protein Data Bank Gene Ontologý KEGG Analýza proteinových sekvencí, strukturních a funkcních dat Typy dat v databázích IV107 Bioinformatika I -Přednáška 4 Nárůst databáze GenBank IV107 Bioinformatika I -PřednáSka 4 Bioinformaticke databaze Databaze GenBank Databaze UniProt Protein Data Bank Gene Ontology KEGG □ es - Analýza proteinových sekven strukturních a fůnkCních dat GenBank Genetic Sequence Data Bank August 2009 NCBI-GenBank Flat File Release 164.0 National Center for Biotechnology Information ► 106533156756 bp ► 108431692 sekv. ftp://http://www.ncbi.nlm.nih.gov/genbank/ GenBank IV107 Bioinformatika I -Přednáška 4 ;é databáze Databí GenBank rot Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekveni strukturních a funkčních dat Whole Genome Shotgun sequences August 2009 National Center for Biotechnology Information ► 148165117763 bp ► 48443067 sekv. ftp://http://www.ncbi.nlm.nih.gov/genbank/ Součásti databáze GenBank ► INV, VRT, MAM, PLN, PRI, ROD, BCT, VRL ► PAT (Patents) ► HTGS (High Throughput Genomic Sequences) ► GSS (Genome Survey Sequences) ► ETS (Expressed Sequence Tags) ► STS (Sequence Tagged Sites) ► WGS (Whole Genome Shotgun) Příklad záznamu v databázi GenBank IV1Ü7 Bioinformatika I -Přednaška 4 LOCUS SCU49845 5028 bp DNA DEFINITION Saccharomyces cerevisiae TCPl-beta gene, Axl2p (AXL2) and Rev7p (REV7) genes, complete ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomy Saccharomycetes; Saccharomycetales; Saccharomycetaceae; S Bioinformatické databaze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Analýza proteinových sekvenc strukturních a funkčních dat Vyhledávání v sekvenčních databázích IV107 Bioinformatika I -Přednáška 4 Bioinform atické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvenci, strukturních a funkčních dat ► textové (klíčová slova) ► sekvenční (BLAST) GenBank Uniprot March 8, 2011 UniprotKB release 2011_03 The UniProt consortium: European Bioinformatics Institute (EBI), Swiss Institute of Bioinformatics (SIB) and Protein Information Resource (PIR) 14,423,061 záznamů - 525,997 (SwissProt) - 13,897,064 (TrEMBL) - 3,785,756 (UniRef50) ► 4651472673 AAs http ://expasy. o rg/s prot/ LK07HUMAN QßWWIl C-1SH62 0953flfc Q9UKC1 Q9UQMS Q9Y6A7 "jHaffch IS, 2001 "sMateh 15, 2DD4 (Sequence v*rsicn 2.Í ijjuly 25, 2ÜQ6 (Entry version 39] ••• • 5yn or.yms LIM domain only protein 7 LOMP F-bůk only -ratcL.i 20 Gens name NUCLEOTIDE SEQUENCE | MRNA) (ISOFORK 3), AND TISSUE SPECIFICITY. TISSUE^Brain, and Peripheral blood leukocyte; BOI-10.1OO7/sW>439-O01-0fr4«-S,- 1 &3S316 [ KCBI, £ä£ägi> Eßl, Isra , Sandberg T ., gS^aSuiL&E&SSE. J - T . , £tf£ÖäiiSL£&L r-r. f. ._i_r u.E., '.'ciirt.anen P-, Niqaiui S., aic E . , Dutra A. , Gl1 la-d.^ E., Stephan □ . A. , Bailey-Wilson J., jgg, S.-H.H .. j&iau T. , TST^USOißS«. O.-P.; "A genomic map of a &-Mb rsgior. at 13q21—q22 implicated in cancer development: identification and characterization at candidate genes . ",-[Hum. Ganet. 110:111-121(20p2>. IV107 Bioinformatika I -Předneiška 4 Bioinformaticke databaze Databaze UniProt Gene Ontology KEGG Příště http://www. uniprot.org/ n [ Analýza proteinových šekven strukturních a funkCních dat Prříklad zaznamu v databazi UniProt IV107 Bioinformatika I -Přednaška 4 Key From To Length Description FTId CHAIN 1 1683 1683 LIM domain only protein 7. PROJ000075824 DOMAIN 54 168 115 CH. DOMAIN 1042 1128 87 PDZ. DOMAIN 1612 1678 67 LIM zinc-binding. Bioinformaticke databaze Databaze GenBank Databaze UniProt Protein Data Bank Gene Ontology KEGG Príšte 10 20 30 40 50 60 MKKIRICHIF TFYSWMSYDV LFQRTELGAL EIWRQLICAH VCICVGWLYL RDRVCSKKDI 70 80 90 100 110 120 ILRTEQNSGR TILIKAVTEK NFETKDFRAS LENGVLLCDL INKLKPGVIK KINRLSTPIA 130 140 150 160 170 180 GLDNINVFLK ACEQIGLKEA QLFHPGDLQD LSNRVTVKQE ETDRRVKNVL ITLYWLGRKA Analýza proteinových sekvenci strukturních a funkcních dat □ gi - = -11= O QvO PDB IV107 Bioinformatika i -Prednáška 4 Zaíznam v PDB IV107 Bioinformatika i -Prednaška 4 Bioinformaticke databaze Databaze GenBank Databaze UniProt Protein Data Bank HEADER COMPND COMPND SOURCE AUTHOR REVDAT JRNL JRNL JRNL JRNL JRNL JRNL JRNL REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK HYDROLASE(O-GLYCOSYL) 20-JAN-92 1HEW LYSOZYME (E.C.3.2.1.17) COMPLEXED WITH THE INHIBITOR 2 TRI-N-ACETYLCHITOTRIOSE HEN (GALLUS GALLUS) EGG WHITE J.C.CHEETHAM/P.J.ARTYMIUK/D.C.PHILLIPS 1 31-JAN-94 1HEW 0 AUTH J.C.CHEETHAM,P.J.ARTYMIUK,D.C.PHILLIPS TITL REFINEMENT OF AN ENZYME COMPLEX WITH INHIBITOR TITL 2 BOUND AT PARTIAL OCCUPANCY. HEN EGG-WHITE TITL 3 LYSOZYME AND TRI-N-ACETYLCHITOTRIOSE AT 1.75 TITL 4 ANGSTROMS RESOLUTION REF J.MOL.BIOL. V. 224 613 1992 REFN ASTM JMOBAK UK ISSN 0022-2836 070 1 1 REFERENCE 1 1 AUTH L.N.JOHNSON,J.C.CHEETHAM,P.J.MC*LAUGHLIN, 1 AUTH 2 K.R.ACHARYA,D.BARFORD,D.C.PHILLIPS 1 TITL PROTEIN-OLIGOSACCHARIDE INTERACTIONS: LYSOZYME, 1 TITL 2 PHOSPHORYLASE, AMYLASES 1 REF CURR.TOP.MICROBIOL.IMMUNOL. V. 139 81 1988 1 REFN ASTM CTMIA3 GW ISSN 0070-217X 761 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW Analýza proteinových šekven strukturních a funkcních dat □ r5> - "* Zaíznam v PDB IV107 Bioinformatika i -Prednaška 4 Bioinformaticke databaze Databaze GenBank Databaze UniProt Protein Data Bank REMARK 5 THE THREE SUGAR UNITS OF THE INHIBITOR MOLECULE ARE BOUND 1HEW 56 REMARK 5 IN THE UPPER THREE SITES (A TO C) OF THE LYSOZYME ACTIVE 1HEW 57 REMARK 5 SITE CLEFT- NAG MOLECULES, NUMBERED 203, 202, AND 201, ARE 1HEW 58 REMARK 5 BOUND IN SITES A, B, AND C, RESPECTIVELY. 1HEW 59 SEQRES 1 129 LYS VAL PHE GLY ARG CYS GLU LEU ALA ALA ALA MET LYS 1HEW 60 SEQRES 2 129 ARG HIS GLY LEU ASP ASN TYR ARG GLY TYR SER LEU GLY 1HEW 61 SEQRES 3 129 ASN TRP VAL CYS ALA ALA LYS PHE GLU SER ASN PHE ASN 1HEW 62 SEQRES 4 129 THR GLN ALA THR ASN ARG ASN THR ASP GLY SER THR ASP 1HEW 63 SEQRES 5 129 TYR GLY ILE LEU GLN ILE ASN SER ARG TRP TRP CYS ASN 1HEW 64 SEQRES 6 129 ASP GLY ARG THR PRO GLY SER ARG ASN LEU CYS ASN ILE 1HEW 65 SEQRES 7 129 PRO CYS SER ALA LEU LEU SER SER ASP ILE THR ALA SER 1HEW 66 SEQRES 8 129 VAL ASN CYS ALA LYS LYS ILE VAL SER ASP GLY ASN GLY 1HEW 67 SEQRES 9 129 MET ASN ALA TRP VAL ALA TRP ARG ASN ARG CYS LYS GLY 1HEW 68 SEQRES 10 129 THR ASP VAL GLN ALA TRP ILE ARG GLY CYS ARG LEU 1HEW 69 HET NAG 201 15 N-ACETYL-D-GLUCOSAMINE 1HEW 70 HET NAG 202 14 N-ACETYL-D-GLUCOSAMINE 1HEW 71 HET NAG 203 14 N-ACETYL-D-GLUCOSAMINE 1HEW 72 FORMUL 2 NAG 3(C8 H15 N1 O6) 1HEW 73 Analýza proteinových sekver strukturních a funkčních dat □ r5> - "* Zaíznam v PDB IV107 Bioinformatika i -Pŕednaška 4 HELIX HELIX HELIX HELIX HELIX SHEET SHEET SHEET SHEET SHEET TURN TURN TURN TURN TURN TURN TURN TURN ARG LEU CYS THR VAL 2 LYS 2 PHE B ALA B SER B GLN MET LYS LEU ASN TYR SER LEU SER S HIS 2S GLU 8C LEU 89 ILE 1C9 ASN 1 PHE B8 THR 42 ASN SC GLY S7 SER 12 HIS 1B GL Y 17 TYR 19 GLY 2C TYR 24 ASN 25 TRP B6 ASN 1S BS 84 98 B 4C -1 N THR 46 C SC S8 54 -1 O SER 60 -1 O ILE TYPE III TYPE I TYPE II DISTORTED TYPE II TYPE I' TYPE III TYPE III TYPE III' N ASN N TYR 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW 1HEW Bioinformaticke databaze Databaze GenBank Databaze UniProt Protein Data Bank n [ Analýza proteinových sekver strukturních a funkCních dat 4C O LYS Zaíznam v PDB IV1Ü7 Bioinformatika I -Prednaška 4 CRYSTl ORIGXl ORIGX2 ORIGX3 SCALEl SCALE2 SCALE3 ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM 78-860 78-860 38-250 90-00 1.000000 0-000000 0-000000 0-000000 1-000000 0-000000 0-000000 0-012681 0-000000 0-000000 0-012681 0-000000 0-000000 LYS LYS LYS LYS LYS LYS LYS LYS LYS VAL VAL VAL VAL VAL 0-000000 1.000000 0-000000 0.000000 0-026144 3.398 2.459 2.458 2.481 1.026 0.028 -1.415 -2.357 -3.661 2.429 2.395 0.977 0.642 3.533 9 . 981 10. 365 11. 880 12. 672 9.935 10. 169 10. 089 10. 822 10. 090 12. 232 13. 653 13. 868 13. 368 14.012 90.00 P 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 10.408 9.364 9 .149 10 .100 9.695 8.558 9.048 8.082 8.025 7.880 7.465 6.903 5.826 6.536 1.00 30 .48 1.00 28.03 1.00 21.93 1.00 14.10 1.00 30.54 1.00 37.93 1.00 33.23 1.00 32.17 1.00 31.92 1.00 17.30 1.00 14.47 1.00 17.58 1.00 32.65 1.00 22.88 1HEW 113 1HEW 114 1HEW 115 1HEW 116 1HEW 117 1HEW 118 1HEW 119 1HEW 120 1HEW 121 1HEW 122 1HEW 123 1HEW 124 1HEW 125 1HEW 126 1HEW 127 1HEW 128 1HEW 129 1HEW 130 1HEW 131 1HEW 132 1HEW 133 Bioinformaticke databaze Databaze GenBank Databaze UniProt Protein Data Bank n [ Analýza proteinových sekven strukturních a funkcních dat 90.00 43 21 2 Gene Ontology IV107 Bioinformatika I -Přednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza prot strukturních a funkčních dat ► Funkce genů a proteinů zjišťujeme experimentálně ► Slovní popis není jednoznačný *■ syntéza proteinů - syntéza polypeptidů - translace *■ aktivita ribozomů ► Ontológie je způsob jak do používaných termínů vnést systém Gene Ontology IV107 Bioinformatika I -Prednaška 4 physiological process biological process cellular process cytokinesis M phase of meiotic cell cycle Bioinformaticke databaze Databaze GenBank Databaze UniProt Protein Data Bank Gene Ontology KEGG Príšte SI-* -O^O Analýza proteinových šekven strukturních a funkcních dat Gene Ontology IV107 Bioinformatika I -Přednáška 4 Bioinformatické databáze Datab. GenBank Datab. UniProt ta Bank Gene Ontology KEGG ► Molekulární proces Příště katalytická aktivita Analýza proteinových sekveni strukturních a funkčních dat «- transport *■ intermolekulární vazba ► Biologický proces - přenos signálu - aktivace imunitního sytému - regulace genů ► Buněčná složka - buněčné jádro plazmatická membrána Gene Ontology - kódy zdroje dat IV107 Bioinformatika I -Přednáška 4 Curator-assigned Evidence Codes ► Experimental Evidence Codes - IDA: Inferred from Direct Assay *■ IPI: Inferred from Physical Interaction - IMP: Inferred from Mutant Phenotype - IGI: Inferred from Genetic Interaction *■ IEP: Inferred from Expression Pattern ► Computational Analysis Evidence Codes - ISS: Inferred from Sequence or Structural Similarity *■ IGC: Inferred from Genomic Context - RCA: inferred from Reviewed Computational Analysis ► Author Statement Evidence Codes *■ TAS: Traceable Author Statement ► NAS: Non-traceable Author Statement ► Curator Statement Evidence Codes IC: Inferred by Curator ND: No biological Data available ► Automatically-assigned Evidence Codes *■ IEA: Inferred from Electronic Annotation ► Obsolete Evidence Codes Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvenci, strukturních a funkčních dat Metabolické dráhy IV107 Bioinformatika I -Prednáška 4 UCSC Genome Browser IV107 Bioinformatika I -Prednaška 4 Bioinformaticke databaze Databaze GenBank Databaze UniProt Protein Data Bank Gene Ontology KEGG Príšte Analýza proteinových šekven štrukturních a funkcních dat Ensembl Genome Browser IV107 Bioinformatika I -PrednaSka 4 Bioinformaticke databaze Databáze GenBank Databaze UniProt Protein Data Bank Gene Ontology KEGG priste n [ Analýza proteinových sekven strukturních a funkCních dat GBrowse IV107 Bioinformatika I -Prednaška 4 Bioinformaticke databaze Databaze GenBank Databaze UniProt Protein Data Bank Gene Ontologý KEGG Príšte □ o" - Analýza proteinových šekven štrukturních a funkcních dat Argo IV107 Bioinformatika i -Prednaška 4 DecodeMe Browser IV107 Bioinformatika I -Prednaska 4 Golden Helix Genome Browser IV107 Bioinformatika I -Přednaška 4 Bioinformaticke databaze Databaze GenBank Databaze UniProt Protein Data Bank Gene Ontology KEGG Pnšte Analyza proteinových šekven strukturních a funkčních dat IGB IV1Q7 Bioinformatika I -Přednaška 4 □ S ~ = -11= -o^o JGI Browser IV1Ü7 Bioinformatika I -Přednaska 4 Bioinformaticke databaze Databaze GenBank Databaze UniProt Protein Data Bank Gene Ontologý KEGG Príste Analýza proteinových sekvencí strukturních a funkcních dat RIKEN Genome Browser IV107 Bioinformatika I -Prednaska 4 □ r3> _ "* GenoDive IV1Q7 Bioinformatika I -Přednaška 4 Bioinformaticke databáze Databaze GenBank Příště IV107 Bioinformatika I -Přednáška 4 Bioinformatickě databáze Databáze GěnBank Databazě UniProt Protein Data Bank Gene Ontology KEGG príšte Analýza proteinových sekvencí, strukturních a funkCních dat Analýza proteinových šekven strukturních a funkcních dat Outline IV107 Bioinformatika I -Přednáška 4 Dodatek For Further Reading Dodatek For Further Reading IV107 Bioinformatika I -Prednaška 4 Dodatek For Further Reading X