LOSCHMIDT LABORATORIES Úvod do bioinformatiky a bioinformatické databáze INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ □ Organizační informace □ Studijní literatura □ Bioinformatika □ Historie bioinformatiky □ Bioinformatické instituce □ Bioinformatické databáze □ Prohledávání databází Úvod do bioinformatiky, bioinformatické databáze Organizační informace □ Kolokvium Písemný test Celkem 25 otázek s jednou i více správnými odpověďmi Minimálně 17 správných odpovědí □ BÍ5000 Bioinformatika I - nukleové kyseliny □ BÍ9060 Bioinformatika II - proteiny □ BÍ9061 Bioinformatika - cvičení Úvod do bioinformatiky, bioinformatické databáze Studijní literatura □ Xiong, J. Essential Bioinformatics. Cambridge University Press, New York, 2006. □ Claverie, J., and Notredame, C. Bioinformatics for Dummies2ed. Wiley Publishing, Hoboken, 2006 □ Cvrčkova, F. Úvod do praktické bioinformatiky. Academia, Praha 2006. □ Misener, S., Krawetz S.A. Bioinformatics: methods and protocols. Humana Press, Totowa, New Jersey 2000. □ Attwood, T.K., Parry-Smith, D.J. Introduction to bioinformatics. Longman, Essex, 1999. □ Baxevanis, A.D., Ouellette, F.B.F. Bioinformatics: a practical guide to the analysis of genes and proteins. Wiley-lnterscience, New York 1998. Úvod do bioinformatiky, bioinformatické databáze □ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul Bioinformatika □ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul Vývoj nástrojů a databází Úvod do bioinformatiky, bioinformatické databáze Bioinformatika □ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul Strukturní analýzy Sekvenční analýzy predikce struktury nukleových kyselin predikce struktury proteinů klasifikace proteinových struktur porovnávání proteinových struktur porovnaní genomu fylogeneze predikce genů a promotorů identifikace motivů prohledávání sekvenčních databází sekvenční přiložení Funkční analýzy modelování metabolických drah analýza profilů genové exprese predikce proteinových interakcí predikce vnitrobuněčné lokalizace proteinů Vývoj nástrojů a databází Úvod do bioinformatiky, bioinformatické databáze Bioinformatika □ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul Strukturní analýzy Sekvenční analýzy predikce struktury nukleových kyselin predikce struktury proteinů klasifikace proteinových struktur porovnávání proteinových struktur porovnaní genomu fylogeneze predikce genů a promotorů identifikace motivů prohledávání sekvenčních databází sekvenční přiložení Funkční analýzy modelování metabolických drah analýza profilů genové exprese predikce proteinových interakcí predikce vnitrobuněčné lokalizace proteinů Vývoj nástrojů a databází Úvod do bioinformatiky, bioinformatické databáze Úvod do bioinformatiky, bioinformatické databáze Úvod do bioinformatiky, bioinformatické databáze Úvod do bioinformatiky, bioinformatické databáze Nukleové kyseliny N-Lys-Phe Úvod do bioinformatiky, bioinformatické databáze Nukleové kyseliny N-Lys-Phe Úvod do bioinformatiky, bioinformatické databáze Úvod do bioinformatiky, bioinformatické databáze Úvod do bioinformatiky, bioinformatické databáze Úvod do bioinformatiky, bioinformatické databáze Proteiny MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCA GLGRLIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVV HDWGSALGFDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRS QAGEELVLQD funkce Úvod do bioinformatiky, bioinformatické databáze Historie bioinformatiky □ Revoluce Úvod do bioinformatiky, bioinformatické databáze Historie bioinformatiky 120 ^100 c -o I — 7 80 C 60 OJ ž OJ 40 OJ Q. Projekt lidského genomu 1982 1986 1990 1994 rok 1998 2002 2006 Úvod do bioinformatiky, bioinformatické databáze 1982 1986 1990 1994 1998 2002 2006 Úvod do bioinformatiky, bioinformatické databáze 1982 1986 1990 1994 1998 2002 Úvod do bioinformatiky, bioinformatické databáze 1982 1986 1990 1994 1998 2002 2006 Úvod do bioinformatiky, bioinformatické databáze 1982 1986 1990 1994 1998 2002 2006 Úvod do bioinformatiky, bioinformatické databáze Historie bioinformatiky 120 -o so C 60 910 950 2900x více sekvencí OJ 40 0J Q_ 39 533 1982 1986 1990 1994 rok 1998 2002 2006 Úvod do bioinformatiky, bioinformatické databáze Bioinformatické instituce □ National Center for Biotechnology Information (NCBI) □ European Bioinformatics Institute (EBI) Bioinformatické instituce •L. □ National Center for Biotechnology Information (NCBI) ■ oddělení National Library of Medicine při National Institutes of Health v USA ■ Poskytuje Databáze GenBank, PubMed, OMIM, Genome dbSNP,... ■ Informace dostupné přes vyhledávací systém Entrez Bioinformatické instituce □ National Center for Biotechnology Information (NCBI) % NCBI e Entrez, The Life Sciences Search Engine HOME SEARCH SITEMAP PubMed All Databases Human Genome GenBank Map Viewer BLAST Search across databases GO Clear Help Welcome to the Entrez cross-database search page (Jj PubMed: biomedical literature citations and abstracts PubMed Central: free, full text journal articles ftrl site Search: NCBI web and FTP sites (Jl Books: online books OMIM: online Mendelian Inheritance in Man (#2? OMIA: online Mendelian Inheritance in Animals NCBI All Databases I A service of the U.S. National Library of Medicine l^tfl \^ ^t^U^^fl aiid the National Institutes of Health www.pubmed.gov I Search | PubMed 3 f-* r '! řr 1--.m. r-1 ..'r f Limits 7" P review/In ä ex History | Clipboard Details About Entrez Text Version Entrez PubMed Overview Help | FAQ Tutorials New/Noteworthy $t E-Utilities PubMed Services Journals Database MeSH Database Single Citation Matcher Batch Citation Matcher Clinical Queries Special Queries LinkOut To get started with PubMed, enter one or more search terms. Search terms may be topics, authors or journals. Set up an automated PubMed update in fewer than NCBI f*ve minutes. 1. Create a My NCBI account 2. Save your search. 3. Your PubMed updates can be e-mailed directly to you. Read the My NCBI Help material to explore other options, such as automated updates of other databases, setting search filters, and highlighting search terms. PubMed is a service of the U. S. National Library of Medicine that includes over 17 million citations ISI Web of Knowledge51 I Sign In | My EndNote Web My ResearcherlD | My Citation Alerl Take the next step Search Cited Reference Search I Advanced Search I Search History I Marked List (0; Web of Science1* 1 in | Topic J Example: oil spill* AND "North Sea" AND _^J| | Author J Example: O'Brian C* OR OBrian C* Need help finding papers by an author? Us 3 Author Finder. AND zi\ □ in Publication Nan ne -1 Example: Cancer* OR Journal of Cancer Research and Clinical Oncology Add Another Field ( Search ) ( Clear ) Úvod do bioinformatiky, bioinformatické databáze Bibliografické databáze □ PubMed Provozováno National Library of Medicine Obsahuje více než 22 milionů citací biomedicínské literatury Integruje MEDLINE, časopisy z oblasti živých věd a online knihy Prohledávání možné přes Entrez nebo DBGET Obsahuje kromě abstraktů odkazy na plné texty dostupné přes PubMed Central nebo stránky nakladatelství NCBI Publ^Jed^i U.S. National Library of Medicine National Institutes of Health Úvod do bioinformatiky, bioinformatické databáze Bibliografické databáze □ PubMed PublGjed.gov U.S. National Library of Medicine National Institutes of Health Search' PubMed ^^^B I Limits Advanced search Help Search 1 Clear Display Settings: fvl Abstract Send to: fvl Nat Chem Biol. 2009 Oct;5(10):727-33. Epub 2009 Aug 23. Redesigning dehalogenase access tunnels as a strategy for degrading an anthropogenic substrate. Pavlova M, Klvana M, Prokop Z, Chaloupkova R, Banas P, Otyepka M, Wade RC, Tsuda M, Nagata Y, Damborsky J. Loschmidt Laboratories, Institute of Experimental Biology and National Centre for Biomolecular Research, Faculty of Science, Masaryk University, Brno, Czech Republic. Abstract Engineering enzymes to degrade anthropogenic compounds efficiently is challenging. We obtained Rhodococcus rhodochrous haloalkane dehalogenase mutants with up to 32-fold higher activity than wild type toward the toxic, recalcitrant anthropogenic compound 1,2,3-trichloropropane (TCP) using a new strategy. We identified key residues in access tunnels connecting the buried active site with bulk solvent by rational design and randomized them by directed evolution. The most active mutant has large aromatic residues at two out of three randomized positions and two positions modified by site-directed mutagenesis. These changes apparently enhance activity with TCP by decreasing accessibility of the active site for water molecules, thereby promoting activated complex formation. Kinetic analyses confirmed that the mutations improved carbon-halogen bond cleavage and shifted the rate-limiting step to the release of products. Engineering access tunnels by combining computer-assisted protein design with directed evolution may be a valuable strategy for refining catalytic properties of enzymes with buried active sites. PMID: 19701 186 [PubMed - indexed for MEDLINE] S Publication Types, MeSH Terms, Substances, Secondary Source ID Q LinkOut- more resources Full Text Sources: Nature Publishing Group Related citations Biodegradation of 1,2,3-trichloropropane through directed evolution an [Appl Environ Microbiol. 2002] Pathways and mechanisms for product release in the engineered haloalkane dehak [J Mol Biol. 2009] Mechanism of enhanced conversion of 1,2,3-trichloropropane b [J Comput Aided Mol Des. 2006] Evolving haloalkane dehaloqenases [Curr Opin Chem Biol. 2004] I Alpha/Beta-hydrolase fold enzymes structures, functions [Curr Protein Pept Sci. 2000] See reviews.. See all.. All links from this record Related Citations Compound (MeSH Keyword) Compound (Publisher) Substance (MeSH Keyword) Substance (Publisher) Úvod do bioinformatiky, bioinformatické databáze Bibliografické databáze □ Web of Science ■ Komerční databáze Součást ISI Web of Knowledge Používá se pro zjištění citovanosti a impaktního faktoru časopisů Úvod do bioinformatiky, bioinformatické databáze Bibliografické databáze □ Web of Science ISI Web of Knowledge Web of Science Additional Resources Search | Cited Reference Search | Structure Search | Advanced Search | Search History | Marked List (0) Web Of Science® - with Conference Proceedings << Back to results list ■* \ Record 1 of 1 i ► Record from Web of Science® Redesigning dehalogenase access tunnels as a strategy for degrading an anthropogenic substrate Print '■ ■' E-mail; 'Add to Marked List '■ 'Save to EndNJjtBVfen '■ ■' Save to RefMan, ProCilĚ^ mere options Authorfs): Pavl ova M [Paul ova, Martina)1,2lKlvanaM[KlvanalMartin)1,2lProkopZ[ProkoplZbynek)1,ilChaloupkovaR[ChaloupkovalRadka)1,ilBanasP [Banas, Pavel)3,4, Otyepka M [Otyepka, Michal)3,4, Wade RC (Wade, Rebecca C.f, Tsuda M [Tsuda, Masatakaf, Nagata Y [Nagata, Yujif, Damborsky J [Damborsky, Jiri)1,2 Source: NATURE CHEMICAL BIOLOGY Volume: 5 Issue: 10 Pages: 727-733 Published: OCT 2009 Times Cited: 5 References: 50 [FJ Citation Map Abstract: Engineering enzymes to degrade anthropogenic compounds efficiently is challenging. We obtained Rhodococcus rhodochrous haloalkane dehalogenase mutants with up to 32-fold higher activity than wild type toward the toxic, recalcitrant anthropogenic compound 1,2,3-trichloropropane [TCP) using a new strategy. We identified key residues in access tunnels connecting the buried active site with bulk solvent by rational design and randomized them by directed evolution. The most active mutant has large aromatic residues at two out of three randomized positions and two positions modified by site-directed mutagenesis. These changes apparently enhance activity with TCP by decreasing accessibility of the active site forwater molecules, thereby promoting activated complex formation. Kinetic analyses confirmed that the mutations improved carbon-halogen bond cleavage and shifted the rate-limiting step to the release of products. Engineering access tunnels by combining computer-assisted protein design with directed evolution may be a valuable strategy for refining catalytic properties of enzymes with buried active sites. Document Type: Article Language: English Keywords Plus: SPHINGOMONAS-PAUCIMOBILIS UT26; HALOALKANE DEHALOGENASE; DIRECTED EVOLUTION; CYTOCHROME P450S; HETEROLOGOUS EXPRESSION; XENOBIOTIC COMPOUNDS; CATALYTIC MECHANISM; ESCHERICHIA-COLI; ENZYME; SPECIFICITY Reprint Address: Damborsky, J (reprint author), Masaryk Univ, Fac Sci, Loschmidt Labs, Inst Expt Biol, CS-61137 Brno, Czech Republic_ Cited by: 6 This article has been cited 6 times [from Web of Science}. Kourist R, Jochens H, Bartsch S, et al. The alpha/beta-Hydrolase Fold 3DM Database (ABHDB) as aToolfor Protein Engineering CHEMBIOCHEM 11 12 1635-1643 AUG 162010 Stsiapanava A, Dohnalek J, Gavira JA, et al. Atomic resolution studies of haloalkane dehalogenases DhaA04, DhaA14 and DhaA15 with engineered access tunnels ACTA CRYSTALLOGRAPHICA SECTION D-BIOLOGICAL CRYSTALLOGRAPHY 66 962-969 Part 9 SEP 2010 Brouk M, Derry NL, Shainsky J, et al. The influence of key residues in the tunnel entrance and the active site on activity and selectivity oftoluene-4-mo no oxygenase JOURNAL OF MOLECULAR CATALYSIS B-ENZYMATIC 66 1-2 72-80 SEP 2010 [ view all 6 citing articles ] ( Create Citation Alert ; Related Records: Úvod do bioinformatiky, bioinformatické databáze Databáze nukleotidových sekvencí O □ GenBank □ EMBL-Bank □ DDBJ □ Anotované kolekce veřejně dostupných nukleotidových sekvencí □ Data získaná z genomových center a odborných pracovišť □ Každodenní vzájemná synchronizace nových a aktualizovaných dat □ "Accession number" - jedinečný identifikátor záznamu, ve všech třech databázích Databáze nukleotidových sekvence □ GenBank Založena v roce 1982, provozována NCBI Přístupná prostřednictvím vyhledávacího systému Entrez nebo systému DBGET Obsahuje více než 156.000.000 sekvencí (2012) Nové sekvence možné vložit pomocí Banklt nebo Sequin NCBI Úvod do bioinformatiky, bioinformatické databáze Databáze nukleotidových sekvence □ EMBL-Bank Založena v roce 1980, Provozována EBI Přístupná prostřednictvím vyhledávacího systému SRS či DBGET Obsahuje více než 247.000.000 sekvencí (2012) Nové sekvence možné vložit pomocí Webin nebo Sequin EMBL I NUCLEOTIDE SEQUENCE DATABASE Úvod do bioinformatiky, bioinformatické databáze Databáze nukleotidových sekvence □ DNA Data Bank of Japan (DDBJ) ■ Založena v roce 1984, provozována National Institute of Genetics ■ Obsahuje více než 153.000.000 sekvencí (2012) ■ Nové sekvence možné vložit pomocí Sakura nebo Sequin (S>DDBJ DNA Datů Bank of Jdpin Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v GenBank □ Hlavička Základní informace o záznamu Lokus, definice, přístupový kód, klíčová slova, organizmus, reference,. X.autotrophicus haloalkane dehalogenase (dhlA) gene, complete cds Comment Features Sequence LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL PUBMED COMMENT linear (dhlA) gene, BCT 15-FEB-1996 complete cds. Rhizobiales; XAADHLA 3041 tap DNA X.autotrophicus haloalkane dehalogenase M26950 M26950.1 GI:155347 haloalkane dehalogenase. Xanthotaacter autotrophicus Xanthobacter autotrophicus Bacteria; Proteobacteria; Alphaproteobacteria Xanthobacteraceae; Xanthobacter. 1 (bases 1 to 3041) Janssen,D.B., Pries,F.f van der Ploeg,J.r Kazemier,B and WitholtrB. Cloning of 1,2-dichloroethane degradation genes of Xanthobacter autotrophicus GJ10 and expression and sequencing of the dhlA gene J. Bacteriol. 171 (12), 6791-6799 (1989) 2687254 Draft entry and computer readable copy of sequence [1] kindly provided by D.B.Janssen, ll-AUG-1989. Te rpstra,P. Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v GenBank □ Charakteristiky ■ Popis jednotlivých oblastí genu ■ Promotor, RBS (ribozóm vazebné místo), CDS (kódující sekvence), ... qene 918..1931 /gene="dhlA" promoter 918..946 /gene="dhlA" /note="putative" promoter 945..974 /gene="dhlA" /note="putative" RBS 986..998 /gene="dhlA" CDS 999. .1931 /gene="dhlA" /codon start=l /transl table=ll /product^1 haloalkane dehalogenase" /protein id="AAA8 8 691.1" /db_xref=,,GI:155348" /translation="MINAIRTPDQRFSNLDQYPFSPNYLDDLPGYPGLRAHYLDEGNS DAEDVFLCLHGEPTWSYLYRKMIPVFAESGARVIAPDFFGFGKSDKPVDEEDYTFEFH RNFLLALIERLDLRNITLVVQDWGGFLGLTLPMADPSRFKRLIIMNACLMTDPVTQPA FSAFVTQPADGFTAWKYDLVTPSDLRLDQFMKRWAPTLTEAEASAYAÄPFPDTSYQAG Úvod do bioinformatiky, bioinformatické databáze 46/83 Ukázka záznamu v GenBank □ Charakteristiky FEATURES source CDS gene promoter promoter RES CDS Location/Qualifiers 1..3041 /organism="Xanthobacter autotrophicus" /mol_type="genomic DNA" /strain="GJ10" /db_xref="taxon: 280" complement(3ie..924) /note="ORF 1; putative" /codon_start=l /transl table=ll /product="unknown protein" /protein id="AAA88690■1" /db_xref="GI:1197026" / translation-"MSTFFEPETJGMKQWAKTERI LDVALELLETEGEFGLTMRQVATQ ADMSLSNVQYYFKSEDLLLVAMADRYFQRCLTTMAEHPPLSAGRDQHAQLRALLRELL GHGLEISEMCRIFREYWAIATRWETVHGYLKSYYRDLAEVMAEKLAPLAS SEKALAVA VSLVIPYVEGYSVTAIÄMPESIDTISETLTNVVLEQLRISNS" 918..1931 /gene="dhlA" 918..946 /gene="dhlA" /note="putative" 945..974 /gene="dhlA" /note="putative" 986..998 /gene="dhlA" 999..1931 /gene="dhlA" /codon_start=l /transl table=ll /product="haloalkane dehalogenase" /protein id="AAA88691■1" /db_xref="GI:155348" /translation="MIWAIRTPDQRFSWLDQYPFSPNYLDDLPGYPGLRAHYLDEGNS DAEDVFLCLHGEPTWSYLYRKMIPVFAESGARVIAPDFEGFGKSDKPVDEEDYTFEFH RNFLLALIERLDLRHITLVVQDWGGFLGLTLPMADPSREKRLIIMNACLMTDPVTQPA FSAFVTQPADGFTÄWKYDLVTPSDLRLDQFMKRWAPTLTEAEASAYAAPFPDTSYQAG VRKFPKMVAQRDQACIDISTEAISFWQMDWWGQTFMAIGMKDKLLGPDVMYPMKALIN GCPEPLEIADAGEFVQEFGEQVAREALKHFAETE"_ Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v GenBank □ Sekvence ORIGIN 1 bp upstream of BamHI site. 1 atgataaatg caattcgcac cccggaccaa 61 agccccaact acctggacga cctccccggc 121 gagggcaatt ctgacgctga agacgttttt 181 tacctgtatc gcaagatgat cccggtattt 241 gacttttttg gattcggaaa atccgacaag 301 tttcaccgca acttcctgct tgcactaatc 361 gtcgttcagg actggggcgg atttttgggg 421 ttcaagcgcc tgatcatcat gaacgcctgc 481 tttagcgcct ttgtcaccca gcctgcggat 541 acgccatcag acctgcgcct tgaccagttc 601 gctgaggcct ccgcgtatgc tgcgcctttc 661 aagtttccca agatggtcgc gcaacgcgac 721 atttcgttct ggcagaacga ctggaatggc 781 aaattgctgg gaccggacgt catgtatcct 841 cccctcgaaa tagcggacgc tggccatttc 901 gaggccctga aacactttgc cgagacagaa // cgcttcagca tacccgggat ctctgccttc gctgaatcag ccagtagacg gaacggcttg ctgaccttac ttgatgaccg ggctttaccg atgaagcgtt cctgacactt caggcctgca cagaccttca atgaaggcgc gtacaggagt tag atctcgatca tgcgggcaca atggcgagcc gcgcacgagt aagaagacta acttgcgcaa cgatggccga acccggtcac cctggaaata gggcgcccac cctatcaggc tcgacatttc tggccattgg tcattaatgg ttggcgagca gtatccgttc ctacctcgac cacctggagt tattgcgcca caccttcgaa cattacgctg cccttcccgc ccagcctgcg cgatctggtt actgaccgaa tggtgtacgc aaccgaagcg catgaaagac ctgcccggaa agtggctcgc Úvod do bioinformatiky, bioinformatické databáze Databáze proteinových sekvencí □ UniProtKB □ nr Protein Database Úvod do bioinformatiky, bioinformatické databáze Databáze proteinových sekvencí □ UniProtKB Spolupráce EBI, Swiss Institute of Bioinformatics a Protein Information Resource Centrální úložiště proteinových sekvencí a funkčních informací Kvalitní anotace - informace o funkci proteinu a jednotlivých aminokyselin, experimentální informace, biologické ontológie, klasifikace, odkazy do dalších databází Indikace kvality anotace (manuální vs. automatická) Úvod do bioinformatiky, bioinformatické databáze Databáze proteinových sekvencí □ UniProtKB/Swiss-Prot ■ Vysoká kvalita manuálních anotací ■ © Manuální anotace - spolehlivé informace ■ © 500.000 sekvencí (srpen 2012) UniProtKB Protein knowledgebase U n i ProtKB/S wi ss-Prot Reviewed Manual annotation UniProtKB/TrEM BILI n reviewed . Automatic annotation □ UniProtKB/TrEMBL ■ Sekvence konceptuálni translací kódujících sekvencí EMBL-Bank © Automatická anotace - nižší kvalita, možnosti chyb © 24.000.000 sekvencí (srpen 2012) Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v UniProtKB □ Názvy a zdroj proteinu □ Vlastnosti proteinu I Names and origin Hide | Top J Protein names Recommended name: Haloalkane dehalogenase EC=3.8.1.5 Alternative name(s): 1,3,4.6-tetra c h I o ro-1,4-cyclohexadiene hydrolase 1,4-TCDN chlorohydrolase Gene names Name: linB Organism Pseudomonas paucimobilis (Sphingomonas paucimobilis) Taxonomie identifier 13689 [NCBI] Taxonomie lineage Bacteria > Proteobacteria > Alphaproteobacteria > Sphingomonadales > Sphingomonadaceae > Sphingomonas [Protein attributes Hide | Top J Sequence length 296 AA. Sequence status Complete. Sequence processing The displayed sequence is further processed into a mature form. Protein existence Evidence at protein level. Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v UniProtKB □ Obecná anotace [ General annotation (Comments) Hide | Top J Function Catalyzes hydrolytic cleavage of carbon-halogen bonds in halogenated aliphatic compounds, leading to the formation of the corresponding primary alcohols, halide ions and protons. Has a broad substrate specificity since not only monochloroalkanes (C3 to C10) but also dichloroalkanes (> C3), bromoalkanes, and chlorinated aliphatic alcohols were good substrates. Shows almost no activity with 1,2-dichloroethane, but very high activity with the brominated analog. Is involved in the degradation of the important environmental pollutant gamma-hexachlorocyclohexane (lindane) as it also catalyzes conversion of 1,3,4,6-tetrachloro-1,4-cyclohexadiene (1,4-TCDN) to 2,5-dichloro-2,5-cyclohexadiene-1,4-diol (2,5-DDOL) via the intermediate 2,4,5-trichloro-2,5-cyclohexadiene-1-ol (2,4,5-DNOL). ( HAMAP MF_0123l) Catalytic activity 1-haloalkane + H20 - a primary alcohol + halide. CHAMAF MF-°12313 1,4-TCDN + 2 H2O " 2,5-DDOL + 2 chloride.'HAMAP MF-°1231) Enzyme regulation Competitively inhibited by the key pollutants 1,2-dichloroethane (1,2-DCE) and 1,2-dichloropropane (1 0-Or*P) (hAMAP MF_01231 ) Pathway Xenobiotic degradation; gamma-hexachlorocyclohexane degradation. (HAMAP mf_qi23i j Subunit structure M^rn^r ^HAMAP MF-0123O Subcellular location Periplasm. Induction Constitutively expressed. <-HAMAP MF-°123i) Miscellaneous Is not N-terminally processed during export, so it may be secreted into the periplasmic space via a hitherto unknown mechanism. CHAMAP 1^.01231) Sequence similarities Belongs to the haloalkane dehalogenase family. Type 2 subfamily. Biophysicochemical properties pH dependence: Optimum pH is 8.2. CHAMAPMF-°'l23i) Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v UniProtKB □ Ontológie ■ Ontologies Keywords Biological process Detoxification Cellular component Periplasm Molecular function Hydrolase Technical term Gene Ontology (GO) Biological process 3D-sr.ru cture Direct protein sequencing response to toxin Inferred from electronic annotation. Source: UniProtKB-KW Cellular component periplasrnic space Inferred from electronic annotation. Source: UniProtKEI-SubCell Molecular function Complete GO annotation... haloalkane dehalogenase activity Inferred from electronic annotation. Source: HAMAP Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v UniProtKB □ Anotace sekvence Sequence annotation (Features) Feature key Position(s) Length Molecule processing r Initiator methionine 1 1 □ Chain 2-296 295 Graphical view Feature identifier Sites Natural variations Natural variant Natural variant r Natural variant r Natural variant r Natural variant Natural variant 112 134-135 13£ 247 253 A T in strain: B90. A ^ V in strain: B90. IA - VTin strain: B90. I —> l_ in strain: B90. A ^ H in strain: B90. M ^ I in strain: B90. PRO 0000216778 r Active site 108 1 Nur|pnnhi|etHAMAPMF-°123-0 ■ Active site 132 1 Prnfnn r|nnnr(hamapmf_0l23O -- ■ Active site 272 1 Prnfnn arrpptnr (hamap mf_01231 ] -- ■ Binding site 38 1 |-|q|jrjp [ hamap mf_01231 ) -- ■ Binding site 109 1 |-|q|jrjfa C hamap mfjj1231 ) Úvod do bioinformatiky, bioinformatické databáze □ Anotace sekvence Natural variations r Natural variant 81 1 A - Tin strain: B90. r Natural variant 112 1 A - V in strain: B90. ■ Natural variant 134-135 2 IA - VTm strain: B90. ■ Natural variant 138 1 I - L in strain: B90. ■ Natural variant 247 1 A - H in strain: B90. r Natural variant Experimental info r Mutagenesis 253 38 1 1 M — I in strain: B90. N — D, E, F or Q: Loss of activity. >-'I' r Mutagenesis 108 1 D — A: Loss of activity. (Ref-eJ r Mutagenesis 108 1 D — N: 58% of wild-type activity. tR'feJ ■ Mutagenesis 109 1 W — L: Loss of activity. C^ITJ ■ Mutagenesis 132 1 E — Q: Loss of activity. C2il5J ■ Mutagenesis 151 1 F — L, W or Y: Increase in activity.' RefJJ ■ Mutagenesis 169 1 F — L: 31% of wild-type activity. CR6f-7) ■ Mutagenesis 244 1 E — Q: 38% of wild-type activity. (Rtf-B) r Mutagenesis 272 1 H — A: Loss of activity. O16) 56/83 Ukázka záznamu v UniProtKB □ Sekvence Sequences Sequence Length Mass (Da) Tools □ P51698-1 [UniParc]. Last modified January 23, 2007. Version 4. Checksum: 6EEE011B157DBAE1 FASTA 296 33,108 [i^sľ 10 20 30 40 50 60 MSLGAKPFGE KKFIEIKGRR MAYIDEGTGD PILFQHGHPT SSYLWRNIHP HCAGLGRLIA 70 80 90 100 110 120 CDLIGHGDSD KLDPSGPERY AYAEHRDYLD ALWEALDLGD RWLWHDTJG SALGFDUARR 130 140 150 160 170 180 HRERVQGIAY MEAIAHPIEIJ ADFPECjDRDL FQAFRSCjAGE ELVLQDNVFV EÜVLPGLILR 190 200 210 220 230 240 PLSEAEMAAY REPFLAAGEA RRPTL5ÜPRQ IPIAGTPADV VAIARDYAGTJ LSESPIPKLF 250 2 60 270 280 290 INAEPGALTT GRMRDFCRTIJ PNQTEITVAG AHFIQEDSPD EIGAAIAAFV RRLRPA Hide go Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v UniProtKB □ Reference References [1] "Cloning and sequencing of a dehalogenase gene encoding an enzyme with hydrolase activity involved in the degradation of gamma-hexachlorocyclohexane in Pseudomonas paucimobilis." Nagata Y., Nariya T., Ohtomo R., Fukuda M., Yano K., Takagi M J. Bacteriol. 175:6403-6410(1993) [PubMed: 7691794] [Abstract] Cited for: NUCLEOTIDE SEQUENCE [GENOMIC DNA], PROTEIN SEQUENCE OF 2-16. Strain: UT26. [2] [3] [4] [5] Nagata Y., Nariya T., Ohtomo R., Fukuda M., Yano K., Takagi M Submitted (MAR-1999) to the EMBL/GenBank/DDBJ databases Cited for: SEQUENCE REVISION. "Cloning and characterization of lin genes responsible for the degradation of hexachlorocyclohexane isomers by Sphingomonas paucimobilis strain B90." Kumari R., Subudhi S., Suar M., Dhingra G., Raina V., Dogra C., Lai S., van der Meer J.R., Holliger C., Lai R Appl. Environ. Microbiol. 68:6021-6028(2002) [PubMed: 12450824] [Abstract] Cited for: NUCLEOTIDE SEQUENCE [GENOMIC DNA]. Strain: B90. "Two different types of dehalogenases, LinA and LinB, involved in gamma-hexachlorocyclohexane degradation in Sphingomonas paucimobilis UT26 are localized in the periplasmic space without molecular processing." Nagata Y., Futamura A., Miyauchi K., Takagi M J. Bacteriol. 181:5409-5413(1999) [PubMed: 10464214] [Abstract] Cited for: PROTEIN SEQUENCE OF 2-10, SUBCELLULAR LOCATION. "Purification and characterization of a haloalkane dehalogenase of a new substrate class from a gamma-hexachlorocyclohexane-degrading bacterium, Sphingomonas paucimobilis UT26." Nagata Y., Miyauchi K., Damborsky J., Manova K., Ansorgova A., Takagi M Appl. Environ. Microbiol. 63:3707-3710(1997) [PubMed: 9293022] [Abstract] Cited for: CHARACTERIZATION. Strain: UT26. Úvod do bioinformatiky, bioinformatické databáze Databáze proteinových sekvencí □ nr Protein Database ■ Databáze proteinových sekvencí NCBI ■ Kolekce sekvencí získaných konceptuálni translací kódujících oblastí GenBank/EMBL-Bank/DDBJ a dále sekvencí z UniProtKB, PRFa RCSBPDB ■ © většinou automatická anotace - nižší kvalita, možnost chyb ■ © chybí indikace původu anotace ■ © více než 20.000.000 sekvencí (2012) Úvod do bioinformatiky, bioinformatické databáze Formáty sekvencí □ Prostá sekvence DQLTEEQIAEFKEAFS LFDK Úvod do bioinformatiky, bioinformatické databáze Formáty sekvencí □ Prostá sekvence □ GenBank LOCUS DEFINITION AAU03518 237 bp DNA PLN 04-FEB-1995 Aspergillus awarnori internal transcribed spacer 1 (ITS1) and 18S rRNA and 5.8S rRNA genes, partial sequence. U03518 41 a 77 c 67 g 52 t ACCESSION BASE COUNT ORIGIN 1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc // Úvod do bioinformatiky, bioinformatické databáze Formáty sekvencí □ Prostá sekvence □ GenBank □ EMBL ID XX AC XX DE DE XX SQ AA03518 U03518; standard; DNA; FUN; 237 BP Aspergillus awarnori internal transcribed spacer 1 (ITS1) and 18S rRNA and 5.8S rRNA genes, partial sequence. Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other; aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc 60 120 180 237 Úvod do bioinformatiky, bioinformatické databáze Formáty sekvencí □ Prostá sekvence □ GenBank o □ EMBL □ FASTA >giI155348|gb|AAA88691.1| haloalkane dehalogenase i-iINAIRTPDQRFSNLDQYPFSPNYLDDLPGYPGLRÄHYLDEGNSDAEDVF AESGARVIAPDFFGFGKSDKPVDEEDYTFEFHRNFLLALIERLDLRNITK FKRLIIMNAC LMTD PVTQ PAF SAFVTQ PADGFTAWKYD LVT P S D LRLDQ F PDTSYQAGVRKF PKMVAQRDQACIDISTEAISFWQNDWNGQT FMAIGMKD PLEIADAGHFVQE FGE QVAREALKHFAE TE Nejčastěji používaný formát Úvod do bioinformatiky, bioinformatické databáze Databáze proteinových struktur □ Worldwide Protein Data Bank (wwPDB) Světový depositář proteinových struktur, obsahuje rovněž struktury nukleových kyselin a biomolekulárních komplexů ■ Research Collaboratory for Structural Bioinformatics (RCSB PDB), Protein Data Bank Europe (PDBe), Protein Data Bank Japan (PDBj), Biological Magnetic Resonance Data Bank (BioMagResBank) ■ Obsahuje více než 84.000 struktur (2012) ■ Struktury získané rentgenovou krystalografií (88%) a nukleární magnetickou rezonancí (11 %) WORLDWIDE 3 PDB PROTEIN DATA BANK Databáze genomů □ Entrez Genome □ Ensembl □ Genomes OnLine Database GOLD □ Informace o zdrojovém organizmu □ Nukleotidové a proteinové sekvence □ Geny v kontextu genomu □ Anotace a analýza genomů Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v Entrez Genome □ Přehled prokaryotických genomů Overview [8348] Eukaryotes [2215] Prokaryotes [14202] Viruses [3212] I-II-II-|l- First Previous Shown: 1 -100 out of 1309 items Next Last Download selected records Organism/Name BioProject Group SubGroup Size GC% Chromosomes WGS Scaffolds Gene Protein Release Modify Status Actinobacte ^ | — All Actini t I (Mb) RefSeq INSDC Date Date All _-rj Acaricornes phytoseiuli DSM 14247 PRJNA174970 Actinobacteria Actinobacteria _ _ No data Acidimicrobiuin ferrooxidans DSM 10331 PRJNA59215 PRJNA29525 Actinobacteria Actinobacteria 2.16 68.30 NC_013124.1 CP001631.1 2089 1964 2009/D8/18 2012/01/30 Complete Acidothermus cellulolyticus 11B PRJNA58501 PRJNA16097 Actinobacteria Actinobacteria 2.44 66.90 NC_008578.1 CP000481.1 - - 2217 2157 2006/11/09 2012/01/24 Complete Actinoalloteichus spitiensis RMV-1378 PRJNA76807 Actinobacteria Actinobacteria 5.71 72.40 AG VXD 1 2011/12/20 2012/05/31 Scaffolds or contigs Actinobaculum sp. oral taxon 133 str. F0552 PRJNA173932 Actinobacteria Actinobacteria No data Actinobaculum rnassiliae ACS-171-V-Col2 PRJNA52091 Actinobacteria Actinobacteria SRA or Traces Actinobaculum schaalii PRJNA52093 Actinobacteria Actinobacteria - - - - - - - - - No data Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v Entrez Genome □ Přehled prokaryotických genomů Overview [8348] Eukaryotes [2215] Prokaryotes [14202] Viruses [3212] I-II-II-|l- First Previous Shown: 1 -100 out of 1309 items Next Last Download selected records Organism/Name BioProject Group SubGroup Size GC% Chromosomes WGS Scaffolds Gene Protein Release Modify Status Actinobacte | — All Actini t I (Mb) RefSeq INSDC Date Date All _-rj Acaricornes phytoseiuli DSM 14247 PRJNA174970 Actinobacteria Actinobacteria _ _ No data Acidirnicrobiurn ferrooxidans DSM PRJNA59215 PRJNA29525 Actinobacteria Actinobacteria 2.16 68.30 NC_013124.1 CP001631.1 2089 1964 2009/D8/18 2012/01/30 Complete Acidothermus cellulolyticus 11B PRJNA58501 PRJNA16097 Actinobacteria Actinobacteria 2.44 66.90 NC_008578.1 CP000481.1 - - 2217 2157 2006/11/09 2012/01/24 Complete I Actinoalloteichus spitiensis RMV-1378 PRJNA76807 Actinobacteria Actinobacteria 5.71 72.40 AG VXD 1 2011/12/20 2012/05/31 Scaffolds or contigs Actinobaculurn sp oral taxon 183 str. F0552 PRJNA173932 Actinobacteria Actinobacteria No data Actinobaculurn rnassiliae ACS-171-V-Col2 PRJNA52091 Actinobacteria Actinobacteria SRA or Traces Actinobaculurn schaali PRJNA52093 Actinobacteria Actinobacteria - - - - - - - - - No data Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v Entrez Genome □ Informace o genomu Organism Overview; Genome Project Report; Genome Annotation Report Acidothermus cellulolyticus 11B Thermotolerant cellulolytic organism Lineage: Bac1eria|3351|; Actinobacteria|547|; Ac1inobacteria|547]: Actinobacteridae[502]; Actinomycetales[485]; Frankineae[11]; Acidothermaceae[1]; Acidothermus[1]; Acidothermus cellulolyticus[1]; Acidothermus cellulolyticus 11 B[0] Acidothermus ceHuioiyticus strain 11B. This strain (11B; ATCC 43068) is the type strain for the species. The genome sequence from this organism will provide information on the regulation and production of potentially useful enzymes. B Genome Sequencing Projects ♦ Chromosomes [1] V Scaffolds or contigs [Tj] ♦ SRA or Traces [ü] ^ No data [ Organism BioProject Assembly Status Chrs Size (Mb) GC% Gene Protein Acidothermus cellulolyticus 11B PRJNA58501, PRJNA1 6097 ASM1 502v1 o 1 2.44 66.9 2,217 2,157 Q Genome Region j 500 K * M IP M f i n 11,200 K I 1400 K I 1,600 K 11,800 K Go to nucleotide Graphics FA STA GenBank JUL_L I II IIM (MM II P (4 MM MIM MM tl MIMM II tl I I I Itll IM II I II I I I < It II III II I II III tl I I M IM IM II M Ml I III! II I I I III* 1*4 I I I ■■■ftibilllll t It I* III i III : Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v Entrez Genome □ Informace o genomu Organism Overview; Genome Project Report; Genome Annotation Report Acidothermus cellulolyticus 11B Thermotolerant cellulolytic organism Lineage: Bacteria[3351]; Actinobacteria[547]; Ac1inobacteria[547]; Actinobacteridae[502]; Actinomycetales[485]; Frankineae[11]; Acidothermaceae[1]; Acidothermus[1]; Acidothermus cellulolyticus[1]; Acidothermus cellulolyticus 11 B[D] Acidothermus ceHuioiyticus strain 11B. This strain (11B; ATCC 43068) is the type strain for the species. The genome sequence from this organism will provide information on the regulation and production of potentially useful enzymes. B Genome Sequencing Projects ♦ Chromosomes [1] V Scaffolds or contigs [OQ ♦ SRA or Traces [ü] ^ No data [ Organism BioProject Assembly Status Chrs Size (Mb) GC% Gene Protein Acidothermus cellulolyticus 11B PRJNA58501, PRJNA1 6097 ASM1 502v1 o 1 2.44 66.9 2,217 2,157 Q Genome Region 200 K j 400 K SOLI K [800 K JIM 1,200 K I 1,400 K 1,600 K 1,300 K 2 M *l1 . »1 1 M MMM tit ■ 1 1 * II 1 i i * i • i • 1 M IP** I lilt *l 111 11111* ■■■■111*11 II I 1 >■■■■ > ^ t ' "ili" II ■ i 4 > ■ i i i ■ h ľ 4*1 i ■.....■ ■ i" y.'...... 858,480 : 944,630 [86,151 bases shown, positive strand] H * I ÍJ* Sequence | iL Flip Strands 1^0,41* Jk 860 K 865 K 670 K 1- 37S K S3Ü K -h ^ Tools ■ B85 lí 390 K 3:JF K -r :j[0 h -t- 905 K I..... 910 K -r 915 K 920 K 925 K i- □ mpiete genome S = Sequence NC_013209,1: Acetotacler pasteurianu Gene? APAO l _0S?3Q Z! b. YPJ1D3187381. W IYF 0C31B7354.1 |AFA01_Q8340 AFA01_0653Q | j VP 003187362.1 VP 003187381.11 APA01J03620 VP 003187389.1 APA01_0B320] VP 003187409.11 AfA01_Ce39C| VF CC31B7367 1] |YP_0O31B737O.1 APA01_08540| YF_0C3167362,11 | APA01.08550 \tttNArlyr AFA31_OS690| VF CC31B73S6 II APAC1.033001 VP 3O313740ff.1l ^) AFA01_OB3201 MAFA01JJB35C VP_003I973SD-1| H VP_QC3187363,1 PAC1.C8250 APA01.08360 ■ H APAC 1.03400 F 0031873531 VP 003187364.™ ■ VP 003187368.1 |AFA01_08570 [YP_003167384.1 IAPA01 _08650 ■ APA01 _08750 IYP_003187392.1 ■ VP 0O3137402.1 APAC1.03370 VP_003137414.1 HJ AFA01JI83801 VP 003137415.11 ruaA I VPC03137359 II APA01_0B37Ol VF 003187385.11 APAC1_08520| VP 0031 B73S0.1I : APA | APA01.03630 I VP 003137390.1 A01_08610 VP_0C3187388.1 AFAQI_0827Ol 003187355.11 |AFAD1_06300 IVP 0O3187358.1 AFA01 Q6450 I panG] VP_003137373.1| VP_003187383.1| |APA01_0B59Q IVP 003187386.1 1APAC1_Q3B6U JVPJ103187393.1 [ APA01.08740 APAC1.083501 IVP_rj03187401 1 VP_003187412.il AFA01_08810 D VFJ0C3187403.1 Q ■pur [J ■ VP 003187404.1 AP-i VP Ot APAÍ vp co; Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v Ensembl □ Anotace bu kary otic kých genomů 14 15 ÍĚ 17 13 19 5 Y Y MT L_J L_J O O tj 1 2 3 4 5 6 7 8 9 10 11 12 13 ďronosom* 19 Geiws. ■■■ EC Repeats Variations Úvod do bioinformatiky, bioinformatické databáze 5 ^081^4812681299999999999124^^26682908 Ukázka záznamu v GOLD □ Seznam dokončených a probíhajících genomových projektů Complete Published Genome Projects: 1375 Arcliaeal: 94 P*"" Bacterial: 1148 E Eukaryal: 133 << first < prev 12 3 4 5 nerf > last >> 100 - GOLD ID ORGANISM DOMAIN INFORMATION SIZE CHROM * PLASM # GC % DATA SEQUENCING CENTER GENOME DATABASE PUBLICATION CONTACT Gc01325 Saccharomyces cerevisiae S233c B FUNGI-ASCOMYCOTA Taxono mv Entrez ie Saccharomyces Genome Database GC0137S Ferrimonas balearica PAT, DSM 9799 □ P RQTEQ BACTERIA-GAM MA Taxonomy Entrez GEBA CRENARCHAEOTA- 4279 Kb 3947 orfs l 50% CP002209 DOE Joint Genome Institute DSMZ IMG-GEBA Unoublished 2010-09-24 Wovke T Gc01374 Vulcanisaeta distributa IC-017, DSM 14429 □ THERMOPROTEI Taxonomy Entrez 2374 Kb 2592 orfs l 45.4% NC 014537 DOE Joint Genome Institute D5MZ NCBI Unoublished 2010-09-22 Bruce D Isolation MAP GEBA Gc01375 Halomonas elongata DSM 2581 a P ROTE 0 BACTERIA-GAM MA Taxonomy Entrez EURYARCHAEOTA- 4061 Kb 3556 orfs MAP i 63% NC 014532 Max-Planck Institute NCBI Environmental Microbioloav in press 2010-09-17 Kunte, H.J Gc01372 Methanoplanus petrolearius SEBR 4847, DSM 11571 Sulfurimonas □ M ETHAN 0 MICRO BIA Taxonomy Entrez Isolation GEBA P ROTE 0 BACTE RIA-EPSILON 2843 Kb 2881 orfs MAP 2153 Kb i 50% NC 014507 DOE Joint Genome Institute D5MZ DOE Joint Genome NCBI Unoublished 2010-09-17 Bruce D Gc01373 autotrophica OK10, DSM Q Taxonomy 2220 l 35.2% CP002205 Institute IMG-GEBA 2010-09-15 Bruce D 16294 Entrez Isolation orfs D5MZ GC01376 Spirochaeta thermophila DSM 6192 _l SPIRO CHAETES Taxonomy Entrez P ROTE 0 BACTERIA-GAM MA 2472 Kb l 52% CP001698 Goettinaen Genomics Laboratory Unoublished 2010-09-10 Liebl.W GC01377 Dickeya dadantii 3937 B Taxonomy Entrez Plant Pathoaen Article 4922 Kb i CP002038 J. Craia Venter Institute Univ of Wisconsin Univ of Wisconsin Unpublished 2010-09-10 Perná N PROJECT TYPE DISTRIBUTION SEQUENCING STATUS DISTRIBUTION PHYLOGENETIC DISTRIBUTION Úvod do bioinformatiky, bioinformatické databáze T Problémy bioinformatických databází □ Vysoká redundance dat □ Chyby v sekvencích □ Chyby a nepřesnosti v anotacích □ Propagace chyb během automatických anotací o Úvod do bioinformatiky, bioinformatické databáze Prohledávání databází □ Textové prohledávání □ Sekvenční prohledávání % NCBI vložení dat , Entrei, The Life Sciences Search Engine^ PubMed All Databases Human Genome GenBank Map Viewer Search across databases linb J^u^^ Help 0 tiú PubMed: biomedical literature citations and tjt(á , .. , . abstract £J none Books: online books PubMed Central: free, full text journal articles (D none OMIM: online Mendelian Inheritanci >gi1115231735|gb|ňBI32Íie.l| LinE [Xjjvth otvoru fp. ICH1Í] HIL GflHňT gekkf IeIk GKPMň,YI de GT HIP ILFQHGHPT 3 3 VUOJEÍHIHPHCňC-LC-EÍLIňCnLI gmhj3d KLTiPS GPEPtfňraJJÍMTCKD^^ hie7ul77í7hdw &377l &fdk&PJÍHEEEU qgi AVMEWJTMPIJH MJFPEIJTEEHrnAníS Q&GEELUL QDHtfFVE QULP C-LILEPL 3 EAET^VKEPTLA?! k2j1pítl 3 HPP. n i pi ntm-ifi^mijiri ahitl ses pi pklf i b^ep galtt &imkdf r ptwphqte i tuagahf i med 3 fh ittl Site Search: NCBI web and FTP sites (?) none ipl? ONIA: Online Mendelian Inheritanc ElDAňlAíJVRE A Nucleotide: sequence database (includes ^ 45 m GenBank) U 39 *#*#* Protein: sequence database (U [7] |J| Genome: whole genome sequences (U ^ Structure: three-dimensional macromolecular m T- structures e: gene-oriented clusters of equences „„„„ A UniGen none 1-1 * sequenc none ^ CDD: conserved protein domain date 12 3D Domains: domains from Entrez |none| UniSTS: markers and mapping data prohledání databáze □ 1: ABI93216. Report LinB rXanthDitiDnas...[gi:l 15291795] D I: AARD597S. Report LinE ßphingomona...[gi:37963E83] >gi I I gb|AAK05378 .1| LinE [Sphingoiionij piucimobilir] MSLtUrjrHTJKFIEIXtKH^IircriT^ KLDPS &PĽEím^iPIimi!lIJHEäI^ ifflFPEQÍIÍlO-QmiSCr&im^QI^^ IPIAGTPŕl^MAPIjyAr^SESPIPiaXIJ^^ EI CAÄIAÄTifflEĽHPA Úvod do bioinformatiky, bioinformatické databáze □ SRS □ DBGET □ Integrují data z různých databází □ Umožňují prohledání mnoha databází současně □ Umožňujíformulaci dotazů pomocí logických operátorů Úvod do bioinformatiky, bioinformatické databáze Textové prohledávání databází □ Entrez Vyhledávací systém pro databáze NCBI Integruje data ze 40 různých databází, pouze NCBI o *3 ncbi o—, Entrez, The Life Sciences Search Engine PuhMRrt All Databases Human Genome GenBank Man Viewer Search across databases Minta Help 44 PubMec abstracts 79 j^) PubMed Central: free, full text journal articles me| Site Search: NCBI web and FTP sites 45 £^ Nucleotide: sequence database (includes GenBank) 39 *#*,- Protein: sequence database [4] ill Genome: whole genome sequences P. I AST |jj Books: online books El OMIM: online Mendelian Inheritance in Man O □ MIA: Online Mendelian Inheritance in Animals O none £^ UniGene: gene-oriented clusters of transcript gi -' sequences none| CDD: conserved protein domain database (?) 0$ 3D Domains: domains from Entrez Structure_(3 Úvod do bioinformatiky, bioinformatické databáze Textové prohledávání databází □ SRS o Vyhledávací systém pro databáze EBI Umožňuje prohledávat i databáze jiných institucí, databáze uživatelů či databáze výsledků vybraných výpočetních nástrojů EMBL-EBI Databases Tools ▼ Enter Text Here 1 Training Industry AboutUs Help qq Reset © 6've Advanced Saarcti feed! SRS Start a Permanent Library Fags Query Form Tools Results Projects- Views Sil-: IrdL-ř -Pi M; Databanks Quick Text Search Search Tips Project Find : j Nucleotides T| matching : JEnterText Here Úvod do bioinformatiky, bioinformatické databáze Textové prohledávání databází □ DBGET ■ Vyhledávací systém pro databáze LinkDB ■ Umožňuje mj. prohledávat databázi metabolických drah KEGG DBGET Database Links Glycan ÍJGAND Compound Reaction Eiizyiuo — BRITE SSDB LIGAND PRF PMD CnrbBnnt PDBSTR AAindex Prosíte MotifDir Plkm Blocks ProOom PRINTS Úvod do bioinformatiky, bioinformatické databáze Ukázka textového prohledávání □ Vyhledávání na základě klíčových slov 1258 152 96 Search across databases mouse[ORGN] AND kinase AND (exons OR introns) | GO 11 Clear | Help Result counts displayed in gray indicate one or more terms not found 125S| ^jj and abstracts 312 PubMed Central: free, full text journal articles ed ({3 Site Search: NCBI web and FTP sites 13□ I Books: online books GMIM: online Mendelian Inheritance in Man none GNIA: online Mendelian Inheritance in Animals Nucleotide: Core subset of nucleotide sequence records m EST: Expressed Sequence Tag records 1211 IQ* GSS: Genome Survey Sequence records 96| Protein: sequence database none) dbGaP: genotype and phenotype Sa UniGene: gene-oriented clusters of ^ * transcript sequences none none ^ CDD: conserved protein domain database .t< Structure Úvod do bioinformatiky, bioinformatické databáze Ukázka sekvenčního prohledává □ Vyhledávání na základě sekvenční podobnosti Sequences producing significant alignments: >pgb|AAT70109.1| CurN [Lyngbya majuscula] Length=341 Score = 303 bits (777), Expect = 8e-81, Method: Composition-based stats. Identities = 148/297 (49%), Positives = 188/297 (63%), Gaps = 8/297 (2%) SEIGTGFPFDPHYVEVLGERMHYVDVGPRDGTPVLFLHGNPTSSYLWRNIIPHV-APSHR 60 I + FPF VEV G + YVD G G PVLFLHGNPTS5YLWRNIIP+V A +R LPIS SEF PFAKRTVEVEGATIAYVDEG—SGQPVLFLHGNPTS5YLWRNIIPYVVAAGYR 98 CIAPDLIGMGKSDKPDLDYFFDDHVRYLDAFIEALGLEEVVLVIHDWGSALGFHWAKRNP 120 +APDLIGMG S KPD++Y DHV Y+D FI+ALGL+++VLVIHDWGS +G A+ NP AVAPDLIGMGDSAKPDIEYRLQDHVAYMDGFIDALGLDDMVLVIHDWGSVIGMRHARLNP 158 E RVKGIACME FIR PI----PTWDEWPEFARETFQAFRTADVGRELIIDQNAFIEGVLPK- 175 +RV +A ME + P P+++ F+ RTADVG ++++D N F+E +LP+ DRVAAVAFMEALVPPALPMPSYEAMGPQLGPLFRDLRTADVGEKMVLDGNFFVETILPEM 218 CVVRPLTEVEMDHYREPFLKPVDREPLWRFPNEIPIAGEPANIVALVEAYMNWLHQSPVP 235 VVR L+E EM YR PF R P ++P E + PI GEPA A V WL SP+P GVVRSLSEAEMAAYRAPFPTRQSRLPTLQWPREVPIGGEPAFAEAEVLKNGEWLMASPIP 278 KLLFWGTPGVLIPPAEAARLAESLPNCKTVDIGPGLHYLQEDNPDLIGSEIARWLPG 292 KLLF PG L P L+E++PN + +G G H+LQED+P LIG IA WL KLLFHAEPGALAPKPVVDYLSENVPNLEVRFVGAGTHFLQEDHPHLIGQGIADWLRR 335 Query 2 Sbjct 41 Query 61 Sbjct 99 Query 121 Sbjct 159 Query 176 Sbjct 219 Query 236 Sbjct 279 *w ->w ->w Jw '17 '17 '|7 ' |7 spIP59336IEHAA RHOSD Haloalkane dehalogenase >pdbllBN6IA Chai. splP0A3G2IDHAA RHORH Haloalkane dehalogenase >spIP0A3G3 II>HAA_. pdbllCQWIA Chain A, Hai Cocrystallised With Haloalkane Dehalo. spIQ9ZER0IDHftA MYCSX Haloalkane dehalogenase >emb ICM10076.11. orb IAAV70825.1 HT2 [Expression sector pHT2] reflYP Q01675030.il alpha/beta hydrolase fold [Shewanella hal. reflYP 734675.11 alpha/beta hydrolase fold [Shewanella sp. HR. reflYP 001473250.il alpha/beta hydrolase fold [Shewanella sed. reflZP 01736514.1 alpha/beta hydrolase [Harinobacter sp. ELB. reflYP 733656.11 alpha/beta hydrolase fold [Shewanella sp. HR. reflYP 001502590.il alpha/beta hydrolase fold [Shewanella pea. reflNP 717353.11 hydrolase, alpha/beta hydrolase fold family . reflYP 750057.11 alpha/beta hydrolase fold [Shewanella frigid. reflYP 25SS79.1I hydrolase, alpha/beta hydrolase fold family . reflYP 001761524.il alpha/beta hydrolase fold [Shewanella woo. reflZP 01341154.1 alpha/beta hydrolase fold [Shewanella bait. reflYP 870347.11 alpha/beta hydrolase fold [Shewanella sp. AN. reflYP 129676.11 putative haloalkane dehalogenase [Photobacte. reflZP 01221358.1 putative haloalkane dehalogenase [Photobac. reflYP 001365757.11 alpha/beta hydrolase fold [Shewanella bal. reflYP 552379.11 alpha/beta hydrolase fold [Shewanella denitr. reflZP 01397365.1 putative haloalkane dehalogenase [Horitell. reflYP 001049934.il alpha/beta hydrolase fold [Shewanella bal. reflYP 943362.11 alpha/beta hydrolase fold [Psychromonas ingr. reflYP 001182970.il alpha/beta hydrolase fold [Shewanella put. reflYP 001554014.il alpha/beta hydrolase fold [Shewanella bal. reflZP 01706252.1 alpha/beta hydrolase fold [Shewanella putr. reflYP 954030.11 alpha/beta hydrolase fold [Shewanella sp. ¥3. reflYP 510562.11 haloalkane dehalogenase [Jannaschia sp. CCS1. reflZP 01216824.11 hydrolase, alpha/beta hydrolase fold famil. reflYP 001093340.il alpha/beta hydrolase fold [Shewanella loi. reflNP 106032.1 haloalkane dehalogenase [Mesorhisobium loti . dbIAAT70109.11 Curll [Lyngbya majuscula; reflZP 01055470.11 haloalkane dehalogenase [Roseobacter sp. H. reflZP 01617455.11 haloalkane dehalogenase [marine gamma prot. reflZP 01592200.11 alpha/beta hydrolase fold [Geobacter lovle. reflZP 01911259.11 alpha/beta hydrolase [Plesiocystis pacific. reflYP 001230772.11 alpha/beta hydrolase fold [Geobacter uran. ;Bits Value 429 le-118 424 3e-117 424 4e-117 E 422 le-116 415 le-114 ■-■> 8e-86 E 318 3e-85 317 6e-85 E 317 6e-85 316 9e-85 E 316 9e-85 E 315 2e-84 E 315 2e-84 E 315 2e-84 E 315 3e-84 E 315 3e-84 314 4e-84 E 314 7e-84 E 313 8e-84 313 9e-84 E 313 9e-84 E 313 le-8j 313 le-8; E 313 le-8; E 312 2e-8j E 312 2e-8; E 310 7e-85 310 9e-8; E 3e-82 E 307 8e-82 306 le-81 E 303 8e-81 E 303 8E-81 303 le-8C 302 2e-8C 300 7e-8C 300 9e-8C 30C 9e-8[ E Úvod do bioinformatiky, bioinformatické databáze Y Problémy prohledávání databází □ Textové vyhledávání ■ © chybné, nepřesné či obecné anotace © synonyma ■ © velký počet falešně pozitivních a falešně negativních výsledků □ Sekvenční vyhledávání ■ © podmínka evoluční příbuznosti ■ © větší nároky na uživatele ■ © potenciálně falešně pozitivní i falešně negativní výsledky □ Vhodné je oba přístupy kombinovat Úvod do bioinformatiky, bioinformatické databáze Reference □ Claverie, J-M., & Notredame, C. (2006) Bioinformatics for Dummies (2nd ed.) Wiley Publishing, Hoboken, p. 436. □ Xiong, J. (2006) Essential Bioinformatics, Cambridge University Press, New York, p. 352. □ ENTREZ tutorial: http://www.ncbi.nlm.nih.gov/Entrez/tutor.html □ SRS documentation: http://srs.ebi.ac.uk/srs/doc/index.html □ NCBI handbook: http://www.ncbi.nlm.nih.gov/books/NBK21101/ □ UniProtKB manual: http://www.uniprot.org/manual/ □ NCBI: http://www.ncbi.nlm.nih.gov/ □ EBI: http://www.ebi.ac.uk/ □ Pubmed: http://www.ncbi.nlm.nih.gov/pubmed □ Web of Science: http://apps.isiknowledge.com Üvod do bioinformatiky, bioinformaticke databäze Reference □ GenBank: http://www.ncbi.nlm.nih.gov/genbank/ □ EMBL-EBI: http://www.ebi.ac.uk/embl/ □ DDBJ: http://www.ddbj.nig.ac.jp/ □ UniProt: http://www.uniprot.org/ □ nrdb: http://www.ncbi.nlm.nih.gov/protein/ □ wwPDB: http://www.wwpdb.org/ □ Entrez Genome: http://www.ncbi.nlm.nih.gov/genome □ Ensembl: http://www.ensembl.org □ GOLD: http://www.genomesonline.org/ □ Entrez: http://www.ncbi.nlm.nih.gov/sites/gquery □ srs: http://srs.ebi.ac.uk □ DBG ET: http://www.genome.jp/dbget/ Üvod do bioinformatiky, bioinformaticke databäze