LOSCHMIDT LABORATORIES Úvod do bioinformatiky a bioiinformatické databáze EVFIDPSKA UNIE iiNiSTERSTvo Školství. MLÁDEŽE A TĚLOVÝCHŮVY CP VíňAM,^^ (Ml ^I.VA** INVESTICE DO ROZVOJE VZDELÁVANÍ □ Organizační informace □ Studijní literatura □ Historie bioinformatiky □ Bioinformatické instituce □ Bioinformatické databáze □ Prohledávání databází Úvod do bioinformatiky, bioinformatické databáze □ Kolokvium ■ Písemný test ■ Celkem 25 otázek s jednou i více správnými odpověďmi ■ Minimálně 17 správných odpovědí □ BÍ5000 Bioinformatika I - nukleové kyseliny □ BÍ9060 Bioinformatika II - proteiny □ BÍ9061 Bioinformatika - cvičení Úvod do bioiinformatiky, bioinformatické databáze □ Xiong, J. Essential Bioinformatics. Cambridge University Press, New York, 2006. □ Claverie, J., and Notredame, C. Bioinformatics for Dummies2 ed. Wiley Publishing, Hoboken, 2006 □ Cvrčkova, F. Úvod do praktické bioinformatiky. Academia, Praha 2006. □ Misener, S., Krawetz S.A. Bioinformatics: methods and protocols. Humana Press, Totowa, New Jersey 2000. □ Attwood, T.K., Parry-Smith, D.J. Introduction to bioinformatics. Longman, Essex, 1999. □ Baxevanis, A.D., Ouellette, F.B.F. Bioinformatics: a practical guide to the analysis of genes and proteins. Wiley-lnterscience, New York 1998. Úvod do bioinformatiky, bioinformatické databáze □ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul ttetAOTcaao aa m: ctotc gtqccaoc toc* ttaatoa atcaqc ca ac LRHLGITG—PVTLAVHDWGGMIGFGWALSHHAQVKRLVTTNTAAAGTKFDKLTWLDVG—PVDLWHDWGTI LRHVGIDDVTPLTLAVHDWGGMIGFGWALAHAVQYEÍRLYMTNTAGTIKLERLTWLDVG---PVDLWHDWGTI LTWLDVG—PVDLWHDWGGAIGMGWAVRHPDLVRRIWLNTAAGT -KLDRLTWLDVG---PVDLWHDWGTL Úvod do bioiinformatiky, bioinformatické databáze □ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul Vývoj nástrojů a databází Úvod do bioiinformatiky, bioinformatické databáze □ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul Strukturní analýzy Sekvenční analýzy predikce struktury nukleových kyselin predikce struktury proteinů klasifikace proteinových struktur f f f porovnávam proteinových struktur porovnaní genomu fylogeneze predikce genů a promotorů identifikace motivů prohledávání sekvenčních databází sekvenční přiložení Funkční analýzy ♦* ** modelování metabolických drah analýza profilů genové exprese predikce proteinových interakcí predikce vnitrobuněčné lokalizace proteinů Vývoj nástrojů a databází Úvod do bioinformatiky, bioinformatické databáze □ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul Strukturní analýzy Sekvenční analýzy predikce struktury nukleových kyselin predikce struktury proteinů klasifikace proteinových struktur / / / porovnávaní proteinových struktur porovnaní genomu fylogeneze predikce genů a promotorů identifikace motivů prohledávání sekvenčních databází sekvenční přiložení Funkční analýzy ♦* ** modelování metabolických drah analýza profilů genové exprese predikce proteinových interakcí predikce vnitrobuněčné lokalizace proteinů Vývoj nástrojů a databází Úvod do bioinformatiky, bioinformatické databáze Úvod do bioiinformatiky, bioinformatické databáze Úvod do bioinformatiky, bioinformatické databáze Úvod do bioinformatiky, bioinformatické databáze Úvod do bioinformatiky, bioinformatické databáze Úvod do bioinformatiky, bioinformatické databáze Úvod do bioinformatiky, bioinformatické databáze Nukleové kyseliny -^4 - lř. Nukleové kyseliny -^4 - lř. Nukleové kyseliny -^4 - lř. Nukleové kyseliny -^4 - lř. N-Lys-Phe Ala Úvod do bioinformatiky, bioinformatické databáze Nukleové kyseliny -^4 - lř. Nukleové kyseliny -^4 - lř. 5'-NCG-AAA-TTT-GCG-3' N-Lys-Phe-Ala MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCA GLGRLIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVV HDWGSALGFDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRS QAGEELVLQD Historie bioinformatiky □ Revoluce Úvod do bioinformatiky, bioinformatické databáze Historie bioinformatiky 120 >-100 "I 80 C 60 -100 ■o E 1 80 60 1 910 950 2900* více sekvencí 0) 40 >g 20 Q. 39 533 1982 1986 1990 1994: rok 1998 2002 2006 Úvod do bioinformatiky, bioinformatické databáze □ National Center for Biotechnology Information (NCBI) □ European Bioinformatics Institute (EBI) □ National Center for Biotechnology Information (NCBI) ■ oddělení National Library of Medicine při National Institutes of Health v USA ■ Poskytuje Databáze GenBank, PubMed, OMIM, Genome dbSNP,... ■ Informace dostupné přes vyhledávací systém Entrez □ National Center for Biotechnology Information (NCBI) HOME SEARCH SITEMAP Entrez, The Life Sciences Search Engine PubMed All Databases Human Genome GenBank Map Viewer BLAST Search across databases GO Clear Help Welcome to the Entrez cross-database search page Jffl PubMed: biomedical literature citations and abstracts PubMed Central: free, full text journal articles M Site Search: NCBI web and FTP sites Books: online books ijgt I OMIM: online Mendelian Inheritance in Man «_'' dr77 OMIA: online Mendelian Inheritance in Animals Nucleotide: Core subset of nucleotide sequence records EST: Expressed Sequence Tag records EQ* GSS: Genome Survey Sequence records •*•*• Protein: sequence database j|| Genome: whole genome sequences ™^,, Structure: three-dimensional rnacrornolecular structures •I Taxonomy: organisms in GenBank IlTll SNP: single nucleotide polymorphism dbGaP: genotype and phenotype igji I UniGene: gene-oriented clusters of transcript sequences CDD: conserved protein domain database fl^i 3D Domains: domains from Entrez Structure ijeji Un'STS: markers and mapping data Oq PopSet: population study data sets ;. .5? GEO Profiles: expression and molecular abundance profiles GEO DataSets: experimental sets of GEO data 'S» m W 'S» Úvod do bioinformatiky, bioinformatické databáze □ European Bioinformatics Institute (EBI) ■ Součást European Molecular Biology Laboratory (EMBL), Wellcome Trust Genome Campus ve Velké Británii ■ Poskytuje databáze EMBL-Bank, UniProt, Ensembl, InterPro,... ■ Informace dostupné přes vyhledávací systém SRŠ Úvod do bioinformatiky, bioinformatické databáze □ European Bioinformatics Institute (EBI) BL-EBI European Bioinformatics Institute EBI Home About EEH Research Overview □üwri oads — FTP Server — Database Repository — Software Repository — Downloads Help Files Services Toolbox Databases SERVICES OVERVIEW FASTLINK Downloads Submissions Databases _DjIjImh Browsing • SRS Si±irri aaiona -EMBL via WEBIN — EMIBL-lnfo. Submitters -SWISS-PROT — Webin-Align — PDB-Auto Pep MIAMI Egress IMGT/LIGM — IMGT/HLA — Sequin Softuare Tod bo* Homology £ SmilarKy • Fasta • WU-Blast2 • NCBI-Blast2 ■ Blast2 EVEC • Genome/Proteome Fasta • MPsrch • Scanps2.3 ■ Parasite-Blast ■ EG I-Blast ■ SNP-Fasta3 Server _Proi. Function. Analysis » CluSTr Search 1 InterProScan 1 FingerPRINTScan 1 ppsearch 1 Gene Qui: ■ Pratt ■ Radar _ Nucleotide Databases EMBL Nucleo. Sequence ■ Ensembl ■ Genomes Server ■ Genome MOT ■ EMBL-Align ■ Simple Queries ■ dbSTS Queries ■ Parasites ■ Mutations ■ IMGT _ Protein Databases ■ SWISS-PROT • TrEMBL ■ InterPro ■ CluSTr • iPJ • GOA • Proteome Analysis ■ HPJ ■ IntEns Úvod do bioinformatiky, bioinformatické databáze □ Bibliografie □ Nukleotidové sekvence □ Proteinové sekvence □ Proteinové struktury □ Genomy LRH LGITGPVTLAVH DWGGMIGFGWALSH HAQVKRLVI TNTAAAGTKFDKLTWLDVGPVDLWHDWGTISRMEEGT WYLKLIRTTVWHQAIVLAEIGTWCKTQENPA I % NCB1 c -f Entrez, The Life Sciences Search Enqinem HOME | SEARCH SITE MAP PubMed All Databases 1 Human Genome GenBank Map Viewer 1 BLAST Search across databases |linb Ww-* PubMed: biomedical literature citations and 44 VP abstracts (Zl none |lj Books: online b ooks a 79 ^3 PubMed Central: free, full text journal articles (D none ~1r OMIM: online M sndelian Inheritance in Man a none Site Search: NCBI web and FTP sites (D none OMIA: Online M endelian Inheritance in Anirn sis IB Nucleotide: sequence database (includes 4i Wm GenBank) 39 • Protein: sequence database 4 ||| Genome: whole genome sequences GD [none 1^]** UniSTS: markers and mapping data none UniGene: gene-oriented clusters of transcript m ' sequences none CDD: conserved protein domain database CS 12 3D Domains: domains from Entrez Structure (D Úvod do bioinformatiky, bioinformatické databáze Bibliografické databáze □ PubMed □ Web of Science Z> NCBI All Databases I Search | PubMed PubMed ~3 for f A service of the U.S. National Library of Medicine and the National Institutes of Health mvvi.piJbmed.gQ1* Go j Clear | Advanced S e About Entrez Text Version Entrez PubMed Overview Help | FAQ Tutorials New/Noteworthy E-Utilities PubMed Services Journals Database MeSH Database Single Citation Matcher Batch Citation Matcher Clinical Queries Special Queries LinkOut F Limits J Preview/Index J History J Clipboard J Details "| To get started with PubMed, enter one or more search terms. Search terms maybe topics, authors or journals. ■ Set up ail automated PubMed update in fewer than "^TSlCBll five minutes. 1. Create a My NCBI account. 2. Save your search. 3. Your PubMed updates can be e-mailed directly to you. I Read the My NCBI Help material to explore other options, such as automated updates of other databases, setting search filters, and highlighting search terms. PubMed is a service of the U.S. National Library of Medicine that includes over 17 million citations Sign In My EndNote Web My Researched | My Citation Alertj ISI Web of Knowledge5' Take the next step ^) Search | Cited Reference Search | Advanced Search | Search History Marked List (0) ■ Web of Science® Search for: 1 in 1 Topic -I Example: oil spill* AND "North Sea" |AND z}\ in 1 Author -I q. Example: O'Brian C* OR OBrian C* Need help finding papers by an author? Use Author Finder. |AND jjl in 1 Publication Nan ne ' 1 Example: Cancer* OR Journal of Cancer Research and Clinical Oncology Add Another Field » ( Search ) ( Clear ) Úvod do bioinformatiky, bioinformatické databáze □ PubMed ■ Provozováno National Library of Medicíne ■ Obsahuje více než 22 milionů citací biomedicínské literatury ■ Integruje MEDLINE, časopisy z oblasti živých věd a online knihy ■ Prohledávání možné přes Entrez nebo DBGET ■ Obsahuje kromě abstraktů odkazy na plné texty dostupné přes PubMed Central nebo stránky nakladatelství Publ^Jed U.S. National Library of Medicine National Institutes of Health NCBl Úvod do bioinformatiky, bioinformatické databáze Bibliografické databáze □ PubMed Publßjed U.S. National Library of Medicine National Institutes of Health Search: PubMed "| Limits Advanced search Help Search Clear Display Settings: |v) Abstract Send to: fvl Nat Chem Biol. 2009 Oct;5(10):727-33. Epub 2009 Aug 23. Redesigning dehalogenase access tunnels as a strategy for degrading an anthropogenic substrate. Pavlova fvl, Klvana M, Prokop Z, Chaloupkova R, Banas P, Otyepka M, Wade RC, Tsuda M, Nagata Y, Damborsky J. Loschmidt Laboratories, Institute of Experimental Biology and National Centre for Biomolecular Research, Faculty of Science, Masaryk University, Brno, Czech Republic. Abstract Engineering enzymes to degrade anthropogenic compounds efficiently is challenging. We obtained Rhodococcus rhodochrous haloalkane dehalogenase mutants with up to 32-fold higher activity than wild type toward the toxic, recalcitrant anthropogenic compound 1,2,3-trichloropropane (TCP) using a new strategy. We identified key residues in access tunnels connecting the buried active site with bulk solvent by rational design and randomized them by directed evolution. The most active mutant has large aromatic residues at two out of three randomized positions and two positions modified by site-directed mutagenesis. These changes apparently enhance activity with TCP by decreasing accessibility of the active site for water molecules, thereby promoting activated complex formation. Kinetic analyses confirmed that the mutations improved carbon-halogen bond cleavage and shifted the rate-limiting step to the release of products. Engineering access tunnels by combining computer-assisted protein design with directed evolution may be a valuable strategy for refining catalytic properties of enzymes with buried active sites. PMID: 1 9701 1 86 [PubMed - indexed for MEDLINE] l± Publication Types, MeSH Terms, Substances, Secondary Source ID B LinkOut- more resources Full Text Sources: Nature Publishing Group ťíWK r^jMidling iT'Wi' Related citations Biodegradation of 1,2,3-trichloropropane through directed evolution an [Appl Environ Microbiol. 2002] Pathways and mechanisms for product release in the engineered haloalkane dehak [J Mol Biol. 2009] Mechanism of enhanced conversion of 1,2,3-trichloropropane b [J Comput Aided Mol Des. 2006] Evolving haloalkane dehalogenases [Curr Opin Chem Biol. 2004] I Alpha/Beta-hydrolase fold enzymes: structures, functions [Curr Protein Pept Sei. 2000] See reviews.. See all... All links from this record Related Citations Compound (MeSH Keyword) Compound (Publisher) Substance (MeSH Keyword) Substance (Publisher) Úvod do bioinformatiky, bioinformatické databáze □ Web of Science ■ Komerční databáze ■ Součást ISI Web of Knowledge ■ Používá se pro zjištění citovanosti a impaktního faktoru časopisů Úvod do bioiinformatiky, bioinformatické databáze □ Web of Science ISI Web of Knowledge* Web of Science Additional Resources Search j Cited Reference Search j Structure Search j Advanced Search j Search History j Marked List (0) Web of Science® - with Conference Proceedings << Back to results list Record 1 of 1 Record from Web c-f Science© Redesigning dehalogenase access tunnels as a strategy for degrading an anthropogenic substrate NCEI '.. Print j {E-mail} }Add to Maikcd List } {Save to End Note) Weh } {Sane to Eni]Note) RefMafi, PiuCilc3 m=r& =pti=ns (Damborsky, Jiri) ■ Source NATURE CHEMICAL BIOLOGY Volume: 5 Issue: 10 Pages: 727-733 Published: OCT 2009 Times Cited: 6 References: £0 O Citation Map Abstract: Engineering enzymes to degrade anthropogenic compounds efficiently is challenging. We obtained Rhodococcus rhodocfirous haloalkane dehalogenase mutants with up to 32-fold higher activity than wild type toward the toxic, recalcitrant anthropogenic compound 1,2,3-trichloropropane (TCP) using a new strategy. We identified key residues in access tunnels connecting the buried active site with bulk solvent by rational design and randomized them by directed evolution. The most active mutant has large aromatic residues at two out of three randomized positions and two positions modified by site-directed mutagenesis. These changes apparently enhance activity with TCP bydecreasing accessibility of the active site for water molecules, thereby promoting activated complex formation. Kinetic analyses confirmed that the mutations improved carbon-halogen bond cleavage and shifted the rate-limiting step to the release of products. Engineering access tunnels by combining computer-assisted protein design with directed evolution maybe a valuable strategy for refining catalytic properties of enzymes with buried active sites. Document Type: Article Language: English Keywords Plus: SPHINGOMONAS-PAUCIMOBILIS UT26; HALOALKANE DEHALOGENASE; DIRECTED EVOLUTION; CYTOCHROME P+50S; HETEROLOGOUS EXPRESSION; XENOBIOTIC COMPOUNDS; CATALYTIC MECHANISM; ESCHERICHIA-COLI; ENZYME; SPECIFICITY Reprint Address: Damborsky, J (reprint author), Masaryk Univ, Fac Sei, Loschmidt Labs, Inst Expt Biol, CS-61137 Brno, Czech Republic_ Cited by: 6 This article has been cited 6 times [fmm Web Df Science). Kourist R, Jochens H, Bartsch S, et al. The alphaJbeta-Hydrolase Fold 3DM Database (ABHDB) as aTool for Protein Engineering CHEMBIOCHEM 11 12 1635-1643 AUG 16 2010 Stsiapanava A, DohnalekJ, GaviraJA, etal. Atomic resolution studies of haloalkane dehalogenases Dha.A0+, DhaA14 and DhaA15with engineered access tunnels ACTA CRYSTALLOGRAPHICA SECTION D-BIOLOGICAL CRYSTALLOGRAPHY 66 962-969 Part 9 SEP2010 Brauk M, Derry NL, Shainsky J, et al. The influence of key residues in the tunnel entrance and the active site on activity and selectivity of toluene-4-monooxygenase JOURNAL OF MOLECULAR CATALYSIS B-ENZYMATIC 66 1-2 72-80 SEP 2010 [ view all 6 citing articles ] Create Citation A ort Related Records: Üvod do bioinformatiky, bioinformaticke databäze □ EMBL-Bank □ DDBJ □ Anotované kolekce veřejně dostupných nukleotidových sekvencí □ Data získaná z genomových center a odborných pracovišť □ Každodenní vzájemná synchronizace nových a aktualizovaných dat □ "Accession number" - jedinečný identifikátor záznamu, ve všech třech databázích Úvod do bioinformatiky, bioinformatické databáze Databáze nukleotidových sekvencí □ GenBank Založena v roce 1982, provozována NCBI Přístupná prostřednictvím vyhledávacího systému Entrez nebo systému DBGET Obsahuje více než 187.000.000 sekvencí (2015) Nové sekvence možné vložit pomocí Banklt nebo Sequin NCBI Úvod do bioinformatiky, bioinformatické databáze Databáze nukleotidových sekvencí □ EMBL-Bank Založena v roce 1980; Provozována EBI Přístupná prostřednictvím vyhledávacího systému SRS či DBGET Obsahuje více než 608.000.000 sekvencí (2015) Nové sekvence možné vložit pomocí Webin nebo Sequin í! EMBL NUCLEOTIDE 5EQUENCE Úvod do bioinformatiky, bioinformatické databáze Databáze nukleotidových sekvencí □ DNA Data Bank of Japan (DDBJ) ■ Založena v roce 1984, provozována National Institute of Genetics ■ Obsahuje více než 253.000.000 sekvencí (2015) ■ Nové sekvence možné vložit pomocí Sakura nebo Sequin (S>DDBJ DNA Datu Bank uf Jupan Úvod do bioinformatiky, bioinformatické databáze □ Hlavička ■ Základní informace o záznamu ■ Lokus, definice, přístupový kód, klíčová slova, organizmus, reference,.. X.autotrophicus haloalkane dehalogenase (dhlA) gene, complete cds Comment Features Sequence LOCUS XAADHLA 3041 bp DNA linear BCT 15-FEB-1996 DEFINITION X.autotrophicus haloalkane dehalogenase (dhlA) gene, complete cds. ACCESSION M26950 VERSION M26950.1 GI:155347 KEYWORDS haloalkane dehalogenase. SOURCE Xanthobacter autotrophicus ORGANISM Xanthobacter autotrophicus Bacteria; Proteobacteria; Alphaproteobacteria; Rhizobiales; Xanthobacteraceae; Xanthobacter. REFERENCE 1 (bases 1 to 3041) AUTHORS Janssen,D.B., Pries,F., van der Ploeg,J., Kazemier,B., Terpstra,P. and WitholtfB. TITLE Cloning of 1,2-dichloroethane degradation genes of Xanthobacter autotrophicus GJ10 and expression and sequencing of the dhlA gene JOURNAL J. Bacteriol. 171 (12), 6791-6799 (1989) PUBMED 2687254 COMMENT Draft entry and computer readable copy of sequence [1] kindly provided by D.B.Janssen, ll-AUG-1989. □ Charakteristiky ■ Popis jednotlivých oblastí genu ■ Promotor, RBS (ribozóm vazebné místo), CDS (kódující sekvence),... qene 918. .1931 /gene^'dhlA" promoter 918 . .946 /gene="dhlA" /note=" putative11 promoter 945..974 /gene="dhlA" /note=" putative11 RBS 986..998 /gene="dhlA" CDS 999. .1931 /gene^'dhlA" /codon start=l /transl table=ll /product="haloalkane dehalogenase" /protein id="AAA88691.1" /db_xref="GI:155348" /translation="MIWAIRTPDQRFSWLDQYPFSPNYLDDLPGYPGLRAHYLDEGWS DAEDVFLCLHGEPTWSYLYRKMIPVFAESGARVIAPDFFGFGKSDKPVDEEDYTFEFH RWFLLALIERLDLRWITLVVQDWGGFLGLTLPMADPSRFKRLIIMNACLMTDPVTQPA F SAFVTQPAD GF TAWKYDL YTPS DLRL DQFMKRWAPTLTEAEASAYAAPF PD T SYQAG Úvod do bioinformatiky, bioinformatické databáze □ Charakteristiky FEATURES source CDS gene promoter promoter RBS CDS Location/Qualifie rs 1..3041 /organism="Xanthobacter autotrophicus" /mol_type="genomic DNA" /strain="GJ10" /db xref="taxon:280" complement(316..924) /note="ORF 1; putative" /codon_start=l /transl table=ll /product="unknown protein" /protein id="AAA88690■1" /db_xref="GI:1197026" /translation="MSTFFEPEWGMKQWAKTERILDVALELLETEGEFGLTMRQVATQ ADMSLSHVQYYFKSEDLLLVAMADRYFQRCLTTMAEHPPLSAGRDQHAQLRALLRELL GHGLEISEMCRIFREYWAIATRWETVHGY LKS YYRD LAEVMAEKLAPLAS S EKALAVA VSLVIPYVEGYSVTAIAMPESIDTISETLTNVVLEQLRISWS" 918..1931 /gene="dhlA" 918. .946 /gene="dhlA" /note="putative" 945..974 /gene="dhlA" /note="putative" 986..998 /gene="dhlA" 999. . 1931 /gene="dhlA" /codon_start=l /transl table=ll /product="haloalkane dehalogenase" /protein id="AAA88691■1" /db_xref="GI:1553 48" /translation="MIWAIRTPDQRFSMLDQYPFSPMYLDDLPGYPGLRAHYLDEGMS DAEDVFLCLHGEPTWSYLYRKMIPVFAESGARVIAPDFFGFGKSDKPVDEEDYTFEFH RNF LLALIERLD LRUIT LVVQDWGGF LG LTLPMADP SRFKRLIIMWAC LMTDPVTQPA FSAFVTQPADGFTAWKYDLVTP S DLRLDQFMKRWAPT LTEAEASAYAAPFPDT S YQAG VRKFPKMVAQRDQACIDISTEAISFWQBDWMGQTFMAIGMKDKLLGPDVMYPMKALIH GCPEPLEIADAGHFVQEFGEQVAREALKHFAETE"_ Úvod do bioinformatiky, bioinformatické databáze □ Sekvence ORIGIN 1 bp upst 1 atgataaatg 61 agccccaact 121 gagggcaatt 181 tacctgtatc 241 gacttttttg 301 tttcaccgca 361 gtcgttcagg 421 ttcaagcgcc 481 tttagcgcct 541 acgccatcag 601 gctgaggcct 661 aagtttccca 721 atttcgttct 781 aaattgctgg 841 cccctcgaaa 901 gaggccctga // ream of BamHI site, caattcgcac acctggacga ctgacgctga gcaagatgat gattcggaaa acttcctget actggggegg tgatcatcat ttgtcaccca acctgegect ccgcgtatgc agatggtcgc ggcagaacga gaeeggaegt tageggaege aacactttgc cccggaccaa cctccccggc agacgttttt cceggtattt atccgacaag tgcactaatc atttttgggg gaacgeetgc gectgeggat tgaccagttc tgegeetttc gcaacgcgac ctggaatggc catgtatcct tggecatttc cgagacagaa cgettcagca taccegggat ctctgccttc gctgaatcag ccagtagacg gaaeggettg ctgaccttac ttgatgaccg ggctttaccg atgaagcgtt cctgacactt caggectgca cagaccttea atgaaggege gtacaggagt tag atctcgatca tgegggcaca atggegagee gcgcacgagt aagaagacta acttgcgcaa egatggcega acccggtcac cctggaaata gggcgcccac cctatcaggc tcgacatttc tggecattgg tcattaatgg ttggegagea gtatccgttc ctacctcgac cacctggagt tattgegeca caccttcgaa cattacgetg cccttcccgc ccagcctgcg cgatctggtt actgaccgaa tggtgtaege aaccgaagcg catgaaagac ctgcccggaa agtggctege Úvod do bioinformatiky, bioinformatické databáze □ UniProtKB □ nr Protein Database NCB1 Úvod do bioinformatiky, bioinformatické databáze □ UniProtKB Spolupráce EBI, Swiss Institute of Bioinformatics a Protein Information Resource Centrální úložiště proteinových sekvencí a funkčních informací Kvalitní anotace - informace o funkci proteinu a jednotlivých aminokyselin, experimentální informace, biologické ontológie, klasifikace, odkazy do dalších databází Indikace kvality anotace (manuální vs. automatická) o Úvod do bioinformatiky, bioinformatické databáze □ UniProtKB/Swiss-Prot ■ Vysoká kvalita manuálních anotací ■ © Manuální anotace - spolehlivé informace ■ © 549.000 sekvencí (2015) UniProtKB Protein knowledgebase UniProtKBíSwiss-Prot Reviewed Manual annotation U n i P rotKB/TrEM B L Unreviewed Automatic annotation □ UniProtKB/TrEMBL ■ Sekvence konceptuálni translací kódujících sekvencí EMBL-Bank © Automatická anotace - nižší kvalita, možnosti chyb © 50.825.000 sekvencí (2015) Úvod do bioinformatiky, bioinformatické databáze □ Názvy a zdroj proteinu □ Vlastnosti proteinu [Names and origin Hide | Top J Protein names Recommended name: Haloalkane dehalogenase EC=3.8.1.5 Alternative name(s): 1,3,4,6-tetrachloro-1,4-cyclohexadiene hydrolase 1,4-TCDN chlorohydrolase Gene names Name: linB Organism Pseudomonas paucimobilis (Sphingomonas paucimobilis) Taxonomie identifier 13689 [NCBI] Taxonomie lineage Bacteria > Proteobacteria > Alphaproteobacteria > Sphingomonadales > Sphingomonadaceae > Sphingomonas ■ Proteinattributes Hide | Top J Sequence length 296 AA. Sequence status Complete. Sequence processing The displayed sequence is further processed into a mature form. Protein existence Evidence at protein level. Úvod do bioinformatiky, bioinformatické databáze □ Obecná anotace [General annotation (Comments) Hide | Top J Function Catalyzes hydrolytic cleavage of carbon-halogen bonds in halogenated aliphatic compounds, leading to the formation of the corresponding primary alcohols, halide ions and protons. Has a broad substrate specificity since not only monochloroalkanes (C3 to C10) but also dichloroalkanes (> C3), bromoalkanes, and chlorinated aliphatic alcohols were good substrates. Shows almost no activity with 1,2-dichloroethane, but very high activity with the brominated analog. Is involved in the degradation of the important environmental pollutant gamma-hexachlorocyclohexane (lindane) as it also catalyzes conversion of 1,3,4,6-tetrachloro-1,4-cyclohexadiene (1,4-TCDN) to 2,5-dichloro-2,5-cyclohexadiene-1,4-diol (2,5-DDOL) via the intermediate 2,4,5-trichloro-2,5-cyclohexadiene-1-ol (2,4,5-DNOL). (hamap mf_01231 ) Catalytic activity 1-haloalkane + H2O - a primary alcohol + halide. (hamapmfj^j 1,4-TCDN + 2 H2O - 2,5-DDOL + 2 chloride. (HAMAP MF-°1230 Enzyme regulation Competitively inhibited by the key pollutants 1,2-dichloroethane (1,2-DCE) and 1,2-dichloropropane (1 "> D^P) fHAMAP mf_01231 ] Pathway Xenobiotic degradation; gamma-hexachlorocyclohexane degradation. CHAMAP mf_oi23i) Subunit structure Mnnnmor (hamap mfj1231) Subcellular location Periplasm. iel4) Induction Constitutively expressed. <-HAMAP MF-01231) Miscellaneous Is not N-terminally processed during export, so it may be secreted into the periplasmic space via a hitherto unknown mechanism. Chamap MFJ1231) Sequence similarities Belongs to the haloalkane dehalogenase family. Type 2 subfamily. Biophysicochemical properties pH dependence: Optimum pH is 8.2.'HAMAP MF-01231 > Úvod do bioinformatiky, bioinformatické databáze □ Ontológie ■ Ontologies Keywords Biological process Detoxification Cellular component Periplasm Molecular function Hydrolase Technical term Gene Ontology (GO) Biological process 3D-structure Direct protein sequencing response to toxin Inferred from electronic annotation. Source: UniProtKB-KW Cellular component periplasmic space Inferred from electronic annotation. Source: UniProtKB-SubCell Molecular function Complete GO annotation... haloalkane dehalogenase activity Inferred from electronic annotation. Source: HAMAP Úvod do bioinformatiky, bioinformatické databáze □ Anotace sekvence Sequence annotation (Features) Feature key Molecule processing Position(s) Length Description Graphical view Feature identifier r Initiator methionine _1_ _1_ Removed G^±)l^il) □ Chain 2-296 295 Sites r r r r r Active site Active site Active site Binding site Binding site Natural variations 108 132 272 38 109 1 Nucleophile 1 Proton donor' hamap mf_oi23i ; 1 Prnfnn qrrftptnr1'hamap mf_0123i) 1 HqlidP ( hamap mf_01231 ) 1 H^lidft (hamap mf_01231] ■ Natural variant 81 1 A -Tin strain: B90. ■ Natural variant 112 1 A - V in strain: B90. ■ Natural variant 134-135 2 IA - VTm strain: B90 ■ Natural variant 138 1 I - L in strain: B90. r Natural variant 247 1 A — H in strain: B90. r Natural variant 253 1 M - I in strain: B90. Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v UniProtKB □ Anotace sekvence Natural variations ■ Natural variant ■ Natural variant I Natural variant Natural variant Natural variant Natural variant Experimental info 81 112 134-135 138 247 253 A — Tin strain: B90. A - V in strain: B90. IA - VTin strain: B90. I — L in strain: B90. A - H in strain: B90. M in strain: B90. r Mutagenesis 38 1 N — D, E, F or Q: Loss of activity. C^IZJ —i- r Mutagenesis 108 1 D - A: Loss of activity, tell) -1- r Mutagenesis 108 1 D — N: 58% of wild-type activity. -- r Mutagenesis 109 1 W — L: Loss of activity. 1™JJ -1- r Mutagenesis 132 1 E — Q: Loss of activity. C^eJ -- r Mutagenesis 151 1 F -» L, W or Y: Increase in activity. (Ref7J r Mutagenesis 169 1 F — L: 31% of wild-type activity. C^tz) -- r Mutagenesis 244 1 E — Q: 38% of wild-type activity. tM5J -1- r Mutagenesis 272 1 H — A: Loss of activity. (ns«) -\— Úvod do bioinformatiky, bioinformatické databáze □ Sekvence Sequences Sequence Length Mass (Da) Tools □ P51698-1 [UniParc]. Last modified January 23, 2007. Version 4. Checksum: 6EEE011B157DBAE1 FASTA 296 33,108 [SbsT 10 20 30 40 50 60 MSLGAKPFGE KKFIEIKGRR MAYIDEGTGD PILFQHGNPT 55YLURNIHP HCAGLGRLIA 70 80 90 100 110 12 0 CDLIGHGDSD KLDPSGPERY ATAEHRDTLD ALWEALDLGD RWLWHDWG SALGFDWARR 130 140 150 160 170 180 HRERVQGIAY HEAIAHPIEW ADFPEQDRDL FQAFRSQAGE ELVLQDNVFV EQVLPGLILR 190 2 00 210 220 23 0 2 40 PLSEAEMAAY REPFLAAGEA RRPTLSWPRQ IPIAGTPADV VAIARDTAGW LSESPIPKLF 2 50 2 60 2 70 2 80 2 90 INAEPGALTT GRMRDFCRTW PNQTEITVAG AHFIQEDSPD EIGAAIAAFV RRLRPA Hide go Úvod do bioinformatiky, bioinformatické databáze □ Reference [1] "Cloning and sequencing of a dehalogenase gene encoding an enzyme with hydrolase activity involved in the degradation of gamma-hexachlorocyclohexane in Pseudomonas paucimobilis." Nagata Y., Nariya T., Ohtomo R., Fukuda M., Yano K., Takagi M J. Bacteriol. 175:6403-6410(1993) [PubMecl: 7691794] [Abstract] Cited for: NOCLEOTIDE SEQUENCE [GENOMIC DNA], PROTEIN SEQUENCE OF 2-16. Strain: UT26. [2] Nagata Y., Nariya T., Ohtorno R., Fukuda M., Yano K., Takagi M. Submitted (MAR-1999) to the EMBL/GenBank/DDBJ databases CjtedjBI SEQUENCE REVISION. [3] "Cloning and characterization of lin genes responsible for the degradation of hexachlorocyclohexane isomers by Sphingomonas paucimobilis strain BOO." Kumari R., Subudhi S., Suar M., Dhingra G., Raina V., Dogra C, Lai S., van der Meer J.R., Holliger C, Lai R Appl. Environ. Microbiol. 68:6021-6028(2002) [PubMed: 12450824] [Abstract] Cited for NUCLEOTIDE SEQUENCE [GENOMIC DNA]. Strain: B90. [4] "Two different types of dehalogenases, LinA and LinB, involved in gamma-hexachlorocyclohexane degradation in Sphingomonas paucimobilis UT26 are localized in the periplasmic space without molecular processing." Nagata Y., Futamura A., Miyauchi K., Takagi M. J. Bacteriol. 181:5409-5413(1999) [PubMed: 10464214] [Abstract] Cited for: PROTEIN SEQUENCE OF 2-10, SUBCELLULAR LOCATION. [5] "Purification and characterization of a haloalkane dehalogenase of a new substrate class from a gamma-hexachlorocyclohexane-degrading bacterium, Sphingomonas paucimobilis UT26." Nagata Y., Miyauchi K., Damborsky J., Manova K., Ansorgova A., Takagi M. Appl. Environ. Microbiol. 63:3707-3710(1997) [PubMed: 9293022] [Abstract] Cited for: CHARACTERIZATION. Strain: UT26. □ nr Protein Database ■ Databáze proteinových sekvencí NCBI ■ Kolekce sekvencí získaných konceptuálni translací kódujících oblastí GenBank/EMBL-Bank/DDBJ a dále sekvencí z UniProtKB, PRF a RCSB PDB ■ © většinou automatická anotace - nižší kvalita, možnost chyb ■ © chybí indikace původu anotace ■ © více než 25.000.000 sekvencí (2015) Úvod do bioiinformatiky, bioinformatické databáze □ Prostá sekvence DQLTEEQIAEFKEAFS LFDK Úvod do bioinformatiky, bioinformatické databáze □ Prosta sekvence □ GenBank LOCUS DEFINITION ACCESSION EASE COUNT ORIGIN 1 61 121 181 AAU03518 237 bp DNA PLN Ü4-FEB-1995 Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S rRNA and 5.8S rRNA genes, partial sequence. U03518 41 a 77 c 67 g 52 t aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc Üvod do bioinformatiky, bioinformaticke databäze □ Prosta sekvence □ GenBank □ EMBL ID XX AC XX DE DE XX SQ AA03518 U03518; Standard; DNA; FUN; 237 EP. Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S rRTJA and 5.8S rKNA genes, partial seguence. Sequence 237 EP; 41 A; 77 C; 67 G; 52 T; 0 other; aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc 60 120 180 237 Üvod do bioinformatiky, bioinformaticke databäze □ Prostá sekvence □ GenBank o □ EMBL □ FASTA 4 >giI155348|gb|aaa88691.1| haloalkane dehalogenase x,inairtpdqrfsnldqypfspnylddlpgypglrahyldegnsdaedvf äesgarviapdffgfgksdkpvdeedytfefhrnfllälierldlrnitl" fkrliimnaclmtdpvtqpafsafvtqpadgftawkydlvtpsdlrldqf: pdt s yqagvrkf pkmvaqrdqacidisteais fwqndwngqt fmaigmkd: pleiadaghfvqe fgeqvarealkhfaete Nejčastěji používaný formát Úvod do bioiinformatiky, bioinformatické databáze □ Worldwide Protein Data Bank (wwPDB) ■ Světový depositář proteinových struktur, obsahuje rovněž struktury nukleových kyselin a biomolekulárních komplexů ■ Research Collaboratory for Structural Bioinformatics (RCSB PDB), Protein Data Bank Europe (PDBe), Protein Data Bank Japan (PDBj), Biological Magnetic Resonance Data Bank (BioMagResBank) ■ Obsahuje více než 84.000 struktur (2012) ■ Struktury získané rentgenovou krystalografií (88%) a nukleární magnetickou rezonancí (11 %) SPDB WORLDWIDE PROTEIN DATA BANK □ Entrez Genome □ Ensembl □ Genomes OnLine Database GOLD □ Informace o zdrojovém organizmu □ Nukleotidové a proteinové sekvence □ Geny v kontextu genomu □ Anotace a analýza genomů Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v Entrez Genome □ Přehled prokaryotických genomů Overview [8348] Eukaryotes [2215] Prokaryotes [14202] Viruses [3212] First Previous Shown: 1 -100 out of 1309 items Next Last Download selected records Organism/Name BioProject Group SubGroup Size GC% Chromosomes WGS Scaffolds Gene Protein Release Modify Status Actinobacte ^ — All Actint t (Mb) RefSeq INSDC Date Date All Acaricornes phytoseiuli DSM 14247 PRJNA17497D Actinobacteria Actinobacteria No data Acidimicrobium fermoxidans DSM 10331 PRJNA59215 PRJNA29525 Actinobacteria Actinobacteria 2.16 68.30 NC_013124.1 CP001631.1 2089 1964 2009/08/18 2012/01/30 Complete Acidotherrmus cellulolyticus 11 B PRJNA585G1 PRJNA16097 Actinobacteria Actinobacteria 2.44 66.90 NC_008578.1 CP000481.1 - - 2217 2157 2006/11/09 2012/01/24 Complete Actinoalloteichus spitiensis RMV-137S PRJNA768G7 Actinobacteria Actinobacteria 5.71 72.40 AG VXD 1 2011/12/20 2012/05/31 Scaffolds or contigs Actinobaculurn sp. oral taxon 1S3 str. F0552 PRJNA173932 Actinobacteria Actinobacteria No data Actinobaculurn rnassiliae ACS-171-V-Col2 PRJNA52091 Actinobacteria Actinobacteria SRA or Traces Actinobaculurn schaalii PRJNA52093 Actinobacteria Actinobacteria - - - - - - - - - - No data Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v Entrez Genome □ Přehled prokaryotických genomů Overview [8348] Eukaryotes [2215] Prokaryotes [14202] Viruses [3212] First Previous Shown: 1 -100 out of 1309 items Next Last Download selected records Organism/Name BioProject Group SubGroup Size GC% Chromosomes WGS Scaffolds Gene Protein Release Modify Status Actinobacte ^ — All Actint t (Mb) RefSeq INSDC Date Date All Acaricornes phytoseiuli DSM 14247 PRJNA17497D Actinobacteria Actinobacteria No data Acidimicrobium ferrooxidans DSM PRJNA59215 PRJNA29525 Actinobacteria Actinobacteria 2.16 68.30 NC_013124.1 CP001631.1 2089 1964 2009/08/18 2012/01/30 Complete Acidotherrmus cellulolyticus 11 B PRJNA585G1 PRJNA16097 Actinobacteria Actinobacteria 2.44 66.90 NC_008578.1 CP000481.1 - - 2217 2157 2006/11/09 2012/01/24 Complete Actinoalloteichus spitiensis RMV-137S PRJNA768G7 Actinobacteria Actinobacteria 5.71 72.40 AGVXD1 2011/12/20 2012/05/31 Scaffolds or contigs Actinobaculurn sp. oral taxon 1S3 str. F0552 PRJNA173932 Actinobacteria Actinobacteria No data Actinobaculurn rnassiliae ACS-171-V-Col2 PRJNA52091 Actinobacteria Actinobacteria SRA or Traces Actinobaculurn schaalii PRJNA52093 Actinobacteria Actinobacteria - - - - - - - - - - No data Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v Entrez Genome □ Informace o genomu Organism Overview; Genome...Project..Report; .G.enome...A.nnotation Report Acidothermus cellulolyticus 11B Thermotolerant cellulolytic organism Lineage: Bacteria[3351]; Actinobacteria[547]; Actinobacteria[547]; Actinobacteridae[502]; Actinomycetales[4B5]; Frankineae[11]; Acidothermaceae[1]; Acidothermus[1]; Acidothermus cellulolyticus[1]; Acidothermus cellulolyticus 11B[0] Acidothermus cellulolyticus strain 11B. This strain (11B; ATCC 43068) is the type strain for the species. The genome sequence from this organism will provide information on the regulation and production of potentially useful enzymes. @ Genome Sequencing Projects ♦ Chromosomes [1] ♦ Scaffolds or contigs [ * 3RA or Traces TOO ♦ No data [ Organism BioProject JAssernbly Status Chrs Size (Mb) GC% Gene Protein acidothermus cellulolyticus 11B PRJNA58501, PRJNA1 6097 ASM1 502V1 ♦ 1 2.44 66.9 2,217 2,157 @ Genome Region 1 :00 K 100 K 600 K 1 300 K 1 M j 1 200 K 1 1,400 K 11,600 K 11,300 K 2 Fl * • * » «I * 4 * t ■ «4P <* It It* 44 * p % % M IM k i t 14 PIP »4 4PMt4PP4IPPPP44P 4 4 4 P P 1*4 P 44 * P44PPPIP44IP P • H ■ f \ I ■ E 1*11 1 i 1 PI 1 1 Go to nucleotide Graphics F A STA GenBank Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v Entrez Genome □ Informace o genomu Organism Overview; G on on: P roj e ct Rep :< rt; Genome A.nnotati on Report Acidothermus cellulolyticus 11B Thermotolerant cellulolytic organism Lineage: Bacteria[3351]; Actinobacteria[547]; Actinobacteria[547]; Actinobacteridae[502]; Actinomycetales[4B5]; Frankineae[11]; Acidothermaceae[1]; Acidothermus[1]; Acidothermus cellulolyticus[1]; Acidothermus cellulolyticus 11B[0] Acidothermus cellulolyticus strain 11B. This strain (11B; ATCC 43068) is the type strain for the species. The genome sequence from this organism will provide information on the regulation and production of potentially useful enzymes. @ Genome Sequencing Projects ♦ Chromosomes [1] ♦ Scaffolds or contigs [ * 3RA or Traces TOO ♦ No data [ Organism BioProject JAssembly Status Chrs Size (Mb) GC% Gene Protein acidothermus cellulolyticus 11B PRJNA58501, PRJNA1 6097 ASM1 502V1 ♦ 1 2.44 66.9 2,217 2,157 @ Genome Region Go to nucleotide 1 :00 K 100 K 600 K j 300 K 1 M j 1 200 K 1 1,400 K 11,600 K 11,300 K 2 Fl * • * * «I * 1 1 t 1 «41 1 * It 1 1 1 M * p n p p f m* k i t 1* PIP M M II *0 MI IM 1 IM I Mil III 1 4P * P44PPPPPPPPP P • H ■ f 1 I ■ E f 14* 1 1 1 II 1 1 Graphics IFASTA GenBank Úvod do bioinformatiky, bioinformatické databáze Ukázka záznamu v Entrez Genome □ Grafické znázornění genomu NC_013209.1 [2,907,495 bases) ^ ^ Sequence | [_J Set Origin | ^ Views & Tools- Ý Markers 1 100 K MOK !O0 K 400 h !00 ft SOO K 700 K »00 K Ho Q 1 hl 1,100 K 1,200 K 1 ,S0O K 1,+00 K 1,500 K 1,600 K 1,700 K 1,800 K 1,900 K 1 li 2,100 K I,M0 K !,J | i , . . | . . . , | i , , . 1 . . , , | i i i , | . . . , I, , , , | . . . , | , ....... > ■ ■■■ ........... | tl ■ * 1 1 * 1 i ■ ■ i ■ ■ ■ ■ ■ i * h ■ ■ i ■ j i i , , 1 , . . . J , , i ■ i ■ ■ »(■■■ ■ * i » ■ p , I . . . .j . , * 1 * * t 4* i . 1 .... 1 .... 1 .... j .... 1 . . ■ 4 11 ■■■ ■■■ »III»»» 1 ■ ■ * 1 f**|*t f t Mt t 1 f .. 1 .... j .... 1 ... . 1 t «II í < * i 853,430 : 944,630 [36,151 bases shown, positive strand} El * Sec Sequence Ai Flip Strands €^ (fljf \ sk\ ^ t°°Ie 8S0 K 8GSK 870 K 875 K 380 K 885 K 890 K 995 K 900 K 905 K 910 K 91S K 9l20 K 925 K 1' i.........i.........i.........i.........i.........i.........i.........i.........i.........i.........i.........i.........i.........r ■ :ompieie genome - Sequence NC_013209.1: Acetocacler pasteurianui - Genes AFA01_06330M VP_C031873B1.1__r E1APA01 06260 CM YF_003187351.1 ÄPM1 06320 I VP 003187360.11 ■ ■AFA01_06340 ■ ■VP_003107363.1 APA01 06390 Q VP 003187367. n AFAO1JJB530 | VP 003107301 II IAPA01JJ835C IVP 003107303.1 |YP_003187370.1 APA01_08510| VP 0C31G73G2.il |APAQ |-rv\ i_Q655C 'Tyr APA01_OB570 VP 003107364.1 "■AP API 03620 __■ VP_003137333.1 APA01 0869OB VF 0C31673SS.™ AFAO1_0eS2Ol VP 003l374Q3.il fePAOl 06250 h'P 003187353.1 ruaA ] VP_003137359.il APA01 06360 ■ YP_C03137364.1_B APA01_08370| VP_003187365.11 HAPAC1 03400 ■ YP_003187368.1 APA01_08520I VP_0031S73SC.II __|AFA01_08650 __BVP_0C31G7392.1 |APA0i 03630 K IVP 003137390.1 E APAČI 03S00____ VP 003137107 1T» 1APA01_08750 I VP_003137402.1 IAPA01 0S74O IVP 003187101 1 APA01 03870 _■ VP_003137114.1_B APA01_08880] VP 003187415 11 APAOi 083501 VP OfX31S7412.il | APA01_08610 I VP_0C3187360.1 APA01_06270] >_C03187355.1| |APAQ1_Q63Q0 IYP 003187358.1 APAQ 1.064501 VP 003187373.11 VP 003187383.il [APŕO1_0B59Q IVP 003187386.1 IAPŕO1_03660 ]VP_003187393.1 APA01_08810 E3 VP_C03167403. IQ ■purfJ ■ VP 003187404.1 AP/ VP oo afAO VP 003 Úvod do bioinformatiky, bioinformatické databáze □ Anotace eukaryotickych genomü 15 Genes known Genes Repeats Variations Üvod do bioinformatiky, bioinformaticke databäze 99988555544262669998885 2919 □ Seznam dokončených a probíhajících genomových projektů Complete Published Genome Projects: 1375 Archaeal: 94 1"^" Bacterial: 1148 Eukaryal: 133 < first last >> 100 ORGANISM DOMAIN INFORMATION SIZE CHROM š PLASM 1 GC% Saccharomyces cerevisiae S233c H FUNGI-ASCOMYCOTA Taxonomy Entrez 16 Ferrimonas balearica PAT; DSM 9799 _l PROTEOBACTERIA-GAMMA Taxonomy Entrez GEBA 4279 Kb 3947 orfs 1 50% Vulcanisaeta distributa IC-017, DSM 14429 □ CRENARCHAEOTA-THERMOPROTEI Taxonomy Entrez Isolation GEBA 2374 Kb 2592 orfs MAP 1 45.4% Halomonas slongata DSM 2531 PROTEOBACTERIA-GAMMA Taxonomy Entrez 4061 Kb 355S orfs MAP 1 63% Methanoplanus petrolearius SEBR 4-847, DSM 11571 □ EURYARCHAEOTA-METHANOMICROBIA Taxonomy Entrez Isolation GEBA 2843 Kb 2801 orfs MAP 1 50% Sulfurimonas autotrophica OK10, DSM 16294 □ PROTEOBACTERIA-EPSILON Taxonomy Entrez Isolation 2153 Kb 2220 orfs 1 35.2% Spirochaeta thermophila DSM S192 SPIROCHAETES Taxonomy Entrez 2472 Kb 1 52% Dickeya dadantii 3937 a PROTEOBACTERIA-GAMMA Taxonomy Entrez Plant Pathogen Article 4922 Kb 1 SEQUENCING CENTER GENOME DATABASE PUBLICATION Saccharomvces Genome Database DOE Joint Genome Institute DSMZ DOE Joint Genome Institute DSMZ Max-Planck Institute DQE Joint Genome Institute DSMZ DQE Joint Genome Institute DSMZ Goettinqen Genomics Laboratory J. Craig Venter Institute Univ of Wisconsin Univ of Wisconsin Unpublished 2010-09-24 Unpublished 2010-09-22 Environmental Microbiology in press 2010-09-17 Unpublished 2010-09-17 Unpublished 2010-09-10 Unpublished 2010-09-10 Woyke T Kunte,H.J PROJECT TYPE DISTRIBUTION SEQUENCING STATUS DISTRIBUTION PHYLOGENETIC DISTRIBUTION Úvod do bioinformatiky, bioinformatické databáze □ Chyby v sekvencích □ Chyby a nepřesnosti v anotacích □ Propagace chyb během automatických anotací Úvod do bioinformatiky, bioinformatické databáze □ Textové prohledávání □ Sekvenční prohledávání Entrez, The Life Sciences Search Engine PubMed All Databases Human Genome GenBank Map Viewer BLAST Search across databases |iinb "J^^T^^ Help , tTi PubMed: biomedical literature citations and m l-j . .. . . 44 (^J a^s|;r-act:s l^J none | | Books: online books 79 PubMed Central: free, full text journal articles (?] none OMIM: online Mendelian Inheritanct ;-gi I115Í31735 I gb|ABI33ilS .11 LirE [Xjnthaniriij jp. ICHLÍ] HILCAHňr&EKKFIEIK&EEHAVIEE&T&EPILFQH&HPTS S VUHEHIHPHC A&L&ELI ACDLIGMHJSD KLDPS tPEPXAVAEHPIimjaiJHEi^^ AEFPE SYPEME QAFPS q&Hm^gnHOTVEtfJIJ&LIIJ^ IPIA&TPADWTO^TCA^SESPIPra^IHi^ none [W Site Search: NCBI web and FTP sites (D none f=TT7 OMIA: Online Mendelian Inheritanct EIAATVKK £^ Nucleotide: sequence database (includes GenBank) m UniGene: gene-ori m none *^ ' sequences ented clusters of 39 '#*#- Protein: sequence database 4 ||| Genome: whole genome sequences E) 12 .i Structure: three-dimensional macromolecular @ none UniSTS: markers and mapping data ^ structures V— -1 VJX 12 3D Domains: domains from Entrez vložení dat ( . i O " prohledání databáze C 1: ABI93216. Report LinB rXaiithomonas...[gi: 115291795] V" 2: AAED5978. Report LinB rSphingomona... [gi:37963683] >gi I 3J363683 I gblAÄE05378 .11 LinB [Sphingomomij piucimobilij] HSLCAKPr&EKKTIEIK&EEHÄÍ I DE &T HIP I LT OH MPT S 3 YLKEHIHPHCÄ&L&PIIÄCDLI (jH&DSD (?) none f* CDD: conserved protein domain data HJJPS SPEP^TľAIHPIimJAIJI^^ ÄDTPEIJJJiajLrqŕniS QAHAm-QpHOTVEQ^ttlLPPLSEAO^YP^ IPIA&TPÄi™VAIAPireA™,SESPIP]ajI EI CAAIAATVEELEPA m Úvod do bioiinformatiky, bioinformatické databáze □ SRS □ DBGET □ Integrují data z různých databází □ Umožňují prohledání mnoha databází současně □ Umožňují formulaci dotazů pomocí logických operátorů Úvod do bioinformatiky, bioinformatické databáze 5 Textové prohledávání databází □ Entrez ■ Vyhledávací systém pro databáze NCBI ■ Integruje data ze 40 různých databází, pouze NCBI o NCBI HOME SEARCH SITE MAP D-, Entrez, The Life Sciences Search Enginem PubMed _L All Databases Human Genome GenBan Map Viewer BLAST Search across databases linb Help ■rta PubMed: biomedical literature citations and m 44 W abstracts ® 79 ^) PubMed Central: free, full text journal articles (Zl none Site Search: NCBI web and FTP sites (Zl none Books: online books (Zl none OMIM: online Mendelian Inheritance in Man LZI none OMIA: Online Mendelian Inheritance in Animals (Zl Nucleotide: sequence database (includes ^ 45 •» GenBank) U 39 Protein: sequence database (Zl 4 1 Genome: whole genome sequences (Zl none £^ UniGene: gene-oriented clusters of transcript q sequences none CDD: conserved protein domain database (Zl 12 3D Domains: domains from Entrez Structure (Zl Úvod do bioinformatiky, bioinformatické databáze □ SRS Vyhledávací systém pro databáze EBI Umožňuje prohledávat i databáze jiných institucí, databáze uživatelů či databáze výsledků vybraných výpočetních nástrojů ■ ■ ■ i *■* *Sř * Rl • ES-e'fE Search All Databases Databases Tools EBI Groups Trainin AboutUs Help Quick Search Library Page Query Form Tools Results Projects Quick Text Search Start a Permanent Project Find : | Nucleotides T| matching : (EnterText Here G0 Reset ® Qivs us A:\an:;; iearc1 feedback Views Sil-: Irdcí # Databanks Search Tips Úvod do bioinformatiky, bioinformatické databáze □ DBGET ■ Vyhledávací systém pro databáze LinkDB ■ Umožňuje mj. prohledávat databázi metabolických drah KEGG o DBGET Database Links PubMed LITDB EM BL -+r- UniProt PDBSTR A A index OMIM EPD 1 / f Prosit* MotilDi: lJiňm Blocks ProDom PRINTS v. j Úvod do bioiinformatiky, bioinformatické databáze Ukázka textového prohledávání □ Vyhledávání na základě klíčových slov 1258 152 96 Search across databases rnouse[ORGN] AND kinase AND (exons OR introns] GO Clear Help Result counts displayed in gray indicate one or more terms not found 1258| IjjJ 312 PubMed: biomedical literature citations and abstracts H^*) PubMed Central: freej full text journal articles Site Search: NCBI web and FTP sites B C3 Books: online books zM -ft GMIM: online Mendelian Inheritance in Man none □ MIA: online Mendelian Inheritance in Animals 152 Nucleotide: Core subset of nucleotide sequence records IT! EST: Expressed Sequence Tag records 121 }Q* GSS: Genome Survey Sequence records m 961 ■t*-* Protein: sequence database none dbGaP: genotype and phenotype ® ® rz-j UniGene: gene-oriented clusters of '—' * transcript sequences none none •0 CDD: conserved protein domain database 3D Domains: domains from Entrez Structure Úvod do bioinformatiky, bioinformatické databáze □ Vyhledávání na základě sekvenční podobnosti >rgbIAAT70109.1| CurN [Lyngbya majuscula] Length=341 Score = 303 bits (777), Expect = 8e-81, Method: Composition-based stats. Identities = 148/297 (49%), Positives = 188/297 (63%), Gaps = 8/297 (2%) SEIGTGFPFDPHYVEVLGERMHYVDVGPRDGTPVLFLHGNPTSSYLWRNIIPHV-APSHR 60 I + FPF VEV G + YVD G G PVLFLHGNPTSSYLWRNIIP+V A +R LPISSEFPFAKRTVEVEGATIAYVDEG—SGQPVLFLHGNPTSSYLWRNIIPYVVAAGYR 98 CIAPDLIGMGKSDKPDLDYFFDDHVRYLDAFIEALGLEEVVLVIHDWGSALGFHWAKRNP 12 0 +APDLIGMG S KPD++Y DHV Y+D FI+ALGL+++VLVIHDWG5 +G A+ NP AVAPDLIGMGDSAKPDIEYRLQDHVAYMDGFIDALGLDDMVLVIHDWGSVIGMRHARLNP 15 8 ERVKGIACMEFIRPI----PTWDEWPEFARETFQAFRTADVGRELIIDQNAFIEGVLPK- 17 5 +RV +A ME + P P+++ F+ RTADVG ++++D N F+E +LP+ DRVAAVAFMEALVPPALPMPSYEAMGPQLGPLFRDLRTADVGEKMVLDGNFFVETILPEM 218 Query 2 Sbjct 41 Query 61 Sbjct 99 Query 121 Sbjct 159 Query 176 Sbjct 219 Query 236 Sbjct 279 VVR L+E EM YR PF R P ++P E+PI GEPA A V WL SP+P KLLFWGTPGVLIPPAEAARLÄESLPNCRTVDIGPGLHYLQEDNPDLIGSEIARWLPG 2 92 KLLF PG L P L+E++PN + +G G H+LQED+P LIG IA KIL Sequences producing significant alignments: ®0 sp|P59336|DHAA RHOSD Haloalkane dehalogenase >pdb|lBN6|A Chai. *0 sp I P0A3G2 IDHAA RHORH Haloalkane dehalogenase >sp I P0A3G3 |DHAA_. ®0 pdb 11CQWIA Chain A, Nai Cocrystallised With Haloalkane Dehalo. ®0 sp|Q9ZER0|DHAA KYCSX Haloalkane dehalogenase >embICAA10076.11. ®|7 ghlAAY70325.il HT2 [Expression vector pHT2] ®0 reflYP 00167503Q.il alpha/beta hydrolase fold [Shewanella hal. '0 reflYP 734675.11 alpha/beta hydrolase fold [Shewanella sp. MR. ®0 reflYP 001473250.il alpha/beta hydrolase fold [Shewanella sed. ®0 reflZP 01736514.11 alpha/beta hydrolase [Harinohacter sp. ELB. ®0 reflYP 733656.11 alpha/beta hydrolase fold [Shewanella sp. MR. ®0 reflYP 001502590.11 alpha/beta hydrolase fold [Shewanella pea. '0 reflHP 717353.11 hydrolase, alpha/beta hydrolase fold family . ®0 reflYP 750057.11 alpha/beta hydrolase fold [Shewanella frigid. ®0 reflYP 263379.11 hydrolase, alpha/beta hydrolase fold family . ®0 reflYP 001761524.il alpha/beta hydrolase fold [Shewanella woo. ®0 reflZP 01341154.11 alpha/beta hydrolase fold [Shewanella halt. ®0 reflYP S70347.ll alpha/beta hydrolase fold [Shewanella sp. AN. ®0 reflYP 129676.11 putative haloalkane dehalogenase [Photobacte. ®0 reflZP 01221S58.il putative haloalkane dehalogenase [Photohac. ®0 reflYP 001365757.il alpha/beta hydrolase fold [Shewanella hal. ®0 reflYP 562379.11 alpha/beta hydrolase fold [Shewanella denitr. ®0 reflZP 01397865.11 putative haloalkane dehalogenase [Moritell, ®0 reflYP 001049934.il alpha/beta hydrolase fold [Shewanella hal. ®0 reflYP 943362.11 alpha/beta hydrolase fold [Psychromonas ingr. ®0 reflYP 001182970.il alpha/beta hydrolase fold [Shewanella put. ®0 reflYP 001554014.il alpha/beta hydrolase fold [Shewanella hal. ®0 reflZP 01706252.11 alpha/beta hydrolase fold [Shewanella putr. ®0 reflYP 964030.11 alpha/beta hydrolase fold [Shewanella sp. ¥3. ®0 reflYP 510562.11 haloalkane dehalogenase [Jannaschia sp. CCS1. '0 reflZP 01216324.11 hydrolase, alpha/beta hydrolase fold famil. '0 reflYP 001093S40.1I alpha^beta hydrolase fold [Shewanella loi. '0 reflNP 106032.11 haloalkane dehalogenase [Mesorhizobium loti . '0 gblAAT70109.il CucCT [Lyngbya majuscula] *0 reflZP 01055470.11 haloalkane dehalogenase [Roseohacter sp. H. '0 reflZP 01617455.11 haloalkane dehalogenase [marine gamma prot. '0 reflZP 01592200.11 alpha/beta hydrolase fold [Geohacter lovle. '0 reflZP 01911259.11 alpha/beta hydrolase [Plesiocystis pacific. '0 reflYP 001230772.11 alpha/beta hydrolase fold fGeobacter uran. IBitsJ Value 429 le -118 424 3e -117 424 4e -117 422 le -116 415 le -114 320 Se -86 E 318 3e -85 E 317 6e -85 E 317 6e -85 316 9e -85 E 316 9e -85 E 315 2e -84 E 315 2e -84 E 315 2e -84 E 315 3e -84 E 315 3e -84 314 4e -84 E 314 7e -84 E 313 Se -84 313 9e -84 E 313 9e -84 E 313 le -83 313 le -83 E 313 le -83 E 312 2e -83 E 312 2e -83 E 310 7e -83 310 9e -83 E 308 3e -82 E 307 Se -82 306 le -Bl E 303 Se -Bl E 303 8e -Bl 303 le -80 302 2e -80 300 7e -80 300 9e -80 300 9e -80 E Úvod do bioinformatiky, bioinformatické databáze Problémy prohledávání databází 1 □ Textové vyhledávání ■ © chybné, nepřesné či obecné anotace ■ © synonyma ■ © velký počet falešně pozitivních a falešně negativních výsledků □ Sekvenční vyhledávání ■ © podmínka evoluční příbuznosti ■ © větší nároky na uživatele ■ © potenciálně falešně pozitivní i falešně negativní výsledky □ Vhodné je oba přístupy kombinovat Úvod do bioinformatiky, bioinformatické databáze □ Claverie, J-M., & Notredame, C. (2006) Bioinformatics for Dummies (2nd ed.) Wiley Publishing, Hoboken, p. 436. □ Xiong, J. (2006) Essential Bioinformatics, Cambridge University Press, New York, p. 352. □ ENTREZ tutorial: http://www.ncbi.nlm.nih.gov/Entrez/tutor.html □ SRS documentation: http://srs.ebi.ac.uk/srs/doc/index.html □ NCBI handbook: http://www.ncbi.nlm.nih.gov/books/NBK21101/ □ UniProtKB manual: http://www.uniprot.org/manual/ □ NCBI: http://www.ncbi.nlm.nih.gov/ □ EBI: http://www.ebi.ac.uk/ □ Pubmed: http://www.ncbi.nlm.nih.gov/pubmed □ Web of Science: http://apps.isiknowledge.com Üvod do bioinformatiky, bioinformaticke databäze □ GenBank: http://www.ncbi.nlm.nih.gov/genbank/ □ EMBL-EBI: http://www.ebi.ac.uk/embl/ □ DDBJ: http://www.ddbi.nig.ac.jp/ □ UniProt: http://www.uniprot.org/ □ nrdb: http://www.ncbi.nlm.nih.gov/protein/ □ wwPDB: http://www.wwpdb.org/ □ Entrez Genome: http://www.ncbi.nlm.nih.gov/genome □ Ensembl: http://www.ensembl.org □ GOLD: http://www.genomesonline.org/ □ Entrez: http://www.ncbi.nlm.nih.gov/sites/gquery □ SRS: http://srs.ebi.ac.uk □ DBGET: http://www.genome.jp/dbget/ Úvod do bioinformatiky, bioinformatické databáze 83/83 Strukturní biologie Bi9410+94ia Období: podzim Rozsah: přednáška 2 hodiny/týden, cvičení 2 hodiny/týden Vyučující: Mgr. Jan Brezovský, Ph.D. Osnova: struktura, stabilita a dynamika biologických makromolekul makromolekulami interakce a komplexy stanovení a předpověď struktury, identifikace důležitých oblastí stanovení vlivu mutace na strukturu a funkci proteinu aplikace v biologickém výzkumu, návrhu léčiv a biokatalyzátorů Úvod do bioinformatiky, bioinformatické databáze Proteinové inženýrství BÍ7410 ■ Období: jaro ■ Rozsah: přednáška 1 hodina/týden ■ Vyučující: Mgr. Radka Chaloupková, Ph.D. ■ Osnova: ■ strukturně-funkční vztahy proteinů ■ metody exprese a purifikace rekombinantních proteinů ■ metody strukturní a funkční analýzy proteinů ■ racionální design, semi-racionální design a řízená evoluce ■ příklady využití proteinového inženýrství Molekulární biotechnologie Bi743i Období: podzim (každoročně) Rozsah: přednáška 2 hodiny/týden, cvičení 2 hodiny/týden Přednášky: Doc. Prokop, Dr. Dvořák, Dr. Bidmanová Cvičení: Dr. Bidmanová, Dr. Beerens, Dr. Štěpánková, Mgr. Buryška, Mgr. Chrást Osnova: ■ proteinové a metabolické inženýrství ■ molekulární diagnostika a moderní vakcíny ■ buněčná a genová terapie a regenerativní medicína ■ molekulární biotechnologie v průmyslu a zemědělství i í; n n ti • li ii;; u u ii #1111 12 116» i :i n n v x Úvod do bioinformatiky, bioinformatické databáze Mikrobiologické exkurze BÍ6161 ■ Období: jaro ■ Rozsah: 4 dvou až pětihodinové exkurze ■ Vyučující: Mgr. Šárka Bidmanová, Ph.D. ■ Exkurze: - Pivovar Starobrno - http://www.starobrno.cz/ - Erba Lachema - https://www.erbalachema.com/ - Čistírna odpadních vod - http://www.vodarenska.cz/ - Kompostárna - http://www.kompostarna-blansko.cz/ Úvod do bioinformatiky, bioinformatické databáze Biotechnologické exkurze BÍ717 ■ Období: podzim ■ Rozsah: 4 jednodenní exkurze (8.2.-11.2.2015) ■ Vyučující: Mgr. Šárka Bidmanová, Ph.D. ■ Exkurze: - Biotechnologické centrum INBIT - www.jic.cz/inbit - Bioveta-www.bioveta.cz - BioVendor - www.biovendor.cz - Contipro Group - www.contipro.com