LOSCHMIDT
LABORATORIES
Úvod do bioinformatiky a bioinformatické databáze
HUf ^ £ľ' (Mi
EVROPSKÁ UNIE ■ pro honkuwfiesserwiifirjst ^I.VA^
INVESTICE  DO  ROZVOJE VZDĚLÁVANÍ
□ Organizační informace
□ Studijní literatura
□ Historie bioinformatiky
□ Bioinformatické instituce
□ Bioinformatické databáze
□ Prohledávání databází
Úvod do bioinformatiky, bioinformatické databáze
□ Kolokvium
■ Písemný test
■ Celkem 25 otázek s jednou i více správnými odpověďmi
■ Minimálně 17 správných odpovědí
□ BÍ5000 Bioinformatika I - nukleové kyseliny
□ BÍ9060 Bioinformatika II - proteiny
□ BÍ9061 Bioinformatika - cvičení
Úvod do bioiinformatiky, bioinformatické databáze
□ Xiong, J. Essential Bioinformatics. Cambridge University Press, New York, 2006.
□ Claverie, J., and Notredame, C. Bioinformatics for Dummies2 ed. Wiley Publishing, Hoboken, 2006
□ Cvrčkova, F. Úvod do praktické bioinformatiky. Academia, Praha 2006.
□ Misener, S., Krawetz S.A. Bioinformatics: methods and protocols.
Humana Press, Totowa, New Jersey 2000.
□ Attwood, T.K., Parry-Smith, D.J. Introduction to bioinformatics.
Longman, Essex, 1999.
□ Baxevanis, A.D., Ouellette, F.B.F. Bioinformatics: a practical guide to the analysis of genes and proteins. Wiley-lnterscience, New York 1998.
Úvod do bioinformatiky, bioinformatické databáze
□ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul
Úvod do bioinformatiky, bioinformatické databáze
□ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul
Vývoj nástrojů a databází
Úvod do bioiinformatiky, bioinformatické databáze
□ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul
Strukturní analýzy       Sekvenční analýzy
predikce struktury nukleových kyselin
predikce struktury proteinů
klasifikace proteinových struktur
/    / /
porovnávaní proteinových struktur
porovnaní genomu
fylogeneze
predikce genů a promotorů
identifikace motivů
prohledávání sekvenčních databází
sekvenční přiložení
Funkční analýzy
♦* ** modelování
metabolických drah
analýza profilů genové exprese
predikce proteinových interakcí
predikce vnitrobuněčné lokalizace proteinů
Vývoj nástrojů a databází
Úvod do bioinformatiky, bioinformatické databáze
□ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul
Strukturní analýzy       Sekvenční analýzy
predikce struktury nukleových kyselin
predikce struktury proteinů
klasifikace proteinových struktur
/    / t
porovnávaní proteinových struktur
porovnaní genomu
fylogeneze
predikce genů a promotorů
identifikace motivů
prohledávání sekvenčních databází
sekvenční přiložení
Funkční analýzy
♦* ** modelování
metabolických drah
analýza profilů genové exprese
predikce proteinových interakcí
predikce vnitrobuněčné lokalizace proteinů
Vývoj nástrojů a databází
Úvod do bioinformatiky, bioinformatické databáze
Úvod do bioiinformatiky, bioinformatické databáze
Úvod do bioinformatiky, bioinformatické databáze
N
Lys
Úvod do bioinformatiky, bioinformatické databáze
Úvod do bioinformatiky, bioinformatické databáze
Úvod do bioinformatiky, bioinformatické databáze
Úvod do bioinformatiky, bioinformatické databáze
Úvod do bioinformatiky, bioinformatické databáze
Nukleové kyseliny
Nukleové kyseliny
Nukleové kyseliny
Nukleové kyseliny
Nukleové kyseliny
Nukleové kyseliny
5'-NCG-AAA-TTT-GCG-3'
N-Lys-Phe-Ala
Úvod do bioinformatiky, bioinformatické databáze
MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCA GLGRLIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVV HDWGSALGFDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRS QAGEELVLQD
Historie bioinformatiky
□ Revoluce
Úvod do bioinformatiky, bioinformatické databáze
Historie bioinformatiky
120
>-100 "I 80 C 60 <D 40
'S 20
Q_
T
Projekt lidského genomu
1982
1986
1990
1994:
rok
1998
2002
2006
Úvod do bioinformatiky, bioinformatické databáze
Historie bioinformatiky
Historie bioinformatiky
120
>-100
■o
■
C 60
(U
<U 40
(LI
>g 20 Q.
T
Socchoromyces cerevisioe
1990
1998
2002
2006
rok
Üvod do bioinformatiky, bioinformaticke databäze
Historie bioinformatiky
Historie bioinformatiky
Historie bioinformatiky
120
>-100
■o
E
1
80
60
1
910 950
2900* více sekvencí
0) 40
>g 20 Q.
39 533
1982
1986
1990
1994:
rok
1998
2002
2006
Úvod do bioinformatiky, bioinformatické databáze
□ National Center for Biotechnology Information (NCBI)
□ European Bioinformatics Institute (EBI)
□ National Center for Biotechnology Information (NCBI)
■ oddělení National Library of Medicine při National Institutes of Health v USA
■ Poskytuje Databáze GenBank, PubMed, OMIM, Genome dbSNP,...
■ Informace dostupné přes vyhledávací systém Entrez
□ National Center for Biotechnology Information (NCBI)
HOME    SEARCH SITEMAP
Entrez, The Life Sciences Search Engine
PubMed
All Databases
Human Genome
GenBank
Map Viewer
BLAST
Search across databases
GO    Clear Help
Welcome to the Entrez cross-database search page
Jffl   PubMed: biomedical literature citations and abstracts
PubMed Central: free, full text journal articles M   Site Search: NCBI web and FTP sites
Books: online books ijgt I OMIM: online Mendelian Inheritance in Man
«_''    dr77 OMIA: online Mendelian Inheritance in Animals
Nucleotide: Core subset of nucleotide sequence records EST: Expressed Sequence Tag records EQ* GSS: Genome Survey Sequence records •*•*• Protein: sequence database j||   Genome: whole genome sequences ™^,, Structure: three-dimensional rnacrornolecular structures •I Taxonomy: organisms in GenBank IlTll   SNP: single nucleotide polymorphism
dbGaP: genotype and phenotype igji I UniGene: gene-oriented clusters of transcript sequences
CDD: conserved protein domain database fl^i 3D Domains: domains from Entrez Structure ijeji Un'STS: markers and mapping data
Oq PopSet: population study data sets ;. .5? GEO Profiles: expression and molecular abundance profiles GEO DataSets: experimental sets of GEO data
'S»
m
W
'S»
Úvod do bioinformatiky, bioinformatické databáze
□ European Bioinformatics Institute (EBI)
■ Součást European Molecular Biology Laboratory (EMBL), Wellcome Trust Genome Campus ve Velké Británii
■ Poskytuje databáze EMBL-Bank, UniProt, Ensembl, InterPro,...
■ Informace dostupné přes vyhledávací systém SRS
Úvod do bioinformatiky, bioinformatické databáze
□ European Bioinformatics Institute (EBI)
BL-EBI
European Bioinformatics Institute
EBI Home
About EEH
Research
Overview
□üwri oads
— FTP Server
— Database Repository
— Software Repository
— Downloads Help Files
Services
Toolbox
Databases
SERVICES OVERVIEW FASTLINK
Downloads Submissions
Databases
_DjIjImh Browsing
• SRS
Si±irri aaioriB -EMBL via WEBIN
— EMIBL-lnfo. Submitters -SWISS-PROT
— Webin-Align
— PDB-Auto Pep MIAMI Egress IMGT/LIGM
— IMGT/HLA
— Sequin Softuare
Tod bo*
Homology £ SmilarKy
• Fasta
• WU-Blast2
• NCBI-Blast2
■ Blast2 EVEC
• Genome/Proteome Fasta
• MPsrch
• Scanps2.3
■ Parasite-Blast
■ EG I-Blast
■ SNP-Fasta3 Server
_Proi. Function. Analysis
» CluSTr Search 1 InterProScan 1 FingerPRINTScan 1 ppsearch 1 Gene Qui:
■ Pratt
■ Radar
_ Nucleotide Databases
EMBL Nucleo. Sequence
■ Ensembl
■ Genomes Server
■ Genome MOT
■ EMBL-Align
■ Simple Queries
■ dbSTS Queries
■ Parasites
■ Mutations
■ IMGT
_ Protein Databases
■ SWISS-PROT
• TrEMBL
■ InterPro
■ CluSTr
• iPJ
• GOA
• Proteome Analysis
■ HPJ
■ IntEns
Úvod do bioinformatiky, bioinformatické databáze
□ Bibliografie
□ Nukleotidové sekvence
□ Proteinové sekvence
□ Proteinové struktury
□ Genomy
LRH LGITGPVTLAVH DWGGMIGFGWALSH HAQVKRLVI TNTAAAGTKFDKLTWLDVGPVDLWHDWGTISRMEEGT WYLKLIRTTVWHQAIVLAEIGTWCKTQENPA
I
Search across databases |linb
Nucleotide: sequence database (includes 4i   IV GenBank)
39        • Protein: sequence database 4    |||   Genome: whole genome sequences
GD [none   1^]** UniSTS: markers and mapping data
% NCBI		c	-r Entrez,	The Life Sciences Search Enqinea	
HOME | SEARCH     SITE MAP	PubMed	All Databases	1	Human Genome                  GenBank               Map Viewer	1 BLAST
t-l   PubMed: biomedical literature citations and 44   C abstracts	(Zl    none   |jj    Books: online b	ooks	m
79   ^3   PubMed Central: free, full text journal articles	(D    none   ~1r   OMIM: online M	sndelian Inheritance in Man	m
none            Site Search: NCBI web and FTP sites	(D    none             OMIA: Online M	endelian Inheritance in Anim	sis IB
none UniGene: gene-oriented clusters of transcript »
' sequences
none CDD: conserved protein domain database (?)
12 3D Domains: domains from Entrez Structure (D
Úvod do bioinformatiky, bioinformatické databáze
Bibliografické databáze
□ PubMed
□ Web of Science
Z> NCBI
All Databases
I Search | PubMed
PubMed
~3 for f
A service of the U.S. National Library of Medicine and the National Institutes of Health
mvvi.piJbmed.gQ1*
Go   j   Clear | Advanced S e
About Entrez Text Version
Entrez PubMed
Overview
Help | FAQ
Tutorials
New/Noteworthy
E-Utilities
PubMed Services Journals Database MeSH Database Single Citation Matcher
Batch Citation Matcher Clinical Queries Special Queries LinkOut
F Limits J Preview/Index J History1 J Clipboard J Details "|
To get started with PubMed, enter one or more search terms. Search terms maybe topics, authors or journals.
■ Set up ail automated PubMed update in fewer than "^TSlCBll five minutes.
1. Create a My NCBI account.
2. Save your search.
3. Your PubMed updates can be e-mailed directly to you.
I Read the My NCBI Help material to explore other options, such as automated updates of other databases, setting search filters, and highlighting search terms.
PubMed is a service of the U.S. National Library of Medicine that includes over 17 million citations
Sign In     My EndNote Web     My ResearcherlD | My Citation Alertj
ISI Web of Knowledge5'
Take the next step ^)
Search | Cited Reference Search | Advanced Search | Search History	Marked List (0) ■		
Web of Science®			
Search for:			
1	in 1 Topic	-I	
Example: oil spill* AND "North Sea"			
|AND z}\	in 1 Author	-I	q.
Example: O'Brian C* OR OBrian C* Need help finding papers by an author? Use Author Finder.			
|AND jjl	in 1 Publication Nan	ne  ' 1	
Example: Cancer* OR Journal of Cancer Research and Clinical Oncology
Add Another Field »
C    Search    ) ( Clear )
Úvod do bioinformatiky, bioinformatické databáze
□ PubMed
■ Provozováno National Library of Medicíne
■ Obsahuje více než 22 milionů citací biomedicínské literatury
■ Integruje MEDLINE, časopisy z oblasti živých věd a online knihy
■ Prohledávání možné přes Entrez nebo DBGET
■ Obsahuje kromě abstraktů odkazy na plné texty dostupné přes PubMed Central nebo stránky nakladatelství
Publ^Jed
U.S. National Library of Medicine National Institutes of Health
NCBl
Úvod do bioinformatiky, bioinformatické databáze
Bibliografické databáze
□ PubMed
Publßjed
U.S. National Library of Medicine National Institutes of Health
Search: PubMed "|	Limits   Advanced search Help		
		Search	Clear
Display Settings: |v) Abstract Send to: fvl
Nat Chem Biol. 2009 Oct;5(10):727-33. Epub 2009 Aug 23.
Redesigning dehalogenase access tunnels as a strategy for degrading an anthropogenic substrate.
Pavlova fvl, Klvana M, Prokop Z, Chaloupkova R, Banas P, Otyepka M, Wade RC, Tsuda M, Nagata Y, Damborsky J.
Loschmidt Laboratories, Institute of Experimental Biology and National Centre for Biomolecular Research, Faculty of Science, Masaryk University, Brno, Czech Republic.
Abstract
Engineering enzymes to degrade anthropogenic compounds efficiently is challenging. We obtained Rhodococcus rhodochrous haloalkane dehalogenase mutants with up to 32-fold higher activity than wild type toward the toxic, recalcitrant anthropogenic compound 1,2,3-trichloropropane (TCP) using a new strategy. We identified key residues in access tunnels connecting the buried active site with bulk solvent by rational design and randomized them by directed evolution. The most active mutant has large aromatic residues at two out of three randomized positions and two positions modified by site-directed mutagenesis. These changes apparently enhance activity with TCP by decreasing accessibility of the active site for water molecules, thereby promoting activated complex formation. Kinetic analyses confirmed that the mutations improved carbon-halogen bond cleavage and shifted the rate-limiting step to the release of products. Engineering access tunnels by combining computer-assisted protein design with directed evolution may be a valuable strategy for refining catalytic properties of enzymes with buried active sites.
PMID: 1 9701 1 86 [PubMed - indexed for MEDLINE]
l± Publication Types, MeSH Terms, Substances, Secondary Source ID B LinkOut- more resources
Full Text Sources:
Nature Publishing Group
ťíWK r^jMidling iT'Wi'
Related citations
Biodegradation of 1,2,3-trichloropropane through directed evolution an [Appl Environ Microbiol. 2002]
Pathways and mechanisms for product release in the engineered haloalkane dehak [J Mol Biol. 2009]
Mechanism of enhanced conversion of 1,2,3-trichloropropane b [J Comput Aided Mol Des. 2006]
Evolving haloalkane dehalogenases
[Curr Opin Chem Biol. 2004]
I Alpha/Beta-hydrolase fold enzymes: structures, functions [Curr Protein Pept Sei. 2000]
See reviews..
See all...
All links from this record
Related Citations Compound (MeSH Keyword) Compound (Publisher) Substance (MeSH Keyword) Substance (Publisher)
Úvod do bioinformatiky, bioinformatické databáze
□ Web of Science
■ Komerční databáze
■ Součást ISI Web of Knowledge
■ Používá se pro zjištění citovanosti a impaktního faktoru časopisů
Úvod do bioiinformatiky, bioinformatické databáze
□ Web of Science
ISI Web of Knowledge*
Web of Science
Additional Resources
Search j Cited Reference Search j Structure Search j Advanced Search j Search History j Marked List (0)
Web of Science® - with Conference Proceedings
<< Back to results list
Record 1 of 1
Record from Web c-f Science©
Redesigning dehalogenase access tunnels as a strategy for degrading an anthropogenic substrate
NCEI
'.. Print j { E-mail} }Add to Marked List } {Save to End Note) Weh } {Saue to Eni] Note) RefMafi, Profile 3 m=r& =pti=ns
(Damborsky, Jiri) ■
Source NATURE CHEMICAL BIOLOGY   Volume: 5    Issue: 10   Pages: 727-733    Published: OCT 2009 Times Cited: 6   References: £0   O Citation Map
Abstract: Engineering enzymes to degrade anthropogenic compounds efficiently is challenging. We obtained Rhodococcus rhodochrous haloalkane dehalogenase mutants with up to 32-fold higher activity than wild type toward the toxic, recalcitrant anthropogenic compound 1,2,3-trichloropropane fTCP) using a new strategy. We identified key residues in access tunnels connecting the buried active site with bulk solvent by rational design and randomized them by directed evolution. The most active mutant has large aromatic residues at two out of three randomized positions and two positions modified by site-directed mutagenesis. These changes apparently enhance activity with TCP bydecreasing accessibility of the active site for water molecules, thereby promoting activated complex formation. Kinetic analyses confirmed that the mutations improved carbon-halogen bond cleavage and shifted the rate-limiting step to the release of products. Engineering access tunnels by combining computer-assisted protein design with directed evolution maybe a valuable strategy for refining catalytic properties of enzymes with buried active sites.
Document Type: Article
Language: English
Keywords Plus: SPHINGOMONAS-PAUCIMOBILIS UT26; HALOALKANE DEHALOGENASE; DIRECTED EVOLUTION; CYTOCHROME P+50S; HETEROLOGOUS EXPRESSION; XENOBIOTIC COMPOUNDS; CATALYTIC MECHANISM; ESCHERICHIA-COLI; ENZYME; SPECIFICITY
Reprint Address: Damborsky, J (reprint author), Masaryk Univ, Fac Sei, Loschmidt Labs, Inst Expt Biol, CS-61137 Brno, Czech Republic_
Cited by: 6
This article has been cited 6 times [frDm Web Df Science).
Kourist R, Jochens H, Bartsch S, et al. The alphaJbeta-Hydrolase Fold 3DM Database (ABHDB) as a Tool for Protein
Engineering CHEMBIOCHEM 11 12 1635-1643 AUG 16 2010
Stsiapanava A, DohnalekJ, GaviraJA, etal. Atomic resolution studies of haloalkane dehalogenases Dha.A0+, DhaA14 and DhaA15with engineered access tunnels ACTA CRYSTALLOGRAPHICA SECTION D-BIOLOGICAL
CRYSTALLOGRAPHY 66 962-969 Part 9 SEP2010
Brouk M, Deny NL, Shainsky J, et al. The influence of key residues in the tunnel entrance and the active site on activity and selectivity of toluene-4-monoosygenase JOURNAL OF MOLECULAR CATALYSIS B-ENZYMATIC 66 1-2 72-80 SEP 2010
[ view all 6 citing articles ]
Create Citation Alert
Related Records:
Üvod do bioinformatiky, bioinformaticke databäze
□ EMBL-Bank
□ DDBJ
□ Anotované kolekce veřejně dostupných nukleotidových sekvencí
□ Data získaná z genomových center a odborných pracovišť
□ Každodenní vzájemná synchronizace nových a aktualizovaných dat
□ "Accession number" - jedinečný identifikátor záznamu, ve všech třech databázích
Úvod do bioinformatiky, bioinformatické databáze
Databáze nukleotidových sekvencí
□ GenBank
Založena v roce 1982, provozována NCBI
Přístupná prostřednictvím vyhledávacího systému
Entrez nebo systému DBGET
Obsahuje více než 187.000.000 sekvencí (2015)
Nové sekvence možné vložit pomocí Banklt nebo Sequin
NCBI
Úvod do bioinformatiky, bioinformatické databáze
Databáze nukleotidových sekvencí
□ EMBL-Bank
Založena v roce 1980, Provozována EBI
Přístupná prostřednictvím vyhledávacího systému SRS či DBGET
Obsahuje více než 608.000.000 sekvencí (2015)
Nové sekvence možné vložit pomocí Webin nebo Sequin
n
EMBL
NUCLEOTIDE 5EQUENCE
Úvod do bioinformatiky, bioinformatické databáze
Databáze nukleotidových sekvencí
1
□ DNA Data Bank of Japan (DDBJ)
■ Založena v roce 1984, provozována National Institute of Genetics
■ Obsahuje více než 253.000.000 sekvencí (2015)
■ Nové sekvence možné vložit pomocí Sakura nebo Sequin
(3-* DDBJ
DNA Datu Bank uf Japan
Úvod do bioinformatiky, bioinformatické databáze
□ Hlavička
■ Základní informace o záznamu
■ Lokus, definice, přístupový kód, klíčová slova, organizmus, reference,..
X.autotrophicus haloalkane dehalogenase (dhlA) gene, complete cds	
Comment  Features Sequence	
LOCUS	XAADHLA                                3041 bp        DNA         linear      BCT 15-FEB-1996
DEFINITION	X.autotrophicus haloalkane dehalogenase   (dhlA)   gene,   complete cds.
ACCESSION	M26950
VERSION	M26950.1 GI:155347
KEYWORDS	haloalkane dehalogenase.
SOURCE	Xanthobacter autotrophicus
ORGANISM	Xanthobacter autotrophicus
	Bacteria;  Proteobacteria;  Alphaproteobacteria; Rhizobiales;
	Xanthobacteraceae; Xanthobacter.
REFERENCE	1    (bases 1 to 3041)
AUTHORS	Janssen,D.B.,  Pries,F.,  van der Ploeg,J.,  Kazemier,B., Terpstra,P.
	and WitholtfB.
TITLE	Cloning of 1,2-dichloroethane degradation genes of Xanthobacter
	autotrophicus GJ10 and expression and sequencing of the dhlA gene
JOURNAL	J.  Bacteriol.  171   (12),   6791-6799 (1989)
PUBMED	2687254
COMMENT	Draft entry and computer readable copy of sequence   [1] kindly
	provided by D.B.Janssen, ll-AUG-1989.
□ Charakteristiky
■ Popis jednotlivých oblastí genu
■ Promotor, RBS (ribozóm vazebné místo), CDS (kódující sekvence),...
qene	918. .1931
	/gene^'dhlA"
promoter	918 . .946
	/gene="dhlA"
	/note=" putative11
promoter	945..974
	/gene="dhlA"
	/note=" putative11
RBS	986..998
	/gene="dhlA"
CDS	999. .1931
	/gene^'dhlA"
	/codon start=l
	/transl table=ll
	/product=11haloalkane dehalogenase"
	/protein id="AAA88691.1"
	/db_xref="GI:155348"
	/translation="MIWAIRTPDQRFSWLDQYPFSPNYLDDLPGYPGLRAHYLDEGWS
	DAEDVFLCLHGEPTWSYLYRfMIPVFAESGARVIAPDFFGFGKSDKPVDEEDYTFEFH
	RWFLLALIERLDLRWITLVVQDWGGFLGLTLPMADPSRFKRLIIMNACLMTDPVTQPA
	F SAFVTQPAD GF TAWKYDL YTPS DLRL DQFMKRWAPTLTEAEASAYAAPF PD T SYQAG
Úvod do bioinformatiky, bioinformatické databáze
□ Charakteristiky
FEATURES
source
CDS
gene
promoter
promoter
RBS CDS
Location/Qualifie rs 1..3041
/organism="Xanthobacter autotrophicus"
/mol_type="genomic DNA"
/strain="GJ10"
/db xref="taxon:280"
complement(316..924)
/note="ORF 1; putative"
/codon_start=l
/transl table=ll
/product="unknown protein"
/protein id="AAA88690■1"
/db_xref="GI:1197026"
/translation="MSTFFEPEWGMKQWAKTERILDVALELLETEGEFGLTMRQVATQ
ADMSLSHVQYYFKSEDLLLVAMADRYFQRCLTTMAEHPPLSAGRDQHAQLRALLRELL
GHGLEISEMCRIFREYWAIATRWETVHGY LKS YYRD LAEVMAEKLAPLAS S EKALAVA
VSLVIPYVEGYSVTAIAMPESIDTISETLTWVVLEQLRISHS"
918..1931
/gene="dhlA"
918. .946
/gene="dhlA"
/note="putative"
945..974
/gene="dhlA"
/note="putative"
986..998
/gene="dhlA"
999. . 1931
/gene="dhlA"
/codon_start=l
/transl table=ll
/product="haloalkane dehalogenase" /protein id="AAA88691■1" /db_xref="GI:1553 48"
/translation="MIWAIRTPDQRFSMLDQYPFSPMYLDDLPGYPGLRAHYLDEGMS DAEDVFLCLHGEPTWSYLYRKMIPVFAESGARVIAPDFFGFGKSDKPVDEEDYTFEFH RNF LLALIERLD LRHIT LVVQDWGGF LG LTLPMADP S RFKRLIIMWAC LMTDPVTQPA FSAFVTQPADGFTAWKYDLVTP S DLRLDQFMKRWAPT LTEAEASAYAAPFPDT SYQAG VRKFPKMVAQRDQACIDISTEAISFWQBDWMGQTFMAIGMKDKLLGPDVMYPMKALIH GCPEPLEIADAGHFVQEFGEQVAREALKHFAETE"_
Úvod do bioinformatiky, bioinformatické databáze
□ Sekvence
ORIGIN 1 bp upst
1 atgataaatg 61 agccccaact 121 gagggcaatt 181 tacctgtatc 241 gacttttttg 301 tttcaccgca 361 gtcgttcagg 421 ttcaagcgcc 481 tttagcgcct 541 acgccatcag 601 gctgaggcct 661 aagtttccca 721 atttcgttct 781 aaattgctgg 841 cccctcgaaa 901 gaggccctga
//
ream of BamHI site,
caattcgcac acctggacga ctgacgctga gcaagatgat gattcggaaa acttcctget actggggegg tgatcatcat ttgtcaccca acctgegect ccgcgtatgc agatggtcgc ggcagaacga gaeeggaegt tageggaege aacactttgc
cccggaccaa cctccccggc agacgttttt cceggtattt atccgacaag tgcactaatc atttttgggg gaacgeetgc gectgeggat tgaccagttc tgegeetttc gcaacgcgac ctggaatggc catgtatcct tggecatttc cgagacagaa
cgettcagca taccegggat ctctgccttc gctgaatcag ccagtagacg gaaeggettg ctgaccttac ttgatgaccg ggctttaccg atgaagcgtt cctgacactt caggectgca cagaccttea atgaaggege gtacaggagt tag
atctcgatca tgegggcaca atggegagee gcgcacgagt aagaagacta acttgcgcaa egatggcega acccggtcac cctggaaata gggcgcccac cctatcaggc tcgacatttc tggecattgg tcattaatgg ttggegagea
gtatccgttc ctacctcgac cacctggagt tattgegeca caccttcgaa cattacgetg cccttcccgc ccagcctgcg cgatctggtt actgaccgaa tggtgtaege aaccgaagcg catgaaagac ctgcccggaa agtggctege
Úvod do bioinformatiky, bioinformatické databáze
□ UniProtKB
□ nr Protein Database
NCB1
Úvod do bioinformatiky, bioinformatické databáze
□ UniProtKB
Spolupráce EBI, Swiss Institute of Bioinformatics a Protein Information Resource
Centrální úložiště proteinových sekvencí a funkčních informací Kvalitní anotace - informace o funkci proteinu a jednotlivých aminokyselin, experimentální informace, biologické ontológie, klasifikace, odkazy do dalších databází Indikace kvality anotace (manuální vs. automatická)
o
Úvod do bioinformatiky, bioinformatické databáze
□ UniProtKB/Swiss-Prot
■ Vysoká kvalita manuálních anotací
■ © Manuální anotace - spolehlivé informace
■ © 549.000 sekvencí (2015)
UniProtKB
Protein knowledgebase
UniProtKBíSwiss-Prot
Reviewed
Manual annotation
U n i P rotKB/TrEM B L
Unreviewed
Automatic annotation
□ UniProtKB/TrEMBL
■   Sekvence konceptuálni translací kódujících sekvencí EMBL-Bank
© Automatická anotace - nižší kvalita, možnosti chyb © 50.825.000 sekvencí (2015)
Úvod do bioinformatiky, bioinformatické databáze
□ Názvy a zdroj proteinu
□ Vlastnosti proteinu
	
[Names and origin	Hide | Top J
Protein names	Recommended name: Haloalkane dehalogenase EC=3.8.1.5 Alternative name(s): 1,3,4,6-tetrachloro-1,4-cyclohexadiene hydrolase 1,4-TCDN chlorohydrolase
Gene names	Name: linB
Organism	Pseudomonas paucimobilis (Sphingomonas paucimobilis)
Taxonomie identifier	13689 [NCBI]
Taxonomie lineage	Bacteria > Proteobacteria > Alphaproteobacteria > Sphingomonadales > Sphingomonadaceae > Sphingomonas
[ P rote inattributes	Hide | Top J
Sequence length	296 AA.
Sequence status	Complete.
Sequence processing	The displayed sequence is further processed into a mature form.
Protein existence	Evidence at protein level.
Úvod do bioinformatiky, bioinformatické databáze
□ Obecná anotace
	
[General annotation (Comments)	Hide | Top J
Function	Catalyzes hydrolytic cleavage of carbon-halogen bonds in halogenated aliphatic compounds, leading to the formation of the corresponding primary alcohols, halide ions and protons. Has a broad substrate specificity since not only monochloroalkanes (C3 to C10) but also dichloroalkanes (> C3), bromoalkanes, and chlorinated aliphatic alcohols were good substrates. Shows almost no activity with 1,2-dichloroethane, but very high activity with the brominated analog. Is involved in the degradation of the important environmental pollutant gamma-hexachlorocyclohexane (lindane) as it also catalyzes conversion of 1,3,4,6-tetrachloro-1,4-cyclohexadiene (1,4-TCDN) to 2,5-dichloro-2,5-cyclohexadiene-1,4-diol (2,5-DDOL) via the intermediate 2,4,5-trichloro-2,5-cyclohexadiene-1-ol (2,4,5-DNOL). (hamap mf_01231 )
Catalytic activity	1-haloalkane + H2O - a primary alcohol + halide. (hamapmfj^j 1,4-TCDN + 2 H2O - 2,5-DDOL + 2 chloride. (hamap mf.o^si)
Enzyme regulation	Competitively inhibited by the key pollutants 1,2-dichloroethane (1,2-DCE) and 1,2-dichloropropane (1 "> D^P) f hamap mf_01231 )
Pathway	Xenobiotic degradation; gamma-hexachlorocyclohexane degradation. CHAMAP mf_oi23-i)
Subunit structure	Mr>nr>mcr (hamap MFJ1231)
Subcellular location	Periplasm. ief>0
Induction	Constitutively expressed. <-HAMAP MF-01231)
Miscellaneous	Is not N-terminally processed during export, so it may be secreted into the periplasmic space via a hitherto unknown mechanism. Chamap MFJ1231)
Sequence similarities	Belongs to the haloalkane dehalogenase family. Type 2 subfamily.
Biophysicochemical properties	pH dependence: Optimum pH is 8.2.'HAMAP MF-01231 >
Úvod do bioinformatiky, bioinformatické databáze
□ Ontológie
	
■ Ontologies	
Keywords Biological process	Detoxification
Cellular component	Periplasm
Molecular function	Hydrolase
Technical term Gene Ontology (GO) Biological process	3D-structure Direct protein sequencing response to toxin Inferred from electronic annotation. Source: UniProtKB-KW
Cellular component	periplasmic space Inferred from electronic annotation. Source: UniProtKB-SubCell
Molecular function Complete GO annotation...	haloalkane dehalogenase activity Inferred from electronic annotation. Source: HAMAP
Úvod do bioinformatiky, bioinformatické databáze
□ Anotace sekvence
Sequence annotation (Features)
Feature key
Molecule processing
Position(s)   Length Description
Graphical view
Feature identifier
r	Initiator methionine	_1_	_1_	Removed irjüji^lD	
□	Chain	2-296	295		
Sites
r r r r r
Active site Active site Active site Binding site Binding site
Natural variations
108 132 272
38
109
1 Nucleophile
1   Proton donor' hamap mf_oi23i ; 1   Proton acceptor(hämäpmfTmH?)
1      Halid^ ( hamap mf_01231 )
1      Halidft CHňMAF> mf_01231]
■	Natural variant	81	1	A	-Tin strain: B90.
■	Natural variant	112	1	A	- V in strain: B90.
■	Natural variant	134-135	2	IA	- VTm strain: B90
■	Natural variant	138	1	I - L in strain: B90.	
r	Natural variant	247	1	A	— H in strain: B90.
r	Natural variant	253	1	M	- I in strain: B90.
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v UniProtKB
□ Anotace sekvence
Natural variations
■ Natural variant
■ Natural variant I Natural variant
Natural variant
Natural variant
Natural variant Experimental info
81
112
134-135
138
247
253
A — Tin strain: B90.
A - V in strain: B90. IA - VTin strain: B90. I — L in strain: B90. A - H in strain: B90.
M
in strain: B90.
r	Mutagenesis	38	1   N — D, E, F or Q: Loss of activity. C^IZJ		—1-	
r	Mutagenesis	108	1	D - A: Loss of activity. C^iD	-i-	
r	Mutagenesis	108	1	D — N: 58% of wild-type activity.	--	
r	Mutagenesis	109	1	W — L: Loss of activity. 1™JJ	-1-	
r	Mutagenesis	132	1	E — Q: Loss of activity. C^lU	--	
r	Mutagenesis	151	1	F -» L, W or Y: Increase in activity. (Ref7J		
r	Mutagenesis	169	1	F — L: 31% of wild-type activity. C^tz)	--	
r	Mutagenesis	244	1	E — Q: 38% of wild-type activity. tM5J	-1-	
r	Mutagenesis	272	1   H — A: Loss of activity. (ns«)		-1-	
Úvod do bioinformatiky, bioinformatické databáze
□ Sekvence
Sequences
Sequence
Length    Mass (Da) Tools
□    P51698-1 [UniParc].
Last modified January 23, 2007. Version 4. Checksum: 6EEE011B157DBAE1
FASTA      296     33,108 [tibsT
10 20 30 40 50 60
MSLGAKPFGE KKFIEIKGRR MAYIDEGTGD PILFQHGNPT SSYLURNIHP HCAGLGRLIA
70 80 90 100 110 12 0
CDLIGMGDSD KLDPSGPERY ATAEHRDTLD ALWEALDLGD RWLWHDUG SALGFDWARR
130 140 150 160 170 180
HRERVQGIAT MEAIAMPIEW ADFPEQDRDL FQAFRSQAGE ELVLQDNVFV EQVLPGLILR
190 2 00 210 220 23 0 2 40
PLSEAEMAAY REPFLAAGEA RRPTLSWPRQ IPIAGTPADV VAIARDTAGW LSESPIPKLF
2 50 2 60 2 70 2 80 2 90
INAEPGALTT GRMRDFCRTW PNQTEITVAG AHFIQEDSPD EIGAAIAAFV RRLRPA
Hide
go
Úvod do bioinformatiky, bioinformatické databáze
□ Reference
[1]    "Cloning and sequencing of a dehalogenase gene encoding an enzyme with hydrolase activity involved in the degradation of gamma-hexachlorocyclohexane in Pseudomonas paucimobilis."
Nagata Y., Nariya T., Ohtomo R., Fukuda M., Yano K., Takagi M
J. Bacteriol. 175:6403-6410(1993) [PubMecl: 7691794] [Abstract]
Cited for: NOCLEOTIDE SEQUENCE [GENOMIC DNA], PROTEIN SEQUENCE OF 2-16.
Strain: UT26.
[2]    Nagata Y., Nariya T., Ohtomo R., Fukuda M., Yano K., Takagi M. Submitted (MAR-1999) to the EMBL/GenBank/DDBJ databases
CjtedjBI SEQUENCE REVISION.
[3]    "Cloning and characterization of lin genes responsible for the degradation of hexachlorocyclohexane isomers by Sphingomonas paucimobilis strain BOO."
Kumari R., Subudhi S., Suar M., Dhingra G., Raina V., Dogra C, Lai S., van der Meer J.R., Holliger C, Lai R. Appl. Environ. Microbiol. 68:6021-6028(2002) [PubMed: 12450824] [Abstract] Cited for: NUCLEOTIDE SEQUENCE [GENOMIC DNA]. Strain: B90.
[4]    "Two different types of dehalogenases, LinA and LinB, involved in gamma-hexachlorocyclohexane degradation in Sphingomonas paucimobilis UT26 are localized in the periplasms space without molecular processing."
Nagata Y., Futamura A., Miyauchi K., Takagi M
J. Bacteriol. 181:5409-5413(1999) [PubMed: 10464214] [Abstract]
Cited for: PROTEIN SEQUENCE OF 2-10, SUBCELLULAR LOCATION.
[5]    "Purification and characterization of a haloalkane dehalogenase of a new substrate class from a gamma-hexachlorocyclohexane-degrading bacterium, Sphingomonas paucimobilis UT26."
Nagata Y., Miyauchi K., Damborsky J., Manova K., Ansorgova A., Takagi M. Appl. Environ. Microbiol. 63:3707-3710(1997) [PubMed: 9293022] [Abstract] Cited for CHARACTERIZATION. Strain: UT26.
□ nr Protein Database
■ Databáze proteinových sekvencí NCBI
■ Kolekce sekvencí získaných konceptuálni translací kódujících oblastí GenBank/EMBL-Bank/DDBJ a dále sekvencí z UniProtKB, PRF a RCSB PDB
■ © většinou automatická anotace - nižší kvalita, možnost chyb
■ © chybí indikace původu anotace
■ © více než 25.000.000 sekvencí (2015)
Úvod do bioiinformatiky, bioinformatické databáze
□ Prostá sekvence
DQLTEEQIAEFKEAFSLFDK
Úvod do bioinformatiky, bioinformatické databáze
□ Prosta sekvence
□ GenBank
LOCUS
DEFINITION
ACCESSION EASE COUNT ORIGIN
1
61 121 181
AAU03518 237 bp        DNA PLN Ü4-FEB-1995
Aspergillus awamori internal transcribed spacer 1  (ITS1)  and 18S rRNA and 5.8S rRNA genes, partial sequence. U03518
41 a 77 c 67 g 52 t
aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc
Üvod do bioinformatiky, bioinformaticke databäze
□ Prosta sekvence
□ GenBank
□ EMBL
ID
XX AC XX DE DE XX SQ
AA03518
U03518;
Standard; DNA; FUN;  237 EP.
Aspergillus awamori internal transcribed spacer 1  (ITS1) and 18S rRTJA and 5.8S rKNA genesr partial seguence.
Sequence 237 EP;  41 A;  77 C;  67 G;  52 T;  0 other;
aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc
60 120 180 237
Üvod do bioinformatiky, bioinformaticke databäze
□ Prostá sekvence
□ GenBank
o
□ EMBL
□ FASTA
4
>giI155348|gb|aaa88691.1|  haloalkane dehalogenase
x,inairtpdqrfsnldqypfspnylddlpgypglrahyldegnsdaedvf äesgarviapdffgfgksdkpvdeedytfefhrnfllälierldlrnitl" fkrliimnaclmtdpvtqpafsafvtqpadgftawkydlvtpsdlrldqf: pdt s yqagvrkf pkmvaqrdqacidisteais fwqndwngqt fmaigmkd: pleiadaghfvqe fgeqvarealkhfaete
Nejčastěji používaný formát
Úvod do bioinformatiky, bioinformatické databáze
□ Worldwide Protein Data Bank (wwPDB)
■ Světový depositář proteinových struktur, obsahuje rovněž struktury nukleových kyselin a biomolekulárních komplexů
■ Research Collaboratory for Structural Bioinformatics (RCSB PDB), Protein Data Bank Europe (PDBe), Protein Data Bank Japan (PDBj), Biological Magnetic Resonance Data Bank (BioMagResBank)
■ Obsahuje více než 84.000 struktur (2012)
■ Struktury získané rentgenovou krystalografií (88%) a nukleární magnetickou rezonancí (11 %)
SPDB
WORLDWIDE
PROTEIN DATA BANK
□ Entrez Genome
□ Ensembl
□ Genomes OnLine Database GOLD
□ Informace o zdrojovém organizmu
□ Nukleotidové a proteinové sekvence
□ Geny v kontextu genomu
□ Anotace a analýza genomů
Úvod do bioinformatiky, bioinformatické databáze
□  Přehled prokaryotických genomů
Overview [8348]	Eukaryotes [2215]	Prokaryotes [14202]	Viruses [3212]
First     Previous Shown: 1 -100 out of 1309 items Next        Last Download selected records
Organism/Name	BioProject	Group	SubGroup	Size	GC%	Chromosomes		WGS	Scaffolds	Gene	Protein	Release	Modify	Status
		Actinobacte »	— All Actint t	(Mb)		RefSeq	INSDC					Date	Date	All
														
Acaricormes phytoseiuli DSM 14247	PRJNA174970	Actinobacteria	Actinobacteria											No data
Acidimicrobium ferrooxidans DSM 10331	PRJNA59215 PRJNA29525	Actinobacteria	Actinobacteria	2.16	68.30	NC_013124.1	CP001631.1			2089	1964	2009/08/18	2012/01/30	Complete
Acidothermus cellulolyticus 11 B	PRJNA58501 PRJNA1f3097	Actinobacteria	Actinobacteria	2.44	66.90	NC_008578.1	CP000481.1	-	-	2217	2157	2006/11/09	2012/01/24	Complete
Actinoalloteichus spitiensis RMV-137S	PRJNA76807	Actinobacteria	Actinobacteria	5.71	72.40			AG VXD 1				2011/12/20	2012/05/31	Scaffolds or contigs
Actinobaculurn sp. oral taxon 1S3 str. F0552	PRJNA173932	Actinobacteria	Actinobacteria											No data
Actinobaculurn rnassiliae ACS-171-V-Col2	PRJNA52091	Actinobacteria	Actinobacteria											SRA or Traces
Actinobaculurn schaalii	PRJNA52093	Actinobacteria	Actinobacteria	-	-	-	-	-	-	-	-	-	-	No data
Úvod do bioinformatiky, bioinformatické databáze
□  Přehled prokaryotických genomů
Overview [8348]	Eukaryotes [2215]	Prokaryotes [14202]	Viruses [3212]
First     Previous Shown: 1 -100 out of 1309 items Next        Last Download selected records
Organism/Name	BioProject	Group	SubGroup	Size	GC%	Chromosomes		WGS	Scaffolds	Gene	Protein	Release	Modify	Status
		Actinobacte »	— All Actint t	(Mb)		RefSeq	INSDC					Date	Date	All
														
Acaricornes phytoseiuli DSM 14247	PRJNA174970	Actinobacteria	Actinobacteria											No data
Acidimicrobium fermoxidans DSM	PRJNA59215 PRJNA29525	Actinobacteria	Actinobacteria	2.16	68.30	NC_013124.1	CP001631.1			2089	1964	2009/08/18	2012/01/30	Complete
Acidotherrmus cellulolyticus 11 B	PRJNA58501 PRJNA16097	Actinobacteria	Actinobacteria	2.44	66.90	NC_008578.1	CP000481.1	-	-	2217	2157	2006/11/09	2012/01/24	Complete
Actinoalloteichus spitiensis RMV-137S	PRJNA76807	Actinobacteria	Actinobacteria	5.71	72.40			AG VXD 1				2011/12/20	2012/05/31	Scaffolds or contigs
Actinobaculurn sp. oral taxon 1S3 str. F0552	PRJNA173932	Actinobacteria	Actinobacteria											No data
Actinobaculurn rnassiliae ACS-171-V-Col2	PRJNA52091	Actinobacteria	Actinobacteria											SRA or Traces
Actinobaculurn schaalii	PRJNA52093	Actinobacteria	Actinobacteria	-	-	-	-	-	-	-	-	-	-	No data
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v Entrez Genom
□ Informace o genomu
Organism Overview; G on on: Proj e ct Rep :< rt; Genome A.nnotati on Report
Acidothermus cellulolyticus 11B
Thermotolerant cellulolytic organism
Lineage: Bacteria[3351]; Actinobacteria[547]; Actinobacteria[547]; Actinobacteridae[502]; Actinomycetales[485]; Frankineae[11]; Acidothermaceae[1]; Acidothermus[1]; Acidothermus cellulolyticus[1]; Acidothermus cellulolyticus 11B[0]
Acidothermus cellulolyticus strain 11B. This strain (11B; ATCC 43068) is the type strain for the species. The genome sequence from this organism will provide information on the regulation and production of potentially useful enzymes.
@ Genome Sequencing Projects
♦ Chromosomes [1] \ ■ Scaffolds or contigs [
* 3RA or Traces TOO ♦ No data [
Organism	BioProject	JAssernbly	Status	Chrs	Size (Mb)	GC%	Gene	Protein
acidothermus cellulolyticus 11B	PRJNA58501, PRJNA1 6097	ASM1 502v1	♦	1	2.44	66.9	2,217	2,157
@ Genome Region
1	:00 K        100 K	600 K       j 300 K	1 M          j 1 200 K    1 1,400 K    11,600 K    11,300 K     2 Fl
:	1 1MM M 1 IIP *        • 4   •  II f 1 1*1 *   1 1	íl   p i i i i li i i     i*   11 m k          i t	II       IIP        M   M II IM   Ml   M 1 MM    1        fill         III 1 II      1          IIIIIIPIIIPII              tH If \                         I    ■   E                         1*11                           1 i 1                   I 1 1 1
Go to nucleotide  Graphics  F A STA GenBank
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v Entrez Genom
□ Informace o genomu
Organism Overview; Genome...Project Report; Genome A.nnotation Report
Acidothermus cellulolyticus 11B
Thermotolerant cellulolytic organism
Lineage: Bacteria[3351]; Actinobacteria[547]; Actinobacteria[547]; Actinobacteridae[502]; Actinomycetales[485]; Frankineae[11]; Acidothermaceae[1]; Acidothermus[1]; Acidothermus cellulolyticus[1]; Acidothermus cellulolyticus 11B[0]
Acidothermus cellulolyticus strain 11B. This strain (11B; ATCC 43068) is the type strain for the species. The genome sequence from this organism will provide information on the regulation and production of potentially useful enzymes.
@ Genome Sequencing Projects
♦ Chromosomes [1] \ ■ Scaffolds or contigs [
* 3RA or Traces TOO ♦ No data [
Organism	BioProject	JAssembly	Status	Chrs	Size (Mb)	GC%	Gene	Protein
acidothermus cellulolyticus 11B	PRJNA58501, PRJNA1 6097	ASM1 502v1	♦	1	2.44	66.9	2,217	2,157
@ Genome Region
Go to nucleotide
1	:00 K        100 K	600 K       j 300 K	1 M          j 1 200 K    1 1,400 K    11,600 K    11,300 K     2 Fl
:	1 1MM M 1 IIP *        • 4   •  II f 1 1*1 *   1 1	íl   p i i i i li i i     i*   11 m k          i t	II       IIP        M   M II IM   Ml   M 1 MM    1        fill         III 1 II      1          IIIIIIPIIIPII              tH If \                         I    ■   E                         1*11                           1 i 1                   I 1 1 1
Graphics IFASTA GenBank
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v Entrez Genom
□ Grafické znázornění genomu
NC_013209.1 [2,907,495 bases)						
^   ^ Sequence | [_J Set Origin | ^ Views & Tools-						Ý Markers
1         100 K      200 K      VK K      400 h       501] ft      SOO K      700 K      »00 K	Ho Q		1 hl       1,100 K    1,200 K 1	,S0O K    1,+00 K	1,500 K    1,600 K    1,700 K    1,800 K    1,900 K	2 li      2,100 K   2,200 K 2,J
11,..1... , 11,, . 1 . .,, 1 111,1. .. , 1, , , , 1 . . . , 1 , .......     .  ■    ■■■     .......... 1 pf                            1                                     ||     M          •                                                                          1            1             1      1 : ■	■ ■ ■ ■ i *	h ■ ■ i ■	j i i  ,  ,  1 , . . . J , , i ■      I       I»    >!■■■ ■ *      1                   i* PI » ■ P	, I . . . .j . , ■ PI      P   ■   ■ ■ * 1 *      *      t 4P i	. 1 .... 1 .... 1  .... j .... 1 . . ■         4    11        ■■■             ■■■      »III»»» 1 ■            ■          *               1               f           «*          1         f * f                                    t          Mt t 1 f	.. 1 .... j  .... 1 ... . ■   ■      1    III   III   1 III                  I h ■ Piji 4 i
853,430 : 944,630 [36,151 bases shown, positive strand}						
[J * 1 2»o Sequence    Ai Flip Strands        €^ (fljf \ sk\ ^ T°°IE						
8S0 K          8GSK          870 K          875 K          380 K	885 K		890 K          995 K	900 H	905 K          910 K          91S K	920 K          925 K
1' i.........i.........i.........i.........i.........i.........i.........i.........i.........i.........i.........i.........i.........r ■						
:ompieie genome					- Sequence NC_013209.1:	Acetocacler pasteurianui
- Genes
AFA01_0633C__ VP_OO31B7301,1_t
E_APA01 06260 CaVF_003187351.1
ÄPM1 06320 I VP 0031373S0.1I
■ ■AFA01_06340
■ ■VP_003107363.1
APA01 06390 f__ VP 003187367. n
AFA01J)853Q | VP 003167361 II
|AJ>tt1 06350 IVP 003107303.1
|YP_003187370.1
APA01_08540| VP 0C31G73G2.il
|APAO
|-rv\
i_Q655C
-Tyr
APAOl 08570 VP 003107364.1
APAOl 03620 ___ VP_003137339.1
APA01 0869Of_ VF 003187396.1 ■
APAOl _083201 VP 003137409.11
*PAfli 06250 h'P 003187353.1
ruaA ]
VP_0031373S9.il
APAOl 06360 ■ VP_C03137364.1__
APA01_08370| VP_003187365.11
HAPAOI 03400 ■ VP_003167368.1
APAOl _08520I VP_003137330.11
__|AFA01_08650 __|VP_003137392.1
I APAOl 03630 K IVP 003137330.1 E
APAOl 03S00 ____ VP 003137407 1T»
1APA01_08750 I VP_003137402.1
[APAOl 06740 IVP 003187401 1
APAOl 03370 ■ YP_0ÜG187414.1
APAOl _08880] VP 003137415.11
APAOl 083501 VP 003167412.11
I APA01_08610 |VP_0C3137360.1
APAOl _06270] >_C03187355.1]
|APA01_06300 IYP 003187358.1
APAOl .064501 VP 003187373.11
VP 003187383.11
;.ApAj-iij-|Fiwi IVP 003187388.1
IAPŕO1_03660 ]VP_003187333.1
APA01JJ8810 E3 VP_003167403.1 Q
■purfJ
■ VP 003187404.1
AP/ VP oo
A.patj VP 003
Úvod do bioinformatiky, bioinformatické databáze
□ Anotace eukaryotickych genomü
15
Genes
known Genes
Repeats
Variations
Üvod do bioinformatiky, bioinformaticke databäze
99988555544262669998885
2919
□ Seznam dokončených a probíhajících genomových projektů
Complete Published Genome Projects: 1375
Archaeal: 94    1"^" Bacterial: 1148 Eukaryal: 133
< first <prev   1   2   3   4   5   next > last >> 100
ORGANISM	DOMAIN	INFORMATION	SIZE	CHROM š	PLASM 1	GC%
Saccharomyces cerevisiae S233c	H	FUNGI-ASCOMYCOTA Taxonomy Entrez		16		
Ferrimonas balearica PAT; DSM 9799	_l	PROTEOBACTERIA-GAMMA Taxonomy Entrez GEBA	4279 Kb 3947 orfs	1		50%
Vulcanisaeta distributa IC-017, DSM 14429	□	CRENARCHAEOTA-THERMOPROTEI Taxonomy Entrez Isolation GEBA	2374 Kb 2592 orfs MAP	1		45.4%
Halomonas slongata DSM 2531		PROTEOBACTERIA-GAMMA Taxonomy Entrez	4061 Kb 355S orfs MAP	1		63%
Methanoplanus petrolearius SEBR 4-847, DSM 11571	□	EURYARCHAEOTA-METHANOMICROBIA Taxonomy Entrez Isolation GEBA	2843 Kb 2801 orfs MAP	1		50%
Sulfurimonas autotrophica OK10, DSM 16294	□	PROTEOBACTERIA-EPSILON Taxonomy Entrez Isolation	2153 Kb 2220 orfs	1		35.2%
Spirochaeta thermophila DSM S192		SPIROCHAETES Taxonomy Entrez	2472 Kb	1		52%
Dickeya dadantii 3937	a	PROTEOBACTERIA-GAMMA Taxonomy Entrez Plant Pathogen Article	4922 Kb	1		
SEQUENCING CENTER GENOME DATABASE
PUBLICATION
Saccharomvces Genome Database
DOE Joint Genome Institute DSMZ
DOE Joint Genome Institute DSMZ
Max-Planck Institute
DQE Joint Genome Institute DSMZ
DQE Joint Genome Institute DSMZ
Goettinqen Genomics Laboratory
J. Craig Venter Institute Univ of Wisconsin
Univ of Wisconsin
Unpublished 2010-09-24
Unpublished 2010-09-22
Environmental Microbiology in press 2010-09-17
Unpublished 2010-09-17
Unpublished 2010-09-10
Unpublished 2010-09-10
Woyke T
Kunte,H.J
PROJECT TYPE DISTRIBUTION
SEQUENCING STATUS DISTRIBUTION
PHYLOGENETIC DISTRIBUTION
Úvod do bioinformatiky, bioinformatické databáze
□ Chyby v sekvencích
□ Chyby a nepřesnosti v anotacích
□ Propagace chyb během automatických anotací
Úvod do bioinformatiky, bioinformatické databáze
□ Textové prohledávání
□ Sekvenční prohledávání
vložení dat
Entrez, The Life Sciences Search Engine
PubMed
All Databases
Human Genome
GenBank
Map Viewer
BLAST
Search across databases |iinb
Jl^L^J Help
,   tTi  PubMed: biomedical literature citations and m l-j        .       ..    . .
44   (^j  a^s|;r-act:s LZJ   none  | |   Books: online books
79 PubMed Central: free, full text journal articles (D   none OMIM: online Mendelian Inheritanct
;-gi I115Í31735 I gb|ABI33ili .11 LirE [ X anthem cm i j jp. ICHLÍ] HILCAH^&naO-IEIK&PIHiiířlIIE&T&IIPILFQIH&HPT! S VUHEHIHPHC A&L&ELI ACULIGMHJSD KLTJPS &PEPXA¥.mfPIim)aiJHEm^ ADFPE UCPEME QSrPS q&&EELm.íIIHOTVEtfJIJ&LIU^ IPIACTPAEWTO^TCA^SESPIPra^Il^^ none  [W  Site Search: NCBI web and FTP sites d]   none f=TT7 OMIA: Online Mendelian Inheritanct EICAAIAATVEP.
£^ Nucleotide: sequence database (includes
GenBank)
39 '#*#* Protein: sequence database 4   ||| Genome: whole genome sequences
0 ||none|	
0 [nonej	é'
m eh	
|T| [nonej	*>
■"iented clusters of
3D Domains: domains from Entrez
prohledání databáze
I- 1: ABI93216. Report LitiB rXaiithomonas...[gi: 115291795]
d 2: AAED5978. Report LitiB rSphingomona...ľjgi:37963683] >giI 37363683 IgblAÄE05378.11 LiriE [Sphingomomij piucimobilij] H3L(iAKr^(fĽKKFIĽIK(fEEHÄYII)E(fT(fI)PIIJOJ1&HPT3 3 YLHEHIHPIiCÄ&L&PlIÄCIILI 5UH)3D KLDP3 (rPĽEYTŕAIIríEElYLDMJWr^^ ÄDTPEOJIEDLrQŕniB Qň&r^m.niINOTraOJtflJ&LIL IPIA&TTÄIIWAIAPireAWffl^EBPIPHX^ EI GAAIAAFVEPUiPA
m
Úvod do bioinformatiky, bioinformatické databáze
□ SRS
□ DBGET
□ Integrují data z různých databází
□ Umožňují prohledání mnoha databází současně
□ Umožňují formulaci dotazů pomocí logických operátorů
Úvod do bioinformatiky, bioinformatické databáze
5
Textové prohledávání databází
□ Entrez
■ Vyhledávací systém pro databáze NCBI
■ Integruje data ze 40 různých databází, pouze NCBI
o
NCBI
HOME     SEARCH     SITE MAP
D-, Entrez, The Life Sciences Search Enginem
PubMed
_L
All Databases
Human Genome
GenBan
Map Viewer
BLAST
Search across databases linb
Help
■rta   PubMed: biomedical literature citations and m 44   W   abstracts ® 79          PubMed Central: free, full text journal articles (Zl none          Site Search: NCBI web and FTP sites (Zl	none           Books: online books (Zl none           OMIM: online Mendelian Inheritance in Man LZI none           OMIA: Online Mendelian Inheritance in Animals (Zl
	
Nucleotide: sequence database (includes ^ 45   •»  GenBank) U 39          Protein: sequence database (Zl 4       1   Genome: whole genome sequences (Zl	none   £^  UniGene: gene-oriented clusters of transcript q sequences none          CDD: conserved protein domain database (Zl 12          3D Domains: domains from Entrez Structure (Zl
Úvod do bioinformatiky, bioinformatické databáze
□ SRS
Vyhledávací systém pro databáze EBI
Umožňuje prohledávat i databáze jiných institucí, databáze
uživatelů či databáze výsledků vybraných výpočetních nástrojů
■ ■ ■ i
*■* *Sř * Rl •
ES-e'fE Search
All Databases
Databases Tools
EBI Groups Trainin
AboutUs Help
Quick Search
Library Page     Query Form
Tools
Results
Projects
Quick Text Search
Start a Permanent Project
Find : | Nucleotides T| matching : (EnterText Here
G0   Reset ® Give us
A:\an:;; iearc1 feedback
Views
Sil-: Irdcí #
Databanks
Search Tips
Úvod do bioinformatiky, bioinformatické databáze
□ DBGET
Vyhledávací systém pro databáze LinkDB
Umožňuje mj. prohledávat databázi metabolických drah KEGG
DBGET Database Links
Pathway —    Glycan UGAND Compound Reaction Enzyme
BREIE SSDB UGAND
PMD CurbBnnk
PubMed
LITDB
OMIM EPD
UiüProt       pdbstr        a a bukt
I / -
Prosit*     MotifDic P&«i
ßlorki      PreDom POINTS
Úvod do bioinformatiky, bioinformatické databáze
Ukázka textového prohledávání
□ Vyhledávání na základě klíčových slov
1258
152
96
Search across databases   mouse[ORGN] AND kinase AND (exons OR introns]   GO    Clear Help
Result counts displayed in gray indicate one or more terms not found
1258| IjjJ
312
PubMed: biomedical literature citations and abstracts
H^*)  PubMed Central: freej full text journal articles
Site Search: NCBI web and FTP sites
B C3
Books: online books
zM -ft
GMIM: online Mendelian Inheritance in Man
none
□ MIA: online Mendelian Inheritance in Animals
152
Nucleotide: Core subset of nucleotide sequence records
IT] EST: Expressed Sequence Tag records
121   }Q*   GSS: Genome Survey Sequence records
m
961 ■t*-* Protein: sequence database
none
dbGaP: genotype and phenotype
®
®
ryj UniGene: gene-oriented clusters of
'—' *      transcript sequences
none
none
•0
CDD: conserved protein domain database
3D Domains: domains from Entrez Structure
Úvod do bioinformatiky, bioinformatické databáze
□ Vyhledávání na základě sekvenční podobnosti
>rgbIAAT70109.1|    CurN  [Lyngbya majuscula] Length=341
Score =    303 bits  (777),    Expect = 8e-81, Method: Composition-based stats. Identities = 148/297   (49%),  Positives = 188/297   (63%),  Gaps = 8/297 (2%)
SEIGTGFPFDPHYVEVLGERMHYVDVGPRDGTPVLFLHGNPTSSYLWRNIIPHV-APSHR 60
I + FPF        VEV G    + YVD G      G PVLFLHGNPTSSYLWRNIIP+V A +R
LPISSEFPFAKRTVEVEGATIAYVDEG—SGQPVLFLHGNPTS S YLWRNI IPYVVAAGYR 98
CIAPDLIGMGKSDKPDLDYFFDDHVRYLDAFIEALGLEEVVLVIHDWGSALGFHWAKRNP 12 0
+APDLIGMG S KPD++Y      DHV Y+D FI+ALGL+++VLVIHDWGS +G      A+ NP
AVAPDLIGMGDSAKPDIEYRLQDHVAYMDGFIDALGLDDMVLVIHDWGSVIGMRHARLNP 15 8
ERVKGIACMEFIRPI----PTWDEWPEFARETFQAFRTADVGRELIIDQNAFIEGVLPK- 17 5
+RV    +A ME + P P+++ F+    RTADVG ++++D N F+E +LP+
DRVAAVAFMEALVPPALPMPSYEAMGPQLGPLFRDLRTADVGEKMVLDGNFFVETILPEM 218
Query	2
Sbjct	41
Query	61
Sbjct	99
Query	121
Sbjct	159
Query	176
Sbjct	219
Query	236
Sbjct	279
VVR L+E EM    YR PF
R P    ++P E+PI GEPA
A V
WL SP+P
KLLFWGTPGVLIPPAEÄARLÄESLPNCKTVDIGPGLHYLQEDNPDLIGSEIARWLPG 2 92 KLLF      PG L P L+E++PN +      +G G H+LQED+P LIG    IA KIL
Sequences producing significant alignments:
®0 sp|P59336|DHAA RHOSD   Haloalkane dehaiogenase >pdb|lBN6|A Chai.
*0 sp I P0A3G2 IDHAA RHORH   Haloalkane dehaiogenase >sp I P0A3G3 |DHAA_.
®0 pdb 11CQTJIA   Chain A, Nai Cocrystallised With Haloalkane Dehalo.
®0 sp I Q9ZER0 I DHAA KYCSX   Haloalkane dehaiogenase >embICAA10076.11.
®|7 ghlAAY70325.il    HT2 [Expression vector pHT2]
®0 reflYP 00167503Q.il   alpha/beta hydrolase fold [Shewanella hal.
'0 reflYP 734675.11   alpha/beta hydrolase fold [Shewanella sp. MR.
®0 reflYP 001473250.il   alpha/beta hydrolase fold [Shewanella sed.
®0 reflZP 01736514.11   alpha/beta hydrolase [Harinohacter sp. ELB.
®0 reflYP 733656.11   alpha/beta hydrolase fold [Shewanella sp. MR.
®0 reflYP 001502590.11   alpha/beta hydrolase fold [Shewanella pea.
'0 reflHP 717353.11   hydrolase, alpha/beta hydrolase fold family .
®0 reflYP 750057.11   alpha/beta hydrolase fold [Shewanella frigid.
®0 reflYP 263379.11   hydrolase, alpha/beta hydrolase fold family .
®0 reflYP 001761524.il   alpha/beta hydrolase fold [Shewanella woo.
®0 reflZP 01341154.11   alpha/beta hydrolase fold [Shewanella halt.
®0 reflYP S70347.ll   alpha/beta hydrolase fold [Shewanella sp. AN.
®0 reflYP 129676.11   putative haloalkane dehaiogenase [Photobacte.
®0 reflZP 01221S58.il   putative haloalkane dehaiogenase [Photobac.
®0 reflYP 001365757.il   alpha/beta hydrolase fold [Shewanella hal.
®0 reflYP 562379.11   alpha/beta hydrolase fold [Shewanella denitr.
®0 reflZP 01397865.11   putative haloalkane dehaiogenase [Horitell,
®0 reflYP 001049934.il   alpha/beta hydrolase fold [Shewanella hal.
®0 reflYP 943362.11   alpha/beta hydrolase fold [Psychromonas ingr.
®0 reflYP 001182970.il   alpha/beta hydrolase fold [Shewanella put.
®0 reflYP 001554014.il   alpha/beta hydrolase fold [Shewanella hal.
®0 reflZP 01706252.11   alpha/beta hydrolase fold [Shewanella putr.
®0 reflYP 964030.11   alpha/beta hydrolase fold [Shewanella sp. ¥3.
®0 reflYP 510562.11   haloalkane dehaiogenase [Jannaschia sp. CCS1.
'0 reflZP 01216324.11   hydrolase, alpha/beta hydrolase fold famil.
'0 reflYP 001093S40.1I   alpha^beta hydrolase fold [Shewanella loi.
'0 reflNP 106032.11   haloalkane dehaiogenase [Mesorhizobium loti .
'0 gb|MT70109.1|    CurN [Lyngbya majuscula]
*0 reflZP 01055470.11   haloalkane dehaiogenase [Roseohacter sp. H.
'0 reflZP 01617455.11   haloalkane dehaiogenase [marine gamma prot.
'0 reflZP 01592200.11   alpha/beta hydrolase fold [Geohacter lovle.
'0 reflZP 01911259.11   alpha/beta hydrolase [Plesiocystis pacific.
'0 reflYP 001230772.11   alpha/beta hydrolase fold fGeobacter uran.
IBitsJ	Value		
429	le	-118	
424	3e	-117	
424	4e	-117	
422	le	-116	
415	le	-114	
320	Se	-86	E
318	3e	-85	E
317	6e	-85	E
317	6e	-85	
316	9e	-85	E
316	9e	-85	E
315	2e	-84	E
315	2e	-84	E
315	2e	-84	E
315	3e	-84	E
315	3e	-84	
314	4e	-84	E
314	7e	-84	E
313	Se	-84	
313	9e	-84	E
313	9e	-84	E
313	le	-83	
313	le	-83	E
313	le	-83	E
312	2e	-83	E
312	2e	-83	E
310	7e	-83	
310	9e	-83	E
308	3e	-82	E
307	Se	-82	
306	le	-Bl	E
303	Se	-Bl	E
303	8e	-Bl	
303	le	-80	
302	2e	-80	
300	7e	-80	
300	9e	-80	
300	9e	-80	E
Úvod do bioinformatiky, bioinformatické databáze
Problémy prohledávání databází
1
□ Textové vyhledávání
■ © chybné, nepřesné či obecné anotace
■ © synonyma
■ © velký počet falešně pozitivních a falešně negativních výsledků
□ Sekvenční vyhledávání
■ © podmínka evoluční příbuznosti
■ © větší nároky na uživatele
■ © potenciálně falešně pozitivní i falešně negativní výsledky
□ Vhodné je oba přístupy kombinovat
Úvod do bioinformatiky, bioinformatické databáze
□ Claverie, J-M., & Notredame, C. (2006) Bioinformatics for Dummies (2nd ed.) Wiley Publishing, Hoboken, p. 436.
□ Xiong, J. (2006) Essential Bioinformatics, Cambridge University Press, New York, p. 352.
□ ENTREZ tutorial: http://www.ncbi.nlm.nih.gov/Entrez/tutor.html
□ SRS documentation: http://srs.ebi.ac.uk/srs/doc/index.html
□ NCBI handbook: http://www.ncbi.nlm.nih.gov/books/NBK21101/
□ UniProtKB manual: http://www.uniprot.org/manual/
□ NCBI: http://www.ncbi.nlm.nih.gov/
□ EBI: http://www.ebi.ac.uk/
□ Pubmed: http://www.ncbi.nlm.nih.gov/pubmed
□ Web of Science: http://apps.isiknowledge.com
Üvod do bioinformatiky, bioinformaticke databäze
□ GenBank: http://www.ncbi.nlm.nih.gov/genbank/
□ EMBL-EBI: http://www.ebi.ac.uk/embl/
□ DDBJ: http://www.ddbi.nig.ac.jp/
□ UniProt: http://www.uniprot.org/
□ nrdb: http://www.ncbi.nlm.nih.gov/protein/
□ wwPDB: http://www.wwpdb.org/
□ Entrez Genome: http://www.ncbi.nlm.nih.gov/genome
□ Ensembl: http://www.ensembl.org
□ GOLD: http://www.genomesonline.org/
□ Entrez: http://www.ncbi.nlm.nih.gov/sites/gquery
□ SRS: http://srs.ebi.ac.uk
□ DBGET: http://www.genome.jp/dbget/
Úvod do bioinformatiky, bioinformatické databáze
83/83
Strukturní biologie Bi9410+941fi
Období: podzim
Rozsah: přednáška 2 hodiny/týden, cvičení 2 hodiny/týden
Vyučující: Mgr. Jan Brezovský, Ph.D.
Osnova:
struktura, stabilita a dynamika biologických makromolekul makromolekulami interakce a komplexy stanovení a předpověď struktury, identifikace důležitých oblastí stanovení vlivu mutace na strukturu a funkci proteinu aplikace v biologickém výzkumu, návrhu léčiv a biokatalyzátorů
Úvod do bioiinformatiky, bioinformatické databáze
Proteinové inženýrství BÍ7410
■ Období: jaro
■ Rozsah: přednáška 1 hodina/týden
■ Vyučující: Mgr. Radka Chaloupková, Ph.D.
■ Osnova:
■ strukturně-funkční vztahy proteinů
■ metody exprese a purifikace rekombinantních proteinů
■ metody strukturní a funkční analýzy proteinů
■ racionální design, semi-racionální design a řízená evoluce
■ příklady využití proteinového inženýrství
Molekulární biotechnologie Bi743i
Období: podzim (každoročně)
Rozsah: přednáška 2 hodiny/týden, cvičení 2 hodiny/týden Přednášky: Doc. Prokop, Dr. Dvořák, Dr. Bidmanová
Cvičení: Dr. Bidmanová, Dr. Beerens, Dr. Štěpánková, Mgr. Buryška, Mgr. Chrást Osnova:
■ proteinové a metabolické inženýrství
■ molekulární diagnostika a moderní vakcíny
■ buněčná a genová terapie a regenerativní medicína
■ molekulární biotechnologie v průmyslu a zemědělství
- ti íí ;; m ti ií
• 19 • 1« 11 12
4 ll ll i:iiěi
11 1* 11 1« 17 M ^
il 81 t» II
21 22        Y X
m
Úvod do bioinformatiky, bioinformatické databáze
Mikrobiologické exkurze BÍ6161
■ Období: jaro
■ Rozsah: 4 dvou až pětihodinové exkurze
■ Vyučující: Mgr. Šárka Bidmanová, Ph.D.
■ Exkurze:
- Pivovar Starobrno - http://www.starobrno.cz/
- Erba Lachema - https://www.erbalachema.com/
- Čistírna odpadních vod - http://www.vodarenska.cz/
- Kompostárna - http://www.kompostarna-blansko.cz/
Biotechnologické exkurze BÍ717
■ Období: podzim
■ Rozsah: 4 jednodenní exkurze (8.2.-11.2.2015)
■ Vyučující: Mgr. Šárka Bidmanová, Ph.D.
■ Exkurze:
- Biotechnologické centrum INBIT - www.jic.cz/inbit
- Bioveta-www.bioveta.cz
- BioVendor - www.biovendor.cz
- Contipro Group - www.contipro.com