LOSCHMIDT
LABORATORIES
Úvod do bioinformatiky
a bioinformatické databáze
INVESTICE  DO  ROZVOJE VZDĚLÁVÁNÍ
□ Organizační informace
□ Studijní literatura
□ Bioinformatika
□ Historie bioinformatiky
□ Bioinformatické instituce
□ Bioinformatické databáze
□ Prohledávání databází
Úvod do bioinformatiky, bioinformatické databáze
Organizační informace
□ Kolokvium
Písemný test
Celkem 25 otázek s jednou i více správnými odpověďmi Minimálně 17 správných odpovědí
□ BÍ5000 Bioinformatika I - nukleové kyseliny
□ BÍ9060 Bioinformatika II - proteiny
□ BÍ9061 Bioinformatika - cvičení
Úvod do bioinformatiky, bioinformatické databáze
Studijní literatura
□ Xiong, J. Essential Bioinformatics. Cambridge University Press, New York, 2006.
□ Claverie, J., and Notredame, C. Bioinformatics for Dummies2ed. Wiley Publishing, Hoboken, 2006
□ Cvrčkova, F. Úvod do praktické bioinformatiky. Academia, Praha 2006.
□ Misener, S., Krawetz S.A. Bioinformatics: methods and protocols.
Humana Press, Totowa, New Jersey 2000.
□ Attwood, T.K., Parry-Smith, D.J. Introduction to bioinformatics.
Longman, Essex, 1999.
□ Baxevanis, A.D., Ouellette, F.B.F. Bioinformatics: a practical guide to the analysis of genes and proteins. Wiley-lnterscience, New York 1998.
Úvod do bioinformatiky, bioinformatické databáze
□ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul
Bioinformatika
□ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul
Vývoj nástrojů a databází
Úvod do bioinformatiky, bioinformatické databáze
Bioinformatika
□ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul
Strukturní analýzy      Sekvenční analýzy
predikce struktury nukleových kyselin
predikce struktury proteinů
klasifikace proteinových struktur
porovnávání proteinových struktur
porovnaní genomu
fylogeneze
predikce genů a promotorů
identifikace motivů
prohledávání sekvenčních databází
sekvenční přiložení
Funkční analýzy
modelování metabolických drah
analýza profilů genové exprese
predikce proteinových interakcí
predikce vnitrobuněčné lokalizace proteinů
Vývoj nástrojů a databází
Úvod do bioinformatiky, bioinformatické databáze
Bioinformatika
□ Informační technologie sloužící k získávání, uchovávání, analýze a distribuci informací týkajících se biomakromolekul
Strukturní analýzy      Sekvenční analýzy
predikce struktury nukleových kyselin
predikce struktury proteinů
klasifikace proteinových struktur
porovnávání proteinových struktur
porovnaní genomu
fylogeneze
predikce genů a promotorů
identifikace motivů
prohledávání sekvenčních databází
sekvenční přiložení
Funkční analýzy
modelování metabolických drah
analýza profilů genové exprese
predikce proteinových interakcí
predikce vnitrobuněčné lokalizace proteinů
Vývoj nástrojů a databází
Úvod do bioinformatiky, bioinformatické databáze
Úvod do bioinformatiky, bioinformatické databáze
Úvod do bioinformatiky, bioinformatické databáze
Úvod do bioinformatiky, bioinformatické databáze
Nukleové kyseliny
N-Lys-Phe
Úvod do bioinformatiky, bioinformatické databáze
Nukleové kyseliny
N-Lys-Phe
Úvod do bioinformatiky, bioinformatické databáze
Úvod do bioinformatiky, bioinformatické databáze
Úvod do bioinformatiky, bioinformatické databáze
Úvod do bioinformatiky, bioinformatické databáze
Proteiny
MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCA GLGRLIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVV HDWGSALGFDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRS QAGEELVLQD
funkce
Úvod do bioinformatiky, bioinformatické databáze
Historie bioinformatiky
□ Revoluce
Úvod do bioinformatiky, bioinformatické databáze
Historie bioinformatiky
120
^100 c
-o
I —
7 80
C 60
OJ
ž
OJ 40
OJ Q.
Projekt lidského genomu
1982
1986
1990
1994
rok
1998
2002
2006
Úvod do bioinformatiky, bioinformatické databáze
1982 1986 1990 1994 1998 2002 2006
Úvod do bioinformatiky, bioinformatické databáze
1982 1986 1990 1994 1998 2002
Úvod do bioinformatiky, bioinformatické databáze
1982 1986 1990 1994 1998 2002 2006
Úvod do bioinformatiky, bioinformatické databáze
1982 1986 1990 1994 1998 2002 2006
Úvod do bioinformatiky, bioinformatické databáze
Historie bioinformatiky
120
-o
so
C 60
910 950
2900x více sekvencí
OJ 40
0J Q_
39 533
1982
1986
1990
1994
rok
1998
2002
2006
Úvod do bioinformatiky, bioinformatické databáze
Bioinformatické instituce
□ National Center for Biotechnology Information (NCBI)
□ European Bioinformatics Institute (EBI)
Bioinformatické instituce
•L.
□ National Center for Biotechnology Information (NCBI)
■ oddělení National Library of Medicine při National Institutes of Health v USA
■ Poskytuje Databáze GenBank, PubMed, OMIM, Genome dbSNP,...
■ Informace dostupné přes vyhledávací systém Entrez
Bioinformatické instituce
□ National Center for Biotechnology Information (NCBI)
% NCBI		e	Entrez, The Life Sciences Search Engine	
HOME    SEARCH SITEMAP	PubMed	All Databases	Human Genome                          GenBank                      Map Viewer	BLAST
Search across databases
GO    Clear Help
Welcome to the Entrez cross-database search page
(Jj   PubMed: biomedical literature citations and abstracts
PubMed Central: free, full text journal articles ftrl   site Search: NCBI web and FTP sites
(Jl   Books: online books
OMIM: online Mendelian Inheritance in Man (#2? OMIA: online Mendelian Inheritance in Animals
<f   Nucleotide: Core subset of nucleotide sequence records
EST: Expressed Sequence Tag records EQ* GSS: Genome Survey Sequence records
Protein: sequence database |J|   Genome: whole genome sequences
Structure: three-dimensional macromolecular structures
Taxonomy: organisms in GenBank lull   SNP: single nucleotide polymorphism
dbGaP: genotype and phenotype £^ UniGene: gene-oriented clusters of transcript sequences ^'  CDD: conserved protein domain database 9^ 3D Domains: domains from Entrez Structure UniSTS: markers and mapping data PopSet: population study data sets ClB GEO Profiles: expression and molecular abundance profiles GEO DataSets: experimental sets of GEO data
Úvod do bioinformatiky, bioinformatické databáze
Bioinformatické instituce
□ European Bioinformatics Institute (EBI)
■ Součást European Molecular Biology Laboratory (EMBL), Wellcome Trust Genome Campus ve Velké Británii
■ Poskytuje databáze EMBL-Bank, UniProt, Ensembl, InterPro,
■ Informace dostupné přes vyhledávací systém SRS
Úvod do bioinformatiky, bioinformatické databáze
Bioinformatické instituce
□ European Bioinformatics Institute (EBI)
Úvod do bioinformatiky, bioinformatické databáze
Bioinformatické databáze
□ Bibliografie
□ Nukleotidové sekvence
□ Proteinové sekvence
□ Proteinové struktury
□ Genomy
LRHLGITGPVTLAVHDWGGMIGFGWALSHHAQVKRLVI TNTAAAGTKFDKLTWLDVGPVDLWHDWGTISRMEEGT WYLKLIRTTVWHQAIVLAEIGTWCKTQENPA
I
"3 NCB1
, Entrez, The Life Sciences Search Engine^
All Databases
Human Genome_GenBank
Map Viewer
Search across databases |linb
J^^^J Help
edical literature citations and
79 PubNed Central: free, full text journal article
lone   Jtg   Site Search: NCBI web and FTP sites
m none |tJ Books: online books El (D    none OMIM: online Mendelian Inheritance in Nan O
C3    none j^Sir  OMIA: Online Nendelian Inheritance in Animals GS
GenBank) 39  •***• Protein: sequence database [4]   |||   Genome: whole genome sequences
12
riented clusters of tran
|none| Jjj UniGene:
sequences
none CDD: conserved protein domain database
1 2 3D Domains: domains from Entrez Structure
none   r*|h- UniSTS: markers and mapping data
Úvod do bioinformatiky, bioinformatické databáze
Bibliografické databáze
□ PubMed
□ Web of Science
~> NCBI
All Databases
I A service of the U.S. National Library of Medicine
l^tfl \^ ^t^U^^fl aiid the National Institutes of Health
www.pubmed.gov
I Search | PubMed
3 f-* r
'!    řr        1--.m. r-1 ..'r
f Limits 7" P review/In ä ex
History | Clipboard
Details
About Entrez Text Version
Entrez PubMed Overview Help | FAQ Tutorials
New/Noteworthy $t E-Utilities
PubMed Services Journals Database MeSH Database Single Citation Matcher
Batch Citation Matcher Clinical Queries Special Queries LinkOut
To get started with PubMed, enter one or more search terms. Search terms may be topics, authors or journals.
Set up an automated PubMed update in fewer than
NCBI f*ve minutes.
1. Create a My NCBI account
2. Save your search.
3. Your PubMed updates can be e-mailed directly to you.
Read the My NCBI Help material to explore other options, such as automated updates of other databases, setting search filters, and highlighting search terms.
PubMed is a service of the U. S. National Library of Medicine that includes over 17 million citations
ISI Web of Knowledge51
I Sign In | My EndNote Web     My ResearcherlD | My Citation Alerl
Take the next step
Search    Cited Reference Search I Advanced Search I Search History I Marked List (0;
Web of Science1*
1	in	| Topic	J
Example: oil spill* AND "North Sea"			
AND _^J|		| Author	J
Example: O'Brian C* OR OBrian C* Need help finding papers by an author? Us	3 Author Finder.		
AND zi\	□ in	Publication Nan	ne  -1
Example: Cancer* OR Journal of Cancer Research and Clinical Oncology
Add Another Field
(    Search    ) ( Clear )
Úvod do bioinformatiky, bioinformatické databáze
Bibliografické databáze
□ PubMed
Provozováno National Library of Medicine
Obsahuje více než 22 milionů citací biomedicínské literatury
Integruje MEDLINE, časopisy z oblasti živých věd a online knihy Prohledávání možné přes Entrez nebo DBGET Obsahuje kromě abstraktů odkazy na plné texty dostupné přes PubMed Central nebo stránky nakladatelství
NCBI
Publ^Jed^i
U.S. National Library of Medicine National Institutes of Health
Úvod do bioinformatiky, bioinformatické databáze
Bibliografické databáze
□ PubMed
PublGjed.gov
U.S. National Library of Medicine National Institutes of Health
Search' PubMed                     ^^^B   I   Limits   Advanced search Help			
	Search	1 Clear	
Display Settings: fvl Abstract Send to: fvl
Nat Chem Biol. 2009 Oct;5(10):727-33. Epub 2009 Aug 23.
Redesigning dehalogenase access tunnels as a strategy for degrading an anthropogenic substrate.
Pavlova M, Klvana M, Prokop Z, Chaloupkova R, Banas P, Otyepka M, Wade RC, Tsuda M, Nagata Y, Damborsky J.
Loschmidt Laboratories, Institute of Experimental Biology and National Centre for Biomolecular Research, Faculty of Science, Masaryk University, Brno, Czech Republic.
Abstract
Engineering enzymes to degrade anthropogenic compounds efficiently is challenging. We obtained Rhodococcus rhodochrous haloalkane dehalogenase mutants with up to 32-fold higher activity than wild type toward the toxic, recalcitrant anthropogenic compound 1,2,3-trichloropropane (TCP) using a new strategy. We identified key residues in access tunnels connecting the buried active site with bulk solvent by rational design and randomized them by directed evolution. The most active mutant has large aromatic residues at two out of three randomized positions and two positions modified by site-directed mutagenesis. These changes apparently enhance activity with TCP by decreasing accessibility of the active site for water molecules, thereby promoting activated complex formation. Kinetic analyses confirmed that the mutations improved carbon-halogen bond cleavage and shifted the rate-limiting step to the release of products. Engineering access tunnels by combining computer-assisted protein design with directed evolution may be a valuable strategy for refining catalytic properties of enzymes with buried active sites.
PMID: 19701 186 [PubMed - indexed for MEDLINE]
S Publication Types, MeSH Terms, Substances, Secondary Source ID Q LinkOut- more resources
Full Text Sources:
Nature Publishing Group
Related citations
Biodegradation of 1,2,3-trichloropropane through directed evolution an [Appl Environ Microbiol. 2002]
Pathways and mechanisms for product release in the engineered haloalkane dehak [J Mol Biol. 2009]
Mechanism of enhanced conversion of 1,2,3-trichloropropane b [J Comput Aided Mol Des. 2006]
Evolving haloalkane dehaloqenases
[Curr Opin Chem Biol. 2004]
I Alpha/Beta-hydrolase fold enzymes structures, functions [Curr Protein Pept Sci. 2000]
See reviews..
See all..
All links from this record
Related Citations Compound (MeSH Keyword) Compound (Publisher) Substance (MeSH Keyword) Substance (Publisher)
Úvod do bioinformatiky, bioinformatické databáze
Bibliografické databáze
□ Web of Science
■   Komerční databáze
Součást ISI Web of Knowledge
Používá se pro zjištění citovanosti a impaktního faktoru časopisů
Úvod do bioinformatiky, bioinformatické databáze
Bibliografické databáze
□ Web of Science
ISI Web of Knowledge
Web of Science
Additional Resources
Search | Cited Reference Search | Structure Search | Advanced Search | Search History | Marked List (0)
Web Of Science® - with Conference Proceedings
<< Back to results list
■* \ Record 1 of 1 i ►
Record from Web of Science®
Redesigning dehalogenase access tunnels as a strategy for degrading an anthropogenic substrate
Print '■ ■' E-mail; 'Add to Marked List '■ 'Save to EndNJjtBVfen '■ ■' Save to
RefMan, ProCilĚ^ mere options
Authorfs): Pavl ova M [Paul ova, Martina)1,2lKlvanaM[KlvanalMartin)1,2lProkopZ[ProkoplZbynek)1,ilChaloupkovaR[ChaloupkovalRadka)1,ilBanasP [Banas, Pavel)3,4, Otyepka M [Otyepka, Michal)3,4, Wade RC (Wade, Rebecca C.f, Tsuda M [Tsuda, Masatakaf, Nagata Y [Nagata, Yujif, Damborsky J [Damborsky, Jiri)1,2
Source: NATURE CHEMICAL BIOLOGY   Volume: 5   Issue: 10   Pages: 727-733   Published: OCT 2009 Times Cited: 5   References: 50   [FJ Citation Map
Abstract: Engineering enzymes to degrade anthropogenic compounds efficiently is challenging. We obtained Rhodococcus rhodochrous haloalkane dehalogenase mutants with up to 32-fold higher activity than wild type toward the toxic, recalcitrant anthropogenic compound 1,2,3-trichloropropane [TCP) using a new strategy. We identified key residues in access tunnels connecting the buried active site with bulk solvent by rational design and randomized them by directed evolution. The most active mutant has large aromatic residues at two out of three randomized positions and two positions modified by site-directed mutagenesis. These changes apparently enhance activity with TCP by decreasing accessibility of the active site forwater molecules, thereby promoting activated complex formation. Kinetic analyses confirmed that the mutations improved carbon-halogen bond cleavage and shifted the rate-limiting step to the release of products. Engineering access tunnels by combining computer-assisted protein design with directed evolution may be a valuable strategy for refining catalytic properties of enzymes with buried active sites.
Document Type: Article
Language: English
Keywords Plus: SPHINGOMONAS-PAUCIMOBILIS UT26; HALOALKANE DEHALOGENASE; DIRECTED EVOLUTION; CYTOCHROME P450S; HETEROLOGOUS EXPRESSION; XENOBIOTIC COMPOUNDS; CATALYTIC MECHANISM; ESCHERICHIA-COLI; ENZYME; SPECIFICITY
Reprint Address: Damborsky, J (reprint author), Masaryk Univ, Fac Sci, Loschmidt Labs, Inst Expt Biol, CS-61137 Brno, Czech Republic_
Cited by: 6
This article has been cited 6 times [from Web of Science}.
Kourist R, Jochens H, Bartsch S, et al. The alpha/beta-Hydrolase Fold 3DM Database (ABHDB) as aToolfor Protein
Engineering CHEMBIOCHEM 11 12 1635-1643 AUG 162010
Stsiapanava A, Dohnalek J, Gavira JA, et al. Atomic resolution studies of haloalkane dehalogenases DhaA04, DhaA14 and DhaA15 with engineered access tunnels ACTA CRYSTALLOGRAPHICA SECTION D-BIOLOGICAL
CRYSTALLOGRAPHY 66 962-969 Part 9 SEP 2010
Brouk M, Derry NL, Shainsky J, et al. The influence of key residues in the tunnel entrance and the active site on activity and selectivity oftoluene-4-mo no oxygenase JOURNAL OF MOLECULAR CATALYSIS B-ENZYMATIC 66 1-2 72-80 SEP 2010
[ view all 6 citing articles ]
( Create Citation Alert ;
Related Records:
Úvod do bioinformatiky, bioinformatické databáze
Databáze nukleotidových sekvencí
O
□ GenBank
□ EMBL-Bank
□ DDBJ
□ Anotované kolekce veřejně dostupných nukleotidových sekvencí
□ Data získaná z genomových center a odborných pracovišť
□ Každodenní vzájemná synchronizace nových a aktualizovaných dat
□ "Accession number" - jedinečný identifikátor záznamu, ve všech třech databázích
Databáze nukleotidových sekvence
□ GenBank
Založena v roce 1982, provozována NCBI
Přístupná prostřednictvím vyhledávacího systému
Entrez nebo systému DBGET
Obsahuje více než 156.000.000 sekvencí (2012)
Nové sekvence možné vložit pomocí Banklt nebo Sequin
NCBI
Úvod do bioinformatiky, bioinformatické databáze
Databáze nukleotidových sekvence
□ EMBL-Bank
Založena v roce 1980, Provozována EBI
Přístupná prostřednictvím vyhledávacího systému SRS či DBGET
Obsahuje více než 247.000.000 sekvencí (2012)
Nové sekvence možné vložit pomocí Webin nebo Sequin
EMBL I
NUCLEOTIDE SEQUENCE DATABASE
Úvod do bioinformatiky, bioinformatické databáze
Databáze nukleotidových sekvence
□ DNA Data Bank of Japan (DDBJ)
■ Založena v roce 1984, provozována National Institute of Genetics
■ Obsahuje více než 153.000.000 sekvencí (2012)
■ Nové sekvence možné vložit pomocí Sakura nebo Sequin
(S>DDBJ
DNA Datů Bank of Jdpin
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v GenBank
□ Hlavička
Základní informace o záznamu
Lokus, definice, přístupový kód, klíčová slova, organizmus, reference,.
X.autotrophicus haloalkane dehalogenase (dhlA) gene, complete cds
Comment   Features Sequence
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM
REFERENCE AUTHORS
TITLE
JOURNAL PUBMED COMMENT
linear (dhlA) gene,
BCT 15-FEB-1996 complete cds.
Rhizobiales;
XAADHLA 3041 tap DNA
X.autotrophicus haloalkane dehalogenase M26950
M26950.1 GI:155347 haloalkane dehalogenase. Xanthotaacter autotrophicus Xanthobacter autotrophicus
Bacteria;  Proteobacteria; Alphaproteobacteria Xanthobacteraceae; Xanthobacter. 1     (bases 1 to 3041)
Janssen,D.B.,  Pries,F.f  van der Ploeg,J.r Kazemier,B and WitholtrB.
Cloning of 1,2-dichloroethane degradation genes of Xanthobacter autotrophicus GJ10 and expression and sequencing of the dhlA gene J.  Bacteriol.   171   (12),   6791-6799 (1989) 2687254
Draft entry and computer readable copy of sequence   [1] kindly provided by D.B.Janssen, ll-AUG-1989.
Te rpstra,P.
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v GenBank
□ Charakteristiky
■ Popis jednotlivých oblastí genu
■ Promotor, RBS (ribozóm vazebné místo), CDS (kódující sekvence), ...
qene	918..1931
	/gene="dhlA"
promoter	918..946
	/gene="dhlA"
	/note="putative"
promoter	945..974
	/gene="dhlA"
	/note="putative"
RBS	986..998
	/gene="dhlA"
CDS	999. .1931
	/gene="dhlA"
	/codon start=l
	/transl table=ll
	/product^1 haloalkane dehalogenase"
	/protein id="AAA8 8 691.1"
	/db_xref=,,GI:155348"
	/translation="MINAIRTPDQRFSNLDQYPFSPNYLDDLPGYPGLRAHYLDEGNS
	DAEDVFLCLHGEPTWSYLYRKMIPVFAESGARVIAPDFFGFGKSDKPVDEEDYTFEFH
	RNFLLALIERLDLRNITLVVQDWGGFLGLTLPMADPSRFKRLIIMNACLMTDPVTQPA
	FSAFVTQPADGFTAWKYDLVTPSDLRLDQFMKRWAPTLTEAEASAYAÄPFPDTSYQAG
Úvod do bioinformatiky, bioinformatické databáze
46/83
Ukázka záznamu v GenBank
□ Charakteristiky
FEATURES
source
CDS
gene
promoter
promoter
RES CDS
Location/Qualifiers 1..3041
/organism="Xanthobacter autotrophicus"
/mol_type="genomic DNA"
/strain="GJ10"
/db_xref="taxon: 280"
complement(3ie..924)
/note="ORF 1; putative"
/codon_start=l
/transl table=ll
/product="unknown protein"
/protein id="AAA88690■1"
/db_xref="GI:1197026"
/ translation-"MSTFFEPETJGMKQWAKTERI LDVALELLETEGEFGLTMRQVATQ
ADMSLSNVQYYFKSEDLLLVAMADRYFQRCLTTMAEHPPLSAGRDQHAQLRALLRELL
GHGLEISEMCRIFREYWAIATRWETVHGYLKSYYRDLAEVMAEKLAPLAS SEKALAVA
VSLVIPYVEGYSVTAIÄMPESIDTISETLTNVVLEQLRISNS"
918..1931
/gene="dhlA"
918..946
/gene="dhlA"
/note="putative"
945..974
/gene="dhlA"
/note="putative"
986..998
/gene="dhlA"
999..1931
/gene="dhlA"
/codon_start=l
/transl table=ll
/product="haloalkane dehalogenase" /protein id="AAA88691■1" /db_xref="GI:155348"
/translation="MIWAIRTPDQRFSWLDQYPFSPNYLDDLPGYPGLRAHYLDEGNS DAEDVFLCLHGEPTWSYLYRKMIPVFAESGARVIAPDFEGFGKSDKPVDEEDYTFEFH RNFLLALIERLDLRHITLVVQDWGGFLGLTLPMADPSREKRLIIMNACLMTDPVTQPA FSAFVTQPADGFTÄWKYDLVTPSDLRLDQFMKRWAPTLTEAEASAYAAPFPDTSYQAG VRKFPKMVAQRDQACIDISTEAISFWQMDWWGQTFMAIGMKDKLLGPDVMYPMKALIN GCPEPLEIADAGEFVQEFGEQVAREALKHFAETE"_
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v GenBank
□ Sekvence
ORIGIN 1 bp upstream of BamHI site.
1 atgataaatg caattcgcac cccggaccaa 61 agccccaact acctggacga cctccccggc 121 gagggcaatt ctgacgctga agacgttttt 181 tacctgtatc gcaagatgat cccggtattt 241 gacttttttg gattcggaaa atccgacaag 301 tttcaccgca acttcctgct tgcactaatc 361 gtcgttcagg actggggcgg atttttgggg 421 ttcaagcgcc tgatcatcat gaacgcctgc 481 tttagcgcct ttgtcaccca gcctgcggat 541 acgccatcag acctgcgcct tgaccagttc 601 gctgaggcct ccgcgtatgc tgcgcctttc 661 aagtttccca agatggtcgc gcaacgcgac 721 atttcgttct ggcagaacga ctggaatggc 781 aaattgctgg gaccggacgt catgtatcct 841 cccctcgaaa tagcggacgc tggccatttc 901  gaggccctga aacactttgc cgagacagaa
//
cgcttcagca tacccgggat ctctgccttc gctgaatcag ccagtagacg gaacggcttg ctgaccttac ttgatgaccg ggctttaccg atgaagcgtt cctgacactt caggcctgca cagaccttca atgaaggcgc gtacaggagt tag
atctcgatca tgcgggcaca atggcgagcc gcgcacgagt aagaagacta acttgcgcaa cgatggccga acccggtcac cctggaaata gggcgcccac cctatcaggc tcgacatttc tggccattgg tcattaatgg ttggcgagca
gtatccgttc ctacctcgac cacctggagt tattgcgcca caccttcgaa cattacgctg cccttcccgc ccagcctgcg cgatctggtt actgaccgaa tggtgtacgc aaccgaagcg catgaaagac ctgcccggaa agtggctcgc
Úvod do bioinformatiky, bioinformatické databáze
Databáze proteinových sekvencí
□ UniProtKB
□ nr Protein Database
Úvod do bioinformatiky, bioinformatické databáze
Databáze proteinových sekvencí
□ UniProtKB
Spolupráce EBI, Swiss Institute of Bioinformatics a Protein Information Resource
Centrální úložiště proteinových sekvencí a funkčních informací Kvalitní anotace - informace o funkci proteinu a jednotlivých aminokyselin, experimentální informace, biologické ontológie, klasifikace, odkazy do dalších databází Indikace kvality anotace (manuální vs. automatická)
Úvod do bioinformatiky, bioinformatické databáze
Databáze proteinových sekvencí
□ UniProtKB/Swiss-Prot
■ Vysoká kvalita manuálních anotací
■ © Manuální anotace - spolehlivé informace
■ © 500.000 sekvencí (srpen 2012)
UniProtKB
Protein knowledgebase
U n i ProtKB/S wi ss-Prot
Reviewed
Manual annotation
UniProtKB/TrEM BILI n reviewed .
Automatic annotation
□ UniProtKB/TrEMBL
■   Sekvence konceptuálni translací kódujících sekvencí EMBL-Bank
© Automatická anotace - nižší kvalita, možnosti chyb © 24.000.000 sekvencí (srpen 2012)
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v UniProtKB
□ Názvy a zdroj proteinu
□ Vlastnosti proteinu
	
I Names and origin	Hide | Top J
Protein names	Recommended name: Haloalkane dehalogenase EC=3.8.1.5 Alternative name(s): 1,3,4.6-tetra c h I o ro-1,4-cyclohexadiene hydrolase 1,4-TCDN chlorohydrolase
Gene names	Name: linB
Organism	Pseudomonas paucimobilis (Sphingomonas paucimobilis)
Taxonomie identifier	13689 [NCBI]
Taxonomie lineage	Bacteria > Proteobacteria > Alphaproteobacteria > Sphingomonadales > Sphingomonadaceae > Sphingomonas
[Protein attributes	Hide | Top J
Sequence length	296 AA.
Sequence status	Complete.
Sequence processing	The displayed sequence is further processed into a mature form.
Protein existence	Evidence at protein level.
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v UniProtKB
□ Obecná anotace
	
[ General annotation (Comments)	Hide | Top J
Function	Catalyzes hydrolytic cleavage of carbon-halogen bonds in halogenated aliphatic compounds, leading to the formation of the corresponding primary alcohols, halide ions and protons. Has a broad substrate specificity since not only monochloroalkanes (C3 to C10) but also dichloroalkanes (> C3), bromoalkanes, and chlorinated aliphatic alcohols were good substrates. Shows almost no activity with 1,2-dichloroethane, but very high activity with the brominated analog. Is involved in the degradation of the important environmental pollutant gamma-hexachlorocyclohexane (lindane) as it also catalyzes conversion of 1,3,4,6-tetrachloro-1,4-cyclohexadiene (1,4-TCDN) to 2,5-dichloro-2,5-cyclohexadiene-1,4-diol (2,5-DDOL) via the intermediate 2,4,5-trichloro-2,5-cyclohexadiene-1-ol (2,4,5-DNOL). ( HAMAP MF_0123l)
Catalytic activity	1-haloalkane + H20 - a primary alcohol + halide. CHAMAF MF-°12313 1,4-TCDN + 2 H2O " 2,5-DDOL + 2 chloride.'HAMAP MF-°1231)
Enzyme regulation	Competitively inhibited by the key pollutants 1,2-dichloroethane (1,2-DCE) and 1,2-dichloropropane (1 0-Or*P)  (hAMAP MF_01231 )
Pathway	Xenobiotic degradation; gamma-hexachlorocyclohexane degradation. (HAMAP mf_qi23i j
Subunit structure	M^rn^r ^HAMAP MF-0123O
Subcellular location	Periplasm.
Induction	Constitutively expressed. <-HAMAP MF-°123i)
Miscellaneous	Is not N-terminally processed during export, so it may be secreted into the periplasmic space via a hitherto unknown mechanism. CHAMAP 1^.01231)
Sequence similarities	Belongs to the haloalkane dehalogenase family. Type 2 subfamily.
Biophysicochemical properties	pH dependence: Optimum pH is 8.2. CHAMAPMF-°'l23i)
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v UniProtKB
□ Ontológie
	
■ Ontologies	
Keywords Biological process	Detoxification
Cellular component	Periplasm
Molecular function	Hydrolase
Technical term Gene Ontology (GO) Biological process	3D-sr.ru cture Direct protein sequencing response to toxin Inferred from electronic annotation. Source: UniProtKB-KW
Cellular component	periplasrnic space Inferred from electronic annotation. Source: UniProtKEI-SubCell
Molecular function Complete GO annotation...	haloalkane dehalogenase activity Inferred from electronic annotation. Source: HAMAP
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v UniProtKB
□ Anotace sekvence
Sequence annotation (Features)
	Feature key	Position(s)	Length
Molecule processing			
r	Initiator methionine	1	1
□	Chain	2-296	295
Graphical view
Feature identifier
Sites
Natural variations
Natural variant
Natural variant
r Natural variant r Natural variant r   Natural variant
Natural variant
112
134-135
13£
247
253
A    T in strain: B90.
A ^ V in strain: B90.
IA - VTin strain: B90.
I —> l_ in strain: B90.
A ^ H in strain: B90.
M ^ I in strain: B90.
PRO 0000216778
r	Active site	108	1	Nur|pnnhi|etHAMAPMF-°123-0		
■	Active site	132	1	Prnfnn r|nnnr(hamapmf_0l23O	--	
■	Active site	272	1	Prnfnn arrpptnr (hamap mf_01231 ]	--	
■	Binding site	38	1	|-|q|jrjp [ hamap mf_01231 )	--	
■	Binding site	109	1	|-|q|jrjfa C hamap mfjj1231 )		
Úvod do bioinformatiky, bioinformatické databáze
□ Anotace sekvence
Natural variations r   Natural variant		81	1	A - Tin strain: B90.		
r	Natural variant	112	1	A - V in strain: B90.		
■	Natural variant	134-135	2	IA - VTm strain: B90.		
■	Natural variant	138	1	I - L in strain: B90.		
■	Natural variant	247	1	A - H in strain: B90.		
r   Natural variant Experimental info r Mutagenesis		253 38	1 1	M — I in strain: B90. N — D, E, F or Q: Loss of activity. >-'I'		
r	Mutagenesis	108	1	D — A: Loss of activity. (Ref-eJ		
r	Mutagenesis	108	1	D — N: 58% of wild-type activity. tR'feJ		
■	Mutagenesis	109	1	W — L: Loss of activity. C^ITJ		
■	Mutagenesis	132	1	E — Q: Loss of activity. C2il5J		
■	Mutagenesis	151	1	F — L, W or Y: Increase in activity.' RefJJ		
■	Mutagenesis	169	1	F — L: 31% of wild-type activity. CR6f-7)		
■	Mutagenesis	244	1	E — Q: 38% of wild-type activity. (Rtf-B)		
r	Mutagenesis	272	1	H — A: Loss of activity. O16)		
56/83
Ukázka záznamu v UniProtKB
□ Sekvence
Sequences
Sequence
Length    Mass (Da) Tools
□    P51698-1 [UniParc].
Last modified January 23, 2007. Version 4. Checksum: 6EEE011B157DBAE1
FASTA      296     33,108 [i^sľ
10	20	30	40	50	60
MSLGAKPFGE	KKFIEIKGRR	MAYIDEGTGD	PILFQHGHPT	SSYLWRNIHP	HCAGLGRLIA
70	80	90	100	110	120
CDLIGHGDSD	KLDPSGPERY	AYAEHRDYLD	ALWEALDLGD	RWLWHDTJG	SALGFDUARR
130	140	150	160	170	180
HRERVQGIAY	MEAIAHPIEIJ	ADFPECjDRDL	FQAFRSCjAGE	ELVLQDNVFV	EÜVLPGLILR
190	200	210	220	230	240
PLSEAEMAAY	REPFLAAGEA	RRPTL5ÜPRQ	IPIAGTPADV	VAIARDYAGTJ	LSESPIPKLF
250	2 60	270	280	290	
INAEPGALTT	GRMRDFCRTIJ	PNQTEITVAG	AHFIQEDSPD	EIGAAIAAFV	RRLRPA
Hide
go
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v UniProtKB
□ Reference
References
[1]    "Cloning and sequencing of a dehalogenase gene encoding an enzyme with hydrolase activity involved in the degradation of gamma-hexachlorocyclohexane in Pseudomonas paucimobilis."
Nagata Y., Nariya T., Ohtomo R., Fukuda M., Yano K., Takagi M J. Bacteriol. 175:6403-6410(1993) [PubMed: 7691794] [Abstract]
Cited for: NUCLEOTIDE SEQUENCE [GENOMIC DNA], PROTEIN SEQUENCE OF 2-16. Strain: UT26.
[2]
[3]
[4]
[5]
Nagata Y., Nariya T., Ohtomo R., Fukuda M., Yano K., Takagi M Submitted (MAR-1999) to the EMBL/GenBank/DDBJ databases
Cited for: SEQUENCE REVISION.
"Cloning and characterization of lin genes responsible for the degradation of hexachlorocyclohexane isomers by Sphingomonas paucimobilis strain B90."
Kumari R., Subudhi S., Suar M., Dhingra G., Raina V., Dogra C., Lai S., van der Meer J.R., Holliger C., Lai R Appl. Environ. Microbiol. 68:6021-6028(2002) [PubMed: 12450824] [Abstract]
Cited for: NUCLEOTIDE SEQUENCE [GENOMIC DNA]. Strain: B90.
"Two different types of dehalogenases, LinA and LinB, involved in gamma-hexachlorocyclohexane degradation in Sphingomonas paucimobilis UT26 are localized in the periplasmic space without molecular processing."
Nagata Y., Futamura A., Miyauchi K., Takagi M
J. Bacteriol. 181:5409-5413(1999) [PubMed: 10464214] [Abstract]
Cited for: PROTEIN SEQUENCE OF 2-10, SUBCELLULAR LOCATION.
"Purification and characterization of a haloalkane dehalogenase of a new substrate class from a gamma-hexachlorocyclohexane-degrading bacterium, Sphingomonas paucimobilis UT26."
Nagata Y., Miyauchi K., Damborsky J., Manova K., Ansorgova A., Takagi M Appl. Environ. Microbiol. 63:3707-3710(1997) [PubMed: 9293022] [Abstract]
Cited for: CHARACTERIZATION. Strain: UT26.
Úvod do bioinformatiky, bioinformatické databáze
Databáze proteinových sekvencí
□ nr Protein Database
■ Databáze proteinových sekvencí NCBI
■ Kolekce sekvencí získaných konceptuálni translací kódujících oblastí GenBank/EMBL-Bank/DDBJ a dále sekvencí z UniProtKB, PRFa RCSBPDB
■ © většinou automatická anotace - nižší kvalita, možnost chyb
■ © chybí indikace původu anotace
■ © více než 20.000.000 sekvencí (2012)
Úvod do bioinformatiky, bioinformatické databáze
Formáty sekvencí
□ Prostá sekvence
DQLTEEQIAEFKEAFS LFDK
Úvod do bioinformatiky, bioinformatické databáze
Formáty sekvencí
□ Prostá sekvence
□ GenBank
LOCUS
DEFINITION
AAU03518 237 bp        DNA PLN 04-FEB-1995
Aspergillus awarnori internal transcribed spacer 1  (ITS1)  and 18S rRNA and 5.8S rRNA genes, partial sequence. U03518
41 a 77 c 67 g 52 t
ACCESSION BASE COUNT ORIGIN
1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc
//
Úvod do bioinformatiky, bioinformatické databáze
Formáty sekvencí
□ Prostá sekvence
□ GenBank
□ EMBL
ID
XX AC XX DE DE XX SQ
AA03518
U03518;
standard; DNA; FUN; 237 BP
Aspergillus awarnori internal transcribed spacer 1  (ITS1)  and 18S rRNA and 5.8S rRNA genes, partial sequence.
Sequence 237 BP;  41 A;  77 C;  67 G;  52 T;  0 other;
aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc
tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg
ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc
tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc
60 120 180 237
Úvod do bioinformatiky, bioinformatické databáze
Formáty sekvencí
□ Prostá sekvence
□ GenBank
o
□ EMBL
□ FASTA
>giI155348|gb|AAA88691.1| haloalkane dehalogenase i-iINAIRTPDQRFSNLDQYPFSPNYLDDLPGYPGLRÄHYLDEGNSDAEDVF AESGARVIAPDFFGFGKSDKPVDEEDYTFEFHRNFLLALIERLDLRNITK FKRLIIMNAC LMTD PVTQ PAF SAFVTQ PADGFTAWKYD LVT P S D LRLDQ F PDTSYQAGVRKF PKMVAQRDQACIDISTEAISFWQNDWNGQT FMAIGMKD PLEIADAGHFVQE FGE QVAREALKHFAE TE
Nejčastěji používaný formát
Úvod do bioinformatiky, bioinformatické databáze
Databáze proteinových struktur
□ Worldwide Protein Data Bank (wwPDB)
Světový depositář proteinových struktur, obsahuje rovněž struktury nukleových kyselin a biomolekulárních komplexů
■ Research Collaboratory for Structural Bioinformatics (RCSB PDB), Protein Data Bank Europe (PDBe), Protein Data Bank Japan (PDBj), Biological Magnetic Resonance Data Bank (BioMagResBank)
■ Obsahuje více než 84.000 struktur (2012)
■ Struktury získané rentgenovou krystalografií (88%) a nukleární magnetickou rezonancí (11 %)
WORLDWIDE
3 PDB
PROTEIN DATA BANK
Databáze genomů
□ Entrez Genome
□ Ensembl
□ Genomes OnLine Database GOLD
□ Informace o zdrojovém organizmu
□ Nukleotidové a proteinové sekvence
□ Geny v kontextu genomu
□ Anotace a analýza genomů
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v Entrez Genome
□ Přehled prokaryotických genomů
Overview [8348]       Eukaryotes [2215]      Prokaryotes [14202]      Viruses [3212]
I-II-II-|l-
First Previous
Shown: 1 -100 out of 1309 items
Next Last
Download selected records
Organism/Name	BioProject	Group	SubGroup	Size	GC%	Chromosomes		WGS	Scaffolds	Gene	Protein	Release	Modify	Status
		Actinobacte ^ |	— All Actini t I	(Mb)		RefSeq	INSDC					Date	Date	All _-rj
														
Acaricornes phytoseiuli DSM 14247	PRJNA174970	Actinobacteria	Actinobacteria	_	_									No data
Acidimicrobiuin ferrooxidans DSM 10331	PRJNA59215 PRJNA29525	Actinobacteria	Actinobacteria	2.16	68.30	NC_013124.1	CP001631.1			2089	1964	2009/D8/18	2012/01/30	Complete
Acidothermus cellulolyticus 11B	PRJNA58501 PRJNA16097	Actinobacteria	Actinobacteria	2.44	66.90	NC_008578.1	CP000481.1	-	-	2217	2157	2006/11/09	2012/01/24	Complete
Actinoalloteichus spitiensis RMV-1378	PRJNA76807	Actinobacteria	Actinobacteria	5.71	72.40			AG VXD 1				2011/12/20	2012/05/31	Scaffolds or contigs
Actinobaculum sp. oral taxon 133 str. F0552	PRJNA173932	Actinobacteria	Actinobacteria											No data
Actinobaculum rnassiliae ACS-171-V-Col2	PRJNA52091	Actinobacteria	Actinobacteria											SRA or Traces
Actinobaculum schaalii	PRJNA52093	Actinobacteria	Actinobacteria	-	-	-	-	-	-	-	-	-		No data
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v Entrez Genome
□ Přehled prokaryotických genomů
Overview [8348]       Eukaryotes [2215]      Prokaryotes [14202]      Viruses [3212]
I-II-II-|l-
First Previous
Shown: 1 -100 out of 1309 items
Next Last
Download selected records
Organism/Name	BioProject	Group	SubGroup	Size	GC%	Chromosomes		WGS	Scaffolds	Gene	Protein	Release	Modify	Status
		Actinobacte |	— All Actini t I	(Mb)		RefSeq	INSDC					Date	Date	All _-rj
														
Acaricornes phytoseiuli DSM 14247	PRJNA174970	Actinobacteria	Actinobacteria	_	_									No data
Acidirnicrobiurn ferrooxidans DSM	PRJNA59215 PRJNA29525	Actinobacteria	Actinobacteria	2.16	68.30	NC_013124.1	CP001631.1			2089	1964	2009/D8/18	2012/01/30	Complete
Acidothermus cellulolyticus 11B	PRJNA58501 PRJNA16097	Actinobacteria	Actinobacteria	2.44	66.90	NC_008578.1	CP000481.1	-	-	2217	2157	2006/11/09	2012/01/24	Complete
I Actinoalloteichus spitiensis RMV-1378	PRJNA76807	Actinobacteria	Actinobacteria	5.71	72.40			AG VXD 1				2011/12/20	2012/05/31	Scaffolds or contigs
Actinobaculurn sp oral taxon 183 str. F0552	PRJNA173932	Actinobacteria	Actinobacteria											No data
Actinobaculurn rnassiliae ACS-171-V-Col2	PRJNA52091	Actinobacteria	Actinobacteria											SRA or Traces
Actinobaculurn schaali	PRJNA52093	Actinobacteria	Actinobacteria	-	-	-	-	-	-	-	-	-		No data
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v Entrez Genome
□ Informace o genomu
Organism Overview; Genome Project Report; Genome Annotation Report
Acidothermus cellulolyticus 11B
Thermotolerant cellulolytic organism
Lineage: Bac1eria|3351|; Actinobacteria|547|; Ac1inobacteria|547]: Actinobacteridae[502]; Actinomycetales[485]; Frankineae[11]; Acidothermaceae[1]; Acidothermus[1]; Acidothermus cellulolyticus[1]; Acidothermus cellulolyticus 11 B[0]
Acidothermus ceHuioiyticus strain 11B. This strain (11B; ATCC 43068) is the type strain for the species. The genome sequence from this organism will provide information on the regulation and production of potentially useful enzymes.
B Genome Sequencing Projects
♦ Chromosomes [1] V Scaffolds or contigs [Tj] ♦ SRA or Traces [ü] ^ No data [
Organism	BioProject	Assembly	Status	Chrs	Size (Mb)	GC%	Gene	Protein
Acidothermus cellulolyticus 11B	PRJNA58501, PRJNA1 6097	ASM1 502v1	o	1	2.44	66.9	2,217	2,157
Q Genome Region
j 500 K
* M IP M f
i n
11,200 K    I 1400 K    I 1,600 K    11,800 K
Go to nucleotide  Graphics FA STA GenBank
JUL_L
I II IIM   (MM II P (4     MM MIM MM tl   MIMM II tl I I I Itll IM II I   II    I I I <
It    II  III II I            II       III tl   I I M IM   IM  II M Ml I        III! II I I
I       III*   1*4                      I     I      I ■■■ftibilllll               t It I*
III                                            i III
:
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v Entrez Genome
□ Informace o genomu
Organism Overview; Genome Project Report; Genome Annotation Report
Acidothermus cellulolyticus 11B
Thermotolerant cellulolytic organism
Lineage: Bacteria[3351]; Actinobacteria[547]; Ac1inobacteria[547]; Actinobacteridae[502]; Actinomycetales[485]; Frankineae[11]; Acidothermaceae[1]; Acidothermus[1]; Acidothermus cellulolyticus[1]; Acidothermus cellulolyticus 11 B[D]
Acidothermus ceHuioiyticus strain 11B. This strain (11B; ATCC 43068) is the type strain for the species. The genome sequence from this organism will provide information on the regulation and production of potentially useful enzymes.
B Genome Sequencing Projects
♦ Chromosomes [1] V Scaffolds or contigs [OQ ♦ SRA or Traces [ü] ^ No data [
Organism	BioProject	Assembly	Status	Chrs	Size (Mb)	GC%	Gene	Protein
Acidothermus cellulolyticus 11B	PRJNA58501, PRJNA1 6097	ASM1 502v1	o	1	2.44	66.9	2,217	2,157
Q Genome Region
	200 K       j 400 K	SOLI K       [800 K JIM	1,200 K    I 1,400 K	1,600 K	1,300 K	2 M
*l1 . »1	1 M MMM tit ■        1 1   *   II 1 i      i   * i •   i •	1 M IP**   I lilt *l   111 11111* ■■■■111*11            II I 1             >■■■■<! (J III	111    m* (l   1 Ml 111 1111 II II        II   4*11*11   III IIIIII 1          111111*111*1 1 kid           ; *		* ■ * é íl* ■   i Iii i	Ulli 11*1 i      i* i i •j
Go to nucleotide  Graphics F A STA GenBank
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v Entrez Genome
□ Grafické znázornění genomu
NC_013209.1 [2,907,495 bases}
t I ^ Sequence | Q Set Origin |      Views & Tools »
Ý Markers
100 K      20O K      300 K      400 K      500 K      600 K     7O0 K
1,100 K    1,200 K   1.Í00 K    1,400 K    1,500 K    1,500 K    1,700 K    1,800 K    1,900 K      2 tň     2,100 K   Í.200 K 2,
Tt7
■ ■ ■
■ J » -i i> > ^    t   ' "ili" II
■  i    4    > ■   i i i  ■ h
ľ
4*1 i
■.....■ ■
i"
y.'......
858,480 : 944,630 [86,151 bases shown, positive strand] H * I ÍJ* Sequence | iL Flip Strands 1^0,41* Jk
860 K
865 K
670 K
1-
37S K
S3Ü K
-h
^ Tools ■ B85 lí
390 K
3:JF K
-r
:j[0 h
-t-
905 K
I.....
910 K
-r
915 K
920 K
925 K
i-
□ mpiete genome
S
=
Sequence NC_013209,1: Acetotacler pasteurianu
Gene?
APAO l _0S?3Q Z! b.   YPJ1D3187381. W
IYF 0C31B7354.1
|AFA01_Q8340 AFA01_0653Q | j VP 003187362.1 VP 003187381.11
APA01J03620 VP 003187389.1
APA01_0B320] VP 003187409.11
AfA01_Ce39C| VF CC31B7367 1]
|YP_0O31B737O.1
APA01_08540| YF_0C3167362,11
| APA01.08550 \tttNArlyr
AFA31_OS690| VF CC31B73S6 II
APAC1.033001 VP 3O313740ff.1l
^)    AFA01_OB3201 MAFA01JJB35C VP_003I973SD-1| H VP_QC3187363,1
PAC1.C8250 APA01.08360 ■ H APAC 1.03400
F 0031873531    VP 003187364.™ ■ VP 003187368.1
|AFA01_08570 [YP_003167384.1
IAPA01 _08650        ■ APA01 _08750 IYP_003187392.1    ■ VP 0O3137402.1
APAC1.03370 VP_003137414.1 HJ
AFA01JI83801 VP 003137415.11
ruaA I VPC03137359 II
APA01_0B37Ol VF 003187385.11
APAC1_08520| VP 0031 B73S0.1I
:
APA
| APA01.03630 I VP 003137390.1
A01_08610 VP_0C3187388.1
AFAQI_0827Ol 003187355.11
|AFAD1_06300 IVP 0O3187358.1
AFA01 Q6450 I
panG]
VP_003137373.1|    VP_003187383.1|
|APA01_0B59Q IVP 003187386.1
1APAC1_Q3B6U JVPJ103187393.1
[ APA01.08740 APAC1.083501 IVP_rj03187401 1 VP_003187412.il
AFA01_08810 D VFJ0C3187403.1 Q
■pur [J
■ VP 003187404.1
AP-i VP Ot
APAÍ
vp co;
Úvod do bioinformatiky, bioinformatické databáze
Ukázka záznamu v Ensembl
□ Anotace bu kary otic kých genomů
14     15     ÍĚ     17     13 19
5
Y   Y MT
L_J L_J     O     O tj
1      2      3      4      5      6      7      8      9     10     11     12 13
ďronosom* 19
Geiws.
■■■ EC Repeats
Variations
Úvod do bioinformatiky, bioinformatické databáze
5
^081^4812681299999999999124^^26682908
Ukázka záznamu v GOLD
□ Seznam dokončených a probíhajících genomových projektů
Complete Published Genome Projects: 1375
Arcliaeal: 94   P*"" Bacterial: 1148     E Eukaryal: 133
<< first < prev    12    3   4    5    nerf > last >>     100 -
GOLD ID	ORGANISM	DOMAIN	INFORMATION	SIZE	CHROM *	PLASM #	GC %	DATA	SEQUENCING CENTER	GENOME DATABASE	PUBLICATION	CONTACT
Gc01325	Saccharomyces cerevisiae S233c	B	FUNGI-ASCOMYCOTA Taxono mv Entrez		ie				Saccharomyces Genome Database			
GC0137S	Ferrimonas balearica PAT, DSM 9799	□	P RQTEQ BACTERIA-GAM MA Taxonomy Entrez GEBA CRENARCHAEOTA-	4279 Kb 3947 orfs	l		50%	CP002209	DOE Joint Genome Institute DSMZ	IMG-GEBA	Unoublished 2010-09-24	Wovke T
Gc01374	Vulcanisaeta distributa IC-017, DSM 14429	□	THERMOPROTEI Taxonomy Entrez	2374 Kb 2592 orfs	l		45.4%	NC 014537	DOE Joint Genome Institute D5MZ	NCBI	Unoublished 2010-09-22	Bruce D
			Isolation	MAP								
			GEBA									
Gc01375	Halomonas elongata DSM 2581	a	P ROTE 0 BACTERIA-GAM MA Taxonomy Entrez EURYARCHAEOTA-	4061 Kb 3556 orfs MAP	i		63%	NC 014532	Max-Planck Institute	NCBI	Environmental Microbioloav in press 2010-09-17	Kunte, H.J
Gc01372	Methanoplanus petrolearius SEBR 4847, DSM 11571 Sulfurimonas	□	M ETHAN 0 MICRO BIA Taxonomy Entrez Isolation GEBA P ROTE 0 BACTE RIA-EPSILON	2843 Kb 2881 orfs MAP 2153 Kb	i		50%	NC 014507	DOE Joint Genome Institute D5MZ DOE Joint Genome	NCBI	Unoublished 2010-09-17	Bruce D
Gc01373	autotrophica OK10, DSM	Q	Taxonomy	2220	l		35.2%	CP002205	Institute	IMG-GEBA	2010-09-15	Bruce D
	16294		Entrez Isolation	orfs					D5MZ			
GC01376	Spirochaeta thermophila DSM 6192	_l	SPIRO CHAETES Taxonomy Entrez P ROTE 0 BACTERIA-GAM MA	2472 Kb	l		52%	CP001698	Goettinaen Genomics Laboratory		Unoublished 2010-09-10	Liebl.W
GC01377	Dickeya dadantii 3937	B	Taxonomy Entrez Plant Pathoaen Article	4922 Kb	i			CP002038	J. Craia Venter Institute Univ of Wisconsin	Univ of Wisconsin	Unpublished 2010-09-10	Perná N
PROJECT TYPE DISTRIBUTION
SEQUENCING STATUS DISTRIBUTION
PHYLOGENETIC DISTRIBUTION
Úvod do bioinformatiky, bioinformatické databáze
T
Problémy bioinformatických databází
□ Vysoká redundance dat
□ Chyby v sekvencích
□ Chyby a nepřesnosti v anotacích
□ Propagace chyb během automatických anotací
o
Úvod do bioinformatiky, bioinformatické databáze
Prohledávání databází
□ Textové prohledávání
□ Sekvenční prohledávání
% NCBI
vložení dat
, Entrei, The Life Sciences Search Engine^
PubMed
All Databases
Human Genome
GenBank
Map Viewer
Search across databases linb
J^u^^ Help
0
tiú  PubMed: biomedical literature citations and tjt(á ,        ..    , .
abstract £J   none Books: online books
PubMed Central: free, full text journal articles (D   none OMIM: online Mendelian Inheritanci
>gi1115231735|gb|ňBI32Íie.l| LinE [Xjjvth otvoru fp. ICH1Í] HIL GflHňT gekkf IeIk GKPMň,YI de GT HIP ILFQHGHPT 3 3 VUOJEÍHIHPHCňC-LC-EÍLIňCnLI gmhj3d KLTiPS GPEPtfňraJJÍMTCKD^^ hie7ul77í7hdw &377l &fdk&PJÍHEEEU qgi AVMEWJTMPIJH
MJFPEIJTEEHrnAníS Q&GEELUL QDHtfFVE QULP C-LILEPL 3 EAET^VKEPTLA?! k2j1pítl 3 HPP. n
i pi ntm-ifi^mijiri ahitl ses pi pklf i b^ep galtt &imkdf r ptwphqte i tuagahf i med 3 fh ittl  Site Search: NCBI web and FTP sites (?)   none ipl? ONIA: Online Mendelian Inheritanc ElDAňlAíJVRE
A  Nucleotide: sequence database (includes ^
45 m GenBank) U
39 *#*#* Protein: sequence database (U
[7]  |J|  Genome: whole genome sequences (U
^ Structure: three-dimensional macromolecular m T- structures
e: gene-oriented clusters of equences
„„„„   A UniGen none
1-1 * sequenc
none   ^ CDD: conserved protein domain date
12 3D Domains: domains from Entrez
|none| UniSTS: markers and mapping data
prohledání databáze
□ 1: ABI93216. Report LinB rXanthDitiDnas...[gi:l 15291795]
D I: AARD597S. Report LinE ßphingomona...[gi:37963E83]
>gi I I gb|AAK05378 .1|  LinE  [Sphingoiionij piucimobilir]
MSLtUrjrHTJKFIEIXtKH^IircriT^
KLDPS &PĽEím^iPIimi!lIJHEäI^
ifflFPEQÍIÍlO-QmiSCr&im^QI^^
IPIAGTPŕl^MAPIjyAr^SESPIPiaXIJ^^
EI CAÄIAÄTifflEĽHPA
Úvod do bioinformatiky, bioinformatické databáze
□ SRS
□ DBGET
□ Integrují data z různých databází
□ Umožňují prohledání mnoha databází současně
□ Umožňujíformulaci dotazů pomocí logických operátorů
Úvod do bioinformatiky, bioinformatické databáze
Textové prohledávání databází
□ Entrez
Vyhledávací systém pro databáze NCBI
Integruje data ze 40 různých databází, pouze NCBI
o
*3 ncbi
o—, Entrez, The Life Sciences Search Engine
PuhMRrt
All Databases
Human Genome
GenBank
Man Viewer
Search across databases Minta
Help
44
PubMec
abstracts
79 j^) PubMed Central: free, full text journal articles me| Site Search: NCBI web and FTP sites
45
£^ Nucleotide: sequence database (includes
GenBank)
39 *#*,- Protein: sequence database [4]   ill   Genome: whole genome sequences
P. I AST
|jj Books: online books El OMIM: online Mendelian Inheritance in Man O □ MIA: Online Mendelian Inheritance in Animals O
none   £^ UniGene: gene-oriented clusters of transcript gi
-' sequences
none| CDD: conserved protein domain database (?)
0$ 3D Domains: domains from Entrez Structure_(3
Úvod do bioinformatiky, bioinformatické databáze
Textové prohledávání databází
□ SRS
o
Vyhledávací systém pro databáze EBI
Umožňuje prohledávat i databáze jiných institucí, databáze
uživatelů či databáze výsledků vybraných výpočetních nástrojů
EMBL-EBI	
Databases	Tools
▼ Enter Text Here
			
1 Training	Industry	AboutUs	Help
qq Reset © 6've Advanced Saarcti feed!
SRS
Start a Permanent
Library Fags     Query Form
Tools
Results
Projects-
Views
Sil-: IrdL-ř   -Pi M;
Databanks
Quick Text Search
Search Tips
Project
Find : j Nucleotides T| matching : JEnterText Here
Úvod do bioinformatiky, bioinformatické databáze
Textové prohledávání databází
□ DBGET
■ Vyhledávací systém pro databáze LinkDB
■ Umožňuje mj. prohledávat databázi metabolických drah KEGG
DBGET Database Links
Glycan ÍJGAND Compound Reaction Eiizyiuo
—
BRITE SSDB LIGAND
PRF PMD CnrbBnnt
	PDBSTR	AAindex
		
Prosíte     MotifDir Plkm Blocks     ProOom PRINTS
Úvod do bioinformatiky, bioinformatické databáze
Ukázka textového prohledávání
□ Vyhledávání na základě klíčových slov
1258
152
96
Search across databases
mouse[ORGN] AND kinase AND (exons OR introns) | GO 11 Clear | Help
Result counts displayed in gray indicate one or more terms not found
125S| ^jj
and abstracts
312
PubMed Central: free, full text journal articles
ed ({3   Site Search: NCBI web and FTP sites
13□ I Books: online books
GMIM: online Mendelian Inheritance in Man
none
GNIA: online Mendelian Inheritance in Animals
Nucleotide: Core subset of nucleotide sequence records
m EST: Expressed Sequence Tag records
1211   IQ*   GSS: Genome Survey Sequence records
96| Protein: sequence database
none) dbGaP: genotype and phenotype
Sa UniGene: gene-oriented clusters of ^ *      transcript sequences
none
none
^   CDD: conserved protein domain database .t<
Structure
Úvod do bioinformatiky, bioinformatické databáze
Ukázka sekvenčního prohledává
□ Vyhledávání na základě sekvenční podobnosti
Sequences producing significant alignments:
>pgb|AAT70109.1|    CurN [Lyngbya majuscula] Length=341
Score =   303 bits  (777),    Expect = 8e-81, Method: Composition-based stats. Identities = 148/297   (49%),  Positives = 188/297   (63%),  Gaps = 8/297 (2%)
SEIGTGFPFDPHYVEVLGERMHYVDVGPRDGTPVLFLHGNPTSSYLWRNIIPHV-APSHR 60
I + FPF        VEV G    + YVD G      G PVLFLHGNPTS5YLWRNIIP+V A +R LPIS SEF PFAKRTVEVEGATIAYVDEG—SGQPVLFLHGNPTS5YLWRNIIPYVVAAGYR 98
CIAPDLIGMGKSDKPDLDYFFDDHVRYLDAFIEALGLEEVVLVIHDWGSALGFHWAKRNP 120
+APDLIGMG S KPD++Y      DHV Y+D FI+ALGL+++VLVIHDWGS +G      A+ NP AVAPDLIGMGDSAKPDIEYRLQDHVAYMDGFIDALGLDDMVLVIHDWGSVIGMRHARLNP 158
E RVKGIACME FIR PI----PTWDEWPEFARETFQAFRTADVGRELIIDQNAFIEGVLPK- 175
+RV    +A ME + P P+++ F+    RTADVG ++++D N F+E +LP+
DRVAAVAFMEALVPPALPMPSYEAMGPQLGPLFRDLRTADVGEKMVLDGNFFVETILPEM 218
CVVRPLTEVEMDHYREPFLKPVDREPLWRFPNEIPIAGEPANIVALVEAYMNWLHQSPVP 235
VVR L+E  EM    YR  PF R  P    ++P E + PI  GEPA      A V WL SP+P
GVVRSLSEAEMAAYRAPFPTRQSRLPTLQWPREVPIGGEPAFAEAEVLKNGEWLMASPIP 278
KLLFWGTPGVLIPPAEAARLAESLPNCKTVDIGPGLHYLQEDNPDLIGSEIARWLPG 292 KLLF       PG L P L+E++PN +      +G G H+LQED+P LIG    IA WL
KLLFHAEPGALAPKPVVDYLSENVPNLEVRFVGAGTHFLQEDHPHLIGQGIADWLRR 335
Query	2
Sbjct	41
Query	61
Sbjct	99
Query	121
Sbjct	159
Query	176
Sbjct	219
Query	236
Sbjct	279
*w
->w ->w Jw
'17
'17
'|7
' |7
spIP59336IEHAA RHOSD Haloalkane dehalogenase >pdbllBN6IA Chai. splP0A3G2IDHAA RHORH Haloalkane dehalogenase >spIP0A3G3 II>HAA_. pdbllCQWIA Chain A, Hai Cocrystallised With Haloalkane Dehalo. spIQ9ZER0IDHftA MYCSX Haloalkane dehalogenase >emb ICM10076.11. orb IAAV70825.1    HT2 [Expression sector pHT2]
reflYP Q01675030.il alpha/beta hydrolase fold [Shewanella hal. reflYP 734675.11 alpha/beta hydrolase fold [Shewanella sp. HR. reflYP 001473250.il alpha/beta hydrolase fold [Shewanella sed. reflZP 01736514.1 alpha/beta hydrolase [Harinobacter sp. ELB. reflYP 733656.11 alpha/beta hydrolase fold [Shewanella sp. HR. reflYP 001502590.il alpha/beta hydrolase fold [Shewanella pea. reflNP 717353.11 hydrolase, alpha/beta hydrolase fold family . reflYP 750057.11 alpha/beta hydrolase fold [Shewanella frigid. reflYP 25SS79.1I hydrolase, alpha/beta hydrolase fold family . reflYP 001761524.il alpha/beta hydrolase fold [Shewanella woo. reflZP 01341154.1 alpha/beta hydrolase fold [Shewanella bait. reflYP 870347.11 alpha/beta hydrolase fold [Shewanella sp. AN. reflYP 129676.11 putative haloalkane dehalogenase [Photobacte. reflZP 01221358.1 putative haloalkane dehalogenase [Photobac. reflYP 001365757.11 alpha/beta hydrolase fold [Shewanella bal. reflYP 552379.11 alpha/beta hydrolase fold [Shewanella denitr. reflZP 01397365.1 putative haloalkane dehalogenase [Horitell. reflYP 001049934.il alpha/beta hydrolase fold [Shewanella bal. reflYP 943362.11 alpha/beta hydrolase fold [Psychromonas ingr. reflYP 001182970.il alpha/beta hydrolase fold [Shewanella put. reflYP 001554014.il alpha/beta hydrolase fold [Shewanella bal. reflZP 01706252.1 alpha/beta hydrolase fold [Shewanella putr. reflYP 954030.11 alpha/beta hydrolase fold [Shewanella sp. ¥3. reflYP 510562.11 haloalkane dehalogenase [Jannaschia sp. CCS1. reflZP 01216824.11 hydrolase, alpha/beta hydrolase fold famil. reflYP 001093340.il alpha/beta hydrolase fold [Shewanella loi. reflNP 106032.1 haloalkane dehalogenase [Mesorhisobium loti . dbIAAT70109.11   Curll [Lyngbya majuscula;
reflZP 01055470.11 haloalkane dehalogenase [Roseobacter sp. H. reflZP 01617455.11 haloalkane dehalogenase [marine gamma prot. reflZP 01592200.11 alpha/beta hydrolase fold [Geobacter lovle. reflZP 01911259.11 alpha/beta hydrolase [Plesiocystis pacific. reflYP 001230772.11   alpha/beta hydrolase fold [Geobacter uran.
;Bits	Value	
429	le-118	
424	3e-117	
424	4e-117	E
422	le-116	
415	le-114	
■-■>	8e-86	E
318	3e-85	
317	6e-85	E
317	6e-85	
316	9e-85	E
316	9e-85	E
315	2e-84	E
315	2e-84	E
315	2e-84	E
315	3e-84	E
315	3e-84	
314	4e-84	E
314	7e-84	E
313	8e-84	
313	9e-84	E
313	9e-84	E
313	le-8j	
313	le-8;	E
313	le-8;	E
312	2e-8j	E
312	2e-8;	E
310	7e-85	
310	9e-8;	E
	3e-82	E
307	8e-82	
306	le-81	E
303	8e-81	E
303	8E-81	
303	le-8C	
302	2e-8C	
300	7e-8C	
300	9e-8C	
30C	9e-8[	E
Úvod do bioinformatiky, bioinformatické databáze
Y
Problémy prohledávání databází
□ Textové vyhledávání
■   © chybné, nepřesné či obecné anotace
© synonyma
■ © velký počet falešně pozitivních a falešně negativních výsledků
□ Sekvenční vyhledávání
■ © podmínka evoluční příbuznosti
■ © větší nároky na uživatele
■ © potenciálně falešně pozitivní i falešně negativní výsledky
□ Vhodné je oba přístupy kombinovat
Úvod do bioinformatiky, bioinformatické databáze
Reference
□ Claverie, J-M., & Notredame, C. (2006) Bioinformatics for Dummies (2nd ed.) Wiley Publishing, Hoboken, p. 436.
□ Xiong, J. (2006) Essential Bioinformatics, Cambridge University Press, New York, p. 352.
□ ENTREZ tutorial: http://www.ncbi.nlm.nih.gov/Entrez/tutor.html
□ SRS documentation: http://srs.ebi.ac.uk/srs/doc/index.html
□ NCBI handbook: http://www.ncbi.nlm.nih.gov/books/NBK21101/
□ UniProtKB manual: http://www.uniprot.org/manual/
□ NCBI: http://www.ncbi.nlm.nih.gov/
□ EBI: http://www.ebi.ac.uk/
□ Pubmed: http://www.ncbi.nlm.nih.gov/pubmed
□ Web of Science: http://apps.isiknowledge.com
Üvod do bioinformatiky, bioinformaticke databäze
Reference
□ GenBank: http://www.ncbi.nlm.nih.gov/genbank/
□ EMBL-EBI: http://www.ebi.ac.uk/embl/
□ DDBJ: http://www.ddbj.nig.ac.jp/
□ UniProt: http://www.uniprot.org/
□ nrdb: http://www.ncbi.nlm.nih.gov/protein/
□ wwPDB: http://www.wwpdb.org/
□ Entrez Genome: http://www.ncbi.nlm.nih.gov/genome
□ Ensembl: http://www.ensembl.org
□ GOLD: http://www.genomesonline.org/
□ Entrez: http://www.ncbi.nlm.nih.gov/sites/gquery
□ srs: http://srs.ebi.ac.uk
□ DBG ET: http://www.genome.jp/dbget/
Üvod do bioinformatiky, bioinformaticke databäze