4/5/2009
	Molekulárně biologické databáze			
	Pro zajímavost, nebude součástí zkoušky...		Důležité, pravděpodobně bude u zkoušky... O	
				
Molekulárně biologická data
MaĚá^ĚmíáÉklišéam
M*JtJi«^^
______JL_____
Molekulárně biologická data
MALDI-TOF
Identifikace proteinů
Sekvenace proteinů
Molekulárně biologická data
NMR spektroskopie
Molekulárně biologická data Výkonné technologie:
Automatické sekvencování
MALDI-TOF
NMR spektroskopie
Proteinová krystalografie
Výrazný nárůst množství biologických dat.
Ye.ulv Growth of To til Structures
■>        ir.\     i:c:     is           ::.:::     :=.:>:     \i\:\     ;s:c    ±::c     :■:::     ;: >::     rr :
13.1.2009 55271
PROTEID   D-ATA   ŕAMK
Éra reverzní genetiky
Klasická genetika

£
^
Reverzní genetika
Automatické DNA sekvencování
Fenotyp
Genotyp
Genotyp
Produkce velkého množství dat
Fenotyp
BÍ7201 Základy genomiky, podzimní semestr
dygenomikyjDc
O
Molekulárně biologická data
Nutnost organizovaného ukládání a skladování dat.
Nutnost prohlížení a analyzování uložených dat.
Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu.
V širším smyslu jsou součástí databáze i softwarové prostředky, které umožňují manipulaci s uloženými daty a přístup k nim.
O
Analytické nástroje Vyhledávácí software
Nutnost snadného, rychlého a specifického vyhledání informací.
Srovnávání dat (sekvencí)
Sequence alignment - „seřazení" sekvencí.
L»VHTArKAlPYAHAADRQBLlr.LPIDDAPH*UTFVGH£HDGVILL- - FT LS IT CO K HI B
IFJHTDrRMPFAHAAKGflHIHLFIGDEuHPJUtľKFLTTRDGFRH- - ÄTLHBflHÖKIlFE
L řt HIE řCV TAL TM AA ÍJ]] Q T I CI VI DDO P K r JUL T r K [í A GA Q D Q rí L CT T. V LD<G NCHV1 V E [. P P N I JLpQV TaL VHS S A P (j T ľ RV PV ľ/J D i: P Kí AXT P Q GA GT QD AH Llf T QI V W 3 ^ t. C K V K V V
L PF n - a. Pg - - -LBDaad-QCLXLIiiD-p-P A A trtjng- -- - -1 -t -tin j g ti 5 K 1 F,v*
ASAKaHvflATCjMlLfrPLSACS......T Vil L S H L C AIDS AEJk DTHDGIV T LflHF IT
VSVSBKPSATDAXLAP rKSKKfiriGfiPPTIfHPST V V SMOK D fi CTHIK3I vvlqvpig
VhTA.NGF.PSP. L^TR^V C r FKK 5........YFC I I G f.EEGADDDlf NDGI '-VL HUPL ::
■JTA Jf OJC y il ť. I "!   B-"-V !' I Vi. ľ. T........VVQLVtlJIBIiaUDaOVHSajAlLHírPLU
viaiíGip-Sat - - P.-----ifkks......tvy£G±vjaeEGaDa.DYHDGIvi[,qVíPig
Rozdělení molekulárně biologických databází
Databáze: Primární Sekundám Strukturní
EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIP VLPDPTTLQERN RYIT VEL S N S DTE SIEVGIDVTNAYVVAYRAGTQSYFLRDAP S SASDYLFTGTDQHS LP FYGTYGDLERWAHQ S RQQIPLGLQALTHGIS FFRS GGNDNEEKARTLIV11 QMV AE AARF RYIS NRVRVSIQTGTAFQPD AAMIS LEN NWDN LSRGVQESVQDT FPNQVTLTNIRNEPVIVDSLS HPTVAVLALMLFVCNP PNIVEKSKICS S RYEP TVRIGGRDGMCVDVYDNGYHNGNRI HflWKCKDRLEEHQLWTLKSDKTIR SNGK
£
O
Ribosome-inactivating protein, subdomain 1
Ribosome-inactivating protein, subdomain 2
Ricin B-like lectins
Rozdělení molekulárně biologických databází
EDR PIKF STEGATSQ SYKQFIEALRERLRGGLIHDIPVLPDPTTLQERNRYIT VELSNSDTESIEVGIDVTNAYVVAYRAGTQSYFLRDAPSSASDYLFTGTDQHS LP F YGTYGDLERWAHQSRQQIPLGLQALTHGISFFRSGGNDNEEKARTLIV11 QMVAEAARFRYISNRVRVSIQTGTAFQPDAAMISLENNWDNLSRGVQESVQDT FP N Q VTL TN IR NEP VI VD S L S HP TV AV LALMLFVC NPPNIVEKSKICSSRYEP TVRIGGRDGMCVDVYDHGYHHGHRIIMWKCKDRLEENQLWTLKSDKTIRSHGK
Databáze: Primární Sekundární Strukturní
Primární databáze obsahují anotované sekvence NA nebo proteinů.
O
Rozdělení molekulárně biologických databází
Databáze: Primární Sekundární Strukturní
EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIP VLPDPTTLQERHRYIT VELSHSDTESIEVGIDVTNAYVVAYRAGTQSYFLRDAPSSASDYLFTGTDQHS LP FYG TYGD LERWAHQ S RQQIPLGLQALTHGIS FFRS GGHDHEEKARTLIV11 QMVAE AARF RYIS NRVRVSIQTGTAFQPDAAMISLENNWDNLSRGVQESVQDT FPNQVTLTNIRNEPVIVDSLS HPTVAVLALMLFVCNP PNIVEKSKICS S RYEP TVRIGGRDGMCVDVYDNGYHNGNRIIMWKCKDRLEEHQLWTLKSDKTIRSNGK
£
Ribosome-inactivating protein, subdomain 1
Ribosome-inactivating protein, subdomain 2 Ricin B-like lectins
O
Sekundárni databáze obsahují informace odvozené z primárních
databázi ve formě charakteristických vzorů sekvenci, tj. funkčních
nebo strukturních motivů získaných srovnáním primárních dat
(sekvenci).
4/5/2009
Rozdělení molekulárně biologických databází
Databáze: Primární Sekundární Strukturní
Obsahují struktury proteinů (nukleových kyselin) a jejich anotace.
O
Rozdělení molekulárně biologických databází
Databáze: Primární Sekundární Strukturní
Genomové zdroje
Total species (5023)
Viruses.  Eukaryota        Archaea
2105         1759                  72
Bactena           Viroids
Total records (9315)
Viruses   Eukaryofr
3249            1015
17:1 c-irií
;3—.
Rozdělení molekulárně biologických databází
Databáze:
Specializované
Univerzální
#x#>x'
Specializované databáze obsahují informace o určité
proteinové rodině nebo skupině proteinů, případně
o určitém organismu.
Rozdělení molekulárně biologických databází
Databáze:
Specializované
Univerzální
4h*>
Univerzální databáze obsahují informace o proteinech (NA) ze všech organismů.
Rozdělení univerzálních proteinových databází
Univerzální databáze:
„Skladiště" sekvencí- sequence repository
„Manuálně" spravovaná - curated database
Rozdělení univerzálních proteinových databází
„Skladiště" sekvencí - sequence repository
Kromě sekvencí obsahují málo nebo žádné dodatečné informace.
Záznamy generovány automaticky.
Proteiny mohou být zastoupeny několika různými záznamy (sekvencemi) = „nadbytečnost" (redundance) sekvencí.
Rozdělení univerzálních proteinových databází
Manuálně spravované - curated databases
Záznamy obsahují dodatečné informace.
Informace jsou před vložením do databáze validovány experty.
Všechny záznamy o stejné proteinové sekvenci jsou sdružovány do jediného = non-redundant dataset.
Rozdělení	molekulárně b databází	ologických
• Databáze:		
Primární		
Sekundám		
Strukturní		
Genomové zdroje		
Složené databáze		
Složené databáze
Složené (composite) databáze:
Slučují data z několika primárních databází.
Eliminace redundantních dat.
Různá priorita zdrojových databází podle kvality validace a anotace (eliminace redundantních dat z databáze s nižší prioritou).
Molekulárně biologické databáze
Nucleic Acids Research
http://www3.oup. co. uk/nar/database/a/
Database Collaboration			
Codi	o and	on-codina	DNA
Gene	struetu	re introns	andexons.
solle Tran	sites	al reaulato	sites and
trän s		factors	
RNA		ce databas	es
Genomics Database Metabollcand Sign;
n-verte brate) ng Pathways
and other Vertebrate Ger
Expression Databases Proteomlcs Resources Other Molecular Biology Databa;
Plant databases Immunological database
1170 databází
EBI/NCBI/CIB
Instituce zabývající se shromažďováním, správou a poskytováním dat a informací a vývojem analytických nástrojů.
EBI
Evropský institut pro bioinformatiku
NCBI
Národní centrum
pro biotechnologické
informace
CIB
Centrum pro informační biologii
National Center for Biotechnology Information         Center for Information Biology
http://www.ebi.ac.uk/         http://www.ncbi.nlm.nih.gov/   http://www.cib.nig.ac.jp/
O
EBI - Evropský institut pro bioinformatiku
European Bíoínfarmatlcs Institute
•   Založen roku 1992 jako součást European Molecular Biology Laboratory - EMBL.
•   Sídlo v Hinxtonu ve Velké Británii.
Wileamitt tili EBI
NCBI - Národní centrum pro biotechnologické informace
National Center for Biotechnology Information
National Library of Medicine                        National Institutes of Health
Založeno v roce 1988 jako oddělení Národní lékařské knihovny (National Library of Medicine - NLM) v USA. Součást National Institutes of Health - NIH.
I WhildouHCBIdn?
EflM*shec1 m 1936 as a naüdmallesouce ľäf řrtOl*Cuiůi biplO« iňftjnnobť*. NC8lO*rr*i pubic ctatabases, conducts research n ťOŕňpgU&trtíl biCttOgy, Ů*i¥Wt HhVt v:.\ V.-.; aru.; :<\ omo™ rials and DsHwrunaleH brarwäcai irt/riaviyi   ďi Ir»
CIB - Centrum pro informační biologii
Založeno jako oddělení Národního genetického institutu (Blií jOlš^íft^Př, NIG) v Japonsku.
f^^i Research Organization of Information and Systems
ľ* National Institute of Genetics
http://www.nig.ac.jp/
H IfíUJ .-■ ri ."J í  :'?-.>_=i (.tact-		/*
QDMA- Data hit if Jawi ZUKO-MDICEH KrU UiCrin b hfawnian J3QwrtarWwu-im[htJi»tafl3M	Blhmdmk. G— Epmii DalA— ■Him HrnwAli* Da-riuu* - RuQnin Ditáus UyBBuaa) Erol Cfcnone DaJraw VED>	
		LL   DM* Lata tent
		ÍÍ   E .Í1.Y.VLŮ FTuÍĽtl
		^E ha h« d* Fr? cel
Primární databáze NA
EMBL - Evropský institut pro bioinformatiku
GenBank - Národní centrum pro biotechnologické informace
O
DDBJ -   Národní genetický institut (NIG)
@*VKr,.]f'JBS»*HA   «HS- M í AM í»«
EMBL-EBI
EMBL
EMBL
NUCLEOTIDE
EMBL Nucleotide Sequence Database (EMBL-Bank)
byla založena roku 1980 jako první databáze
nukleotidových sekvencí.
Obsahuje sekvence RNA a DNA.
Zdroje sekvencí: vloženy přímo autory, genomové
projekty, patenty
This morning the EMBL Database contained
244,322,213,780 nucleotides
in 153,137,008 entries.
This morning = 21.1.2009
EMBL-EBI -j! g •
Total nucleotides
(current 244,322,213,780)
EMBL
EMBL
NUCLEOTIDE
Number of entries
(current 153,137,008)
The dots on the map have different colours according to the taxonomy of the specimens: P Eukaryota   y Bacteria  y Archaea   y Other   y Mixed
TU
X5fi754r   S7- Ir   lineacr ^KHÄ;  älJ;   řLTTr 1S53 Eř.
£Pí7S4r attsřtr
EMBL „entry"
JI      1Z-EEF-1K1   ÍPftl.   Í3,   ĽĽtBttl)
Ľ3      aE-W^T-řOCfE  £Bel.  S5[ LBSE ypifltelt 'ŕtĽSltCl 11?
XX
l£      T:i^iliLCf. Lepena nffilTS řeč ncn-íi_BníL5eniíi beta-slu__síí_&ť
as
í-S"      LetB-3luc_&i_>2e.
XX
:£      iĽiítliuci Leperii-  ŕt-ďiite >ilu7ei_-j
KT     E_£BC__,ta; "ŕli-liiplírití-s-;  StLS-ptsplj_tB," L_-Ľj.rĽ,jii_tBf  J_B_rietpii;_tBf
Oíľ      SpeĽiBtcfir_tB: ĽBjatlltfíGtB; t_lie,cr_l_:_n£; :;rs t_lie,c.r_le:_ri£; coalda;
K      bu___ta I; rteEŕ_le&; E&LB&eBe: EapllitnclleBe; Jdfeilese; J ci Sil lun.
EX
HT      [5]
BP      1-1:iď
■X      IUBKEJ;   1SG7511.
Rä      Ofttclŕy E.t Uucin H.£.t EtanticrĽít £.t ftujKa B.i.f
EJ       "tfucls-ťils- ani ieci^el ralnc. a_il sequence tí the a^ancgenla
S3      LetB-?luG_-i_ise  íliriÄieĽBseJ  ices „hite clsťfec CJlí^íIíucí iíj-stis L.]";
HL      Plant Ľ_l,  Hol.   17{ÍíííOS-řlSíl331].
XX
m      [t]
as        1-1SP3
ľ."-.      :-:;;:-.ií e.í.í
SI       r
KÍ      S_ciitted   Í1S-HW-133PJ   ta ttisr EHEL/SertEant-ŕJQEU _«taLa&es.
Rl      [tidies K.M. t Uni-řecsity cí Hsvcsstls 'Jp;ci J_=ner Keli__l  S._ri_elr ffsv&_2tle
HL     Vpcn Iyner  HE2 4HRr  Hf
L.-Hiíí?
/hbí tyge^-ansfi.-
e_t_~:=-iea—s-
Translation = proteinová databáze
.__-i.-,::--ŕ_*_jŕir I Ifllll  III --;  -"i.n^^ivj-'jiimtjmrľMBMiiľ-f.iJĽBaaťmrT.fjnnii.Pi)
lSSl=SH»fl51ílíiiJf^ii_::i-."i:^.^^í."rKiiiŕffJifl-
i = adľ/ľl*Tlil   dí:.=-:I-
» BFj €&9 B,- 3 L* C; 355 S; SSL T; * cE&ei; lacs. tCůt&js.a3n -catattcgct ct^ítugtca "if"i"r í í jtiľ^-iitT &i_rt_aig:: etcí^-:'rr  .~:^?í:ít gíšij-sí^g; icg^EMSX ~xc~c_xa —£———£ r-e_cc3Jí KKCÄge™. &ec2zteis&
r:c53í;iii araí333=.-3 gašpar" aajKaccae? —£j£££i3x tcca istíte* caa^íä&saT: _rrT_:irr:= t?íi^^:-2í isscsc^gac ncíj-ats^aĽ rcjcaaeetr;
tcq^sou^a. uaececc&i äqtfLpaiä^tc zp^q^aqqe Maauccac? a-an^MEcaa
Formát EMBL databáze
i _nti Citation ac£e__ion nunEiec FĽijscí Ltoritifitc
	
EST -	_efecexic« r__ec
SC -	iífirĽermt Gauneri;
SP -	_erecexic« p__itlima
ee -	_eftL.er.rSt ecfraa-zefEcenu
ES- -	: tit-er*, s ...up
SE -	_efecei-_« ffjtÍjULí&j
SI -	lefeLenat title
HL -	lefeLenat lQoatlici
Cfi -	Í2t2£2&s e.:srs-ieis^saeí
	
f lnfüma^lüii
■  festu» table he alec
■  íeatuĽS table data
■   ApBC'SB' ILih
■  rsiwsrics LiSä'IsrĽ
■  tcrjtiy.'ítrjsttu'it line
■   [blBXitai aei^usnat data
■   -íĽJilrioLLui llrte
<Legln& each entcj; 1 per eatt^i
ta^. pet: eiicESI
ÍO cti- 1 t'Sľ siíL'i ;■
{9 fe? entcyi
ía^. pet: eiitĽy}
■ ;*"1 per entEYí
cr^L ptr sany>
ía^. pec entzy}
íľ! rpr- 1   ppr PTir.ryj
{SH. pec eatĽYj
íí^í pet «icľyJ
Ís^L pec entĽY?
{s-4 pec enecY}
ís^í pet enCĽYj
í 5^[ pec entcy}
ís^. pet enCĽyJ
ís^. pet enCĽYj
ií^f pec entcyj
í 5^[ pec entĽY?
í& ďd 1 set «lCey!
í& ďd s^. pet «nncyS
{9 pe? entcyí
ís^ per? entry J
íl peí «íCey!
ÍS tĽ SH. pec entcyí
ís^. pec encryj
Formát EMBL databáze
m    -íľi-i 17 <l>: <2>: <4>; <£>; <£>; <1> BF.
The toKens is pies tnt:
1. Pr m£ry icceaal on num&ar ä. s stí u t n ce vt rs c n n u m D s ľ Í.TíRílogp'cľrculsr'írlIrresr' 4.MolQQjlatj?pa 5. Data class S.Taororrlc division ľ.S6qu(iice lenyJi
ED     0(73331}.,- 37 t; lünt; senmďc DU; JQ&: HUI; ÍOQ B?.
http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html
	Formát EMBL databáze
duša	CffiľjitiLíi
«I	EntĽsr t_n_t_u____. £cui aE_n_nt tritLy asípisiKSře úcauliig
	ai__u£atiüri tcon atgitfit srĽrľita
m	Ľr.tĽjf a_»afecM_t«d. fcea KQH^r.b _ntcy «{«lutf _ltľi líc &m
	anucatlon
nr	fct^nt:
Ľ__	Empľ£____l äťtrujenc« Tsí
ai	Sf nexs S lc~í / £ s _usľitis
ne	fuQľi HuťJQtiput CEfta aeí_i_i__ir^
he	jJJjti ItuťJQtiíut €eii_n? aet__en_in_
USA	naa itľúrrs amcr-anan
V9B	ííhcl: äencfie   Qhat_rzi
m	IhlĽi latEbsf Znncttactlan
ífTff	SFíTJťTlftP   TH__H]    31TP
BD	_,tBT_lB_d fe_l _-ntĽ±srr rařt _lia_ifl__. aa _t:"í';
http://www.eb	.ac.uk/embl/Documentation/User_manual/usrman.html
Formát EMBL databáze
Ba_teĽl u_iin_í	E1&
HjTflitaiientai s_api_	Efly
ŕJTiSSl	im
IhXlBTi	tHJĽ
ĽrreeĽtet-ĽBts	DT5"
Otbeiľ bb-dbL	HfiK
Ctbeir YfeĽCeEfĽBEe	TBI
IT"j& ľiy_&_lu&	HH
E3_tt	ELÍT
WiolBaaifl«l Tlafl
im:
http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html
GenBank
Založena roku 1982 v rámci institutu NCBI.
GenBanK^ls me INIH cenellc sequence database, an annotated collect on of all publicly available DNAsequences iNt/astctouts Reseamn zoot, Jan satpaaaeias issue', pas^oi. There are approximately 85.753.566.764 bases In B2.B53.ses sequence records In lie Iradlllonal GenBanK: divisions and 1oe.B3S.73B. 141 bases In 37.433506 sequence records In Ihe WGS division as of February 2009.
Sample GenBank Record
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
E	USyl Sample GenBank Record
UKOJ	JicHiHi           [Tilt tap         Kin                             FL::               S1-JW-1SH
Dt n if ir ioa	
	lAXVfl   »r-d Jt*Tp  IftEVTj   pin».   friPfL«t C4t,
-	DUMB
VptlW	rjiMft.i   amantii
nncffii	
SOURCE	Sicciiiiccavctj  Gerrv.ii.Li*   i biI*L-' j  y*uch
cüakism	£i-=e>i=«aye*í ecrcvLiLi*
	EuYtritfli;   fungi;   SHten;Wt*ř   5*4cíi*:envc«lrii ř   SHAUCaWOIrDUl
	IiGöitraPvcm M«  Icccm rc^ycrC*«« ř  UbBém^mí.
?E rfTPEKCE	1      4bif*i   1   K  ViJřl
UIKM	Trip*?, L. E.,   5-iitn, P. C. F   Wr-ljoii, J.   xnd  LévutciiL*, C .W.
TITLE	CIůíiíj  i-i 9*cfj*ue «1  PZV7,   x flí-t u!mm  í'.-ííí.:-  i í  ří~"_irtd  í: =
	■■B   rtinni-lmtiv^l   HUfmiJi    in   WiftifM|pi   ">""■'<•'
-:-::,-.-	hlll   10   [lij,   1JPJ-14PI   ľ'.SHr
PUBHED	TíTlí^n
HLTBJK9	J     JbAiei  1  w  iliíi
IDTKtU	fr">T   T        WjJdU:   T        i">..T.r-   r      *'■+   JrLVl*r   i
TITLE	SiliiTis-  i*  mil  7:auTh. ti-.u  i-  ^iin  ít^jini íyLIe,   i  -■■.«el
	
OOOMU	MCM   HrT.   lí   l^h.   IT'-TÍS   ŕiSUr.
p ran. r	IMftU
FErTEPEKCE	3     4b*fEI   1   tu   132 PI
!■■ TM: ť	Rntntr,T.
TITLE	Dicrci iutnijiai;ji
«nw	Sutaicc*!  <2J-rES-líäí)   r*r:ľ íuBtr,   Eiolrjav,   Vil*  DJLLVii:jiryr  Jf«
	■ivi^   CTr   "Ju
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html	
Sample GenBank Record
-
VEP3TW
:-;e ivsaDS
SCÍTECE
urerupta
«.t::: f :
TITUL
ĹZm:-iiZiz            IUI tap
5iccí!i.iccayG*.j ooro-vxiii iWCJl   »r-d JU*Tp  J«VT
uiiit».:   amin«
S1CCÍ1É.IÍOVC4J   ccrtvj.
£i-=e>i=«aye*.í errcvj.
nccn*riw«t# :<*,- s 1 4bii*i 1 W C424] lupi.l.I.j ÍJĽbta»Ff Claiiij i-i 9*cfj*ut EHJL 1Hil|jl 1i I i 11 n mit íu im. UH-
TÍT1Í9ÍI
j-    4biii«i i «i í:;í i
L cdjr   inú Jttlir
F"."ľrii;
ttmiKt
JAUTHW5 TITLE
GcnBink Divil«™   -
GenBínk **P«íi *t PI
if atürewann UVusetsmftE
J Rcn
ei Moutncii
i-t.t;ci:ä   :í  i
ml  í
rt^n  Div,   Lf  fTJ,   1
IMftU
T     4b*IEI   1   tu   132 PI
4  VHT-
5  IJV-i
6   r^U-pl^.ruii^ ml ^sequence* T SCT - bactwul uquenu?*
$ VfH. - Hr.-. rjeijJfŕnĽes 9 ŕH& - tiaclenopriagr- -vrqtdfKt^ 10  £TT1 - SfTttrCtlC SCqtKfrL»
11. UTK n uiannoOlíí] sequences
iľ ESI   t S ľ sequences (eíoccsmíI sequence lags)
U KAi   patert tequenc e^
14. STS < STS sequences (sequence lagged uteš)
1í. CSS < ess sequences (penMne suvey seuuenees}
1Ö. WTŮ ■ HTŮ sequences (hah ihnou^pjuf uerKine
Eivir:J   Cťlr   'JÜ
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
S^DDBJ
DNA Data Bank uf lupán
:w
■v,i
DDBJ
The DNA Data Bank of Japan
•  Původně zahrnovala data především z japonských výzkumů.
•  V součastnosti úzká spolupráce s ostatními databázemi.
u
ODSJ SV m
kyp*
bT?      I
.
^I'tN Ü^l^'t-i International NuGleotide Sequence Database Collabor;
DDBJ DMA Dala Ba* of Jspsn
C IB-DDBJ Cwitor far hforsaüan Biatav-nl DNA Data Bank
of Japan
ND Haemal httiluto of QmtiH
EBH fďurapaon BnhiorBatic* halRuta EHBL: Ei>nf»an Hobcuhr Bbkajy Ldnralary
ffitttlUĎnaiGmter for BfortedrnDbfyhforHtion J Lijrenr of H
http://www.insdc.org/
Primární databáze proteinů
• Univerzální databáze: „Skladiště" sekvencí - sequence repository Manuálně spravovaná - curated database
Příklad:     GenBank versus RefSeq
National Center for Biotechnology Information
National Library of Medicine                              National Inetitntes of Health
Primární databáze proteinů
ůeriBarilí
Hol emoted
Autiroi autmifU Only sjíthc-f can levÉe
Multiple records Ibr same loci cqubuot Recoidk can conüedrcl sect olfcei Ho- frail to apecJas ÍDcJudad
Usla. exchanged among LNSDC members Akú k» primary ffleiElme
Proteins identified and lidsd
Access via NCBI Nucleotide databases
Curat ed
NCBI createairom existing data NCBI isviaea aa aew dkla evmeige Single records, ibi aadnBoracuTs of majo*
Limned lo model organisms
ExcTiBive NlCBX dalabaas
Akin lo lavfew articles
Prolans and transcript* identified and linked
Access, lis Nucleotide it Protein databases
GenPept - GenBank Gene Products Data Bank RefSeq - Reference Sequence
PIR
Primární databáze proteinů
PIR-PSD - Protein Information Resource Protein Sequence Database.
Nejstarší univerzální „curated" databáze proteinů. Komplexní, non-redundant data, rozčleněna podle proteinových rodin a nadrodin, doplněna funkčními, strukturními a bibligrafickými daty.
http://pir.georgetown.edu/
suife^sí Swiss-PROT + TrEMBL    -'vV
Swiss-Prot - j,Cutared" databáze založená na Univerzitě v Zenevě v roce 1986. Spravovaná Švýcarským institutem pro bioinformatiku (SIB -Swiss Institute of Bioinformatics).
Vysoká úroveň anotace >==> vkládáno více sekvencí než je možno manuálně anotovat a zařadit do databáze.
TrEMBL - Počítačově anotovaná data, odvozená z kódujících úseku sekvencí v DDBJ/EMBL/GenBank, která ZATÍM nejsou zařazena v Swiss-Prot.
O
suihKgfot Swiss-PROT + TrEMBL
-V V"'
• Anotace:      Funkce
Katalytická aktivita Podjednotky Domény
Biotechnologické využití Sekvenční homologie Posttranslační modifikace Reference atd.
http://www.expasy.org/sprot/
Složené databáze
Databáze: Primární Sekundární Strukturní
Genomové zdroje Složené databáze
Složené databáze
SULI
Složené (composite) databáze:
Slučují data z několika primárních databází.
Eliminace redundantních dat.
Různá priorita zdrojových databází podle kvality validace a anotace (eliminace redundantních dat z databáze s nižší prioritou).
Swiss-PROT + TrEMBL
OWL (Swiss-PROT + PIR + Genbank + NRL-3D)
m       m
riProt,   UniProt ■& *
UniProt KB
P,   ||p  ,|  -■■                ;■.,..
I , ľ S ■ 01K š i-. ',! -ŕi-ŕl
Jf P'tiKE'fE'.IEL
UnlParc seoHKeniHw
2002- spolupráce mezi EBI, SIB a PIR http:/www.uniprot.org
Sekundárni databáze NA a proteinů
Sekundární databáze obsahují informace odvozené z primárních
databází ve formě charakteristických vzorů sekvencí, tj. funkčních
nebo strukturních motivů získaných srovnáním primárních dat
(sekvencí).
•   Vyhledávání „vzoru" charakteristického pro určitou skupinu proteinů.
•   Možnost predikce funkce proteinů.
O
Sekundární databáze NA a proteinů
• Databáze mohou obsahovat:
Proteinové DOMÉNY odvozené ze známých struktur
Proteinové sekvence seřazené do SEKVENČNÍCH RODIN
CHARAKTERISTICKÉ MOTIVY odvozené z těchto sekvenčních rodin.
LFPtfTAPE/sIFYANAADRQIÍLXLFIĽD. IFPHTDFEAIFFANAAEQQ.3IKLFIGD, LFPHIKFGVTftLTHAAJIĽQriĽIYIĽD: LFPHIAFGVTftLVNSSAPQriEVFVĽD
[I Ifr ■!< .HI lij ■* ■ | ^ l^i ■ ^ E^ *'"*llB " *^U
Sekundární databáze NA a proteinů
• Sekundární proteinové databáze:
PROSITE, Pfam, PRINTS, ProDom,
SMART, TIGRFAMS
V současné době sdruženy do integrované klasifikační databáze proteinů InterPro
http://www.ebi.ac.uk/lnterProscan/
,     ; ti* v> A     |        H.frĽ.iŕ^     |        .M'L UirJ.T^   ,       fc-.;.-il Ľ« .ťnsrt    "^   |       LJU'"; ~'iť'l'H ťi\i
SEOULHCE: Jtnjuw.r 1 CKCW: MHlADM«11AD2t: (.CHUTI
"»•"      m men
Sekundární databáze NA a proteinů
• Sekundární proteinové databáze:
PROSITE, Pfam, PRINTS, ProDom,
SMART, TIGRFAMS
V současné době sdruženy do integrované
klasifikační databáze proteinů InterPro
http://www.ebi.ac.uk/lnterProscan/
•   Sekundární databáze NA
TRANSFAC
4/5/2009
Strukturní databáze
Nucleic Acids Research
Í.OQQ MAR DdTiíbjiu Summitry PaiPĽn; CalĽgrory Libí
u DdLdtidi-i: *
.  ■    ■■. Hiw;iy¥ HumiH »id rďTwr ■, e -ItL- Jlt Gii.-TH:
Human rie«= and ľHí«i=c=
HLrpjrrjM/ Ran and attwr ňpnu FiprŕKKmn DatJlĽiKŕR
PntMnK* RemurĽťa
Pdift dďtjfriiíi [mmurtt*jgjcj* í« * Jí*i
http://www3.oup.co.uk/nar/database/a/
Strukturní databáze proteinů
Nucleic Acids Research
:.di research b Datobai* &
JÍUU'J HAK Dtitctlírtse Summary F'duer^
Nudeulidt: 5 «wem« ťdtdLd^Li ITJi LijgiJL-rn.ij lIjLjIijlul Prafmn wqijorw« darahaí«
MTLHUJI u LUL Jtl JLĽL-SlľVlII irwlLtUrĽS
DiiPrai ■ Daufras« of rrorcin Diorder
Dim Ľ n c - Cutaban of Dfni'-i [nptnisni «Hu« ■ &wr*d* i::<*\ DÍNH    a DbWmi* «H £irr L-NJĽ ■ LN ■ liat-í-rn:l±o.
rF nlr     FlnIi:Un!ii   -.i.lTr :il *■■■■
EI=atOS
r.-«(íc h--:
ŕrf*etn stUKUlf C
aOjrř ■ irr rtrrmimj ítmn,
ArdiM
i Z" ',!■ .
]hhTT..snn„„t,„r nn
]NOTdb
Mil
Inn.....rin :,l::n:T '.'
: ,:(  : f, i...
CfflrSNP
ĽclurrM
i ::■......r ::í
CPDS
HiLISiH :'::íl,:::'?jst
*olMovDD ■ Curit-ssE cr N-Krnmtf«íular fostmírrs
^-~ L^.rrt*^^[
PRlOTEIN   DATA   BANKí
PDB - Protein Data Bank
j- Hennen cftheSPDB       MyPDD: Login | Register
An Tnfljri7|Ht'""  BOlfaJ *~" "'"'"ÍIKU1  Marmninlgnibr StNJCtUreS
í^fÓÍfuesday Feb 17, 2&D9 S! there are 55941 Structures^   |  PDB Statistics4)
Databáze obsahuje experimentálně získané struktury proteinů, nukleových kyselin a komplexů informačních biomakromolekul.
o
http://www.rcsb.org/pdb/
PDB Current Holdings Brea			kdown			
		Mokcuk Typ*				
	Pioteirrs	HlkWc Aetft	Proier.NA Compos	aha		Tůtíl
Xn<i	«705	111G	ZOW		2i	J7WÍ
NUR	&72Ů	ej*	11?		7	ff11
Exp,    Electron U*4H«I MitíOitOpy	14fl	i&	55		0	JIT
Otv	H	5	i		2	107
Totti	5167.1	1J73	2351		H	65*11
PDB formát
PC* File Formac
■ ■* jíuu li J > I -d-f U^řt-ílrj I-
PDB formát - původní formát databáze.
1997 - mmCIF (macromolecular Crystal log raphic Information File).
Záznamy jsou v databázi uloženy v obou formátech a volně stažitelné.
PDB formát - rozeznáván téměř všemi programy pro práci se strukturami.
PDB formát
Abrin
tr
								
]   c	CLU A	■a	iix	a. tit	ii	197     1	H  7*	H
								
i   cm	CLU A	■a	Mil',	3.114	>	ÍD1    1	i m   1-,	if.
								
T    ÍD	CLU A		32!	Í.ÍÍJ	n	í US    1	i m   1..	'.m
								
í   «:	CLU A		DU	1.6a»		TIS    1	i m   JI	LH
								
IL    K	CLU A	D	Tit	0.J91	■i	ífii    1	i m  ■/.	MM
								
10
	Strukturní databáze NA	
	Nucleic Acids Research	
	A-OUFTW»««™*.      tSNTMTTHUJMN*!      lUlKIWr»«»                                        flUHir»!	
	■•"':'" NAH Databasesummarv lepers ■i.i «'.Uč S*qumcÉ DHrtnui ßru SBOuCrtíC djUtuniL; Protein *Cgu«A« dJHrřajís Stnichir* natalMK« Strdi íTlůlMiiĚS CHtXftyAltU Miu   i- nridrrU rtiirr vHTlRv MoTiC-iríriHl Irtf-Kri^s in Rh* V/iy'rifl/ íní FE>rü5r: -:..- ■■     ■;■. UiUundHi ;ivi  :..  "-.Hi 3£.3 ■;, [:k-N:mnIu-..I<IjI«.<i:íI...... :rf NNA Vir.ř+rdb	
NDB - Nucleic Acid Database
n
WELCOME TO THE
NUCLEIC ACID DATABASE
Number of Released Structures:
4089 Structures
Last Update: 15-Jan-2009
SI Ä»; !'JÍLKST-T í«. ]*
http://ndbserver.rutgers.edu/
Íl
.rm.?mi».pnrff,«i'ľM,)v.n;MJ!w
ýw r r r r r=;
TfcřPli^fcUlů^fůrBDFKÍ, Ětrind>)ŮŮC T ä G)
of Nucleic Acid Containing Structures
X-Ray Atlas
•   Gallery Index
•   Index Listing [text only] NMR Atlas
•   Gallery Index
•   Index Listing [text only] rtea fallen
Musical Atlas "aU
The NDB Atlas provides summary information and images for each structure in the database. These images provide many looks at the varied structures of nucleic acids.
The Atlas is first divided by experimental type, and then by structure type. Features include:
o images of the asymmetric and biological units and crystal packing pictures for nucleic acid structures from X-ray crystallographic experiments
: images of the average and ensemble struct u re from NMR experiments
o links to coordinate files, experimental data files
o tables of derived data, including torsion angles and hydrogen bonding : as e ""::". : ":
: special features for RNA structures, including images of secondary and tertiary structure

:   :■
i of the NDB Atlas feature
available at "About this Atlas"
Genomové zdroje
Nucleic Acids Research
í Nucleic: Acids Research > Database Summary Paper Categoi
2009 NAR Database Summary Papers Category List
Nucleotide Sequence Databases
RNA sequence databases
Protein sequence databases
Structure Databases
Genomics Databases '"non-vertebrate"'
TIGR Gene Indices
EBI, NCBI - genomové databáze
Genome annotation terms, ontologies and nomenclature
Tasonomy and identification
General genomics databases
Viral genome databases
Prokaryotic genome databases
Unicellular eukaryotes genome databases
Fungal genome databases
Invertebrate genome databases
Vyhledávací systémy
Nutnost organizovaného ukládání a skladování dat.
Nutnost prohlížení a analyzování uložených dat.
Databáze je určitá uspořádaná množina informací ř^...      (dat) uložená na paměťovém médiu.
-j^r      V širším smyslu jsou součástí databáze i
softwarové prostředky, které umožňují manipulaci s uloženými daty a přístup k nim.
Vyhledávací systémy
Textové vyhledávání v databázích
NCBI - Entrez
http://www.ncbi.nlm.nih.gov/Entrez/
rez is the integrated, text-based search and retrieval system used at NCBI for the major databases, including PubMed, Nucleotide and Protein Sequences. Protein Structures. Complete Genomes. Taxonomy, and others.
http://www.ncbi.nlm.nih.gov/Entrez/tutor.html
O
Pub feed
ľ     ^^  WWW. /
A servics c: [h; V.r. >~E:[cn = l 1 :"■:!•=ry c:" ľ. Ižc-i :::"■-= and thsXľicľ:! lľ-i:::u:-:-i c:"rit:l:h
. pubmed. gov
PubMed is a í?mc; cf ::ie V 5? >"?.::-::::-.l L:':::-.:;  :: .■■.tdL^in^ chat includes over 1S million citations from MEDLIXE and ochtr !if= scitiic* journals for biomedical articles back to 1948. PubMed !3=:"uir? 'h'-:^ :c fu" :r:r a_-":c!r-= a^id c::i=r -r!a:rd rr^Gur=:r?
Enrre?. TJie L/fe Sciences Searcfi engine
III    — -H* ,
Search across databases |ab*wi
J[»]|S=]»
--i.:■.',■,-•■■> i^z-i/rí •■ y-ij .-S-Ti't :«■;<■-■;■; !t'ninr,;i.-i			
,,,H    |-rt    Pubtted: hinmcdi»! kei-amre < ilk mm and	H	4      |J     flunk*: Niiliiir bunk»	«
ílh'í     m    PubHrd {»Imľŕirrjul  Ir ir jiiiirr-I nrlidri	0	1      "^    IIHIH: Grlrr Htnhfan tfthtrH-nft m Hin	»
........     (ft     ««■= *"" t- HW1  -rfa íní FT* ^il»	„	"■>nw|  Jjfr  0«IA: *^l*fl Hfln*fc^ Jrhr.inrrr « Airnn^h,	■■'
I     "■*■_   EST: DoHEiMd Sequence Tap rtconii
"^■ii".    3j"   G-SS: G*-iam*. Survey Secuen« rsícťs
26  *™ijÉ  Fralcki: Boqu*nce dot«boso
n um'    |]|    Oněm«: *Wft DifWfli* »quifK«
.,   ■&    Structure: rhree-dTienskiraJ hiktluhIh
"C"   rtruc;i.-ts
i:......   **   laiHiFniFiiv! nrrj^P:iiFrt m On R* n h
II M?    1MB   SNP: vnair i:uílrui dn rttrŕnaéhijrfi
........     ^   dbC-l»: .jUTHJn«. Jnd ph*ruEVPfi
A   UtiiCorHS ppiB-í'ifrtKÍ JuHrn ul írarav'ŕ
'   '^   «h|i.i»tk»*
i:::-i.-    j*   CDD: ccnisfved rxwsir*domain daub«»
ID   a^   DD Domain*: co-nairs from Ľrtrei Sinfcture
i     i ■    rp-   UmSTE: rraiVen ap*S mnpprfl daca
iMJrť   °U   Piw&eüpopjinnjintiHlyJatiirts
■   ,ŕi   GCO Profile i: ejp^tsiisn and iKJŕculnr
■   ^ ™   nbundar-ic srnŕlíä
IkfWlŕ'   «ji   fjíl 0#il«flc-|*:  rip- i"in !nl -.rl-, tf C.Fti :l,iln
s/?s
• Textové vyhledávání v databázích EBI- SRS
Sequence Retrieval System C25 http://srs.ebi.ac.uk/
Vyhledávací systémy
•  Vyhledávání podobností sekvencí
Textové vyhledávání může selhat (nedostatečná
anotace).
Vyskytuje se shodná nebo podobná sekvence
v databázi? (Identifikace možné funkce na základě
homolog ie.)
•  Specializované nástroje (algoritmy) pro „seřazení" (alignment) sekvencí.
LffM-EXf FA:r,:MrAAr>aflDl.C^TII.ÍJ,FltfjTT,GXIlI13VHD     -FTUllEGtLlftll ^MTrlF^rrfcPTÄAtrOKIELT^ilIjirM^ELTrBrZPBE      .1-LlllciííHilI
L f f h i r f :vTj,[.Ti<u.irc{T:D[ii2|3Pi|i|T»cii3>^]; ;:l ITI.TLllcriMTI LlfSIAl-CVTKCľB'S = l.rJ|TIEVr1f?iUFriHTT^GA.31í]3K>rC.BT{>:T3VCK|E<r|l,V
lPPi,-*řC--    liai.i.d-lJ-lklriJli-p-řAlteta*D--------lt-Tl-aagarjkikv*
ÄB*|Mt.3iATii*lLAií-l.sxcn......~ v:..;-:. :,I
iBvMtolKTL-rii;-: ::■■■ .'■ '        ir--.,r,a:,-,r-,:-i:
OTHjfUi|RLEitgvi>:rHt........Tŕň: i-= 7* \l*«j:7ÍE3cri|,cv-D:rtiT........ttUvüiI
Shrnutí
•  Výrazný nárůst množství biologických dat vede k nutnosti jejich organizovaného skladování a analyzování (databáze).
•  Instituce pro správu dat a vývoj nástrojů pro analýzu: EBI/NCBI/CIB
•  Základní rozdělení databází: primární/sekundární/strukturní databáze
•  Textové vyhledávací systémy: Entrez/SRS
O