Molekulárně biologické databáze Pro zajímavost, nebude součástí zkoušky... Důležité, pravděpodobně bude u zkoušky... O Molekulárně biologická data Molekulárně biologická data MALDI-TOF iL'Ur Identifikace proteinů ■Ě Sekvenace proteinů Molekulárně biologická data ÍM NMR spektroskopie Molekulárně biologická data Výkonné technologie: Automatické sekvencování MALDI-TOF NMR spektroskopie Proteinová krystalografie Výrazný nárůst množství biologických dat. Ye.ulv Growth of To til Structures I E.Sľľ m*M LS.[[h 2I.IE1 IS.(DJ ä],]:( äS.Mf. ll £■>■■ EWU . . . ; f 13.1.2009 55271 PKOTEIK D-ATA ŕAMK Éra reverzní genetiky Klasická genetika Reverzní genetika Automatické DNA sekvencování Produkce velkého množství dat Fenotyp Genotyp Genotyp Fenotyp BÍ7201 Základy genomiky, podzimní semestr dyaen^mikyjDc O Molekulárně biologická data Nutnost organizovaného ukládání a skladování dat. Nutnost prohlížení a analyzování uložených dat. Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu. V širším smyslu jsou součástí databáze i softwarové prostředky, které umožňují manipulaci s uloženými daty a přístup k nim. O Analytické nástroje Vyhledávácí software Nutnost snadného, rychlého a specifického vyhledání informací. Srovnávání dat (sekvencí) Sequence alignment - „seřazení" sekvencí. LPPWTAFKAI FYAHAADRQBLlr.LPI[>DAPH*UTFVGH£HDGVILL- - FTLITI V. Í-CK.IR I E rFrHTDFRMrFAHAAKQtfHIULFiaDEQHJjmľKFLTTRDGFRH- - AT LHflfl Hfl* I * F E L Pf HIE Ja\ TAL TM AA í/]] Q T I CI Y I DO:) P 7. F JUhT r K C Jl GA Q D Q rí L ET K V L D (íl HQRVI V [ [. P P N ľ A P ■."; V TAL VHS B & PQT ľ F V PV D|>H P>: P AAT P Q QÄ QT QD AH L H T QIV K S ÍU! G K V R \" ľ LPFn-aPg----Linaad-QclXLIiiD-p-PAAtrtjBg------1-t■fclKŠgndkiLN ASAH0Il3EArDAlLAFI.EAGD......T VH L S tfL G A EEG APA DTHDGIVI LflHF IT VSYHaKPgATDAKLAPľNGKK£I]G£?7TUMPgTV7£BDaKpKDTllDaiVVLQtfPI(: VKARGKP8RL&5HQVllIPrKS........YPQII G SBEQA0DDTHDGIVFfcHWPLG VTABOi. v 9 k i «a ny v u i vx. k t........y ľ bl v r? jí b d du do d v hdq j a l i, HRP Li! viaiíGip-Sat - - E-----ifkks......tvyf GivjaEEGaDB.D¥NDGIviLqNPig Rozdělení molekulárně biologických databází Databáze: Primární Sekundám Strukturní O EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIP VLPDP ITLQERHRYIT VEL S H S DTE SIEVGIDVTHAYVVAYRAGTQSYFLRDAP S SASDYLFTGTDQHS LP FYGTYGDLERWAHQ S RQQIPLGLQALTHGIS FFRS GGHDHEEKARTL TV 11 QMV AE AARF RYIS HRVRVSIQTGTAFQPD AAMIS LEN HWDH L S RG VQE S VQDT FPHQVTLTHIRHEPVIVDSLS HPTVAVLALMLFVCHP PHIVEKSKICS S RYEP TVRIGGRDGMCVDVYDHGYHHGHRIIMWKCKDRLEEHQLWTLKSDKTIR SNGK Ribosome-inactivating protein, subdomain 1 Ribosome-inactivating protein, subdomain 2 Ricin B-like lectins Rozdělení molekulárně biologických databází EDR PIKF STEGATSQ SYKQFIEALRERLRGGLIHDIPVLPDPTTLQERHRYIT VELSHSDTESIEVGIDVTHAYVVAYRAGTQSYFLRDAPSSASDYLFTGTDQHS LPFYGTYGDLE RWAHQ S RQ Q IP L GLQ ALTHG IS FF R S GG HDHE EK AR TL TV 11 QMVAEAARFRYISHRVRVSIQTGTAFQPDAAMISLEHHWDHLSRGVQESVQDT FP H Q VTL TH IR HEP VI VD S L S HP TV AV LALMLFVC NPPNIVEKSKICSSRYEP TVRIGGRDGMCVDVYDHGYHHGHRIIMWKCKDRLEEHQLWTLKSDKTIRSHGK Databáze: Primární Sekundární Strukturní Primární databáze obsahují anotované sekvence NA nebo proteinů. O Rozdělení molekulárně biologických databází Databáze: Primární Sekundární Strukturní EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIP VLPDPTTLQERHRYIT VELSHSDTESIEVGIDVTHAYVVAYRAGTQSYFLRDAPSSASDYLFTGTDQHS LP FYG TYGD LERWAHQ S RQQIPLGLQALTHGIS FFRS GGNDNEEKAETLIV11 QMVAE AARF RYISHRVRVSIQTGTAFQPD AAMIŠLEHNWDNLSRGVQESVQDT FPHQVTLTHIRHEPVIVDSLS HPTVAVLALMLFVCHP PHIVEKSKICS S RYEP TVRIGGRDGMCVDVYDNGYHNGNRIIMWKCKDRLEEHQLWTLKSDKTIRSHGK Ribosome-inactivating protein, subdomain 1 Ribosome-inactivating protein, subdomain 2 Ricin B-like lectins O Sekundární databáze obsahují informace odvozené z primárních databází ve formě charakteristických vzorů sekvencí, tj. funkčních nebo strukturních motivů získaných srovnáním primárních dat (sekvencí). 4/5/2009 Rozdělení molekulárně biologických databází Databáze: Primární Sekundární Strukturní Obsahují struktury proteinů (nukleových kyselin) a jejich anotace. O Rozdělení molekulárně biologických databází Databáze: Primární Sekundární Strukturní Genomové zdroje Total species DK\ Dale bant ÍÍ E -*::- j-lü PiitĽi.1 *- ■:■■■-z:-.--. .-■ Primární databáze NA * EMBL - Evropský institut pro bioinformatiku Q nn * GenBank - Národní centrum pro biotechnologické informace El NCBI • DDBJ - Národní genetický institut (NIG o EMBL-EBI EMBL EMBL NUCLEOTIDE EMBL Nucleotide Sequence Database (EMBL-Bank) byla založena roku 1980 jako první databáze nukleotidových sekvencí. Obsahuje sekvence RNA a DNA. Zdroje sekvencí: vloženy přímo autory, genomové projekty, patenty This morning the EMBL Database contained 244,322,213,780 nucleotides in 153,137,008 entries. This morning = 21.1.2009 EMBL-EBI -j! g • Total nucleotides (current 244,322,213,780) EMBL EMBL NUCLEOTIDE Number of entries (current 153,137,008) TU S5íi7S4r S7- Ir linear,- ^KHÄ; älJ; ÍLTT,- 1S53 Eř, 2Efi73ir SitSřfir EMBL „entry" JI 12-EEF-13S1 [Bel. 23, ■ĽĽtBttl) m 25-HW-řOCfE (Bel. 35[ Last n__tMlt Ttn-sltn 11; XX l£ ldíľílIíuci Lepena nßfif íľľ ncn-ůYariíLsenia. fceta-řlu__sí;_&e IE KE1" Letfl-yliJít&iiase, XX ■.■a Jd^tliiATi Leperii- ŕt-ďiite cltřfSLí EC E_£BL__,ta; "rlciiiplanteff 3.tĽeptepii_tef L_-Ľj.rtjJi_te,- JĽeaľietpÍJíte,- CC SpeĽiBttpirŕtB: ĽBjatlltfíGtB; e_.iíicr_l__:i£; atĽe e_.ie.Lr_le:_ri£; ľc.íJs; Kľ eu__-id& I; ľBťsle;-; EbLaaeBe.- EBpillüricileat; J ľ1 idles e; Kl-íCuIIw. sa ETT [5] KS 1-1:íí B£ lUBÍEIŮr 1SG7511. Rä í-KcLty E.t 2unn K.£.t EtanticrĽít £.t ai_tKa B.i.f SI "Tuclettile ani As_l?el ralnc. __il sequence tí the >iirBnc.g:*rji>i S3 Letfl-ylijít&iiase íliriaieĽBseJ íľcä „hite slĽ?ec íIľííľIíueí Leperii- L, í '; 2L Plane Hul. Dial. 17{2)i2C>ä-213il331). XX RH" [t] Bf 1-1373 Hl Hughes Ľ.i, ; S_ciittel £lä-fTE^-133tiJ tt tlis i:^_ ?sr.=ír.í ľ::." _-._r:££ií: ttitftiss E,*,t Uni-řecslty _í flew.:es ti «r líp c n J_=ner Ľeii__l S._ri_elr Vpcn Iyner HE2 4Hrlr W .'s ;iŕils L. JBS? / CE—Eľ-TIBEt H.- Translation = proteinová databáze /My ŤTľTit _.~"ľ-°- i -■= - r v' ^-- --i^- — -_- 5_j_t_t_.aL Bessils T*er>rdeíi" í 8Pj €59 S,- 3L4 C; 355 Si SSt T; ft oEfeer; 5É__a££ EEatE_cs_c catattĽ_ra. c£_m_tta ttagctcäCt Et t wcasa4äí:r &i_rEg.2~i3: 3ľí3L^Tr^r i~:j^7-^:lt ;:.el::t;í3 !.5■ J psí? entr?) {»4 pec s:.;l":"' :="L pec s:.;l":"' :■■ J per sr/íLV"- ;*■ J per sľ.'íL-."-{Q or 1 ps:- nrcz?] {d zľ :="L per eiicz?] f? per KitiyJ i="j per *:.;"■"■ ■ z'.LTiy p*í BntB^i fl ;*: encz?] fQ : L" SH. pec sntrfj ís^. pet enncyj fernla eauíi eriLĽj;; 1 jmti; ceiLľ^í Formát EMBL databáze ID íls-i 17 íiä-i i&; <4>; <£>; <£>; BF. Ths ť; 1-3 n s is p is s s nt: 1. P r rriEir aecissl o n numbar ;. s ští u s n os vs rs E n n u m c s r Í.TíRílogp'cľrculsr'írlIrresr* AMílaculatjpa 5. Data class e.Taiororrlc ilvlílon T.Ssquinealsngíi ID OWaKlIj 37 t; llunt; qenoiLc EHt; H14: HHb ÍQO B?. http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html Formát EMBL databáze .l__l_ ĽefinitiLíi cor EntĽ_" t_n_t_u____. fLüfi ae_n_nt tntcy así_JsiKísc Irä^iag an_u£atiün tcou atgient sn^Ľita ANT Cr.tiv &_n_t__ľ_t_d. fcea ciicfir.t _ntcy a»_£iu«a _i.tfr i?ff cm ■■■BBaxlai nr fct^nt: BE Ehpľ£____l ä«tpjenc« Tsí «3S fenaií Suupey Sí^jsnct BE Hi_h ItuťJQtiput CERä aeí_i_i__ir^ HB JíJjh ItuťJQtiíut 2írt^f.s aci_jen_ln_ ■H Kaa €«rifi(i« amer-nnon fan ííhcl: äenene Qhat_rzi s TUasri p-icti Zr__ct_ti(ya STA ÍFí_i*nftp TbjjkI 31 iv KD _,tBT__B__, fBLl í-ntciffř ritt _l_a_ifl__. aa abt^eí http://www.eb .ac.uk/embl/Documentation/User_manual/usrman.html Formát EMBL databáze Lf_Lct«Lff_t]a_e EHS HirflEcamaitaL 2a.if.ls am- I'iZfil na l_ian UM I~f__r__b__(Cí 1W Otbec a___L HaH Ctbeir —ercffütacff "rar IľUŕ ľlUS&UlU& KT£ ílent EU" li^na__iiLi: ITQQlBSSiSlei TinL http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html GenBank Založena roku 1982 v rámci institutu NCBI. GenBanK^ls me INIH oenellc sequence database, an annotated collector! oíall publicly available DMA sequences ifwc e c■■;■: ;■? --sss ■■;■■ Z-m Jan a* Ja;aPase Issue. P2S-3a>. There are approximately 85.753.566.764 bases In B2.B53.6es sequence records In me Iradlllonal GenBank:divisions and irje.BSS.7S6.141 bases In 37.433.206 sequence records In Ihe WGS division as of February acme. Sample GenBank Record http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html Sample GenBank Record -.ms SttHBHi iOíi km on PU <: -.--:: -::-■=? IHtLTl «44 ÍC*Tŕ (W1) «tí?. fw*lít* rf*. M 1MB ülMlt.i ŮÍ=l}M*lt ::v:-^ = :. 3 tmtt GSfOKISH SllC^lICSyCtJ CEfEVI9ZIC it*lEr'a IÍĎÍI ;^Ktrv3t?í rvngi; ií?e™vf5V*ř mécjim*».1«^**; jteunirMipřiurt; tiíeíii-íe*v«« l**i tiecfitrOttťerE^e«**; j«ín*rt*ry«» r smutnět 1 IbftfM i u (Gíjjj ;,v7..lť: Tc ETjtj ,1. C r , Jíľíj, ŕ. C., liíijuj-. ,w, *nJ Lufraac*, C .H. HILL Cl-siiis lii *e«njsi:t «f EXT7, 4 ľcr.í "^:-± í _n .'i i: r. li :r±«{ui.EE«L f«: 3HA J«"iií- j.rf^fT'l r«itfli)tpt# i a i« J*C4)>kivi>yeq* vMilMM T+*l*r. 10 im, Hŕí-ltO* I'.IIHI WHH amanai í JI.4I4I 1 H 5Í J ti ítt: : l ;: Sr^^r-r- r WídrlBT T r>-»Tin .7. omri In-yriŕ-T- " HILL Iclcjiiir. tí 1114i {■■:■.':!■ "ii-ts it "tur sesfjisea íoíllp. ■ r:,r;L flij-j tazntzibt ^1 yrapiBliib JflWK. Cue? Pí-'- 10 l?hd m-7M (iílír i -:--:: tMCtiU .«»>n^:: r 3 4E-™rrľ. inu Sirtzŕ JčJtaui eJlGji ■»"■■■ 1i:hni - i-iH f 17 .ttí, 1 -jqíi T>t-V tnnvr Unlrvjv 'ľf rniiF-iiT( V«r "EVE3. crr Dľsn. http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html Sample GenBank Record ircfla annoni s:íi bf. cm ĽErumICfll 3icc2ii.:o3yíCJ oozevislhí 7.CF. IHtLTi *c-J JtvTf ÍJUVTJ «t*: ftOCOKH oiííit VMiitra HfMt.l ÄTtfCftEJ CELřjriíTi SHeESiEiayetT íhtevi SiLfcarV::Liií fVnOtř 14 L ::/. ::.■. ;.xLJ; G*nBjnp EJhŕriiim tu» rt«EĽ-«-1 f jtŕrfŕTAJlwH-i ri ums eaamfít umu :i irTLĽ -"- 1 ■ (ííjjj ..m kí:: r .v.-r:::: k. 7c rítj, 1. C r, J: ci J. F Clauig ir.-i *eejuce« KCl Juauf-lFjgwit ŕ TOrL 10 1111, 1)0)- WAH í stauen 1 7a m::. 3L:*r±z.r., :!i;n:..ľ. Iclcjiiir. tí 1114i i ííHMtí 3 (t*-?« 1 =4 10311 >-™rrľ. Iriqphi!■■ ■■■!■. '•'■<■ A VRT - cnhef w*trbfdr «HjjnĽrt 5 IJV - irirrlEfcijfr írouerĽiľ; S Pi H - planí, hingir and ilpl MqujjpT ŕ HCl - baĽcciul iŕoueraK B "ľFÍI - bVnJ ^ftyiortctn S PHG 10 STH- 11 UfU - inarvi« jim sequences 12. EST n t 5 r sequences (ejjjxesstd sequence ms) 13 PAT ■ patert sequence* 14 ETS ■ ĚTS MqueAces (sequefKe logged ítes) l£. GSS ■ CÜS smucf^cs. (detxhM vj7=-r Hnucncel} 10 n TO . i ITC UqucfK«ft Oflh H-r^ajul «jtnraťic http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html C^DDBJ The DNA Data Bank of Japan DNA Data Bank uf Jjpm ^DBJ • Původně zahrnovala data především z japonských výzkumů. • V součastnosti úzká spolupráce s ostatními databázemi. • • itional Nucleotide Sequence Database Collaooratit DDBJ: DHU Dala Bafcol Japm Cm-DDBJ: Oontor far hforsaliaii Bňtav«Hl DNA Oab Bank of Japan KB Hationaf httiaitai of QanatiH EBt fjirapkan Buňfarautica halRuta EHBL: Empn Hobailr Bbkajy Laboralny NCBtHjtimalGBiitBrtnr Bbtsdnibifv hfnrHlni i L bar of H http://www.insdc.org/ Primární databáze proteinů • Univerzální databáze: „Skladiště" sekvencí - sequence repository Manuálně spravovaná - curated database Příklad: GenBank versus RefSeq National Center for Biotechnology Information National Library of Medicine National Institutes of Health Primární databáze proteinů GeiiBank Nolcmaledl Autitoi subuafo Only suthc-f cao leväe Multiple lecoidkioi samekíci cqubuot Recoidk cao coiüedrcl each olfcei No- finál to species ÍEcJuded Usla. eKcLfiHsed among INSDC membei» AJdo l£> pimjHij ffleiElme Protein* identified and linked Access via F CSC Nucleotide databases Cmaled HCEC deolsafiom »dating dfeJa. HCEC levsaa aa new dala. euietge Singjeiecoidkioi eacbmoTecuTecfmaio1! Limned to model oigaräms Exclusive NCBX database AJÓD to levíew atticlea Prolans and üBEäcripla identified and linked Acce3ľVH.HucIeotidfa&-Pkí)lck(fc*4aM» GenPept - GenBank Gene Products Data Bank RefSeq - Reference Sequence Primární databáze proteinů PIR-PSD - Protein Information Resource Protein Sequence Database. Nejstarší univerzální „curated" databáze proteinů. Komplexní, non-redundant data, rozčleněna podle proteinových rodin a nadrodin, doplněna funkčními, strukturními a bibligrafickými daty. http://pir.georgetown.edu/ suítesfirat Swiss-PROT + TrEMBL -v-v^ Swiss-Prot - j,Cutared" databáze založená na Univerzitě v Zenevě v roce 1986. Spravovaná Švýcarským institutem pro bioinformatiku (SIB -Swiss Institute of Bioinformatics). Vysoká úroveň anotace ^^vkládáno více sekvencí než je možno manuálně anotovat a zařadit do databáze. TrEMBL - Počítačově anotovaná data, odvozená z kódujících úseku sekvencí v DDBJ/EMBL/GenBank, která ZATÍM nejsou zařazena v Swiss-Prot. O suiisíprat Swiss-PROT + TrEMBL • Anotace: Funkce Katalytická aktivita Podjednotky Domény Biotechnologické využití Sekvenční homologie Posttranslační modifikace Reference atd. http://www.expasy.org/sprot/ Složené databáze Databáze: Primární Sekundární Strukturní Genomové zdroje Složené databáze Složené databáze SUÍ Složené (composite) databáze: Slučují data z několika primárních databází. Eliminace redundantních dat. Různá priorita zdrojových databází podle kvality validace a anotace (eliminace redundantních dat z databáze s nižší prioritou). Swiss-PROT + TrEMBL OWL (Swiss-PROT + PIR + Genbank + NRL-3D) 4/5/2009 üniProt • UniProt Uni P rot KB Pi'jie.n knowtefloeOm« 1 UmPrnKAifwiH-Pm ■r _ .ľfúIhE'i-ľ'.'EL EBI íjŔ Ciwnt jnd anŕárte h 2002- spolupráce mezi EBI, SIB a PIR http:/www.uniprot.org Sekundárni databáze NA a proteinů Sekundární databáze obsahují informace odvozené z primárních databází ve formě charakteristických vzorů sekvencí, tj. funkčních nebo strukturních motivů získaných srovnáním primárních dat (sekvencí). • Vyhledávání „vzoru" charakteristického pro určitou skupinu proteinů. • Možnost predikce funkce proteinů. O Sekundární databáze NA a proteinů • Databáze mohou obsahovat: Proteinové DOMÉNY odvozené ze známých struktur Proteinové sekvence seřazené do SEKVENČNÍCH RODIN CHARAKTERISTICKÉ MOTIVY odvozené z těchto sekvenčních rodin. LFPtfTAPEAIFYANAADRQIÍLXLFIĽD. IFPHTDPEAIFFANAAF.QQ3IKLFIGD, LFPHIKFGVTftLTHAANDQriĽIYIĽD: LFPHIAFGVTftLVHSSAPQriEVFVĽDI [llllill I j^llj «■^■^■^il^^^illMi I C[^Tf! Sekundární databáze NA a proteinů • Sekundární proteinové databáze: PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMS V současné době sdruženy do integrované klasifikační databáze proteinů InterPro http://www.ebi.ac.uk/lnterProscan/ :iiťv>A | ^.a ^.Iŕ.í I v"LĽ.1:.T^ j fj'H 3 I ^JL": .Viľ-I LHJ^L ~~ Sekundární databáze NA a proteinů • Sekundární proteinové databáze: PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMS V současné době sdruženy do integrované klasifikační databáze proteinů InterPro http://www.ebi.ac.uk/lnterProscan/ • Sekundární databáze NA TRANSFAC 4/5/2009 Strukturní databáze Nucleic Acids Research 2009 NAR DdlíkLuibc Summary P j per:» Ctil Ľy ury Liti C D JlJJ JL-t : »Ml HijiPdn and rjUuer Vrrtťt" dle hnamn HymJjn, B«W5 artö tHsŕäííi H-rnrrSh Ran and uttwr ifinř FYpr*íGHin n-arah as^i PrateonMi Reínumi rjUKh- Ht4ctulji pgkiflv OJUtHseC [rmnunrAnrjcJ itj[jtijLcs http://www3.oup.co.uk/nar/database/a/ Strukturní databáze proteinů Nucleic Acids Research 2UUU HAK l:-.ii. !:.!-nr "-mi- :ii'y I" ■ ■ | ■;" i ■• Donn ■ ü-rita>: íl d ľ:;:uUr n y.v*. Mrmturp LAJlJtiJĽVi r+JttCrL JtILÍ MlUttLT K PferttdM H±LI3±n PDB - Protein Data Bank a member oftueÍPDB MyPDB: Login | Register ftpj TnfprrUflt'"" D"ť|-jl +" Pi^l^jr^l M:a.-ťrtr»rdŕii-iil.ať StľUCtUľeS PROTEIN DATA BAN K ^Toffuesday Fel> 17.2009 S there are 55941 Structures"^ I PDB Statistics® Databáze obsahuje experimentálně získané struktury proteinů, nukleových kyselin a komplexů informačních biomakromolekul. PDB Current Holdings Breakdown O http://www.rcsb.org/pdb/ Moktuk ',:■.' FraeirrS éraa Nixfeic r-roie^MA 111» 30» trn u? t»H 1W NUR 24 7711 Exp- Ercflron Míttiod Mii^ůscotry 14Ů 1Ů 5S 0 Í1T dh 51874 1973 2261 2 10T Tctll 33 6694T PDB formát PC* File Format i ;:~; , ; . - .-■,, PDB formát - původní formát databáze. 1997 - mmCIF (macromolecular Crystal log raphic Information File). Záznamy jsou v databázi uloženy v obou formátech a volně stažitelné. PDB formát - rozeznáván téměř všemi programy pro práci se strukturami. PDB formát Abrin .. ATOC 3 C (LU A ■' AI DH ! (I (lllJt AT« T (B CLU A „ AI DH 9 «2 (LU A AHM 141 H] U.II « ATOC II H£ (LU A 10 Strukturní databáze NA Nucleic Acids Research 2UU9 NAH Database Summary Papers i'rtttm «guvKC databases O zm :.. ■•-- :í3 SCĽ* ■ VriiLĽj-J tl*l Vir«T[* NDB - Nucleic Acid Database m WELCOME TO THE NUCLEIC ACIO DATABASE Number of Released Structures: 40S9 Structures Last Update: 15-Jan-2009 http://ndbserver.rutgers.edu/ m of Nucleic Acid Containing Structures X-Ray Atlas • Gallery Index • Index Listing [text only] NMR Atlas • Gallery Index • Index Listing [text only] rtea tianen Musical Atlas "SB The NDB Atlas provides summary information and images for each structure in the database. These images provide many looks at the varied structures of nucleic acids. TUs Atlas is first divided by experimental type, and then by structure type. Features include: : images of the asymmetric and biological units, and crystal packing pictures for nucleic acid structures ':- -s. :-.:'.: :; í phic experiments : images of the average and ensemble struct u re from NMR experiments c links to coordinate files, experimental data files o tables of derived data, including torsion angles and ".:: ;^i" ;;■;: ":: : sr:' :a: ;t c special features for RNA structures, including images of secondary and tertiary structure : :- i of the MDB Atlas feature available at "About this Atlas" Genomové zdroje N-.:;:= -: ^■: i-:- = =;ea-;:- > íäiabase Summary Paper Categoi 2009 NAR Database Summary Papers Category List Nucleotide Sequence Databases RNA sequence databases Protein sequence databases Structure Databases Genomics Databases '"non-vertebrate"' TIGR Gene Indices EBI, NCBI - genomové databáze Genome annotation terms, ontologies and nomenclature Tasonomy and identification General genomics databases Viral genome databases Prokaryotic genome databases Unicellular eukaryotes genome databases Fungal genome databases Invertebrate genome databases Vyhledávací systémy Nutnost organizovaného ukládání a skladování dat. Nutnost prohlížení a analyzování uložených dat. Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu. V širším smyslu jsou součástí databáze i softwarové prostředky, které umožňují manipulaci s uloženými daty a přístup k nim. • Vyhledávací systémy Textové vyhledávání v databázích NCBI - Entrez http://www.ncbi.nlm.nih.gov/Entrez/ e o Er-trei is the integrated, text-based search and retrieval system used at NCBI for the major databases, including PubMed= Nucleotide and Protein Sequences. Protein Structures. Complete Genomes. Taxonomy, and others. http://www.ncbi.nlm.nih.gov/Entrez/tutor.html 4/5/2009 Pubtoed r ^^ VfWVf. t A servics c:"±e "-".£. yv:.::.i. LĺVliľv er" ľ- --žd-L:L:---ž i-:.i :':.-. 1'-y.:::.*. '.:.y.:v:.:i;: ;:'r.-.Ľ.:':. pubmed. gov Putľ^rd :í 3. íľ'-kí cf ::ir V i: N'.::;:)'.: 1 :"::*.:" ;f >!ťí:c::iť ::ia: Includes i"rr IS ľľiĹ'Jion citations f:c:n MZD1INZ a.id c::ie: ufŕ ííííikí jcu^ia.; fer tic:nediciL a.-:ic>i tac!-; :c 1P4S. PubMed include? links to full text articles and other related resources. Search across databases |?fa™ JCŠDĚE1"* ™ 1^ H^J Piilhrtrd Tr«trill: íirr.. l-.i! li-iE jiiiirrj ni (H) StlrSr-nUirH-ftl »rhm-.lFTP-.ur-. 4 Ig Book»: :.....-,r :(:,::fc^ ] "^ TmiTTi ] ' iľľJľľ ľri'tľ g k I ""■■_ C5T: Eynrcs.i*d 3enuenoe f*g rtíDrfta tic, [[p GSS: Gí^on-c Survey Senuence reícrťs 26 *™éjé pnricki: sequfrict dotflb™ !!! s ä .T. ä X .Hniť. (■" CDO: ícrůírvíd pro «in domain doub-oi* ID oft 3D- DomalFii: Donaim .khti Cry rez i:\r.-t IP- UniS-TS: f^'itt's a*-d r-.DFp.r-j dana i i- Dg PDpScl: pípjMKinr rtu d'ŕ dat* sets ■■. ™ abundnnc« amfile :■■ - JM rT.Fi. [hiliiflc-U: r • Textové vyhledávání v databázích EBI- SRS Sequence Retrieval System C^5 http://srs.ebi.ac.uk/ Vyhledávací systémy • Vyhledávání podobností sekvencí Textové vyhledávání může selhat (nedostatečná anotace). Vyskytuje se shodná nebo podobná sekvence v databázi? (Identifikace možné funkce na základě homologie.) • Specializované nástroje (algoritmy) pro „seřazení" (alignment) sekvencí. 1»TAf .AI r rxnuiMDLKltl rfArxHBCTTairs m 3 vn ... - FTU.IK EMU] ■ ■ Tr|FA:rFAnAAE?0* :..:,*: JO.-íOAAyľiEi.TrKziPHí. c-kí g r:ai I «t rx H 1 F. f :^ ■ A CT H US Ľ-ffX : D E T : 3.ĽF-I XAATf T.'il, lň'_: .V.l. .TF.7 CTI IK.IV1"; : x iaJcvt t c vi s s xj-ar. e V xe^ím- c xjlxt r >;j ;tí d t elhtíj :ve| c t(t*lvv Ixxx -« ru - - 1 ■ n xxl -d ih L [ i iD - p - XAi t CXg*| - - - -1 . - t lua Dadhi Bv« xxjkHhD|ArDA>iwHk:......tvilOvl:;,.::;:.!..::: y : lc*. i - v 9VHI ?|AT DJklL fcF I r.3« í £DC £ ř FT'JÍFi IVV ^tM HE-Fl-r*MX Y VT-G*. [ C 0.iíK.?.KL:.l:.í^.f rrg:ií;r»ii:A=:tTXD = i-:'L.rwr-í xtAtWFjx. cnfccv-Dirt.t........xxUva iMK*}»Tia>ax>. cL.ee.lc - ..Hí r p F*1 ■ - R ■ - -L i Et.......tTT E8 iva i!M EĽ>i DYEDOI rl C.3.rl B Shrnutí • Výrazný nárůst množství biologických dat vede k nutnosti jejich organizovaného skladování a analyzování (databáze). • Instituce pro správu dat a vývoj nástrojů pro analýzu: EBI/NCBI/CIB • Základní rozdělení databází: primární/sekundární/strukturní databáze Textové vyhledávací systémy: Entrez/SRS O 12