4/5/2009 Molekulárně biologické databáze Pro zajímavost, nebude součástí zkoušky... Důležité, pravděpodobně bude u zkoušky... O Molekulárně biologická data MaĚá^ĚmíáÉklišéam M*JtJi«^^ ______JL_____ Molekulárně biologická data MALDI-TOF Identifikace proteinů Sekvenace proteinů Molekulárně biologická data NMR spektroskopie Molekulárně biologická data Výkonné technologie: Automatické sekvencování MALDI-TOF NMR spektroskopie Proteinová krystalografie Výrazný nárůst množství biologických dat. Ye.ulv Growth of To til Structures ■> ir.\ i:c: is ::.::: :=.:>: \i\:\ ;s:c ±::c :■::: ;: >:: rr : 13.1.2009 55271 PROTEID D-ATA ŕAMK Éra reverzní genetiky Klasická genetika £ ^ Reverzní genetika Automatické DNA sekvencování Fenotyp Genotyp Genotyp Produkce velkého množství dat Fenotyp BÍ7201 Základy genomiky, podzimní semestr dygenomikyjDc O Molekulárně biologická data Nutnost organizovaného ukládání a skladování dat. Nutnost prohlížení a analyzování uložených dat. Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu. V širším smyslu jsou součástí databáze i softwarové prostředky, které umožňují manipulaci s uloženými daty a přístup k nim. O Analytické nástroje Vyhledávácí software Nutnost snadného, rychlého a specifického vyhledání informací. Srovnávání dat (sekvencí) Sequence alignment - „seřazení" sekvencí. L»VHTArKAlPYAHAADRQBLlr.LPIDDAPH*UTFVGH£HDGVILL- - FT LS IT CO K HI B IFJHTDrRMPFAHAAKGflHIHLFIGDEuHPJUtľKFLTTRDGFRH- - ÄTLHBflHÖKIlFE L řt HIE řCV TAL TM AA ÍJ]] Q T I CI VI DDO P K r JUL T r K [í A GA Q D Q rí L CT T. V LDx' Specializované databáze obsahují informace o určité proteinové rodině nebo skupině proteinů, případně o určitém organismu. Rozdělení molekulárně biologických databází Databáze: Specializované Univerzální 4h*> Univerzální databáze obsahují informace o proteinech (NA) ze všech organismů. Rozdělení univerzálních proteinových databází Univerzální databáze: „Skladiště" sekvencí- sequence repository „Manuálně" spravovaná - curated database Rozdělení univerzálních proteinových databází „Skladiště" sekvencí - sequence repository Kromě sekvencí obsahují málo nebo žádné dodatečné informace. Záznamy generovány automaticky. Proteiny mohou být zastoupeny několika různými záznamy (sekvencemi) = „nadbytečnost" (redundance) sekvencí. Rozdělení univerzálních proteinových databází Manuálně spravované - curated databases Záznamy obsahují dodatečné informace. Informace jsou před vložením do databáze validovány experty. Všechny záznamy o stejné proteinové sekvenci jsou sdružovány do jediného = non-redundant dataset. Rozdělení molekulárně b databází ologických • Databáze: Primární Sekundám Strukturní Genomové zdroje Složené databáze Složené databáze Složené (composite) databáze: Slučují data z několika primárních databází. Eliminace redundantních dat. Různá priorita zdrojových databází podle kvality validace a anotace (eliminace redundantních dat z databáze s nižší prioritou). Molekulárně biologické databáze Nucleic Acids Research http://www3.oup. co. uk/nar/database/a/ Database Collaboration Codi o and on-codina DNA Gene struetu re introns andexons. solle Tran sites al reaulato sites and trän s factors RNA ce databas es Genomics Database Metabollcand Sign; n-verte brate) ng Pathways and other Vertebrate Ger Expression Databases Proteomlcs Resources Other Molecular Biology Databa; Plant databases Immunological database 1170 databází EBI/NCBI/CIB Instituce zabývající se shromažďováním, správou a poskytováním dat a informací a vývojem analytických nástrojů. EBI Evropský institut pro bioinformatiku NCBI Národní centrum pro biotechnologické informace CIB Centrum pro informační biologii National Center for Biotechnology Information Center for Information Biology http://www.ebi.ac.uk/ http://www.ncbi.nlm.nih.gov/ http://www.cib.nig.ac.jp/ O EBI - Evropský institut pro bioinformatiku European Bíoínfarmatlcs Institute • Založen roku 1992 jako součást European Molecular Biology Laboratory - EMBL. • Sídlo v Hinxtonu ve Velké Británii. Wileamitt tili EBI NCBI - Národní centrum pro biotechnologické informace National Center for Biotechnology Information National Library of Medicine National Institutes of Health Založeno v roce 1988 jako oddělení Národní lékařské knihovny (National Library of Medicine - NLM) v USA. Součást National Institutes of Health - NIH. I WhildouHCBIdn? EflM*shec1 m 1936 as a naüdmallesouce ľäf řrtOl*Cuiůi biplO« iňftjnnobť*. NC8lO*rr*i pubic ctatabases, conducts research n ťOŕňpgU&trtíl biCttOgy, Ů*i¥Wt HhVt v:.\ V.-.; aru.; :<\ omo™ rials and DsHwrunaleH brarwäcai irt/riaviyi ďi Ir» CIB - Centrum pro informační biologii Založeno jako oddělení Národního genetického institutu (Blií jOlš^íft^Př, NIG) v Japonsku. f^^i Research Organization of Information and Systems ľ* National Institute of Genetics http://www.nig.ac.jp/ H IfíUJ .-■ ri ."J í :'?-.>_=i (.tact- /* QDMA- Data hit if Jawi ZUKO-MDICEH KrU UiCrin b hfawnian J3QwrtarWwu-im[htJi»tafl3M Blhmdmk. G— Epmii DalA— ■Him HrnwAli* Da-riuu* - RuQnin Ditáus UyBBuaa) Erol Cfcnone DaJraw VED> LL DM* Lata tent ÍÍ E .Í1.Y.VLŮ FTuÍĽtl ^E ha h« d* Fr? cel Primární databáze NA EMBL - Evropský institut pro bioinformatiku GenBank - Národní centrum pro biotechnologické informace O DDBJ - Národní genetický institut (NIG) @*VKr,.]f'JBS»*HA «HS- M í AM í»« EMBL-EBI EMBL EMBL NUCLEOTIDE EMBL Nucleotide Sequence Database (EMBL-Bank) byla založena roku 1980 jako první databáze nukleotidových sekvencí. Obsahuje sekvence RNA a DNA. Zdroje sekvencí: vloženy přímo autory, genomové projekty, patenty This morning the EMBL Database contained 244,322,213,780 nucleotides in 153,137,008 entries. This morning = 21.1.2009 EMBL-EBI -j! g • Total nucleotides (current 244,322,213,780) EMBL EMBL NUCLEOTIDE Number of entries (current 153,137,008) The dots on the map have different colours according to the taxonomy of the specimens: P Eukaryota y Bacteria y Archaea y Other y Mixed TU X5fi754r S7- Ir lineacr ^KHÄ; älJ; řLTTr 1S53 Eř. £Pí7S4r attsřtr EMBL „entry" JI 1Z-EEF-1K1 ÍPftl. Í3, ĽĽtBttl) Ľ3 aE-W^T-řOCfE £Bel. S5[ LBSE ypifltelt 'ŕtĽSltCl 11? XX l£ T:i^iliLCf. Lepena nffilTS řeč ncn-íi_BníL5eniíi beta-slu__síí_&ť as í-S" LetB-3luc_&i_>2e. XX :£ iĽiítliuci Leperii- ŕt-ďiite >ilu7ei_-j KT E_£BC__,ta; "ŕli-liiplírití-s-; StLS-ptsplj_tB," L_-Ľj.rĽ,jii_tBf J_B_rietpii;_tBf Oíľ SpeĽiBtcfir_tB: ĽBjatlltfíGtB; t_lie,cr_l_:_n£; :;rs t_lie,c.r_le:_ri£; coalda; K bu___ta I; rteEŕ_le&; E&LB&eBe: EapllitnclleBe; Jdfeilese; J ci Sil lun. EX HT [5] BP 1-1:iď ■X IUBKEJ; 1SG7511. Rä Ofttclŕy E.t Uucin H.£.t EtanticrĽít £.t ftujKa B.i.f EJ "tfucls-ťils- ani ieci^el ralnc. a_il sequence tí the a^ancgenla S3 LetB-?luG_-i_ise íliriÄieĽBseJ ices „hite clsťfec CJlí^íIíucí iíj-stis L.]"; HL Plant Ľ_l, Hol. 17{ÍíííOS-řlSíl331]. XX m [t] as 1-1SP3 ľ."-. :-:;;:-.ií e.í.í SI r KÍ S_ciitted Í1S-HW-133PJ ta ttisr EHEL/SertEant-ŕJQEU _«taLa&es. Rl [tidies K.M. t Uni-řecsity cí Hsvcsstls 'Jp;ci J_=ner Keli__l S._ri_elr ffsv&_2tle HL Vpcn Iyner HE2 4HRr Hf L.-Hiíí? /hbí tyge^-ansfi.- e_t_~:=-iea—s- Translation = proteinová databáze .__-i.-,::--ŕ_*_jŕir I Ifllll III --; -"i.n^^ivj-'jiimtjmrľMBMiiľ-f.iJĽBaaťmrT.fjnnii.Pi) lSSl=SH»fl51ílíiiJf^ii_::i-."i:^.^^í."rKiiiŕffJifl- i = adľ/ľl*Tlil dí:.=-:I- » BFj €&9 B,- 3 L* C; 355 S; SSL T; * cE&ei; lacs. tCůt&js.a3n -catattcgct ct^ítugtca "if"i"r í í jtiľ^-iitT &i_rt_aig:: etcí^-:'rr .~:^?í:ít gíšij-sí^g; icg^EMSX ~xc~c_xa —£———£ r-e_cc3Jí KKCÄge™. &ec2zteis& r:c53í;iii araí333=.-3 gašpar" aajKaccae? —£j£££i3x tcca istíte* caa^íä&saT: _rrT_:irr:= t?íi^^:-2í isscsc^gac ncíj-ats^aĽ rcjcaaeetr; tcq^sou^a. uaececc&i äqtfLpaiä^tc zp^q^aqqe Maauccac? a-an^MEcaa Formát EMBL databáze i _nti Citation ac£e__ion nunEiec FĽijscí Ltoritifitc EST - _efecexic« r__ec SC - iífirĽermt Gauneri; SP - _erecexic« p__itlima ee - _eftL.er.rSt ecfraa-zefEcenu ES- - : tit-er*, s ...up SE - _efecei-_« ffjtÍjULí&j SI - lefeLenat title HL - lefeLenat lQoatlici Cfi - Í2t2£2&s e.:srs-ieis^saeí f lnfüma^lüii ■ festu» table he alec ■ íeatuĽS table data ■ ApBC'SB' ILih ■ rsiwsrics LiSä'IsrĽ ■ tcrjtiy.'ítrjsttu'it line ■ [blBXitai aei^usnat data ■ -íĽJilrioLLui llrte ía^. pec entzy} íľ! rpr- 1 ppr PTir.ryj {SH. pec eatĽYj íí^í pet «icľyJ Ís^L pec entĽY? {s-4 pec enecY} ís^í pet enCĽYj í 5^[ pec entcy} ís^. pet enCĽyJ ís^. pet enCĽYj ií^f pec entcyj í 5^[ pec entĽY? í& ďd 1 set «lCey! í& ďd s^. pet «nncyS {9 pe? entcyí ís^ per? entry J íl peí «íCey! ÍS tĽ SH. pec entcyí ís^. pec encryj Formát EMBL databáze m -íľi-i 17 : <2>: <4>; <£>; <£>; <1> BF. The toKens is pies tnt: 1. Pr m£ry icceaal on num&ar ä. s stí u t n ce vt rs c n n u m D s ľ Í.TíRílogp'cľrculsr'írlIrresr' 4.MolQQjlatj?pa 5. Data class S.Taororrlc division ľ.S6qu(iice lenyJi ED 0(73331}.,- 37 t; lünt; senmďc DU; JQ&: HUI; ÍOQ B?. http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html Formát EMBL databáze duša CffiľjitiLíi «I EntĽsr t_n_t_u____. £cui aE_n_nt tritLy asípisiKSře úcauliig ai__u£atiüri tcon atgitfit srĽrľita m Ľr.tĽjf a_»afecM_t«d. fcea KQH^r.b _ntcy «{«lutf _ltľi líc &m anucatlon nr fct^nt: Ľ__ Empľ£____l äťtrujenc« Tsí ai Sf nexs S lc~í / £ s _usľitis ne fuQľi HuťJQtiput CEfta aeí_i_i__ir^ he jJJjti ItuťJQtiíut €eii_n? aet__en_in_ USA naa itľúrrs amcr-anan V9B ííhcl: äencfie Qhat_rzi m IhlĽi latEbsf Znncttactlan ífTff SFíTJťTlftP TH__H] 31TP BD _,tBT_lB_d fe_l _-ntĽ±srr rařt _lia_ifl__. aa _t:"í'; http://www.eb .ac.uk/embl/Documentation/User_manual/usrman.html Formát EMBL databáze Ba_teĽl u_iin_í E1& HjTflitaiientai s_api_ Efly ŕJTiSSl im IhXlBTi tHJĽ ĽrreeĽtet-ĽBts DT5" Otbeiľ bb-dbL HfiK Ctbeir YfeĽCeEfĽBEe TBI IT"j& ľiy_&_lu& HH E3_tt ELÍT WiolBaaifl«l Tlafl im: http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html GenBank Založena roku 1982 v rámci institutu NCBI. GenBanK^ls me INIH cenellc sequence database, an annotated collect on of all publicly available DNAsequences iNt/astctouts Reseamn zoot, Jan satpaaaeias issue', pas^oi. There are approximately 85.753.566.764 bases In B2.B53.ses sequence records In lie Iradlllonal GenBanK: divisions and 1oe.B3S.73B. 141 bases In 37.433506 sequence records In Ihe WGS division as of February 2009. Sample GenBank Record http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html E USyl Sample GenBank Record UKOJ JicHiHi [Tilt tap Kin FL:: S1-JW-1SH Dt n if ir ioa lAXVfl »r-d Jt*Tp IftEVTj pin». friPfL«t C4t, - DUMB VptlW rjiMft.i amantii nncffii SOURCE Sicciiiiccavctj Gerrv.ii.Li* i biI*L-' j y*uch cüakism £i-=e>i=«aye*í ecrcvLiLi* EuYtritfli; fungi; SHten;Wt*ř 5*4cíi*:envc«lrii ř SHAUCaWOIrDUl IiGöitraPvcm M« Icccm rc^ycrC*«« ř UbBém^mí. ?E rfTPEKCE 1 4bif*i 1 K ViJřl UIKM Trip*?, L. E., 5-iitn, P. C. F Wr-ljoii, J. xnd LévutciiL*, C .W. TITLE CIůíiíj i-i 9*cfj*ue «1 PZV7, x flí-t u!mm í'.-ííí.:- i í ří~"_irtd í: = ■■B rtinni-lmtiv^l HUfmiJi in WiftifM|pi ">""■'<•' -:-::,-.- hlll 10 [lij, 1JPJ-14PI ľ'.SHr PUBHED TíTlí^n HLTBJK9 J JbAiei 1 w iliíi IDTKtU fr">T T WjJdU: T i">..T.r- r *'■+ JrLVl*r i TITLE SiliiTis- i* mil 7:auTh. ti-.u i- ^iin ít^jini íyLIe, i -■■.«el OOOMU MCM HrT. lí l^h. IT'-TÍS ŕiSUr. p ran. r IMftU FErTEPEKCE 3 4b*fEI 1 tu 132 PI !■■ TM: ť Rntntr,T. TITLE Dicrci iutnijiai;ji «nw Sutaicc*! <2J-rES-líäí) r*r:ľ íuBtr, Eiolrjav, Vil* DJLLVii:jiryr Jf« ■ivi^ CTr "Ju http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html Sample GenBank Record - VEP3TW :-;e ivsaDS SCÍTECE urerupta «.t::: f : TITUL ĹZm:-iiZiz IUI tap 5iccí!i.iccayG*.j ooro-vxiii iWCJl »r-d JU*Tp J«VT uiiit».: amin« S1CCÍ1É.IÍOVC4J ccrtvj. £i-=e>i=«aye*.í errcvj. nccn*riw«t# :<*,- s 1 4bii*i 1 W C424] lupi.l.I.j ÍJĽbta»Ff Claiiij i-i 9*cfj*ut EHJL 1Hil|jl 1i I i 11 n mit íu im. UH- TÍT1Í9ÍI j- 4biii«i i «i í:;í i L cdjr inú Jttlir F"."ľrii; ttmiKt JAUTHW5 TITLE GcnBink Divil«™ - GenBínk **P«íi *t PI if atürewann UVusetsmftE J Rcn ei Moutncii i-t.t;ci:ä :í i ml í rt^n Div, Lf fTJ, 1 IMftU T 4b*IEI 1 tu 132 PI 4 VHT- 5 IJV-i 6 r^U-pl^.ruii^ ml ^sequence* T SCT - bactwul uquenu?* $ VfH. - Hr.-. rjeijJfŕnĽes 9 ŕH& - tiaclenopriagr- -vrqtdfKt^ 10 £TT1 - SfTttrCtlC SCqtKfrL» 11. UTK n uiannoOlíí] sequences iľ ESI t S ľ sequences (eíoccsmíI sequence lags) U KAi patert tequenc e^ 14. STS < STS sequences (sequence lagged uteš) 1í. CSS < ess sequences (penMne suvey seuuenees} 1Ö. WTŮ ■ HTŮ sequences (hah ihnou^pjuf uerKine Eivir:J Cťlr 'JÜ http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html S^DDBJ DNA Data Bank uf lupán :w ■v,i DDBJ The DNA Data Bank of Japan • Původně zahrnovala data především z japonských výzkumů. • V součastnosti úzká spolupráce s ostatními databázemi. u ODSJ SV m kyp* bT? I . ^I'tN Ü^l^'t-i International NuGleotide Sequence Database Collabor; DDBJ DMA Dala Ba* of Jspsn C IB-DDBJ Cwitor far hforsaüan Biatav-nl DNA Data Bank of Japan ND Haemal httiluto of QmtiH EBH fďurapaon BnhiorBatic* halRuta EHBL: Ei>nf»an Hobcuhr Bbkajy Ldnralary ffitttlUĎnaiGmter for BfortedrnDbfyhforHtion J Lijrenr of H http://www.insdc.org/ Primární databáze proteinů • Univerzální databáze: „Skladiště" sekvencí - sequence repository Manuálně spravovaná - curated database Příklad: GenBank versus RefSeq National Center for Biotechnology Information National Library of Medicine National Inetitntes of Health Primární databáze proteinů ůeriBarilí Hol emoted Autiroi autmifU Only sjíthc-f can levÉe Multiple records Ibr same loci cqubuot Recoidk can conüedrcl sect olfcei Ho- frail to apecJas ÍDcJudad Usla. exchanged among LNSDC members Akú k» primary ffleiElme Proteins identified and lidsd Access via NCBI Nucleotide databases Curat ed NCBI createairom existing data NCBI isviaea aa aew dkla evmeige Single records, ibi aadnBoracuTs of majo* Limned lo model organisms ExcTiBive NlCBX dalabaas Akin lo lavfew articles Prolans and transcript* identified and linked Access, lis Nucleotide it Protein databases GenPept - GenBank Gene Products Data Bank RefSeq - Reference Sequence PIR Primární databáze proteinů PIR-PSD - Protein Information Resource Protein Sequence Database. Nejstarší univerzální „curated" databáze proteinů. Komplexní, non-redundant data, rozčleněna podle proteinových rodin a nadrodin, doplněna funkčními, strukturními a bibligrafickými daty. http://pir.georgetown.edu/ suife^sí Swiss-PROT + TrEMBL -'vV Swiss-Prot - j,Cutared" databáze založená na Univerzitě v Zenevě v roce 1986. Spravovaná Švýcarským institutem pro bioinformatiku (SIB -Swiss Institute of Bioinformatics). Vysoká úroveň anotace >==> vkládáno více sekvencí než je možno manuálně anotovat a zařadit do databáze. TrEMBL - Počítačově anotovaná data, odvozená z kódujících úseku sekvencí v DDBJ/EMBL/GenBank, která ZATÍM nejsou zařazena v Swiss-Prot. O suihKgfot Swiss-PROT + TrEMBL -V V"' • Anotace: Funkce Katalytická aktivita Podjednotky Domény Biotechnologické využití Sekvenční homologie Posttranslační modifikace Reference atd. http://www.expasy.org/sprot/ Složené databáze Databáze: Primární Sekundární Strukturní Genomové zdroje Složené databáze Složené databáze SULI Složené (composite) databáze: Slučují data z několika primárních databází. Eliminace redundantních dat. Různá priorita zdrojových databází podle kvality validace a anotace (eliminace redundantních dat z databáze s nižší prioritou). Swiss-PROT + TrEMBL OWL (Swiss-PROT + PIR + Genbank + NRL-3D) m m riProt, UniProt ■& * UniProt KB P, ||p ,| -■■ ;■.,.. I , ľ S ■ 01K š i-. ',! -ŕi-ŕl Jf P'tiKE'fE'.IEL UnlParc seoHKeniHw 2002- spolupráce mezi EBI, SIB a PIR http:/www.uniprot.org Sekundárni databáze NA a proteinů Sekundární databáze obsahují informace odvozené z primárních databází ve formě charakteristických vzorů sekvencí, tj. funkčních nebo strukturních motivů získaných srovnáním primárních dat (sekvencí). • Vyhledávání „vzoru" charakteristického pro určitou skupinu proteinů. • Možnost predikce funkce proteinů. O Sekundární databáze NA a proteinů • Databáze mohou obsahovat: Proteinové DOMÉNY odvozené ze známých struktur Proteinové sekvence seřazené do SEKVENČNÍCH RODIN CHARAKTERISTICKÉ MOTIVY odvozené z těchto sekvenčních rodin. LFPtfTAPE/sIFYANAADRQIÍLXLFIĽD. IFPHTDFEAIFFANAAEQQ.3IKLFIGD, LFPHIKFGVTftLTHAAJIĽQriĽIYIĽD: LFPHIAFGVTftLVNSSAPQriEVFVĽD [I Ifr ■!< .HI lij ■* ■ | ^ l^i ■ ^ E^ *'"*llB " *^U Sekundární databáze NA a proteinů • Sekundární proteinové databáze: PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMS V současné době sdruženy do integrované klasifikační databáze proteinů InterPro http://www.ebi.ac.uk/lnterProscan/ , ; ti* v> A | H.frĽ.iŕ^ | .M'L UirJ.T^ , fc-.;.-il Ľ« .ťnsrt "^ | LJU'"; ~'iť'l'H ťi\i SEOULHCE: Jtnjuw.r 1 CKCW: MHlADM«11AD2t: (.CHUTI "»•" m men Sekundární databáze NA a proteinů • Sekundární proteinové databáze: PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMS V současné době sdruženy do integrované klasifikační databáze proteinů InterPro http://www.ebi.ac.uk/lnterProscan/ • Sekundární databáze NA TRANSFAC 4/5/2009 Strukturní databáze Nucleic Acids Research Í.OQQ MAR DdTiíbjiu Summitry PaiPĽn; CalĽgrory Libí u DdLdtidi-i: * . ■ ■■. Hiw;iy¥ HumiH »id rďTwr ■, e -ItL- Jlt Gii.-TH: Human rie«= and ľHí«i=c= HLrpjrrjM/ Ran and attwr ňpnu FiprŕKKmn DatJlĽiKŕR PntMnK* RemurĽťa Pdift dďtjfriiíi [mmurtt*jgjcj* í« * Jí*i http://www3.oup.co.uk/nar/database/a/ Strukturní databáze proteinů Nucleic Acids Research :.di research b Datobai* & JÍUU'J HAK Dtitctlírtse Summary F'duer^ Nudeulidt: 5 «wem« ťdtdLd^Li ITJi LijgiJL-rn.ij lIjLjIijlul Prafmn wqijorw« darahaí« MTLHUJI u LUL Jtl JLĽL-SlľVlII irwlLtUrĽS DiiPrai ■ Daufras« of rrorcin Diorder Dim Ľ n c - Cutaban of Dfni'-i [nptnisni «Hu« ■ &wr*d* i::<*\ DÍNH a DbWmi* «H £irr L-NJĽ ■ LN ■ liat-í-rn:l±o. rF nlr FlnIi:Un!ii -.i.lTr :il *■■■■ EI=atOS r.-«(íc h--: ŕrf*etn stUKUlf C aOjrř ■ irr rtrrmimj ítmn, ArdiM i Z" ',!■ . ]hhTT..snn„„t,„r nn ]NOTdb Mil Inn.....rin :,l::n:T '.' : ,:( : f, i... CfflrSNP ĽclurrM i ::■......r ::í CPDS HiLISiH :'::íl,:::'?jst *olMovDD ■ Curit-ssE cr N-Krnmtf«íular fostmírrs ^-~ L^.rrt*^^[ PRlOTEIN DATA BANKí PDB - Protein Data Bank j- Hennen cftheSPDB MyPDD: Login | Register An Tnfljri7|Ht'"" BOlfaJ *~" "'"'"ÍIKU1 Marmninlgnibr StNJCtUreS í^fÓÍfuesday Feb 17, 2&D9 S! there are 55941 Structures^ | PDB Statistics4) Databáze obsahuje experimentálně získané struktury proteinů, nukleových kyselin a komplexů informačních biomakromolekul. o http://www.rcsb.org/pdb/ PDB Current Holdings Brea kdown Mokcuk Typ* Pioteirrs HlkWc Aetft Proier.NA Compos aha Tůtíl Xn I -d-f U^řt-ílrj I- PDB formát - původní formát databáze. 1997 - mmCIF (macromolecular Crystal log raphic Information File). Záznamy jsou v databázi uloženy v obou formátech a volně stažitelné. PDB formát - rozeznáván téměř všemi programy pro práci se strukturami. PDB formát Abrin tr ] c CLU A ■a iix a. tit ii 197 1 H 7* H i cm CLU A ■a Mil', 3.114 > ÍD1 1 i m 1-, if. T ÍD CLU A 32! Í.ÍÍJ n í US 1 i m 1.. '.m í «: CLU A DU 1.6a» TIS 1 i m JI LH IL K CLU A D Tit 0.J91 ■i ífii 1 i m ■/. MM 10 Strukturní databáze NA Nucleic Acids Research A-OUFTW»««™*. tSNTMTTHUJMN*! lUlKIWr»«» flUHir»! ■•"':'" NAH Databasesummarv lepers ■i.i «'.Uč S*qumcÉ DHrtnui ßru SBOuCrtíC djUtuniL; Protein *Cgu«A« dJHrřajís Stnichir* natalMK« Strdi íTlůlMiiĚS CHtXftyAltU Miu i- nridrrU rtiirr vHTlRv MoTiC-iríriHl Irtf-Kri^s in Rh* V/iy'rifl/ íní FE>rü5r: -:..- ■■ ■;■. UiUundHi ;ivi :.. "-.Hi 3£.3 ■;, [:k-N:mnIu-..I)ŮŮC T ä G) of Nucleic Acid Containing Structures X-Ray Atlas • Gallery Index • Index Listing [text only] NMR Atlas • Gallery Index • Index Listing [text only] rtea fallen Musical Atlas "aU The NDB Atlas provides summary information and images for each structure in the database. These images provide many looks at the varied structures of nucleic acids. The Atlas is first divided by experimental type, and then by structure type. Features include: o images of the asymmetric and biological units and crystal packing pictures for nucleic acid structures from X-ray crystallographic experiments : images of the average and ensemble struct u re from NMR experiments o links to coordinate files, experimental data files o tables of derived data, including torsion angles and hydrogen bonding : as e ""::". : ": : special features for RNA structures, including images of secondary and tertiary structure : :■ i of the NDB Atlas feature available at "About this Atlas" Genomové zdroje Nucleic Acids Research í Nucleic: Acids Research > Database Summary Paper Categoi 2009 NAR Database Summary Papers Category List Nucleotide Sequence Databases RNA sequence databases Protein sequence databases Structure Databases Genomics Databases '"non-vertebrate"' TIGR Gene Indices EBI, NCBI - genomové databáze Genome annotation terms, ontologies and nomenclature Tasonomy and identification General genomics databases Viral genome databases Prokaryotic genome databases Unicellular eukaryotes genome databases Fungal genome databases Invertebrate genome databases Vyhledávací systémy Nutnost organizovaného ukládání a skladování dat. Nutnost prohlížení a analyzování uložených dat. Databáze je určitá uspořádaná množina informací ř^... (dat) uložená na paměťovém médiu. -j^r V širším smyslu jsou součástí databáze i softwarové prostředky, které umožňují manipulaci s uloženými daty a přístup k nim. Vyhledávací systémy Textové vyhledávání v databázích NCBI - Entrez http://www.ncbi.nlm.nih.gov/Entrez/ rez is the integrated, text-based search and retrieval system used at NCBI for the major databases, including PubMed, Nucleotide and Protein Sequences. Protein Structures. Complete Genomes. Taxonomy, and others. http://www.ncbi.nlm.nih.gov/Entrez/tutor.html O Pub feed ľ ^^ WWW. / A servics c: [h; V.r. >~E:[cn = l 1 :"■:!•=ry c:" ľ. Ižc-i :::"■-= and thsXľicľ:! lľ-i:::u:-:-i c:"rit:l:h . pubmed. gov PubMed is a í?mc; cf ::ie V 5? >"?.::-::::-.l L:':::-.:; :: .■■.tdL^in^ chat includes over 1S million citations from MEDLIXE and ochtr !if= scitiic* journals for biomedical articles back to 1948. PubMed !3=:"uir? 'h'-:^ :c fu" :r:r a_-":c!r-= a^id c::i=r -r!a:rd rr^Gur=:r? Enrre?. TJie L/fe Sciences Searcfi engine III — -H* , Search across databases |ab*wi J[»]|S=]» --i.:■.',■,-•■■> i^z-i/rí •■ y-ij .-S-Ti't :«■;<■-■;■; !t'ninr,;i.-i ,,,H |-rt Pubtted: hinmcdi»! kei-amre < ilk mm and H 4 |J flunk*: Niiliiir bunk» « ílh'í m PubHrd {»Imľŕirrjul Ir ir jiiiirr-I nrlidri 0 1 "^ IIHIH: Grlrr Htnhfan tfthtrH-nft m Hin » ........ (ft ««■= *"" t- HW1 -rfa íní FT* ^il» „ "■>nw| Jjfr 0«IA: *^l*fl Hfln*fc^ Jrhr.inrrr « Airnn^h, ■■' I "■*■_ EST: DoHEiMd Sequence Tap rtconii "^■ii". 3j" G-SS: G*-iam*. Survey Secuen« rsícťs 26 *™ijÉ Fralcki: Boqu*nce dot«boso n um' |]| Oněm«: *Wft DifWfli* »quifK« ., ■& Structure: rhree-dTienskiraJ hiktluhIh "C" rtruc;i.-ts i:...... ** laiHiFniFiiv! nrrj^P:iiFrt m On R* n h II M? 1MB SNP: vnair i:uílrui dn rttrŕnaéhijrfi ........ ^ dbC-l»: .jUTHJn«. Jnd ph*ruEVPfi A UtiiCorHS ppiB-í'ifrtKÍ JuHrn ul írarav'ŕ ' '^ «h|i.i»tk»* i:::-i.- j* CDD: ccnisfved rxwsir*domain daub«» ID a^ DD Domain*: co-nairs from Ľrtrei Sinfcture i i ■ rp- UmSTE: rraiVen ap*S mnpprfl daca iMJrť °U Piw&eüpopjinnjintiHlyJatiirts ■ ,ŕi GCO Profile i: ejp^tsiisn and iKJŕculnr ■ ^ ™ nbundar-ic srnŕlíä IkfWlŕ' «ji fjíl 0#il«flc-|*: rip- i"in !nl -.rl-, tf C.Fti :l,iln s/?s • Textové vyhledávání v databázích EBI- SRS Sequence Retrieval System C25 http://srs.ebi.ac.uk/ Vyhledávací systémy • Vyhledávání podobností sekvencí Textové vyhledávání může selhat (nedostatečná anotace). Vyskytuje se shodná nebo podobná sekvence v databázi? (Identifikace možné funkce na základě homolog ie.) • Specializované nástroje (algoritmy) pro „seřazení" (alignment) sekvencí. LffM-EXf FA:r,:MrAAr>aflDl.C^TII.ÍJ,FltfjTT,GXIlI13VHD -FTUllEGtLlftll ^MTrlF^rrfcPTÄAtrOKIELT^ilIjirM^ELTrBrZPBE .1-LlllciííHilI L f f h i r f :vTj,[.Ti^]; ;:l ITI.TLllcriMTI LlfSIAl-CVTKCľB'S = l.rJ|TIEVr1f?iUFriHTT^GA.31í]3K>rC.BT{>:T3VCK|E:rHt........Tŕň: i-= 7* \l*«j:7ÍE3cri|,cv-D:rtiT........ttUvüiI Shrnutí • Výrazný nárůst množství biologických dat vede k nutnosti jejich organizovaného skladování a analyzování (databáze). • Instituce pro správu dat a vývoj nástrojů pro analýzu: EBI/NCBI/CIB • Základní rozdělení databází: primární/sekundární/strukturní databáze • Textové vyhledávací systémy: Entrez/SRS O