Molekulárně biologické databáze
Pro zajímavost…
Důležité…

Molekulárně biologická data


Molekulárně biologická data
Mass spectrometer (MALDI-TOF MAS)
MALDI-TOF
Identifikace proteinů
Sekvenace proteinů

Molekulárně biologická data
2_Bruker%20600%20no%20bckg%20webpage
NMR spektroskopie
Proteinová krystalografie
gfp

Molekulárně biologická data
•Výkonné technologie:
• Automatické sekvencování
• MALDI-TOF
• NMR spektroskopie
• Proteinová krystalografie
•
•
•Výrazný nárůst množství biologických dat.

RCSB PDB Protein Data Bank | Home
19. 4. 2010
64623

RCSB PDB Protein Data Bank | Home
20. 4. 2011
72550

Éra reverzní genetiky
800px-Rabbit_Grasshoper_Mutant-01611-nevit
Klasická genetika
Fenotyp                   Genotyp

Éra reverzní genetiky
Klasická genetika
Fenotyp                   Genotyp
Produkce velkého množství dat
Automatické DNA sekvencování
Genotyp                   Fenotyp
Reverzní genetika
Bi7201 Základy genomiky, podzimní semestr

Molekulárně biologická data
•Nutnost organizovaného ukládání a skladování dat.
•
Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu.
180px-Wikipedia-logo

Molekulárně biologická data
•Nutnost organizovaného ukládání a skladování dat.
•Nutnost prohlížení a analyzování uložených dat.
180px-Wikipedia-logo
Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu.
V širším smyslu jsou součástí databáze i softwarové prostředky, které umožňují manipulaci s
uloženými daty a přístup k nim.

Analytické nástroje
•Vyhledávácí software
• Nutnost snadného, rychlého a specifického vyhledání informací.
•Srovnávání dat (sekvencí)
• Sequence alignment – „seřazení“ sekvencí.

Rozdělení molekulárně biologických databází
•Databáze:
• Primární
• Sekundární
• Strukturní
EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIPVLPDPTTLQERNRYITVELSNSDTESIEVGIDVTNAYVVAYRAGTQSYFLRDAPSSASDYLF
TGTDQHSLPFYGTYGDLERWAHQSRQQIPLGLQALTHGISFFRSGGNDNEEKARTLIVIIQMVAEAARFRYISNRVRVSIQTGTAFQPDAAMISLENNW
DNLSRGVQESVQDTFPNQVTLTNIRNEPVIVDSLSHPTVAVLALMLFVCNPPNIVEKSKICSSRYEPTVRIGGRDGMCVDVYDNGYHNGNRIIMWKCKD
RLEENQLWTLKSDKTIRSNGK
Ribosome-inactivating protein, subdomain 1
Ribosome-inactivating protein, subdomain 2
Ricin B-like lectins
abrin

Rozdělení molekulárně biologických databází
•Databáze:
• Primární
• Sekundární
• Strukturní
Primární databáze obsahují anotované sekvence NA nebo proteinů.
EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIPVLPDPTTLQERNRYITVELSNSDTESIEVGIDVTNAYVVAYRAGTQSYFLRDAPSSASDYLF
TGTDQHSLPFYGTYGDLERWAHQSRQQIPLGLQALTHGISFFRSGGNDNEEKARTLIVIIQMVAEAARFRYISNRVRVSIQTGTAFQPDAAMISLENNW
DNLSRGVQESVQDTFPNQVTLTNIRNEPVIVDSLSHPTVAVLALMLFVCNPPNIVEKSKICSSRYEPTVRIGGRDGMCVDVYDNGYHNGNRIIMWKCKD
RLEENQLWTLKSDKTIRSNGK

Rozdělení molekulárně biologických databází
•Databáze:
• Primární
• Sekundární
• Strukturní
Sekundární databáze obsahují informace odvozené z primárních databází ve formě charakteristických
vzorů sekvencí, tj. funkčních nebo strukturních motivů získaných srovnáním primárních dat
(sekvencí).
EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIPVLPDPTTLQERNRYITVELSNSDTESIEVGIDVTNAYVVAYRAGTQSYFLRDAPSSASDYLF
TGTDQHSLPFYGTYGDLERWAHQSRQQIPLGLQALTHGISFFRSGGNDNEEKARTLIVIIQMVAEAARFRYISNRVRVSIQTGTAFQPDAAMISLENNW
DNLSRGVQESVQDTFPNQVTLTNIRNEPVIVDSLSHPTVAVLALMLFVCNPPNIVEKSKICSSRYEPTVRIGGRDGMCVDVYDNGYHNGNRIIMWKCKD
RLEENQLWTLKSDKTIRSNGK
Ribosome-inactivating protein, subdomain 1
Ribosome-inactivating protein, subdomain 2
Ricin B-like lectins

Rozdělení molekulárně biologických databází
•Databáze:
• Primární
• Sekundární
• Strukturní
Abrin
Obsahují struktury proteinů (nukleových kyselin) a jejich anotace.

Rozdělení molekulárně biologických databází
•Databáze:
• Primární
• Sekundární
• Strukturní
•
• Genomové zdroje

Rozdělení molekulárně biologických databází
•Databáze:
• Specializované
• Univerzální

Rozdělení molekulárně biologických databází
•Databáze:
• Specializované
• Univerzální
Specializované databáze obsahují informace o určité proteinové rodině nebo skupině proteinů,
případně           o určitém organismu.
[USEMAP]

Rozdělení molekulárně biologických databází
•Databáze:
• Specializované
• Univerzální
Univerzální databáze obsahují informace              o proteinech (NA) ze všech organismů.
[USEMAP]

•Univerzální databáze:
• „Skladiště“ sekvencí – sequence repository
• „Manuálně“ spravovaná – curated database
Rozdělení univerzálních proteinových databází

Rozdělení univerzálních proteinových databází
•„Skladiště“ sekvencí – sequence repository
• Kromě sekvencí obsahují málo nebo žádné dodatečné informace.
• Záznamy generovány automaticky.
• Proteiny mohou být zastoupeny několika různými záznamy (sekvencemi) = „nadbytečnost“ (redundance)
sekvencí.
•
•
•

Rozdělení univerzálních proteinových databází
•Manuálně spravované – curated databases
• Záznamy obsahují dodatečné informace.
• Informace jsou před vložením do databáze validovány experty.
• Všechny záznamy o stejné proteinové sekvenci jsou sdružovány do jediného = non-redundant dataset.
•

Rozdělení molekulárně biologických databází
•Databáze:
• Primární
• Sekundární
• Strukturní
•
• Genomové zdroje
• Složené databáze

Složené databáze
•Složené (composite) databáze:
• Slučují data z několika primárních databází.
• Eliminace redundantních dat.
• Různá priorita zdrojových databází podle kvality validace a anotace (eliminace redundantních
dat       z databáze s nižší prioritou).

Molekulárně biologické databáze
•http://www3.oup.co.uk/nar/database/a/
Genomics Databases (non-vertebrate)
Metabolic and Signaling Pathways
Human and other Vertebrate Genomes
Human Genes and Diseases
Microarray Data and other Gene Expression Databases
Proteomics Resources
Other Molecular Biology Databases
Organelle databases
Plant databases
Immunological databases
Nucleotide Sequence Databases
International Nucleotide Sequence Database Collaboration
Coding and non-coding DNA
Gene structure, introns and exons, splice sites
Transcriptional regulator sites and transcription factors
RNA sequence databases
Protein sequence databases
Structure Databases
1330 databází

EBI/NCBI/CIB
•Instituce zabývající se shromažďováním, správou a poskytováním dat a informací a vývojem
analytických nástrojů.
http://www.ncbi.nlm.nih.gov/
EBI
Evropský institut pro bioinformatiku
http://www.ebi.ac.uk/
Center for Information Biology
CIB
Centrum pro informační biologii
http://www.cib.nig.ac.jp/
National Center for Biotechnology Information
NCBI
Národní centrum
pro biotechnologické informace

EBI
EBI – Evropský institut pro bioinformatiku
•Založen roku 1992 jako součást European Molecular Biology Laboratory - EMBL.
•Sídlo v Hinxtonu ve Velké Británii.

NCBI - Národní centrum pro biotechnologické informace
•Založeno v roce 1988 jako oddělení Národní lékařské knihovny (National Library of Medicine –
NLM)          v USA.
•Součást National Institutes of Health – NIH.

CIB – Centrum pro informační biologii
•Založeno jako oddělení Národního genetického institutu (                              , NIG) v
Japonsku.
http://www.nig.ac.jp/

Primární databáze NA
•EMBL - Evropský institut pro bioinformatiku
•
•
•GenBank - Národní centrum pro biotechnologické         informace
•
•
•DDBJ - Národní genetický institut (NIG)
国立遺伝学研究所

EMBL
•EMBL Nucleotide Sequence Database (EMBL-Bank) byla založena roku 1980 jako první databáze
nukleotidových sekvencí.
•Obsahuje sekvence RNA a DNA.
•Zdroje sekvencí: vloženy přímo autory, genomové projekty, patenty
•
EMBL
This week = 20.4.2011
This week the EMBL Database contained 301,588,430,608 nucleotides in 199,575,971 entries

image
The map shows 18,628,656 entries distributed over 57,974 locations.
The dots on the map have different colours according to the taxonomy of the specimens:
   Eukaryota        Bacteria        Archaea        Other        Mixed

image
The dots on the map have different colours according to the taxonomy of the specimens:
   Eukaryota        Bacteria        Archaea        Other        Mixed
The map shows 18,628,656 entries distributed over 57,974 locations.

EMBL „entry“


Translation = proteinová databáze


Formát EMBL databáze


Formát EMBL databáze
http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html


Formát EMBL databáze
http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html


Formát EMBL databáze
http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html


GenBank
NCBI logo
•Založena roku 1982 v rámci institutu NCBI.
•
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html


http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html


pic2_a
The DNA Data Bank of Japan
•Původně zahrnovala data především     z japonských výzkumů.
•V součastnosti úzká spolupráce            s ostatními databázemi.
•
INSDC

INSDC
http://www.insdc.org/


Primární databáze proteinů
•Univerzální databáze:
• „Skladiště“ sekvencí – sequence repository
• Manuálně spravovaná – curated database
•
•Příklad: GenBank versus RefSeq

Primární databáze proteinů
GenPept - GenBank Gene Products Data Bank
RefSeq - Reference Sequence

•PIR-PSD - Protein Information Resource Protein Sequence Database.
•
•Nejstarší univerzální „curated“ databáze proteinů.
•Komplexní, non-redundant data, rozčleněna podle proteinových rodin a nadrodin, doplněna funkčními,
strukturními a bibligrafickými daty.
Primární databáze proteinů
http://pir.georgetown.edu/

Swiss-PROT + TrEMBL
•Swiss-Prot - „Curated“ databáze založená na Univerzitě v Ženevě v roce 1986. Spravovaná Švýcarským
institutem pro bioinformatiku (SIB - Swiss Institute of Bioinformatics).
•
•Vysoká úroveň anotace         vkládáno více sekvencí než je možno manuálně anotovat a zařadit do
databáze.
•
•TrEMBL – Počítačově anotovaná data, odvozená z kódujících úseku sekvencí v DDBJ/EMBL/GenBank,
která ZATÍM nejsou zařazena v Swiss-Prot.
Swiss-Prot Logo

Swiss-PROT + TrEMBL
•Anotace: Funkce
• Katalytická aktivita
• Podjednotky
• Domény
• Biotechnologické využití
• Sekvenční homologie
• Posttranslační modifikace
• Reference atd.
Swiss-Prot Logo
http://www.expasy.org/sprot/

Složené databáze
•Databáze:
• Primární
• Sekundární
• Strukturní
•
• Genomové zdroje
• Složené databáze

Složené databáze
•Složené (composite) databáze:
• Slučují data z několika primárních databází.
• Eliminace redundantních dat.
• Různá priorita zdrojových databází podle kvality validace a anotace (eliminace redundantních dat
z databáze s nižší prioritou).
Swiss-PROT + TrEMBL
OWL (Swiss-PROT + PIR + Genbank + NRL-3D)

UniProt
overview
2002- spolupráce mezi EBI, SIB a PIR
http:/www.uniprot.org
logo [USEMAP]

Sekundární databáze NA a proteinů
Sekundární databáze obsahují informace odvozené z primárních databází ve formě charakteristických
vzorů sekvencí, tj. funkčních nebo strukturních motivů získaných srovnáním primárních dat
(sekvencí).
•Vyhledávání „vzoru“ charakteristického     pro určitou skupinu proteinů.
•
•Možnost predikce funkce proteinů.
•

Sekundární databáze NA a proteinů
•Databáze mohou obsahovat:
• Proteinové DOMÉNY odvozené ze známých struktur
• Proteinové sekvence seřazené do SEKVENČNÍCH RODIN
• CHARAKTERISTICKÉ MOTIVY odvozené z těchto sekvenčních rodin.
abrin

•Sekundární proteinové databáze:
• PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMS
• V současné době sdruženy do integrované klasifikační databáze proteinů InterPro
•
•
•http://www.ebi.ac.uk/interpro/
•
Sekundární databáze NA a proteinů


•Sekundární proteinové databáze:
• PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMS
• V současné době sdruženy do integrované klasifikační databáze proteinů InterPro
•
• http://www.ebi.ac.uk/InterProscan/
•
•Sekundární databáze NA
• TRANSFAC
•
•
•
•
•
Sekundární databáze NA a proteinů

Strukturní databáze
•http://www3.oup.co.uk/nar/database/a/


Strukturní databáze proteinů


PDB - Protein Data Bank
•
•Databáze obsahuje experimentálně získané struktury proteinů, nukleových kyselin a komplexů
informačních biomakromolekul.
http://www.rcsb.org/pdb/

PDB formát
•PDB formát – původní formát databáze.
•1997 – mmCIF (macromolecular Crystallographic Information File).
•Záznamy jsou v databázi uloženy v obou formátech a volně stažitelné.
•PDB formát – rozeznáván téměř všemi programy pro práci se strukturami.

PDB formát
Abrin


Strukturní databáze NA


NDB - Nucleic Acid Database
http://ndbserver.rutgers.edu/


Genomové zdroje
EBI, NCBI – genomové databáze


Vyhledávací systémy
•Nutnost organizovaného ukládání a skladování dat.
•Nutnost prohlížení a analyzování uložených dat.
180px-Wikipedia-logo
Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu.
V širším smyslu jsou součástí databáze i softwarové prostředky, které umožňují manipulaci s
uloženými daty a přístup k nim.

•Textové vyhledávání v databázích
• NCBI – Entrez http://www.ncbi.nlm.nih.gov/Entrez/
Vyhledávací systémy
120px-Entrez
http://www.ncbi.nlm.nih.gov/Entrez/tutor.html


•Textové vyhledávání v databázích
• EBI– SRS
•   Sequence Retrieval System
•    http://srs.ebi.ac.uk/
other_srs

•Vyhledávání podobností sekvencí
•    Textové vyhledávání může selhat (nedostatečná anotace).
•    Vyskytuje se shodná nebo podobná sekvence            v databázi? (Identifikace možné funkce na
základě homologie.)
•Specializované nástroje (algoritmy) pro „seřazení“ (alignment) sekvencí.
Vyhledávací systémy

Shrnutí
•Výrazný nárůst množství biologických dat vede k nutnosti jejich organizovaného skladování a
analyzování (databáze).
•
•Instituce pro správu dat a vývoj nástrojů pro analýzu: EBI/NCBI/CIB
•
•Základní rozdělení databází: primární/sekundární/strukturní databáze
•
•Textové vyhledávací systémy: Entrez/SRS