Molekulárně biologické databáze • • •Pro zajímavost… • • • •Důležité… • • Molekulárně biologická data • Molekulárně biologická data Mass spectrometer (MALDI-TOF MAS) • • •MALDI-TOF •Identifikace proteinů •Sekvenace proteinů Molekulárně biologická data 2_Bruker%20600%20no%20bckg%20webpage •NMR spektroskopie •Proteinová krystalografie gfp • • Molekulárně biologická data •Výkonné technologie: • Automatické sekvencování • MALDI-TOF • NMR spektroskopie • Proteinová krystalografie • • •Výrazný nárůst množství biologických dat. •22. 4. 2015 •108263 RCSB PDB Protein Data Bank | Home •1. 4. 2016 •117438 •12. 4. 2017 •129184 •4. 4. 2018 •139187 •https://www.rcsb.org/stats/growth/overall Éra reverzní genetiky 800px-Rabbit_Grasshoper_Mutant-01611-nevit •Klasická genetika • •Fenotyp Genotyp • • Éra reverzní genetiky •Klasická genetika • •Fenotyp Genotyp • •Produkce velkého množství dat •Automatické DNA sekvencování • • •Genotyp Fenotyp • •Reverzní genetika •C7201 Základy genomiky, podzimní semestr • Molekulárně biologická data •Nutnost organizovaného ukládání a skladování dat. • •Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu. 180px-Wikipedia-logo • Molekulárně biologická data •Nutnost organizovaného ukládání a skladování dat. •Nutnost prohlížení a analyzování uložených dat. 180px-Wikipedia-logo •Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu. • •V širším smyslu jsou součástí databáze i softwarové prostředky, které umožňují manipulaci s uloženými daty a přístup k nim. • Analytické nástroje •Vyhledávácí software • Nutnost snadného, rychlého a specifického vyhledání informací. •Srovnávání dat (sekvencí) • Sequence alignment – „seřazení“ sekvencí. • Rozdělení molekulárně biologických databází •Databáze: • Primární • Sekundární • Strukturní •EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIPVLPDPTTLQERNRYITVELSNSDTESIEVGIDVTNAYVVAYRAGTQSYFLRDAPSSASDYL FTGTDQHSLPFYGTYGDLERWAHQSRQQIPLGLQALTHGISFFRSGGNDNEEKARTLIVIIQMVAEAARFRYISNRVRVSIQTGTAFQPDAAMISLENN WDNLSRGVQESVQDTFPNQVTLTNIRNEPVIVDSLSHPTVAVLALMLFVCNPPNIVEKSKICSSRYEPTVRIGGRDGMCVDVYDNGYHNGNRIIMWKCK DRLEENQLWTLKSDKTIRSNGK • •Ribosome-inactivating protein, subdomain 1 •Ribosome-inactivating protein, subdomain 2 •Ricin B-like lectins abrin • Rozdělení molekulárně biologických databází •Databáze: • Primární • Sekundární • Strukturní •Primární databáze obsahují anotované sekvence NA nebo proteinů. •EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIPVLPDPTTLQERNRYITVELSNSDTESIEVGIDVTNAYVVAYRAGTQSYFLRDAPSSASDYL FTGTDQHSLPFYGTYGDLERWAHQSRQQIPLGLQALTHGISFFRSGGNDNEEKARTLIVIIQMVAEAARFRYISNRVRVSIQTGTAFQPDAAMISLENN WDNLSRGVQESVQDTFPNQVTLTNIRNEPVIVDSLSHPTVAVLALMLFVCNPPNIVEKSKICSSRYEPTVRIGGRDGMCVDVYDNGYHNGNRIIMWKCK DRLEENQLWTLKSDKTIRSNGK • Rozdělení molekulárně biologických databází •Databáze: • Primární • Sekundární • Strukturní •Sekundární databáze obsahují informace odvozené z primárních databází ve formě charakteristických vzorů sekvencí, tj. funkčních nebo strukturních motivů získaných srovnáním primárních dat (sekvencí). •EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIPVLPDPTTLQERNRYITVELSNSDTESIEVGIDVTNAYVVAYRAGTQSYFLRDAPSSASDYL FTGTDQHSLPFYGTYGDLERWAHQSRQQIPLGLQALTHGISFFRSGGNDNEEKARTLIVIIQMVAEAARFRYISNRVRVSIQTGTAFQPDAAMISLENN WDNLSRGVQESVQDTFPNQVTLTNIRNEPVIVDSLSHPTVAVLALMLFVCNPPNIVEKSKICSSRYEPTVRIGGRDGMCVDVYDNGYHNGNRIIMWKCK DRLEENQLWTLKSDKTIRSNGK • •Ribosome-inactivating protein, subdomain 1 •Ribosome-inactivating protein, subdomain 2 •Ricin B-like lectins • Rozdělení molekulárně biologických databází •Databáze: • Primární • Sekundární • Strukturní •Abrin •Obsahují struktury proteinů (nukleových kyselin) a jejich anotace. • Rozdělení molekulárně biologických databází •Databáze: • Primární • Sekundární • Strukturní • • Genomové zdroje Rozdělení molekulárně biologických databází •Databáze: • Specializované • Univerzální Rozdělení molekulárně biologických databází •Databáze: • Specializované • Univerzální •Specializované databáze obsahují informace o určité proteinové rodině nebo skupině proteinů, případně o určitém organismu. [USEMAP] Rozdělení molekulárně biologických databází •Databáze: • Specializované • Univerzální •Univerzální databáze obsahují informace o proteinech (NA) ze všech organismů. [USEMAP] •Univerzální databáze: • „Skladiště“ sekvencí – sequence repository • „Manuálně“ spravovaná – curated database Rozdělení univerzálních proteinových databází Rozdělení univerzálních proteinových databází •„Skladiště“ sekvencí – sequence repository • Kromě sekvencí obsahují málo nebo žádné dodatečné informace. • Záznamy generovány automaticky. • Proteiny mohou být zastoupeny několika různými záznamy (sekvencemi) = „nadbytečnost“ (redundance) sekvencí. • • • Rozdělení univerzálních proteinových databází •Manuálně spravované – curated databases • Záznamy obsahují dodatečné informace. • Informace jsou před vložením do databáze validovány experty. • Všechny záznamy o stejné proteinové sekvenci jsou sdružovány do jediného = non-redundant dataset. • Rozdělení molekulárně biologických databází •Databáze: • Primární • Sekundární • Strukturní • • Genomové zdroje • Složené databáze Složené databáze •Složené (composite) databáze: • Slučují data z několika primárních databází. • Eliminace redundantních dat. • Různá priorita zdrojových databází podle kvality validace a anotace (eliminace redundantních dat z databáze s nižší prioritou). Molekulárně biologické databáze •http://www.oxfordjournals.org/our_journals/nar/database/a/ •2015: 1549 databází •Genomics Databases (non-vertebrate) •Metabolic and Signaling Pathways •Human and other Vertebrate Genomes •Human Genes and Diseases •Microarray Data and other Gene Expression Databases •Proteomics Resources •Other Molecular Biology Databases •Organelle databases •Plant databases •Immunological databases •Nucleotide Sequence Databases •International Nucleotide Sequence Database Collaboration •Coding and non-coding DNA •Gene structure, introns and exons, splice sites •Transcriptional regulator sites and transcription factors •RNA sequence databases •Protein sequence databases •Structure Databases Molekulárně biologické databáze •Genomics Databases (non-vertebrate) •Metabolic and Signaling Pathways •Human and other Vertebrate Genomes •Human Genes and Diseases •Microarray Data and other Gene Expression Databases •Proteomics Resources •Other Molecular Biology Databases •Organelle databases •Plant databases •Immunological databases •Nucleotide Sequence Databases •International Nucleotide Sequence Database Collaboration •Coding and non-coding DNA •Gene structure, introns and exons, splice sites •Transcriptional regulator sites and transcription factors •RNA sequence databases •Protein sequence databases •Structure Databases •2016: 1685 databází •http://www.oxfordjournals.org/our_journals/nar/database/a/ •Molekulárně biologické databáze •http://www.oxfordjournals.org/our_journals/nar/database/a/ •Genomics Databases (non-vertebrate) •Metabolic and Signaling Pathways •Human and other Vertebrate Genomes •Human Genes and Diseases •Microarray Data and other Gene Expression Databases •Proteomics Resources •Other Molecular Biology Databases •Organelle databases •Plant databases •Immunological databases •Nucleotide Sequence Databases •International Nucleotide Sequence Database Collaboration •Coding and non-coding DNA •Gene structure, introns and exons, splice sites •Transcriptional regulator sites and transcription factors •RNA sequence databases •Protein sequence databases •Structure Databases Issue Cover •2017: 1712 databází •Molekulárně biologické databáze •Genomics Databases (non-vertebrate) •Metabolic and Signaling Pathways •Human and other Vertebrate Genomes •Human Genes and Diseases •Microarray Data and other Gene Expression Databases •Proteomics Resources •Other Molecular Biology Databases •Organelle databases •Plant databases •Immunological databases •Nucleotide Sequence Databases •International Nucleotide Sequence Database Collaboration •Coding and non-coding DNA •Gene structure, introns and exons, splice sites •Transcriptional regulator sites and transcription factors •RNA sequence databases •Protein sequence databases •Structure Databases •2018: 1737 databází •http://www.oxfordjournals.org/our_journals/nar/database/a/ •https://academic.oup.com/nar/issue/46/D1 EBI/NCBI/DDBJ •Instituce zabývající se shromažďováním, správou a poskytováním dat a informací a vývojem analytických nástrojů. • •http://www.ncbi.nlm.nih.gov/ •EBI •Evropský institut pro bioinformatiku •http://www.ebi.ac.uk/ •http://www.ddbj.nig.ac.jp/ •National Center for Biotechnology Information •NCBI •Národní centrum •pro biotechnologické informace nig_logo •The DNA Data Bank of Japan Center •DDBJ Center EBI EBI – Evropský institut pro bioinformatiku •Založen roku 1992 jako součást European Molecular Biology Laboratory - EMBL. •Sídlo v Hinxtonu ve Velké Británii. • NCBI - Národní centrum pro biotechnologické informace •Založeno v roce 1988 jako oddělení Národní lékařské knihovny (National Library of Medicine – NLM) v USA. •Součást National Institutes of Health – NIH. • DDBJ – The DNA Data Bank of Japan •Založena jako oddělení Národního institutu genetiky ( , NIG) v Japonsku. •http://www.nig.ac.jp/ • Primární databáze NA •ENA - Evropský institut pro bioinformatiku • • •GenBank - Národní centrum pro biotechnologické informace • • •DDBJ - Národní genetický institut (NIG) • EMBL •EMBL Nucleotide Sequence Database (EMBL-Bank) byla založena roku 1980 jako první databáze nukleotidových sekvencí. •Obsahuje sekvence RNA a DNA. •Zdroje sekvencí: vloženy přímo autory, genomové projekty, patenty •EMBL Nucleotide Sequence Database (EMBL-Bank) – nyní součást ENA (European Nucleotide Archive). • EMBL •https://www.ebi.ac.uk/ena EMBL •EMBL Nucleotide Sequence Database (EMBL-Bank) – součást ENA (European Nucleotide Archive). • • ENA logo • •EMBL (ENA) „entry“ • • •Translation = proteinová databáze Formát ENA databáze • • Formát ENA databáze •ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/usrman.txt Formát ENA databáze •ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/usrman.txt Formát ENA databáze •ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/usrman.txt GenBank NCBI logo •Založena roku 1982 v rámci institutu NCBI. • •http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html •http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html •http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html • pic2_a The DNA Data Bank of Japan •Původně zahrnovala data především z japonských výzkumů. •V současnosti úzká spolupráce s ostatními databázemi. • INSDC •http://www.insdc.org/ INSDC •http://www.insdc.org/documents/feature-table#7.1.1 Primární databáze proteinů •Univerzální databáze: • „Skladiště“ sekvencí – sequence repository • Manuálně spravovaná – curated database • •Příklad: GenBank versus RefSeq Primární databáze proteinů •GenPept - GenBank Gene Products Data Bank •RefSeq - Reference Sequence Swiss-PROT + TrEMBL •Swiss-Prot - „Curated“ databáze založená na Univerzitě v Ženevě v roce 1986. Spravovaná Švýcarským institutem pro bioinformatiku (SIB - Swiss Institute of Bioinformatics). • •Vysoká úroveň anotace vkládáno více sekvencí než je možno manuálně anotovat a zařadit do databáze. • •TrEMBL – Počítačově anotovaná data, odvozená z kódujících úseku sekvencí v DDBJ/EMBL/GenBank, která ZATÍM nejsou zařazena v Swiss-Prot. Swiss-Prot Logo • • Swiss-PROT + TrEMBL •Anotace: Funkce • Katalytická aktivita • Podjednotky • Domény • Biotechnologické využití • Sekvenční homologie • Posttranslační modifikace • Reference atd. Swiss-Prot Logo •http://www.expasy.org/sprot/ Složené databáze •Databáze: • Primární • Sekundární • Strukturní • • Genomové zdroje • Složené databáze Složené databáze •Složené (composite) databáze: • Slučují data z několika primárních databází. • Eliminace redundantních dat. • Různá priorita zdrojových databází podle kvality validace a anotace (eliminace redundantních dat z databáze s nižší prioritou). •Swiss-PROT + TrEMBL UniProt overview 2002- spolupráce mezi EBI, SIB a PIR http:/www.uniprot.org logo [USEMAP] • UniProt overview 2002- spolupráce mezi EBI, SIB a PIR http:/www.uniprot.org logo [USEMAP] • logo •https://www.youtube.com/watch?v=x9GNm2DLP-U Sekundární databáze NA a proteinů •Sekundární databáze obsahují informace odvozené z primárních databází ve formě charakteristických vzorů sekvencí, tj. funkčních nebo strukturních motivů získaných srovnáním primárních dat (sekvencí). •Vyhledávání „vzoru“ charakteristického pro určitou skupinu proteinů. • •Možnost predikce funkce proteinů. • • Sekundární databáze NA a proteinů •Databáze mohou obsahovat: • Proteinové DOMÉNY odvozené ze známých struktur • Proteinové sekvence seřazené do SEKVENČNÍCH RODIN • CHARAKTERISTICKÉ MOTIVY odvozené z těchto sekvenčních rodin. abrin •Sekundární proteinové databáze: • PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMS • V současné době sdruženy do integrované klasifikační databáze proteinů InterPro • • •http://www.ebi.ac.uk/interpro/ • Sekundární databáze NA a proteinů •Sekundární proteinové databáze: • PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMS • V současné době sdruženy do integrované klasifikační databáze proteinů InterPro • • •Sekundární databáze NA • TRANSFAC • JASPAR • • • • Sekundární databáze NA a proteinů •http://jaspar.genereg.net/about/ • • • • • • • • • • •Sekundární databáze NA • TRANSFAC • JASPAR • • • • Sekundární databáze NA a proteinů •http://jaspar.genereg.net/about/ Strukturní databáze • Strukturní databáze proteinů • PDB - Protein Data Bank • •Databáze obsahuje experimentálně získané struktury proteinů, nukleových kyselin a komplexů informačních biomakromolekul. •http://www.rcsb.org/pdb/ • PDB formát •PDB formát – původní formát databáze. •1997 – mmCIF (macromolecular Crystallographic Information File). •Záznamy jsou v databázi uloženy v obou formátech a volně stažitelné. •PDB formát – rozeznáván téměř všemi programy pro práci se strukturami. •http://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/dealing-with-coordinates PDB formát • •Abrin •http://emdatabank.org/ •https://www.ceitec.cz/centralni-laborator-kryo-elektronova-mikroskopie-a-tomografie/cf94 Místnost s výkoným elektronovým mikroskopem. •„Vysoké rozlišovací schopnosti mikroskopu také kladou speciální požadavky na prostory, ve kterých může být takový mikroskop umístěn. Expozice vzorku trvá kolem jedné vteřiny, kdy se nesmí vzorek ani přístroj pohnout byť o desetinu nanometru (10-10 m). Sebemenší vibrace během expozice by totiž znemožnily přesná měření. Přístroj vysoký čtyři metry vážící 2000 kilogramů a vyžadující napětí 300 kilovoltů musí proto být umístěn ve speciálně postavených prostorech s oddělenými základy, které izolují mikroskop od vibrací celé budovy. Navíc, místnost musí být izolována od jakýchkoli rušivých elektromagnetických polí. Proto ani nemohou jezdit v blízkosti budovy s mikroskopy tramvaje či trolejbusy, které by způsobovaly silné vibrace a narušovaly elektromagnetické pole a elektronový svazek v mikroskopu.“ •https://www.online.muni.cz/vite/4724-kryo-elektronovy-mikroskop-nahlizi-do-nitra-bunek •https://www.ceitec.cz/centralni-laborator-kryo-elektronova-mikroskopie-a-tomografie/cf94 Strukturní databáze NA • NDB - Nucleic Acid Database •http://ndbserver.rutgers.edu/ • •http://ndbserver.rutgers.edu/ • •The Plain Melody •for BDF062, •Strand A (C G C T G G) • • • • • • Genomové zdroje •EBI, NCBI – genomové databáze Vyhledávací systémy •Nutnost organizovaného ukládání a skladování dat. •Nutnost prohlížení a analyzování uložených dat. 180px-Wikipedia-logo •Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu. • •V širším smyslu jsou součástí databáze i softwarové prostředky, které umožňují manipulaci s uloženými daty a přístup k nim. •Textové vyhledávání v databázích • NCBI – Entrez • • http://www.ncbi.nlm.nih.gov/gquery/ Vyhledávací systémy 120px-Entrez •http://www.ncbi.nlm.nih.gov/books/NBK3837/ • • •https://www.ebi.ac.uk/ebisearch/overview.ebi/about •Vyhledávání podobností sekvencí • Textové vyhledávání může selhat (nedostatečná anotace). • Vyskytuje se shodná nebo podobná sekvence v databázi? (Identifikace možné funkce na základě homologie.) •Specializované nástroje (algoritmy) pro „seřazení“ (alignment) sekvencí. Vyhledávací systémy • Shrnutí •Výrazný nárůst množství biologických dat vede k nutnosti jejich organizovaného skladování a analyzování (databáze). • •Instituce pro správu dat a vývoj nástrojů pro analýzu: EBI/NCBI/DDBJ • •Základní rozdělení databází: primární/sekundární/strukturní databáze • •Textové vyhledávací systémy/ alignment •