Katedra informačních technologií Masarykova Univerzita Brno Jaro 2009 IV107Bioinformatikal -Přednáška 4 IV107 Bioinformatika I Přednáška 5 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště □ rS1 :l= -O^O IV107 Bioinformatika I - Přednáška 4 Předchozí týden ► Struktura genu «- prokaryotického «- eukaryotického ► Porovnání sekvencí - globální (Needleman-Wunsch) - semi-globální - lokální (Smith-Waterman) Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště □ rS1 :l= -O^O Outline IV107Bioinformatikal -Přednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Analýza proteinových sekvencí, strukturních a funkčních dat □ rS1 M= -O^O Typy dat v databázích 19% IV107Bioinformatikal -Přednáška 4 Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG Příště nucleotide sequence I RNA sequence/structure I mkroarray/gene expression \ | molecular biology | nonhurnan genomes [~j human genes/diseases B proteomfcs data □ pathways/interactions | plant data □ human/vertebrate genomes □ protein sequences B structural data □ organelle data | immunological data http://www.agr.kuleuven.ac.be/vakken/i287/bioinformatica.htm □ g :|= -O^O IV107 Bioinformatika I - Přednáška 4 Nárůst databáze GenBank Bioinformatické databáze Databáze GenBank Se+07 ■ 1 "genbanLgrbwtfutxt" using 3:5 8e*07 7e+07 6e*07 5e*07 4e+07 3e*07 2e*07 i le+07 . i ' t t i 0 1 . ...i. 80 1985 1880 1885 2000 2005 2010 :a Bank Gene Ontology KEGG □ rS1 - M= -O^O IV107 Bioinformatika I - Přednáška 4 GenBank Genetic Sequence Data Bank February 15 2008 NCBI-GenBank Flat File Release 164.0 National Center for Biotechnology Information ► 85759586764 bases ► 82853685 sequences ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt Bioinformatické databáze Databáze GenBank . m Prot Protein Data Bank Gene Ontology KEGG □ rS1 M= -O^O Součásti databáze GenBank ► INV, VRT, MAM, PLN, PRI, ROD, BCT, VRL ► PAT (Patents) ► HTGS (High Throughput Genomic Sequences) ► GSS (Genome Survey Sequences) ► ETS (Expressed Sequence Tags) ► STS (Sequence Tagged Sites) IV107Bioinformatikal -Přednáška 4 Bioinformatické databáze Databáze GenBank .-uprat Protein Data Bank Gene Ontology KEGG Příště Analýza proteinových sekvencí, strukturních a funkčních dat ► -š|= -OQ.O IV107 Bioinformatika I - Prednáška 4 Příklad záznamu v databázi GenBank LOCUS SCU49845 5028 bp DNA DEFINITION Saccharomyces cerevisiae TCPl-beta gene, Axl2p (AXL2) and Rev7p (REV7) genes, complete ACCESSION U49845 VERSION U49845.1 Gl:1293613 KEYWORDS SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomy Saccharomycetes; Saccharomycetales; Saccharomycetaceae; S Bioinformatické databáze Databáze GenBank Databáze UniProt Protein Data Bank Gene Ontology KEGG prrste □ g - = _g=.f)Q,o Vyhledávání v sekvenčních databázích ► textové (klíčová slova) ► sekvenční (BLAST) IV107Bioinformatikal -Přednáška 4 Bioinformatické databáze Databáze GenBank . m Prot Protein Data Bank Gene Ontology KEGG □ ö :|= -O^O Príklad záznamu v databázi UniProt Sntry name LM07 HUMAN Primary accession nuniiŕer Secondary accession numbers 015462 095346 QSJiíCl 09UQ1J5 Q9Y6A7 Entecfiated Into Swiss-Prot on March . i, 203