IV107 Bioinformatika I Přednáška 1 Katedra informačních technologií Masarykova Univerzita Brno Podzim 2015 Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Kontaktní údaje ► Dr. Matej Lexa, C506 (lexa@fi.muni.cz) ► Přednáška St 8:00-9:50 (B311) ► Konzultace Út 14:00-15:50 ► http://www.fi.muni.czriexa/teaching.html Studijní literatura 1. Zvelebil and Baum (2007). Understanding bioinformatics, Garland Science, Oxford, 772 s. (ISBN: 0-8153-4024-9) 2. Krane and Raymer (2005). Fundamental concepts in bioinformatics, Benjamin Cummings, London, 320 s. (ISBN 0-8053-4633-3) 3. Claverie (2005). Bioinformatics for dummies, Wiley Publishing, Hoboken, 452 s. (ISBN: 0-7645-1696-5) Vědecké časopisy ► Bioinformatics ► BMC Bioinformatics ► J. of Bioinformatics and Computational Biology ► Briefings in Bioinformatics »• Genome Informatics ► Theoretical Biology and Medical Modelling ► InSilico Biology ► Biosemiotics ► GenomeWeb Daily News, InSequence Obor bioinformatika na Fl ► Bakalářská a magisterská úroveň ► Lze zvolit i v průběhu studia ► Základní sada předmětů Aplikované informatiky na Fl a čtyři předměty na LF a PřF ► Povinnost vypracovat bioinformatickou závěrečnou práci ► http://www.f i. muni.cz/~lexa/teaching. html.cz ► https://is.muni.cz/auth/setkavani/kruh.pl?kruh_id=7161 Bioinformatika@FI Muni Navazující předměty Fl ► IV108- Bioinformatika II (Po 10:00 B116) ► IV105/IV106 - Seminář z bioinformatiky Bc/Mgr (Čt 18:00 B411) ► IV110/IV114 - Projekt z bioinformatiky (a systémové biologie (St 16:00 B411) ► IV121 - Vybrané aplikace informatiky v biologii (jaro) ► PB051 - Výpočetní metody v bioinformatice a systémové biologii (jaro) Příbuzné předměty Fl ► IV109 - Modelování a simulace ► IV117/8 - Systémová biologie ► PB172 - Seminář ze systémové biologie ► PA183 - Projekt ze systémové biologie Harmonogram kurzu ► Rychlý úvod do molekulární biologie (do pol října) ► Semestrální test (konec října) Klasifikace ► Hodnotí se ► Semestrální test 20 bodů ► Zkouška 80 bodů ► Klasifikační stupnice A 90 -100 ► B 80-89 ► C 70-79 ► D 60-69 ► E 50-59 ► F méně než 50 Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Definice bioinformatiky Bioinformatika Studuje metody shromáždování, sprístupňovaní a analýzy rozsáhlých souborů biologických dat, zejména molekulárně - biologických. Další disciplíny ► Výpočetní nebo matematická biologie matematické přístupy k reprezentaci a zkoumání biologických procesů, často simulace ► Lékařská informatika práce s medicínskými daty, převážně záznamy pacientů Předmětem zájmu nebo používanými metodami se bioinformatika prolíná s 1. molekulární biologií 2. genomikou a proteomikou 3. genetikou 4. výpočetní biologií 5. matematickou či teoretickou biologií 6. systémovou biologií 7. biomedicínskou informatikou 8. biomedicínským inženýrstvím 9. výpočetní chemií 10. informatikou 11. počítačovou lingvistikou Převzato z http://cz.wikipedia.org/wiki/Bioinformatics 16.2.2008 Typické okruhy problémů ► Analýza sekvencí ► Anotace genomů ► Evoluční bioinformatika ► Studium biodiverzity ► Analýza exprese genů ► Analýza genové regulace ► Analýza proteomu ► Odhad struktury proteinů ► Srovnávací genomika ► Modelování biologických systémů ► Analýza obrazu ► Studium strukturních interakcí proteinů Převzato z http://en.wikipedia.org/wiki/Biointormatics 16.2.2008 Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Buňka - základní forma organizace živé hmoty Eukaryote Prokaryote ► Molekuly (DNA, proteiny, sacharidy, lipidy) Geny (abstraktní pojem) ► Proteinové komplexy/membrány ► Organely a jiné substruktury ► Buňka ► Tkáň/pletivo ► Organizmus Složitost biologických systémů na molekulární úrovni Člověk: cca 1014 buněk. Buňka: 3 x 109 párů nukleotidů DNA (A:T a C:G). Nukleotidy: vytváří sřetězenými kombinacemi cca 20000 genů (a statisíce funkčních míst) Geny: kódují (a aktivitou vytváří) staticíce molekul (proteinů a RNA) Buňka: aktivuje vdaném momentu určitou podmnožinu této sady Výsledek: obrovské množství možných stavů buněk (220000 je velmi podceňující odhad) Geny: evolucí vybrané sady z cca 41000 možných sekvencí DNA (1000 nukl./gen) Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Bioinformatická data ► Sekvence DNA a RNA ► Sekvence proteinů ► Struktura proteinů ► Údaje o aktivitě genů DNA čip, microarray, RNA-Seq ► Údaje o expresi proteinů 2-D gely + MS ► Mapy interakcí mezi proteiny a DNA - Chip-Seq ► Mapy interakcí mezi proteiny navzájem - Y2H ► Literatura Sekvenční data AU GACAG U U GACGAG U GCA ATAGCAGTGCGCATGCAGT MASAQSFYLLMDDHLAVFM Sekvenční data DNA ATAGCAGTGCGCATGCAGT RNA AU G AC AG U U G ACG AG U GC A Protein MASAQSFYLLMDDHLAVFM Strukturní data Zobrazení struktury proteinu 1 -o^o Sprístupnení dat uživatelům - NCBI Genome Viewer Zobrazení informací o qenech na chromozomu <€?S> m Sprístupnení dat vývojářům ► Grafika je zbytečná. Prvořadá je rychlost a možnost automatizace manipulace s daty ► BioJava, BioPerl, BioPython, Bioconductor (R) a další knihovny pro většinu jazyků a prostředí ► servery poskytující syrová data (holý text, obrázky XML jiné struktury přes HTTP, SOAR ODBC) Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Stopy bioinformatiků na webu výraz Google 2004 (tis. výsk 2011 ;ytů) et tu brutus in vino Veritas veni vidi vici 212 162 132 195 1130 2340 in vivo (biolog) in vitro (biochemik) in silico (bionformatik) 19100 12900 349 11400 18000 1790 Práce bioinformatika ► Umí pracovat s velkými datovými soubory ► Moudrými triky ovláda výkonné počítače ► V datech hledá zajímavé subsekvence ► Srovnává podobné sekvence ► Předpovídá strukturu a funkci genů a proteinů ► Studuje vývoj sekvencí a organizmů ► Data a výsledky analýz zobrazuje graficky Způsob nahlížení na data KLASIK směs biologie, chemie, fyziky atd. MECHANIK živé buňky jsou stroje, které chceme pochopit a ovládat HRA sekvence jsou definiční soubory hráčů SEMIOTIK život je signalizace a interpretace signálů JAZYK sekvence se skládají z modulů (slov) s určitou funkcí vykazujících gramatické uspořádání Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny molekuly buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Kořeny a zdroje bioinformatiky 1951 Pauling 1952 Turing 1953 Watson, Crick, Franklin 1956 Gamow et al. 1959 Chomsky 1962 Shannon a Weaver 1966 Martin-Lof 1966 Neumann 1969 Britten a Davidson struktura proteinů chem. základy vývoje struktura DNA genetický kód gramatiky informační teorie náhodné řetězce automata génová regulace Historie bioinformatiky do sformovaní disciplíny 1967 Fitch and Margoliash: sestrojení prvních fylogenetických stromů z bilogocké sekvence 1970 Needleman and Wunsh: zarovnání dvou sekvencí 1974 Chou and Fasman: predikce sekundární struktury proteinů 1978 Dayhoff: první sbírka sekvencí proteinů 1981 Kabsch and Sander: modelování struktury proteinů 1987 Feng and Doolitle: mnohonásobné zarovnání sekvencí 1990 Altschul et al.: efektivní hledání lokálních podobností 1998 The Journal Comp Appl Biosci se přejmenovává „,„„,a na Bioinformatics í^j^ Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny molekuly buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů ► Jim Kent - autor Aegis Animator, Cyber Paint a Autodesk Animator ► po shlédnutí 12-ti CD vývojového prostředí Windows 95 přechází k bioinformatikům s posteskem, že lidský genom se vejde na jedno CD ► autor webové aplikace Genome Browser ► sehrává důležitou roli v honičce o přečtení a skompletování lidského genomu (program GigAssembler) Prevzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. UCSC Genome Browser UCSC Genome Browser on Human May 2004 Assembly move «< | « | < | > | » | »> | zoom in I.5x | 3x | IQx | base | zoom osit 1.5x | 3x | IQx | position |chr7:127,471,156-127,495,720 jump | clear | size 24,525 bp. configure | "-"-Ill LL ill! B ■■■ ■ ■■■■■ lili I j "°™22 , n i t.-m II IUI III III ■■ 1 1 1 1 111" 1 ■ « pie Nucleotide 111 iS ■■"í ■ ■ 1 1 1 I ■ 1 ■ II Flexibilní nástroj určen k interaktivnímu prohlížení genomů (?) s -f)c\(y Homo/Homo ► rozdíl každých 1000 nukleotidů ► 90% variace je mezi africkými populacemi ► na Zemi je tolik lidí a četnost mutací je tak vysoká, že každý ze jmenovaných nukleotidů je v dané generaci mutován několik krát ► lidský genom obsahuje stovky nepříjemných mutací. Většina je recesivních, projeví se jenom ojediněle, pokud je mají oba rodiče Převzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon^003. _ Homo/Pan ► rozdíl každých 100 nukleotidů ► transpozon každých 50000 nukleotidů ► dva chromozomy spojené, jinak podobná struktura Podle Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. Homo/Mus ► 40% nukleotidů byli od dob společného předka změněny ► Ve funkčních oblastech se změnilo jenom 15% nukleotidů ► úseky podobnosti mezi genomy člověka a myši jsou kandidáti na biologické funkce Prevzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. Homo/Caenorhabditis Asi 80% nukleotidů změněno (35% ve funkčních oblastech) Převzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Objem dat bude nadále narůstat ► Základní výskum ► Medicína a jiné aplikace ► Bezpečnost na molekulární úrovni ► Komerční data V současnosti např. nastupuje "osobní genomika" HT-Seq: objem dat z jednoho mereni a cena za 1 ► Solexa pyrosequencing (lllumina) 18 Gbp $2 ► 454 (Roche) 0.5 Gbp $60 (ale delší sekvence) ► SOUD (Life Technologies) 24 Gbp $2 ► Heliscope (Helicos) 28 Gbp $1 ► Polonator (Danaher Motion) 8 Gbp $1 ► Zero-mode waveguide sequencing (Pacific Biosciences) 10 Gbp? $10? ► Nanoball sequencing (CompleteGenomics) 70 Gbp $1 ► FRET sequencing (Visigen) ? ► Nanopore sequencing (Oxford Nanopore) ? Porovnávání sekvencí >P11633 NONHISTONE CHROMOSOMAL PROTEIN 6B. Score =54.8 bits (155), Expect = le-10 Identities = 19/43 (46%), Positives = 24/43 (62%) Query: 2 TKKFKDPNRPPSAFFLFCSEYRKIKGEHPGLSIGDVAKKLGEM 52 : T : KDPNR SA: F :E R I E:P::GV: LGE Sbjct: 5 TTRKKDPNRGLSAYMFFANENRDIRSENPDVTFGQVGRILGER 55 Analogie biosekvence - jazyk 1. Mam z toho velkou radost. 2. Mam toho kocoura dost. Mamztohovelk ouradost. Mam toho kocouradost. Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma oTľUKTUľcl UInA Transkripce a translace Struktura proteinů Informace v DNA určuje existenci proteinů v buňce < □ ► < fl> ► 4 Příště struktura DNA a preotinů ► Struktura DNA *■ Struktura proteinů ► Přenos genetické informace Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny molekuly buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny molekuly buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů