IV1O7 Bioinformatika I Prřednašřka 1 Katedra informačních technologií Mašarykova Univerzita Brno Jaro 2O11 faculty-logo Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatička data Objekty: geny, molekuly, bunky Bioinformatička data Prače bioinformatika Historie bioinformatiky Zkoumaní lidskeho genomu Aktuainí problemy Molekularní biologie v kostče Centralní dogma Struktura DNA Transkripče a translače Struktura proteinu jaculty-logd □ g - "» S >r)c^o- Kontaktní údaje ► Dr. Matej Lexa, C506 (lexa@fi.muni.cz) ► Přednáška Po 08:00-09:50 (B410) ► Konzultace Čt 13:00-15:00 ► http://www.fi.muni.cz/~lexa/teaching.html Studijní literatura 1. Zvelebil and Baum (2007). Understanding bioinformatics, Garland Science, Oxford, 772 s. (ISBN: 0-8153-4024-9) 2. Krane and Raymer (2005). Fundamental concepts in bioinformatics, Benjamin Cummings, London, 320 s. (ISBN 0-8053-4633-3) 3. Claverie (2005). Bioinformatics for dummies, Wiley Publishing, Hoboken, 452 s. (ISBN: 0-7645-1696-5) faculty-logo Vědecké časopisy ► Bioinformatics ► BMC Bioinformatics ► J. of Bioinformatics and Computational Biology ► Briefings in Bioinformatics ► Genome Informatics ► Theoretical Biology and Medical Modelling ► InSilico Biology ► Biosemiotics Obor bioinformatika na Fl ► Bakalářská a magisterská úroveň ► Lze zvolit i v průběhu studia ► Základní sada předmětů Aplikované informatiky na Fl a čtyři předměty na L F a PřF ► Povinnost vypracovat bioinformatickou závěrečnou práci ► http://www.fi.muni.cz/~lexa/teaching.html.cz ► https://is.muni.cz/auth/setkavani/kruh.pl?kruh_id=7161 Bioinformatika@FI Muni aculty-logc □ g - "» S -r)<\(y Navazující předměty Fl ► IV108- Bioinformatika II (podzim) ► IV105/IV106 - Seminář z bioinformatiky P/G (Út 8:00 B411) ► IV110/IV114 - Projekt z bioinformatiky (podzim) ► IV116 - Evolutionary Bioinformatics (podzim?) ► PB051 - Výpočetní metody v bioinformatice a systémové biologii aculty-logc □ g - "» S -r)<\(y Příbuzné předměty Fl ► IV109 - Modelování a simulace ► IV117/8 - Systémová biologie Harmonogram kurzu ► Rychlý úvod do molekulární biologie (do poloviny března) ► Semestrální test (březen/duben) aculty-logc □ g - "» S -r)<\(y Klasifikace ► Hodnotí se Semestrální test 20 bodů ► Zkouška 80 bodů ► Klasifikační stupnice ► A 90-100 ► B80-89 ► C70-79 ► D60-69 E 50 - 59 + F méně než 50 Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatička data Objekty: geny, molekuly, bunky Bioinformatička data Prače bioinformatika Historie bioinformatiky Zkoumaní lidskeho genomu Aktuainí problemy Molekularní biologie v kostče Centralní dogma Struktura DNA Transkripče a translače Struktura proteinu jaculty-logd □ g - "» S >r)c^o- Definice bioinformatiky Bioinformatika Studuje metody shromažďování, sprístupňovaní a analýzy rozsáhlých souborů biologických dat, zejména molekulárně - biologických. Další disciplíny ► Výpočetní nebo matematická biologie matematické přístupy k reprezentaci a zkoumání biologických procesů, často simulace ► Lékařská informatika práce s medicínskými daty, převážně záznamy pacientů aculty-logc Předmětem zájmu nebo používanými metodami se bioinformatika prolíná s 1. molekulární biologií 2. genomikou a proteomikou 3. genetikou 4. výpočetní biologií 5. matematickou či teoretickou biologií 6. sýstemovou biologií 7. biomedičínskou informatikou 8. biomedičínským inženýrstvím 9. výpočetní chemií 10. informatikou 11. počítačovou lingvistikou Prevzato z http://čz.wikipedia.org/wiki/Bioinformatičs 16.2.2008 fačultý-logo □ g - "» S >r)<^o Typické okruhy problémů ► Analýza sekvencí ► Anotace genomů ► Evoluční bioinformatika ► Studium biodiverzity ► Analýza exprese genů ► Analýza genové regulace ► Analýza proteomu ► Odhad struktury proteinů ► Srovnávací genomika ► Modelování biologických systémů Analýza obrazu ► Studium strukturních interakcí proteinů Převzato z http://en.wikipedia.org/wiki/Bioinformatics 16.2.2008 Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatičká data Objekty: geny, molekuly, bunky Bioinformatička data Prače bioinformatika Historie bioinformatiky Zkoumaní lidskeho genomu Aktualní problemy Molekularní biologie v kostče Centralní dogma Struktura DNA Transkripče a translače Struktura proteinu jaculty-logd □ g - "» S >r)c^o- Buňka - základní forma organizace živé hmoty Eukaiyote Prokaryote ► Molekuly (DNA, proteiny, sacharidy, lipidy) Geny (abstraktní pojem) ► Proteinové komplexy/membrány ► Organely a jiné substruktury ► Buňka ► Tkáň/pletivo aculty-logc ► Organizmus I □ g - "» S -r)<\(y Složitost biologických systémů na molekulární úrovni Člověk: cca 1014 bunék. Bunka: 3 x 109 párů nukleotidů DNA (A:T a Č:G). Nukleotidy: vytváří sřětéžěnými kombinacemi cca 20000 genů (a statisíce funkcních míst) Geny: kódují (a aktivitou vytvaří) staticíce molekul (proteinů a RNA) Bunka: aktivuje v danem momentu urcitou podmnožinu teto sady Vysledek: obrovske množství možnych stavů bunek (220000 je velmi podcenřující odhad) Geny: evolucí vybrane sady ž cca 41000 možnych sekvencí DNA (1000 nukl./gen) jaculty-logd □ r3> - » Outline uvoa do DioinTormatiKy Organizační záležíitosti Zaměření DioinTormatiKy BioinTormatičKa data ODjeKty: geny, moleKuly, DunKy BioinTormatičKa data Pra Historie DioinTormatiKy ZKoumaní lidsKeho genomu AKtualní proDlemy MoleKularní Diologie v Kostče Centralní dogma StruKtura DNA TransKripče a translace StruKtura proteinu jaculty-logd □ g - "» S >r)c^o- Bioinformatička data ► Sekvence DNA a RNA ► Sekvence proteinů ► Struktura proteinů ► Údaje o aktivitě genů DNA čip, microarray, RNA-Seq ► Údaje o expresi proteinů 2-D gely + MS ► Mapy interakcí mezi proteiny a DNA - Chip-Seq ► Mapy interakcí mezi proteiny navzájem - Y2H ► Literatura Sekvencni data AU GACAGU U GACGAGUGCA ATAGCAGTGCGCATGCAGT MASAQSFYLLMDDHLAVFM faculty-logo □ g - "» S >r)<^o Sekvenční data DNA ATAGCAGTGCGCATGCAGT RNA AUGACAGUUGACGAGUGCA Protein MASAQSFYLLMDDHLAVFM lačulty-logd □ g - "» S >r)c^o Strukturní data □ r3> - » Sprístupnení dat uzzivatelum - NCBI Genome Viewer Zobrazení informačí o genečh na čhromozomu fačultý-logo □ r3> - » Sprístupnení dat vývojářům ► Grafika je zbytečná. Prvořadá je rychlost a možnost automatizace manipulace s daty ► BioJava, BioPerl, BioPython, Bioconductor (R) a další knihovny pro většinu jazyků a prostředí ► servery poskytující syrová data (holý text, obrázky, XML jiné struktury přes HTTP, SOAP, ODBC) Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatičká data Objekty: geny, molekuly, bunky Bioinformatička data Prače bioinformatika Historie bioinformatiky Zkoumaní lidskeho genomu Aktualní problemy Molekularní biologie v kostče Centralní dogma Struktura DNA Transkripce a translace Struktura proteinu jaculty-logd □ g - "» S >r)c^o- Stopy bioinformatiků na webu výraz Google (tis. výskytů) 2004 2011 et tu brutus 212 195 in vino veritas 162 1130 veni vidi vici 132 2340 in vivo (biolog) 19100 11400 in vitro (biochemik) 12900 18000 in silico (bionformatik) 349 1790 faculty-logo Práce bioinformatika ► Umí pracovat s velkými datovými soubory ► Moudrými triky ovláda výkonné počítače ► V datech hledá zajímavé subsekvence ► Srovnává podobné sekvence ► Předpovídá strukturu a funkci genů a proteinů ► Studuje vývoj sekvencí a organizmů ► Data a výsledky analýz zobrazuje graficky Způsob nahlížení na data KLASIK smes biologie, čhemie, fyziky atd. MECHANIK žive bunky jsou stroje, ktere čhčeme počhopit a ovládat HRA sekvenče jsou definiční soubory hraču SEMIOTIK zživot je signalizače a interpretače signálu JAZYK sekvenče se skladají z modulu (slov) s určitou funkčí vykazujíčíčh gramatičke uspořradaní faculty-logO □ r3> - » Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatičká data Objekty: geny, molekuly, bunky Bioinformatička data Prače bioinformatika Historie bioinformatiky Zkoumaní lidskeho genomu Aktualní problemy Molekularní biologie v kostče Centralní dogma Struktura DNA Transkripce a translace Struktura proteinu jaculty-logd □ g - "» S >r)c^o- Kořeny a zdroje bioinformatiky 1951 Pauling struktura proteinů 1952 Turing chem. žaklady vyvoje 1953 Watson, Crick, Franklin struktura DNA 1956 Gamow et al. geneticky kod 1959 Chomsky gramatiky 1962 Shannon a Weaver informacní teorie 1966 Martin-Lof nahodne řetežce 1966 Neumann automata 1969 Britten a Davidson genova regulace faculty-logo Historie bioinformatiky do sformovaní disciplíny 1967 Fitčh and Margoliash: sestrojení prvních fylogenetických stromu z bilogočke sekvence 1970 Needleman and Wunsh: zarovnaní dvou sekvencí 1974 Chou and Fasman: predikce sekundarní struktury proteinu 1978 Dayhoff: první sbírka sekvencí proteinu 1981 Kabsčh and Sander: modelovaní struktury proteinu 1987 Feng and Doolitle: mnohonásobná zarovnaní sekvenčí 1990 Altsčhul et al.: efektivní hledaní lokalníčh podobností 1998 The Journal Comp Appl Biosči se prejmenovava na Bioinformatics aculty-logc □ \3 - * 5 -0<\(y Outline Organizační zaleZitosti Zameřrření DioinTormatiKy BioinTormatičKa data ODjeKty: geny, moleKuly, DunřKy BioinTormatičKa data Prače DioinTormatiKa Historie DioinTormatiKy ZKoumaní lidsKeho genomu AKtualní proDlemy MoleKularní Diologie v Kostče Centralní dogma StruKtura DNA TransKripče a translače StruKtura proteinu faculty-logO □ g - "» S >r)c^o- ► Jim Kent - autor Aegis Animator, Cyber Paint a Autodesk Animator ► po shlédnutí 12-ti CD vývojového prostředí Windows 95 přechází k bioinformatikům s posteskem, že lidský genom se vejde na jedno CD ► autor webové aplikace Genome Browser ► sehrává důležitou roli v honičce o přečtení a skompletování lidského genomu (program GigAssembler) Prevzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. UCSC Genome Browser Flexibilni nastroj urcen k interaktivnimu prohlizeni genomU faculty-logO □ r3> - » Homo/Homo ► rozdíl každých 1000 nukleotidů ► 90% variace je mezi africkými populacemi ► na Zemi je tolik lidí a četnost mutací je tak vysoká, že každý ze jmenovaných nukleotidů je v dané generaci mutován několik krát ► lidský genom obsahuje stovky nepříjemných mutací. Většina je recesivních, projeví se jenom ojediněle, pokud je mají oba rodiče Převzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. Homo/Pan ► rozdíl každých 100 nukleotidů ► transpozon každých 50000 nukleotidů ► dva chromozomy spojené, jinak podobná struktura Podle Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. Homo/Mus ► 40% nukleotidů byli od dob společného předka změněny ► Ve funkčních oblastech se změnilo jenom 15% nukleotidů ► úseky podobnosti mezi genomy člověka a myši jsou kandidáti na biologické funkce Pfevzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. Homo/Caenorhabditis Asi 80% nukleotidů zmeneno (35% ve funkčních oblastech) Převzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. faculty-logo □ r3> - » Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatičká data Objekty: geny, molekuly, bunky Bioinformatička data Prače bioinformatika Historie bioinformatiky Zkoumaní lidskeho genomu Aktualní problemy Molekularní biologie v kostče Centralní dogma Struktura DNA Transkripce a translace Struktura proteinu jaculty-logd □ g - "» S >r)c^o- Objem dat bude nadále narůstat ► Základní výskum ► Medicína a jiné aplikace ► Bezpečnost na molekulární úrovni ► Komerční data V současnosti např. nastupuje "osobní genomika" aculty-logc □ g - "» S -r)<\(y HT-Seq: objem dat z jednoho mereni a cena za 1 Mbp ► Solexa pyrosequencing (lllumina) 18 Gbp $2 ► 454 (Roche) 0.5 Gbp $60 (ale delší sekvence) ► SOUD (Life Technologies) 24 Gbp $2 ► Heliscope (Helicos) 28 Gbp $1 ► Polonator (Danaher Motion) 8 Gbp $1 ► Zero-mode waveguide sequencing (Pacific Biosciences) 10 Gbp? $10? ► Nanoball sequencing (CompleteGenomics) 70 Gbp $1 ► FRET sequencing (Visigen) ? ► Nanopore sequencing (Oxford Nanopore) ? aculty-logc □ g - "» S >r)c^o Porovnavaní sekvencí >P11633 NONHISTONE CHROMOSOMAL PROTEIN 6B. Score = 54.8 bits (155), Expect = 1e-10 Identities = 19/43 (46%), Positives = 24/43 (62%) Query: 2 TKKFKDPNRPPSAFFLFCSEYRKIKGEHPGLSIGDVAKKLGEM 52 : T : KDPNR SA: F :E R I E:P::GV: LGE Sbjct: 5 TTRKKDPNRGLSAYMFFANENRDIRSENPDVTFGQVGRILGER 55 faculty-logo □ g - ■» 5 Analogie biosekvence - jazyk 1. Mam z toho velkou radost. 2. Mam toho kocoura dost. Mamztohovelk ouradost. Mam toho kocouradost. jaculty-logd Outline Organizační zaležitosti Zameření bioinformatiký Bioinformatička data Objektý: gený, molekulý, bunký Bioinformatička data Prače bioinformatika Historie bioinformatiký Zkoumaní lidskeho genomu Aktualní problemý Molekularní biologie v kostče Centralní dogma Struktura DNA Transkripče a translače Struktura proteinu fačultý-logo □ g - "» S >r)c^o- Informače v DNA určuje existenči proteinu v bunče □ r3> - » Příště struktura DNA a preotinů ► Struktura DNA ► Struktura proteinů ► Přenos genetické informace Outline Organizační zalezitosti Zameření bioinformatiky Bioinformaticka data Objekty: geny, molekuly, bunky Bioinformaticka data Prace bioinformatika Historie bioinformatiky Zkoumaní lidskeho genomu Aktualní problemy Molekularní biologie v kostce Centralní dogma Struktura DNA Transkripce a translace Struktura proteinu jaculty-logd □ g - "» S >r)c^o Outline Organizační zaležitosti Zameřrření bioinformatiky Bioinformatička data Objekty: geny, molekuly, bunřky Bioinformatička data Prače bioinformatika Historie bioinformatiky Zkoumaní lidského genomu Aktualní problemy Molekularní biologie v kostče Centralní dogma Struktura DNA Transkripče a translače Struktura proteinu faculty-logO □ g - "» S >r)c^o- Outline Organizační zalezitosti Zameření DioinTormatiKy BioinTormatičKa data ODjeKty: geny, moleKuly, DunKy BioinTormatičKa data Prače DioinTormatiKa Historie DioinTormatiKy ZKoumaní lidsKeho genomu AKtualní proDlemy MoleKularní Diologie v Kostče Centralní dogma StruKtura DNA TransKripče a translače StruKtura proteinu faculty-logO □ g - "» S >r)c^o-