IV107 Bioinformatika 1 Dr. Matej Lexa, C505, lexa@fi.muni.cz Přednáška: Út 8:00 ­ 9:50 Konzultace: Čt 13:00 ­ 15:00 IV107 Bioinformatika 1 NAVAZUJÍCÍ PŘEDMĚTY IV105 ­ Seminář z bioinformatiky P (podzim) IV106 ­ Seminář z bioinformatiky G (út 12:00) IV108 ­ Bioinformatika II (podzim) IV110 ­ Projekt z bioinformatiky (podzim) Obor Bioinformatika Lze zvolit i v průběhu studia Kromě základních předmětů FI Biochemie (LF) Molekulární biologie (PřF) Bioinformatika (FI) Počítačová chemie (FI) IV107 Důležité informace Přednášky: 13x Kvíz: 27.3. IV107 Studijní materiály D.E.Krane and M.L.Raymer (2003). Fundamental Concepts of Bioinformatics. Benjamin Cummings, London, 320 s. ISBN 0­8053­4633­3 J.­M.Claverie. (2003). Bioinformatics for dummies. Hoboken, Wiley Publishing, 452 s. ISBN: 0­7645­1696­5 NCBI http://www.ncbi.nlm.nih.gov/Education/index.html http://www.fi.muni.cz/~lexa/links.html Briefings in Bioinformatics Applied Bioinformatics Bioinformatics Theoretical Biology and Medical Modelling Journal of Bioinformatics Genome Biology and Computational Biology BMC Bioinformatics Science IV107 Klasifikace kvíz: nad 50%, max. 1x oprava Zkouška: A ­ 91­100 % B ­ 81 ­ 90 % C ­ 71 ­ 80 % D ­ 61 ­ 70 % E ­ 41 ­ 60 % F ­ 0 ­ 40 % IV107 Osnova Historie a zaměření bioinformatiky Základy molekulární biologie ­ Organizace živé hmoty ­ Struktura a funkce DNA ­ Struktura a funkce proteinů ­ Evoluce na úrovni genů a proteinů Data v bioinformatice ­ Generování dat ­ Běžné formáty dat Veřejná sekvenční data a přístup k nim Analýza sekvence DNA Analýza sekvencí proteinů Strukturní a funkční data Hodnocení a vyhledávání podobností Jiná data a analýzy Práce s expresními daty Štěpení proteinů a hmotnostní spektra Analýza dat v literatuře Bioinformatika metody pro shromažďování a analýzu rozsáhlých souborů biologických dat Výpočetní nebo matematická biologie matematické přístupy k reprezentaci a zkoumání biologických procesů, často simulace Lékařská informatika práce s medicínskými daty, převážně záznamy pacientů Bioinformatická data ˇ Člověk se skládá z asi 10**14 buněk. Každá obsahuje 3x10**9 vesměs stejných párů bazí DNA, které vytvářejí svými kombinacemi kolem 30 000 genů. Každá buňka aktivuje v každé chvíli určitou podmnožinu této sady. ˇ Výsledkem je obrovské množství možných stavů buňek, asi tak 2**30000 jenom za předpokladu, že geny můžou být pouze aktivovány nebo deaktivovány. ˇ Samotné geny u jednotlivých organizmů jsou vybrané sady ze zhruba 4**1000 možných sekvencí DNA Buňky ˇ Základní forma organizace živé hmoty ˇ Molekuly/geny/proteiny ˇ Proteinové komplexy/membrány ˇ Organely a jiné substruktury ˇ Buňka ˇ Tkáň/pletivo ˇ Organismy Bioinformatická data ˇ Sekvence DNA a RNA ˇ Sekvence proteinů ˇ Struktura proteinů ˇ Údaje o aktivitě genů ­ DNA čip, ,,microarray" ˇ Údaje o expresi proteinů ­ 2­D gely + MS ˇ Mapy interakcí mezi proteiny a DNA ˇ Mapy interakcí mezi proteiny navzájem ˇ Literatura Bioinformatik ˇ Biolog ­ uživatel ­ návrh a interpretace ˇ Informatik ­ tvůrce Odhad: 80% rozšířeného softwaru bylo vytvořeno biology, kteří se naučili programovat Výsledek: Pro informatiky, kteří rozumí biologii zůstáva hodně práce IN VINO VERITAS 162000 VENI VIDI VICI 132000 IN VIVO = biolog 19100000 IN VITRO = biochemik 12900000 IN SILICO = bioinformatik 349000 Co dělá bioinformatik? Co dělá bioinformatik Co dělá bioinformatik ˇ Umí pracovat s velkými datovými soubory ˇ Moudrými triky ovláda výkonné počítače ˇ V datech hledá zajímavé subsekvence ˇ Srovnává podobné sekvence ˇ Předpovídá strukturu a funkci genů a proteinů ˇ Studuje vývoj sekvencí a organizmů ˇ Data a výsledky analýz zobrazuje graficky Co dělá bioinformatik ˇ biologie ˇ informatika ˇ analýza sekvencí ˇ strukturní bioinformatika ˇ dynamické modelování ˇ analýza obrazu ˇ databázy a vyhledávání znalostí ˇ lingvistika ˇ neurologie Způsoby nahlížení na data KLASICKÝ směs biologie, chemie, fyziky atd. MECHANISTICKÝ živé buňky jsou stroje, které chceme pochopit a ovládat EVOLUCE A ŽIVOT JAKO HRA sekvence jsou definiční soubory hráčů GENETICKÉ INFORMACE JAKO JAZYKY sekvence se skládají z frází a slov s určitou Jim Kent ­ autor Aegis Animator, Cyber Paint a Autodesk Animator ­ po shlédnutí 12 CD­ROM vývojového prostředí pro Windows 95 přesedlává na bioinformatiku s odůvodněním, že lidský genom se vejde na jedno CD ­ autor Genome Browser ­ sehrává důležitou roli v honičce o přečtení a skompletování lidského genomu (GigAssembler) Human vs. Human A variation every 1000 nucleotides. 90% of human variation is within African populations. There are enough humans, and the mutation rate is high enough, that on average each base is mutated several times in each generation. Humans each carry hundreds of bad mutations. Most are recessive, only show up with inbreeding. Human vs. Chimpanzee A difference every 100 bases. A new transposon every 50000 bases Two chromosome in one species fused compared to the other. Human vs. Mouse In general 40% of bases have changed. In functional regions only 15% of bases have changed. Looking for conserved regions between human and mouse helps identify functional parts of human genome. Co dělá bioinformatik Co dělá bioinformatik Co dělá bioinformatik Co dělá bioinformatik? 1953 ­ Watson, Crick, Franklin We wish to suggest a structure for the salt of deoxyribose nucleic acid (D.N.A.). This structure has novel features which are of considerable biological interest. 1951 ­ Pauling struktura proteinů 1952 ­ Turing chemické základy vývoje 1953 ­ Watson and Crick struktura DNA 1956 ­ Gamow et al. genetický kód 1969 ­ Britten and Davidson génová regulace 1959 ­ Chomsky gramatiky 1962 ­ Shannon and Weaver informační teorie 1966 ­ Martin­Lof náhodné řetězce 1966 ­ Neumann automata Kořeny BIOINFORMATIKY sahají do 60. let 1965 ­ Zuckerkandl and Pauling první použití sekvence v evoluční studii 1967 ­ Fitch and Margoliash sestrojení prvních fylogenetických stromů 1970 ­ Needleman and Wunsh užití dyn. programování k zarovnávání 1974 ­ Chou and Fasman predikce sekundární struktury proteinů 1975 ­ Tanaka and Sheraga simulace skládání proteinů 1978 ­ Dayhoff první sbírka sekvencí proteinů 1981 ­ Smith and Waterman modifikace algoritmu pro zarovnávání 1984 ­ Kabsch and Sander modelování struktury proteinů 1986 ­ Bilofsky et al. GenBank 1986 ­ Hamm and Cameron EMBL Data Library 1987 ­ Feng and Doolitle mnohonásobné zarovnání sekvencí 1987 ­ Gribskov analýza sekvenčních profilů 1990 ­ Altschul et al. efektivní hledání lokálních podobností 1998 ­ The journal Comp Appl Biosci becomes Bioinformatics CENTRÁLNÍ DOGMA DNA ­ RNA ­ PROTEIN AACGGTA AA Asn­Gly­ Asn CENTRÁLNÍ DOGMA 2? PROTEIN/GEN ­ STRUKTURA ­ FUNKCE transkripční aktivátor fungující v nervových buňkách Met­Asn­Gly­Asn­ ­Thy­Gly­Ala­Ile­ ... AAC GGT AAA Assembler? | | | Asn­Gly­Asn MASAQSF / | \ C++?/English _ _ __ __ _ _/ \_/ \_/ _/ \/\/ Aktuální problémy PROTEIN/GEN STRUKTURA FUNKCE VĚTA SYNTAX VÝZNAM BIOLOGICKÉ SEKVENCE JAKO JAZYK Aktuální problémy Mám z toho velkou radost. Mám toho kocoura dost. Mámztohovelk__ouradost. ::: :::: : ::::::::: Mám_toho___kocouradost. Aktuální problémy Aktuální problémy 010001010010000011111 110101001001010100101 010101001010010010100 010100101010100010010 010101001010101001010 101010100101010100101 Centrální dogma ˇ DNA ­> RNA ­> PROTEIN