IV107 Bioinformatika I Přednáška 1 Katedra informačních technologií Masarykova Univerzita Brno Podzim 2019 Outline Uvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Kontaktní údaje ► Dr. Matej Lexa, C506 (lexa@fi.muni.cz) ► Přednáška Po 16:00-17:50 (někdy 18:50) (B411) ► Konzultace Pá 10:00-11:50 ► http://www.fi. muni.cz/~lexa/teaching. html Studijní literatura 1. Zvelebil and Baum (2007). Understanding bioinformatics, Garland Science, Oxford, 772 s. (ISBN: 0-8153-4024-9) 2. Krane and Raymer (2005). Fundamental concepts in bioinformatics, Benjamin Cummings, London, 320 s. (ISBN 0-8053-4633-3) 3. Noseketal. (2013). Genomika, CreateSpace Independent Publishing Platform Bratislava, 276 s. (ISBN: 978-1493731336) 1 mui^m íw 1 Mi.-:>/!• >«//.i• .avi L. 1 * í undafstondir»8 bioinformatics u EIDI i ::r3 Genomika s I □ i5P = Vědecké časopisy ► Bioinformatics ► BMC Bioinformatics ► J. of Bioinformatics and Computational Biology ► Briefings in Bioinformatics ► Genome Informatics ► Theoretical Biology and Medical Modelling ► InSilico Biology ► Biosemiotics ► GenomeWeb Daily News, InSequence □ ÉŠ1 Bioinformatika na Fl ► Bakalářská a magisterská úroveň jako specializace ► Předpokládá se vypracování bioinformatická závěrečné práce ► http://www.fi.muni.czriexa/teaching.html.cz ► https://is.muni.cz/auth/kruh/biotika Bioinformatika@FI Mu Navazující předměty Fl ► IV108 - Bioinformatika II (Po 12:00 B116) ► IV105/IV106 - Seminář z bioinformatiky Bc/Mgr (Út 09:00 B411) ► IV110/IV114 - Projekt z bioinformatiky (a systémové biologie (Čt 18:00 B204) ► PB051 - Výpočetní metody v bioinformatice a systémové biologii (jaro) Příbuzné předměty Fl ► IV109 - Modelování a simulace ► IV117/8 - Systémová biologie ► PB172 - Seminář ze systémové biologie ► PA183 - Projekt ze systémové biologie ► PA055 - Vizualizace komplexních dat Harmonogram kurzu ► Rychlý úvod do molekulární biologie (do pol října) ► Semestrální test (konec října) □ i5P Klasifikace ► Hodnotí se ► Semestrální test 20 bodů ► Zkouška 80 bodů ► Klasifikační stupnice ► A 90- 100 ► B 80-89 ► C 70-79 ► D 60-69 ► E 50-59 ► F méně než 50 □ i5P Outline Uvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Definice bioinformatiky Bioinformatika Studuje metody shromážcfování, sprístupňovaní a analýzy rozsáhlých souborů biologických dat, zejména molekulárně - biologických. Další disciplíny ► Výpočetní nebo matematická biologie matematické přístupy k reprezentaci a zkoumání biologických procesů, často simulace ► Lékařská informatika práce s medicínskými daty, převážně záznamy pacientů Předmětem zájmu nebo používanými metodami se bioinformatika prolíná s 1. molekulární biologií 2. genomikou a proteomikou 3. genetikou 4. výpočetní biologií 5. matematickou či teoretickou biologií 6. systémovou biologií 7. biomedicínskou informatikou 8. biomedicínským inženýrstvím 9. výpočetní chemií 10. informatikou 11. počítačovou lingvistikou Převzato z http://cz.wikipedia.org/wiki/Bioinformatics 16.2.2008 □ i5P - = Typické okruhy problémů ► Analýza sekvencí ► Anotace genomů ► Evoluční bioinformatika ► Studium biodiverzity ► Analýza exprese genů ► Analýza genové regulace ► Analýza proteomu ► Odhad struktury proteinů ► Srovnávací genomika ► Modelování biologických systémů ► Analýza obrazu ► Studium strukturních interakcí proteinů Převzato z http://en.wikipedia.org/wiki/Bioinformatics 16.2.2008 Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Buňka - základní forma organizace živé hmoty Eukaryote Prokaryote ► Molekuly (DNA, proteiny, sacharidy, lipidy) Geny (abstraktní pojem) ► Proteinové komplexy/membrány ► Organely a jiné substruktury ► Buňka ► Tkáň/pletivo ► Organizmus □ S1 Složitost biologických systémů na molekulární úrovni Člověk Buňka Nukleotidy cca 1014 buněk. 3 x 109 párů nukleotidů DNA (A:T a C:G). vytváří sřetězenými kombinacemi cca 20000 genů (a statisíce funkčních míst) Geny: kódují (a aktivitou vytváří) staticíce molekul (proteinů a RNA) Buňka: aktivuje v daném momentu určitou podmnožinu této sady Výsledek: obrovské množství možných stavů buněk (220000 je velmi podceňující odhad) Geny: evolucí vybrané sady z cca 41000 možných sekvencí DNA (1000 nukl./gen) to Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Bioinformatická data ► Sekvence DNA a RNA ► Sekvence proteinů ► Struktura proteinů ► Údaje o aktivitě genů DNA čip, microarray, RNA-Seq ► Údaje o expresi proteinů 2-D gely + MS ► Mapy interakcí mezi proteiny a DNA - Chip-Seq ► Mapy interakcí mezi proteiny navzájem - Y2H ► Literatura □ i5P Sekvenční data AUGACAG U UGACGAG UGCA ATAGCAGTGCGCATGCAGT MASAQSFYLLMDDHLAVFM Sekvenční data DNA ATAGCAGTGCGCATGCAGT RNA AUG AC AG U UG ACG AG UGCA Protein MASAQSFYLLMDDHLAVFM Strukturní data Zobrazení struktury proteinu Sprístupnení dat uživatelům - NCBI Genome Viewer Ideoeran+|X| Contig+|X| HsUniG+|X| Kp22.33 Kp22.32 Kp22.31 Kp22.2 Kp22.13 Xp22.12 Kp22.11 Kp21.3 Kp21.2 Xp21.1 Xpll.4 Xpll.3 Kpll.23 . Kpll.22 . Wl: Kili.l ■ Kill.2 ■ K=|12 ■ K1I3.I ■ K1I3.2 ■ Xll3.3 - Xq21.1 . K12I.2 -Ki21.31 ■ Xl21.32 ■ Kl21.33 ■ Xq22.1 ■ K122.2 ■ Kl22.3 ■ K=|23 ■ Xq24 . K=|25 ■ Ki26.1 ■ Xl26.2 -Ki26.3 ■ Kq27.1 . Ki27.2 ■ Kl27.3 ■ K=l28 ■NT_086925. ■NT_078115. flT_028413. UT_086929. . NT_086939. I NT_011633. H-NT_011669. H-NT_0284 05. -NT_011726. -NT_025965. -*T_0253 07. Hs.350927 Hs.283477 Hs.75968 Hs.406078 .33(1774 .406693 .171501 Hs.446641 .301404 .77422 .5258 .407756 .376719 Hs.170328 LHs.355S61 F-Hs.446628 ^Hs.83623 Hs.78771 Mí.454495 ÍHs.381039 ÍHs.411358 lHs.1787 Hs.79172 Hs.30(1141 Hs.232432 Hs.421383 Hs.380118 Hs.821 Hs.381232 Hs.409223 Hs.182018 Hs.401929 Hs.195464 Genes_seqX| Symho[ ASB11 O Zobrazení informací o genech na chromozomu s Sprístupnení dat vývojářům ► Grafika je sekundární. Prvořadá je rychlost a možnost automatizace manipulace s daty ► BioJava, BioPerl, BioPython, Bioconductor (R) a další knihovny pro většinu jazyků a prostředí ► servery poskytující syrová data (holý text, obrázky, XML jiné struktury přes HTTP, SOAP, ODBC) ► Data obohacena o sémantiku (Ontologie, RDF tripl es/grafové databáze) Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Stopy bioinformatiků v latině et tu brutus in vino Veritas veni vidi vid in vivo in vitro in silico biolog biochemik bionformatik Práce bioinformatika ► Umí pracovat s velkými datovými soubory ► Moudrými triky ovláda výkonné počítače ► V datech hledá zajímavé subsekvence ► Srovnává podobné sekvence ► Skládá genomy z kratších fragmentů ► Předpovídá strukturu a funkci genů a proteinů ► Studuje vývoj sekvencí a organizmů ► Data a výsledky analýz zobrazuje graficky □ i5P Způsob nahlížení na data KLASIK směs biologie, chemie, fyziky atd. MECHANIK živé buňky jsou stroje, které chceme pochopit ovládat HRA sekvence jsou definiční soubory hráčů SEMIOTIK život je signalizace a interpretace signálů JAZYK sekvence se skládají z modulů (slov) s určitou funkcí vykazujících gramatické uspořádání Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Kořeny a zdroje bioinformatiky 1951 Pauling 1952 Turing 1953 Watson, Crick, Franklin 1956 Gamow et al. 1959 Chomsky 1962 Shannon a Weaver 1966 Martin-Lof 1966 Neumann 1969 Britten a Davidson struktura proteinů chem. základy vývoje struktura DNA genetický kód gramatiky informační teorie náhodné řetězce automata génová regulace □ i5P Historie bioinformatiky do sformovaní disciplíny 1967 Fitch and Margoliash: sestrojení prvních fylogenetických stromů z biologické sekvence 1970 Needleman and Wunsh: zarovnání dvou sekvencí 1974 Chou and Fasman: predikce sekundární struktury proteinů 1978 Dayhoff: první sbírka sekvencí proteinů 1981 Kabsch and Sander: modelování struktury proteinů 1987 Feng and Doolitle: mnohonásobné zarovnání sekvencí 1990 Altschul et al.: efektivní hledání lokálních podobností 1998 The Journal Comp Appl Biosci se přejmenovává na Bioinformatics Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů ► Jim Kent - autor Aegis Animator, Cyber Paint a Autodesk Animator ► po shlédnutí 12-ti CD vývojového prostředí Windows 95 přechází k bioinformatikům s posteskem, že lidský genom se vejde na jedno CD ► autor webové aplikace Genome Browser ► sehrává důležitou roli v honičce o přečtení a skompletování lidského genomu (program GigAssembler) Převzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. *?/-» '- 3; UCSC Genome Browser UCSC Genome Browser on Human May 2004 Assembly move «< | « | < | > | » | »> | zoom in I.5x | 3x | IQx | base | zoom out L5x | 3x | lQx | position |chr7:127,471,196-127,495,720 jump | clear | size 24,525 bp. configure | J I I J Ease Position STS Markers Gap RefSeq Genes Ficembly Genes '1274756 eel12748 e e e e|i17485 e e e 112749e e e e 1i 37495 e eel" STS Markers on Genetic (blue) and Radiation Hybrid (black) Maps Gap Locations Known Genes (Nov 22, 64) Based on SWISS-PROT, TrEMBL, mRNFi, and RefSed LEPI . I F^^^^^M RefSeq Genes ňceView Gene Models With ňlt-Splicing U43653 \-EC 66 683 e p EC 669323 r* EC 669452 | ■))).))>) Human mRNFis from GenEank EC 669527 }))))))))>) )J ))))))))»)))))))))): ňF 6 68123 |; I:?)))))J D49487 |))))))))) M U18915 I) I)))))).) ■ Sp1 i ced ESTS Human ESTs That Have Been Sp1i ced J J III Hu/Ch i mp/Mouse/Rat/Dog/Ch i c k/Fugu/Zf i sh Multiz alignments Si Conservation Conservat ion ch imp dog; mousei rati ch i cken' fugu zebraf ish SNPs RepeatMasker j: ÉUďJiJliÉiLJJillLi Simple Nucleotide Polymorphisms (SNPs) I II II INI III III II I I HIM III I I I I III I I I II II llllll I Repeating Elements by RepeatMasker mm i ■ ini ■■■ in i ii !■ ii in íl m i i m i in ■ Flexibilní nástroj určen k interaktivnímu prohlížení genomů □ i5P = Homo/Homo ► rozdíl každých 1000 nukleotidů ► 90% variace je mezi africkými populacemi ► na Zemi je tolik lidí a četnost mutací je tak vysoká, že každý ze jmenovaných nukleotidů je v dané generaci mutován několik krát ► lidský genom obsahuje stovky nepříjemných mutací. Většina je recesivních, projeví se jenom ojediněle, pokud je mají oba rodiče Převzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon_2003. , Homo/Pan ► rozdíl každých 100 nukleotidů ► transpozon každých 50000 nukleotidů ► dva chromozomy spojené, jinak podobná struktura Podle Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. □ i5P Homo/Mus ► 40% nukleotidu byli od dob společného predka zmenený ► Ve funkčních oblastech se změnilo jenom 15% nukleotidů ► úseky podobnosti mezi genomy člověka a myši jsou kandidáti na biologické funkce Prevzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. □ i5P *r.-,-%. S I En Homo/Caenorhabditis Asi 80% nukleotidů změněno (35% ve funkčních oblastech) Převzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Objem dat bude nadále narůstat ► Základní výskum ► Medicína a jiné aplikace ► Bezpečnost na molekulární úrovni ► Komerční data V současnosti např. nastupuje "osobní genomika" -Seq/NGS technologie How a Genealogy Website Led to the Alleged Golden State Killer Powerful tools ate now available to-anyone who wants to look for a DNA match, which has troubling privacy implications. SASAH ZHANG Af>«2?20M Prets confere noe anrourting Tr-pecapTureorf Joseph De-HJ>gelo r^seuc«A"ijEaj When the East Are a Rapist broke into the home of his first victim irLl97^> human DNA had not yet been sequence d, When he reemerged as the Original: Night Stalker and began a spree of mur-ders in 1979, the Worldwide Web> still did not exist. For decades, the Golden State Killer—as he is now best known—got awav with it a 1L Then DNA and the internet appear to have caught up. Reporting ■from The Sacramento J3« and Mercun> Nras indicates that police arrested Joseph James DeAngelo based on DNA found at crime scenes that partially matched the DNA of a relative on the open-source genealogy website CEP match. Previous searches of law-enforcement DNA 'databases had turned up no matches. ii he stibies Soiling a Murder Mystery With Ancestry Web sites CWfti OBOUftSLE The False Pi o 111 i se of DNA Testing p.™ Sif0 1https://www.theatlantic.com/science/archive/2018/04 killer-east-area-rapist-dna-genealogy/559070/ /go% = HT-Seq/NGS technologie ► Solexa pyrosequencing (lllumina) ► 454 (Roche) ► SOLiD (Life Technologies) ► Heliscope (Helicos, mrtvá technologie) ► Ion Torrent ► Polonator (Dover/Danaher Motion, otevřená platforma) ► Max-Seq (Intelligent Biosystems/Dover/Azco Biotech) ► Zero-mode waveguide sequencing (Pacific Biosciences) ► Nanoball sequencing (CompleteGenomics, jen jako služba) ► FRET sequencing (Visigen) ► Nanopore sequencing (Oxford Nanopore) http://cen.acs.org/articles/92/i33/Next-Gen-Sequencing-Numbers-Game.html Porovnávání sekvencí >P11633 NONHISTONE CHROMOSOMAL PROTEIN 6B. Score = 54.8 bits (155), Expect = le-10 Identities = 19/43 (46%), Positives = 24/43 (62%) Query: 2 TKKFKDPNRPPSAFFLFCSEYRKIKGEHPGLSIGDVAKKLGEM 52 : T : KDPNR SA: F :E R I E:P::GV: LGE Sbjct: 5 TTRKKDPNRGLSAYMFFANENRDIRSENPDVTFGQVGRILGER 55 □ i5P Analogie biosekvence - jaz 1. Mam z toho velkou radost. 2. Mam toho kocoura dost. Mamztohovelk ouradost. • •• •••• • ••••••••• • •••• • ••••••••• Mam toho kocouradost. Outline Organizační záležitosti Zaměření bioinformatiky Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Informace v DNA určuje existenci proteinů v buňce □ i5P - = Příště struktura DNA a proteinů ► Struktura DNA ► Struktura proteinů ► Přenos genetické informace ine Organizační záležitosti Zaměření bioinformatiky Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů Organizační záležitosti Zaměření bioinformatiky Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů ine Organizační záležitosti Zaměření bioinformatiky Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma Struktura DNA Transkripce a translace Struktura proteinů