IV107 Bioinformatika I Přednáška 1 Katedra informačních technologií Masarykova Univerzita Brno Podzim 2022 Outline Uvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma versus DNA - RNA - Protein Struktura DNA Transkripce a translace Struktura proteinů • -T/mvž- En Kontaktní údaje ► Dr. Matej Lexa, C506 (lexa@fi.muni.cz) ► Přednáška Po 09:00-10:50 (někdy 11:50) (A218) ► Konzultace St 14:30-15:30 ► https://www.muni.cz/lide/31298-matej-lexa/vyuka □ i5P Studijní literatura 1. Zvelebil and Baum (2007). Understanding bioinformatics, Garland Science, Oxford, 772 s. (ISBN: 0-8153-4024-9) 2. Krane and Raymer (2005). Fundamental concepts in bioinformatics, Benjamin Cummings, London, 320 s. (ISBN 0-8053-4633-3) 3. Noseketal. (2013). Genomika, CreateSpace Independent Publishing Platform, Bratislava, 276 s. (ISBN: 978-1493731336) 4. Stuart M. Brown (2015). Next-Generation DNA Sequencing Informatics, 2nd edition CSHL Press, 402 s. (ISBN: 978-1621821236) NEXT-GENERATION DNA SEQUENCING INFORMATICS Genomika Vědecké časopisy ► Bioinformatics ► BMC Bioinformatics ► J. of Bioinformatics and Computational Biology ► Briefings in Bioinformatics ► Evolutionary Bioinformatics ► GigaScience ► InSilico Biology ► Více na https://en.wikipedia.org/wiki/List_of_bioinformatics_journals Bioinformatika na Fl ► Bakalářská úroveň jako zaměření a magisterská jako specializace ► Předpokládá se vypracování bioinformatické závěrečné prače ► https://www.muni.cz/lide/31298-matej-lexa/vyuka ► https://bioinf.pages.fi.muni.cz/ ► https://is.muni.cz/auth/kruh/biotika Bioinformatika@FI Muni ► Další vyučující: doc.Vít Nováček, PhD - doc.RNDr.David Šafránek, PhD - doc.RNDr.Barbora Kozlíková, PhD Navazující předměty Fl ► IV108 - Bioinformatika II (Ct 18:00 A215) ► IV105/IV106 - Seminář z bioinformatiky Bc/Mgr (St 16:00 A319+MSTeams) ► IV110/IV114 - Projekt z bioinformatiky a systémové biologie (Po 14:00 B410) ► PB051 - Výpočetní metody v bioinformatice a systémové biologii (jaro) ► PV269 - Pokročilé metody bioinformatiky (jaro) Příbuzné předměty Fl ► IV109 - Modelování a simulace ► IV117/8 - Systémová biologie ► PB172 - Seminář ze systémové biologie ► PA183 - Projekt ze systémové biologie ► PV287 - Artificial Intelligence and Machine Learning in Healthcare ► PV251 - Visualization ► PA055 - Vizualizace komplexních dat Harmonogram kurzu ► Rychlý úvod do molekulární biologie (do poloviny října) ► Semestrální test (konec října) ► Základní oblasti bioinformatiky, datová a algoritmická řešení v nich Klasifikace ► Hodnotí se ► Semestrální test 20 bodů ► Zkouška 80 bodů ► Klasifikační stupnice ► A 90- 100 ► B 80-89 ► C 70-79 ► D 60-69 ► E 50-59 ► F méně než 50 □ i5P Outline Úvod do bioinformatiky Organizační záležitosti Zaměření bioinformatiky Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy pki i árm hin nniP \/ knQtpp I I \ \*\ I \~K I I II vj I \J I \J\A I \s V I \J L \S \~t Centrální dogma versus DNA -Struktura DNA Transkripce a translace Struktura proteinů RNA - Protein Definice bioinformatiky Bioinformatika Studuje metody shromážcfování, sprístupňovaní a analýzy rozsáhlých souborů biologických dat, zejména molekulárně biologických. Další disciplíny ► Výpočetní nebo matematická a systémová biologie matematické přístupy k reprezentaci a zkoumání biologických procesů, často simulace ► Lékařská informatika práce s medicínskými daty, převážně záznamy pacientů ► Genomika Experimentální zjišíování sekvencí DNA celých genomů ► Proteomika Experimentální zjišíování složení a funkce souborů proteinů Předmětem zájmu nebo používanými metodami se bioinformatika prolíná s 1. molekulární biologií 2. genomikou a proteomikou 3. genetikou 4. výpočetní biologií 5. matematickou či teoretickou biologií 6. systémovou biologií 7. biomedicínskou informatikou 8. biomedicínským inženýrstvím 9. výpočetní chemií 10. informatikou 11. výpočetní lingvistikou Částečně převzato z http://cz.wikipedia.org/wiki/Bioinformatics 26.2.2018 □ i5P - = Typické okruhy problémů ► Analýza sekvencí ► Sekvenování a anotace genomů ► Evoluční bioinformatika ► Studium biodiverzity / metagenomika ► Analýza exprese genů ► Analýza genové regulace ► Analýza proteomu ► Odhad struktury proteinů ► Srovnávací genomika ► Modelování biologických systémů ► Analýza obrazu ► Studium strukturních interakcí proteinů Částečně převzato z http://en.wikipedia.org/wiki/Bioinformatics 26.2.2018 Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma versus DNA -Struktura DNA Transkripce a translace Struktura proteinů RNA - Protein Buňka - základní forma organizace živé hmoty Eukaryote Prokaryote ► Molekuly (DNA, proteiny, sacharidy, lipidy) Geny (abstraktní pojem) ► Proteinové komplexy/membrány ► Organely a jiné substruktury ► Buňka ► Tkáň/pletivo ► Organizmus □ S1 Složitost biologických systémů na molekulární úrovni Člověk: cca 1014 buněk. Genom buňky: 3 x 109 párů nukleotidů DNA (A:T a C:G). Nukleotidy: vytváří sřetězenými kombinacemi cca 20000 genů (a statisíce jiných funkčních míst) Geny: kódují (a aktivitou vytváří) staticíce molekul (proteinů a RNA) Aminokyseliny: vytváří sřetězenými kombinacemi statisíce proteinů Buňka: aktivuje v daném momentu určitou podmnožinu této sady Výsledek: obrovské množství možných stavů buněk (220000 je velmi podceňující odhad) Geny: evolucí vybrané sady z cca 41000 možných sekvencí DNA (1000 nukl./gen) Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma versus DNA -Struktura DNA Transkripce a translace Struktura proteinů RNA - Protein Bioinformatická data ► Sekvence DNA a RNA ► Sekvence proteinů ► Struktura proteinů ► Fenotypy (mutantů), klinická data ► Údaje o aktivitě genů microarray, RNA-Seq ► Údaje o stavu chromatinu (metylace, 3D) (ChIP-seq, Hi-C) ► Údaje o expresi proteinů imunodetekce, 2-D gely, hmotn.spektrometrie (MS) ► Mapy interakcí mezi proteiny a DNA - Chip-Seq ► Mapy interakcí mezi proteiny navzájem - "yeast two-hybrid" ► Literatura Sekvenční data AUGACAG U UGACGAG UGCA ATAGCAGTGCGCATGCAGT MASAQSFYLLMDDHLAVFM Sekvenční data DNA ATAGCAGTGCGCATGCAGT RNA AUG AC AG U UG ACG AG UGCA Protein MASAQSFYLLMDDHLAVFM Strukturní data Zobrazení struktury proteinu Sprístupnení dat uživatelům - NCBI Genome Viewer Ideoeran+|X| Contig+|X| HsUniG+|X| Kp22.33 Kp22.32 Kp22.31 Kp22.2 Kp22.13 Xp22.12 Kp22.11 Kp21.3 Kp21.2 Xp21.1 Xpll.4 Xpll.3 Kpll.23 . Kpll.22 . Wl: Kili.l ■ Kill.2 ■ K=|12 ■ K1I3.I ■ K1I3.2 ■ Xll3.3 - Xq21.1 . K12I.2 -Ki21.31 ■ Xl21.32 ■ Kl21.33 ■ Xq22.1 ■ K122.2 ■ Kl22.3 ■ K=|23 ■ Xq24 . K=|25 ■ Ki26.1 ■ Xl26.2 -Ki26.3 ■ Kq27.1 . Ki27.2 ■ Kl27.3 ■ K=l28 ■NT_086925. ■NT_078115. flT_028413. UT_086929. . NT_086939. I NT_011633. H-NT_011669. H-NT_0284 05. -NT_011726. -NT_025965. -*T_0253 07. Hs.350927 Hs.283477 Hs.75968 Hs.406078 .33(1774 .406693 .171501 Hs.446641 .301404 .77422 .5258 .407756 .376719 Hs.170328 LHs.355S61 F-Hs.446628 ^Hs.83623 Hs.78771 Mí.454495 ÍHs.381039 ÍHs.411358 lHs.1787 Hs.79172 Hs.30(1141 Hs.232432 Hs.421383 Hs.380118 Hs.821 Hs.381232 Hs.409223 Hs.182018 Hs.401929 Hs.195464 Genes_seqX| Symho[ ASB11 O Zobrazení informací o genech na chromozomu s Sprístupnení dat vývojářům ► Grafika je sekundární. Prvořadá je rychlost a možnost automatizace manipulace s daty ► BioJava, BioPerl, BioPython, Bioconductor (R) a další knihovny pro většinu jazyků a prostředí ► servery poskytující syrová data (holý text, obrázky, XML a jiné struktury přes HTTP, SOAP, ODBC, DAS, REST) https://www.sciencedirect.com/science/article/pii/S2001037015000471 ► Beacon API https://www.ga4gh.org/news/new-release-of-ga4gh-beacon-expands-genomic-and-clinical-data-access/ ► Data obohacena o sémantiku (Ontologie, RDF tripl es/grafové databáze) Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma versus DNA -Struktura DNA Transkripce a translace Struktura proteinů RNA - Protein Stopy bioinformatiků v latině et tu brutus in vino Veritas veni vidi vid in vivo in vitro in silico biolog biochemik bionformatik Práce bioinformatika ► Umí pracovat s velkými datovými soubory ► Moudrými triky ovláda výkonné počítače ► V datech hledá zajímavé vzory nebo subsekvence ► Srovnává podobné vzory a sekvence ► Skládá genomy z kratších fragmentů ► Předpovídá strukturu a funkci genů a proteinů ► Studuje vývoj sekvencí a organizmů ► Vytváří intuitivní nástroje a reprodukovatelné výpočetní postupy ► Data a výsledky analýz zobrazuje graficky □ i5P = Způsob nahlížení na data KLASIK směs biologie, chemie, fyziky atd. MECHANIK živé buňky jsou stroje, které chceme pochopit a ovládat HRÁČ sekvence jsou definiční soubory hráčů SEMIOTIK život je signalizace a interpretace signálů LINGVISTA sekvence se skládají z modulů (slov) s určitou funkcí vykazujících gramatické uspořádání INFORMATIK Buňky jsou počítače s hardwarem (molekulám stavba = proteom a další molekuly a organely) a softwarem (genetická informace = genom) Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma versus DNA -Struktura DNA Transkripce a translace Struktura proteinů RNA - Protein Kořeny a zdroje bioinformatiky 1951 Pauling 1952 Turing 1953 Watson, Crick, Franklin 1956 Gamow et al. 1959 Chomsky 1962 Shannon a Weaver 1966 Martin-Lof 1966 Neumann 1969 Britten a Davidson struktura proteinů chem. základy vývoje struktura DNA genetický kód gramatiky informační teorie náhodné řetězce automata génová regulace □ i5P Historie bioinformatiky do sformovaní disciplíny 1967 Fitch and Margoliash: sestrojení prvních fylogenetických stromů z biologické sekvence 1970 Needleman and Wunsh: zarovnání dvou sekvencí 1974 Chou and Fasman: predikce sekundární struktury proteinů 1978 Dayhoff: první sbírka sekvencí proteinů 1981 Kabsch and Sander: modelování struktury proteinů 1987 Feng and Doolitle: mnohonásobné zarovnání sekvencí 1990 Altschul et al.: efektivní hledání lokálních podobností 1998 The Journal Comp Appl Biosci se přejmenovává na Bioinformatics Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma versus DNA -Struktura DNA Transkripce a translace Struktura proteinů RNA - Protein ► Jim Kent - autor Aegis Animator, Cyber Paint a Autodesk Animator ► po shlédnutí 12-ti CD vývojového prostředí Windows 95 přechází k bioinformatikům s posteskem, že lidský genom se vejde na jedno CD ► autor webové aplikace Genome Browser ► sehrává důležitou roli v honičce o přečtení a skompletování lidského genomu (program GigAssembler) Převzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. *?/-» '- 3; UCSC Genome Browser UCSC Genome Browser on Human May 2004 Assembly move «< | « | < | > | » | »> | zoom in I.5x | 3x | IQx | base | zoom out L5x | 3x | lQx | position |chr7:127,471,196-127,495,720 jump | clear | size 24,525 bp. configure | J I I J Ease Position STS Markers Gap RefSeq Genes Ficembly Genes '1274756 eel12748 e e e e|i17485 e e e 112749e e e e 1i 37495 e eel" STS Markers on Genetic (blue) and Radiation Hybrid (black) Maps Gap Locations Known Genes (Nov 22, 64) Based on SWISS-PROT, TrEMBL, mRNFi, and RefSed LEPI . I F^^^^^M RefSeq Genes ňceView Gene Models With ňlt-Splicing U43653 \-EC 66 683 e p EC 669323 r* EC 669452 | ■))).))>) Human mRNFis from GenEank EC 669527 }))))))))>) )J ))))))))»)))))))))): ňF 6 68123 |; I:?)))))J D49487 |))))))))) M U18915 I) I)))))).) ■ Sp1 i ced ESTS Human ESTs That Have Been Sp1i ced J J III Hu/Ch i mp/Mouse/Rat/Dog/Ch i c k/Fugu/Zf i sh Multiz alignments Si Conservation Conservat ion ch imp dog; mousei rati ch i cken' fugu zebraf ish SNPs RepeatMasker j: ÉUďJiJliÉiLJJillLi Simple Nucleotide Polymorphisms (SNPs) I II II INI III III II I I HIM III I I I I III I I I II II llllll I Repeating Elements by RepeatMasker mm i ■ ini ■■■ in i ii !■ ii in íl m i i m i in ■ Flexibilní nástroj určen k interaktivnímu prohlížení genomů □ i5P = Homo/Homo ► rozdíl každých 1000 nukleotidů ► 90% variace je mezi africkými populacemi ► na Zemi je tolik lidí a četnost mutací je tak vysoká, že každý ze jmenovaných nukleotidů je v dané generaci mutován několik krát ► lidský genom obsahuje stovky nepříjemných mutací. Většina je recesivních, projeví se jenom ojediněle, pokud je mají oba rodiče Převzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon_2003. , Homo/Pan ► rozdíl každých 100 nukleotidů ► transpozon každých 50000 nukleotidů ► dva chromozomy spojené, jinak podobná struktura Podle Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. □ i5P Homo/Mus ► 40% nukleotidu byli od dob společného predka zmenený ► Ve funkčních oblastech se změnilo jenom 15% nukleotidů ► úseky podobnosti mezi genomy člověka a myši jsou kandidáti na biologické funkce Prevzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. □ i5P *r.-,-%. S I En Homo/Caenorhabditis Asi 80% nukleotidů změněno (35% ve funkčních oblastech) Převzato z Jim Kent: "The Genes, the Whole Genes, and Nothing But the Genes", BioCon 2003. Outline Organizační záležitosti Zaměření bioinformatiky Bioinformatická data Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma versus DNA -Struktura DNA Transkripce a translace Struktura proteinů RNA - Protein Objem dat bude nadále narůstat ► Základní výzkum ► Medicína a jiné aplikace ► Bezpečnost na molekulární úrovni ► Komerční data V současnosti např. nastupuje "osobní genomika", "sekvenování jednotlivých buněk", "3-D genomika" □ S -Seq/NGS technologie How a Genealogy Website Led to the Alleged Golden State Killer Powerful tools ate now available to-anyone who wants to look for a DNA match, which has troubling privacy implications. SASAH ZHANG Af>«2?20M Prets confere noe anrourting Tr-pecapTureorf Joseph De-HJ>gelo r^seuc«A"ijEaj When the East Are a Rapist broke into the home of his first victim irLl97^> human DNA had not yet been sequence d, When he reemerged as the Original Night Stalker and began a spree of murders in 1979, the Worldwide Web> still did not exist. For decades, the Golden State Killer—as he is now best known—got awav with it a 1L Then DNA and the internet appear to have caught up. Reporting ■from The Sacramento J3« and Mercun> Nras indicates that police arrested Joseph James DeAngelo based on DNA found at crime scenes that partially matched the DNA of a relative on the open-source genealogy website CEP match. Previous searches of law-enforcement DNA 'databases had turned up no matches. ii he stibies Soiling a Murder Mystery With Ancestry Web sites CWfti OBOUftSLE The False Pi o 111 i se of DNA Testing p.™ Sif0 1https://www.theatlantic.com/science/archive/2018/04 killer-east-area-rapist-dna-genealogy/559070/ /go% = HT-Seq/NGS technologie ► Solexa pyrosequencing (lllumina) ► 454 (Roche) ► SOLiD (Life Technologies) ► Heliscope (Helicos, mrtvá technologie) ► Ion Torrent ► Polonator (Dover/Danaher Motion, otevřená platforma) ► Max-Seq (Intelligent Biosystems/Dover/Azco Biotech) ► Zero-mode waveguide sequencing, te HiFi (Pacific Biosciences) ► Nanoball sequencing (CompleteGenomics, jen jako služba) ► FRET sequencing (Visigen) ► Nanopore sequencing (Oxford Nanopore) ■L http://cen.acs.org/articles/92/i33/Next-Gen-Sequencing-Numbers-Game.htm https://whatisbiotechnology.org/index.php/science/summary/nanopore_ %*s*** □ [5P - = -š^O^O NGS technologie - bioinformaticke zpracoväni Biological samples Sequence reads Quality control Mapping ^Assembly Iii* Metagenomes Peak callingf Variant Detection Contact maps Annotation NGS technologie - srovnání (doi:i0.1101/2022.07.10.499467) ■ i 11 1 1 9 1 1 1 ■ 1 Animal Plan! Animal pianl Short PacBio ONT HiFi Short PacBio OMT HiFi Porovnávání sekvencí >P11633 NONHISTONE CHROMOSOMAL PROTEIN 6B. Score = 54.8 bits (155), Expect = le-10 Identities = 19/43 (46%), Positives = 24/43 (62%) Query: 2 TKKFKDPNRPPSAFFLFCSEYRKIKGEHPGLSIGDVAKKLGEM 52 : T : KDPNR SA: F :E R I E:P::GV: LGE Sbjct: 5 TTRKKDPNRGLSAYMFFANENRDIRSENPDVTFGQVGRILGER 55 □ i5P Analogie biosekvence - jaz 1. Mam z toho velkou radost. 2. Mam toho kocoura dost. Mamztohovelk ouradost. • •• •••• • ••••••••• • •••• • ••••••••• Mam toho kocouradost. Outline Organizační záležitosti Zaměření bioinformatiky ' -* I II II I I L I V^l U IvA Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Molekulární biologie v kostce Centrální dogma versus DNA - Struktura DNA Transkripce a translace Struktura proteinů RNA - Protein Informace v sekvenci proteinů se neodráží v sekvenci DNA nebo RNA Informace v DNA určuje existenci proteinů v buňce Příště struktura DNA a proteinů ► Struktura DNA ► Struktura proteinů ► Přenos genetické informace Outline uvuu kjiwii iiui 11 iciur\y Organizační záležitosti Zaměření bioinformatiky Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma versus DNA -Struktura DNA Transkripce a translace Struktura proteinů RNA - Protein Outline Organizační záležitosti Zaměření bioinformatiky Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma versus DNA -Struktura DNA Transkripce a translace Struktura proteinů RNA - Protein Outline uvuu kjiwii iiui 11 iciur\y Organizační záležitosti Zaměření bioinformatiky Objekty: geny, molekuly, buňky Bioinformatická data Práce bioinformatika Historie bioinformatiky Zkoumání lidského genomu Aktuální problémy Centrální dogma versus DNA -Struktura DNA Transkripce a translace Struktura proteinů RNA - Protein