Analýza genomických a proteomických dat Mgr. Eva Budinská, Ph.D. Jaro 2022 Osnova přednášek I. Současné výzvy a technologie genomiky a proteomiky II. Princip a analýza obrazu DNA mikročipů III. Úprava a normalizace dat cDNA mikročipů IV. Úprava a normalizace dat oligonukleotidových mikročipů V. Princip, úprava a normalizace dat dalších mikročipů (Epigenetické mikročipy, Illumina BeadChip, SNP chip...) VI. Úprava dat proteomické hmotnostní spektrometrie VII. Společné principy analýzy genomických a proteomických dat VIII. Porovnávání tříd IX. Predikce tříd X. Objevování tříd XI. Analýza přežití a další regrese XII. Analýza genových sad a genových sítí XIII. Meta-analýza Požadavky - Individuálníprojekt(15 bodů) - 40% z celkového hodnocenízkoušky - Písemná zkouška (20 bodů) – 50% z celkového hodnocenízkoušky - Aktivitaa přítomnost na cvičeních a prezentaci projektu (5 bodů) – 10% z celkovéhohodnocenízkoušky - Úspěšné absolvování: • min 21 bodů, z toho min 8 z projektu a min 10 ze zkoušky POZOR – ke zkoušce se lze přihlásitpouze po odevzdání projektu který bude ohodnocenminimálně8 body! Hodnoceníprojektu trvá max 5 dní - nutno zohlednit pro plánovánípřihlašování kezkoušce. Požadavky k projektu - Zpracovává se samostatně - Možnost zpracovávatvlastnídatanebo dataz veřejné dostupnýchdatabází - Výběr ze stanovenýchprojektů,vlastní téma nutno schválitpředem – nejzazší termín výběru projektu: 16.3.2022 - Projekt nutno odevzdat před zkouškou, pouze po odevzdánía obdržení 8 bodů z projektu je možné přihlásitse na zkušební termín - Nejzazší termín odevzdání projektůpro kontrolu počtu bodů: 6 dní před zkušebním termínem - 1x možnost opravy projektu dle připomínek Výuka IBA Požadavky vypracování projektu - Student odevzdává2 soubory: – popis projektu veformátupdf ve struktuředefinovanéníže – .R soubor se skriptemanalýzy od načtení dat po finální grafy - Struktura popisuprojektu: – Název – Úvod – co je cílem projektu, přesnědefinovanéhypotézy – Data– přesnědefinovaný typ dat, odkaz na staženídat, počet vzorků, typ platformy zekterébyly data získány,kolik bylo na platforměsond, kolik genů reprezentovaly, v případědvoukanálového experimentu jasná definice vzorků v jednotlivých kanálech, ... – Metodika–jaké metody zpracovánídatod úpravy až po finální interpretaci byly použity a proč – Výsledky –výsledková částrozdělená na • a. Předzpracovánía normalizacezákladních dat(popis, grafy, interpretacevýsledků vzhledemk dalšímanalýzám) • b. Statistická analýza a data mining – rozděleno dle typu analýzy, popis nejdůležitějších výsledků a jejich sumarizace, grafy (např. venovy diagramy, heatmapa, volcano plot, forestplot...), sumárnítabulky výsledků, odkazy na tabulky s podrobnýmivýsledky • c. Biologická interpretace - Struktura .R souboruse skriptemanalýzy: - Skriptrozdělený do kapitolpodle analýzy dats podrobnýmkomentářemjednotlivých kroků Současné výzvy genomiky a proteomiky Ústřední dogma molekulární biologie DNA -> mRNA -> protein Přepis Překlad Přepis Překlad Mnohorozměrná povaha moderní biomedicíny Genomika je věda zabývající se studiem souboru genů v buňce (genom) Proteomika je věda zabývající se studiem souboru proteinů v buňce (proteom) Geny podmiňují fyzický vzhled organismua jeho schopnost adaptace na prostředí, ve kterém žije a jeho pomalé i náhlé změny (stres). Rozdíly mezi organismy jsou podmíněnérozdíly v genomu. • Odolnost bakteriína antibiotika podmíněná mutacemi. • Adaptacena extrémní podmínky- život ve vesmíru, v sopce, sirných pramenech, vařících pramenech a mrazech do -70 Jak je možné, že se navzájem liší i buňky v rámci jednoho organismu, když mají stejnou sadu genů? Jak je možné, že se navzájem liší i buňky v rámci jednoho organismu, když mají stejnou sadu genů? Tyto rozdíly jsou důsledkem odlišné aktivity genů a jejich produktů, proteinů a funkčních RNA molekul. Genomika a proteomika v BIOLOGII Dekódování genomu u různých druhů Můžeme studovat  Rozdíly v genomu/proteomu jednotlivých druhů  studovattak evoluční propojení a vytvářet fylogenetické stromy DNA mRNA Protein  aktivitu genů a proteinůorganizmův rozdílných podmínkách  Můžeme pochopit mechanismy působení parazitů a jejich přizpůsobení se hostiteli, případně studovatbakterie a jejich mechanismy přizpůsobení se extrémním podmínkám … Genomika a proteomika v MEDICÍNĚ Studium genetické podstatydědičných i získanýchonemocnění  Můžeme studovat  Genetické mutace, a jiné genetické/genomické aberace způsobující nemoci DNA mRNA Protein  Rozdílnouaktivitugenů a proteinů u konkrétních nemocí v porovnání se zdravým organismem  Jsme schopní korelovat funkci produktůjednotlivých genů s onemocněním NEMOC  GEN (Y)  Pochopit podstatu onemocnění  Najít nejvhodnějšízpůsob léčby (cílená léčba), prevence a diagnostikyonemocnění Geny a onemocnění I. - příčiny • Downův syndrom, hemofilie, cystická fibróza, svalovádystrofie, rakovina... • Dědičné i získané, u některých stačí jediná mutace v patřičném genu a vzniká choroba, u jiných je zapotřebí více genetických změn 1. Změny ve struktuře DNA: • Mutace ve struktuře jednoho genu (jednonukleotidové polymorfizmy, delece, inzerce, amplifikace nukleotidů) • Aberace celého genu a nebo části chromozomu (delece, translokace, inzerce, amplifikace) • Aberace celých chromozomů 2. Změny v expresi a aktivitě genů a jejich produktů 3. Změny v posttranslačních úpravách proteinů Genomika a proteomika v MEDICÍNĚ Geny a onemocnění II. - mutace • Buňky v organismuse stále obnovují a dělí - při každém dělení replikují celý genom na nukleotid přesně. Tento proces není při velikosti lidského genu (3.2 bilionu nukleotidů) jednoduché. • Proto existuje mnoho kontrolních mechanismů: • na opravu poškozené časti DNA • pro správnou distribuci chromozomův procese mitózy/meiózy • pro případnou apoptózu (regulovanou smrt buňky) v případě nezvratných změn • apod.… • Genetické aberace vznikají selháním kontrolních mechanismů Genomika a proteomika v MEDICÍNĚ Geny a onemocnění III. – aktivita genů • Nejen mutace, ale i nesprávná aktivita genů může vést ke vzniku onemocnění. • V lidské buňce probíhá každou chvíli obrovské množstvíprocesů, přepisují se stovky genů a neustále se vytvářejí proteiny na základě vnitřních a venkovních podnětů. • Tyto podněty jsou regulované stovkamiregulačních mechanismů, které jsou opět založené na proteinech. • Chyba v jednom z mechanismů může také skončit vyvinutím onemocnění. Genomika a proteomika v MEDICÍNĚ Geny a onemocnění IV. - shrnutí • Co způsobuje onemocnění – proteiny a jiné funkční molekuly,které mají změněnou svojí funkčnost, nebo expresi. • Příčiny nesprávné funkce: • Mutace v příslušném genu, způsobující v důsledku změnu v sekvenci aminokyselin proteinu a tím jeho: • nefunkčnost • nadměrnou aktivitu • Změny v mechanismech kontroly exprese daného proteinu, který je následně produkovaný • v nedostačujícím množství • v nadměrném množství • Změny v postranslačních úpravách a sekundární/terciární struktuře proteinu Genomika a proteomika v MEDICÍNĚ BUŇKA Co ještě víme DNA mRNA Protein Přepis Překlad Transkripční faktor Aktivační protein Inhibujíci protein Signály mimo buňkyMIMO BUŇKY MEMBRÁNA Ale víme ještě víc ..a ještě víc... ...a ještě víc... ...ale je velmi obtížné to vše propojit a interpretovat http://219.221.200.61/ywwy/zbsw(E)/pic/ech6- 36.jpg Co zkoumáme v genomice a proteomice • U genů můžeme zkoumat jejich • Strukturu a její změny – sekvence nukleotidů A, C, G, T • Množství – zda jsou a nebo nejsou přítomné a v jakém počtu kopií • Aktivitu – zda se gen přepisuje do mRNA a v jakém množství • U proteinů zkoumáme • Složení – z jakých aminokyselin • Strukturu – jak jsou řetězce peptidů uspořádané do 3D struktur • Množství – zda jsou a nebo nejsou přítomné a v jakém množství • Funkci – modelování, identifikace aktivních vazebných míst • Další fáze je modelování komplexníchbuněčných systémů– proteinové interakce, buněčné dráhy, regulační a metabolické sítě … Metody studia genomu a proteomu • Klasické metody molekulární biologie a cytogenetiky: • Metody zkoumající jen jeden nebo několik genů a proteinů v jednom experimentu: • PCR, RT-PCR, real-time PCR • FISH (fluorescence in-situ hybridization) • gelová elektroforéza, ... • Vysocepokryvné metody molekulární biologie: • schopné zkoumat tisíce molekul v jednom experimentu.... • ... jak vznikly? Proteomika a genomika The Human Cancer Genome Atlas (TCGA) projekt Od Watsona & Cricka po Leroya Hooda • Na začátku byl dvoušroubovicový model DNA... a na konci byly: ▪ automatické sekvenátory DNA a proteinů ▪ automatické syntetizátory DNA a proteinů Nové možnosti Sekvenátory umožnily rychle dekódovat sekvenci genů a proteinů Znalost přesné sekvence umožnila navrhovat specifické genové sondy a syntetizátor umožňoval jejich rychlou a automatickou výrobu. Otevřely se dveře pro nové, vysocepokryvní technologie, schopné analyzovat tisíce genů/proteinů v jednom experimentu! Analýza genomu • Od nukleotidových sekvencí po úplně anotovanýgenom • Analýza struktury • DNA sekvenace, Chip-seq, WES (whole exome sequencing), WGS • Srovnávací genomika – aCGH čipy, SNP polymorfismy, alternative splicing arrays, fingerprinting • Analýza aktivity (exprese) – Mikročipy, SAGE, MPSS, Expressed sequence tags (ESTs), RNAseq, … • Regulace genomu • Chip-on-chip • Epigenetika (mikročipy, metylace...) Analýza proteomu Od hmostnostníchspekter – přes komplexní struktury proteinových shluků - po analýzu funkce proteinů • Analýzastruktury: Proteinová sekvenace • Analýzaexprese:Hmotnostníspektrometrie, 2D gelová elektroforéza, Proteínové mikročipy... • Analýzafunkce: Modelování makromolekulárních systémů– odvození vlastností z atomových interakcí Data z omics experimentů • Moderní vysoce pokryvné molekulární technologie produkují obrovské tabulky komplexních dat Mikročipy Desítky až tisíce genů nebo transkriptů na vzorek Hmotnostní spektrometrie Tisíce spekter proteinů, metabolitů nebo malých molekul na vzorek Sekvenace DNA Genom s biliony nukleotidů na vzorek Sekvenace nové generace Miliony krátkých čtení DNA na vzorek Genomická a proteomická data Proč jsou data high-throughput genomických a proteomických experimentů problematická? Specifika dat z omics experimentů Obsahují množství šumu (technická i biologická variabilita) ... ... … ... ... Specifika dat z omics experimentů Obsahují množství šumu (technická i biologická variabilita) Nejsou skutečnými hodnotami (koncentrace, počty) sledovaných molekul ... .. ... ... Specifika dat z omics experimentů Obsahují množství šumu (technická i biologická variabilita) Nejsou skutečnými hodnotami (koncentrace, počty) sledovaných molekul Pocházejí z komplexních technologií, které bývají velice citlivéna vnější vlivy ... ... ... Za všechno mohou matoucí vlivy (confounding effects)? Co je to matoucí faktor Matoucí faktor (confounding factor) je (neznámá) vnější proměnná, která ovlivňuje závislou proměnnou i nezávislou proměnnou v analýze, což způsobuje jejich falešnou asociaci a špatnou interpretaci. Jiným způsobem, vzniká korelace, která není kauzalita…. Matoucí vliv Více fyzické aktivity Věk Méně rakoviny Pochybné korelace…. https://www.tylervigen.com/spurious-correlations Efekt dávky • Efekt dávky (batch effect) se objevuje vždy, když externí faktory spojené s laboratorní prací ovlivňují výsledky, které měříte ve studii. • Efekt dávky je speciální typ matoucího faktoru v případě, že je dávka spojená s proměnnou, kterou sledujeme Efekt dávky Pozorovaná proměnná (zdraví vs nemoc) se překrývá s jinou technickou proměnnou, např: 1. a 2. den analýza zdravé tkáně 3. a 4. den analýza nádorové tkáně Nebo Laborant 1 – zdravá tkáň, laborant 2 – nádorová tkáň Nebo Illumina primery (pro sekvenaci) 1-6 pro vzorky stolice, Illumina primery 7-12 pro bukální stěry Efekt dávky Pozorovaná proměnná (zdraví vs nemoc) se překrývá s jinou technickou proměnnou, např: 1. a 2. den analýza zdravé tkáně 3. a 4. den analýza nádorové tkáně Nebo Laborant 1 – zdravá tkáň, laborant 2 – nádorová tkáň Nebo Illumina primery (pro sekvenaci) 1-6 pro vzorky stolice, Illumina primery 7-12 pro bukální stěry NENÍ MOŽNÉ STATISTICKY ODDĚLIT TECHNICKÝ EFEKT OD BIOLOGICKÉHO!!! Lidé a myši na mikročipech Yanai I, Graur D, Ophir R. Incongruent expression profiles between human and mouse orthologous genes suggest widespread neutral evolution of transcription control. OMICS. 2004 Spring;8(1):15-24. V článku z roku 2004, mikročipová analýza genové exprese několika různých tkání u lidí a myší vedla autory k závěru, že „jakákoli lidská tkáň je více podobná jakékoli jiné vyšetřované lidské tkáni než její odpovídající tkáni myší“. Následují články (2006, 2007, 2010), které dokazují, že tyto rozdíly jsou založeny pouze na faktu, že se jednalo o dva různé mikročipy…: 1. Sondy na mikročipech jsou navrženy odděleně pro lidské a myší ortologické geny a necílí na stejné sekvence. Proto mají lidské sondy a myší sondy různé afinity k jejich cílovým RNA 2. Signál (S) detekovaný mikročipem je přibližně lineární se skutečným množstvím cílové RNA v rozumných rozsazích měření (Affymetrix 2001), hodnoty S transformované log2 mají tendenci přeceňovat rozdíl mezi dvěma nízkými hodnotami exprese, ale podceňují rozdíl mezi dvěma vysokými hodnotami exprese. Lidé a myši na mikročipech Lidé a myši na mikročipech Ben-Yang Liao, Jianzhi Zhang (2006) Evolutionary Conservation of Expression Profiles Between Human and Mouse Orthologous Genes . Molecular Biology and Evolution, Volume 23, Issue 3, March 2006, Pages 530-540 FIG. 5.— Dendrograms of 26 human and 26 mouse tissues based on (a) 1 − Pearson's correlation coefficient r and (b) Euclidean distance d of tissues.. The 1000 genomes project • Zahájen v lednu 2008, cílem bylo vytvoření co nejpodrobnějšího katalogulidských genetických variací • Založen na sekvencování technologií Solexa sequencing Jaký je vliv data sekvencování na genetickou variabilitu mezi sekvencemi? Zjistili, že se studovanými biologickými rozdíly bylo spojeno pouze 17% variability sekvencí, zatímco neuvěřitelných 32% bylo možné vysvětlit datem, kdy byly vzorky zpracovány. Specifika dat z omics experimentů Obsahují množství šumu (technická i biologická variabilita) Nejsou skutečnými hodnotami (koncentrace, počty) sledovanýchmolekul Pocházejí z komplexních technologií, které bývají velice citlivé na vnější vlivy Jejich předzpracování pro statistickou analýzu je náročné a vysoce specifické pro daný typ platformy ... ... Specifika dat z omics experimentů Obsahují množství šumu (technická i biologická variabilita) Nejsou skutečnými hodnotami (koncentrace, počty) sledovanýchmolekul Pocházejí z komplexních technologií, které bývají velice citlivé na vnější vlivy Jejich předzpracování pro statistickou analýzu je náročné a vysoce specifické pro daný typ platformy Počet vzorkůje mnohem menší než počet sledovaných proměnných. ... Specifika dat z omics experimentů Obsahují množství šumu (technická i biologická variabilita) Nejsou skutečnými hodnotami (koncentrace, počty) sledovanýchmolekul Pocházejí z komplexních technologií, které bývají velice citlivé na vnější vlivy Jejich předzpracování pro statistickou analýzu je náročné a vysoce specifické pro daný typ platformy Počet vzorkůje mnohem menší než počet sledovaných proměnných. Zkoumané proměnné jsou často korelované a mají mezi sebou komplexní vztahy(geny, proteiny…) Cíle předmětu Podrobné představenítechnologií a analýzyjejich dat od předzpracování až po finální biologickou interpretaci. • Mikročipy: cDNA, Affymetrix, Illumina • Proteomická hmotnostní spektrometrie a gelová elektroforéza • Analýza NGS dat – samostatnýpředmětBi5444 (podzim) • Analýza non-target MS dat - samostatnýpředmět Bi5020 (jaro)