Detekce biomarkerů z omics experimentů • Mgr. Eva Budinská, PhD • RECETOX • budinska@recetox.muni.cz • Podzim 2019 Biomarkery z omicsových dat • Složené z více charakteristik (více genů, proteinů…) • Bez jasně definovaného biologického zdůvodnění Jsou často komplexní: • zatížených významným technickým šumem z různých zdrojů • analyzovaných metodami, které nejsou standardizované • které jsou pouze korelované s měřenou proměnnou (např. nejsou koncentrace ani počty molekul) • které jsou komplexní a obtížně se sdílejí Pocházejí z dat: Nejčastější “čestné chyby” (honest errors) Chyby v měření a v laboratorních postupech Nesprávně zvolena statistická metodologie Manuální práce s daty Jak vznikají čestné chyby? Nedostatek znalostí Nedostatek kontroly Nedostatek času (konkurence) Nedostatek financí Čestná chyba (honest error) – jak ji minimalizovat Správný návrh experimentu (výběr analytické metody, počet a typ vzorků, randomizace….) Minimalizace chyb v laboratoři Vedení kompletních záznamů Výběr vhodných metod pro statistickou analýzu dat Správná validace výsledků Návrh experimentu Centrální dogma statistiky Populace Výběr Popisná statistika Inference Pravděpodobnost Kolik vzorků??? Čím variabilnější populace, tím více vzorků je potřeba na její dostatečný popis! POČET VZORKŮ JE TAKÉ ZÁVISLÝ NA POUŽITÝCH STATISTICKÝCH METODÁCH! Replikáty Replikáty Replikáty Replikáty Replikáty jsou nutné pro odhad variability a statistické významnosti Technické replikáty nezastupují replikáty biologické!!! Technické replikáty pouze popisují přesnost postupu a techniky, ne však variabilitu v cílové populaci From: False discovery rate, sensitivity and sample size for microarray studies Bioinformatics. 2005;21(13):3017-3024. doi:10.1093/bioinformatics/bti448 Bioinformatics | © The Author 2005. Published by Oxford University Press. All rights reserved. For Permissions, please email: journals.permissions@oupjournals.org Vliv počtu vzorků na falešně pozitivní výsledky p0: podíl skutečně neodlišně exprimovaných genů (beze změny exprese mezi skupinami) Za všechno mohou matoucí vlivy (confounding effects)? Co je to matoucí faktor a efekt dávky • Matoucí faktor (confounding factor) je (neznámá) vnější proměnná, která ovlivňuje závislou proměnnou i nezávislou proměnnou v statistické analýze, což způsobuje jejich falešnou asociaci. • Efekt dávky (batch effect) se objevuje vždy, když externí faktory spojené s laboratorní prací ovlivňují výsledky, které měříte ve studii. • Efekt dávky je speciální typ matoucího faktoru Matoucí vliv Více fyzické aktivity Věk Méně rakoviny Efekt dávky Pozorovaná proměnná (zdraví vs nemoc) se překrývá s jinou technickou proměnnou, např: 1. a 2. den analýza zdravé tkáně 3. a 4. den analýza nádorové tkáně Nebo Laborant 1 – zdravá tkáň, laborant 2 – nádorová tkáň Nebo Illumina primery (pro sekvenaci) 1-6 pro vzorky stolice, Illumina primery 7-12 pro bukální stěry Efekt dávky Pozorovaná proměnná (zdraví vs nemoc) se překrývá s jinou technickou proměnnou, např: 1. a 2. den analýza zdravé tkáně 3. a 4. den analýza nádorové tkáně Nebo Laborant 1 – zdravá tkáň, laborant 2 – nádorová tkáň Nebo Illumina primery (pro sekvenaci) 1-6 pro vzorky stolice, Illumina primery 7-12 pro bukální stěry NENÍ MOŽNÉ STATISTICKY ODDĚLIT TECHNICKÝ EFEKT OD BIOLOGICKÉHO!!! Příklady efektu dávky z praxe Sekvencování mikrobiomu – efekt primeru Illumina Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici Porovnání 3 odběrových kitů (S1, S2, S3) a 2 DNA izolačních kitů (1,2) 16 dobrovolníků použilo všechny odběrové kity na odběr stolice, z každého odběru izolace DNA dvěma kity => sekvenační analýza genu pro 16S rRNA Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici Nalezen vliv odběrového a izolačního kitu na kvalitu a kvantitu DNA a také na složení mikrobiomu! Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici Nalezen vliv odběrového a izolačního kitu na kvalitu a kvantitu DNA a také na složení mikrobiomu! Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici Odběrové a izolační kity Primery: I1-I9, I10-I16 Početsekvencí Každý účastník měl vždy stejný primer. Počet sekvencí je statisticky významně vyšší u primerů I1-I9 v porovnání s primery I10-I16!!! Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici PROBLÉM: primer může mít efekt na složení mikrobiomu ŘEŠENÍ: primer (nebo lépe řečeno skupina I1-I9 vs I10-I16) jako nová proměnná ve statistické analýze, odhad efektu skupiny primerů: VÝSLEDEK: zdá se, že primer ovlivňuje pouze počet sekvencí, ne složení mikrobiomu (?). Odběrové a izolační kity Primery: I1-I9, I10-I16 Početsekvencí Mikrobiální kontaminace v NGS Mikrobiální kontaminace • Velký problém zejména u metagenomických studií a u vzorků s nízkým obsahem bakteriální DNA Figure 1. The contents of non-aligning reads from 57 human whole genome sequencing runs. Laurence M, Hatzis C, Brash DE (2014) Common Contaminants in Next-Generation Sequencing That Hinder Discovery of Low-Abundance Microbes. PLOS ONE 9(5): e97876. https://doi.org/10.1371/journal.pone.0097876 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0097876 Baylor College of Medicine (BCM), the Broad Institute (BI), Illumina (ILLUM), the Max Planck Institute for Molecular Genetics (MPIMG), the Sanger Center (SC), Washington University Genome Sequencing Center (WUGSC). de Goffau, MC; Lager, S; Salter, SJ; Wagner, J; Kronbichler, A; Charnock-Jones, DS; Peacock, SJ; Smith, GCS; Parkhill, J; (2018) Recognizing the reagent microbiome. Nature microbiology, 3 (8). pp. 851-853. ISSN 2058-5276 DOI: https://doi.org/10.1038/s41564-018-0202-y Fig. 1: Reagent contamination recognition strategies. a, Between-batch variation allows for rapid identification of reagent contamination. This example is from a 16S analysis of placental tissues… FastDNA SPIN kits with different lot numbers were used for batches 1 and 2. … b, Spearman’s rho correlation coefficient heatmap of a subset of the most common species detected (x- and y-axes) during a study of necrotizing enterocolitis in pre-term infants … c,… Reagent contaminants are especially abundant in samples with low biomass that failed 16S amplification, and in negative controls; both of which cluster together in the lower left corner. This dataset is from a study where bacterial DNA was enriched from nasal swabs and sequenced with an ILLUMINA HiSeq v4 sequencing kit. … d, Genuine signals are reproducible and separate measurements from the same sample using different DNA isolation kits should correlate with one another while reagent contamination signals do not. The genuine Moraxella signal is from a reanalysis of the 16S data of Salter et al.1, whereas the reagent contamination example, Thiohalocapsa halophila, is from an analysis of placental tissues. Fig. 3 Wrestling with kit contamination—similar bacterial composition in placental samples and negative controls. Kim D, Hofstaedter CE, Zhao C, Mattei L, Tanes C, Clarke E, Lauder A, Sherrill-Mix S, Chehoud C, Kelsen J, et al. Optimizing methods and dodging pitfalls in microbiome research. Microbiome. 2017;5(1):52. Fig. 1 Example of cage effects dominating a mouse study of fungal communities. … The three conditions studied were continuous exposure to antibiotics (Condition 1), short-term exposure to antibiotics (Condition 2), and no exposure to antibiotics (Condition 3). Kim D, Hofstaedter CE, Zhao C, Mattei L, Tanes C, Clarke E, Lauder A, Sherrill-Mix S, Chehoud C, Kelsen J, et al. Optimizing methods and dodging pitfalls in microbiome research. Microbiome. 2017;5(1):52. Efekt dávky - platforma Lidé a myši na mikročipech Yanai I, Graur D, Ophir R. Incongruent expression profiles between human and mouse orthologous genes suggest widespread neutral evolution of transcription control. OMICS. 2004 Spring;8(1):15-24. V článku z roku 2004, mikročipová analýza genové exprese několika různých tkání u lidí a myší vedla autory k závěru, že „jakákoli lidská tkáň je více podobná jakékoli jiné vyšetřované lidské tkáni než její odpovídající tkáni myší“. Lidé a myši na mikročipech Následují články (2006, 2007, 2010), které dokazují, že tyto rozdíly jsou založeny pouze na faktu, že se jednalo o dva různé mikročipy. 1. sondy jsou navrženy odděleně pro lidské a myší ortologické geny a necílí na stejné sekvence. Proto mají lidské sondy a myší sondy různé afinity k jejich cílovým RNA 2. Signál (S) detekovaný mikročipem je přibližně lineární se skutečným množstvím cílové RNA v rozumných rozsazích měření (Affymetrix 2001), hodnoty S transformované log2 mají tendenci přeceňovat rozdíl mezi dvěma nízkými hodnotami exprese, ale podceňují rozdíl mezi dvěma vysokými hodnotami exprese. Lidé a myši na mikročipech Ben-Yang Liao, Jianzhi Zhang (2006) Evolutionary Conservation of Expression Profiles Between Human and Mouse Orthologous Genes . Molecular Biology and Evolution, Volume 23, Issue 3, March 2006, Pages 530-540 FIG. 5.— Dendrograms of 26 human and 26 mouse tissues based on (a) 1 − Pearson's correlation coefficient r and (b) Euclidean distance d of tissues.. Lidé a myši na RNAseq Navzdory tomu se problém v roce 2014 opakuje!! Lidé a myši na RNAseq „V této studii velkého počtu tkání mezi lidmi a myšmi odhalila vysoce výkonná transkriptomická a epigenomická sekvenace, že obecně dominují rozdíly mezi těmito dvěma druhy.“ Tentokrát byla RNAseq použita pro oba druhy, a proto to vypadalo, že není žádný problém s rozdílnou platformou…. Fig. 1. Loading plots from PCA on human and mouse gene expression data. Lidé a myši na RNAseq • Následná reanalýza z roku 2015 ukázala, že rozdíly jsou způsobeny efektem dávky flow cell a ranu! Figure 1. Study design. Sequencing batches as inferred based on the sequence identifiers of the RNA-Seq reads Lidé a myši na RNAseq … po korekci efektu dávky to vypadá tak jak má Figure 3. Clustering of data once batch effects are accounted for Figure 2. Recapitulating the patterns reported by the mouse ENCODE papers. Lidé a myši na RNAseq Ovšem pozor, v čem je problém? Protože šlo v tomto případě o téměř perfektní batch efekt – tedy téměř 100% překryv etektu lane a ranu vs organizmus, odstraněné rozdíly batch efektu mohou být také ty biologické. Jinak řečeno - tyto data nemohou odpovědět na otázku která byla položena. Doporučuji diskuzi pod článkem z F1000research… The 1000 genomes project • Zahájen v lednu 2008, cílem bylo vytvoření co nejpodrobnějšího katalogu lidských genetických variací • Založen na sekvencování technologií Solexa sequencing Jaký je vliv data sekvencování na genetickou variabilitu mezi sekvencemi? Zjistili, že se studovanými biologickými rozdíly bylo spojeno pouze 17% variability sekvencí, zatímco neuvěřitelných 32% bylo možné vysvětlit datem, kdy byly vzorky zpracovány. Ani jeden z těchto článků nebyl stažen z tisku…. Jak odstranit efekt dávky Preventivně: Stratifikací a randomizací Ad-hoc: Regresními strategiemi Jak odstranit efekt dávky Preventivně: Stratifikací a randomizací Ad-hoc: Regresními strategiemi Randomizace pomáhá minimalizovat efekt dávky Forshed J. (2017) Experimental design in clinical ‘omics biomarker discovery. Journal of Proteome Research 16, 3954-3960 U ‘omics dat je randomizace obtížná Co když je randomizace nemožná (nebo ohrožena) • Někdy všechno nejde naplánovat a něco se změní – experimenty můžou být dlouhodobé a spolupracovat může více stran, laboratoří, každá s vlastními postupy. • Spolupráce více laboratoří – možnost randomizace na všech úrovních. • Problematické bývá znovuoživení experimentu, který byl “u ledu” kvůli nedostatku financí (mezitím se změnili postupy). • Další změny běžně ohrožující plánovanou randomizaci. • výměna laboranta… • pokazení stroje a nutná oprava nebo výměna • staré kity pro izolaci DNA už nevyrábějí, nutno použít jiné • ... Preventivní minimalizace chyb 1. Protože vždy nevíme, co všechno může mít vliv, je důležité vést PODROBNÉ ZÁZNAMY – všechno co nás napadne! • přesný záznam postupu, včetně uskladnéní vzorku a jeho pozice v lednici • kdo prováděl který typ analýzy a KDY • každá změna v protokolu • zaznamenáme všechny identifikační čísla jednotlivých kitů, primerů, čehokoliv • všechny změny v kalibraci přístrojů, nebo informace o jejich čištění • změny v teplotách • způsob odběru vzorku (ležel materiál někde několik hodin mimo mrazák?) • … 2. Provádíme po konzultaci se statistikem – randomizaci a dizajn experimentu. 3. V případě změn znovu konzultujeme další postup. Co když je randomizace nemožná (nebo ohrožena) • KAŽDOU ZMĚNU KONZULTUJTE SE STATISTIKEM! • ŘEŠENÍ (OBVYKLE) EXISTUJE ! • Efekt dávky se dá odstranit, máme-li dostatek stejných vzorků analyzovaných před i po změně – vhodnými metodami se odhadne efekt a ten se pak z dat odstraní. • POZOR – je to nákladné a není to dokonalé, takže lépe je tyto efekty minimalizovat. Jak odstranit efekt dávky Preventivně: Stratifikací a randomizací Ad-hoc: Regresními strategiemi Regresní strategie Základní myšlenka je modelovat efekt dávky jako jednu z proměnných kterých vliv sledujeme Odhadnutý efekt pak můžeme odstranit Nejčastěji regresní strategie ComBat (R) Doporučená literatura a další zdroje TCGA Batch Effects Viewer https://bioinformatics.mdanderson.org /BatchEffectsViewer/