Detekce biomarkerů z omics experimentů •Mgr. Eva Budinská, PhD •RECETOX •eva.budinska@recetox.muni.cz •Podzim 2024 Obsah obrázku okno, budova Popis byl vytvořen automaticky Jak probíhá předzpracování omicsových dat Biomarkery z omicsových dat > > > > > Jak vznikají čestné chyby? Nedostatek znalostí: Nedostatek kontroly: Nedostatek času: Nedostatek financí: Práce ve skupinách: Napište tři příklady ke každému bodu (10 min) Nejčastější zdroje “čestných chyb” (honest errors) > > > > Jak můžeme tyto chyby minimalizovat? Nedostatek znalostí: Nedostatek kontroly: Nedostatek času: Nedostatek financí: Čestná chyba (honest error) – jak ji minimalizovat Za všechno mohou matoucí vlivy (confounding effects)? Co je to matoucí faktor •Matoucí faktor (confounding factor) je (neznámá) vnější proměnná, která ovlivňuje závislou proměnnou i nezávislou proměnnou v analýze, což způsobuje jejich falešnou asociaci a špatnou interpretaci. • •Jiným způsobem, vzniká korelace, která není kauzalita…. • • • Matoucí vliv Více fyzické aktivity Věk Méně rakoviny Pochybné korelace…. https://www.tylervigen.com/spurious-correlations Efekt dávky •Efekt dávky (batch effect) se objevuje vždy, když externí faktory spojené s laboratorní prací ovlivňují výsledky, které měříte ve studii. • •Efekt dávky je speciální typ matoucího faktoru v případě, že je dávka spojená s proměnnou, kterou sledujeme Efekt dávky > Pozorovaná proměnná (zdraví vs nemoc) se překrývá s jinou technickou proměnnou, např: 1. a 2. den analýza zdravé tkáně 3. a 4. den analýza nádorové tkáně Nebo Laborant 1 – zdravá tkáň, laborant 2 – nádorová tkáň Nebo Illumina primery (pro sekvenaci) 1-6 pro vzorky stolice, Illumina primery 7-12 pro bukální stěry Efekt dávky > > Pozorovaná proměnná (zdraví vs nemoc) se překrývá s jinou technickou proměnnou, např: 1. a 2. den analýza zdravé tkáně 3. a 4. den analýza nádorové tkáně Nebo Laborant 1 – zdravá tkáň, laborant 2 – nádorová tkáň Nebo Illumina primery (pro sekvenaci) 1-6 pro vzorky stolice, Illumina primery 7-12 pro bukální stěry NENÍ MOŽNÉ STATISTICKY ODDĚLIT TECHNICKÝ EFEKT OD BIOLOGICKÉHO!!! Příklady efektu dávky z praxe • Sekvencování mikrobiomu – efekt primeru Illumina • Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici Porovnání 3 odběrových kitů (S1, S2, S3) a 2 DNA izolačních kitů (1,2) 16 dobrovolníků použilo všechny odběrové kity na odběr stolice, z každého odběru izolace DNA dvěma kity => sekvenační analýza genu pro 16S rRNA Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici Nalezen vliv odběrového a izolačního kitu na kvalitu a kvantitu DNA a také na složení mikrobiomu! Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici Nalezen vliv odběrového a izolačního kitu na kvalitu a kvantitu DNA a také na složení mikrobiomu! Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici > Odběrové a izolační kity Každý účastník měl vždy stejný primer. Počet sekvencí je statisticky významně vyšší u primerů I1-I9 v porovnání s primery I10-I16!!! Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici PROBLÉM: primer může mít efekt na složení mikrobiomu ŘEŠENÍ: primer (nebo lépe řečeno skupina I1-I9 vs I10-I16) jako nová proměnná ve statistické analýze, odhad efektu skupiny primerů: VÝSLEDEK: zdá se, že primer ovlivňuje pouze počet sekvencí, ne složení mikrobiomu (?). > Odběrové a izolační kity Illumina sekvencování RNAseq kolorektálního karcinomu ve 2 dávkách (runech) Chart, box and whisker chart Description automatically generated •Kvalita čtení se výrazně liší mezi dávkami Mikrobiální kontaminace v NGS Mikrobiální kontaminace Border Dash •Velký problém zejména u metagenomických studií a u vzorků s nízkým obsahem bakteriální DNA •Figure 1. The contents of non-aligning reads from 57 human whole genome sequencing runs. Laurence M, Hatzis C, Brash DE (2014) Common Contaminants in Next-Generation Sequencing That Hinder Discovery of Low-Abundance Microbes. PLOS ONE 9(5): e97876. https://doi.org/10.1371/journal.pone.0097876 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0097876 Baylor College of Medicine (BCM), the Broad Institute (BI), Illumina (ILLUM), the Max Planck Institute for Molecular Genetics (MPIMG), the Sanger Center (SC), Washington University Genome Sequencing Center (WUGSC). "Abychom posoudili rozsah a rozmanitost sekvenačních kontaminantů, provedli jsme mapování 57 sekvenčních běhů z projektu „1000 Genomes Project“ ze šesti center proti čtyřem největším databázím NCBI BLAST. Detekovali jsme čtení různých druhů kontaminantů ve všech bězích a identifikovali nejběžnější z těchto rodů kontaminantů (Bradyrhizobium) v sestavených genomech z databáze genomu NCBI. " de Goffau, MC; Lager, S; Salter, SJ; Wagner, J; Kronbichler, A; Charnock-Jones, DS; Peacock, SJ; Smith, GCS; Parkhill, J; (2018) Recognizing the reagent microbiome. Nature microbiology, 3 (8). pp. 851-853. ISSN 2058-5276 DOI: https://doi.org/10.1038/s41564-018-0202-y Fig. 1: Reagent contamination recognition strategies. a, Between-batch variation allows for rapid identification of reagent contamination. This example is from a 16S analysis of placental tissues… FastDNA SPIN kits with different lot numbers were used for batches 1 and 2. … b, Spearman’s rho correlation coefficient heatmap of a subset of the most common species detected (x- and y-axes) during a study of necrotizing enterocolitis in pre-term infants … c, Reagent contaminants are especially abundant in samples with low biomass that failed 16S amplification, and in negative controls; both of which cluster together in the lower left corner. This dataset is from a study where bacterial DNA was enriched from nasal swabs and sequenced with an ILLUMINA HiSeq v4 sequencing kit. … d, Genuine signals are reproducible and separate measurements from the same sample using different DNA isolation kits should correlate with one another while reagent contamination signals do not. The genuine Moraxella signal is from a reanalysis of the 16S data of Salter et al.1, whereas the reagent contamination example, Thiohalocapsa halophila, is from an analysis of placental tissues. a, Between-batch variation allows for rapid identification of reagent contamination. This example is from a 16S analysis of placental tissues (unpublished data, European Nucleotide Archive (ENA) accession no. ERP109246). Colours indicate various microbial genera, of which the most prevalent ones are named (all are contaminants). FastDNA SPIN kits with different lot numbers were used for batches 1 and 2. Batch 1 contained several Salmonella bongori spiked samples (red). b, Spearman’s rho correlation coefficient heatmap of a subset of the most common species detected (x- and y-axes) during a study of necrotizing enterocolitis in pre-term infants^12. The named reagent-derived species are shown to form a matrix of highly intercorrelated species as they are invariably present within samples in similar ratios. c, Hierarchical clustering analyses of both samples (x-axis) and microbial groups (y-axis) in a heatmap representing the abundances of these microbial groups per sample on a logarithmic scale. Reagent contaminants are especially abundant in samples with low biomass that failed 16S amplification, and in negative controls; both of which cluster together in the lower left corner. This dataset is from a study where bacterial DNA was enriched from nasal swabs and sequenced with an ILLUMINA HiSeq v4 sequencing kit (unpublished data, ENA accession no. ERP016546). 125-base-pair paired-end shotgun metagenomics reads were quality filtered and analysed by Kraken, and a heatmap was generated using MetaPhlAn of the top 100 species using the complete-linkage method. d, Genuine signals are reproducible and separate measurements from the same sample using different DNA isolation kits should correlate with one another while reagent contamination signals do not. The genuine Moraxella signal is from a reanalysis of the 16S data of Salter et al.^1, whereas the reagent contamination example, Thiohalocapsa halophila, is from an analysis of placental tissues. The Spearman’s rho correlation coefficient of Moraxella with itself is 0.89 while T. halophila has an autocorrelation score of –0.03. Fig. 3 Wrestling with kit contamination—similar bacterial composition in placental samples and negative controls. Kim D, Hofstaedter CE, Zhao C, Mattei L, Tanes C, Clarke E, Lauder A, Sherrill-Mix S, Chehoud C, Kelsen J, et al. Optimizing methods and dodging pitfalls in microbiome research. Microbiome. 2017;5(1):52. Fig. 1 Example of cage effects dominating a mouse study of fungal communities. … The three conditions studied were continuous exposure to antibiotics (Condition 1), short-term exposure to antibiotics (Condition 2), and no exposure to antibiotics (Condition 3). Dollive S, Chen YY, Grunberg S, Bittinger K, Hoffmann C, Vandivier L, Bushman FD. Fungi of the murine gut: episodic variation and proliferation during antibiotic treatment. PLoS One. 2013;8(8):e71806. “Separate cages within the same treatment group showed radical differences, but mice within a cage generally behaved similarly” Fungal lineages in the murine gut were inferred from ITS rRNA gene sequencing of pellets [87]. The heat maps summarize taxonomic assignments derived from the sequence data. The color scale to the right indicates the proportions of each lineage; white indicates not detected. Caging dominated over treatment in this study. The three conditions studied were continuous exposure to antibiotics (Condition 1), short-term exposure to antibiotics (Condition 2), and no exposure to antibiotics (Condition 3). Efekt dávky - platforma • Lidé a myši na mikročipech •Yanai I, Graur D, Ophir R. Incongruent expression profiles between human and mouse orthologous genes suggest widespread neutral evolution of transcription control. OMICS. 2004 Spring;8(1):15-24. page6image3832224 V článku z roku 2004, mikročipová analýza genové exprese několika různých tkání u lidí a myší vedla autory k závěru, že „jakákoli lidská tkáň je více podobná jakékoli jiné vyšetřované lidské tkáni než její odpovídající tkáni myší“. • Následují články (2006, 2007, 2010), které dokazují, že tyto rozdíly jsou založeny pouze na faktu, že se jednalo o dva různé mikročipy…: 1.Sondy na mikročipech jsou navrženy odděleně pro lidské a myší ortologické geny a necílí na stejné sekvence. Proto mají lidské sondy a myší sondy různé afinity k jejich cílovým RNA 2.Signál (S) detekovaný mikročipem je přibližně lineární se skutečným množstvím cílové RNA v rozumných rozsazích měření (Affymetrix 2001), hodnoty S transformované log2 mají tendenci přeceňovat rozdíl mezi dvěma nízkými hodnotami exprese, ale podceňují rozdíl mezi dvěma vysokými hodnotami exprese. Lidé a myši na mikročipech Lidé a myši na mikročipech Diagram, schematic Description automatically generated •Ben-Yang Liao, Jianzhi Zhang (2006) Evolutionary Conservation of Expression Profiles Between Human and Mouse Orthologous Genes . Molecular Biology and Evolution, Volume 23, Issue 3, March 2006, Pages 530-540 FIG. 5.— Dendrograms of 26 human and 26 mouse tissues based on (a) 1 − Pearson's correlation coefficient r and (b) Euclidean distance d of tissues.. Lidé a myši na RNAseq Navzdory tomu se problém v roce 2014 opakuje!! Lidé a myši na RNAseq „V této studii velkého počtu tkání mezi lidmi a myšmi odhalila vysoce výkonná transkriptomická a epigenomická sekvenace, že obecně dominují rozdíly mezi těmito dvěma druhy.“ Tentokrát byla RNAseq použita pro oba druhy, a proto to vypadalo, že není žádný problém s rozdílnou platformou…. Fig. 1. Loading plots from PCA on human and mouse gene expression data. Lidé a myši na RNAseq •Následná reanalýza z roku 2015 ukázala, že rozdíly jsou pravděpodobně způsobeny efektem dávky flow cell a ranu! Figure 1. Study design. Sequencing batches as inferred based on the sequence identifiers of the RNA-Seq reads Lidé a myši na RNAseq •… po korekci efektu dávky to vypadá tak jak má Figure 3. Clustering of data once batch effects are accounted for Figure 2. Recapitulating the patterns reported by the mouse ENCODE papers. Lidé a myši na RNAseq Error •Ovšem pozor, v čem je problém? • •Protože šlo v tomto případě o téměř perfektní batch efekt – tedy téměř 100% překryv efektu lane a ranu vs organizmus, odstraněné rozdíly batch efektu mohou být také ty biologické. • •Jinak řečeno - tyto data nemohou odpovědět na otázku která byla položena. • •Doporučuji diskuzi pod článkem z F1000research… The 1000 genomes project •Zahájen v lednu 2008, cílem bylo vytvoření co nejpodrobnějšího katalogu lidských genetických variací •Založen na sekvencování technologií Solexa sequencing Jaký je vliv data sekvencování na genetickou variabilitu mezi sekvencemi? Zjistili, že se studovanými biologickými rozdíly bylo spojeno pouze 17% variability sekvencí, zatímco neuvěřitelných 32% bylo možné vysvětlit datem, kdy byly vzorky zpracovány. Ani jeden z těchto článků nebyl stažen z tisku…. Jak odstranit efekt dávky Jak odstranit efekt dávky Randomizace pomáhá minimalizovat efekt dávky Forshed J. (2017) Experimental design in clinical ‘omics biomarker discovery. Journal of Proteome Research 16, 3954-3960 U ‘omics dat je randomizace obtížná Co když je randomizace nemožná (nebo ohrožena) •Někdy všechno nejde naplánovat a něco se změní – experimenty můžou být dlouhodobé a spolupracovat může více stran, laboratoří, každá s vlastními postupy. • •Spolupráce více laboratoří – možnost randomizace na všech úrovních. • •Problematické bývá znovuoživení experimentu, který byl “u ledu” kvůli nedostatku financí (mezitím se změnili postupy). • • •Další změny běžně ohrožující plánovanou randomizaci. •výměna laboranta… •pokazení stroje a nutná oprava nebo výměna •staré kity pro izolaci DNA už nevyrábějí, nutno použít jiné •... Preventivní minimalizace chyb Presentation with Checklist 1. Protože vždy nevíme, co všechno může mít vliv, je důležité vést PODROBNÉ ZÁZNAMY – všechno co nás napadne! •přesný záznam postupu, včetně uskladnéní vzorku a jeho pozice v lednici •kdo prováděl který typ analýzy a KDY •každá změna v protokolu •zaznamenáme všechny identifikační čísla jednotlivých kitů, primerů, čehokoliv •všechny změny v kalibraci přístrojů, nebo informace o jejich čištění •změny v teplotách •způsob odběru vzorku (ležel materiál někde několik hodin mimo mrazák?) • … • 2. Provádíme po konzultaci se statistikem – randomizaci a dizajn experimentu. • 3. V případě změn znovu konzultujeme další postup. Co když je randomizace nemožná (nebo ohrožena) •KAŽDOU ZMĚNU KONZULTUJTE SE STATISTIKEM! • •ŘEŠENÍ (OBVYKLE) EXISTUJE ! • •Efekt dávky se dá odstranit, máme-li dostatek stejných vzorků analyzovaných před i po změně – vhodnými metodami se odhadne efekt a ten se pak z dat odstraní. • •POZOR – je to nákladné a není to dokonalé, takže lépe je tyto efekty minimalizovat. Jak odstranit efekt dávky Regresní strategie Odstranění batch efektu – jednoduchý příklad •3 druhy kosatců se liší na základě šířky a délky kališních (sepal) a okvětních (petal) lístků Iris Species:100% Accuracy using Naive bayes | Kaggle iris Odstranění batch efektu – jednoduchý příklad •3 druhy kosatců se liší na základě šířky a délky kališních (sepal) a okvětních (petal) lístků Chart, box and whisker chart Description automatically generated Délka kališních lístků Šířka kališních lístků Šířka okvětních lístků Délka okvětních lístků Chart, scatter chart Description automatically generated Odstranění batch efektu – jednoduchý příklad •3 druhy kosatců se liší na základě šířky a délky kališních (sepal) a okvětních (petal) lístků Chart, box and whisker chart Description automatically generated Délka kališních lístků Šířka kališních lístků Šířka okvětních lístků Délka okvětních lístků Chart, scatter chart Description automatically generated Přidejme teď uměle efekt dávky u této proměnné. Odstranění batch efektu – jednoduchý příklad •3 druhy kosatců se liší na základě šířky a délky kališních (sepal) a okvětních (petal) lístků • •K šířce okvětních lístků byl přidán batch efekt: k polovině hodnot u každého z druhů kosatce jsem připočítala hodnoty z normálního rozložení o průměru 5 a standardní odchýlce 0,5 A picture containing diagram Description automatically generated PCA na původním souboru PCA na souboru s přidaným batch efektem Odstranění batch efektu – jednoduchý příklad •3 druhy kosatců se liší na základě šířky a délky kališních (sepal) a okvětních (petal) lístků • •K šířce okvětních lístků byl přidán batch efekt: k polovině hodnot u každého z druhů kosatce jsem připočítala hodnoty z normálního rozložení o průměru 5 a standardní odchýlce 0,5 A picture containing diagram Description automatically generated Batch 1 Batch 2 Batch 2 Batch 1 PCA na původním souboru PCA na souboru s přidaným batch efektem Odstranění batch efektu – jednoduchý příklad •3 druhy kosatců se liší na základě šířky a délky kališních (sepal) a okvětních (petal) lístků • •K šířce okvětních lístků byl přidán batch efekt: k polovině hodnot u každého z druhů kosatce jsem připočítala hodnoty z normálního rozložení o průměru 5 a standardní odchýlce 0,5 A picture containing diagram Description automatically generated Batch 1 Batch 2 Batch 2 Batch 1 PCA na původním souboru PCA na souboru s přidaným batch efektem Odstranění batch efektu – jednoduchý příklad •Jak odstranit batch efekt? 1.Nejdříve efekt odhadneme - je to posun v průměrné nebo mediánové hodnotě? Nebo je rozdíl i ve variabilitě? •Použijeme regresní modelování, testování hypotéz, stanovíme fold change a změnu variability 2.Tyto efekty pak odstraníme tak, že je odečteme (například průměr), nebo provedeme škálovou normalizaci a podobně Odstranění batch efektu – jednoduchý příklad •V našem příkladě: polovici hodnot jsem zvýšila v průměru o 5 • • • Chart, box and whisker chart Description automatically generated A picture containing diagram Description automatically generated Batch 1 Batch 2 Průměr: 6.23 6.22 Průměr: 1.19 Chart, box and whisker chart Description automatically generated Rozdíl průměrů je 5,04 (blízko mého čísla 5) Chart, box and whisker chart Description automatically generated Odečteno, průměry jsou stejné Průměrný rozdíl teď odečítám od hodnot batch 1, abych se dostala na průměr batch 2 Odstranění batch efektu – jednoduchý příklad 6.22 Chart, box and whisker chart Description automatically generated Odečteno, průměry jsou stejné Diagram, schematic Description automatically generated Původní S batch efektem Po odstranění Doporučená literatura a další zdroje • TCGA Batch Effects Viewer •https://bioinformatics.mdanderson.org/BatchEffectsViewer/