Detekce biomarkerů z omics experimentů
•Mgr. Eva Budinská, PhD
•RECETOX
•eva.budinska@recetox.muni.cz
•Podzim 2024

Obsah obrázku okno, budova Popis byl vytvořen automaticky
Jak probíhá předzpracování omicsových dat


Biomarkery z omicsových dat


> > > > >
Jak vznikají čestné chyby?
Nedostatek
znalostí:
Nedostatek
kontroly:
Nedostatek
času:
Nedostatek
financí:
Práce ve skupinách:
Napište tři příklady ke každému bodu
(10 min)

Nejčastější zdroje “čestných chyb” (honest errors)


> > > >
Jak můžeme tyto chyby minimalizovat?
Nedostatek
znalostí:
Nedostatek
kontroly:
Nedostatek
času:
Nedostatek
financí:

Čestná chyba (honest error) – jak ji minimalizovat


Za všechno mohou matoucí vlivy (confounding effects)?


Co je to matoucí faktor
•Matoucí faktor (confounding factor) je (neznámá) vnější proměnná, která ovlivňuje závislou
proměnnou i nezávislou proměnnou v analýze, což způsobuje jejich falešnou asociaci a špatnou
interpretaci.
•
•Jiným způsobem, vzniká korelace, která není kauzalita….
•
•
•

Matoucí vliv
Více fyzické aktivity
Věk
Méně rakoviny

Pochybné korelace….
https://www.tylervigen.com/spurious-correlations


Efekt dávky
•Efekt dávky (batch effect)  se objevuje vždy, když externí faktory spojené s laboratorní prací
ovlivňují výsledky, které měříte ve studii.
•
•Efekt dávky je speciální typ matoucího faktoru v případě, že je dávka spojená s proměnnou, kterou
sledujeme

Efekt dávky
>
Pozorovaná proměnná (zdraví vs nemoc)
 se překrývá s jinou technickou proměnnou, např:
1. a 2. den analýza zdravé tkáně
3. a 4. den analýza nádorové tkáně
Nebo
Laborant 1 – zdravá tkáň, laborant 2 – nádorová tkáň
Nebo
Illumina primery (pro sekvenaci) 1-6 pro vzorky stolice,
Illumina primery 7-12 pro bukální stěry

Efekt dávky
> >
Pozorovaná proměnná (zdraví vs nemoc)
 se překrývá s jinou technickou proměnnou, např:
1. a 2. den analýza zdravé tkáně
3. a 4. den analýza nádorové tkáně
Nebo
Laborant 1 – zdravá tkáň, laborant 2 – nádorová tkáň
Nebo
Illumina primery (pro sekvenaci) 1-6 pro vzorky stolice,
Illumina primery 7-12 pro bukální stěry
NENÍ MOŽNÉ STATISTICKY ODDĚLIT TECHNICKÝ EFEKT OD BIOLOGICKÉHO!!!

Příklady efektu dávky z praxe
•


Sekvencování mikrobiomu
– efekt primeru Illumina
•

Experiment: Sekvenace genu pro 16S rRNA
Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici
Porovnání 3 odběrových kitů (S1, S2, S3) a 2 DNA izolačních kitů (1,2)
16 dobrovolníků použilo všechny odběrové kity na odběr stolice,
 z každého odběru izolace DNA dvěma kity
=> sekvenační analýza genu pro 16S rRNA

Experiment: Sekvenace genu pro 16S rRNA
Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici
Nalezen vliv odběrového a izolačního kitu na kvalitu a kvantitu DNA a také na složení mikrobiomu!

Experiment: Sekvenace genu pro 16S rRNA
Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici
Nalezen vliv odběrového a izolačního kitu na kvalitu a kvantitu DNA a také na složení mikrobiomu!

Experiment: Sekvenace genu pro 16S rRNA
Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici
>
Odběrové a izolační kity
Každý účastník měl vždy stejný primer.
Počet sekvencí je statisticky významně vyšší u primerů I1-I9 v porovnání s primery I10-I16!!!

Experiment: Sekvenace genu pro 16S rRNA
Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici
PROBLÉM: primer může mít efekt na složení mikrobiomu
ŘEŠENÍ: primer (nebo lépe řečeno skupina I1-I9 vs I10-I16) jako nová proměnná ve statistické
analýze, odhad efektu skupiny primerů:
VÝSLEDEK:  zdá se, že primer ovlivňuje pouze počet sekvencí, ne složení mikrobiomu (?).
>
Odběrové a izolační kity

Illumina sekvencování RNAseq kolorektálního karcinomu ve 2 dávkách (runech)
Chart, box and whisker chart Description automatically generated
•Kvalita čtení se výrazně liší  mezi dávkami

Mikrobiální kontaminace v NGS


Mikrobiální kontaminace
Border Dash
•Velký problém zejména u metagenomických studií a u vzorků s nízkým obsahem bakteriální DNA

•Figure 1. The contents of non-aligning reads from 57 human whole genome sequencing runs.
Laurence M, Hatzis C, Brash DE (2014) Common Contaminants in Next-Generation Sequencing That Hinder
Discovery of Low-Abundance Microbes. PLOS ONE 9(5): e97876.
https://doi.org/10.1371/journal.pone.0097876
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0097876
Baylor College of Medicine (BCM),
the Broad Institute (BI),
Illumina (ILLUM),
the Max Planck Institute for Molecular Genetics (MPIMG),
the Sanger Center (SC),
Washington University Genome Sequencing Center (WUGSC).
"Abychom posoudili rozsah a rozmanitost sekvenačních kontaminantů, provedli jsme mapování 57
sekvenčních běhů z projektu „1000 Genomes Project“ ze šesti center proti čtyřem největším databázím
NCBI BLAST. Detekovali jsme čtení různých druhů kontaminantů ve všech bězích a identifikovali
nejběžnější z těchto rodů kontaminantů (Bradyrhizobium) v sestavených genomech z databáze genomu
NCBI. "

de Goffau, MC; Lager, S; Salter, SJ; Wagner, J; Kronbichler, A; Charnock-Jones, DS; Peacock,
SJ; Smith, GCS; Parkhill, J; (2018) Recognizing the reagent microbiome. Nature microbiology, 3 (8).
pp. 851-853. ISSN 2058-5276 DOI: https://doi.org/10.1038/s41564-018-0202-y
Fig. 1: Reagent contamination recognition strategies.
a, Between-batch variation allows for rapid identification of reagent contamination. This example
is from a 16S analysis of placental tissues… FastDNA SPIN kits with different lot numbers were used
for batches 1 and 2.
…
b, Spearman’s rho correlation coefficient heatmap of a subset of the most common species detected
(x- and y-axes) during a study of necrotizing enterocolitis in pre-term infants
…
c, Reagent contaminants are especially abundant in samples with low biomass that failed 16S
amplification, and in negative controls; both of which cluster together in the lower left corner.
This dataset is from a study where bacterial DNA was enriched from nasal swabs and sequenced with
an ILLUMINA HiSeq v4 sequencing kit.
…
 d, Genuine signals are reproducible and separate measurements from the same sample using different
DNA isolation kits should correlate with one another while reagent contamination signals do not.
The genuine Moraxella signal is from a reanalysis of the 16S data of Salter et al.1, whereas the
reagent contamination example, Thiohalocapsa halophila, is from an analysis of placental tissues.

a, Between-batch variation allows for rapid identification of reagent contamination. This example
is from a 16S analysis of placental tissues (unpublished data, European Nucleotide Archive (ENA)
accession no. ERP109246). Colours indicate various microbial genera, of which the most prevalent
ones are named (all are contaminants). FastDNA SPIN kits with different lot numbers were used for
batches 1 and 2. Batch 1 contained several Salmonella bongori spiked samples (red). b, Spearman’s
rho correlation coefficient heatmap of a subset of the most common species detected (x- and y-axes)
during a study of necrotizing enterocolitis in pre-term infants^12. The named reagent-derived
species are shown to form a matrix of highly intercorrelated species as they are invariably present
within samples in similar ratios. c, Hierarchical clustering analyses of both samples (x-axis) and
microbial groups (y-axis) in a heatmap representing the abundances of these microbial groups per
sample on a logarithmic scale. Reagent contaminants are especially abundant in samples with low
biomass that failed 16S amplification, and in negative controls; both of which cluster together in
the lower left corner. This dataset is from a study where bacterial DNA was enriched from nasal
swabs and sequenced with an ILLUMINA HiSeq v4 sequencing kit (unpublished data, ENA accession
no. ERP016546). 125-base-pair paired-end shotgun metagenomics reads were quality filtered and
analysed by Kraken, and a heatmap was generated using MetaPhlAn of the top 100 species using the
complete-linkage method. d, Genuine signals are reproducible and separate measurements from the
same sample using different DNA isolation kits should correlate with one another while reagent
contamination signals do not. The genuine Moraxella signal is from a reanalysis of the 16S data of
Salter et al.^1, whereas the reagent contamination example, Thiohalocapsa halophila, is from an
analysis of placental tissues. The Spearman’s rho correlation coefficient of Moraxella with itself
is 0.89 while T. halophila has an autocorrelation score of –0.03.

Fig. 3 Wrestling with kit contamination—similar bacterial composition in placental samples and
negative controls.
Kim D, Hofstaedter CE, Zhao C, Mattei L, Tanes C, Clarke E, Lauder A, Sherrill-Mix S, Chehoud C,
Kelsen J, et al. Optimizing methods and dodging pitfalls in microbiome research. Microbiome.
2017;5(1):52.

Fig. 1 Example of cage effects dominating a mouse study of fungal communities.
…
The three conditions studied were continuous exposure to antibiotics (Condition 1), short-term
exposure to antibiotics (Condition 2), and no exposure to antibiotics (Condition 3).
Dollive S, Chen YY, Grunberg S, Bittinger K, Hoffmann C, Vandivier L, Bushman FD. Fungi of the
murine gut: episodic variation and proliferation during antibiotic treatment. PLoS One.
2013;8(8):e71806.
“Separate cages within the same treatment group showed radical differences, but mice within a cage
generally behaved similarly”

Fungal lineages in the murine gut were inferred from ITS rRNA gene sequencing of pellets [87]. The
heat maps summarize taxonomic assignments derived from the sequence data. The color scale to
the right indicates the proportions of each lineage; white indicates not detected. Caging dominated
over treatment in this study. The three conditions studied were continuous exposure to antibiotics
(Condition 1), short-term exposure to antibiotics (Condition 2), and no exposure to antibiotics
(Condition 3).

Efekt dávky - platforma
•


Lidé a myši na mikročipech
•Yanai I, Graur D, Ophir R. Incongruent expression profiles between human and mouse orthologous
genes suggest widespread neutral evolution of transcription control. OMICS. 2004 Spring;8(1):15-24.
page6image3832224
V článku z roku 2004, mikročipová analýza genové exprese několika různých tkání u lidí a myší vedla
autory k závěru, že „jakákoli lidská tkáň je více podobná jakékoli jiné vyšetřované lidské tkáni
než její odpovídající tkáni myší“.
•

Následují články (2006, 2007, 2010), které dokazují, že tyto rozdíly jsou založeny pouze na faktu,
že se jednalo o dva různé mikročipy…:
1.Sondy na mikročipech jsou navrženy odděleně pro lidské a myší ortologické geny a necílí na stejné
sekvence. Proto mají lidské sondy a myší sondy různé afinity k jejich cílovým RNA
2.Signál (S) detekovaný mikročipem je přibližně lineární se skutečným množstvím cílové RNA v
rozumných rozsazích měření (Affymetrix 2001), hodnoty S transformované log2 mají tendenci
přeceňovat rozdíl mezi dvěma nízkými hodnotami exprese, ale podceňují rozdíl mezi dvěma vysokými
hodnotami exprese.
Lidé a myši na mikročipech

Lidé a myši na mikročipech
Diagram, schematic Description automatically generated
•Ben-Yang Liao,  Jianzhi Zhang (2006) Evolutionary Conservation of Expression Profiles Between
Human and Mouse Orthologous Genes . Molecular Biology and Evolution, Volume 23, Issue 3, March
2006, Pages 530-540
FIG. 5.— Dendrograms of 26 human and 26 mouse tissues based on (a) 1 − Pearson's correlation
coefficient r and (b) Euclidean distance d of tissues..

Lidé a myši na RNAseq
Navzdory tomu se problém v roce 2014 opakuje!!


Lidé a myši na RNAseq
„V této studii velkého počtu tkání mezi lidmi a myšmi odhalila vysoce výkonná transkriptomická a
epigenomická sekvenace, že obecně dominují rozdíly mezi těmito dvěma druhy.“
Tentokrát byla RNAseq použita pro oba druhy, a proto to vypadalo, že není žádný problém s rozdílnou
platformou….
Fig. 1. Loading plots from PCA on human and mouse gene expression data.

Lidé a myši na RNAseq
•Následná reanalýza z roku 2015 ukázala, že rozdíly jsou pravděpodobně způsobeny efektem dávky flow
cell a ranu!
Figure 1. Study design.
Sequencing batches as inferred based on the sequence identifiers of the RNA-Seq reads

Lidé a myši na RNAseq
•… po korekci efektu dávky to vypadá tak jak má
Figure 3. Clustering of data once batch effects are accounted for
Figure 2. Recapitulating the patterns reported by the mouse ENCODE papers.

Lidé a myši na RNAseq
Error
•Ovšem pozor, v čem je problém?
•
•Protože šlo v tomto případě o téměř perfektní batch efekt – tedy téměř 100% překryv efektu lane a
ranu vs organizmus, odstraněné rozdíly batch efektu mohou být také ty biologické.
•
•Jinak řečeno -  tyto data nemohou odpovědět na otázku která byla položena.
•
•Doporučuji diskuzi pod článkem z F1000research…

The 1000 genomes project
•Zahájen v lednu 2008, cílem bylo vytvoření co nejpodrobnějšího katalogu lidských genetických
variací
•Založen na sekvencování technologií Solexa sequencing

Jaký je vliv data sekvencování na genetickou variabilitu mezi sekvencemi?
Zjistili, že se studovanými biologickými rozdíly bylo spojeno pouze 17% variability sekvencí,
zatímco neuvěřitelných 32% bylo možné vysvětlit datem, kdy byly vzorky zpracovány.

Ani jeden z těchto článků nebyl stažen z tisku….


Jak odstranit efekt dávky


Jak odstranit efekt dávky


Randomizace pomáhá minimalizovat efekt dávky


Forshed J. (2017) Experimental design in clinical ‘omics biomarker discovery. Journal of Proteome
Research 16, 3954-3960
U ‘omics dat je randomizace obtížná

Co když je randomizace nemožná (nebo ohrožena)
•Někdy všechno nejde naplánovat a něco se změní – experimenty můžou být dlouhodobé a spolupracovat
může více stran, laboratoří, každá s vlastními postupy.
•
•Spolupráce více laboratoří – možnost randomizace na všech úrovních.
•
•Problematické bývá znovuoživení experimentu, který byl “u ledu” kvůli nedostatku financí (mezitím
se změnili postupy).
•
•
•Další změny běžně ohrožující plánovanou randomizaci.
•výměna laboranta…
•pokazení stroje a nutná oprava nebo výměna
•staré kity pro izolaci DNA už nevyrábějí, nutno použít jiné
•...

Preventivní minimalizace chyb
Presentation with Checklist
1. Protože vždy nevíme, co všechno může mít vliv, je důležité vést PODROBNÉ ZÁZNAMY – všechno co
nás napadne!
•přesný záznam postupu, včetně uskladnéní vzorku a jeho pozice v lednici
•kdo prováděl který typ analýzy a KDY
•každá změna v protokolu
•zaznamenáme všechny identifikační čísla jednotlivých kitů, primerů, čehokoliv
•všechny změny v kalibraci přístrojů, nebo informace o jejich čištění
•změny v teplotách
•způsob odběru vzorku (ležel materiál někde několik hodin mimo mrazák?)
• …
•
2. Provádíme po konzultaci se statistikem – randomizaci a dizajn experimentu.
•
3. V případě změn znovu konzultujeme další postup.

Co když je randomizace nemožná (nebo ohrožena)
•KAŽDOU ZMĚNU KONZULTUJTE SE STATISTIKEM!
•
•ŘEŠENÍ (OBVYKLE) EXISTUJE !
•
•Efekt dávky se dá odstranit, máme-li dostatek stejných vzorků analyzovaných před i po změně –
vhodnými metodami se odhadne efekt a ten se pak z dat odstraní.
•
•POZOR – je to nákladné a není to dokonalé, takže lépe je tyto efekty minimalizovat.

Jak odstranit efekt dávky


Regresní strategie


Odstranění batch efektu – jednoduchý příklad
•3 druhy kosatců se liší na základě šířky a délky kališních (sepal) a okvětních (petal) lístků
Iris Species:100% Accuracy using Naive bayes | Kaggle iris

Odstranění batch efektu – jednoduchý příklad
•3 druhy kosatců se liší na základě šířky a délky kališních (sepal) a okvětních (petal) lístků
Chart, box and whisker chart Description automatically generated
Délka kališních lístků
Šířka kališních lístků
Šířka okvětních lístků
Délka okvětních lístků
Chart, scatter chart Description automatically generated

Odstranění batch efektu – jednoduchý příklad
•3 druhy kosatců se liší na základě šířky a délky kališních (sepal) a okvětních (petal) lístků
Chart, box and whisker chart Description automatically generated
Délka kališních lístků
Šířka kališních lístků
Šířka okvětních lístků
Délka okvětních lístků
Chart, scatter chart Description automatically generated
Přidejme teď uměle efekt dávky u této proměnné.

Odstranění batch efektu – jednoduchý příklad
•3 druhy kosatců se liší na základě šířky a délky kališních (sepal) a okvětních (petal) lístků
•
•K šířce okvětních lístků byl přidán batch efekt: k polovině hodnot u každého z druhů kosatce jsem
připočítala hodnoty z normálního rozložení o průměru 5 a standardní odchýlce 0,5
A picture containing diagram Description automatically generated
PCA na původním souboru
PCA na souboru s přidaným batch efektem

Odstranění batch efektu – jednoduchý příklad
•3 druhy kosatců se liší na základě šířky a délky kališních (sepal) a okvětních (petal) lístků
•
•K šířce okvětních lístků byl přidán batch efekt: k polovině hodnot u každého z druhů kosatce jsem
připočítala hodnoty z normálního rozložení o průměru 5 a standardní odchýlce 0,5
A picture containing diagram Description automatically generated
Batch 1
Batch 2
Batch 2
Batch 1
PCA na původním souboru
PCA na souboru s přidaným batch efektem

Odstranění batch efektu – jednoduchý příklad
•3 druhy kosatců se liší na základě šířky a délky kališních (sepal) a okvětních (petal) lístků
•
•K šířce okvětních lístků byl přidán batch efekt: k polovině hodnot u každého z druhů kosatce jsem
připočítala hodnoty z normálního rozložení o průměru 5 a standardní odchýlce 0,5
A picture containing diagram Description automatically generated
Batch 1
Batch 2
Batch 2
Batch 1
PCA na původním souboru
PCA na souboru s přidaným batch efektem

Odstranění batch efektu – jednoduchý příklad
•Jak odstranit batch efekt?
1.Nejdříve efekt odhadneme - je to posun v průměrné nebo mediánové hodnotě? Nebo je rozdíl i ve
variabilitě?
•Použijeme regresní modelování, testování hypotéz, stanovíme fold change a změnu variability
2.Tyto efekty pak odstraníme tak, že je odečteme (například průměr), nebo provedeme škálovou
normalizaci a podobně

Odstranění batch efektu – jednoduchý příklad
•V našem příkladě: polovici hodnot jsem zvýšila v průměru o 5
•
•
•
Chart, box and whisker chart Description automatically generated A picture containing diagram
Description automatically generated
Batch 1
Batch 2
Průměr:  6.23
6.22
Průměr:  1.19
Chart, box and whisker chart Description automatically generated
Rozdíl průměrů je 5,04 (blízko mého čísla 5)
Chart, box and whisker chart Description automatically generated
Odečteno, průměry jsou stejné
Průměrný rozdíl teď odečítám od hodnot batch 1, abych se dostala na průměr batch 2

Odstranění batch efektu – jednoduchý příklad
6.22
Chart, box and whisker chart Description automatically generated
Odečteno, průměry jsou stejné
Diagram, schematic Description automatically generated
Původní
S batch efektem
Po odstranění

Doporučená literatura a další zdroje
•


TCGA Batch Effects Viewer
•https://bioinformatics.mdanderson.org/BatchEffectsViewer/