Detekce biomarkerů z omics experimentů
• Mgr. Eva Budinská, PhD
• RECETOX
• budinska@recetox.muni.cz
• Experimentální onkologie,
podzim 2019
Co je to
biomarker?
Biologický marker (biomarker):
Charakteristika, která je objektivně měřena a
hodnocena jako indikátor normálních
biologických procesů, patogenních procesů nebo
farmakologických odpovědí na terapeutický
zásah.
Biomarkers Definitions Working Group (March 2001). "Biomarkers and surrogate endpoints: preferred
definitions and conceptual framework". Clin. Pharmacol. Ther. (Review). 69 (3): 89–95.
Biomarkerem
může být Molekula a její stav
(mutace DNA,
hodnota exprese
miRNA, zvýšená
hladina proteinu…)
Aktivita buněk v
konkrétních
oblastech (lymfocyty
v invazivním frontu
nádoru)
Přítomnost
mikroorganizmu
Proces (zvýšená
proliferace,
přítomnost stromální
reakce v nádoru, …)
.... Využití jednotlivých
biomarkerů v
rozhodovacím
PRAVIDLE
(modelu/testu)
Biomarkery a modely
• Biomarker může být založen na jediném
analytu, nebo na jejich kombinaci v modelu
(klasifikátoru)
• Je to právě kombinace více analytů (genů,
proteinů, metabolitů…), která je typická pro
biomarkery z omicsových dat
Jaká je to nemoc?
Jaké je riziko
onemocnění u
zdravého jedince?
Jak bude nemoc
probíhat?
Zhoršuje se
nemoc?
Jaká je šance, že se
nemoc vrátí?
Bude terapie
úspěšná?
Co musí biomarker
(nebo model) splňovat
Musí být použitelný rutinně v praxi:
• přesný (dostatečně citlivý a dostatečně
specifický)
• robustní (co nejméně omezen technologií
měření)
• reproducibilní (obecně platný na cílové
populaci)
Jak se hledá
potenciální
biomarker v
omics datech
Kontrola kvality
Normalizace
Sumarizace
Biologická otázka
(hypotéza)
N matic základních dat
(jedna pro každý z N vzorků)
Provedení experimentu
(hybridizace mikročipů,
hmotnostní spektrometrie...)
Dizajn experimentu
Objevování skupin?
(Shlukování)
Porovnání skupin?
(Testování)
Predikce (skupin)?
(Klasifikace)
Analýza přežití
Analýza časových řad
Charakterizace nových
skupin
List genů
se stejným profilem
změn exprese v čase
Interpretace Validace Publikace
Matice informací o vzorcích
N x P
(např. klinická data v medicíně)
Finální datová matice
N vzorků a K genů
(proteinů)
Nové skupiny
genů nebo vzorků
List genů
s odlišnou expresí
mezi skupinami vzorků
Klasifikační pravidlo
využívající
genovou expresi
Seznam
prognostických genů
Pathway analýza
• Anil Potti Více
info: https://ori.hhs.gov/content/case-summary-potti-anil
Jak skandál změnil svět omicsového výzkumu
Červenec 2010 – ředitel National Cancer
Institute (NCI) Harold Varmus obdržel
dopis od více než 30 statistiků a
bioinformatiků, ve kterém vyjádřili své
obavy nad použitím několika testů
založených na genové expresi, které se
používali v již probíhajících klinických
studiích na Duke University k predikci
odpovědi na chemoterapii.
V důsledku vznikla komise Institutu
medicíny (IOM), cílem které bylo sepsání
doporučení pro vývoj testů z
omicsových studií
IOM (Institute of Medicine). 2012. Evolution of Translational Omics: Lessons Learned and the
Path Forward. Washington, DC: The National Academies Press.
IOM komise:
Specifika
testů
založených na
omics
Testy na bázi omics a ve skutečnosti
všechny klinické laboratorní testy podléhají
odlišnému regulačnímu rámci než léky
Absence jasného biologického
zdůvodnění na rozdíl od většiny ostatních
klinických laboratorních testů založených
na jediném analytu
Složitost omicsového výzkumu ztěžuje
sdílení komplexních datových souborů a
výpočetních modelů, což omezuje
schopnost ostatních vědců replikovat a
ověřovat zjištění a závěry těchto studií
Absence jasného
biologického
odůvodnění testů z
omics biomarkerů
Příklady:
Testování karcinomu prsu lidským
epidermálním růstovým faktorem 2
(HER2)
Měření hladiny cholesterolu
lipoproteinů s nízkou hustotou (LDL)
pro hodnocení srdečního rizika
Biologické zdůvodnění testu s jedním analytem je často
zcela zřejmé: Test je užitečný, protože gen, RNA, protein
nebo metabolit hraje pochopitelnou roli v patologii
onemocnění nebo jiném vyšetřovaném biologickém
procesu.
Absence
jasného
biologického
odůvodnění
testů omics
biomarkerů –
proč je to
problém
Když se nedá test založený na omicsových
biomarkerech biologicky odůvodnit, je o to
důležitější ho správně VYTVOŘIT a poté
správně VALIDOVAT, aby byla zajištěna
vědecká spolehlivost!
Z důvodů vyššího rizika „přetrénování“
těchto testů je potřeba přísných kritérií,
validace a odpovědnosti ještě vyšší než u
samostatných testů založených na
biomarkerech.
Problém (ne)
sdílení
komplexních
datových
souborů a
výpočetních
modelů
K dispozici jsou databázové úložiště pro soubory
omicsových dat, ale sdílení dat není rutinní a bez
přístupu k datům a přesně definovanému
výpočetnímu modelu je replikace a ověření obtížnější
než pro biomarkery založené na jednotlivých
analytech.
I když nezávislé validační studie jsou drahé, potřeba
replikace v omicsových studiích je nutná vzhledem ke
složitosti dat, které mohou vést k chybám (od
jednoduchých chyb správy dat až po nesprávně
navržené výpočetní modely).
Tato úroveň složitosti neexistuje pro výzkum, vývoj a
validaci testů s jedním biomarkerem.
Doporučení IOM komise pro vývoj testů založených na omicsových
datech
Jak (ne) predikovat
téměř cokoliv
Biomarkery jako pomůcky pro
diagnostiku, predikci odpovědi na léčbu
nebo prognózu
● Používáme metody klasifikace!
Predikce a klasifikace
AML
ALL
?
• V tomto typu analýzy se snažíme předpovědět
příslušnost k jedné ze známých skupin na základě
jejich molekulárního profilu
• Například určujeme:
• diagnózu
• odpověď na terapii
• přežití pacienta
•…
• Cílem je vytvořit klasifikační pravidlo (soubor
pravidel), které toto umožní
• Vytvoření klasifikátoru může sloužit jako nástroj pro
selekci genů, které významně diskriminují mezi
skupinami
Princip tvorby
klasifikátoru
1. Výběr proměnných pro klasifikaci
• Vybíráme geny nebo proteiny, které se v
klasifikátoru použijí
2. Trénování
• Na trénovacích datech vytvoříme klasifikační
pravidlo (klasifikátor, model)
3. Testování
• Vytvořený klasifikátor se otestuje na
testovacích datech
• K odhadnutí výkonnosti (přesnosti) klasifikátoru
a optimalizaci parametrů
Výběr
proměnných I.
Důvody výběru proměnných
• Ze statistického hlediska
• Eliminace tisíců nerelevantních genů významně ovlivní
komplexitu vybraného klasifikátoru, stane se
robustnější.
• Z biologického hlediska
• Výběr vhodných genů/proteinů silně korelovaných s
danou skupinou pomůže pochopit mechanismus jejich
působení.
• Z praktického hlediska
• Čím méně genů potřebujeme pro predikci, tím
snadnější je uplatnení klasifikátoru v praxi.
Výběr
proměnných II.
• U omics dat je výběr proměnných trochu
problematický, protože jsou velmi korelované
• Výběr jednoho reprezentanta je víceméně náhodný
• Malé změny v trénovacích datech, případně
aplikace jiného klasifikátoru může vyústit do úplně
jiné selekce genů
• To je v pořádku, ale pozor na interpretaci!
• Při interpretaci je třeba brát na zřetel, že se jedná
pouze o podskupinu genů
• Biologické závěry o podskupinách vzorků by měly
být založené na studiu celé množiny významných
genů
Příklad
Metody klasifikace
Black-box metody
Ke klasifikaci nového vzorku používají celý trénovací soubor.
Obvykle nejsou jednoduše interpretovatelné
K-nejbližších sousedů
Support vector machines
Neuronové sítě
Metody vytvářející srozumitelná klasifikačná pravidla
Více intuitivní, jednoduše použitelné v praxi
Pouze na vybraných proměnných
Regresní modely
Diskriminační analýza
Klasifikační stromy a lesy
Top scoring pairs
AdaBoost...
Odhad
výkonnosti
Výkonnost každého klasifikátoru musí být
testována
• Proč odhadovat výkonnost klasifikátoru?
• Omezení trénovacím souborem
• Bez předpokladu o rozložení neexistuje žádný
vzorec pro výpočet velikosti vzorku
• Často existuje jen jeden datový soubor pro
trénování a testování klasifikátoru
• POZOR - Odhad výkonnosti klasifikátoru na
trénovacích datech je VŽDY optimisticky zkreslený
proto nutnost testovat na nezávislém souboru
Odhad výkonnosti
Základní myšlenka:
Převzorkováním rozdělit (opakovaně) datový soubor na trénovací a testovací,
vytvořit klasifikátor na trénovacím souboru a změřit výkonnost klasifikátoru jen na
datech, které nebyly použity pro jeho vytvoření.
UPOZORNĚNÍ: Všechny kroky, které závisí na převzorkování, a které vedou k
finálnímu modelu musí být zopakované identicky na každém rozdělení na
trénovací a testovací soubor.
Patří sem například výběr proměnných, trénovaní klasifikátoru, optimalizace
parametrů,...
Trénovací soubor Testovací soubor
Původní souborZde
klasifikátor
vytváříme
Zde
klasifikátor
testujeme
Odhad
výkonnosti
• Každé dva trénovací soubory vytvořené z
původního datového souboru s pomocí
převzorkování se do jisté míry překrývají ->
vytvořené klasifikátory tedy nejsou úplně
nezávislé
• Variabilita je obvykle podhodnocená
• NUTNOST TESTOVAT NA JINÉM VALIDAČNÍM
SOUBORU
Co získáme
odhadem
výkonnosti?
• Zjistíme očekávanou výkonnost klasifikátoru
na validačním, nebo jakémkoliv jiném souboru!
• Můžeme identifikovat nejstabilnější proměnné
(geny/proteiny) – tedy ty, které jsou vybrány
nejčastěji!
• Zjistíme, které vzorky jsou často špatně
klasifikované (pokud takové jsou, naznačuje to
odlehlé hodnoty)
Vyhodnocení přesnosti klasifikátoru
Klasifikace
Zdravý
(negativní)
Nemocný
(pozitivní)
Skutečnost
Zdravý
(negativní)
Pravdivá
negativita (PN)
Falešná pozitivita
(FP)
Chyba I. druhu
Nemocný
(pozitivní)
Falešná negativita
(FN)
Chyba II. druhu
Pravdivá pozitivita
(PP)
Pozitivní prediktivní hodnota (precision, PPV –
positive predictive value) – jaký podíl ze všech
klasifikovaných jako nemocných je opravdu
nemocných?
𝑃𝑃𝑉 =
𝑃𝑃
𝐹𝑃 + 𝑃𝑃
Vyhodnocení
přesnosti
klasifikátoru
Klasifikace
Zdravý (-) Nemocný
(+) Celkem
Skutečnost
Zdravý (-) PN FP PN + FP
Nemocný
(+) FN PP FN + PP
Celkem PN + FN FP + PP PN+FN+FP
+PP
Všichni
klasifikováni
jako zdraví
(negativní)
Všichni
klasifikováni
jako
nemocní
(pozitivní)
Všichni skutečně
zdraví (negativní)
Všichni skutečně
nemocní (pozitivní)
Senzitivita / Úplnost (sensitivity/recall/TPR - true
positive rate) – jaký podíl skutečně nemocných
odhalíme?
𝑠𝑒𝑛𝑧𝑖𝑡𝑖𝑣𝑖𝑡𝑎 =
𝑃𝑃
𝐹𝑁 + 𝑃𝑃
Vyhodnocení
přesnosti
klasifikátoru
Klasifikace
Zdravý (-) Nemocný
(+) Celkem
Skutečnost
Zdravý (-) PN FP PN + FP
Nemocný
(+) FN PP FN + PP
Celkem PN + FN FP + PP PN+FN+FP
+PP
Všichni
klasifikováni
jako zdraví
(negativní)
Všichni
klasifikováni
jako
nemocní
(pozitivní)
Všichni skutečně
zdraví (negativní)
Všichni skutečně
nemocní (pozitivní)
Specificita (specificity) – ze všech, kteří jsou
zdraví, jaký podíl byl označen za zdravých? 𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑎 =
𝑃𝑁
𝑃𝑁 + 𝐹𝑃
Vyhodnocení
přesnosti
klasifikátoru
Klasifikace
Zdravý (-) Nemocný
(+) Celkem
Skutečnost
Zdravý (-) PN FP PN + FP
Nemocný
(+) FN PP FN + PP
Celkem PN + FN FP + PP PN+FN+FP
+PP
Všichni
klasifikováni
jako zdraví
(negativní)
Všichni
klasifikováni
jako
nemocní
(pozitivní)
Všichni skutečně
zdraví (negativní)
Všichni skutečně
nemocní (pozitivní)
Podíl falešné pozitivity (FPR) – ze všech, kteří jsou
zdraví, jaký podíl byl označen za nemocných? 𝐹𝑃𝑅 =
𝐹𝑃
𝑃𝑁 + 𝐹𝑃
Vyhodnocení
přesnosti
klasifikátoru
Klasifikace
Zdravý (-) Nemocný
(+) Celkem
Skutečnost
Zdravý (-) PN FP PN + FP
Nemocný
(+) FN PP FN + PP
Celkem PN + FN FP + PP PN+FN+FP
+PP
Všichni
klasifikováni
jako zdraví
(negativní)
Všichni
klasifikováni
jako
nemocní
(pozitivní)
Všichni skutečně
zdraví (negativní)
Všichni skutečně
nemocní (pozitivní)
Klasifikace
Zdravý (-) Nemocný
(+) Celkem
Skutečnost
Zdravý (-) PN FP PN + FP
Nemocný
(+) FN PP FN + PP
Celkem PN + FN FP + PP PN+FN+FP
+PP
Všichni
klasifikováni
jako zdraví
(negativní)
Všichni
klasifikováni
jako
nemocní
(pozitivní)
Všichni skutečně
zdraví (negativní)
Všichni skutečně
nemocní (pozitivní)
Celková přesnost (accuracy) – jaké procento je
správně klasifikováno? 𝑝ř𝑒𝑠𝑛𝑜𝑠𝑡 =
𝑃𝑁 + 𝑃𝑃
(𝑃𝑁 + 𝐹𝑃 + 𝐹𝑁 + 𝑃𝑃)
Vyhodnocení
přesnosti
klasifikátoru
Vyhodnocení přesnosti klasifikátoru – příklad 1
Klasifikátor
Populace
Predikce nemocnýPredikce zdravý
Nemocný
Zdravý
Klasifikace
Zdravý Nemocný Celkem
Skutečnost
Zdravý 7 0 7
Nemocný 2 1 3
Celkem 9 1 10
𝑠𝑒𝑛𝑧𝑖𝑡𝑖𝑣𝑖𝑡𝑎 =
𝑃𝑃
𝐹𝑁 + 𝑃𝑃
=
1
3
= 33%
𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑎 =
𝑃𝑁
𝑃𝑁 + 𝐹𝑃
=
7
7
= 100%
𝑝ř𝑒𝑠𝑛𝑜𝑠𝑡 =
𝑃𝑁 + 𝑃𝑃
(𝑃𝑁 + 𝐹𝑃 + 𝐹𝑁 + 𝑃𝑃)
=
7 + 1
7 + 0 + 2 + 1
=
8
10
= 80%
𝑃𝑃𝑉 =
𝑃𝑃
𝐹𝑃 + 𝑃𝑃
=
1
1
= 100%
𝐹𝑃𝑅 =
𝐹𝑃
𝑃𝑁 + 𝐹𝑃
=
0
7
= 0%
Vyhodnocení přesnosti klasifikátoru – příklad 2
Klasifikátor
Populace
Predikce nemocnýPredikce zdravý
Nemocný
Zdravý
Klasifikace
Zdravý Nemocný Celkem
Skutečnost
Zdravý 4 3 7
Nemocný 0 3 3
Celkem 4 6 10
𝑃𝑃𝑉 =
𝑃𝑃
𝐹𝑃 + 𝑃𝑃
=
3
6
= 50%
𝑠𝑒𝑛𝑧𝑖𝑡𝑖𝑣𝑖𝑡𝑎 =
𝑃𝑃
𝐹𝑁 + 𝑃𝑃
=
3
3
= 100%
𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑎 =
𝑃𝑁
𝑃𝑁 + 𝐹𝑃
=
4
7
= 57%
𝑝ř𝑒𝑠𝑛𝑜𝑠𝑡 =
𝑃𝑁 + 𝑃𝑃
(𝑃𝑁 + 𝐹𝑃 + 𝐹𝑁 + 𝑃𝑃)
=
4 + 3
4 + 3 + 0 + 3
=
7
10
= 70%
𝐹𝑃𝑅 =
𝐹𝑃
𝑃𝑁 + 𝐹𝑃
=
3
7
= 43%
ROC křivka
• Receiver operator characteristics (ROC)
• Mějme binární klasifikátor který má být založený na nějaké proněnné
(například na velikosti exprese genu)
• Musíme zvolit hranici exprese genu, která bude rozdělovat vzorky na
pozitivní a negativní
• ROC křivka ukazuje, jak dobrý klasifikátor jsme schopni na základě
této proměnné sestavit z pohledu senzitivity a specificity
ROC křivka
• Receiver operator characteristics (ROC)
• ROC křivka zobrazuje vztah mezi FPR a
TPR
• AUC – area under curve (plocha pod
křivkou) - míra přesnosti testu, vyjádřuje
šanci, že model bude schopen rozlišit
mezi negativní a pozitivní
ROC křivka
PP
(pravdivá
positivita)
PN
(pravdivá
negativita)
Dělící
hranice
Exprese genu
0 0.5 1
0 1
1
0
FPR
TPR
AUC = 1
Model perfektně
diskriminuje
ROC křivka
PN
(pravdivá
negativita)
PP
(pravdivá
positivita)
FN FP
falešná
negativita
falešná
positivita
0 1
1
0
FPR
AUC = 0.8
TPR
Exprese genu
0 1
ROC křivka
0 1
1
0
FPR
AUC = 0.5
TPR
Exprese genu
0 1
Model není lepší než
hod mincí (proměnná
nemá žádnou
diskriminační
schopnost)
ROC křivka
FP
(falešná
positivita)
FN
(falešná
negativita)
Dělící
hranice
Exprese genu
0 0.5 1
0 1
1
0
FPR
TPR
AUC = 0
Model určuje přesně
naopak!
ROC křivka
Animace principu (jak se křivka kreslí)
http://arogozhnikov.github.io/2015/10/05/roc-curve.html
Bez validace není
publikace (?)
Není validace jako validace
Validace
samotného
výběru
biomarkeru
na cílové
populaci!
STATISTICKÁ VALIDACE JE PŘÍMO SOUČÁSTÍ
PROCESU VÝBĚRU
BIOMARKERU
JEŠTĚ PŘED JAKOUKOLIV
JINOU VALIDACÍ!
Validace
technologie
zopakujeme-li experiment,
dostaneme stejné výsledky?
(technické replikáty
stejných vzorků)
potvrdí výsledek na tom
samém vzorku i jiná
(standardní) technologie?
mikročip vs. qPCR
Validace
biologická
Dává to celé smysl?
Na jakých úrovních se
biomarker projevuje –
genová exprese? Koreluje s
proteinovou expresí?...
Validace
aplikovatelnosti
Lze nalezené biomarkery
uvést do klinické praxe?
Jsou nalezené geny
přepsány do proteinů?
Lze pro nalezené proteiny
nalézt protilátku na
imunohistochemické
barvení?
● 36 nezávislých tímů analytiků z celého světa analyzovalo 6 mikročipových
studií a vytvořilo klasifikátory pro predikci 13 endpointů (ER+ vs ER-, ...)
● Každý tým navrhl plán tvorby a validace klasifikátoru
● Tyto plány byly předem posouzeny odbornými statistiky a ohodnoceny dle
jejich názoru na škále od 1 do 10
MAQC II – endpointy
štúdia endpoint model
A Lung tumorigen vs non tumorigen mouse
B Non genotoxic liver carcinogens vs non-carcinogens rat
C Liver toxicants vs non-toxicants based on overall necrosis score rat
D Breast cancer - Pre-operative treatment response (pCR,
pathologic complete response)
human
E Breast cancer – Estrogen receptor status human
F Multiple myeloma – overall survival milestone outcome human
G Multiple myeloma – event-free survival milestone outcome human
H Clinical parameter S1 – positive control, gender human
I Clinical parameter S1 – random assignment, negative control human
J Neuroblastoma – overall survival milestone outcome human
K Neuroblastoma – event-free survival milestone outcome human
L Newly established parameter – positive control, gender human
M Newly established parameter – negative control, random human
human
Výkonnost klasifikátorů dle experimentu
Úspěšnost odhadu pohlaví, pozitivní kontrola
Úspěšnost predikce náhodného zařazení, negativní kontrola
Rozdíl výkonnosti odhadnuté na základě krosvalidace
(CV) a na validačním souboru (Validation)
Rozdíl v AUC (plocha pod ROC křivkou) mezi odhadem výkonu krosvalidací a výkonu na validačním souboru by měl být 0
Aby to nebylo jednoduché...
Rozdíl v AUC (plocha pod ROC křivkou) mezi odhadem výkonu krosvalidací a výkonu na validačním souboru jako funkce
průměrného hodnocení externími hodnotiteli navržených algoritmů
To, že se algoritmus zdál hodnotitelům správný neznamená, že opravdu byl...
Bez validace není (dobrá) publikace
Biomarkery z
omicsových
dat
• Složené z více charakteristik (více genů,
proteinů…)
• Bez jasně definovaného biologického
zdůvodnění
Jsou často komplexní:
• zatížených významným technickým šumem z
různých zdrojů
• analyzovaných metodami, které nejsou
standardizované
• které jsou pouze korelované s měřenou
proměnnou (např. nejsou koncentrace ani počty
molekul)
• které jsou komplexní a obtížně se sdílejí
Pocházejí z dat:
Závěrem
• Detekce biomarkerů, které budou
reproducibilní a použitelné je životně závislá
na:
• správném dizajnu experimentu
• minimalizaci laboratorních chyb
• správném výběru metody pro spracování
dat a jejich následnou statistickou analýzu
• !validaci!