Detekce biomarkerů z omics experimentů • Mgr. Eva Budinská, PhD • RECETOX • budinska@recetox.muni.cz • Experimentální onkologie, podzim 2019 Co je to biomarker? Biologický marker (biomarker): Charakteristika, která je objektivně měřena a hodnocena jako indikátor normálních biologických procesů, patogenních procesů nebo farmakologických odpovědí na terapeutický zásah. Biomarkers Definitions Working Group (March 2001). "Biomarkers and surrogate endpoints: preferred definitions and conceptual framework". Clin. Pharmacol. Ther. (Review). 69 (3): 89–95. Biomarkerem může být Molekula a její stav (mutace DNA, hodnota exprese miRNA, zvýšená hladina proteinu…) Aktivita buněk v konkrétních oblastech (lymfocyty v invazivním frontu nádoru) Přítomnost mikroorganizmu Proces (zvýšená proliferace, přítomnost stromální reakce v nádoru, …) .... Využití jednotlivých biomarkerů v rozhodovacím PRAVIDLE (modelu/testu) Biomarkery a modely • Biomarker může být založen na jediném analytu, nebo na jejich kombinaci v modelu (klasifikátoru) • Je to právě kombinace více analytů (genů, proteinů, metabolitů…), která je typická pro biomarkery z omicsových dat Jaká je to nemoc? Jaké je riziko onemocnění u zdravého jedince? Jak bude nemoc probíhat? Zhoršuje se nemoc? Jaká je šance, že se nemoc vrátí? Bude terapie úspěšná? Co musí biomarker (nebo model) splňovat Musí být použitelný rutinně v praxi: • přesný (dostatečně citlivý a dostatečně specifický) • robustní (co nejméně omezen technologií měření) • reproducibilní (obecně platný na cílové populaci) Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce (skupin)? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza • Anil Potti Více info: https://ori.hhs.gov/content/case-summary-potti-anil Jak skandál změnil svět omicsového výzkumu Červenec 2010 – ředitel National Cancer Institute (NCI) Harold Varmus obdržel dopis od více než 30 statistiků a bioinformatiků, ve kterém vyjádřili své obavy nad použitím několika testů založených na genové expresi, které se používali v již probíhajících klinických studiích na Duke University k predikci odpovědi na chemoterapii. V důsledku vznikla komise Institutu medicíny (IOM), cílem které bylo sepsání doporučení pro vývoj testů z omicsových studií IOM (Institute of Medicine). 2012. Evolution of Translational Omics: Lessons Learned and the Path Forward. Washington, DC: The National Academies Press. IOM komise: Specifika testů založených na omics Testy na bázi omics a ve skutečnosti všechny klinické laboratorní testy podléhají odlišnému regulačnímu rámci než léky Absence jasného biologického zdůvodnění na rozdíl od většiny ostatních klinických laboratorních testů založených na jediném analytu Složitost omicsového výzkumu ztěžuje sdílení komplexních datových souborů a výpočetních modelů, což omezuje schopnost ostatních vědců replikovat a ověřovat zjištění a závěry těchto studií Absence jasného biologického odůvodnění testů z omics biomarkerů Příklady: Testování karcinomu prsu lidským epidermálním růstovým faktorem 2 (HER2) Měření hladiny cholesterolu lipoproteinů s nízkou hustotou (LDL) pro hodnocení srdečního rizika Biologické zdůvodnění testu s jedním analytem je často zcela zřejmé: Test je užitečný, protože gen, RNA, protein nebo metabolit hraje pochopitelnou roli v patologii onemocnění nebo jiném vyšetřovaném biologickém procesu. Absence jasného biologického odůvodnění testů omics biomarkerů – proč je to problém Když se nedá test založený na omicsových biomarkerech biologicky odůvodnit, je o to důležitější ho správně VYTVOŘIT a poté správně VALIDOVAT, aby byla zajištěna vědecká spolehlivost! Z důvodů vyššího rizika „přetrénování“ těchto testů je potřeba přísných kritérií, validace a odpovědnosti ještě vyšší než u samostatných testů založených na biomarkerech. Problém (ne) sdílení komplexních datových souborů a výpočetních modelů K dispozici jsou databázové úložiště pro soubory omicsových dat, ale sdílení dat není rutinní a bez přístupu k datům a přesně definovanému výpočetnímu modelu je replikace a ověření obtížnější než pro biomarkery založené na jednotlivých analytech. I když nezávislé validační studie jsou drahé, potřeba replikace v omicsových studiích je nutná vzhledem ke složitosti dat, které mohou vést k chybám (od jednoduchých chyb správy dat až po nesprávně navržené výpočetní modely). Tato úroveň složitosti neexistuje pro výzkum, vývoj a validaci testů s jedním biomarkerem. Doporučení IOM komise pro vývoj testů založených na omicsových datech Jak (ne) predikovat téměř cokoliv Biomarkery jako pomůcky pro diagnostiku, predikci odpovědi na léčbu nebo prognózu ● Používáme metody klasifikace! Predikce a klasifikace AML ALL ? • V tomto typu analýzy se snažíme předpovědět příslušnost k jedné ze známých skupin na základě jejich molekulárního profilu • Například určujeme: • diagnózu • odpověď na terapii • přežití pacienta •… • Cílem je vytvořit klasifikační pravidlo (soubor pravidel), které toto umožní • Vytvoření klasifikátoru může sloužit jako nástroj pro selekci genů, které významně diskriminují mezi skupinami Princip tvorby klasifikátoru 1. Výběr proměnných pro klasifikaci • Vybíráme geny nebo proteiny, které se v klasifikátoru použijí 2. Trénování • Na trénovacích datech vytvoříme klasifikační pravidlo (klasifikátor, model) 3. Testování • Vytvořený klasifikátor se otestuje na testovacích datech • K odhadnutí výkonnosti (přesnosti) klasifikátoru a optimalizaci parametrů Výběr proměnných I. Důvody výběru proměnných • Ze statistického hlediska • Eliminace tisíců nerelevantních genů významně ovlivní komplexitu vybraného klasifikátoru, stane se robustnější. • Z biologického hlediska • Výběr vhodných genů/proteinů silně korelovaných s danou skupinou pomůže pochopit mechanismus jejich působení. • Z praktického hlediska • Čím méně genů potřebujeme pro predikci, tím snadnější je uplatnení klasifikátoru v praxi. Výběr proměnných II. • U omics dat je výběr proměnných trochu problematický, protože jsou velmi korelované • Výběr jednoho reprezentanta je víceméně náhodný • Malé změny v trénovacích datech, případně aplikace jiného klasifikátoru může vyústit do úplně jiné selekce genů • To je v pořádku, ale pozor na interpretaci! • Při interpretaci je třeba brát na zřetel, že se jedná pouze o podskupinu genů • Biologické závěry o podskupinách vzorků by měly být založené na studiu celé množiny významných genů Příklad Metody klasifikace Black-box metody Ke klasifikaci nového vzorku používají celý trénovací soubor. Obvykle nejsou jednoduše interpretovatelné K-nejbližších sousedů Support vector machines Neuronové sítě Metody vytvářející srozumitelná klasifikačná pravidla Více intuitivní, jednoduše použitelné v praxi Pouze na vybraných proměnných Regresní modely Diskriminační analýza Klasifikační stromy a lesy Top scoring pairs AdaBoost... Odhad výkonnosti Výkonnost každého klasifikátoru musí být testována • Proč odhadovat výkonnost klasifikátoru? • Omezení trénovacím souborem • Bez předpokladu o rozložení neexistuje žádný vzorec pro výpočet velikosti vzorku • Často existuje jen jeden datový soubor pro trénování a testování klasifikátoru • POZOR - Odhad výkonnosti klasifikátoru na trénovacích datech je VŽDY optimisticky zkreslený proto nutnost testovat na nezávislém souboru Odhad výkonnosti Základní myšlenka: Převzorkováním rozdělit (opakovaně) datový soubor na trénovací a testovací, vytvořit klasifikátor na trénovacím souboru a změřit výkonnost klasifikátoru jen na datech, které nebyly použity pro jeho vytvoření. UPOZORNĚNÍ: Všechny kroky, které závisí na převzorkování, a které vedou k finálnímu modelu musí být zopakované identicky na každém rozdělení na trénovací a testovací soubor. Patří sem například výběr proměnných, trénovaní klasifikátoru, optimalizace parametrů,... Trénovací soubor Testovací soubor Původní souborZde klasifikátor vytváříme Zde klasifikátor testujeme Odhad výkonnosti • Každé dva trénovací soubory vytvořené z původního datového souboru s pomocí převzorkování se do jisté míry překrývají -> vytvořené klasifikátory tedy nejsou úplně nezávislé • Variabilita je obvykle podhodnocená • NUTNOST TESTOVAT NA JINÉM VALIDAČNÍM SOUBORU Co získáme odhadem výkonnosti? • Zjistíme očekávanou výkonnost klasifikátoru na validačním, nebo jakémkoliv jiném souboru! • Můžeme identifikovat nejstabilnější proměnné (geny/proteiny) – tedy ty, které jsou vybrány nejčastěji! • Zjistíme, které vzorky jsou často špatně klasifikované (pokud takové jsou, naznačuje to odlehlé hodnoty) Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (negativní) Nemocný (pozitivní) Skutečnost Zdravý (negativní) Pravdivá negativita (PN) Falešná pozitivita (FP) Chyba I. druhu Nemocný (pozitivní) Falešná negativita (FN) Chyba II. druhu Pravdivá pozitivita (PP) Pozitivní prediktivní hodnota (precision, PPV – positive predictive value) – jaký podíl ze všech klasifikovaných jako nemocných je opravdu nemocných? 𝑃𝑃𝑉 = 𝑃𝑃 𝐹𝑃 + 𝑃𝑃 Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP +PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Senzitivita / Úplnost (sensitivity/recall/TPR - true positive rate) – jaký podíl skutečně nemocných odhalíme? 𝑠𝑒𝑛𝑧𝑖𝑡𝑖𝑣𝑖𝑡𝑎 = 𝑃𝑃 𝐹𝑁 + 𝑃𝑃 Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP +PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Specificita (specificity) – ze všech, kteří jsou zdraví, jaký podíl byl označen za zdravých? 𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑎 = 𝑃𝑁 𝑃𝑁 + 𝐹𝑃 Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP +PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Podíl falešné pozitivity (FPR) – ze všech, kteří jsou zdraví, jaký podíl byl označen za nemocných? 𝐹𝑃𝑅 = 𝐹𝑃 𝑃𝑁 + 𝐹𝑃 Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP +PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP +PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Celková přesnost (accuracy) – jaké procento je správně klasifikováno? 𝑝ř𝑒𝑠𝑛𝑜𝑠𝑡 = 𝑃𝑁 + 𝑃𝑃 (𝑃𝑁 + 𝐹𝑃 + 𝐹𝑁 + 𝑃𝑃) Vyhodnocení přesnosti klasifikátoru Vyhodnocení přesnosti klasifikátoru – příklad 1 Klasifikátor Populace Predikce nemocnýPredikce zdravý Nemocný Zdravý Klasifikace Zdravý Nemocný Celkem Skutečnost Zdravý 7 0 7 Nemocný 2 1 3 Celkem 9 1 10 𝑠𝑒𝑛𝑧𝑖𝑡𝑖𝑣𝑖𝑡𝑎 = 𝑃𝑃 𝐹𝑁 + 𝑃𝑃 = 1 3 = 33% 𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑎 = 𝑃𝑁 𝑃𝑁 + 𝐹𝑃 = 7 7 = 100% 𝑝ř𝑒𝑠𝑛𝑜𝑠𝑡 = 𝑃𝑁 + 𝑃𝑃 (𝑃𝑁 + 𝐹𝑃 + 𝐹𝑁 + 𝑃𝑃) = 7 + 1 7 + 0 + 2 + 1 = 8 10 = 80% 𝑃𝑃𝑉 = 𝑃𝑃 𝐹𝑃 + 𝑃𝑃 = 1 1 = 100% 𝐹𝑃𝑅 = 𝐹𝑃 𝑃𝑁 + 𝐹𝑃 = 0 7 = 0% Vyhodnocení přesnosti klasifikátoru – příklad 2 Klasifikátor Populace Predikce nemocnýPredikce zdravý Nemocný Zdravý Klasifikace Zdravý Nemocný Celkem Skutečnost Zdravý 4 3 7 Nemocný 0 3 3 Celkem 4 6 10 𝑃𝑃𝑉 = 𝑃𝑃 𝐹𝑃 + 𝑃𝑃 = 3 6 = 50% 𝑠𝑒𝑛𝑧𝑖𝑡𝑖𝑣𝑖𝑡𝑎 = 𝑃𝑃 𝐹𝑁 + 𝑃𝑃 = 3 3 = 100% 𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑎 = 𝑃𝑁 𝑃𝑁 + 𝐹𝑃 = 4 7 = 57% 𝑝ř𝑒𝑠𝑛𝑜𝑠𝑡 = 𝑃𝑁 + 𝑃𝑃 (𝑃𝑁 + 𝐹𝑃 + 𝐹𝑁 + 𝑃𝑃) = 4 + 3 4 + 3 + 0 + 3 = 7 10 = 70% 𝐹𝑃𝑅 = 𝐹𝑃 𝑃𝑁 + 𝐹𝑃 = 3 7 = 43% ROC křivka • Receiver operator characteristics (ROC) • Mějme binární klasifikátor který má být založený na nějaké proněnné (například na velikosti exprese genu) • Musíme zvolit hranici exprese genu, která bude rozdělovat vzorky na pozitivní a negativní • ROC křivka ukazuje, jak dobrý klasifikátor jsme schopni na základě této proměnné sestavit z pohledu senzitivity a specificity ROC křivka • Receiver operator characteristics (ROC) • ROC křivka zobrazuje vztah mezi FPR a TPR • AUC – area under curve (plocha pod křivkou) - míra přesnosti testu, vyjádřuje šanci, že model bude schopen rozlišit mezi negativní a pozitivní ROC křivka PP (pravdivá positivita) PN (pravdivá negativita) Dělící hranice Exprese genu 0 0.5 1 0 1 1 0 FPR TPR AUC = 1 Model perfektně diskriminuje ROC křivka PN (pravdivá negativita) PP (pravdivá positivita) FN FP falešná negativita falešná positivita 0 1 1 0 FPR AUC = 0.8 TPR Exprese genu 0 1 ROC křivka 0 1 1 0 FPR AUC = 0.5 TPR Exprese genu 0 1 Model není lepší než hod mincí (proměnná nemá žádnou diskriminační schopnost) ROC křivka FP (falešná positivita) FN (falešná negativita) Dělící hranice Exprese genu 0 0.5 1 0 1 1 0 FPR TPR AUC = 0 Model určuje přesně naopak! ROC křivka Animace principu (jak se křivka kreslí) http://arogozhnikov.github.io/2015/10/05/roc-curve.html Bez validace není publikace (?) Není validace jako validace Validace samotného výběru biomarkeru na cílové populaci! STATISTICKÁ VALIDACE JE PŘÍMO SOUČÁSTÍ PROCESU VÝBĚRU BIOMARKERU JEŠTĚ PŘED JAKOUKOLIV JINOU VALIDACÍ! Validace technologie zopakujeme-li experiment, dostaneme stejné výsledky? (technické replikáty stejných vzorků) potvrdí výsledek na tom samém vzorku i jiná (standardní) technologie? mikročip vs. qPCR Validace biologická Dává to celé smysl? Na jakých úrovních se biomarker projevuje – genová exprese? Koreluje s proteinovou expresí?... Validace aplikovatelnosti Lze nalezené biomarkery uvést do klinické praxe? Jsou nalezené geny přepsány do proteinů? Lze pro nalezené proteiny nalézt protilátku na imunohistochemické barvení? ● 36 nezávislých tímů analytiků z celého světa analyzovalo 6 mikročipových studií a vytvořilo klasifikátory pro predikci 13 endpointů (ER+ vs ER-, ...) ● Každý tým navrhl plán tvorby a validace klasifikátoru ● Tyto plány byly předem posouzeny odbornými statistiky a ohodnoceny dle jejich názoru na škále od 1 do 10 MAQC II – endpointy štúdia endpoint model A Lung tumorigen vs non tumorigen mouse B Non genotoxic liver carcinogens vs non-carcinogens rat C Liver toxicants vs non-toxicants based on overall necrosis score rat D Breast cancer - Pre-operative treatment response (pCR, pathologic complete response) human E Breast cancer – Estrogen receptor status human F Multiple myeloma – overall survival milestone outcome human G Multiple myeloma – event-free survival milestone outcome human H Clinical parameter S1 – positive control, gender human I Clinical parameter S1 – random assignment, negative control human J Neuroblastoma – overall survival milestone outcome human K Neuroblastoma – event-free survival milestone outcome human L Newly established parameter – positive control, gender human M Newly established parameter – negative control, random human human Výkonnost klasifikátorů dle experimentu Úspěšnost odhadu pohlaví, pozitivní kontrola Úspěšnost predikce náhodného zařazení, negativní kontrola Rozdíl výkonnosti odhadnuté na základě krosvalidace (CV) a na validačním souboru (Validation) Rozdíl v AUC (plocha pod ROC křivkou) mezi odhadem výkonu krosvalidací a výkonu na validačním souboru by měl být 0 Aby to nebylo jednoduché... Rozdíl v AUC (plocha pod ROC křivkou) mezi odhadem výkonu krosvalidací a výkonu na validačním souboru jako funkce průměrného hodnocení externími hodnotiteli navržených algoritmů To, že se algoritmus zdál hodnotitelům správný neznamená, že opravdu byl... Bez validace není (dobrá) publikace Biomarkery z omicsových dat • Složené z více charakteristik (více genů, proteinů…) • Bez jasně definovaného biologického zdůvodnění Jsou často komplexní: • zatížených významným technickým šumem z různých zdrojů • analyzovaných metodami, které nejsou standardizované • které jsou pouze korelované s měřenou proměnnou (např. nejsou koncentrace ani počty molekul) • které jsou komplexní a obtížně se sdílejí Pocházejí z dat: Závěrem • Detekce biomarkerů, které budou reproducibilní a použitelné je životně závislá na: • správném dizajnu experimentu • minimalizaci laboratorních chyb • správném výběru metody pro spracování dat a jejich následnou statistickou analýzu • !validaci!