Detekce biomarkerů z omics experimentů • Mgr. Eva Budinská, PhD • RECETOX • budinska@recetox.muni.cz • Podzim 2019 Cíl kurzu …podrobně seznámit posluchače s hlavními principy analýzy dat z molekulárních 'omics experimentů (mikročipy, hmotnostní spektrometrie, NGS,…), se zvláštním důrazem na plánování experimentů a validaci výsledků při detekci biomarkerů…. a z nich odvozených modelů. Co je to biomarker? Biologický marker (biomarker): Charakteristika, která je objektivně měřena a hodnocena jako indikátor normálních biologických procesů, patogenních procesů nebo farmakologických odpovědí na terapeutický zásah. Biomarkers Definitions Working Group (March 2001). "Biomarkers and surrogate endpoints: preferred definitions and conceptual framework". Clin. Pharmacol. Ther. (Review). 69 (3): 89–95. Biomarkerem může být Molekula a její stav (mutace DNA, hodnota exprese miRNA, zvýšená hladina proteinu…) Aktivita buněk v konkrétních oblastech (lymfocyty v invazivním frontu nádoru) Přítomnost mikroorganizmu Proces (zvýšená proliferace, přítomnost stromální reakce v nádoru, …) .... Využití jednotlivých biomarkerů v rozhodovacím PRAVIDLE (modelu/testu) Biomarkery a modely • Biomarker může být založen na jediném analytu, nebo na jejich kombinaci v modelu (klasifikátoru) • Je to právě kombinace více analytů (genů, proteinů, metabolitů…), která je typická pro biomarkery z omicsových dat Jaká je to nemoc? Jaké je riziko onemocnění u zdravého jedince? Jak bude nemoc probíhat? Zhoršuje se nemoc? Jaká je šance, že se nemoc vrátí? Bude terapie úspěšná? Co musí biomarker (nebo model) splňovat Musí být použitelný rutinně v praxi: • přesný (dostatečně citlivý a dostatečně specifický) • robustní (co nejméně omezen technologií měření) • reproducibilní (obecně platný) Mnohorozměrná povaha moderní biomedicíny All the omics? The Human Cancer Genome Atlas (TCGA) projekt Data z omics experimentů § Moderní vysocepokryvné molekulární technologie produkují obrovské tabulky komplexních dat Mikročipy þ Desítky až tisíce genů nebo transkriptů na vzorek Hmotnostní spektrometrie þ Tisíce spekter proteinů, metabolitů nebo malých molekul na vzorek Sekvenace DNA þGenom s biliony nukleotidů na vzorek Sekvenace nové generace þ Miliony krátkých čtení DNA na vzorek Data omics experimentů The Human Genome Project " Řetězec genetických kousků v zásadě obsahuje dlouho hledaná tajemství lidského vývoje, fyziologie a medicíny. V praxi je naše schopnost transformovat tyto informace do porozumění žalostně nedostatečná ". The Genome International Sequencing Consortium, ”Initial sequencing and analysis of the human genome,” Nature 409: 860-921 (2001) Hledání jehly v kupě sena? Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza “Přijít za statistikem po dokončení experimentu je často to samé jako požádat ho aby provedl posmrtné vyšetření. Možná bude schopen říct, na co experiment zemřel.” (Ronald Fisher) Proč jsou omicsová data problematická? Specifika dat z omics experimentů Obsahují množství šumu (technická i biologická variabilita) Nereprezentují skutečné hodnoty (koncentrace, počty) sledovaných molekul Pocházejí z komplexních technologií, které bývají velice citlivé na vnější vlivy Jejich předzpracování je náročné a vysoce specifické pro daný typ platformy Počet vzorků je mnohem menší než počet sledovaných proměnných. Zkoumané proměnné jsou často korelované a mají mezi sebou komplexní vztahy (geny, proteiny…) … ale i analýza těchto dat a vytváření omics biomarkerových modelů má svá specifika! Skandál na Duke university Severní Karolína, USA Obrovský ohlas, v roce 2006 článek zařazen mezi “The Top 6 Genetic Stories of 2006” Genomické signatury byly odvozeny z analýzy exprese (mikročipy) senzitivních a rezistentních buněčných linií, výsledky validovány na pacientech. 2006 – Anil Potti, nadějný vědec z Duke University publikuje v Nature Medicine s kolegy článek o biomarkerech rezistence na chemoterapeutika v onkologii. 2006 – Biostatistici K. Coombes, J. Wang and K.A. Baggerly se snaží o aplikaci signatur na data výzkumníků z jejich univerzity, ovšem bez úspěchu. Aktivně konzultují s autory článku. Čím více se noří do dat, tím více mají pochybností o validitě závěrů a správnosti samotných dat! Reportují tyto chyby: označení senzitivních a rezistentních buněčných linií nesedí! tabulka se seznamem významných genů a jejich sond obsahuje systematickou chybu (posun o políčko) – geny nesedí se sondami, po korekci tabulky se podařilo reprodukovat pouze 3 ze 7 seznamů a výsledků senzitivity Model rezistence na doxacel – podařilo se zreprodukovat pouze 31 z 50 genů publikovaných v článku, ostatních 19 bylo zřejmě přidáno ručně “aby byla validace úspěšná” Autorský SW (algoritmus), který Potti používá, pracuje s validačními a testovacími daty společně. Po korekci této chyby jsou výsledky validace klasifikátorů špatné – na validačních datech téměř rovné náhodě. 2007 – Coombes a kol. publikují v Nature Medicine dopis zpochybňující Pottiho výzkum (Coombes, Wang, Baggerly. Microarrays: retracing steps, Nature Medicine, 2007) Mezitím vycházejí další články: Blood (2006), NEJM (2006), JCO (2007), Lancet Oncology (2007), JAMA (2008), PLOS (2008), PNAS (2008), Clin Can Res (2009) V roce 2009 již 212 citací, několik klinických studií, stovky léčených pacientů V roce 2010 – Anil Potti obviněn z falzifikace výsledků a vyšetřován Trvá 4 roky a mnoho úsilí, než jsou chyby uznány a články staženy! • Anil Potti Více info: https://ori.hhs.gov/content/case-summary-potti-anil Jak skandál změnil svět omics výzkumu Červenec 2010 – ředitel National Cancer Institute (NCI) Harold Varmus obdržel dopis od více než 30 statistiků a bioinformatiků, ve kterém vyjádřili své obavy nad použitím několika testů založených na genové expresi, které se používali v již probíhajících klinických studiích na Duke University k predikci odpovědi na chemoterapii. V důsledku vznikla komise Institutu medicíny (IOM), cílem které bylo sepsání doporučení pro vývoj testů z omicsových studií This PDF is available from The National Academies Press at http://www.nap.edu/catalog.php?record_id=13297 ISBN 978-0-309-22418-5 300 pages 6 x 9 PAPERBACK (2012) Evolution of Translational Omics: Lessons Learned and the Path Forward Christine M. Micheel, Sharly J. Nass, and Gilbert S. Omenn, Editors; Committee on the Review of Omics-Based Tests for Predicting Patient Outcomes in Clinical Trials; Board on Health Care Services; Board on Health Sciences Policy; Institute of Medicine IOM (Institute of Medicine). 2012. Evolution of Translational Omics: Lessons Learned and the Path Forward. Washington, DC: The National Academies Press. IOM komise: Specifika testů založených na omics Testy na bázi omics a ve skutečnosti všechny klinické laboratorní testy podléhají odlišnému regulačnímu rámci než léky Absence jasného biologického zdůvodnění na rozdíl od většiny ostatních klinických laboratorních testů založených na jediném analytu Složitost omicsového výzkumu ztěžuje sdílení komplexních datových souborů a výpočetních modelů, což omezuje schopnost ostatních vědců replikovat a ověřovat zjištění a závěry těchto studií Absence jasného biologického odůvodnění testů omics biomarkerů Příklady: Testování karcinomu prsu lidským epidermálním růstovým faktorem 2 (HER2) Měření hladiny cholesterolu lipoproteinů s nízkou hustotou (LDL) pro hodnocení srdečního rizika Biologické zdůvodnění testu s jedním analytem je často zcela zřejmé: Test je užitečný, protože gen, RNA, protein nebo metabolit hraje pochopitelnou roli v patologii onemocnění nebo jiném vyšetřovaném biologickém procesu. Absence jasného biologického odůvodnění testů omics biomarkerů – proč je to problém Když se nedá test založený na omics biomarkerech biologicky odůvodnit, je o to důležitější ho správně VYTVOŘIT a poté správně VALIDOVAT, aby byla zajištěna vědecká spolehlivost! Z důvodů vyššího rizika „přetrénování“ těchto testů je potřeba přísných kritérií, validace a odpovědnosti ještě vyšší než u samostatných testů založených na biomarkerech. Problém (ne) sdílení komplexních datových souborů a výpočetních modelů K dispozici jsou databázové úložiště pro soubory omicsových dat, ale sdílení dat není rutinní a bez přístupu k datům a přesně definovanému výpočetnímu modelu je replikace a ověření obtížnější než pro biomarkery založené na jednotlivých analytech. I když nezávislé validační studie jsou drahé, potřeba replikace v omicsových studiích je nutná vzhledem ke složitosti dat, které mohou vést k chybám (od jednoduchých chyb správy dat až po nesprávně navržené výpočetní modely). Tato úroveň složitosti neexistuje pro výzkum, vývoj a validaci testů s jedním biomarkerem. Doporučení IOM komise pro vývoj testů založených na omicsových datech Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza Úprava omicsových dat do podoby, kdy je možná derivace biomarkerů trvá podstatně déle než u jiných dat Data obsahují velké množství technického i biologického šumu, který je nutné odstranit Protože jedno spuštění přístroje obvykle není schopno analyzovat všechny vzorky, vytváří se nežádoucí matoucí efekty (efekty dávky), které je nutno odstranit Technologie jsou velice nové (a vznikají stále!) a algoritmy pro optimální zpracování jejich dat se vytvářejí a testují i 5-10 let - neexistují zlaté standardy a mnohé implementace jsou plné chyb Vědecké časopisy jsou (přesto) plné odpadu Podíl článků stažených z tisku se zvyšuje Za analyzovanou dekádu vzrostl počet článků pouze o 44%, počet retrakcí článků se zvýšil desetinásobně! Pouze 0.02% článků je staženo z tisku! Van Noorden, R. (2011) Science publishing: The trouble with retractions. Nature. 2011 Oct 5;478(7367):26-8. Důvody stažení publikací Analýza 2,047 stažených biomedicínských a přírodovědných vědeckých článků Nejčastější důvod: podvod (nebo podezření z podvodu): 43.4% 21.3% článků bylo staženo kvůli čestné chybě (honest error) Až 31.8% článků, které byly staženy zůstali neoznačeny Většina autorů své stažené články stále cituje... Adapted Figure 1 from Fang et al. (2012) Misconduct accounts for the majority of retracted scientific publications. PNAS 2012 Oct 16; 109(42):17028-170 Bylo analyzováno 180 primárních a 851 odvozených klinických studií, které byly provedeny na základě výzkumu ze stažených publikací. U 180 primárních studií bylo léčeno 9189 pacientů (z více než 28 tisíc) U 851 odvozených studií bylo léčeno 70 501 pacientů (z více než 400 tisíc) Studie, které byly staženy pro podvod, léčily statisticky významně více pacientů, než studie, které byly staženy pro chybu. Biomarkery z omicsových dat • Složené z více charakteristik (více genů, proteinů…) • Bez jasně definovaného biologického zdůvodnění Jsou často komplexní: • zatížených významným technickým šumem z různých zdrojů • analyzovaných metodami, které nejsou standardizované • které jsou pouze korelované s měřenou proměnnou (např. nejsou koncentrace ani počty molekul) • které jsou komplexní a obtížně se sdílejí Pocházejí z dat: Co dál? • V průběhu semestru si ukážeme hlavní principy hledání jednotlivých biomarkerů a na nich založených modelů (testů), s důrazem na reproducibilitu, robustnost a validaci • Vše budeme ilustrovat na konkrétních příkladech z praxe • Budete mít možnost konzultovat vlastní experimenty