Detekce biomarkerů z omics experimentů •Mgr. Eva Budinská, PhD •RECETOX •budinska@recetox.muni.cz •Podzim 2019 Cíl kurzu Fingerprint •…podrobně seznámit posluchače s hlavními principy analýzy dat z molekulárních 'omics experimentů (mikročipy, hmotnostní spektrometrie, NGS,…), se zvláštním důrazem na plánování experimentů a validaci výsledků při detekci biomarkerů…. a z nich odvozených modelů. Co je to biomarker? •Biologický marker (biomarker): •Charakteristika, která je objektivně měřena a hodnocena jako indikátor normálních biologických procesů, patogenních procesů nebo farmakologických odpovědí na terapeutický zásah. • Biomarkers Definitions Working Group (March 2001). "Biomarkers and surrogate endpoints: preferred definitions and conceptual framework". Clin. Pharmacol. Ther. (Review). 69 (3): 89–95. Biomarkerem může být Biomarkery a modely •Biomarker může být založen na jediném analytu, nebo na jejich kombinaci v modelu (klasifikátoru) • •Je to právě kombinace více analytů (genů, proteinů, metabolitů…), která je typická pro biomarkery z omicsových dat Jaká je to nemoc? Jaké je riziko onemocnění u zdravého jedince? Jak bude nemoc probíhat? Zhoršuje se nemoc? Jaká je šance, že se nemoc vrátí? Bude terapie úspěšná? Co musí biomarker (nebo model) splňovat Checkmark •Musí být použitelný rutinně v praxi: • •přesný (dostatečně citlivý a dostatečně specifický) •robustní (co nejméně omezen technologií měření) •reproducibilní (obecně platný) • > Mnohorozměrná povaha moderní biomedicíny All the omics? The Human Cancer Genome Atlas (TCGA) projekt Data z omics experimentů §Moderní vysocepokryvné molekulární technologie produkují obrovské tabulky komplexních dat Mikročipy þ Desítky až tisíce genů nebo transkriptů na vzorek Hmotnostní spektrometrie þ Tisíce spekter proteinů, metabolitů nebo malých molekul na vzorek Sekvenace DNA þGenom s biliony nukleotidů na vzorek Sekvenace nové generace þ Miliony krátkých čtení DNA na vzorek Data omics experimentů The Human Genome Project " Řetězec genetických kousků v zásadě obsahuje dlouho hledaná tajemství lidského vývoje, fyziologie a medicíny. V praxi je naše schopnost transformovat tyto informace do porozumění žalostně nedostatečná ". The Genome International Sequencing Consortium, ”Initial sequencing and analysis of the human genome,” Nature 409: 860-921 (2001) Hledání jehly v kupě sena? Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza “Přijít za statistikem po dokončení experimentu je často to samé jako požádat ho aby provedl posmrtné vyšetření. Možná bude schopen říct, na co experiment zemřel.” (Ronald Fisher) Proč jsou omicsová data problematická? Questions Specifika dat z omics experimentů … ale i analýza těchto dat a vytváření omics biomarkerových modelů má svá specifika! Fingerprint Error Skandál na Duke university Severní Karolína, USA •Anil Potti - Více info: https://ori.hhs.gov/content/case-summary-potti-anil Jak skandál změnil svět omics výzkumu IOM (Institute of Medicine). 2012. Evolution of Translational Omics: Lessons Learned and the Path Forward. Washington, DC: The National Academies Press. page19image1832064 IOM komise: Specifika testů založených na omics Absence jasného biologického odůvodnění testů omics biomarkerů Biologické zdůvodnění testu s jedním analytem je často zcela zřejmé: Test je užitečný, protože gen, RNA, protein nebo metabolit hraje pochopitelnou roli v patologii onemocnění nebo jiném vyšetřovaném biologickém procesu. Příklady testů s jedním analytem zahrnují testování karcinomu prsu lidským epidermálním růstovým faktorem 2 (HER2) nebo měření hladiny cholesterolu lipoproteinů s nízkou hustotou (LDL) pro hodnocení srdečního rizika. Naproti tomu biologické zdůvodnění souboru biomarkerů v testu založeném na omics není často vědecky definováno. Tento rozdíl představuje další zatížení statistiků a bioinformatických odborníků zapojených do validace testů, aby bylo zajištěno, že biologická data a výpočetní model jsou vědecky spolehlivé. Vzhledem ke zvýšenému riziku překročení velkých souborů dat ve vývoji výpočetního modelu je potřeba přísnosti, validace a odpovědnosti ještě vyšší než u jiných samostatných testů založených na biomarkerech. Absence jasného biologického odůvodnění testů omics biomarkerů – proč je to problém Problém (ne) sdílení komplexních datových souborů a výpočetních modelů Doporučení IOM komise pro vývoj testů založených na omicsových datech page19image1832064 Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza Úprava omicsových dat do podoby, kdy je možná derivace biomarkerů trvá podstatně déle než u jiných dat Vědecké časopisy jsou (přesto) plné odpadu Podíl článků stažených z tisku se zvyšuje Za analyzovanou dekádu vzrostl počet článků pouze o 44%, počet retrakcí článků se zvýšil desetinásobně! Pouze 0.02% článků je staženo z tisku! Van Noorden, R. (2011) Science publishing: The trouble with retractions. Nature. 2011 Oct 5;478(7367):26-8. Důvody stažení publikací Analýza 2,047 stažených biomedicínských a přírodovědných vědeckých článků Nejčastější důvod: podvod (nebo podezření z podvodu): 43.4% 21.3% článků bylo staženo kvůli čestné chybě (honest error) Až 31.8% článků, které byly staženy zůstali neoznačeny Většina autorů své stažené články stále cituje... Adapted Figure 1 from Fang et al. (2012) Misconduct accounts for the majority of retracted scientific publications. PNAS 2012 Oct 16; 109(42):17028-17033 Bylo analyzováno 180 primárních a 851 odvozených klinických studií, které byly provedeny na základě výzkumu ze stažených publikací. U 180 primárních studií bylo léčeno 9189 pacientů (z více než 28 tisíc) U 851 odvozených studií bylo léčeno 70 501 pacientů (z více než 400 tisíc) Studie, které byly staženy pro podvod, léčily statisticky významně více pacientů, než studie, které byly staženy pro chybu. Biomarkery z omicsových dat Co dál? •V průběhu semestru si ukážeme hlavní principy hledání jednotlivých biomarkerů a na nich založených modelů (testů), s důrazem na reproducibilitu, robustnost a validaci •Vše budeme ilustrovat na konkrétních příkladech z praxe •Budete mít možnost konzultovat vlastní experimenty