Specializace Biomedicínská bioinformatika přednáška 28.11.2022 Eva Budinská (budinska@recetox.muni.cz) Biomedicína •… odvětví lékařské vědy využívající přírodovědecké principy především fyziologie a biologie v klinické praxi. •Jedná se o interdisciplinární obor, který kombinuje obsah a problémy experimentální medicíny s metodami molekulární biologie a buněčné biologie. •Zaměřuje se na molekulární a buněčné základy života a patologické změny, dále zkoumá příčiny nemocí, prevenci a kauzální léčbu. > Moderní biomedicína a molekulární data Omicsové experimenty … The Human Cancer Genome Atlas (TCGA) projekt Data z omicsových experimentů §Moderní vysocepokryvné molekulární technologie produkují obrovské tabulky komplexních dat Mikročipy þ Desítky až tisíce genů nebo transkriptů na vzorek Hmotnostní spektrometrie þ Tisíce spekter proteinů, metabolitů nebo malých molekul na vzorek Sekvenace DNA þGenom s biliony nukleotidů na vzorek Sekvenace nové generace þ Miliony krátkých čtení DNA na vzorek • http://melgen.org/multi-omics-approach/ Co je to biomarker? •Biologický marker (biomarker): •Charakteristika, která je objektivně měřena a hodnocena jako indikátor normálních biologických procesů, patogenních procesů nebo farmakologických odpovědí na terapeutický zásah. • Biomarkers Definitions Working Group (March 2001). "Biomarkers and surrogate endpoints: preferred definitions and conceptual framework". Clin. Pharmacol. Ther. (Review). 69 (3): 89–95. Biomarkerem může být Jaká je to nemoc? Jaké je riziko onemocnění u zdravého jedince? Jak bude nemoc probíhat? Zhoršuje se nemoc? Jaká je šance, že se nemoc vrátí? Bude terapie úspěšná? Biomarkery a modely •Biomarker může být založen na jediném analytu, nebo na jejich kombinaci v modelu (klasifikátoru) • •Je to právě kombinace více analytů (genů, proteinů, metabolitů…), která je typická pro biomarkery z omicsových dat Co musí biomarker (nebo model) splňovat Checkmark •Musí být použitelný rutinně v praxi: • •přesný (dostatečně citlivý a dostatečně specifický) •robustní (co nejméně omezen technologií měření) •reproducibilní (obecně platný) • Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza … zejména předzpracování těchto dat a vytváření omics biomarkerových modelů má svá specifika a pravidla! Fingerprint Postup bioinformatického zpracování RNAseq Proč jsou omicsová data problematická? Questions Specifika dat z omics experimentů … analýza těchto dat a vytváření omics biomarkerových modelů má svá specifika! Fingerprint Error Skandál na Duke university Severní Karolína, USA Mezitím vycházejí další články: Co bylo dál? IOM (Institute of Medicine). 2012. Evolution of Translational Omics: Lessons Learned and the Path Forward. Washington, DC: The National Academies Press. IOM komise: Specifika testů založených na omics Absence jasného biologického odůvodnění testů omics biomarkerů Biologické zdůvodnění testu s jedním analytem je často zcela zřejmé: Test je užitečný, protože gen, RNA, protein nebo metabolit hraje pochopitelnou roli v patologii onemocnění nebo jiném vyšetřovaném biologickém procesu. Příklady testů s jedním analytem zahrnují testování karcinomu prsu lidským epidermálním růstovým faktorem 2 (HER2) nebo měření hladiny cholesterolu lipoproteinů s nízkou hustotou (LDL) pro hodnocení srdečního rizika. Naproti tomu biologické zdůvodnění souboru biomarkerů v testu založeném na omics není často vědecky definováno. Tento rozdíl představuje další zatížení statistiků a bioinformatických odborníků zapojených do validace testů, aby bylo zajištěno, že biologická data a výpočetní model jsou vědecky spolehlivé. Vzhledem ke zvýšenému riziku překročení velkých souborů dat ve vývoji výpočetního modelu je potřeba přísnosti, validace a odpovědnosti ještě vyšší než u jiných samostatných testů založených na biomarkerech. Absence jasného biologického odůvodnění testů omics biomarkerů – proč je to problém Problém (ne) sdílení komplexních datových souborů a výpočetních modelů Doporučení IOM komise pro vývoj testů založených na omicsových datech page19image1832064 •Anil Potti - Více info: https://ori.hhs.gov/content/case-summary-potti-anil •Anil Potti - Více info: https://ori.hhs.gov/content/case-summary-potti-anil Text, application Description automatically generated •Anil Potti - Více info: https://ori.hhs.gov/content/case-summary-potti-anil Text, application Description automatically generated 11 Sept 2015 – Potti uznán vinným z podvádění ve výzkumu Zatím 14 čánků ztaženo Více info o kauze •Retraction Watch Database (retractiondatabase.org) 41-01 Duke Officials Silenced Med Student Who Reported Trouble in Anil Potti's Lab - The Cancer Letter Anil Potti - Wikipedia Které články A. Potti byly ztaženy z tisku? Detailed Case Histories - Fostering Integrity in Research - NCBI Bookshelf (nih.gov) Federal Register :: Findings of Research Misconduct Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza Úprava omicsových dat do podoby, kdy je možná derivace biomarkerů trvá podstatně déle než u jiných dat Vědecké časopisy jsou (přesto) plné odpadu Podíl článků stažených z tisku se zvyšuje Za analyzovanou dekádu vzrostl počet článků pouze o 44%, počet retrakcí článků se zvýšil desetinásobně! Pouze 0.02% článků je staženo z tisku! Van Noorden, R. (2011) Science publishing: The trouble with retractions. Nature. 2011 Oct 5;478(7367):26-8. Důvody stažení publikací Analýza 2,047 stažených biomedicínských a přírodovědných vědeckých článků Nejčastější důvod: podvod (nebo podezření z podvodu): 43.4% 21.3% článků bylo staženo kvůli čestné chybě (honest error) Až 31.8% článků, které byly staženy zůstali neoznačeny Většina autorů své stažené články stále cituje... Adapted Figure 1 from Fang et al. (2012) Misconduct accounts for the majority of retracted scientific publications. PNAS 2012 Oct 16; 109(42):17028-17033 Bylo analyzováno 180 primárních a 851 odvozených klinických studií, které byly provedeny na základě výzkumu ze stažených publikací. U 180 primárních studií bylo léčeno 9189 pacientů (z více než 28 tisíc) U 851 odvozených studií bylo léčeno 70 501 pacientů (z více než 400 tisíc) Studie, které byly staženy pro podvod, léčily statisticky významně více pacientů, než studie, které byly staženy pro chybu. Biomarkery z omicsových dat Bez bioinformatika není biomarker! •Svět biomedicínského výzkumu se podstatně změnil •Hledání molekulárních biomarkerů se provádí ve vysoce specializovaných experimentech které produkují velká data •…. nikdo se neobejde bez bioinformatika!