Integrativní bioinformatika a biostatistika Eva Budinská budinska@recetox.muni.cz Úvod do matematické biologie a biomedicíny II Jaro 2022 Co děláme • Vývoj metod a aplikovaný výzkum: • v metagenomice • v multiomice • v obrazové analýze histopatologických preparátů • Objevování multimodálních biomarkerů s aplikacemi v translačním výzkumu rakoviny Popovici et al. BMC Bioinformatics (2016) 17:209 Page 4 of 9 A B Fig. 1 Codeblocks and codebook. a An example of four different hypothetical distributions of the codeblocks leading to identical frequencies. To cope with such situations, the distribution of codeblocks is also taken into account through extended image features. b A visual representation of the obtained codebook. The 70 image patches are the closest to the codeblocks obtained after k-means clustering. The three groups of codeblocks (with 29, 20 and 21 elements, respectively) correspond to the major clusters in Fig. 2 and the ordering of the image patches is the same as in the clustering image has a length of 6K: K values for the codeblock histogram (the standard representation) and 5K values of the extended representation. Joint data mining The new representation of the images allows for direct application of standard data mining techniques. In the case of multi-modality data mining, the choice of a proper similarity metric/measure is of crucial importance. Two main strategies may be attempted for defining a proper similarity: combination of single, modality-specific, metrics or building/learning a fully multi-modality metric. The first approach has the advantage of using established metrics usually resulting in easily interpretable models and facilitating the comparison with known results. The second approach promises to build a similarity metvs. G3, respectively) and used two-sided t-test, with 0.05 significance level. The association of image features with gene expression was assessed based on correlation test (Pearson) with significance level 0.05 and the condition that the correlation coefficient was at least 0.5 (in absolute value). We also used canonical correlation analysis (CCA) to study the associations between image features and molecular data with significance level of 0.05 for Wilks’ test. The association between image features and survival outcome (relapse-free survival – RFS) was tested using Cox proportional hazard models (log-likelihood test), with significance level of 0.05. The hazard ratios were estimated from interquartile range-standardized variables (both image and genomic variables). To test if an image feature improves the prognostic value of the gene signature, we tested the difference between the models with Metagenomika • Studium genomu všech mikroorganizmů ve vzorku (půda, voda, kůže, stolice, ….) • Mikroorganismus – jednobuněčný organismus pozorovatelný pouze pod mikroskopem • Bakterie • Viry • Plísně • Kvasinky • Řasy a prvoci http://www.wikiskripta.eu http://aboutviruses.weebly.com Mikrobiom v nemoci i ve zdraví Jak se zkoumá metagenom? Markerová metagenomika (cílené sekvencování) Izolují, extrahují a sekvenují se amplikony odpovídající celým (nebo částem) genů tzv. fylogenetických markerů (16S rRNA, rpoB…) Markerové geny se používají jako „druhově specifické taxonomické čárové kódy“ – rychlý odhad taxonomického složení. Jak se zkoumá metagenom? Shotgun metagenomika (celogenomové sekvencování) Markerová metagenomika (cílené sekvencování) Genomické fragmenty z mikrobiomu jsou extrahovány a sekvenovány. Poskytuje pohled na taxonomické složení a funkci mikrobiomu. Izolují, extrahují a sekvenují se amplikony odpovídající celým (nebo částem) genů tzv. fylogenetických markerů (16S rRNA, rpoB…) Markerové geny se používají jako „druhově specifické taxonomické čárové kódy“ – rychlý odhad taxonomického složení. Markerová metagenomika (cílené sekvencování) Taxonomické složení PrimerScope – online nástroj pro výběr regionu cíleného sekvencování • Naše výzkumy ukazují, že v případě, že chceme zjistit taxonomické složení vzorku, celometagenomové sekvencování může být příliš drahé a někdy i nepřesné v porovnání s cíleným sekvencováním • Je ale nutné vybrat správnou oblast pro cílené sekvencování – tedy vybrat správné primery Mikro-Metabo dekonvoluce Metoda k odhadování mikrobiálního složení na základě požadovaného metabolického profilu Využití: • Najdi všechny mikrobiální kompozice schopné poskytnout stejný metabolický profil (fenotyp) • Jak cíleně upravit mikrobiální složení prostředí (např. střevního mikrobiomu) k získání požadovaného metabolického profiu? Co to dělá: Nástroj vezme (odhadovaný) metabolický profil, knihovnu mikrobiálních profilů a odhadne mikrobiální složení, které by vedlo k tomuto metabolickému profilu Multimodální bioinformatika • Výpočetní patologie: hledání znaků s klinickým a biologickým významem • Deep-learning pro analýzu obrazu v histopatologii • Výpočetní analýza imunitní odpovědi a interakce nádor-hostitel; integrace více proměnných • Nádorové mikroprostředí: *omika a zobrazování • Multimodální prognostické skóre: genová exprese a histopatologické obrázky předpovídají přežití u karcinomů prsu a tlustého střeva • Automatizované rozpoznávání molekulárních podtypů (KRK) z morfologických znaků Multiomika COLOBIOME (CZ/GACR - 2015-2019; Budinska) • ~250 pts; hospital cohort • stages I-IV • well characterized clinically • RNA-Seq bulk tumor • targeted DNA seq • MICROBIOME (16S rRNA) from 3 sampling
 sites (on-tumor, normal near tumor, stool) • histopathology and IHC • blood pre- and post-surgery ONCOBIOME (EU/HORIZON 2020 - 2019-2024; 
 Budinska) • stool METAGENOMICS • ImmunoScore • Leader of WP4: Multiomics data mining Molecular portraits of morphological
 components
 (CZ/GACR - 2019-2021; Popovici) • 100 cases from COLOBIOME • region-based transcriptomics • ~250 profiles Clinical implications of 
 intra-tumor heterogeneity (CZ/AZV - 2019-2022; Popovici) • Arm 1: 20 vs 20 pts • stage II low risk by standard factors • compare relapse within 6y vs no relapse • bulk tumor + region-based transcriptomics • histopathology + IHC • ~160 profiles • Arm 2: 20 vs 20 pts • metastatic setting; anti-EGFR 1st line trtm • compare no progression 1y vs progression • primary t.: bulk tumor + region-based targeted DNA seq • +5 liver mets • histopathology + IHC • ~160 profiles Projekty v kolorektálním karcinomu Příklady bakalářských a diplomových prací 2022 • Vliv nutrice dítěte v prvním roce života na vývoj složení střevního mikrobiomu • Dolování asociačních pravidel v nádorovém mikrobiomu • Asociace složení mikrobiomu s molekulárními procesy nádoru kolorekta • Optimization of bioinformatic pipeline for analysis of ITS regions using Illumina technique to determine composition and diversity of molds and yeasts in stool • Identifikace bakterií asociovaných s hladinou imunitních buněk z periferní krve Náš tým