Detekce biomarkerů z omics experimentů •Mgr. Eva Budinská, PhD •RECETOX •eva.budinska@recetox.muni.cz •podzim 2023 Analýza genových sad •(pathway analýza) Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza Motivace •Geny, proteiny a další molekuly jsou navzájem propojené ve velké spleti různých signálních, metabolických a různych jiných drah •Potřebujeme zjistit, jaké dráhy jsou zasažené naším experimentálním protokolem (liší se v mezi skupinami) Jak na to? •Seznam molekul můžeme ad-hoc vložit do existující databáze drah a podívat se kam patří (KEGG, MsigDB....) •nevýhoda – nemáme statistickou významnost •Provedeme analýzu genových sad (pathway analýzu) •Předpoklad všech těchto analýz: operují s již definovanými skupinami genů Genová sada vs dráha Cíl analýzy genových sad •Cíl je přiřadit každé genové sadě, případně dráze jedno číslo - skóre, a nebo p-hodnotu, abychom mohli odpovědět na otázku: Kolik genů je v sadě(pathway) odlišně exprimovaných a je to dostatečně statisticky významné, abychom mohli říct, že je tato dráha specifická jen pro naše porovnávané skupiny? Databáze genových sad (pathways) • Gene Ontology (GO) databáze •http://www.geneontology.org/ •Hierarchická databáze •Rodičovské uzly: obecnější termíny •Potomci uzlů: víc specifické •Na konci hierarchie jsou molekuly (geny/proteiny) •Na vrcholu jsou 3 rodičovské uzly: •Biologické procesy •Molekulární funkce •Buněčné složky GO databáze KEGG pathway databáze •KEGG = Kyoto Encyclopedia of Genes and Genomes •http://www.genome.jp/kegg/pathway.html •Více informací než GO, máme tu již vztahy mezi geny a genovými produkty •Detailní informáce jen pro některé organizmy a procesy •Využívá hlavně ověřené poznatky, nemůže ji kdokoliv změnit •Proto se tu nenachází všechny geny (obvykle tak třetina až polovina z hledaných) •Aktualizovaná databáze není volně přístupná KEGG KEGG KEGG pathway databáze MsigDB databáze •https://www.gsea-msigdb.org/gsea/msigdb Graphical user interface, application, website Description automatically generated Metody analýzy genových sad • Rozdělení metod Dělení metod dle skupiny molekul které analyzují • Uzavřené vs. kompetitivní I. Příklad Příklad, uzavřená metoda dělící hranice 1.Náhodně očekáváme 96 x 5% = 4.8 významných genů 1.Pomocí binomického testu vypočteme pravděpodobnost pozorování 8 a více významných genů: p = 0.1079, teda není významné 1.binom.test(x=8,n=96,p=0.05, alternative="greater") > Příklad, kompetitivní metoda dělící hranice •1272 z 12639 genů je odlišně exprimovaných v tomto datovém souboru (to je zhruba 10%) •V množině náhodně vybraných 96 genů očekáváme tedy 96 x 10% = 9.6 významných genů •p-hodnotu vypočítáme z kontingenční tabulky pomocí Fisherova nebo Chi-kvadrát testu p = 0.73 (Fisherův test – jednostranný) V GS Není v GS Význ 8 1264 Nevýzn 88 11279 Dělení metod podle toho s jakou informací pracují • Metody dělící hranice vs. metody celého seznamu •Dvě předchozí metody byly závislé na dělících hranicích – cut-offs a tedy závislé na N •V případě, že řekneme, že gen je pro nás významný již na 10% FDR, výsledek se změní! •Dále ztrácíme informaci tím, že redukujeme p-hodnotu na binární proměnné (významné/nevýznamné) •Je rozdíl vědět jestli statisticky nevýznamné geny v naší množině jsou významné na hranici významnosti a nebo vůbec ne > Metoda celého seznamu genů: uzavřená • Můžeme studovat rozložení p-hodnot v genové sadě • V případě, že žádné geny nejsou odlišně exprimované, mělo by se jednat o uniformní rozložení • Pík vlevo indikuje významnost některých genů • Aplikujeme Kolmogorův-Smirnovův test pro porovnání rozložení • p = 8.2%, není velmi významné • Je to uzavřená metoda, protože používáme jen geny z genové sady > Metoda celého seznamu genů: kompetitivní • Alternativně se můžeme dívat na rozložení pořadí p-hodnot • Toto by byla kompetitivní metoda, protože porovnáváme naši genovou sadu s ostatními geny v experimentu • Opět můžeme aplikovat KS test • p=85.1%, velmi nevýznamné Metoda celého seznamu genů: kompetitivní Metoda celého seznamu genů: uzavřená rozložení p-hodnot v genové sadě p-hodnota pořadí GSEA •Najznámější je GSEA – gene set enrichment analysis (analýza obohacení genové sady) •Počítá se na seřazených p-hodnotách a sleduje se, zda jsou geny z genové sady náhodně rozložené v tomto seřazeném listě, a nebo se vyskytují v horních, významných pozicích •Postup: 1. Výpočet skóre obohacení (ES) • 2. Odhad významnosti ES (p-hodnota) na základě permutačního testu • 3. Upravení p-hodnot na problém mnohonásobného porovnávání GSEA navržena Subramanian et al. [2005] se stala v posledních letech velmi populárním nástrojem. Vyvinul ji Broad Institute spolu s MSig databází. Je dostupná jako samostatný analytický program, ale také může být zpřístupněna jinými způsoby (např. z prostředí R). Jádro původního GSEA algoritmu je nepatrně pozměněnou verzí kompetitivního Kolmogorova-Smirnovova testu. Odpovídající testová statistika se v GSEA terminologii nazývá „skóre obohacení“. GSEA není založena jen na p-hodnotách, ale také umožňuje k seřazení genů použít jiné hodnoty sumarizující data (t-statistiku, hodnoty fold change, SNR). K výpočtu p-hodnoty nabízí jak převzorkování čipů, tak genů. Uzavřené vs. kompetitivní II. •Výsledky kompetitivních testů závisí na počtu testovaných genů (např. genů na microarray sklíčku a předcházejícím filtrování) •Na malém mikročipovém sklíčku, kde jsou změněné všechny geny, kompetitivní metoda nenajde žádné odlišně exprimované množiny genů. •Kompetitivní metody dávají méně významných výsledků než metody uzavřené Další aspekty > > Bez topologie S topologií A G F D B H E C A G F D B H E C Topologie Topologie využívaná různě •Cíl: •změna průměrné exprese, korelace, topologie •Jednotka zájmu: •dráha, modul, cesta, geny •Topologie známá dopředu a nebo odhadovaná z dat •Celková síť a nebo individuální dráhy > Skupina A Skupina B Vzorky > Skupina A Skupina B Vzorky > Skupina A Skupina B Vzorky > Mnohorozměrné modely: Gaussian Graphical Models Multivariate Normal Distribution > Změna exprese t-statistika p-hodnota > Skupina A Skupina B Vzorky > t-test > > > > TopologyGSA, Clipper DEGraph SPIA, PRS PWEA TAPPA Topologie dráhy Příklad – topologie uzavřená metoda dělící hranice Příklad – topologie uzavřená metoda dělící hranice §Z 8 odlišně exprimovaných genů: •2 interagují s 10 geny v dráze •3 interagují s 5 geny v dráze •3 interagují s jedním genem v dráze §s = 2*10 + 3*5 + 3*1 = 38 §Opakovaně v dráze náhodně vybíráme 8 genů a získáme rozdělení statistik, které porovnáme s první statistikou. §Z 8 odlišně exprimovaných genů: •2 interagují s 10 geny v dráze •3 interagují s 5 geny v dráze •3 interagují s jedním genem v dráze §s = 2*10 + 3*5 + 3*1 = 38 §Opakovaně v dráze náhodně vybíráme 8 genů a získáme rozdělení statistik, které porovnáme s první statistikou. A screenshot of a cell phone Description automatically generated https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0191154 Pozor na korelace mezi geny! •Všechny testy, které jsme probírali předpokládají, že geny uvnitř skupin jsou nezávislé •To je ale velmi nepravděpodobné! •Pokud jsou geny korelované, tak p-hodnoty jednotlivých testů (např. Fisherův test) budou nesprávné •Vyřešíme permutačními metodami •Popřehazujeme skupiny vzorků •Zopakujeme analýzu •Porovnáme hodnoty s pozorovanými daty Pozor na průniky mezi dráhami •250 KEGG drah pro H. Sapiens •najčastěji zastoupené geny PIK3CD PIK3CG PIK3R2 PIK3CA MAPK3 MAPK1 70 70 70 71 78 79 Další studijní materiály a SW •Hana Imrichová: Možnosti propojení výsledku genomických experimentů s gene ontology online databázemi pro tvorbu metabolických sítí, Masarykova Univerzita,2010,Bakalárska práca •Ihnatova et al. A critical comparison of topology-based pathway analysis methods, PLoS One, 2018 •R balíky: PGSEA, GSA,ToPASeq, gage, DOSE, phenoTest, limma, GOstats •MSigDB – web http://www.broadinstitute.org/gsea/msigdb/index.jsp •Gorilla: http://cbl-gorilla.cs.technion.ac.il/ •DAVID: https://david.ncifcrf.gov/