Detekce biomarkerů z omics experimentů •Mgr. Eva Budinská, PhD •RECETOX •budinska@recetox.muni.cz •Experimentální onkologie, podzim 2019 Analýza genových sad •(pathway analýza) Motivace •Geny, proteiny a další molekuly jsou navzájem propojené ve velké spleti různých signálních, metabolických a různych jiných drah •Jak odhalit tyto závislosti? •Geny, které najdeme odlišně exprimované mezi skupinami (porovnání skupin) můžeme ad-hoc vložit do databáze a podívat se kam patří (KEGG, MsigDB....) •nevýhoda – nemáme statistickou významnost, která z drah je zastoupená nejvíce •Můžeme přímo porovnávat všechny geny se skupinami genů v jednotlivých dráhách •Předpoklad těchto analýz: operují s již definovanými skupinami genů Genová sada vs dráha Cíl •Cíl je přiřadit každé genové sadě, případně dráze jedno číslo - skóre, a nebo p-hodnotu, abychom mohli odpovědět na otázku: Kolik genů je v sadě(pathway) odlišně exprimovaných a je to dostatečně statisticky významné, abychom mohli říct, že je tato dráha specifická jen pro naše porovnávané skupiny? Databáze genových sad (pathways) • Gene Ontology (GO) databáze •http://www.geneontology.org/ •Hierarchická databáze •Rodičovské uzly: obecnější termíny •Potomci uzlů: víc specifické •Na konci hierarchie jsou molekuly (geny/proteiny) •Na vrcholu jsou 3 rodičovské uzly: •Biologické procesy •Molekulární funkce •Buněčné složky GO databáze KEGG pathway databáze •KEGG = Kyoto Encyclopedia of Genes and Genomes •http://www.genome.jp/kegg/pathway.html •Více informací než GO, máme tu již vztahy mezi geny a genovými produkty •Detailní informáce jen pro některé organizmy a procesy •Využívá hlavně ověřené poznatky, nemůže ji kdokoliv změnit •Proto se tu nenachází všechny geny (obvykle tak třetina až polovina z hledaných) •Aktualizovaná databáze není volně přístupná • KEGG KEGG KEGG pathway databáze Metody analýzy genových sad • Rozdělení metod Dělení metod dle skupiny molekul které analyzují • Uzavřené vs. kompetitivní I. Příklad Příklad, uzavřená metoda dělící hranice 1.Náhodně očekáváme 96 x 5% = 4.8 významných genů 2. 2.Pomocí binomického testu vypočteme pravděpodobnost pozorování 8 a více významných genů: p = 0.1079, teda není významné 3. 3.binom.test(x=8,n=96,p=0.05, alternative="greater") > Příklad, kompetitivní metoda dělící hranice •1272 z 12639 genů je odlišně exprimovaných v tomto datovém souboru (to je zhruba 10%) •V množině náhodně vybraných 96 genů očekáváme tedy 96 x 10% = 9.6 významných genů •p-hodnotu vypočítáme z kontingenční tabulky pomocí Fisherova nebo Chi-kvadrát testu p = 0.73 (Fisherův test – jednostranný) V GS Není v GS Význ 8 1264 Nevýzn 88 11279 Dělení metod podle toho s jakou informací pracují • Metody dělící hranice vs. metody celého seznamu •Dvě předchozí metody byly závislé na dělících hranicích – cut-offs a tedy závislé na N • •V případě, že řekneme, že gen je pro nás významný již na 10% FDR, výsledek se změní! • •Dále ztrácíme informaci tím, že redukujeme p-hodnotu na binární proměnné (významné/nevýznamné) • •Je rozdíl vědět jestli statisticky nevýznamné geny v naší množině jsou významné na hranici významnosti a nebo vůbec ne > Metoda celého seznamu genů: uzavřená • Můžeme studovat rozložení p-hodnot v genové sadě • V případě, že žádné geny nejsou odlišně exprimované, mělo by se jednat o uniformní rozložení • Pík vlevo indikuje významnost některých genů • Aplikujeme Kolmogorův-Smirnovův test pro porovnání rozložení • p = 8.2%, není velmi významné • Je to uzavřená metoda, protože používáme jen geny z genové sady > Metoda celého seznamu genů: kompetitivní • Alternativně se můžeme dívat na rozložení pořadí p-hodnot • Toto by byla kompetitivní metoda, protože porovnáváme naši genovou sadu s ostatními geny v experimentu • Opět můžeme aplikovat KS test • p=85.1%, velmi nevýznamné Uzavřené vs. kompetitivní II. •Výsledky kompetitivních testů závisí na počtu testovaných genů (např. genů na microarray sklíčku a předcházejícím filtrování) •Na malém mikročipovém sklíčku, kde jsou změněné všechny geny, kompetitivní metoda nenajde žádné odlišně exprimované množiny genů. •Kompetitivní metody dávají méně významných výsledků než metody uzavřené Smíšené metody •Najznámější je GSEA – gene set enrichment analysis (analýza obohacení genové sady) •Počítá se na seřazených p-hodnotách a sleduje se, zda jsou geny z genové sady náhodně rozložené v tomto seřazeném listě, a nebo se vyskytují v horních, významných pozicích •Postup: 1. Výpočet skóre obohacení (ES) • 2. Odhad významnosti ES (p-hodnota) na základě permutačního testu • 3. Upravení p-hodnot na problém mnohonásobného porovnávání Další aspekty > > Bez topologie S topologií A G F D B H E C A G F D B H E C Topologie Topologie využívaná různě •Cíl: •změna průměrné exprese, korelace, topologie •Jednotka zájmu: •dráha, modul, cesta, geny •Topologie známá dopředu a nebo odhadovaná z dat •Celková síť a nebo individuální dráhy > Skupina A Skupina B Vzorky > Skupina A Skupina B Vzorky > Skupina A Skupina B Vzorky > Mnohorozměrné modely: Gaussian Graphical Models Multivariate Normal Distribution > Změna exprese t-statistika p-hodnota > Skupina A Skupina B Vzorky > t-test > > > > TopologyGSA, Clipper DEGraph SPIA, PRS PWEA TAPPA Topologie dráhy Příklad – uzavřená metoda dělící hranice Příklad – uzavřená metoda dělící hranice §Z 8 odlišně exprimovaných genů: •2 interagují s 10 geny v dráze •3 interagují s 5 geny v dráze •3 interagují s jedním genem v dráze • §s = 2*10 + 3*5 + 3*1 = 38 § §Opakovaně v dráze náhodně vybíráme 8 genů a získáme rozdělení statistik, které porovnáme s první statistikou. §Z 8 odlišně exprimovaných genů: •2 interagují s 10 geny v dráze •3 interagují s 5 geny v dráze •3 interagují s jedním genem v dráze • §s = 2*10 + 3*5 + 3*1 = 38 § §Opakovaně v dráze náhodně vybíráme 8 genů a získáme rozdělení statistik, které porovnáme s první statistikou. A screenshot of a cell phone Description automatically generated https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0191154 Pozor na korelace mezi geny! •Všechny testy, které jsme probírali předpokládají, že geny uvnitř skupin jsou nezávislé •To je ale velmi nepravděpodobné! •Pokud jsou geny korelované, tak p-hodnoty jednotlivých testů (např. Fisherův test) budou nesprávné •Vyřešíme permutačními metodami •Popřehazujeme skupiny vzorků •Zopakujeme analýzu •Porovnáme hodnoty s pozorovanými daty Pozor na průniky mezi dráhami •250 KEGG drah pro H. Sapiens •najčastěji zastoupené geny PIK3CD PIK3CG PIK3R2 PIK3CA MAPK3 MAPK1 70 70 70 71 78 79 Další studijní materiály a SW •Hana Imrichová: Možnosti propojení výsledku genomických experimentů s gene ontology online databázemi pro tvorbu metabolických sítí, Masarykova Univerzita,2010,Bakalárska práca •Ihnatova et al. A critical comparison of topology-based pathway analysis methods, PLoS One, 2018 • •R balíky: PGSEA, GSA,ToPASeq, gage, DOSE, phenoTest, limma, GOstats •MSigDB – web http://www.broadinstitute.org/gsea/msigdb/index.jsp •Gorilla: http://cbl-gorilla.cs.technion.ac.il/ • •DAVID: https://david.ncifcrf.gov/