Analýza genomických a proteomických dat • Mgr. Eva Budinská, PhD • RECETOX • budinska@recetox.muni.cz • Jaro 2022 Společné schéma analýzy dat Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Kontrola kvality Normalizace Sumarizace Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin Seznam genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků Seznamgenů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Analýza genových sad / genových sítí Analýza genových sad (pathway analýza) Motivace • Geny, proteiny a další molekuly jsou navzájem propojené ve velké spleti různých signálních, metabolických a různych jiných drah • Jak odhalit tyto závislosti? • Geny, které najdeme odlišně exprimované mezi skupinami (porovnání skupin) můžeme ad-hoc vložit do databáze a podívat se kam patří (KEGG, MsigDB....) • nevýhoda – nemáme statistickou významnost, která z drah je zastoupená nejvíce • Můžeme přímo porovnávat všechny geny se skupinami genů v jednotlivých dráhách • Předpoklad těchto analýz: operují s již definovanými skupinami genů Genová sada vs dráha Sada genů nemusí být dráha – je to všeobecnější a méně specifický pojem Génová sada je jakákoliv množina genů, například všechny geny patřící do jedné dráhy všechny geny které mají podobnou funkci ... Cíl • Cíl je přiřadit každé genové sadě, případně dráze jedno číslo - skóre, a nebo p-hodnotu, abychom mohli odpovědět na otázku: Kolik genů je v sadě(pathway)odlišně exprimovaných a je to dostatečně statistickyvýznamné, abychommohli říct, že je tato dráha specifická jen pro naše porovnávané skupiny? Databáze genových sad (pathways) Gene Ontology (GO) databáze • http://www.geneontology.org/ • Hierarchická databáze • Rodičovské uzly: obecnějšítermíny • Potomciuzlů: víc specifické • Na konci hierarchie jsou molekuly (geny/proteiny) • Na vrcholu jsou 3 rodičovské uzly: • Biologické procesy • Molekulární funkce • Buněčné složky KEGG pathway databáze • KEGG = Kyoto Encyclopedia of Genes and Genomes • http://www.genome.jp/kegg/pathway.html • Více informací než GO, máme tu již vztahy mezi geny a genovými produkty • Detailní informáce jen pro některé organizmy a procesy • Využívá hlavně ověřené poznatky, nemůže ji kdokoliv změnit • Proto se tu nenachází všechny geny (obvykle tak třetina až polovina z hledaných) • Aktualizovaná databáze není volně přístupná MsigDB databáze • https://www.gsea- msigdb.org/gsea/msigdb Metody analýzy genových sad Rozdělení metod Podle toho s jakou informací pracují na • metody dělící hranice – berou v potaz jen informaci "významný" vs. "nevýznamný" gen • metody celého seznamu genů – pracují přímo phodnotami (i nevýznamnými!) a tedy s pořadím Podle skupiny molekul které analyzují na: • uzavřené – analýza jen v rámci genů v sadě • kompetitivní – porovnání se všemi geny experimentu Nové metody pracují i s topologií dráhy Dělení metod dle skupiny molekul které analyzují Uzavřené vs. kompetitivní • H0 : “Žádné geny z genové sady nejsou odlišně exprimované” Uzavřená metoda používá jen hodnoty genů z dané sady: • H0 : “Podíl odlišně exprimovaných genů v genovésadě není odlišný od podílu odlišně exprimovaných genů mezi ostatními geny v experimentu” Kompetitivní test porovnává geny v genové sadě s ostatními geny v experimentu Příklad Datový soubor 12 639 genů. Z nich FDR< 5% má 1272 genů 96 genů v genové sadě, z toho 8 má FDR < 5% Kolik odlišně exprimovaných genů v sadě očekáváme náhodně? Příklad, uzavřená metoda dělící hranice 1. Dělící hranice byla 5% FDR 2. V případě, že platí nulová hypotéza, náhodně očekáváme 96 x 5% = 4.8 významných genů (falešná pozitivita) 3. Pomocí binomického testu vypočteme pravděpodobnost pozorování 8 a více významných genů: p = 0.1079, teda není významné binom.test(x=8,n=96,p=0.05, alternative="greater") Příklad, kompetitivní metoda dělící hranice • 1272 z 12639 genů je odlišně exprimovanýchv tomtodatovém souboru (to je zhruba 10%) • V množině náhodně vybraných 96 genů očekávámetedy 96 x 10% = 9.6 významnýchgenů • p-hodnotu vypočítáme z kontingenční tabulky pomocí Fisherova nebo Chikvadrát testu p = 0.73 (Fisherův test – jednostranný) V GS Není v GS Význ 8 1264 Nevýzn 88 11279 Dělení metod podle toho s jakou informací pracují Metody dělící hranicevs. metody celého seznamu • Dvě předchozí metody byly závislé na dělících hranicích – cut-offs a tedy závislé na N (p hodnota se mění v závislostiod zvyšujícího se N) • V případě, že řekneme, že gen je pro nás významnýjiž na 10% FDR, výsledek se změní! • Dále ztrácíme informaci tím, že redukujeme p-hodnotu na binární proměnné (významné/nevýznamné) • Je rozdíl jestli statistickynevýznamné geny v naší množině jsou významné na hranici významnostia nebo vůbec ne Metoda celého seznamu genů: uzavřená • Můžeme studovatrozloženíp-hodnot v genové sadě • V případě, že žádné geny nejsou odlišně exprimované (platí nulová hypotéza),měli by mít phodnoty rovnoměrné rozdělení • Pík vlevo indikuje významnost některých genů • Aplikujeme Kolmogorův-Smirnovůvtest pro porovnání rozložení • p = 0.082, není velmi významné • Je to uzavřená metoda, protože používáme jen geny z genové sady P-value histogram for inflammation genes pvalue[incl] Frequency 0.0 0.2 0.4 0.6 0.8 1.0 051015 Metoda celého seznamu genů: kompetitivní • Alternativně se můžeme dívat na rozložení pořadí p-hodnot • Toto by byla kompetitivní metoda, protože porovnáváme naši genovou sadu s ostatnímigeny v experimentu • Opět můžeme aplikovat KS test • p=85.1%, velmi nevýznamné Histogram of the ranks of p-values for inflammation genes p.rank[incl] Frequency 0 2000 4000 6000 8000 10000 12000 14000 051015 Metoda celého seznamu genů: kompetitivní Metoda celého seznamu genů: uzavřená P-value histogram for inflammation genes pvalue[incl] Frequency 0.0 0.2 0.4 0.6 0.8 1.0 051015 Histogram of the ranks of p-values for inflammation genes p.rank[incl] Frequency 0 2000 4000 6000 8000 10000 12000 14000 051015 Gen A 0.001 1 Gen H 0.001 2 Gen Z 0.031 3 Gen G 0.024 4 . . . Gen M 0.024 62 . . . Gen O 0.049 1272 Gen J 0.351 5843 . Gen L 0.454 7390 . Gen B 0.752 10287 . . Gen C 0.989 12639 rozloženíp-hodnot v genové sadě 1272 z 12639 genů je odlišně exprimovaných z toho 8 v genové sadě o 96 genech p-hodnota pořadí GSEA • Najznámější je GSEA– gene set enrichment analysis (analýza obohacení genové sady) • Jádrem je v podstatěpozměnený KS test • Počításe na seřazených p-hodnotácha sleduje se, zda jsou geny z genové sady náhodně rozložené v tomto seřazeném listě, a nebo se vyskytují v horních,významných pozicích • Postup:1. Výpočet skóre obohacení (ES) • 2. Odhad významnostiES (phodnota) na základě permutačního testu • 3. Upravení p-hodnot na problém mnohonásobného porovnávání Uzavřené vs. kompetitivní II. • Výsledky kompetitivních testů závisí na počtu testovaných genů (např. genů na mikročipu a předchozím filtrování) • Na malém mikročipovém sklíčku, kde jsou změněné všechny geny, kompetitivní metoda nenajde žádné odlišně exprimované množiny genů. • Kompetitivní metody dávají méně významných výsledků než metody uzavřené Další aspekty Směr změny • Pokud chceme zjistit směr změny, musíme zopakovat analýzu pro jednostranný test • jen up-regulované • jen down-regulované Mnohonásobné testování • Stejně jako u testováníhypotéz na genech mezi skupinami, i pokud máme velký počet genových sad! • FDR je trochu komplikované, protože genové množiny se překrývají • Bonferroniho korekce vždy funguje Bez topologie S topologií A G F D B H E C A G F D B H E C Topologie Topologie využívaná různě • Cíl: • změna průměrné exprese, korelace, topologie • Jednotka zájmu: • dráha, modul, cesta, geny • Topologie známá dopředu a nebo odhadovaná z dat • Celková síť a nebo individuální dráhy Skupina A Skupina B Vzorky gény Skupina A Skupina B Vzorky gény Skupina A Skupina B Vzorky gény Mnohorozměrné modely: Gaussian Graphical Models Multivariate Normal Distribution Změna exprese t-statistika p-hodnota Skupina A Skupina B Vzorky dráhy t-test gény TopologyGSA, Clipper DEGraph SPIA, PRS PWEA TAPPA Příklad – uzavřená metoda dělící hranice Příklad – uzavřená metoda dělící hranice ▪ Z 8 odlišně exprimovaných genů: • 2 interagují s 10 geny v dráze • 3 interagují s 5 geny v dráze • 3 interagují s jedním genem v dráze ▪ s = 2*10 + 3*5 + 3*1 = 38 ▪ Opakovaně v dráze náhodně vybíráme 8 genů a získáme rozdělení statistik, které porovnáme s první statistikou. ▪ Z 8 odlišně exprimovaných genů: • 2 interagují s 10 geny v dráze • 3 interagují s 5 geny v dráze • 3 interagují s jedním genem v dráze ▪ s = 2*10 + 3*5 + 3*1 = 38 ▪ Opakovaně v dráze náhodně vybíráme 8 genů a získáme rozdělení statistik, které porovnáme s první statistikou. https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0191154 Pozor na korelacemezi geny! • Všechny testy, které jsme probírali předpokládají, že geny uvnitř skupin jsou nezávislé • To je ale velmi nepravděpodobné! • Pokud jsou geny korelované, tak p-hodnoty jednotlivých testů (např. Fisherův test) budou nesprávné • Vyřešíme permutačními metodami • Popřehazujeme skupiny vzorků • Zopakujeme analýzu • Porovnáme hodnoty s pozorovanýmidaty Pozor na průniky mezi dráhami • 250 KEGG drah pro H. Sapiens • najčastěji zastoupenégeny PIK3CD PIK3CG PIK3R2 PIK3CA MAPK3 MAPK1 70 70 70 71 78 79 Další studijní materiály a SW • Hana Imrichová:Možnosti propojení výsledku genomických experimentů s gene ontology online databázemi pro tvorbu metabolických sítí, Masarykova Univerzita,2010,Bakalárska práca • Ihnatovaet al. A critical comparison of topology-based pathwayanalysismethods, PLoS One, 2018 • https://biodatamining.biomedcentral.com/articles/10.1186/s 13040-018-0166-8 (kritické review klasických GS metod) • R balíky:PGSEA, GSA,ToPASeq, gage, DOSE, phenoTest, limma, GOstats • MSigDB – web http://www.broadinstitute.org/gsea/msigdb/index.jsp • Gorilla: http://cbl-gorilla.cs.technion.ac.il/ • DAVID: https://david.ncifcrf.gov/