Detekce biomarkerů z omics experimentů
•Mgr. Eva Budinská, PhD
•RECETOX
•budinska@recetox.muni.cz
•Experimentální onkologie, podzim 2019

Analýza genových sad
•(pathway analýza)


Motivace
•Geny, proteiny a další molekuly jsou navzájem propojené ve velké spleti různých signálních,
metabolických a různych jiných drah
•Jak odhalit tyto závislosti?
•Geny, které najdeme odlišně exprimované mezi skupinami (porovnání skupin) můžeme ad-hoc vložit do
databáze a podívat se kam patří (KEGG, MsigDB....)
•nevýhoda – nemáme statistickou významnost, která z drah je zastoupená nejvíce
•Můžeme přímo porovnávat všechny geny se skupinami  genů v jednotlivých dráhách
•Předpoklad těchto analýz: operují s již definovanými skupinami genů

Genová sada vs dráha


Cíl
•Cíl je přiřadit každé genové sadě, případně dráze jedno číslo  - skóre, a nebo p-hodnotu, abychom
mohli odpovědět na otázku:
Kolik genů je v sadě(pathway) odlišně exprimovaných a je to dostatečně statisticky významné,
abychom mohli říct, že je tato dráha specifická jen pro naše porovnávané skupiny?

Databáze genových sad (pathways)
•


Gene Ontology (GO) databáze
•http://www.geneontology.org/
•Hierarchická databáze
•Rodičovské uzly: obecnější termíny
•Potomci uzlů: víc specifické
•Na konci hierarchie jsou molekuly (geny/proteiny)
•Na vrcholu jsou 3 rodičovské uzly:
•Biologické procesy
•Molekulární funkce
•Buněčné složky

GO databáze


KEGG pathway databáze
•KEGG = Kyoto Encyclopedia of Genes and Genomes
•http://www.genome.jp/kegg/pathway.html
•Více informací než GO, máme tu již vztahy mezi geny a genovými produkty
•Detailní informáce jen pro některé organizmy a procesy
•Využívá hlavně ověřené poznatky, nemůže ji kdokoliv změnit
•Proto se tu nenachází všechny geny (obvykle tak třetina až polovina z hledaných)
•Aktualizovaná databáze není volně přístupná
•

KEGG


KEGG


KEGG pathway databáze


Metody analýzy genových sad
•


Rozdělení metod


Dělení metod dle skupiny molekul které analyzují
•


Uzavřené vs. kompetitivní I.


Příklad


Příklad, uzavřená metoda dělící hranice
1.Náhodně očekáváme 96 x 5% = 4.8 významných genů
2.
2.Pomocí binomického testu vypočteme pravděpodobnost pozorování 8 a více významných genů: p =
0.1079, teda není významné
3.
3.binom.test(x=8,n=96,p=0.05, alternative="greater")

>
Příklad, kompetitivní metoda dělící hranice
•1272 z 12639 genů je odlišně exprimovaných v tomto datovém souboru (to je zhruba 10%)
•V množině náhodně vybraných 96 genů očekáváme tedy 96 x 10% = 9.6 významných genů
•p-hodnotu vypočítáme z kontingenční tabulky pomocí Fisherova nebo Chi-kvadrát testu
p = 0.73 (Fisherův test – jednostranný)
V GS
Není v GS
Význ
8
1264
Nevýzn
88
11279

Dělení metod podle toho s jakou informací pracují
•


Metody dělící hranice vs. metody celého seznamu
•Dvě předchozí metody byly závislé na dělících hranicích – cut-offs a tedy závislé na N
•
•V případě, že řekneme, že gen je pro nás významný již na 10% FDR, výsledek se změní!
•
•Dále ztrácíme informaci tím, že redukujeme p-hodnotu na binární proměnné (významné/nevýznamné)
•
•Je rozdíl vědět jestli statisticky nevýznamné geny v naší množině jsou významné na hranici
významnosti a nebo vůbec ne

>
Metoda celého seznamu genů: uzavřená
• Můžeme studovat rozložení p-hodnot v genové sadě
• V případě, že žádné geny nejsou odlišně exprimované, mělo by se jednat o uniformní rozložení
• Pík vlevo indikuje významnost některých genů
• Aplikujeme Kolmogorův-Smirnovův test pro porovnání rozložení
• p = 8.2%, není velmi významné
• Je to uzavřená metoda, protože používáme jen geny z genové sady

>
Metoda celého seznamu genů: kompetitivní
• Alternativně se můžeme dívat na rozložení pořadí p-hodnot
• Toto by byla kompetitivní metoda, protože porovnáváme naši genovou sadu s ostatními geny v
experimentu
• Opět můžeme aplikovat KS test
• p=85.1%, velmi nevýznamné

Uzavřené vs. kompetitivní II.
•Výsledky kompetitivních testů závisí na počtu testovaných genů (např. genů na microarray sklíčku a
předcházejícím filtrování)
•Na malém mikročipovém sklíčku, kde jsou změněné všechny geny, kompetitivní metoda nenajde žádné
odlišně exprimované množiny genů.
•Kompetitivní metody dávají méně významných výsledků než metody uzavřené

Smíšené metody
•Najznámější je GSEA – gene set enrichment analysis (analýza obohacení genové sady)
•Počítá se na seřazených p-hodnotách a sleduje se, zda jsou geny z genové sady náhodně rozložené v
tomto seřazeném listě, a nebo se vyskytují v horních, významných pozicích
•Postup: 1. Výpočet skóre obohacení (ES)
•       2. Odhad významnosti ES (p-hodnota) na základě permutačního testu
•       3. Upravení p-hodnot na problém mnohonásobného porovnávání

Další aspekty


> >
Bez topologie
S topologií
A
G
F
D
B
H
E
C
A
G
F
D
B
H
E
C
Topologie

Topologie využívaná různě
•Cíl:
•změna průměrné exprese, korelace, topologie
•Jednotka zájmu:
•dráha, modul, cesta, geny
•Topologie známá dopředu a nebo odhadovaná z dat
•Celková síť a nebo individuální dráhy

>
Skupina A
Skupina B
Vzorky
>
Skupina A
Skupina B
Vzorky
>
Skupina A
Skupina B
Vzorky
>
Mnohorozměrné modely:

Gaussian Graphical Models
Multivariate Normal Distribution
>
Změna exprese
t-statistika
p-hodnota
>
Skupina A
Skupina B
Vzorky
>
t-test
> > > >
TopologyGSA, Clipper
DEGraph
SPIA, PRS
PWEA
TAPPA
Topologie dráhy

Příklad – uzavřená metoda dělící hranice


Příklad – uzavřená metoda dělící hranice
§Z 8 odlišně exprimovaných genů:
•2 interagují s 10 geny v dráze
•3 interagují s 5 geny v dráze
•3 interagují s jedním genem v dráze
•
§s = 2*10 + 3*5 + 3*1 = 38
§
§Opakovaně v dráze náhodně vybíráme 8 genů a získáme rozdělení statistik, které porovnáme s první
statistikou.

§Z 8 odlišně exprimovaných genů:
•2 interagují s 10 geny v dráze
•3 interagují s 5 geny v dráze
•3 interagují s jedním genem v dráze
•
§s = 2*10 + 3*5 + 3*1 = 38
§
§Opakovaně v dráze náhodně vybíráme 8 genů a získáme rozdělení statistik, které porovnáme s první
statistikou.

A screenshot of a cell phone Description automatically generated
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0191154


 Pozor na korelace mezi geny!
•Všechny testy, které jsme probírali předpokládají, že geny uvnitř skupin jsou nezávislé
•To je ale velmi nepravděpodobné!
•Pokud jsou geny korelované, tak p-hodnoty jednotlivých testů  (např. Fisherův test) budou
nesprávné
•Vyřešíme permutačními metodami
•Popřehazujeme skupiny vzorků
•Zopakujeme analýzu
•Porovnáme hodnoty s pozorovanými daty

Pozor na průniky mezi dráhami
•250 KEGG drah pro H. Sapiens
•najčastěji zastoupené geny
PIK3CD
PIK3CG
PIK3R2
PIK3CA
MAPK3
MAPK1
70
70
70
71
78
79

Další studijní materiály a SW
•Hana Imrichová: Možnosti propojení výsledku genomických experimentů s gene ontology online
databázemi pro tvorbu metabolických sítí, Masarykova Univerzita,2010,Bakalárska práca
•Ihnatova et al. A critical comparison of topology-based pathway analysis methods, PLoS One, 2018
•
•R balíky: PGSEA, GSA,ToPASeq, gage, DOSE, phenoTest, limma, GOstats

•MSigDB – web http://www.broadinstitute.org/gsea/msigdb/index.jsp
•Gorilla: http://cbl-gorilla.cs.technion.ac.il/
•
•DAVID: https://david.ncifcrf.gov/