Detekce biomarkerů z omics experimentů
•Mgr. Eva Budinská, PhD
•RECETOX
•budinska@recetox.muni.cz
•Podzim 2019

Hledání rozdílů mezi skupinami


Jak se hledá potenciální biomarker v omics datech
Kontrola kvality
Normalizace
Sumarizace
Biologická otázka
(hypotéza)
N matic základních dat
(jedna pro každý z N vzorků)
Provedení experimentu
(hybridizace mikročipů,
hmotnostní spektrometrie...)
Dizajn experimentu
Objevování skupin?
(Shlukování)
Porovnání skupin?
(Testování)
Predikce skupin?
(Klasifikace)
Analýza přežití
Analýza časových řad
Charakterizace nových
skupin
List genů
se stejným profilem
změn exprese v čase
Interpretace
Validace
Publikace
Matice informací o vzorcích
N x P
(např. klinická data v medicíně)
Finální datová matice
N vzorků a K genů
(proteinů)
Nové skupiny
genů nebo vzorků
List genů
s odlišnou expresí
mezi skupinami vzorků
Klasifikační pravidlo
využívající
genovou expresi
Seznam
prognostických genů
Pathway analýza

jaký je rozdíl v přítomných genech/metabolitech/proteinech mezi dvěma nebo více skupinami
•Odpovídáme na otázku:


Příklady porovnávání skupin


Základní metody pro porovnávání


Základní metody pro porovnávání


Metoda dělící hranice velikosti efektu / změny


Metoda dělící hranice velikosti efektu / změny
>
DNA
mRNA
DNA
mRNA
Skupina A. Zdravá tkáň
Skupina B. Nádor
9/3 = 3
Gen g1 je 3x více exprimován v nádoru, než ve zdravé tkáni

Metoda dělící hranice velikosti efektu / změny


Základní metody pro porovnávání


Testování hypotéz
•Testuje se:
• Nulová hypotéza (H0):
Gen / protein není odlišně exprimovaný mezi skupinami
•proti
•Alternativní hypotéza (H1):
Gen je odlišně exprimovaný mezi skupinami
•
•Na základě dat musíme rozhodnout, co je pravda
•
•Nulovou hypotézu zamítneme jen pokud existuje dostatečně silná evidence, že je neplatná
•Evidence –  statistika a p-hodnota!

Co je to statistika
Bar chart
•Abychom rozhodli, která hypotéza je pravdivá, sumarizujeme data do jednoho čísla
•V testovaní hypotéz se toto číslo nazývá statistika (T-statistika, Z-statistika, F-statistika...)
•Statistiky jsou definovány různě a mají různé předpoklady.
•Například T-statistika porovnává signál se šumem a předpokládá normalitu dat.

T-test


T-test a T-statistika
§Dvouvýběrový T-test pro porovnání rovnosti dvou průměrů μ1, μ2:
§Průměr exprese genu ve skupině 1 vs. průměr ve skupině 2
Variabilita (vyjádřená jako směrodatná odchylka)

T-test a T-statistika
§Pokud data mají normální rozložení a neexistuje                                        rozdíl mezi
skupinami, tak T-statistiky pocházejí                                            z T-rozložení.
§p-hodnota = pravděpodobnost že dostaneme danou hodnotu T-statistiky nebo hodnotu větší, v případě,
že neexistuje rozdíl mezi skupinami
pg = Pr(Tg ≤ T)
§Dostatečně malá p-hodnota = významný rozdíl (silná evidence)

Testování hypotéz
•Typické rozhodovací pravidlo:
• Výpočet T-statistiky a p-hodnoty
•Pokud p < 5%, gen je označený za odlišně exprimovaný
Důležité:
•V případě, že platí nulová hypotéza, jsou p-hodnoty všech testovaných hypotéz (genů) rovnoměrně
rozloženy.
•V případě, že je značná část genů odlišně exprimovaná, rozložení p-hodnot už není uniformní.
•

Možné výsledky testování
H0 nezamítneme
H0 zamítneme
H0 je pravdivá
(gen není odlišně exprimovaný)
Pravdivá negativita (PN)
Falešná pozitivita (FP)
Chyba I. druhu
H0 není pravdivá
(gen je odlišně exprimovaný)
Falešná negativita (FN)
Chyba II. druhu
Pravdivá pozitivita (PP)

Problém mnohonásobného porovnávání


Korekce problému mnohonásobného porovnávání
# nezamítnuté (NZ)
# zamítnuté (Z)
#bez rozdílu
Pravdivá negativita (PN)
Falešná pozitivita (FP)
Chyba I. druhu
# odlišné geny/proteiny
Falešná negativita (FN)
Chyba II. druhu
Pravdivá pozitivita (PP)
Chyby 1. druhu:
1.Family–wise error rate (FWER): Pravděpodobnost alespoň jedné chyby prvního druhu (falešné
pozitivity): FWER = Pr(FP > 0)
1.False discovery rate (FDR)(Benjamini & Hochberg,1995):
Očakávaný podíl falešně pozitivních výsledků mezi zamítnutými hypotézami
FDR= E[FP/Z]

Korekce
p-hodnot při mnohonásobném
 testování

Který typ korekce použít?


Moderovaná T-statistika
Problém ve statistickém testovaní omicsových dat:
Příliš malé hodnoty exprese (blízké šumu) vykazují malou variabilitu => vysoké T-statistiky u
biologicky nerelevantních genů!
Aby se daly statistiky porovnat, je potřeba sjednotit variabilitu:
Konstanta korigující
variabilitu

Significance analysis of microarrays (SAM)
•Tusher, Tibshirani a Chu (2001)
•Založená na moderované t-statistice (dg), počítá FDR
•
•
•
•Statistická významnost dg je následně stanovená permutacemi původních dat a kalkulací očekávaného
skóre v případě, že platí nulová hypotéza (de)
•Gen je statisticky významný, pokud splňuje podmínku |dg - de | > Δ.
•Výhody: jednoduché
-Nevýhody: výpočtově náročné (permutace)
-Výstup: q-hodnoty
-biocLite(“samr“)
-library(samr)

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

  dp             Seřaď      Zkombinuj permutace    de
SAM - výpočet  očekávaných hodnot
•Pro každou permutaci p spočítej dgp
•Seřaď statistiky podle velikosti
•Definuj g-tou očekávanou hodnotu na základě N permutací

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

SAM – určení významných genů I
de
dg

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

SAM – výpočet FDR
•t1 a t2 budou použité jako hranice
•Vypočítej průměrný počet genů, které v permutacích tyto hranice překročily (byly významné)
•Odhadni počet falešně pozitivních genů v případě, že platí nulová hypotéza podělením počtem
významných genů v originálním pozorování:

SAM – výpočet FDR, příklad
dg
dp

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

SAM – jak vybrat 
    Parametr
Počet falešně pozitivních
(z permutací)
Počet označených za významné
(v orig.)
FDR

Limma
•Smyth, G. K. (2004). Linear models and empirical Bayes methods for assessing differential
expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology,
Volume 3, Article 3.
•Lineární modely pro stanovení odlišné exprese z mikročipových dat
•Balík se souborem funkcí pro normalizaci dat a porovnání exprese mezi skupinami (včetně časových
řad)
•Moderovaná statistika: variabilita je vyhlazená pomocí empirických bayesovských metod
•

Typické zobrazení významnosti genů
- log10(q-value) ~ -log10(0.1)=2.3


Volcano plot