Analýza genomických a proteomických dat
Základní schéma analýzy
Porovnání skupin
Jaro 2023
29. březen 2023
Eva Budinská (eva.budinska@recetox.muni.cz)

Základní schéma analýzy genomických a proteomických dat
Kontrola kvality
Normalizace
Sumarizace
Biologická otázka
(hypotéza)
N matic základních dat
(jedna pro každý z N vzorků)
Provedení experimentu
(hybridizace mikročipů,
hmotnostní spektrometrie...)
Dizajn experimentu
Objevování skupin?
(Shlukování)
Porovnání skupin?
(Testování)
Predikce skupin?
(Klasifikace)
Analýza přežití
Analýza časových řad
Charakterizace nových
skupin
List genů
se stejným profilem
změn exprese v čase
Interpretace
Validace
Publikace
Matice informací o vzorcích
N x P
(např. klinická data v medicíně)
Finální datová matice
N vzorků a K genů
(proteinů)
Nové skupiny
genů nebo vzorků
List genů
s odlišnou expresí
mezi skupinami vzorků
Klasifikační pravidlo
využívající
genovou expresi
Seznam
prognostických genů
Pathway analýza

Kontrola kvality
Normalizace
Sumarizace
Biologická otázka
(hypotéza)
N matic základních dat
(jedna pro každý z N vzorků)
Provedení experimentu
(hybridizace mikročipů,
hmotnostní spektrometrie...)
Dizajn experimentu
Objevování skupin?
(Shlukování)
Porovnání skupin?
(Testování)
Predikce skupin?
(Klasifikace)
Analýza přežití
Analýza časových řad
Charakterizace nových
skupin
List genů
se stejným profilem
změn exprese v čase
Interpretace
Validace
Publikace
Matice informací o vzorcích
N x P
(např. klinická data v medicíně)
Finální datová matice
N vzorků a K genů
(proteinů)
Nové skupiny
genů nebo vzorků
List genů
s odlišnou expresí
mezi skupinami vzorků
Klasifikační pravidlo
využívající
genovou expresi
Seznam
prognostických genů
Pathway analýza
Základní schéma analýzy genomických a proteomických dat

Porovnávání skupin
Jaký je rozdíl v přítomných genech/proteinech mezi dvěma nebo více skupinami vzorků?


Příklady porovnávání skupin


Základní metody pro porovnávání


Základní metody pro porovnávání


Metoda dělící hranice velikosti efektu / změny


Metoda dělící hranice velikosti efektu / změny
DNA
mRNA
DNA
mRNA
Skupina A. Zdravá tkáň
Skupina B. Nádor
9/3 = 3
Gen g1 je 3x více exprimován v nádoru, než ve zdravé tkáni

Metoda dělící hranice velikosti efektu / změny


Základní metody pro porovnávání


Testování hypotéz
•Testuje se:
• Nulová hypotéza (H0):
Gen / protein není odlišně exprimovaný mezi skupinami
•proti
•Alternativní hypotéza (H1):
Gen je odlišně exprimovaný mezi skupinami
•
•Na základě dat musíme rozhodnout, co je pravda
•
•Nulovou hypotézu zamítneme jen pokud existuje dostatečně silná evidence, že je neplatná
•Evidence –  statistika a p-hodnota!

Co je to statistika
Bar chart
•Abychom rozhodli, která hypotéza je pravdivá, sumarizujeme data do jednoho čísla
•V testovaní hypotéz se toto číslo nazývá statistika (T-statistika, Z-statistika, F-statistika...)
•Statistiky jsou definovány různě a mají různé předpoklady.
•Například T-statistika porovnává signál se šumem a předpokládá normalitu dat.

T-test


T-test a T-statistika
§Dvouvýběrový T-test pro porovnání rovnosti dvou průměrů μ1, μ2:
§Průměr exprese genu ve skupině 1 vs. průměr ve skupině 2
Variabilita (vyjádřená jako směrodatná odchylka)

T-test a T-statistika
§Pokud data mají normální rozložení a neexistuje                                        rozdíl mezi
skupinami, tak T-statistiky pocházejí                                            z T-rozložení.
§p-hodnota = pravděpodobnost že dostaneme danou hodnotu T-statistiky nebo hodnotu větší, v případě,
že neexistuje rozdíl mezi skupinami
pg = Pr(Tg ≤ T)
§Dostatečně malá p-hodnota = významný rozdíl (silná evidence)

Testování hypotéz
•Typické rozhodovací pravidlo:
• Výpočet T-statistiky a p-hodnoty
•Pokud p < 5%, gen je označený za odlišně exprimovaný
Důležité:
•V případě, že platí nulová hypotéza, jsou p-hodnoty všech testovaných hypotéz (genů) rovnoměrně
rozloženy.
•V případě, že je značná část genů odlišně exprimovaná, rozložení p-hodnot už není uniformní.
•

Možné výsledky testování
H0 nezamítneme
H0 zamítneme
H0 je pravdivá
(gen není odlišně exprimovaný)
Pravdivá negativita (PN)
Falešná pozitivita (FP)
Chyba I. druhu
H0 není pravdivá
(gen je odlišně exprimovaný)
Falešná negativita (FN)
Chyba II. druhu
Pravdivá pozitivita (PP)

Problém mnohonásobného porovnávání


Korekce problému mnohonásobného porovnávání
# nezamítnuté (NZ)
# zamítnuté (Z)
#bez rozdílu
Pravdivá negativita (PN)
Falešná pozitivita (FP)
Chyba I. druhu
# odlišné geny/proteiny
Falešná negativita (FN)
Chyba II. druhu
Pravdivá pozitivita (PP)
Chyby 1. druhu:
1.Family–wise error rate (FWER): Pravděpodobnost alespoň jedné chyby prvního druhu (falešné
pozitivity): FWER = Pr(FP > 0)
1.False discovery rate (FDR)(Benjamini & Hochberg,1995):
Očakávaný podíl falešně pozitivních výsledků mezi zamítnutými hypotézami
FDR= E[FP/Z]

Korekce
p-hodnot při mnohonásobném
 testování
! Existuje více druhů metod pro kontrolu FDR!

Který typ korekce použít?
FWER pokud chceme aby VŠECHNY vybrané geny/proteiny byly opravdu významné. Na druhou stranu,
nevybereme tak všechny významné geny!

Který typ korekce použít?
FDR pokud preferujeme vybrat většinu významných genů/proteinů, a nevadí nám nějaké falešně
pozitivní

>
From: False discovery rate, sensitivity and sample size for microarray studies
Bioinformatics. 2005;21(13):3017-3024. doi:10.1093/bioinformatics/bti448
Bioinformatics | © The Author 2005. Published by Oxford University Press. All rights reserved. For
Permissions, please email: journals.permissions@oupjournals.org
Vliv počtu vzorků na falešně pozitivní výsledky
p0: skutečný podíl genů beze změny exprese mezi skupinami (false negative rate)
FDR (false discovery rate) jako funkce velikosti vzorku a percenta významných výsledků.
Každá křivka představuje fixní percento genů označených jako významných.

FDR (False discovery rate) jako funkce počtu vzorků na skupinu a metody použité pro normalizaci
sekvenačních dat a testování hypotéz


FDR (False discovery rate) jako funkce genové exprese a použité metody pro normalizaci dat a
testování
5 vzorků na skupinu
10 vzorků na skupinu

5 vzorků na skupinu
2 vzorky na skupinu
10 vzorků na skupinu
Similarita mezi seznamy odlišně exprimovaných genů mezi metodami
u N=2,5 a 10

Doporučená literatura na tému FDR
•https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-11-450


Základní metody pro porovnávání


Regresní strategie
•Pokud máme víc jak 1 proměnnou, která může ovlivnit genovou/proteinovou expresi
•genová exprese ~ skupina + pohlaví
•Lineární modelování (limma)
•
• Pokud se snažíme zjistit, jak velmi se genová exprese změní, pokud se změní hodnota nějaké
spojité proměnné
•genová exprese ~ prežití
•genová exprese ~ věk
•Lineární modelování (limma), Coxův model proporcionálních rizik
•
•Chceme najít pravděpodobnost, že vzorek patří do určité skupiny na základě expresní hodnoty daného
genu
• Logistická regrese

Můžeme používat klasické statistiky u omicsových dat?


Moderovaná T-statistika
Problém ve statistickém testovaní omicsových dat:
Příliš malé hodnoty exprese (blízké šumu) vykazují malou variabilitu
=>
vysoké T-statistiky u biologicky nerelevantních genů!
Aby se daly statistiky porovnat, je potřeba sjednotit variabilitu:
Konstanta korigující
variabilitu

Significance analysis of microarrays (SAM)
•Tusher, Tibshirani a Chu (2001)
•Založená na moderované t-statistice (dg), počítá FDR
•
•
•
•Statistická významnost dg je následně stanovená permutacemi původních dat a kalkulací očekávaného
skóre v případě, že platí nulová hypotéza (de)
•Gen je statisticky významný, pokud splňuje podmínku |dg - de | > Δ.
•Výhody: jednoduché
-Nevýhody: výpočtově náročné (permutace)
-Výstup: q-hodnoty
-biocLite(“samr“)
-library(samr)

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

  dp             Seřaď      Zkombinuj permutace    de
SAM - výpočet  očekávaných hodnot
•Pro každou permutaci p spočítej dgp
•Seřaď statistiky podle velikosti
•Definuj g-tou očekávanou hodnotu na základě N permutací

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

SAM – určení významných genů I
de
dg

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

SAM – výpočet FDR
•t1 a t2 budou použité jako hranice
•Vypočítej průměrný počet genů, které v permutacích tyto hranice překročily (byly významné)
•Odhadni počet falešně pozitivních genů v případě, že platí nulová hypotéza podělením počtem
významných genů v originálním pozorování:

SAM – výpočet FDR, příklad
dg
dp

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

SAM – jak vybrat 
    Parametr
Počet falešně pozitivních
(z permutací)
Počet označených za významné
(v orig.)
FDR

Limma
•Smyth, G. K. (2004). Linear models and empirical Bayes methods for assessing differential
expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology,
Volume 3, Article 3.
•Lineární modely pro stanovení odlišné exprese z mikročipových dat
•Balík se souborem funkcí pro normalizaci dat a porovnání exprese mezi skupinami (včetně časových
řad)
•Moderovaná statistika: variabilita je vyhlazená pomocí empirických bayesovských metod
•

Typické zobrazení významnosti genů
Volcano plot
- log10(q-value) ~ -log10(0.1)=2.3

Volcano plot


Porovnání skupin – schéma výběru metodiky
Počet skupin
Normální data?
Normální data?
2
>2
Počet
faktorů
Mann-Whitney
test, SAM
ANOVA,
Lineární modely,
limma,
SAM
Kruskal-Wallis test,
SAM
Lineární modely (limma),
Coxův model
proporcionálních rizik
(časy prežití)
spojitá odpovědná proměnná
ANO
ANO
NE
NE
T-test,
Lineární modely,
limma, SAM
Lineární modely (limma)
1
>1

Cvičení
Dumbbell
•Ve studijních materiálech k předmětu najdete soubor CviceniPorovnaniSkupin.zip
•Podívejte se na názvy všech souborů - dokážete určit o jaký datový soubor jde? - identifikujte
zdroj dat a typ mikročipu
•Soubor odzipujte a otevřete v RStudio soubor PorovnaniSkupin.R
•Postupujte podle pokynů
•
•
•
•