Analýza genomických a proteomických dat Základní schéma analýzy Porovnání skupin Jaro 2024 17. duben 2024 Eva Budinská (eva.budinska@recetox.muni.cz) Základní schéma analýzy genomických a proteomických dat Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza Základní schéma analýzy genomických a proteomických dat Porovnávání skupin Jaký je rozdíl v přítomných genech/proteinech mezi dvěma nebo více skupinami vzorků? Příklady porovnávání skupin Základní metody pro porovnávání Základní metody pro porovnávání Metoda dělící hranice velikosti efektu / změny Metoda dělící hranice velikosti efektu / změny > DNA mRNA DNA mRNA Skupina A. Zdravá tkáň Skupina B. Nádor 9/3 = 3 Gen g1 je 3x více exprimován v nádoru, než ve zdravé tkáni Metoda dělící hranice velikosti efektu / změny Základní metody pro porovnávání Testování hypotéz •Testuje se: • Nulová hypotéza (H0): Gen / protein není odlišně exprimovaný mezi skupinami •proti •Alternativní hypotéza (H1): Gen je odlišně exprimovaný mezi skupinami • •Na základě dat musíme rozhodnout, co je pravda • •Nulovou hypotézu zamítneme jen pokud existuje dostatečně silná evidence, že je neplatná •Evidence – statistika a p-hodnota! Co je to statistika Bar chart •Abychom rozhodli, která hypotéza je pravdivá, sumarizujeme data do jednoho čísla •V testovaní hypotéz se toto číslo nazývá statistika (T-statistika, Z-statistika, F-statistika...) •Statistiky jsou definovány různě a mají různé předpoklady. •Například T-statistika porovnává signál se šumem a předpokládá normalitu dat. T-test T-test a T-statistika §Dvouvýběrový T-test pro porovnání rovnosti dvou průměrů μ1, μ2: §Průměr exprese genu ve skupině 1 vs. průměr ve skupině 2 Variabilita (vyjádřená jako směrodatná odchylka) T-test a T-statistika §Pokud data mají normální rozložení a neexistuje rozdíl mezi skupinami, tak T-statistiky pocházejí z T-rozložení. §p-hodnota = pravděpodobnost že dostaneme danou hodnotu T-statistiky nebo hodnotu větší, v případě, že neexistuje rozdíl mezi skupinami pg = Pr(Tg ≤ T) §Dostatečně malá p-hodnota = významný rozdíl (silná evidence) Testování hypotéz •Typické rozhodovací pravidlo: • Výpočet T-statistiky a p-hodnoty •Pokud p < 5%, gen je označený za odlišně exprimovaný Důležité: •V případě, že platí nulová hypotéza, jsou p-hodnoty všech testovaných hypotéz (genů) rovnoměrně rozloženy. •V případě, že je značná část genů odlišně exprimovaná, rozložení p-hodnot už není uniformní. • Možné výsledky testování H0 nezamítneme H0 zamítneme H0 je pravdivá (gen není odlišně exprimovaný) Pravdivá negativita (PN) Falešná pozitivita (FP) Chyba I. druhu H0 není pravdivá (gen je odlišně exprimovaný) Falešná negativita (FN) Chyba II. druhu Pravdivá pozitivita (PP) Problém mnohonásobného porovnávání Korekce problému mnohonásobného porovnávání # nezamítnuté (NZ) # zamítnuté (Z) #bez rozdílu Pravdivá negativita (PN) Falešná pozitivita (FP) Chyba I. druhu # odlišné geny/proteiny Falešná negativita (FN) Chyba II. druhu Pravdivá pozitivita (PP) Chyby 1. druhu: 1.Family–wise error rate (FWER): Pravděpodobnost alespoň jedné chyby prvního druhu (falešné pozitivity): FWER = Pr(FP > 0) 1.False discovery rate (FDR)(Benjamini & Hochberg,1995): Očakávaný podíl falešně pozitivních výsledků mezi zamítnutými hypotézami FDR= E[FP/Z] Korekce p-hodnot při mnohonásobném testování ! Existuje více druhů metod pro kontrolu FDR! Který typ korekce použít? FWER pokud chceme aby VŠECHNY vybrané geny/proteiny byly opravdu významné. Na druhou stranu, nevybereme tak všechny významné geny! Který typ korekce použít? FDR pokud preferujeme vybrat většinu významných genů/proteinů, a nevadí nám nějaké falešně pozitivní > From: False discovery rate, sensitivity and sample size for microarray studies Bioinformatics. 2005;21(13):3017-3024. doi:10.1093/bioinformatics/bti448 Bioinformatics | © The Author 2005. Published by Oxford University Press. All rights reserved. For Permissions, please email: journals.permissions@oupjournals.org Vliv počtu vzorků na falešně pozitivní výsledky p0: skutečný podíl genů beze změny exprese mezi skupinami (false negative rate) FDR (false discovery rate) jako funkce velikosti vzorku a percenta významných výsledků. Každá křivka představuje fixní percento genů označených jako významných. FDR (False discovery rate) jako funkce počtu vzorků na skupinu a metody použité pro normalizaci sekvenačních dat a testování hypotéz FDR (False discovery rate) jako funkce genové exprese a použité metody pro normalizaci dat a testování 5 vzorků na skupinu 10 vzorků na skupinu 5 vzorků na skupinu 2 vzorky na skupinu 10 vzorků na skupinu Similarita mezi seznamy odlišně exprimovaných genů mezi metodami u N=2,5 a 10 Doporučená literatura na tému FDR •https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-11-450 Základní metody pro porovnávání Regresní strategie •Pokud máme víc jak 1 proměnnou, která může ovlivnit genovou/proteinovou expresi •genová exprese ~ skupina + pohlaví •Lineární modelování (limma) • • Pokud se snažíme zjistit, jak velmi se genová exprese změní, pokud se změní hodnota nějaké spojité proměnné •genová exprese ~ prežití •genová exprese ~ věk •Lineární modelování (limma), Coxův model proporcionálních rizik • •Chceme najít pravděpodobnost, že vzorek patří do určité skupiny na základě expresní hodnoty daného genu • Logistická regrese Můžeme používat klasické statistiky u omicsových dat? Moderovaná T-statistika Problém ve statistickém testovaní omicsových dat: Příliš malé hodnoty exprese (blízké šumu) vykazují malou variabilitu => vysoké T-statistiky u biologicky nerelevantních genů! Aby se daly statistiky porovnat, je potřeba sjednotit variabilitu: Konstanta korigující variabilitu Significance analysis of microarrays (SAM) •Tusher, Tibshirani a Chu (2001) •Založená na moderované t-statistice (dg), počítá FDR • • • •Statistická významnost dg je následně stanovená permutacemi původních dat a kalkulací očekávaného skóre v případě, že platí nulová hypotéza (de) •Gen je statisticky významný, pokud splňuje podmínku |dg - de | > Δ. •Výhody: jednoduché -Nevýhody: výpočtově náročné (permutace) -Výstup: q-hodnoty -biocLite(“samr“) -library(samr) SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků dp Seřaď Zkombinuj permutace de SAM - výpočet očekávaných hodnot •Pro každou permutaci p spočítej dgp •Seřaď statistiky podle velikosti •Definuj g-tou očekávanou hodnotu na základě N permutací SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků SAM – určení významných genů I de dg SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků SAM – výpočet FDR •t1 a t2 budou použité jako hranice •Vypočítej průměrný počet genů, které v permutacích tyto hranice překročily (byly významné) •Odhadni počet falešně pozitivních genů v případě, že platí nulová hypotéza podělením počtem významných genů v originálním pozorování: SAM – výpočet FDR, příklad dg dp SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků SAM – jak vybrat  Parametr Počet falešně pozitivních (z permutací) Počet označených za významné (v orig.) FDR Limma •Smyth, G. K. (2004). Linear models and empirical Bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology, Volume 3, Article 3. •Lineární modely pro stanovení odlišné exprese z mikročipových dat •Balík se souborem funkcí pro normalizaci dat a porovnání exprese mezi skupinami (včetně časových řad) •Moderovaná statistika: variabilita je vyhlazená pomocí empirických bayesovských metod • Typické zobrazení významnosti genů Volcano plot - log10(q-value) ~ -log10(0.1)=2.3 Volcano plot Porovnání skupin – schéma výběru metodiky Počet skupin Normální data? Normální data? 2 >2 Počet faktorů Mann-Whitney test, SAM ANOVA, Lineární modely, limma, SAM Kruskal-Wallis test, SAM Lineární modely (limma), Coxův model proporcionálních rizik (časy prežití) spojitá odpovědná proměnná ANO ANO NE NE T-test, Lineární modely, limma, SAM Lineární modely (limma) 1 >1 Cvičení Dumbbell •Ve studijních materiálech k předmětu najdete soubor CviceniPorovnaniSkupin.zip •Podívejte se na názvy všech souborů - dokážete určit o jaký datový soubor jde? - identifikujte zdroj dat a typ mikročipu •Soubor odzipujte a otevřete v RStudio soubor PorovnaniSkupin.R •Postupujte podle pokynů • • • •