Detekce biomarkerů z omics experimentů •Mgr. Eva Budinská, PhD •RECETOX •budinska@recetox.muni.cz •Podzim 2019 Hledání rozdílů mezi skupinami Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza jaký je rozdíl v přítomných genech/metabolitech/proteinech mezi dvěma nebo více skupinami •Odpovídáme na otázku: Příklady porovnávání skupin Základní metody pro porovnávání Základní metody pro porovnávání Metoda dělící hranice velikosti efektu / změny Metoda dělící hranice velikosti efektu / změny > DNA mRNA DNA mRNA Skupina A. Zdravá tkáň Skupina B. Nádor 9/3 = 3 Gen g1 je 3x více exprimován v nádoru, než ve zdravé tkáni Metoda dělící hranice velikosti efektu / změny Základní metody pro porovnávání Testování hypotéz •Testuje se: • Nulová hypotéza (H0): Gen / protein není odlišně exprimovaný mezi skupinami •proti •Alternativní hypotéza (H1): Gen je odlišně exprimovaný mezi skupinami • •Na základě dat musíme rozhodnout, co je pravda • •Nulovou hypotézu zamítneme jen pokud existuje dostatečně silná evidence, že je neplatná •Evidence – statistika a p-hodnota! Co je to statistika Bar chart •Abychom rozhodli, která hypotéza je pravdivá, sumarizujeme data do jednoho čísla •V testovaní hypotéz se toto číslo nazývá statistika (T-statistika, Z-statistika, F-statistika...) •Statistiky jsou definovány různě a mají různé předpoklady. •Například T-statistika porovnává signál se šumem a předpokládá normalitu dat. T-test T-test a T-statistika §Dvouvýběrový T-test pro porovnání rovnosti dvou průměrů μ1, μ2: §Průměr exprese genu ve skupině 1 vs. průměr ve skupině 2 Variabilita (vyjádřená jako směrodatná odchylka) T-test a T-statistika §Pokud data mají normální rozložení a neexistuje rozdíl mezi skupinami, tak T-statistiky pocházejí z T-rozložení. §p-hodnota = pravděpodobnost že dostaneme danou hodnotu T-statistiky nebo hodnotu větší, v případě, že neexistuje rozdíl mezi skupinami pg = Pr(Tg ≤ T) §Dostatečně malá p-hodnota = významný rozdíl (silná evidence) Testování hypotéz •Typické rozhodovací pravidlo: • Výpočet T-statistiky a p-hodnoty •Pokud p < 5%, gen je označený za odlišně exprimovaný Důležité: •V případě, že platí nulová hypotéza, jsou p-hodnoty všech testovaných hypotéz (genů) rovnoměrně rozloženy. •V případě, že je značná část genů odlišně exprimovaná, rozložení p-hodnot už není uniformní. • Možné výsledky testování H0 nezamítneme H0 zamítneme H0 je pravdivá (gen není odlišně exprimovaný) Pravdivá negativita (PN) Falešná pozitivita (FP) Chyba I. druhu H0 není pravdivá (gen je odlišně exprimovaný) Falešná negativita (FN) Chyba II. druhu Pravdivá pozitivita (PP) Problém mnohonásobného porovnávání Korekce problému mnohonásobného porovnávání # nezamítnuté (NZ) # zamítnuté (Z) #bez rozdílu Pravdivá negativita (PN) Falešná pozitivita (FP) Chyba I. druhu # odlišné geny/proteiny Falešná negativita (FN) Chyba II. druhu Pravdivá pozitivita (PP) Chyby 1. druhu: 1.Family–wise error rate (FWER): Pravděpodobnost alespoň jedné chyby prvního druhu (falešné pozitivity): FWER = Pr(FP > 0) 1.False discovery rate (FDR)(Benjamini & Hochberg,1995): Očakávaný podíl falešně pozitivních výsledků mezi zamítnutými hypotézami FDR= E[FP/Z] Korekce p-hodnot při mnohonásobném testování Který typ korekce použít? Moderovaná T-statistika Problém ve statistickém testovaní omicsových dat: Příliš malé hodnoty exprese (blízké šumu) vykazují malou variabilitu => vysoké T-statistiky u biologicky nerelevantních genů! Aby se daly statistiky porovnat, je potřeba sjednotit variabilitu: Konstanta korigující variabilitu Significance analysis of microarrays (SAM) •Tusher, Tibshirani a Chu (2001) •Založená na moderované t-statistice (dg), počítá FDR • • • •Statistická významnost dg je následně stanovená permutacemi původních dat a kalkulací očekávaného skóre v případě, že platí nulová hypotéza (de) •Gen je statisticky významný, pokud splňuje podmínku |dg - de | > Δ. •Výhody: jednoduché -Nevýhody: výpočtově náročné (permutace) -Výstup: q-hodnoty -biocLite(“samr“) -library(samr) SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků dp Seřaď Zkombinuj permutace de SAM - výpočet očekávaných hodnot •Pro každou permutaci p spočítej dgp •Seřaď statistiky podle velikosti •Definuj g-tou očekávanou hodnotu na základě N permutací SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků SAM – určení významných genů I de dg SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků SAM – výpočet FDR •t1 a t2 budou použité jako hranice •Vypočítej průměrný počet genů, které v permutacích tyto hranice překročily (byly významné) •Odhadni počet falešně pozitivních genů v případě, že platí nulová hypotéza podělením počtem významných genů v originálním pozorování: SAM – výpočet FDR, příklad dg dp SAM - algoritmus Genová exprese vzorků Definuj a spočítej statistiku dg Odhadni rozdělení dg Urči potenciálně významné geny Odhadni FDR Permutace vzorků Vyber  Skupiny vzorků SAM – jak vybrat  Parametr Počet falešně pozitivních (z permutací) Počet označených za významné (v orig.) FDR Limma •Smyth, G. K. (2004). Linear models and empirical Bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology, Volume 3, Article 3. •Lineární modely pro stanovení odlišné exprese z mikročipových dat •Balík se souborem funkcí pro normalizaci dat a porovnání exprese mezi skupinami (včetně časových řad) •Moderovaná statistika: variabilita je vyhlazená pomocí empirických bayesovských metod • Typické zobrazení významnosti genů - log10(q-value) ~ -log10(0.1)=2.3 Volcano plot