logo-IBA-prezentace-pruhledny Kapitola VI Analýza genových sad (pathway analýza) •Výuka IBA logo-IBA-transparent •Společne schéma analýzy dat •Biologická otázka •(hypotéza) •N matic základních dat •(jedna pro každý z N vzorků) •Kontrola kvality •Normalizace •Sumarizace •Provedení experimentu •(hybridizace mikročipů, •hmotnostní spektrometrie...) •Dizajn experimentu •Objevování skupin? •(Shlukování) •Porovnání skupin? •(Testování) •Predikce skupin? •(Klasifikace) • •Analýza přežití •Analýza časových řad •Charakterizace nových •skupin •List genů •se stejným profilem •změn exprese v čase • •Interpretace •Validace •Publikace •Matice informací o vzorcích •N x P •(např. klinická data v medicíně) •Finální datová matice •N vzorků a K genů •(proteinů) •Nové skupiny •genů nebo vzorků •List genů •s odlišnou expresí •mezi skupinami vzorků •Klasifikační pravidlo •využívající •genovou expresi •Seznam •prognostických genů logo-IBA-transparent Motivace §Geny a proteiny jsou navzájem propojené ve velké spleti různých signálních, metabolických a různych jiných drah §Jak odhalit tyto závislosti? 1.Geny, které najdeme odlišně exprimované mezi skupinami (porovnání skupin) můžeme ad-hoc vložit do databáze a podívat se kam patří (KEGG, MsigDB....) §nevýhoda – nemáme statistickou významnost, která z drah je zastoupená nejvíce 2.Můžeme přímo porovnávat všechny geny se skupinami genů v jednotlivých dráhách §Předpoklad těchto analýz: operují s už definovanými skupinami genů jednotlivých drah 1. § logo-IBA-transparent Genová sada vs dráha §Génová sada je jakákoliv množina genů, například §všechny geny patřící do jedné dráhy §všechny geny které mají podobnou funkci §... § §Sada genů není dráha – je to všeobecnější a méně specifický pojem logo-IBA-transparent Analýza drah/genových sad §Cíl je přiřadit každé genové sadě, případně dráze jedno číslo - skóre, a nebo p-hodnotu, abychom mohli odpovědět na otázku § §Kolik genů je v dráze odlišně exprimovaných a je to dostatečně statisticky významné, abychom mohli říct, že je tato dráha specifická jen pro naše porovnávané skupiny? § §Osnova: 1.Kde hledat informace o drahách/genových sadách 2.Všeobecné rozdíly mezi nástroji pro analýzu genových sad 3.Některé z metod popíšeme detailněji § § logo-IBA-transparent Databáze genových sad / pathways §Gene Ontology (GO) databáze §http://www.geneontology.org/ §Hierarchická databáze §Rodičovské uzly: obecnější termíny §Potomci uzlů: víc specifické §Na konci hierarchie jsou geny/proteiny §Na vrcholu jsou 3 rodičovské uzly: 1.Biologické procesy 2.Molekulární funkce 3.Buněčné složky § logo-IBA-transparent Gene Ontology logo-IBA-transparent KEGG pathway databáze §KEGG = Kyoto Encyclopedia of Genes and Genomes §http://www.genome.jp/kegg/pathway.html §Více informácí než GO, máme tu už vztahy mezi geny a genovými produkty §Detailní informáce jen pro některé organizmy a procesy §Využívá hlavně ověřené poznatky, nemůže ji kdokoliv změnit §Proto se tu nenachází všechny geny (obvykle tak třetina až polovina z hledaných) §Aktualizovaná databáze není volně přístupná § § § logo-IBA-transparent KEGG § logo-IBA-transparent KEGG § • logo-IBA-transparent § logo-IBA-transparent KEGG pathway databáze §Poklikání na jednotlivé uzly zobrazí víc informací o jednotlivých genech: §Všechny ostatní dráhy do kterých patří gen §Identifikátory daného genu v různých jiných databázích §Odkaz na literaturu z které byly informace čerpané, případně další důležité články §Informaci o sekvenci § §Je možné zabarvit jednotlivé geny podle rozdílných barev § logo-IBA-transparent Nástroje pro analýzu genových sad §Podle toho s jakou informací pracují na §metody dělící hranice – berou do úvahy jen informáci "významný" vs. "nevýznamný" gen §metody celého seznamu genů – pracují přímo se všemi p-hodnotami (i nevýznamnými!) a teda s pořadím § §Nové metody pracují i s topologií dráhy § §Rozdělujeme podle skupiny genů které analyzují na: §uzavřené – analýza jen v rámci genů v sadě §kompetitivní – porovnání se všemi geny experimentu § § logo-IBA-transparent Uzavřené vs. kompetitivní I. §Uzavřená metoda používá jen hodnoty genů z dané množiny: §H0 : “Žádné geny z genové množiny nejsou odlišně exprimované” § § § §Kompetitivní test porovnává geny v genové množině s ostatními geny v experimentu §H0 : “Geny v genové množině nejsou víc odlišně exprimované než ostatní geny v experimentu” § § logo-IBA-transparent Příklad §Datový soubor 12 639 genů. Z nich p<0.05 má 1272 genů §96 genů v genové sadě, z toho 8 má p-hodnoty < 5% §Kolik odlišně exprimovaných genů očekáváme náhodně? logo-IBA-transparent Příklad, uzavřená metoda dělící hranice §Datový soubor 12 639 genů. Z nich p<0.05 má 1272 genů §96 genů v genové sadě, z toho 8 má p-hodnoty < 5% §Kolik odlišně exprimovaných genů očekáváme náhodně? § §Uzavřená metoda §Náhodně očekáváme 96 x 5% = 4.8 významných genů §Pomocí binomického testu vypočítáme pravděpodobnost pozorování 8 a více významných genů: p = 0.1079, teda není významné §binom.test(x=8,n=96,p=0.05, alternative="greater") logo-IBA-transparent Příklad, kompetitivní metoda dělící hranice §Datový soubor 12 639 genů. Z nich p<0.05 má 1272 genů §96 genů v genové sadě, z toho 8 má p-hodnoty < 5% §Kolik odlišně exprimovaných genů očekáváme náhodně? § §Kompetitivní test §1272 z 12639 genů je odlišně exprimovaných v tomto datovém souboru (to je zhruba 10%) §V množině náhodně vybraných 96 genů očekáváme tedy 96 x 10% = 9.6 významných genů §p-hodnotu vypočítáme z kontingenční tabulky pomocí Fisherova nebo Chi-kvadrát testu § V GS Není v GS Význ 8 1264 Nevýzn 88 11279 •p = 0.73 (Fisherův test – jednostranný) logo-IBA-transparent Metody dělící hranice vs. metody celého seznamu §Dvě předcházející metody jsou závislé na dělících hranicích – cut-offs a tedy závislé na N § §V případě, že povíme, že gen je pro nás významný už na 10% FDR, výsledek se změní § §Dále ztrácíme informaci tím, že redukujeme p-hodnotu na binární proměnné (významné/nevýznamné) § §Je rozdíl vědět jestli statisticky nevýznamné geny v naší množině jsou významné na hranici významnosti a nebo vůbec ne logo-IBA-transparent Metoda celého seznamu genů: uzavřená • Můžeme studovat rozložení p-hodnot v genové sadě • V případě, že žádné geny nejsou odlišně exprimované, mělo by se jednat o uniformní rozložení • Pík vlevo indikuje významnost některých genů • Aplikujeme Kolmogorův-Smirnovův test pro porovnání rozložení • p = 8.2%, není velmi významné • Je to uzavřená metoda, protože používáme jen geny z genové sady logo-IBA-transparent • Alternativně se můžeme dívat na rozložení pořadí p-hodnot • Toto by byla kompetitivní metoda, protože porovnáváme naši genovou sadu s ostatními geny v experimentu • Opět můžeme aplikovat KS test • p=85.1%, velmi nevýznamné Metoda celého seznamu genů: kompetitivní logo-IBA-transparent Uzavřené vs. kompetitivní II. §Výsledky kompetitivních testů závisí na počtu testovaných genů (např. genů na microarray sklíčku a předcházejícím filtrování) §Na malém mikročipovém sklíčku, kde jsou změněné všechny geny, kompetitivní metoda nenajde žádné odlišně exprimované množiny genů. § §Kompetitivní metody dávají méně významných výsledků než metody uzavřené § logo-IBA-transparent Smíšené metody §Najznámější je GSEA – gene set enrichment analysis (analýza obohacení genové sady) §Počítá se na seřazených p-hodnotách a sleduje se, zda jsou geny z genové sady náhodně rozložené v tomto seřazeném listě, a nebo se vyskytují v horních, významných pozicích §Postup: 1. Výpočet skóre obohacení (ES) § 2. Odhad významnosti ES (p-hodnota) na základě permutačního testu § 3. Upravení p-hodnot na problém mnohonásobného porovnávání logo-IBA-transparent Další aspekty §Směr změny §Pokud chceme zjistit směr změny, musíme zopakovat analýzu pro jednostranný test §jen up-regulované §jen down-regulované § §Mnohonásobné testování §Stejně jako u testování hypotéz na genech mezi skupinami, i pokud máme velký počet genových sad! §FDR je trochu komplikované, protože genové množiny se překrývají §Bonferroniho korekce vždy funguje § § logo-IBA-transparent •Bez topologie •S topologií A G F D B H E C A G F D B H E C S topologickou informací vs. bez logo-IBA-transparent Skupina A Skupina B •Vzorky Skupina A Skupina B •Vzorky Skupina A Skupina B •Vzorky •Mnohorozměrné modely: • •Gaussian Graphical Models •Multivariate Normal Distribution •Změna exprese •t-statistika •p-hodnota Skupina A Skupina B •Vzorky •t-test •TopologyGSA, Clipper •DEGraph •SPIA, PRS •PWEA •TAPPA •Topologie dráhy logo-IBA-transparent Příklad – uzavřená metoda dělící hranice logo-IBA-transparent §Z 8 odlišně exprimovaných genů: •2 interagují s 10 geny v dráze •3 interagují s 5 geny v dráze •3 interagují s jedním genem v dráze §s = 2*10 + 3*5 + 3*1 = 38 §Opakovaně, v dráze náhodně vybíráme 8 genů a získáme rozdělení statistik, které porovnáme s první statistikou. logo-IBA-transparent logo-IBA-transparent Pozor na korelace mezi geny! §Všechny testy, které jsme probírali předpokládají, že geny uvnitř skupin jsou nezávislé §To je ale velmi nepravděpodobné! § §Pokud jsou geny korelované, tak p-hodnoty jednotlivých testů (např. Fisherův test) budou nesprávné §Vyřešíme permutačními metodami •Popřehazujeme skupiny vzorků •Zopakujeme analýzu •Porovnáme hodnoty s pozorovanými daty § logo-IBA-transparent Pozor na průniky mezi dráhami PIK3CD PIK3CG PIK3R2 PIK3CA MAPK3 MAPK1 70 70 70 71 78 79 §250 KEGG drah pro H. Sapiens §najčastěji zastoupené geny logo-IBA-transparent Topologie využívaná různě §Cíl: §změna průměrné exprese, korelace, topologie §Jednotka zájmu: §dráha, modul, cesta, geny §Topologie známá dopředu a nebo odhadovaná z dat §Celková síť a nebo individuální dráhy § logo-IBA-transparent Studijní materiál a SW §Hana Imrichová: Možnosti propojení výsledku genomických experimentů s gene ontology online databázemi pro tvorbu metabolických sítí, Masarykova Univerzita,2010,Bakalárska práca § §R balíky §source("http://www.bioconductor.org/biocLite.R") §biocLite("PGSEA") §biocLite("GSA") # http://statweb.stanford.edu/~tibs/GSA/ §biocLite("ToPASeq") § §gage, DOSE, phenoTest, limma § §MSigDB - web §http://www.broadinstitute.org/gsea/msigdb/index.jsp § §http://cbl-gorilla.cs.technion.ac.il/ §https://david.ncifcrf.gov/ §