Výpočetní metody v bioinformatice a systémové biologii

Týden 9 - Analýza genové exprese a integrace dat

Lekce si klade za cíl prohloubit pochopení problematiky rekonstrukce znalostí na úrovni genových regulačních sítí. Téma bylo v obecné rovině představené v rámci předmětu PA052. Zde jde konkrétně o detailnější praktické seznámení s problematikou zpracování dat genové exprese. 

1) Data o genové expresi a jejich zpracování


V následujícím dokumentu jsou k disposici přehledné informace ke shlukování dat se zaměřením na micro-array data genové exprese v kontextu systémové biologie. Ve slidech 39-47 níže se soustředíme na základní algoritmy K-means a hierarchického shlukování.


Zdroje expresních dat

Nástroj STEM

Ke cvičení využijeme nástroj STEM, který implementuje jednak metodu K-means a druhak svoji vlastní metodu popsanou v článku níže. Nás zajímá zejména z toho důvodu, že podporuje přímou integraci dat s genovou ontologií.

Práci s nástrojem STEM si procvičte na následujících expresních datech E. coli získaných při kritických aerobních podmínkách. Data byla získána z databáze GENexpdb.

Ecoliexpression0
Časová řada expresních dat E.coli při podmínkách s netostatkem kyslíku.

Níže je odkaz na nástroj STEM (java).

Cvičení

  1. Rozbalte a spustťe nástroj STEM.
  2. Načtěte expresní data z výše uvedeného souboru.
  3. Proveďte clustering pomocí metody K-means a analyzujte výsledky.
  4. Proveďte clustering dle interního algoritmu STEM a analyzujte získané rozdělení profilů a genů do klastrů.
  5. Vytvořte množinu všech genů (gene set) relevantních flagelárnímu modulu a nechte si vypočítat její statistický význam v získaném rozdělení.

2) Integrace dat genové exprese v kontextu sítě


e

Najděte v databázi ExpressionAtlas prohlédněte experimenty relevantní podmínkám virové infekce typu SARS-COV (zadejte "coronavirus" do pole biological conditions, uveďte "Homo sapiens" do pole organismu a zbytek filtru ponechte volný).

V nejlevějším sloupci je vidět diferenční hodnota exprese (daný vzorek vůči kontrolnímu signálu, v případě těchto experimentů jde typicky o situaci infekce původním virem SARS vs. zdravá buňka). Vyhledejte interferon INFB1, je patrné, že je výrazně při infekci exprimován.  Zaměřte se na experiment "Time course analysis of icSARS CoV Urbani or icSARS deltaORF6 infected Calu-3 2B4 bronchial epithelial cells".

Kliknutím na Select v panelu "Comparison" můžete vybrat jednotlivé samply z dané experimentální sady. Zde se vám zobrazí detaily srovnání naměřených hodnot exprese genů v rámci vybraných samplů. Detailní popis jednotlivých samplů je k dispozici na záložce "Experiment design". 

Existují geny s podobným profilem při těchto experimentech? Na záložce "Plots" lze zobrazit pro některé samply výsledky GO enrichment analysis (viz předchozí lekce s BINGO). Podobným způsobem je k dispozici i enrichment v databázi reactome.

Cvičení 

V ExpressionAtlas najděte experiment "Transcription profiling by array of human bronchial epithelial cells after infection with SARS-CoV and DOHV" a stáhněte normalizovaná expresní data ("all normalized expressions"). V nástroji Cytoscape otevřete výše diskutovanou síť SARS-COV CYTOKINE STORM a načtěte k jednotlivým genům (kde je to možné) expresní data odpovídající infekci SARS-COV v naměřených časových bodech. Vizualizujte v rámci vizuálního aributu uzlů data posledního časového bodu (48hod).  Vyberte uzly s normalizovanou expresí větší než 10 a proveďte pomocí BINGO enrichment analýzu této genové sady.


Další zdroje