Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese PB051: Výpočetní metody v bioinformatice a systémové biologii David Šafránek 6.4.2010 Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Obsah Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Obsah Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Průběh výzkumu v systémové biologii validace modelu dotazy na model biologická sít objevené vlastnosti rekonstrukce sítí databáze biol. znalostí + literatura analýza modelu statická analýza, numerická simulace, analytické metody, model checking SBML, diferenciální rovnice, specifikace modelu boolovská sít, Petriho sít, ... verifikace hypotéz, detekce vlastností genové reportéry, DNA microarray, hmotnostní spektrometrie, ... vyvození nových hypotéz hypotézy Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Od redukcionismu k integrativnímu přístupu integrativní analýza bionformatika modely (in silico) simulace komponentová biologie high-througput tenchologie genomika proteomika systémová biologie Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Koncept hierarchie Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Biochemické procesy v buňce * molekulární komponenty ­ proteiny, DNA, RNA,. . . * interakce na různých úrovních (transkripce, metabolismus,. . . ) * příjem signálů a živin (nutrientů) na membráně Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Funkční vsrtvy buňky Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Příklad geneticky řízené metabolické dráhy Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Příklad modulu genetické regulace v E. Coli rrnP1 P2 CRP crp cya CYA cAMPˇCRP FIS TopA topA GyrAB P1­P4 P1 P2 P2P1­P'1 P gyrABP Signal (lack of carbon source) DNA supercoiling fis tRNA rRNA protein gene promoter Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Kompletní transkripční síť E. Coli Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Biologická síť jako obecný graf Definition Nechť V je konečná množina uzlů a E V × V relace. Biologickou sítí nazveme graf G reprezentovaný uspořádanou dvojicí G (V , E). * Pokud a, b E. a, b E b, a E, G nazýváme neorientovaný. * V ostatních případech hovoříme o orientovaném grafu. typ sítě V E G genové geny (resp. proteiny) regulace exprese or. proteinové proteiny proteinové interakce neor. metabolické metabolity, enzymy enzymové reakce or. signální molekuly aktivace/deaktivace or. Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Biologické sítě ­ výpočetní problémy * (re)konstrukce sítí * identifikace interakcí z experimentálních dat integrací dat z databází znalostí * zpracování sítí * vizualizace * integrace atributů uzlů, hran * analýza sítí * analýza statistických vlastností rozložení konektivity, detekce motivů, . . . * porovnání sítí Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Biologické sítě ­ nástroje * Cytoscape http://www.cytoscape.org * vizualizační layouty * mapper vizuálních prvků na data * filtry * pluginy pro práci s biologickými sítěmi * VisANT http://visant.bu.edu/ * prakticky tatáž funkčnost jako Cytoscape * podpora hierarchického zanořování (MetaNodes) * méně flexibilní prostředí * více biologicky-relevantních funkcí Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Obsah Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Identifikace struktury promotorů * podobnost vůči koncenzové sekvenci "typického" promotoru: promotory většinou zahrnují sekvenci podobnou s: 5 -TATAA-3 (tzv. TATA-box) * koncenzová sekvence typicky zapsána ve formátu IUPAC vyjadřuje nejednoznačnosti v sekvenci T C C C T T C C G A T T G C T T T C C T T T C G T T Y C S T Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Identifikace struktury promotorů * detekce vazebných míst transkripčních faktorů (TFBS) * typická délka 5­25 bazí * poměrně velká tolerance k variabilitě sekvencí * u prokaryot TFBSs poblíž TSS (transcription starting site) krátké sekvence na pozicích -10 a -35 * u eukaryot je struktura promotoru složitější TFBS mohou být vzdálena i několik kilobazí od TSS (ve směru 3 - 5 ) * promotory se strukturně identifikují ve sledu: TFBSs kombinované TFBSs celý promotor Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Identifikace struktury promotorů * alternativní variantou k popisu vazby TF k DNA je poziční matice (Positional Weight Matrix ­ PWM) T C C C T T C C G A T T G C T T T C C T T T C G T 0 0 0 0 1 A 0 2 4 3 0 C 0 0 1 2 0 G 5 3 0 0 4 T * PWM zachycuje frekvenci výskytu nukleotidů na příslušné pozici TFBS afinní pro daný TF Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Nástroje pro vyhledávání promotorových sekvencí * TRANSFAC http://www.gene-regulation.com/cgi-bin/pub/databases/transfac/ obsahuje data transkripčních faktorů, regulačních sekvencí, včetně PWM * nástroje pro vyhledávání v TRANSFAC * MATCH ­ vyhledává TFBSs v sekvencích, dostupný z TRANSFAC * PromoterScan http://zeon.well.ox.ac.uk/git-bin/proscan vyhledávání globálních promotorových sekvencí v dodané sekvenci * TRANSCompel http: //www.gene-regulation.com/pub/databases/transcompel/compelSM.html vyhledávání kombinovaných regulačních sekvencí * RegulonDB promoter analysis (E. coli) http://www.ccg.unam.mx/Computational_Genomics/PromoterTools/ Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Další přístupy * využití DNA mikročipů * identifikace genů s podobnými profily exprese a jejich agregace do skupin (tzv. klastrů) * prohledávání promotorových sekvencí na přítomnost shodných TFBSs * úspěšně aplikováno pro detekci genových interakcí v kvasince * analýza promotorů ortologických genů (napříč různými druhy) * tzv. phylogenetic footprinting * viz např. http: //bayesweb.wadsworth.org/binding_sites/index.html (E. coli) Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Obsah Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Měření genové exprese * nejpoužívanějším nástrojem je technologie DNA microarray * umožňuje tzv. high-throughput analýzu * v daném okamžiku je paralelně nasamplována exprese všech genů v genomu příslušného organismu * postaveno na relativním srovnání minimálně dvou různých vzorků * exprese v přítomnosti vs. nepřítomnosti O2 * exprese při knock-outu určitého genu vs. normální stav * ... Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Reverzní transkriptáza a cDNA Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Reverzní transkriptáza a cDNA * enzym EC 2.7.7.49 (druh DNA polymerázy) * objevena v retrovirech [Temin, Baltimore, 1970] * přepisuje mRNA na jednořetězcovou (komplementární) DNA (tzv. cDNA) * umožňuje vytvořit knihovnu DNA Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Polymerase Chain Reaction (PCR) * umožňuje replikaci určité části DNA (tzv. amplifikace) * DNA je zahřátím rozdělena * úsek DNA je označen párem oligonukleotidů (15-25 bazí) * při snížení teploty hybridizace oligonukleotidů s řetězcem DNA * doplnění zbývající sekvence DNA prostřednictvím RNA polymerázy * http://www.dnalc.org/resources/animations/pcr.html * lze využít i pro mRNA: RT-PCR (reverse transcription PCR) * reverzní transkripce mRNA do cDNA * amplifikace cDNA (PCR) Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Postup při DNA microarray experimentu 1. konstrukce čipu z cDNA knihovny (amplifikace a rozmístění) 2. odběr celkové mRNA z experimentálních vzorků (typicky 2) 3. reverzní transkripce do cDNA asociované s fluorescenčním barvivem 4. hybridizace odebrané cDNA s cDNA na čipu 5. omytí čipu a oskenování výsledku 6. analýza dat 7. komerční čipy používají místo cDNA knihovny skupinu oligonukleotidů pro každý gen pouze jeden vzorek mRNA je analyzován na jednom čipu (porovnání více identicky připravených čipů) http://www.bio.davidson.edu/courses/genomics/chip/chip.html Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Workflow produkce výsledků DNA microarray experimentu microarray platform image analysis normalization intensity signals Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Validace a zpracování výsledků * validace dat separátním měřením koncentrací mRNA nepřímo (pomocí RT-PCR) * RT-PCR spuštěna pro oba vzorky (shodný počet kroků PCR) * porovnání koncentrací příslušných cDNA * klastrování dat * zjišťování podobnosti mezi datovými vektory * agregace do specifických skupin (klastrů) Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Databáze microarray dat * Stanford Microarray Database ­ různé pohledy na data, filtrace http://smd.stanford.edu/cgi-bin/cluster/drpGetData.pl * ArrayExpress ­ statisticky zpracovaná data http://www.ebi.ac.uk/gxa/ * Gene Expression Omnibus (GEO) http://www.ncbi.nih.gov/geo/ * MUSC DNA Microarray Database http://proteogenomics.musc.edu/ma/ * GenExpDB (E. Coli specifická data) http://genexpdb.ou.edu/ Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Klastrování microarray dat * předpokládejme matici se sondami pro n genů * uvažujme sadu p experimentů * pro každý gen i dostáváme vektor xi = (xi1, ..., xip) zachycující posloupnost výsledků (tzv. expresní profil) * definujeme míru vzdálenosti d : Rp × Rp R: d(xn, xm) = ( p i=1 |xni - xmi |q ) 1 q * pro q = 2 dostáváme Euklidovskou vzdálenost Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Klastrování microarray dat * existují dva hlavní přístupy ke klastrování * partitioning ­ cílem je najít jedno nejvhodnější rozdělení do klastrů (parametrem je počet požadovaných klastrů) Self-organizing maps, K-means * hierarchické metody ­ vytvořen celý strom hierarchie kořen ­ klastr obsahující všechny experimenty, v listech listy ­ jednoprvkový klastr pro každý experiment * klastry mohou být identifikovány i pro vektory tvaru xj = (x1j , ..., xnj ) Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Algoritmus pro hierarchické klastrování * nejpoužívanější metoda je tzv. aglomerativní (zdola-nahoru) * parametrem je míra podobnosti hodnot d(xi , xj ) * postup (t značí aktuální úroveň): 1. t = n inicializuj pro každý gen i n: Cn i = {xi } 2. spoj dva klastery Ct k a Ct l s minimální vzdáleností D(Ct k , Ct l ) 3. update D dle nového rozdělení 4. t := t - 1 5. iteruj (2-4) dokud t > 1 Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Algoritmus pro hierarchické klastrování Při aglomeraci se používá míra podobnosti dvou klastrů na téže úrovni t: * D(Ct k , Ct l ) = minxi Ct k ,xj Ct l d(xi , xj ) (single linkage) * D(Ct k , Ct l ) = maxxi Ct k ,xj Ct l d(xi , xj ) (complete linkage) * D(Ct k , Ct l ) = 1 |Ct k ||Ct l | xi Ct k ,xj Ct l d(xi , xj ) (average linkage) Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Algoritmus pro hierarchické klastrování * update míry vzdálenosti (krok (3)): D(Ct-1 m , Ct k Ct l ) = kD(Ct m, Ct k ) + l D(Ct m, Ct l ) +|D(Ct m, Ct l ) - D(Ct m, Ct k )| * single linkage: k = l = 0.5, = -0.5 * complete linkage: k = l = 0.5, = 0.5 * average linkage: i = |Ct i | |Ct k |+Ct l | , i {k, l}, = 0 Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Metoda K-means * založeno na optimalizaci odchylky mezi expresními profily vzhledem ke středu (průměrnému profilu) klastru * nejčastěji je tato optimalizace reprezentována minimalizací * pevně dán počet požadovaných klastrů * náhodně se inicializují střední profily * metoda je přesnější při větším počtu pokusů * klastry jsou průběžně modifikovány při minimalizaci odchylek (Euklidovské vzdálenosti) od středových profilů Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Metoda K-means * algoritmus K-means má dvě základní fáze * výpočet vzdáleností jednotlivých vektorů od vektoru středových hodnot * update vzhledem k optimalizační funkci * nejpoužívanější metrikou je Euklidovská vzdálenost * vektor středových hodnot je vypočítán jako aritmetický průměr vektorů aktuálně přiřazených danému klasteru Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Algoritmus K-means * vstup: počet iterací (inicializací), počet klastrů K, práh přesnosti * náhodně inicializuj rozdělení do klastrů C1 1 , ...C1 K se středy c1 1 , ..., c1 K a vypočítej hodnotu optimalizační funkce W 1 * v i-tém kroku proveď: * výpočet Ci+1 1 , ..., Ci+1 K ­ přiřaď každý datový vektor x ke klastru s nejmenší vzdáleností středového vektoru od x * přepočítej středové vektory ci+1 1 , ..., ci+1 K a minimalizuj W i+1 * dokud k, |ci k - ci+1 k | , iteruj Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Nástroje pro cluster-based analýzu * klastrování lze využít pro detekci skupin shodně regulovaných genů * kombinace klastrování dle genů a experimentů * odhady regulátorů jednotlivých klastrů * odhady programů regulace * nástroje * Genomica (dříve GeneXPress) http://genomica.weizmann.ac.il/ * FunCluster (balík pro R) http://cran.r-project.org/web/packages/FunCluster/index.html * STEM http://www.cs.cmu.edu/~jernst/stem/ * EisenLab tools http://rana.lbl.gov/EisenSoftware.htm Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Předpověď (reinženýring) regulačních sítí * regulační sítě lze předpovídat z microarray dat * předpověď struktury sítě * detekce podmíněných závislostí proměnných * charakter korelace proměnných * předpověď dynamiky proměnných * fitování naměřených dat na (spojitý) model * pravděpodobnostní rozložení diskrétních hodnot Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Předpověď (reinženýring) regulačních sítí Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Předpověď (reinženýring) regulačních sítí Boolovské vs. Bayesovské sítě crp(t + 1) = crp(t) cya(t) cya(t + 1) = cya(t) crp(t) fis(t + 1) = crp(t) cya(t) tRNA(t + 1) = fis(t) P(Xcrp) P(Xcya) P(Xfis|Xcrp, Xcya) P(XtRNA|Xfis) Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Předpověď (reinženýring) regulačních sítí Bayesovské sítě P(V |W ) = P(V , W ) P(W ) P(W |V ) = P(W , V ) P(V ) P(V , W ) = P(W , V ) = P(V |W ) P(W ) = P(W |V ) P(V ) Bayesův vzorec: P(V |W ) = P(W |V ) P(V ) P(W ) Obecně pro pravděpodobnost současných jevů platí řetězové pravidlo: P(V , W , Y )=P(V |W , Y ) P(W , Y ) =P(V |W , Y ) P(W |Y ) P(Y ) Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Předpověď (reinženýring) regulačních sítí Algoritmy pro bayesovské sítě * strojové učení z experimentálních dat: * algoritmy učení struktury * algoritmy učení pravděpodobnostního rozložení např. Expectation Maximization (EM) ­ iterativní metoda maximalizující P(data|model) * kombinované algoritmy * pro úspěšný výsledek vyžadována rozsáhlá sada dat * nástroje: * Hugin (http://www.hugin.com/) * Genomica (http://genomica.weizmann.ac.il/) Systémové paradigma ­ sítě interakcí Identifikace genových interakcí Analýza genové exprese Předpověď (reinženýring) regulačních sítí Algoritmy pro bayesovské sítě * problémem jsou zpětné vazby (cykly v síti) * řešením je unfolding v diskrétním čase: * původní síť s n uzly je nahrazena sítí s 2n uzly * tabulka podmíněných pravděpodobností charakterizuje pravděpodobnost přechodů mezi jednotlivými konfiguracemi