Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí PB051: Výpočetní metody v bioinformatice a systémové biologii David Šafránek 6.4.2012 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky, EVROPSKÁ unie w^^m ■ I ^^hS ^m^r investice do rozvoje vzdělávání Systémové paradigma - sítě interakcí Obsah Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakci Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakcí Obsah Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakci -L C Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Průběh výzkumu v systémové biologii rekonstrukce sítí databáze biol. znalostí + literatura jiMAZE t validace modelu genové reportéry, DNA microarray, hmotnostní spektrometrie, ... Bacterial DNA biologická sít hypotézy objevené vlastnosti dotazy na model specifikace modelu SBML, diferenciální rovnice, boolovská sít, Petriho sít,... Q NADPH 4.1.2.15 4.6.1.3 4.2.1.10 1.1.1.25 \ erythrose-4- ( \-M -j-H -)-M -►T )-W -►( ) NADP phosphate —— - _ ^^^^phospht? phosphale ( j ( ) «—O*—H H—O*—Tr*—OATP f 2.5.1.19 U.lJlY Q ADP ^ = -*,[£] [S]+ te[£S] d^ = -kl\E]\S]+k2[ES\ + k3[ES] at - (n[E][S] - k2ES] - k3[ES] I analýza modelu statická analýza, numerická simulace, analytické metody, model checking .5 [mmol,mľrriin];g = l p/min] Hť|-P]| [>q| Suoanate C CyBtatľilDnine tneíE g CDdalamln-Inflepenusril nomocystelna tranamemylaBe / '' ■O PynJVBle; NH4t Homocys telna matR \ J řís ŕ^Fŕŕjjjafr|—metu M Cobalamln-dependeni homocystalna tnuia»ttiyt8» E-Meiryl TH- THF nwtR actlvaJtor I . VI- | L-Mtthlonina i —c- ATP P=1 .-idenoByl-L-Můlhlonnw Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Příklad modulu genetické regulace v E. Coli gyrAB l GyrAB i. DNA supercoiling TopA fis FIS tRNA CYA 1 cAMP'CRP |«- Signal (lack of carbon source) CRP t Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Biologická sít jako obecný graf Definition Necht V je konečná množina uzlů a E C V x V relace. Biologickou sítí nazveme graf G reprezentovaný uspořádanou dvojicí G = (V, E). • Pokud V(a, b) G E. (a, b) G E —► (b, a) G E, G nazýváme r?eor/er?ŕo\/ar?ý. • V ostatních případech hovoříme o orientovaném grafu. typ sítě V E G genové geny (resp. proteiny) regulace exprese or. proteinové proteiny proteinové interakce neor. metabolické metabolity, enzymy enzymové reakce or. signální molekuly a kti vace/dea kti vace or. Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Obsah Rekonstrukce genových interakčních sítí Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Detekce regulačních interakcí • využití databází promotorových sekvencí • prohledávání promotorových sekvencí na přítomnost známých TFBSs • TRANSFAC, MATCH, PromoterScan, RegulonDB promotér analysis, ... • využití DNA mikročipů • identifikace genů s podobnými profily exprese a jejich agregace do skupin (tzv. klastrů) • analýza promotorů ortologických genů (napříč různými druhy) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Měřeni genové exprese nej používanějším nástrojem je technologie DNA microarray umožňuje tzv. high-throughput analýzu • v daném okamžiku je paralelně nasamplována exprese všech genů v genomu příslušného organismu • postaveno na relativním srovnání minimálně dvou různých vzorků • exprese v přítomnosti vs. nepřítomnosti O2 • exprese při knock-outu určitého genu vs. normální stav »JE)rí;\ ľiohv "Normaľ Tumor RT/PCR La bol -.vilľ Fluoreoctnt Dyw Przniť? AJterouťťuy Hybfidize róbe (o icroarray Technology Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Polymerase Chain Reaction (PCR) • umožňuje replikaci určité části DNA (tzv. amplifikace) • DNA je zahřátím rozdělena • úsek DNA je označen párem oligonukleotidů (15-25 bazí) • při snížení teploty hybridizace oligonukleotidů s řetězcem DNA • doplnění zbývající sekvence DNA prostřednictvím RNA polymerázy • http://www.dnalc.org/resources/animations/pcr.html • lze využít i pro mRNA: RT-PCR (reverse transcription PCR) • reverzní transkripce mRNA do cDNA • amplifikace cDNA (PCR) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Validace a zpracováni výsledků • validace dat separátním měřením koncentrací mRNA nepřímo (pomocí RT-PCR) • RT-PCR spuštěna pro oba vzorky (shodný počet kroků PCR) • porovnání koncentrací příslušných cDNA • klastrování dat • zjištování podobnosti mezi datovými vektory • agregace do specifických skupin (klastrů) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Klastrování microarray dat • existují dva hlavní přístupy ke klastrování • partitioning - cílem je najít jedno nejvhodnější rozdělení do klastrů (parametrem je počet požadovaných klastrů) Self-organizing maps, K-means • hierarchické metody - vytvořen celý strom hierarchie kořen - klastr obsahující všechny experimenty v listech listy - jednoprvkový klastr pro každý experiment • klastry mohou být identifikovány i pro vektory tvaru Xj = Xnj) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Algoritmus pro hierarchické klastrování • nejpoužívanější metoda je tzv. aglomerativní (zdola-nahoru) • parametrem je míra podobnosti hodnot d{x-nxj) • postup (ŕ značí aktuální úroveň): 1. t = n inicializuj pro každý gen / < n\ C" = {x,} 2. spoj dva kláštery Cl a Cf s minimální vzdáleností Cf) 3. update D dle nového rozdělení 4. t := t - 1 5. iteruj (2-4) dokud ŕ > 1 Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Algoritmus pro hierarchické klastrování Při aglomeraci se používá míra podobnosti dvou klastrů na téže úrovni t: • D(Cki Cí) = minXieq,xj e, iteruj Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Nástroje pro cluster-based analýzu • klastrování lze využít pro detekci skupin shodně regulovaných genů • kombinace klastrování dle genů a experimentů • odhady regulátorů jednotlivých klastrů • odhady programů regulace • nástroje balíky R a Python (BioPython) • STEM - příklad kombinované techniky http://www.cs.cmu.edu/~jernst/stem/ Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Předpověd (reinženýring) regulačních sítí • regulační sítě lze předpovídat z microarray dat ■v • předpověd struktury sítě • detekce podmíněných závislostí proměnných • charakter korelace proměnných ■v • předpověd dynamiky proměnných • fitování naměřených dat na (spojitý) model • pravděpodobnostní rozložení diskrétních hodnot Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Předpověd (reinženýring) regulačních sítí Boolovské vs. Bayesovské sítě tRNA crp(r + 1) = ^crp(ŕ) A ^cya(ŕ) cya(r + 1) = ^cya(ŕ) A ^crp(ŕ) fis(t + 1) = ^crp(t) A ^cya(ŕ) tRNA(t+l) = fis(t) P{Xcrp) P{Xcya) P(Xfjs\Xcrp, Xcya) P{XtRNA\Xfjs) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Předpověd (reinženýring) regulačních sítí Bayesovské sítě P(V\W) = P(W\V) = P(V, W) P(W) P(W, V) P(V) P(V, W) = P(W, V) = P(V\W) ■ P(W) = P(W\V) ■ P{V) Bayesův vzorec: P(V\W) = P(W\V) ■ P(V) pjw) Obecně pro pravděpodobnost současných jevů platí řetězové pravidlo: P(V, W, Y)=P(V\W, Y) ■ P(W, Y) =P(V\W, Y) ■ P(W\Y) ■ P{Y) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí Předpověd (reinženýring) regulačních sítí Algoritmy pro bayesovské sítě • strojové učení z experimentálních dat: • algoritmy učení struktury • algoritmy učení pravděpodobnostního rozložení např. Expectation Maximization (EM) - iterativní metoda maximalizující P(data\model) • kombinované algoritmy • pro úspěšný výsledek vyžadována rozsáhlá sada dat • nástroje: • Hugin (http://www.hugin. com/) • Genomica (http://genomica.weizmann.ac.il/) Systémové paradigma - sítě interakcí Rekonstrukce genových interakčních sítí v Předpověd (reinženýring) regulačních sítí Algoritmy pro bayesovské sítě problémem jsou zpětné vazby (cykly v síti) řešením je unfolding v diskrétním čase: t=1 t=2 t=3 t=4 A(t) B(t) P(A(t*1)s1 0 0 0.07 0 1 0.86 1 0 0.84 1 1 0.95 • původní sít s n uzly je nahrazena sítí s 2n uzly • tabulka podmíněných pravděpodobností charakterizuje pravděpodobnost přechodů mezi jednotlivými konfiguracemi