Pojem modelu a simulace Biologické sítě a dráhy David Šafránek 27.09.2011 Tento projekt je spolufinancován Fvmpskym sociálním fondem s státním rozpočtem České repuhliky. NVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Pojem modelu a simulace Biologické sítě a dráhy Obsah Pojem modelu a simulace Biologické sítě a dráhy Pojem modelu a simulace Biologické sítě a dráhy Shrnutí předchozí přednášky • biologický systém definován interakcemi mezi jeho komponentami • interakce jsou omezeny základními zákony chemie ale i evolučním vývojem • syntaxí organismu-systému je sít komponent • sémantikou organismu-systému je jeho funkce (dynamika) • základní koncepty systémové biologie • důraz na interakci, součinnost • hierarchie • modelování a simulace Pojem modelu a simulace Biologické sítě a dráhy Workflow systémové biologie - opakování rekonstrukce sítí databáze biol. znalostí + literatura biologická sít hypotézy specifikace modelu SBML, diferenciální rovnice, boolovská sít, Petřino sít, ... validace modelu genové reportéry, DNA microarray, hmotnostní spektrometrie, ... objevené vlastnosti dotazy na model analýza modelu statická analýza, numerická simulace, analytické metody, model checking verifikace hypotéz, detekce vlastností vyvození nových hypotéz Pojem modelu a simulace Obsah Pojem modelu a simulace Biologické sítě a dráhy Pojem modelu a simulace Biologické sítě a dráhy Proč dělat model? Cíl Pochopit vlastnost organismu (případně jeho reakci na dané podmínky prostředí) se všemi příčinami. Predikovat možné důsledky. Pojem modelu a simulace Biologické sítě a dráhy Proč dělat model? Cíl Pochopit vlastnost organismu (případně jeho reakci na dané podmínky prostředí) se všemi příčinami. Predikovat možné důsledky. Problém Těžko realizovatelné in vitro, kde jsou jen omezené možnosti určitých experimentů. Pojem modelu a simulace Biologické sítě a dráhy Proč dělat model? Cíl Pochopit vlastnost organismu (případně jeho reakci na dané podmínky prostředí) se všemi příčinami. Predikovat možné důsledky. Problém Těžko realizovatelné in vitro, kde jsou jen omezené možnosti určitých experimentů. Řešení Vytvořit model zachycující všechny známé vztahy související se zkoumanou vlastností. Analýzou a simulací odvodit/potvrdit experimenty a dosavadní hypotézy. Předvídat nové hypotézy. Pojem modelu a simulace Biologické sítě a dráhy Typy modelů • statické modely • tzv. network biology: metabolic control analysis, flux balance analysis, . .. • statická analýza biologické sítě jako grafu/matice • statistické srovnání topologie s náhodnými grafy • dynamické modely • aplikace teorie dynamických systémů • simulace vývoje v čase • nutná znalost dynamických zákonů (např. reakční kinetika) Budeme-li hovořit o modelu (bez přívlastků), budeme myslet dynamický model. Pojem modelu a simulace Biologické sítě a dráhy Uplatnění modelu rekonstrukce sítí databáze biol. znalostí + literatura biologická sít hypotézy specifikace modelu SBML, diferenciální rovnice, boolovská sít, Petřino sít, ... validace modelu genové reportéry, DNA microarray, hmotnostní spektrometrie, ... objevené vlastnosti dotazy na model analýza modelu statická analýza, numerická simulace, analytické metody, model checking verifikace hypotéz, detekce vlastností vyvození nových hypotéz Pojem modelu a simulace Biologické sítě a dráhy Model • abstraktní (formální, výpočetní) model • teoretický (idealizovaný) obraz skutečného organismu —> problém vztahu mezi modelem a modelovaným objektem • sestává z množiny proměnných a množiny logických a kvantitativních relací mezi proměnnými živy dynamicky |[|| system g formálni model M in vitro/in vivo S©M Pojem modelu a simulace Biologické sítě a dráhy Simulace modelu • simulace představuje "spuštění" modelu pro dané výchozí nastavení proměnných v daném prostředí • simulace imituje skutečné chování modelovaného objektu na určité úrovni abstrakce • simulace umožňuje predikci hypotéz • simulace zobecňuje a doplňuje in vivo/in vitro experimenty • predikce má smysl pouze pro validovaný model! Pojem modelu a simulace Biologické sítě a dráhy Obsah Pojem modelu a simulace Biologické sítě a dráhy Pojem modelu a simulace Biologické sítě a dráhy Biologická sít jako způsob reprezentace modelu • biologická sít - komplexní systémový popis organismu • neexistuje jednoznačná definice • orientovaný nebo neorientovaný graf • uzly představují typicky proměnné • hrany představují typicky (funkční) relace mezi proměnnými • k uzlům a relacím jsou přiřazeny kvalitativní i kvantitativní informace potřebné k simulaci (dynamická analýza) • biologické sítě lze strukturně zkoumat - statická analýza • srovnávání sítí různých organismů • vyhledávání alternativních cest • zkoumání měřitelných vlastností sítí • zkoumání změn v sítích při evoluční selekci Pojem modelu a simulace Biologické sítě a dráhy Dráhy vs. sítě • dráhy jsou podsítě lineárního tvaru • sekvence metabolických reakcí • specifické zaměření na určité proměnné • analyzované problémy: délka dráhy, existence alternativních drah • sítě reprezentují komplexní data (zohledňují širokou množinu proměnných a všech relevantních interakcí) • sítě interakcí určitého charakteru (transkripce, metabolismus, protein-protein, ...) • analyzované jevy: stupeň větvení, délka nej kratší dráhy, modularita, motivy, ... • příklady zdrojů: • KEGG (http://www.genome.jp/kegg/) • RegulonDB (http://regulondb.ccg.unam.mx/) Pojem modelu a simulace Biologické sítě a dráhy Pojem modelu a simulace Biologické sítě a dráhy Pojem modelu a simulace Biologické sítě a dráhy Alternatívni dráhy JL-Afipartalr| S.cerevisiae m 2.7.2.41 n-J , . 1.2.1.11 |L-aspartic semlaldehyť&| |L-Hon^SĚtiňě1 E. coli O-accty |^|r,-j-y jrcinyl-L-j?mPŕi?rľrie" |4.2.9Sl10| ]Cystathlůfilne| |4.4.1.6 |Homů^ysiťlne| IS,1-1,14 IL-Mťt ilonine| |2,5.1,6| S-Aťľngtiyl-L-ľťThmninť;] Pojem modelu a simulace Biologické sítě a dráhy Alternatívni dráhy • význam v genetice a genomice modifikace drah souvisí přímo s vývojem genomu (evoluce) • identifikace neznámých genů • význam v biotechnologii • identifikace a implementace alternativních variant • význam ve farmakologii • laterální náhrada genu metabolicky-specifické medikamenty Pojem modelu a simulace Biologické sítě a dráhy Biologické sítě • různé typy sítí: • regulatorní sítě (popis transkripční regulace) • proteinové sítě (popis interakce proteinů) • metabolické sítě (popis metabolismu) • signální sítě (popis aktivačních/deaktivačních kaskád) • další typy (např. neuronové sítě) Pojem modelu a simulace Biologické sítě a dráhy Biologická sít jako graf Definition Necht V je konečná množina uzlů a E C V x V relace. Biologickou sítí nazveme graf G reprezentovaný uspořádanou dvojicí G = (V, E). • Pokud V(a, b) G E. (a, b) G E —> (b, a) G E, G nazýváme neorientovaný. • V ostatních případech hovoříme o orientovaném grafu. typ sítě V E G genová regulační geny (resp. proteiny) regulace exprese or. proteinová proteiny proteinové interakce neor. metabolická metabolity, enzymy enzymové reakce or. signální molekuly aktivace/deaktivace or. Pojem modelu a simulace Biologické sítě a dráhy Cesty a kružnice • cesta v grafu je libovolná sekvence uzlů [si, 32,an] t.ž. V/ G {1,n — l}.(a/, 3/+i) £ ^, číslo n — 1 nazýváme délkou cesty (počet hran) • cestu nazveme elementární pokud se na ní každý vrchol vyskytuje právě jednou • kružnice v grafu je libovolná elementární cesta [a\, 32,an] t.ž. 3l = 3„ • smyčkou nazýváme libovolnou kružnici délky 1 Pojem modelu a simulace Biologické sítě a dráhy Cesty a kružnice • kolik kružnic ... 4 • kolik cest z a do d ... 2 • délka nejkratší cesty z d do c Pojem modelu a simulace Biologické sítě a dráhy Cesty a kružnice • kolik kružnic ... 4 • kolik cest z a do d ... 2 • délka nejkratší cesty z d do c ... d(d,c) = 2 Pojem modelu a simulace Biologické sítě a dráhy Vlastnosti grafu Charakteristická délka cesty • délku nejkratší cesty z a do b značíme d(a, b) • neexistuje-li cesta z a do b, uvažujeme d(a, b) = 0 • charakteristickou délku cesty (orientovaného) grafu G = (V, E) značíme Lq a definujeme: G \v\(\v\-i) • průměrná délka cesty (přes všechny dvojice uzlů) Pojem modelu a simulace Biologické sítě a dráhy Cesty a kružnice Pojem modelu a simulace Biologické Vlastnosti grafu Stupeň uzlu a koeficient seskupení • množinu sousedních uzlů uzlu a značíme Na a definujeme Na = {be V\(a,b) G EV (b, a) G E} • stupeň uzlu a značíme ka a definujeme jako počet všech sousedních uzlů uzlu a, tedy ka = \Na\ • koeficient seskupení uzlu (clustering coefficient [Watts, Strogatz]) a značíme Ca a definujeme: \{(c,d) e E|ce NaAd £ Na}\ ka{ka - 1) Biologické sítě a dráhy Vlastnosti grafu Stupeň uzlu a koeficient seskupení • koeficient seskupení grafu G je značen Cq a definován jako průměr koeficientů seskupení všech uzlů: Pojem modelu a simulace Biologické sítě a dráhy Vlastnosti grafu Stupeň uzlu a koeficient seskupení CG = \ • (2 + §) = 0.65 Pojem modelu a simulace Biologické sítě a dráhy Náhodný graf • náhodný graf je definován pevným počtem uzlů a pravděpodobností p existence hrany mezi libovolnými dvěma uzly • alternativní definice: zvolíme množinu vrcholů V a počet hran n, z množiny všech možných hran (^) vybereme náhodně n hran • pravděpodobnost, že v náhodném grafu má daný uzel stupeň k, je charakterizována Poissonovým rozložením (s konst. A): e~x\k mx) = [Erdos, Rényi, "On the evolution of random graphs"] Pojem modelu a simulace Biologické sítě a dráhy Poissonovo rozložení 0.4 r 0 5 10 15 20 Pojem modelu a simulace Biologické sítě a dráhy Náhodný graf - Poissonovo rozložení stupně uzlů trdos-Henyi random graph I- a í S 1 8 - • 10000 vertices □ 20000 vertices i □ I g í I i i-1-1-1-r 200 400 600 800 1000 Number of edges (degree) Pojem modelu a simulace Biologické sítě a dráhy Vlastnosti náhodných grafů Regular Small-world Random typ grafu CG LG svaz vysoké dlouhé náhodný graf nízké krátké small-world vysoké krátké Pojem modelu a simulace Biologické sítě a dráhy Small-world sítě zavedeny Wattsem a Strogatzem, "Collective dynamics of 'small-world' networks", Nature 393, 1998 klíčem jsou lokální a globální metriky seskupení uzlů a metrika charakteristické délky cesty • identifikovány jako grafy s vysokým koeficientem seskupení ale krátkou charakteristickou délkou cesty • bylo prokázáno, že mnoho reálných sítí má tento charakter • např. graf filmových herců propojených dle společného účinkování • neuronové sítě v C. elegans • výrazný posun v porozumění chování rozsáhlých dynamických systémů • zavedení pojmu "real-world graphs" modelu a simulace Scale-free sítě Biologické sítě a • zavedl Barabási a Albert, "Emergence of Scaling in Random Networks" , Science 286, 1999 Pojem modelu a simulace Biologické sítě a dráhy Scale-free sítě • reálné sítě nejsou statické (nemají pevný počet uzlů), ale vyvíjejí se dynamicky v čase, tzv. "rostou" • nové uzly se napojují nejvíce k těm uzlům, které jsou se zbytkem sítě již dobře propojeny • např. metabolické sítě E. coli jsou scale-free [Wagner, Fell, 2001] • označíme-li P(k) pravděpodobnost, že libovolný uzel má stupeň k, pak pro scale-free sítě platí následující úměra (Mocninný zákon pro konst. A): P(k) ~ k~x Pojem modelu a simulace Biologické sítě a dráhy Scale-free sítě braos-Renyi random graph Barabasi-Albert scale-free graph 1- • 10000 vertices □ 2OO00 vertices u • 0 • 10000 vertices □ 20000 vertices Number ol vertices 0 100 200 300 1 i i i A □ □ i 1 i s 1 i i J I Number ol vertices 1 10 100 1000 * □ • □ é o mma n Mi u *>o a B • 1 1 i i-^ i-1-1-1-1-1-1-1-H 200 WO 600 800 1000 1 2 5 10 20 50 100 200 500 Number o( edges (degree) Number of edges (degree) Pojem modelu a simulace Biologické sítě a dráhy Motivy ve scale-free sítích ve scale-free sítích se vyskytují specifické uzly, tzv. huby -uzly s vysokým stupněm propojení na kostru sítové struktury • ostatní uzly jsou lokálně napojeny k hubům • objeveno např. při studiu proteinové sítě kvasinky pivovarské (Saccharomyces cerevisiae) [Jeong, Mason, 2001] • díky hubům jsou sítě robustní proti náhodnému vyjmutí uzlu, ale naopak vyjmutí hubu znamená výrazné porušení sítě • tato struktura vede k hierarchičnosti a modulárnímu charakteru • jako moduly jsou identifikovány často opakující se výrazné podsítě (motivy) [Alon et.al., "Network Motifs: Simple Building Blocks of Complex Networks", 2002] http: //www.weizmann.ac.il/mcb/UriAlon/coliData.html Pojem modelu a simulace Biologické sítě a dráhy Motivy Network NwJes Edgss "ral 'Vmn-i20S 122 lSS 5 420 252 399 sBJSÍ 512 81í X Iii r ľ-V<- Z loop io j ± i y 10 1±] 18 40 1 ± 1 38 x Y BJ-lan 4 3 + 1 3,S 22 1 + 1 s: X->\ luui-A I nudu /. *—w loop 5 111 5 23 1 - ] 25 WwU WUtWifa uiUiluf 325,"?29 ].4te. 1 ■ 1 2c3± ]c2 Stí) ,* My f Hed 5í4-±4-c2 15,000 I llplinked Y-^- Z i»,d 1 ÍBfi l=4 + 2t2 5C00 Pojem modelu a simulace Biologické sítě a dráhy Predikce sítových motivů • problém: jak výrazně je podgraf v dané reálné síti zastoupen? Pojem modelu a simulace Biologické sítě a dráhy Predikce sítových motivů • problém: jak výrazně je podgraf v dané reálné síti zastoupen? • smysl: je toto zastoupení statisticky významné? Pojem modelu a simulace Biologické sítě a dráhy Predikce sítových motivů • problém: jak výrazně je podgraf v dané reálné síti zastoupen? • smysl: je toto zastoupení statisticky významné? • řešení: porovnání reálné sítě s dostatečným množstvím náhodných sítí náležících do vhodné reprezentativní třídy vzhledem k reálné síti Pojem modelu a simulace Biologické sítě a dráhy Predikce sítových motivů - ER model • počet uzlů i hran stejný jako v reálné síti • hrany náhodně rozmístěny mezi uzly • mějme orientovaný graf G = (V, E) • počet všech možných dvojic uzlů pro umístění (orientované) hrany: \V\(\V\-1) Pojem modelu a simulace Biologické sítě a dráhy Predikce sítových motivů - ER model • počet uzlů i hran stejný jako v reálné síti • hrany náhodně rozmístěny mezi uzly • mějme orientovaný graf G = (V, E) • počet všech možných dvojic uzlů pro umístění (orientované) hrany: \V\(\V\-1) • hrana může být smyčka Pojem modelu a simulace Biologické sítě a dráhy Predikce sítových motivů - ER model • počet uzlů i hran stejný jako v reálné síti • hrany náhodně rozmístěny mezi uzly • mějme orientovaný graf G = (V, E) • počet všech možných dvojic uzlů pro umístění (orientované) hrany: \V\(\V\-1) • hrana může být smyčka => máme navíc \ V\ možností Pojem modelu a simulace Biologické sítě a dráhy Predikce sítových motivů - ER model počet uzlů i hran stejný jako v reálné síti hrany náhodně rozmístěny mezi uzly mějme orientovaný graf G = (V, E) počet všech možných dvojic uzlů pro umístění (orientované) hrany: \V\(\V\-1) • hrana může být smyčka => máme navíc \ V\ možností • celkem tedy dostáváme pro výběr dvojic uzlů v orientovaném grafu: \V\(\V\-1)+\V\ Pojem modelu a simulace Biologické sítě a dráhy Predikce sítových motivů - ER model počet uzlů i hran stejný jako v reálné síti hrany náhodně rozmístěny mezi uzly mějme orientovaný graf G = (V, E) počet všech možných dvojic uzlů pro umístění (orientované) hrany: \V\(\V\-1) • hrana může být smyčka => máme navíc |V| možností • celkem tedy dostáváme pro výběr dvojic uzlů v orientovaném grafu: |\/|(|\/|-i) + |\/|H\/|2 Pojem modelu a simulace Biologické sítě a dráhy Predikce autoregulačního motivu • pravděpodobnost existence (orientované) hrany mezi dvěma uzly: M2 • pravděpodobnost existence smyčky: \V\ Pself = Pojem modelu a simulace Biologické sítě a dráhy Predikce autoregulačního motivu • pravděpodobnost existence (orientované) hrany mezi dvěma uzly: M2 • pravděpodobnost existence smyčky: _ \V\ _ 1 Pself ~ 7^2 - |T7| Pojem modelu a simulace Biologické sítě a dráhy Predikce autoregulačního motivu • pravděpodobnost existence (orientované) hrany mezi dvěma uzly: M2 • pravděpodobnost existence smyčky: IVI 1 Pself W\2 \v\ • pravděpodobnost existence právě k smyček lze vyjádřit binomicky: P{k) = (E\ksetf{l ~ Pse,)^ Pojem modelu a simulace Biologické sítě a dráhy Binomické rodělení P(K = k) = (nk)Pk(l-Py-k p=0.7 amiii=20 * p=0.5 amd.n=4G -1-1-1-1- 10 20 30 40 Pojem modelu a simulace Biologické sítě a dráhy Binomické rodělení P(K = k) = (nk)Pk(l-Py-k p=0.7 amiii=20 * p=0.5 amd.n=4G -1-1-1-1- 10 20 30 40 • střední hodnota: m(k) = np • rozptyl: v(k) = np(l — p) Pojem modelu a simulace Biologické sítě a dráhy Binomické rodělení P(K = k) = (nk)Pk(l-Py-k p=0.7 and 11=20 * p=0.5 amd.n=4G -1-1-1-1— 10 20 30 40 • střední hodnota: m(k) = np • rozptyl: v(k) = np(l - p) =>- £>(/c) = yjv(k) = np(\ - p) Pojem modelu a simulace Biologické sítě a dráhy Predikce autoregulačního motivu průměrný počet smyček v ER grafu G = (V, E): \eself\ER ~ \E\Pself Pojem modelu a simulace Biologické sítě a dráhy Predikce autoregulačního motivu průměrný počet smyček v ER grafu G = (V, E): \eself\er ~ \E\Pself ~ tÁ Pojem modelu a simulace Biologické sítě a dráhy Predikce autoregulačního motivu průměrný počet smyček v ER grafu G = (V, E): \eself\ER ~ \E\Pself ~ jy| standardní odchylka gseifER: r\E\ QselfER • např. v trnsc. síti E. coli máme \E\ = 520, | V| = 420 a tedy pro náhodné grafy ER modelu dostáváme následující charakteristiku: \eself\ER ~ 1-2 QselfER ~ 1-1 Pojem modelu a simulace Biologické sítě a dráhy Z-skóre motivu • Z-skóre kvantizuje statistickou signifikanci jevu • dáno počtem standardních odchylek které odlišují reálnou sít od třídy náhodných grafů ER modelu Z _ \Eself\real ~ \eself\ER QselfER Pojem modelu a simulace Biologické sítě a dráhy Z-skóre motivu • Z-skóre kvantizuje statistickou signifikanci jevu • dáno počtem standardních odchylek které odlišují reálnou sít od třídy náhodných grafů ER modelu Z _ \Eself\real ~ \eself\ER QselfER • pro autoregulační motiv máme v síti E. coli 40 smyček, a tedy Z-skóre autoregulačního motivu v této síti je Pojem modelu a simulace Biologické sítě a dráhy Z-skóre motivu • Z-skóre kvantizuje statistickou signifikanci jevu • dáno počtem standardních odchylek které odlišují reálnou sít od třídy náhodných grafů ER modelu Z _ \Eself\real ~ lese/f|rfí QselfER • pro autoregulační motiv máme v síti E. coli 40 smyček, a tedy Z-skóre autoregulačního motivu v této síti je Z = ^^~35 1.1 • to prokazuje signifikantní zastoupení tohoto podgrafu v reálné síti E. coli • typicky považujeme za signifikantní Z > 2 Pojem modelu a simulace Biologické sítě a dráhy Predikce víceuzlových motivů • uvažujme podgraf Sq = (Vs, E$) grafu G = (V, E) t.ž. Vs Q V, E$ Q E a zaveďme značení v$ = \ V$\ a e$ = \E$\ • předpokládejme vs > 1 • problém: kolik je průměrně výskytů podgraf u Sq v náhodných sítích ER modelu vzhledem k G (až na izomorfismus)? • vybíráme vs uzlů: | V\ ■ (| V\ - 1) • • • (| V\ - vs + 1) ~ \V\VS • mezi něž umistujeme es hran: pes předpokládejme Sc t.ž. existuje a izomorfních variant • řešení: průměrný výskyt podgraf u Sc v ER lze aproximovat: o{SG,G) ~ -\V\Vspes Pojem modelu a simulace Biologické sítě a dráhy Predikce víceuzlových motivů - nástroje • NetMatch -http://baderlab.org/Software/NetMatch • plugin aplikace Cytoscape • verifikuje zda zadaný podgraf je motivem v dané síti • detekuje instance daného motivu přímo v grafu • reflektuje různé typy hran a uzlů • simuluje na základě randomizace grafu (Barabasi-Albert) Pojem modelu a simulace Biologické sítě a dráhy Predikce víceuzlových motivů - nástroje • mFinder - http://www.weizmann.ac.il/mcb/UriAlon/ groupNetworkMotifSW.html • umožňuje plnou enumeraci i samplovaní • vizualizace grafů pomocí mDraw Kashtan, N., et al., Efficient sampling algorithm for estimating subgraph concentrations and detecting network motifs. Bioinformatics, 2004. 20(11): p. 1746-58. • FANMOD - http://theinfl.informatik.uni-jena.de/ -wernicke/motifs/index.html • umožňuje plnou enumeraci i samplovaní • neumožňuje vizualizaci, vytváří HTML report S. Wernicke and F. Rasche. FANMOD: a tool for fast network motif detection. Bioinformatics, 22(9):1152-1153, 2006. • MAVisto - http://mavisto.ipk-gatersleben.de/ • umožňuje vizualizaci výsledků • obsahuje editor grafů Schreiber, F. and Schwobbermeyer H.: MAVisto: a tool for the exploration of network motifs. Bioinformatics, 21, 3572-3574, 2005. Pojem modelu a simulace Biologické sítě a dráhy Základní literatura Q Alon, U. An Introduction to Systems Biology: Design Principles of Biological Circuits. Chapman & Hall, 2006. U| Kita no, H. Looking beyond the details: a rise in system-oriented approaches in genetics and molecular biology. Curr Genet., 2002. Q Ellner, S.P. and Guckenheimer, J. Dynamical Models in Biology. Princeton University Press, 2006. [j| Bolouri, H. Computational Modeling of Gene Regulatory Networks - a Primer. Imperial College Press, 2008. Pojem modelu a simulace Biologické sítě a dráhy Doplňující literatura U Palsson, B. Systems Biology: Properties of Reconstructed Networks. Cambridge University Press, 2006. 0 de Vries, G. et al. A Course in Mathematical Biology: Quantitative Modeling with Mathematical and Computational Methods. S.I.A.M., 2006. Q Edelstein-Keshet, L. Mathematical Models in Biology. S.I.A.M., 2005. U Wilkinson, D.J. Stochastic Modelling for Systems Biology. Chapman & Hall/CRC Mathematical & Computational Biology, 2006.