Osnova Analýza expresních dat -Analýza dat v literatuře 'Ariadne Genonics Poly-A RNA cDNA 10% Biotin-labeled Uracil Antisense cRNA N/ 5,/ S./. Hybridize Wash/stain DIDDID DDDDDD DIDIDD DDBDDD DDDDDB DDDDDD Analýza expresních dat - nqčastěji slouží k vytvoření obrazu o expresi genů - možno je považovat za jakýsi molekulární fenotyp - využití tam, kde fenotyp neposkytuje dostatek informací (výzkum funkce gen ů, medicínská diagnostika) - vyžadují použití méně běžných metod statistiky (p»n) - redukce rozměru daného problému, shlukování Anáýza expresních dat Anáýza expresníd - izdaoe mRNA, příprava cDNA, značení - příprava sklíček se sondami, hybridizaoe, omývání - čtení signálu na jednotlivých pozicích po hybridizaci, primární data -analýza dat Analýza expresních dat r r PRIMÁRNI ČATA Jednotlivé pozice odpovídsýí různým sekvencím DNA, intenzita signálu stupňu jq ich přítomnosti ve vzorku. Aralýza expresních dat - rozpoznávání obrazu Analý za expres >ní nnnnnn nanana naanan nnnann nnnana nannnn HDDDDD q b n a n b n p a n n n nnnann r/nnana žannnn DIDDD0 n n a n nfi n a n a qn n n a n 3n nnnnna DDDIDS nannnn nnnnnn nanann nnannn nnnnna nnnann x---------------^ ich dat 83 112 96 32 47 382 165 87 55 246 140 93 104 552 187 65 Analýza expresních dat - měření s nízkým počtem opakování - rozpoznávání obrazu - převod na matici číselných hodnot - normalizace - statistika jednotlivých pozic (průměrná hodnota, rozptyl, eliminace extrémních hodnot, atd.) - kontrast: dvě sady experimentálních podmínek - shluková analýza (clustering) - analýza v kontextu funkce - analýza v kontextu sekvence (gen, promotor) - analýza časových řad (koregulovane geny, periodicita) Analýza expresních dat Analýza časových řad Analýza expresních dat Komplexní data z více časových řad 6773 Analýza expresních dat - medicína Rakovina - nekontrolované dělení buněk v důsledku mutace (onkogény, supresory nádorů). Měření genové exprese nachází uplatnění v diagnostice. »i b mr tH i .ilipi ■ ■ • ••• ■ ■ »••■ ...... ■4 ■■■■■■ - o jaký druh rakoviny se jedná ? - jaká je prognóza pro daný druh ? Analýza expresních dat - medicína Rakovina kostní dřeně - leukémie Myelogenní, lymíbcytická, akutní, chronická ? Acute Myelogenous Leukemia (AML) Acute Lynnphocytic Leukemia (ALL) Není produkováno dostatečné množství krvi nek Anemia -> slabost, infekce, snížená sráženi i vost krve AML: 10,000 případů ročně ALL: 3,500 dospělí / 2,400 novorozenci AML nebo ALL? Analýza expresních dat - medicína Dagnáza ve specializované laboratoři ALL: 58% pravděpodobnost přežití AML: 14% pravděpodobnost přežití Léčba: Chemotherapie, transplantaoe kostní dřeně ALL: oortioosteroidy, vincristin, methotrexat, L-asparaginasa AML: daunorubián, cytarabin Správná diagnóza je vel ioe důležitá pro nasazení správné léčby Mcroarray - mohlo by podporovat rozhodování Aralýza expresních dat AML ALL c = n, i. u. i.i.o, o,o,oho,o) gen«! - (etl e£l ej.....e^) gene? = (ei, ez, eJf . . . , eiř) La _ _ _ _ , _ l_ r. n h! íl rnJLnnJlnJlrui Analýza expresních dat Sample l Sample 2 ■ S »u pie n Gene 1 Gene 2 i. | - vi f i) i-* s Fi + ft Expression Profile -----------m- Gene p Al.]. AMI. r mf n i U2Z TTfii ľl . NlJllM.'ll.i.KVJII.'l ÍÍB-LÍU8H»S IvLlinĽl.ífH'lĽlfíJ Ur.iliľ.llfUĽtniil IM M U t] lllv^f. I VN2ÍÍÍI Wl'2 iPJftl SHi] iiirľ i (ssajsj) ľ.V. |M1IÍ7(J lii- inhlr prt Irin [WrF3BJ thm.....tin thpi»ir.W« Ttiriilsiii.LTin-1| p Lľ' S1151 imjiMiW«:: mii-|líy;-.i*)!>> ZjjrnfXSinS) I.TT4cjn*M<,!U,;0t,V! CTO3 mtUtíŕT) íd.piii.ll.TUJÍ-W) 1 j-. I I:II ■■■ i ii i ^ I2*iľ n rynai/iií-;M:jw:i PinkvClvjiii l ;ľ> !»► ' ■I - :í,-i 11..L.H o:«:'»íi .^■VN-Kuli :m:>íí?m p«:ii!'«fíii Cy»[M(ea4| .Yľľ.nMlJĽHIil!) IL ÍIMZíľlll takTuliDlMníH». |ji_Mi.:M;:7irt> Mfl J-.HMIŕJ'J.I) ! LíllĽ MBlťttl L.miinitiľlWJiii IVi|™|.i.:Mh.)uS2b tMIilut-WMUříl -1.fi 3 ?.ä In» •1 -D.fi C 0.5 1 Nnnmiliľľil ľ.npiVľ«inn 1.5 hii'!i Analýza expresních dat Řádky: jednotlivé geny Sloupce: vzorky, pacienti Aralýza expresních dat m ITT <& eď........ ■^ i i r i ■ ii" I Fatal ŕ Refractory I'll ■■■■■!' ■■---- I I I I------•—!------■---------■—"—> I II II II I II III iiiiiiii um iiiiiiiiii i mi n i hi; i ■ i H D 3 II lllllll llll III! II II II II II n ill n i i : n t n i hi ii n i i i ■ i líniu n i ill n i u L ' M I II II III ■■■■■■■■■ r*ťi. Hadtli usii*aCt[w Bytiam fttei«! p*H<* P &9 SliTP dJ ixftrown pmlih íí UrwhnrocijerinJ 57 P-f.:ŕ:ľ k ■ m> C 31 nma SJ MWQPJM0A1 *í írŕ+Fii:*>>trpítiriníi ĚĎ 'taceptar řj Hljl H TnnrdiKiiKltamihiincorpraíDri 1 :-h PDEiQ u Und:arítfjeriieJ 55 Pirov kťvimC-tsiĽi-1 Sí CM0wlfll*5«nřlíin H řrtK.ftnpw pidůnCrtťi.llO v •35 -Jo -jo 4 *1q »Zq +3? Analýza expresních dat Cured I Refractory Dystrophin related protein 2 Protein kinase C gamma MINORŕNÚRI S-Hycfroxytryplamine 2B receptor Cytoplasmic antiprolefnase 2 Seteotín E Insulin-1 ke growth factor 2 E2F-2 Fucosyltransferase 1 Calhepsin E NRAMP1 Lymphotoxin Beta-? Integrin alpha D H731 TLEP1 PDE4B Protein kinase C ceta-1 O vi ductal gylcoproteíri Zinc-finger protein C2H2-150 MRG1 Beta'Vu'Dulin Sta15b Protein kinase C beta-1 IK Vascular enootheliel growth factor Cyclin-cfependent kinase inhibitor 2A While Protein Homolog Protein kinase C beta-2 Analý expresních dat Problém - data jsou smíšena Analýza expresních dat Statistický progranr/programovací prostředí R http://www.stat. uni-nijeixhen.de/-strimnrer/notes/rexpress. html Jazyky a prostředí používané bioinformatiky UNIX Perl/Python aC++/Java R/MathlstyMathematica CO, client/server SQL Analýza dat v biomediánské literatuře Hlavním úložištěm našich znalostí o aktivitě a funkci genů/protánů je vědecká literatura. Bionformatickou analýzou těchto textů lze identifikovat skryté závislosti, které mohou být způsobeny vzájemnou interakcí genů/proteinů, jqich společnou funkcí nebo jinými vztahy, které nebyly předmětem cíleného zkoumání. Analýza dat v biomediánské literatuře Graf znázorňuj id spoluvýskyt proteinů ve vědeckých článcích. Každá hrana grafu představuje samostatný článek v databázi PubMed. Analýza dat v biomedicínské literatuře ■STEIC :iG1 HOG! CelEyclePheromoie PubMed STI'S DIG1 H0C1 CelC^lŕ PneroTKie Konstrukce matice spoluvýskytu jednotlivých termínů, kterými mohou být například názvy gen ů, funkce z GO a pod. Analýza dat v biomedicínské literatuře Analýza dat v biomedicínské literatuře PubMatnx http://pubmatrix.grc.nianih.go\/ Analýza dat v biomedicínské literatuře 21t|2ř£ Společný výskyt výrazu "autoimunita" a názvu chromozómu nebo jqich časti. Analýza dat v biomedicínské literatuře - tokenizace a vyhledání základního tvaru ((3,4)-metyl 1-hexanol) - identifikace názvů genů a proteinů (ID) - mapování volného textu na GO kategorie (sensitivita 60%, specificita 90%) - mapování ID dvou protánů vyskytujících se ve volném textu na zjištěný vztah (např. protein Aje enzymem a protán B substrátem reakce &B katalyzované proteinem A a popsané termínem GO) Analýza dat v biomedicínské literatuře MEDLtNE Abs tracts r Preprocessor Tagged sentences^ zsz Token i ze r Sequence of tokens Recognizer * ------~ »eouence of wot descriptors Syntactic Parser Syntactic Pars b Semantic Interpreter Semantic Pars« Protein names Token Templates Lexicon Grammar 540% chybná jednotlivých stupních analýzy Fig! 1. The components and processing steps of ihe MedScan sy fitem. Ariadne Genomes http://www.ariadnegenonics.confy Ariadne ůenůmics devebps user-friendly software took; for bbbgists ir the areas of pathway analysis, sequence data management and automated scientific text processing. Ariadne Genomics products incarponate proprietary Natural Language Processing ÍNLP) and statistical algorithms designed to functionally interpret novel genetic information