IV107 Bioinformatika I -Přednáška 8 IV107 Bioinformatika I Přednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů Katedra informačních technologií Masarykova Univerzita Brno Podzim 2019 Cesta k údajům o expresi IV107 Bioinformatika I Přednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů IV107 Bioinformatika I -Přednáška 8 Budding Yeast Cell Genes THE ACTIVITY OF GENES IN TWO DIFFERENT YEAST CELLS Fluorescentiy Tagged DNA Strands (green) The two DNAs are mixed and washed over the fixed DNA on the microarray. where they stick to complementary sequences, mRNA from Active Genes porulating Yeast Cell Fluorescentiy Tagged DNA Strands (red) Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů (INA Wrrrarnu IV107 Bioinformatika I -Přednáška 8 A scanner measures the fluorescence of each dye separately, The higher ratio of red to green fluorescence at the spot labeled JlPt for instance, shows that the JEPl gene is expressed more highly in sporulating than in budding yeast ceils. Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů S1 Nasnímaný obraz z DNA čipu vypovídá o přítomnosti DNA určité sekvence ve vzorku IV107 Bioinformatika I Přednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů m mm » I ■ • I « 1 » * I * a • ■ ■ * ■ ■ • * ■ ■ , • * . • l • * m t «■«•1.1» * 1 *t ■ " ;( i' • a • a a ••»-•** I • • > • ♦ • - ■* i - * * * * * 4 • . - ■ ■< <•• «fl f. i a » ■ « • *■*•a itta « ■ i • « la • »• ' * • • • • i b r'w m 1 » • •? ar • I * » a a ■ ■ ■ ř» •>* • • > a ■ « ' • - * -mém ■ ■ • «• . 1 % • ••••-» ■ • . . . , ■ • § ■ ■ 4 • ■ > a * ■ I ■ » | » ť * . « t | - ff m t mm i i • m m mm mm- tm ■ ■ ■ ■ >•• '•>•.•>•*'« » - 4 * i * ■ * * !***••<■ «i ■, !" -i í: * ....bil.. «é*t a . i ■ • > • ■ • ■ ■ ■ «1.» ■ aj - . . a » • • • - . »■ - - •.....* ■ » i # ■ • % i ■ bj # i > » 4 « 4 • * B # a b ■ • a a a ■i ■ ■ é ■ i i > * * ■ >* • ■ m * • *' • m m * »■ * • a a - . a «a a • l»a - ■ p a - * -p- b • • »«• • * a *a ■ i> ■ m m m a » IV107 Bioinformatika I -Prednaska 8 Factory-made DNA chips such as this one are produced with techniques normally used in the semiconductor industry. Postup při zpracování RNA-seq dat Analysis Pipeline Sampäel.fq Sample _ŕq i Alignment software (RNA-STaR. GSNAP; TopHatS, etc} u ... Samplel.bam SampleZ.bam r v v qpRTs Data Processing Utility (Java) J ■ Annotation GľF file i r"- Chrümoiüm^ slzefile —"i _> tompari sun package j R) ÉKlemaE Ullutiea. DESeqi, DExSeq, edgeR, U£SC browser, IGV, etc, L irrol jn plots. Analysis results Genome-w ids visual iiation IV107 Bioinformatika I Prednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů Převzato z Hartley & Mullikin 2015, BMC Bioinformatics 16(10:224) Postup při zpracování RNA-seq dat IV107 Bioinformatika I -Přednáška 8 [ FASTQ files] low-quality r cnci5 with uncalled NNACGANNNN reads -1 [ bases - J í -> corrupted FA5TQ fl íes Quail ty control FASTQC & FAST* I Contamination: - Bacterial (Vertebrates); - Microbes and Fungi (Plants) f 1 f \ Reference genome Alignment GTF/GFF file (FASTA format) TopHat2 with gene model I 3AM/CRAM files Gene expression quantification HT5eq2 1 BASELINE EXPRESSION FPKM T" Quantile normalization DIFFERENTIAL EXPRESSION Differential analysis DESeq2 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů https://www.ebi.ac.uk/training/online/course/functional-genomics-ii-common-technologies-and-data-analysis-methods/differential-gene Uplatnění v medicíně IV107 Bioinformatika I -Přednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů Rakovina nekontrolované dělení buněk v důsledku mutace (onkogeny, supresory nádorů). Měření genové exprese nachází uplatnění v diagnostice rakoviny. ► o jaký druh rakoviny se jedná ? ► jaká je prognóza pro danou diagnózu ? Rakovina krvi nebo kostní dřeně leukémie IV107 Bioinformatika I -Přednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů ► Myelogenní, lymfocytická, akutní, chronická ? ► Acute Myelogenous Leukemia (AML) Acute Lymphocytic Leukemia (ALL) ► Není produkováno dostatečné množství krvinek ► Anemie slabost, infekce, snížená sráženlivost krve ► AML: 10,000 případů ročně ► ALL: 3,500 dospělí / 2,400 novorozenci ► AML nebo ALL ? Diagnóza ve specializované laboratoři ► ALL: 58 ► AML: 14 Léčba: Chemotherapie, transplantace kostní dřeně ► ALL: corticosteroidy, vincristin, methotrexat, L-asparaginasa ► AML: daunorubicin, cytarabin Správná diagnóza je velice důležitá pro nasazení správné léčby Microarray může podporovat rozhodování Příklad sady genů, které korelují s IV107 Bioinformatika I Přednáška 8 prognózou Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray v klasifikaci nádorů m mn mnu iimími Fatal / Refrscior 11 i m ii 111 11 i m mu mi 11 01 i n ii ■ n i ii ni i i i i i iiiimi um iiiiiiiiii i m n n i mi 111 1111 um mmii i u m n i u um..... i n imiii mi mi n n n m m i m IIIIMIIIMHHIIIIIIIIIII u i i i n mi i hup u i i n n i ii i i II II III II 11 11 i i II II mi um mi ii i n nim i m i li 11 n i i m i i n 11111 limu n 1 11 111 MůiMadrfi rijYrWhň ii-A-HÍ;^li.Éiř 31ÍTP <Á L/tfrawu proton Urtdinrtciflrithl il Fmtftir kň«# C ů^urTifl i7 W i^tydaifrlriptinra Efl ^(K«0ly tl H7JI n fnnrriiicír ifliíintuncwFíůinin 1 PDCaB n ä Pínair hf^w C-híLi-1 3,; -1(1 4 i\f l?0 *3íl Analýza expresních dat IV107 Bioinformatika I -Přednáška 8 Získávání expresních dat ► měření s nízkým počtem opakování ► rozpoznávání obrazu ► převod na matici číselných hodnot Příklad použití microarray dat v klasifikaci nádorů Analýza expresních dat Uplatnění v medicíně ► normalizace ► statistika jednotlivých pozic a genů (průměrná hodnota, rozptyl, eliminace extrémních hodnot, atd.) ► kontrast: dvě sady experimentálních podmínek ► specifika: n >> p ► PCA, LDA, shluková analýza (clustering), strojové učeni ► analýza v kontextu funkce (GO, KEGG) ► analýza v kontextu sekvence (blízké motivy a geny, zvláší promotor) ► analýza časových a prostorových řad (koregulované geny) Co je to expresní profil? Sample I Sample 2 GřiK I Gene 2 ■ ■ Sán pit ri i 1 I a c hi Expířssion Profile- IV107 Bioinformatika I Přednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů Jak zjišiujeme podobnost dvou expresních profilů či jejich schopnost klasifikovat vzorek? IV107 Bioinformatika I Přednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů '■L_ c =(1,1,1,1,1,1,0,0,0.0,0,0) geoe, - Hierarichické aglomerativí zhlukování IV107 Bioinformatika I -Přednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů i 1 I ' 1 I 1 1 1 r^l ^ II 1 ,rp 1 1 lilii lil □ r5> 4367031610 Jak funguje klasifikace do více tříd MULTICLASS PREDICTION Breast OVA Meíanoma OVA CNS OVA Classifier 1 Érif Classifier 7 B Classifier 14 4 ALL OTHER OOo ✓ o oy o Hyperplane t-r. O Q o BREAST Confidence Test Sample Í Breast (High Confidence Prediction) a *m IV CO LT IL ML Iff U NI PA CV H CMS IV107 Bioinformatika I Prednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů ita predikcí s různými stupni polehlivosti IV107 Bioinformatika I Přednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů Training A % Test A % PD A % 5 -l 3 2 1 100% 1« • 100% 2% - OH 100% 1% 0% 0% • 100% 4% V 100% 3% 0% " 'i* A. 100% 28% 3f 94% 47% ,j .88% 15% "U i" 81% 57% * 100% 10% • 38% 38% 1 * ÍS 29% 19% • " - 58% 22% 18% 52% Correct Emxí Correct Errors Correct Errors Počet genů potřebný k úspěšné klasifikaci o 80 -70 -60 -50 -40 - O < 30 H 20 -10 -0 SVM OVA k-NN OVA SVM AP k-NN AP WV AP WVOVA 10 100 1000 10000 100000 Genes per OVA Classifier IV107 Bioinformatika I Přednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů Spolehlivost klasifikace IV107 Bioinformatika I Přednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů Train Predicted Class O 75 o < BL BR CNS co LE LU LV ME ML OV PA PR RE UT fl BL G3% 13% 13% 13% 8 BR 88% 13% 8 CNS 100% 18 CO 13% 76% 13% 8 LE 100% 24 LU 15% 13% 13% 50% 13% 8 LY 100% 18 ME 100% 8 ML 13% •3% 13% 13% 8 OV 13% 13% 38% 13% 25% 8 PA 13% 13% 13% 63% s PR 13% 13% 75% 8 RE 13% 13% 13% 63% s UT | [ 13% 8B% B « I ' 11 16 10 24 5 16 10 a S G 7 6 9 144 IV107 Bioinformatika I -Přednáška 8 Získávání expresních dat Uplatnění v medicíně Analýza expresních dat Příklad použití microarray dat v klasifikaci nádorů