1 Principy microarrays Pavla Gajdušková Analytická cytometrie, 19. listopadu 2013 Microarrays Kolekce DNA sond přichycených k pevnému podkladu Fotolitografie„Tištěná“ microarrays Microarray technologie I. Výběr sond (probes): cDNA vektory, BAC vektory, krátké nebo dlouhé oligonukleotidy, proteiny, tkáně II. Příprava microarray: nanesení sond na sklo nebo membránu III. Design experimentu: zvolení správné metody, použití referečního vzorku, záměna fluorescenčních barev IV. Fluorescenční značení vzorků V. Analýza microarray obrazů: nalezení sond v obraze, korekce pozadí, výpočet intenzity v jednotlivých bodech IV. Analýza dat: filtrování, normalizace, porovnání výsledků získaných z více microarray experimentů – klastrovací analýza exprese proteinů (ELISA)proteinprotilátkyProtein všechno dříve zmíněné, sekvenování, anotace genů všechno dříve zmíněnéDNATilling místa vazby transkripčních faktorů, modifikace histonů DNA (ChiP obohacená) DNA (promotorové oblasti ~ 1kb) Promoter míra metylace promotorových oblastí DNA (ovlivněná bisulfidem sodným) DNA (CpG islands)Metylace detekce „Single Nucleotid Polymorphysms“; změny v genomu DNADNA (oligonukleotidy) SNP změny v genomu (zisk, ztráta chromozomů nebo jejich částí DNADNA (BAC vektory, oligonukleotidy) CGH měření množství miRNAmiRNAoligonukleotidymiRNA měření množství mRNA v bunkách, nádorech ... cDNA / mRNADNA (cDNA, oligonucleotidy) Expresní ... analýza čeho Co se fluorescenčně značí a hybridizuje Sondy na microarray Typ array Oblasti použití microarrays v biologii 2 Oblasti použití microarrays v biologii DNA RNA protein transkripce translace Oblasti použití microarrays v biologii DNA RNA protein Schena M., Shalon D., Davis R. W., Brown P. O. Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science 270: 467-70, 1995. transkripce translace Genová exprese Exon1 Exon2 Exon3 Exon4 Exon5 Exon6 mRNA Intron1 Intron2 Intron3 Intron4 Intron5 DNA 5’ 3’ transkripce translace protein ATG STOP untranslated regions Genová exprese Exon1 Exon2 Exon3 Exon4 Exon5 Exon6 mRNA Intron1 Intron2 Intron3 Intron4 Intron5 DNA 5’ 3’ transkripce cDNA zpětná transkripce (RT) cDNA: jednořetězcová DNA (v dalším kroku je možné syntetizovat druhý řetězec) u genů s dlouhou mRNA nemusí vznikat vždy celá cDNA 5’3’ 3 Metody měření množství mRNA From Lee N. H. presentation: Introduction to High Density Microarrays •RT-PCR and Real-time RT-PCR Měření množství mRNA (microarrays tištěné pomocí skleněných kapilár) Microarrays tištěná pomocí skleněných kapilár I. dlouhé oligonukleotidy: ~ 60 - 70mers komerčně dostupné (Operon, Agilent) II. cDNA: knihovny cDNA vektorů (IMAGE, MGC) dostatečné množství DNA se vyprodukuje pomocí PCR (univerzální primery pro daný typ vektorů) 5’ 3’ mRNA dlouhé oligonukleotidy c DNA Typ sond 4 Experimentální design Příklady použití v molekulární biologii (na úrovni mRNA): • aplikace chemické látky na buněčnou kulturu a její vliv na expresi různých genů (najít geny, které sníží nebo naopak zvýší expresi mRNA) • zvýšení exprese mRNA zvoleného genu vnesením plasmidu → nalezení dalších genů se změněnou expresí • snížení exprese mRNA zvoleného genu po vnesení specifické siRNA → nalezení dalších genů se změněnou expresí Experimentální design Porovnání exprese mezi vzorky: Loop design: každé dva vzorky jsou hybridizovány na jedno sklo (plus vzájemná záměna fluorochromů) Reference design: každý vzorek je hybridizován s referenčním vzorkem, který pak slouží jako převodník mezi různými vzorky A E C AB DB ECA DB R ??? E CA D B E CA D B1. 2. Loop design poskytuje přímé srovnání mezi vzorky o každém vzorku získáme více informací - kontrola vyžaduje větší množství RNA z každého vzorku špatný vzorek více ovlivní celý experiment Reference design lze jednoduše rozšířit o nový vzorek jednodušší interpretace výsledků vyžaduje méně RNA ze vzorků špatný vzorek méně ovlivní celý experiment Experimentální design Měření množství mRNA (fotolitograficky připravené microarrays) 5 Fotolitografický způsob přípravy (Affymetrix) sondy = oligonukleotidy délky 25 bazí sondy = oligonucleotidy 45-85 bazí podobná teplota tání (Tm) Fotolitografický způsob přípravy (NimbleGen) Typ sond oligonukleotidy 25 bazí Perfect Match vs MisMatch oligonukleotidy PM MM cDNA Dříve: sondy blíže k 3’ konci mRNA 11-16 na jeden gen PM, MM sondy Typ sond oligonukleotidy 25 bazí Nyní: sondy v různých exonech genu (ideálně 4 sondy v každém exonu) jenom PM sondy umožňuje studovat alternativní sestřih 6 Experimentální design Příklady použití v molekulární biologii (na úrovni mRNA): • aplikace chemické látky na buněčnou kulturu a její vliv na expresi různých genů (najít geny, které sníží nebo naopak zvýší expresi mRNA) • zvýšení exprese mRNA zvoleného genu vnesením plasmidu → nalezení dalších genů se změněnou expresí • snížení exprese mRNA zvoleného genu po vnesení specifické siRNA → nalezení dalších genů se změněnou expresí Měření množství mRNA (Allumina samosestavovací arrays) Samosestavování silikonových kuliček základní stavební jednotka: silikonová kulička (3uM) kulička nemá přesně dané místo na sklíčku, po fixaci na sklíčku je její typ identifikován díky sekvenci části oligonukleotidu oligonukleotid: I. adresa (definuje typ kuličky) II. vlastní sonda - oligonucleotid (50 bp), který je specifický pro jednotlivé transkripty míra exprese mRNA = intenzita fluorescence navázané cRNA Objevování nových transkriptů objevování nových transkriptů, které nejsou ještě ve veřejných databázích (např. SeqRef, Emsembl) nebylo to možné pomocí výše zmíněných technologií, protože ty jsou založené na znalostech obsažených v databázích Řešení: tilling arrays (Affymetrix) mRNA sequencing (Illumina, SOLID, Torrent, Roche 454) 7 „Tilling“ arrays sondy na sklíčku pokrývají kompletně určitou oblast genomu popř. celý genom repetitivní sekvence nejsou pokryty (před návrhem sond jsou odstraněny pomocí programu „RepeatMasker“) sondy: oligonukleotidy např: 14 arrays, každé obsahuje 2x 3 250 000 sond 25 bazí sonda, PM a MM, mezera mezi sondami 10 bazí po hybridizaci s fluorescenčně značenou cRNA „svítí“ sondy, které představují transkribovaná místa ve studované oblasti (genomu) sondy v místech „bez transkripce“ mají intenzitu fluorescence na úrovni pozadí lze detekovat nové exony, jejich alternativní sestřih mRNA sequencing objevování nových transkriptů pomocí sekvenační technologie není potřeba navrhovat, tisknout nebo syntetizovat sondy mRNA first strand cDNA double-stranded cDNA fragmentace sekvenace ligace adapterů mRNA sequencing Použití microarrays ke studiu DNA Komparativní genomická hybridizace BAC arrays oligo arrays SNP arrays tilling arrays (BAC a oligonukleotidy) exon-specific arrays (dříve i cDNA arrays používané pro expresi) Genotypování SNP arrays Sekvenování Re-Sequencing arrays ChIP-Chip exprerimenty tilling arrays (oligonukleotidy) 8 Komparativní genomická hybridizace (CGH) molekulárně cytogenetická metoda, která slouží k analýze změn obsahu DNA v živých organismech (delece, zisk, amplifikace různých oblastí genomu) porovnávání intenzity fluorescence zkoumaného vzorku DNA a normálního diploidního vzorku DNA v různých místech genomu Komparativní genomická hybridizace (CGH) Mantripragada et al. Trends in Genetics 2003 metafázní chromozomy - dárce s normálním diploidním karyotypem DNA: cy3 zkoumaný vzorek cy5 referenční DNA – 2n From Szuhai K. presentation: Determination of Genomic Imbalances by Genome-wide Screening Approaches Komparativní genomická hybridizace (CGH) rozlišení ~ 20MB From Szuhai K. presentation: Determination of Genomic Imbalances by Genome-wide Screening Approaches Komparativní genomická hybridizace (CGH) 9 From Szuhai K. presentation: Determination of Genomic Imbalances by Genome-wide Screening Approaches Komparativní genomická hybridizace (CGH) „Array“ komparativní genomická hybridizace (Array CGH) chromozomy nahrazeny body na mikroskopickém sklíčku, které obsahují specifické DNA sekvence Typy sond natištěných na microarray sklíčku BAC klony až 32 000 BAC klonů na jednom sklíčku ~ 160 kb dlouhé úseky DNA Oligonukleotidy 25 – 80 bazí dlouhé oligonukleotidy mohou pokrývat i celý genom (repetitivní sekvence jsou vynechány) známe polohu a pořadí všech sond v lidském genomu Array CGH s použitím BAC klonů Log2Rat = Log2 R/G Log2Rat = 0 2 kopie Log2Rat = 0.5 3 kopie (“gain”) Log2Rat = 1 4 kopie (“gain”) Log2Rat = 2 8 kopií (“amplification”) 2464 BAC klonů UCSF HumArray3.1 Log2Rat = -1 1 kopie (“loss”) Log2Rat < -1 homozygotní delece 10 Array CGH - oligonukleotidy (NimbleGen) Selzer RR et al. Genes Chromosomes Cancer, 2005 6-kb median probe spacing 50- or 140-bp median probe spacing SNPs SNP = single nucleotide polymorphism jednonukleotidové variace, které jsou náhodně rozmístěny v genomu (bodové mutace rozšířené v populaci) nukleotidová variace, která se vyskytuje alespoň u 1% jedinců v populaci předpokládaný počet SNPs: 10 milionů výskyt specifických SNP spojen s predispozicí k určitým chorobám SNP Arrays – probe design (Affymetrix) From Xiao Y. presentation: Exploration and Analysis of Affymetrix SNP Arrays. Center for Bioinformatics & Molecular Biostatistics, UCSF Division of Biostatistics SNP Arrays – probe design From Xiao Y. presentation: Exploration and Analysis of Affymetrix SNP Arrays. Center for Bioinformatics & Molecular Biostatistics, UCSF Division of Biostatistics 11 SNP arrays x expression arrays From Xiao Y. presentation: Exploration and Analysis of Affymetrix SNP Arrays. Center for Bioinformatics & Molecular Biostatistics, UCSF Division of Biostatistics SNP Arrays - APEX technologie APEX = Arrayed Primer Extension Kurg A. et al., Arrayed primer extension: solid-phase four-color DNA resequencing and mutation detection technology. Genet Test 4:1-7, 2000. Velké studie SNP HapMap projekt: mezinárodní projekt, jehož cílem je identifikovat a katalogizovat SNPs v lidské populaci a vybrat z nich „tag“ SNPs, kterými se skupiny lidí odlišují SNPs, které jsou na DNA blízko sebe se také společně dědí a určují haplotyp dané skupiny lidí „tag“ SNPs odlišují dané haplotypy HapMap kolekce lidské DNA 270 vzorků DNA populace: Nigerie 30 trojic vzorků (matka, otec, dítě) Japonsko 45 nepříbuzných vzorků Čína 45 nepříbuzných vzorků USA 30 trojic vzorků (matka, otec, dítě) HapMap projekt http://www.hapmap.org/index.html.en The International HapMap Consortium. A second generation human haplotype map of over 3.1 million SNPs. Nature 449, 851-861. 2007. The International HapMap Consortium. A Haplotype Map of the Human Genome. Nature 437, 1299-1320. 2005. 12 Velké studie SNP Wellcome Trust Case control Consortium. Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls. Nature. 2007 Jun 7;447(7145):661-78. 3000 zdravých jedinců 2000 pacientů bipolar disorder (1 SNP) „ coronary artery disease (1 SNP) „ Crohn’s disease (9 SNPs) „ hypertension „ rheumatoid arthritis (3 SNPs) „ type 1 diabetes (1 SNP) „ type 2 diabetes (3 SNPs) Studovali 500 000 SNPs pomocí Affymetrix microarrays P value < 5x10-7 Odchylky od referenčního genomu větší než 1kb ještě v roce 2003 se myslelo, že většina „zdravých“ lidí se od referenčního genomu liší velmi nepatrně (SNPs, mikrosatelity) array komparativní genomická hybridizace odhalila mnoho větších oblastí DNA, které se u zdravých lidí vyskytují v různém počtu DNA segment (většinou větší než 1 kb), který se u daného jedince vyskytuje v jiném počtu kopií než v referenčním lidském genomu existuje mnoho takových oblastí v genomu (řádově tisíce) “Database of Genomic Variants” http://projects.tcag.ca/variation/ Copy number polymorphism – výskyt u více než 1% jedinců dané populace Využití HapMap kolekce ke studiu copy number variant všichni jedinci v této kolekci byli zdraví, přesto se našlo velké množství oblastí DNA (12% genomu), které se u těchto lidí nacházejí v různém počtu kopií Copy number variation hledání fenotypových projevů CNV („neškodná“ genomová varianta nebo příčina nemoci???) CNV: pathogenic x benign x unknown clinical significance vnášejí „zmatek“ do experimenů, které např. hledají příčinu vrozených genetických poruch (mentální opožděnost, vývojové odchylky) Copy number variation 13 Chromatin ImmunoPrecipitation on chip ChIP-Chip Nalezení vazebného místa 256 kb oblast 1p32 pokrytá překrývajícími se PCR produkty (~400 bp) protilátka: trimethylace histonu H3 Lys4 Carter and Vetrie 2004 Human Mol Genet Úvod do statistického hodnocení dat Předpříprava dat pro statistické hodnocení analýza obrazu (měření intenzity bodů a pozadí) normalizace (nalezení a odstranění systematických chyb, které nejsou způsobeny biologickým objektem) filtrování dat (odstranění špatných bodů nebo hybridizací ze studie) Nalezení rozdílně exprimovaných genů výpočet zvolené statistiky a následné určení p hodnot úprava p-hodnot Analýza obrazu rozdělení pixelů v nasnímaném obraze na ty, které nesou informaci o intenzitě bodů na sklíčku nebo pozadí Subarray mnoho programů na analýzu microarray obrazů (GenePix, Spot, ...) výsledek: txt soubor – každý řádek obsahuje informaci o jednom bodu na sklíčku (průměrná intenzita uvnitř bodu, intenzita okolí, variabilita mezi pixely uvnitř bodu, ...) 14 Analýza obrazu Nejdůležitější hodnota: poměr mezi intenzitami fluorescence R a G R/G Nejčastěji se vyjadřuje pomocí logaritmu o základu 2 M = Log2 R/G Log2 R/G = 1 Log2 R/G =-1 ve vzorku značeném červeně je dvakrát více kopií specifické mRNA než v zeleně značeném vzorku ve vzorku značeném červeně je poloviční množství kopií specifické mRNA než v zeleně značeném vzorku Důležité předpoklady Sondy na sklíčku jsou rozmístěny zcela náhodně do stejné pozice na sklíčku neseskupujeme geny s podobnou funkcí; sekvenčně příbuzné; ležící na stejném chromosomu Hybridizace byly prováděny v náhodném pořadí kontroly byly hybridizovány dohromady se zkoumanými vzorky Předpokládáme, že experiment ovlivní expresi pouze malého počtu genů v daném objektu (většina genů svoji expresi nemění) průměr (medián) všech poměrů R/G je roven 1 průměr (medián) všech logaritmů poměrů R/G je roven 0 nestačí mít na sklíčku sondy pro geny, které nás zajímají nebo očekáváme, že jejich exprese se bude měnit pro normalizaci jsou nutné i další geny, jejichž exprese se nemění (těch by měla být většina) Odstranění „špatných“ bodů odstranění bodů: body s morfologickými abnormalitami (problematický tisk) s nízkou intenzitou (není exprese v daném systemu) s vysokým pozadím (negativní hybridizace) Kontrolní body: prázdné body bez DNA (negativní kontrola) „spiked“ body (pozitivní kontrola) stejné sondy na různých místech sklíčka A = log2 (R/G)/2 0 2 4 6 8 10 12 14 16 18 M=log2R/G -4 -2 0 2 4 A = log2 (R/G)/2 0 2 4 6 8 10 12 14 16 18 M=log2R/G -4 -2 0 2 4 Normalizace není splněná podmínka, že průměr (medián) všech logaritmů poměrů R/G je roven 0 Před normalizací: Po normalizaci: nalezení a odstranění systematických chyb, které nejsou způsobeny biologickým objektem 15 Array 1 Array 2 Array 3 Array 4 Gen 111 Gen 112 Gen 113 Gen 114 Gen 115 0.450.540.490.88 0.38-0.130.13-0.19 0.440.280.14 0.640.370.33-0.28 0.06-0.390.39 : : Nalezení rozdílně exprimovaných genů 0.99 p hodnota 0.02 0.38 0.25 0.78 Nulová hypotéza: medián exprese daného genu se statisticky neliší od teoretické hodnoty mediánu (v našem případě 0) T = ...... p hodnota riziko s jakou lze nulovou hypotézu odmítnout rozdílně exprimované geny … p hodnota < 0.01 (volitelný práh) Statistické problémy při studiu tisíců genů s malým počtem opakování experimentů rozdílně exprimované geny … p hodnota < 0.01 Příklad: studujeme 20 000 genů na jednom sklíčku během normalizace a kontroly kvality vyřadíme 12000 genů testujeme 8 000 genů (pro každý vypočítáme p hodnotu) p hodnota < 0.01 připouštíme, že 1% testovaných genů je označeno jako rozdílně exprimované pouze náhodnou variabilitou pokusů 8000 * 0.01 = 80 genů korekce p hodnot s ohledem k počtu testovaných genů použití alternativních statistik Klastrování (shluková analýza) je obecná metoda, kterou je možno použít ke spojování prvků (s podobnými vlastnostmi) do skupin (klastrů) Microarray analýza: Klastrování genů (řádků) identifikace skupin genů, které mohou být společně regulované Klastrování vzorků (sloupců) nalezení skupin vzorků, které mají podobné změny v expresi genů (změny na úrovni DNA) Klastrování Příklad: Sorlie et al., Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. PNAS 98: 10869-10874, 2001. 78 karcinomů prsu (71 duktálních, 5 lobulárních a 2 in-situ) 3 fibroadenomy 4 vzorky normální tkáně prsu Microarrays: 8 102 cDNA klonů každý vzorek (Cy3) hybridizován s referenční RNA (Cy5) Analýza: nalezeno 456 cDNA klonů (427 genů) s velkou variabilitou exprese mezi různými vzorky, ale podobnou expresí u příbuzných vzorků Otázka: Zda existuje rozdělení karcinomů do podskupin, které mají podobné změny v expresi genů? Sorlie et al., PNAS 98: 10869-10874, 2001. Design experimentu 16 Sorlie et al., PNAS 98: 10869-10874, 2001. Klastrování Sorlie et al., PNAS 98: 10869-10874, 2001. Sorlie et al., PNAS 98: 10869-10874, 2001. Rozdělení do skupin a prognóza vývoje onemocnění Podobné studie 17 Veřejné databáze microarray dat ArrayExpress ChipDB ExpressDB Gene Expression Atlas Gene Expression Database (GXD) Gene Expression Omnibus (GEO) GeneX GermOnline Human Gene Expression Index (HuGE Index) List Of Lists Annotated (LOLA) M-CHiPS (Multi-Conditional Hybridization Intensity Processing System) MUSC DNA Microarray Database NASCArrays Oncomine Public Expression Profiling Resource (PEPR) READ (RIKEN cDNA Expression Array Database) Rice Expression Database (RED) RNA Abundance Database (RAD) Saccharomyces Genome Database (SGD): Expression Connection SGMD Standford Microarray Database (SMD) Yale Microarray Database yeast Microarray Global Viewer (yMGV)