1 Principy microarrays Pavla Gajdušková Analytická cytometrie, 27. listopadu 2012 exprese proteinů (ELISA)proteinprotilátkyProtein všechno dříve zmíněné, sekvenování, anotace genů všechno dříve zmíněnéDNATilling místa vazby transkripčních faktorů, modifikace histonů DNA (ChiP obohacená) DNA (promotorové oblasti ~ 1kb) Promoter míra metylace promotorových oblastí DNA (ovlivněná bisulfidem sodným) DNA (CpG islands)Metylace detekce „Single Nucleotid Polymorphysms“; změny v genomu DNADNA (oligonukleotidy) SNP změny v genomu (zisk, ztráta chromozomů nebo jejich částí DNADNA (BAC vektory, oligonukleotidy) CGH měření množství miRNAmiRNAoligonukleotidymiRNA měření množství mRNA v bunkách, nádorech ... mRNA / cDNADNA (cDNA, oligonucleotidy) Expresní ... analýza čeho Co se fluorescenčně značí a hybridizuje Sondy na microarray Typ array Oblasti použití microarrays v biologii Použití microarrays ke studiu DNA Komparativní genomická hybridizace BAC arrays oligo arrays SNP arrays tilling arrays (BAC a oligonukleotidy) exon-specific arrays (dříve i cDNA arrays používané pro expresi) Genotypování SNP arrays Sekvenování Re-Sequencing arrays ChIP-Chip exprerimenty tilling arrays (oligonukleotidy) Komparativní genomická hybridizace (CGH) molekulárně cytogenetická metoda, která slouží k analýze změn obsahu DNA v živých organismech (delece, zisk, amplifikace různých oblastí genomu) porovnávání intenzity fluorescence zkoumaného vzorku DNA a normálního diploidního vzorku DNA v různých místech genomu 2 Komparativní genomická hybridizace (CGH) Mantripragada et al. Trends in Genetics 2003 metafázní chromozomy - dárce s normálním diploidním karyotypem DNA: cy3 zkoumaný vzorek cy5 referenční DNA – 2n From Szuhai K. presentation: Determination of Genomic Imbalances by Genome-wide Screening Approaches Komparativní genomická hybridizace (CGH) rozlišení ~ 20MB From Szuhai K. presentation: Determination of Genomic Imbalances by Genome-wide Screening Approaches Komparativní genomická hybridizace (CGH) From Szuhai K. presentation: Determination of Genomic Imbalances by Genome-wide Screening Approaches Komparativní genomická hybridizace (CGH) 3 „Array“ komparativní genomická hybridizace (Array CGH) chromozomy nahrazeny body na mikroskopickém sklíčku, které obsahují specifické DNA sekvence Typy sond natištěných na microarray sklíčku BAC klony až 32 000 BAC klonů na jednom sklíčku ~ 160 kb dlouhé úseky DNA Oligonukleotidy 25 – 80 bazí dlouhé oligonukleotidy mohou pokrývat i celý genom (repetitivní sekvence jsou vynechány) známe polohu a pořadí všech sond v lidském genomu Knihovny BAC klonů pro array CGH BACPAC resources (CHORI) Research Genetics (Invitrogen) The Sanger Centre http://www.geneservice.co.uk/home/ Cheung V. G. et al., Integration of cytogenetic landmarks into the draft sequence of the human genome. Nature 409: 953 – 958, 2001. Krzywinski M. et al., A set of BAC clones spanning the human genome. Nucleic Acids Res 32: 3651-3660, 2004. Greshock J. et al., 1-Mb Resolution Array-Based Comparative Genomic Hybridization Using a BAC Clone Set Optimized for Cancer Gene Analysis. Genome Res 14: 179-187, 2004. http://www.resgen.com/resources/index.php3 http://bacpac.chori.org Array CGH s použitím BAC klonů Log2Rat = Log2 R/G Log2Rat = 0 2 kopie Log2Rat = 0.5 3 kopie (“gain”) Log2Rat = 1 4 kopie (“gain”) Log2Rat = 2 8 kopií (“amplification”) 2464 BAC klonů UCSF HumArray3.1 Log2Rat = -1 1 kopie (“loss”) Log2Rat < -1 homozygotní delece 4 Typy sond natištěných na microarray sklíčku BAC klony až 32 000 BAC klonů na jednom sklíčku ~ 160 kb dlouhé úseky DNA Oligonukleotidy 25 – 80 bazí dlouhé oligonukleotidy mohou pokrývat i celý genom (repetitivní sekvence jsou vynechány) známe polohu a pořadí všech sond v lidském genomu Array CGH - oligonukleotidy (NimbleGen) Selzer RR et al. Genes Chromosomes Cancer, 2005 6-kb median probe spacing 50- or 140-bp median probe spacing SNPs SNP = single nucleotide polymorphism jednonukleotidové variace, které jsou náhodně rozmístěny v genomu (bodové mutace rozšířené v populaci) nukleotidová variace, která se vyskytuje alespoň u 1% jedinců v populaci předpokládaný počet SNPs: 10 milionů výskyt specifických SNP spojen s predispozicí k určitým chorobám SNP Arrays – probe design (Affymetrix) From Xiao Y. presentation: Exploration and Analysis of Affymetrix SNP Arrays. Center for Bioinformatics & Molecular Biostatistics, UCSF Division of Biostatistics 5 SNP Arrays – probe design From Xiao Y. presentation: Exploration and Analysis of Affymetrix SNP Arrays. Center for Bioinformatics & Molecular Biostatistics, UCSF Division of Biostatistics SNP arrays x expression arrays From Xiao Y. presentation: Exploration and Analysis of Affymetrix SNP Arrays. Center for Bioinformatics & Molecular Biostatistics, UCSF Division of Biostatistics SNP Arrays - labeling From Xiao Y. presentation: Exploration and Analysis of Affymetrix SNP Arrays. Center for Bioinformatics & Molecular Biostatistics, UCSF Division of Biostatistics SNP Arrays - APEX technologie APEX = Arrayed Primer Extension Kurg A. et al., Arrayed primer extension: solid-phase four-color DNA resequencing and mutation detection technology. Genet Test 4:1-7, 2000. 6 Velké studie SNP HapMap projekt: mezinárodní projekt, jehož cílem je identifikovat a katalogizovat SNPs v lidské populaci a vybrat z nich „tag“ SNPs, kterými se skupiny lidí odlišují SNPs, které jsou na DNA blízko sebe se také společně dědí a určují haplotyp dané skupiny lidí „tag“ SNPs odlišují dané haplotypy HapMap kolekce lidské DNA 270 vzorků DNA populace: Nigerie 30 trojic vzorků (matka, otec, dítě) Japonsko 45 nepříbuzných vzorků Čína 45 nepříbuzných vzorků USA 30 trojic vzorků (matka, otec, dítě) HapMap projekt http://www.hapmap.org/index.html.en The International HapMap Consortium. A second generation human haplotype map of over 3.1 million SNPs. Nature 449, 851-861. 2007. The International HapMap Consortium. A Haplotype Map of the Human Genome. Nature 437, 1299-1320. 2005. Velké studie SNP Wellcome Trust Case control Consortium. Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls. Nature. 2007 Jun 7;447(7145):661-78. 3000 zdravých jedinců 2000 pacientů bipolar disorder (1 SNP) „ coronary artery disease (1 SNP) „ Crohn’s disease (9 SNPs) „ hypertension „ rheumatoid arthritis (3 SNPs) „ type 1 diabetes (1 SNP) „ type 2 diabetes (3 SNPs) Studovali 500 000 SNPs pomocí Affymetrix microarrays P value < 5x10-7 Odchylky od referenčního genomu větší než 1kb ještě v roce 2003 se myslelo, že většina „zdravých“ lidí se od referenčního genomu liší velmi nepatrně (SNPs, mikrosatelity) array komparativní genomická hybridizace odhalila mnoho větších oblastí DNA, které se u zdravých lidí vyskytují v různém počtu 7 DNA segment (většinou větší než 1 kb), který se u daného jedince vyskytuje v jiném počtu kopií než v referenčním lidském genomu existuje mnoho takových oblastí v genomu (řádově tisíce) “Database of Genomic Variants” http://projects.tcag.ca/variation/ Copy number polymorphism – výskyt u více než 1% jedinců dané populace Využití HapMap kolekce ke studiu copy number variant všichni jedinci v této kolekci byli zdraví, přesto se našlo velké množství oblastí DNA (12% genomu), které se u těchto lidí nacházejí v různém počtu kopií Copy number variation hledání fenotypových projevů CNV („neškodná“ genomová varianta nebo příčina nemoci???) CNV: pathogenic x benign x unknown clinical significance vnášejí „zmatek“ do experimenů, které např. hledají příčinu vrozených genetických poruch (mentální opožděnost, vývojové odchylky) Copy number variation Chromatin ImmunoPrecipitation on chip ChIP-Chip Nalezení vazebného místa 256 kb oblast 1p32 pokrytá překrývajícími se PCR produkty (~400 bp) protilátka: trimethylace histonu H3 Lys4 Carter and Vetrie 2004 Human Mol Genet 8 Obsah přednášky Technologie přípravy microarrays Oblasti použití microarrays v biologii Úvod do statistického hodnocení dat Příklady konkrétních aplikací z literatury Úvod do statistického hodnocení dat Předpříprava dat pro statistické hodnocení analýza obrazu (měření intenzity bodů a pozadí) normalizace (nalezení a odstranění systematických chyb, které nejsou způsobeny biologickým objektem) filtrování dat (odstranění špatných bodů nebo hybridizací ze studie) Nalezení rozdílně exprimovaných genů výpočet zvolené statistiky a následné určení p hodnot úprava p-hodnot Analýza obrazu rozdělení pixelů v nasnímaném obraze na ty, které nesou informaci o intenzitě bodů na sklíčku nebo pozadí Subarray mnoho programů na analýzu microarray obrazů (GenePix, Spot, ...) výsledek: txt soubor – každý řádek obsahuje informaci o jednom bodu na sklíčku (průměrná intenzita uvnitř bodu, intenzita okolí, variabilita mezi pixely uvnitř bodu, ...) Analýza obrazu Nejdůležitější hodnota: poměr mezi intenzitami fluorescence R a G R/G Nejčastěji se vyjadřuje pomocí logaritmu o základu 2 M = Log2 R/G Log2 R/G = 1 Log2 R/G =-1 ve vzorku značeném červeně je dvakrát více kopií specifické mRNA než v zeleně značeném vzorku ve vzorku značeném červeně je poloviční množství kopií specifické mRNA než v zeleně značeném vzorku 9 Důležité předpoklady Sondy na sklíčku jsou rozmístěny zcela náhodně do stejné pozice na sklíčku neseskupujeme geny s podobnou funkcí; sekvenčně příbuzné; ležící na stejném chromosomu Hybridizace byly prováděny v náhodném pořadí kontroly byly hybridizovány dohromady se zkoumanými vzorky Předpokládáme, že experiment ovlivní expresi pouze malého počtu genů v daném objektu (většina genů svoji expresi nemění) průměr (medián) všech poměrů R/G je roven 1 průměr (medián) všech logaritmů poměrů R/G je roven 0 nestačí mít na sklíčku sondy pro geny, které nás zajímají nebo očekáváme, že jejich exprese se bude měnit pro normalizaci jsou nutné i další geny, jejichž exprese se nemění (těch by měla být většina) Odstranění „špatných“ bodů odstranění bodů: body s morfologickými abnormalitami (problematický tisk) s nízkou intenzitou (není exprese v daném systemu) s vysokým pozadím (negativní hybridizace) Kontrolní body: prázdné body bez DNA (negativní kontrola) „spiked“ body (pozitivní kontrola) stejné sondy na různých místech sklíčka A = log2 (R/G)/2 0 2 4 6 8 10 12 14 16 18 M=log2R/G -4 -2 0 2 4 A = log2 (R/G)/2 0 2 4 6 8 10 12 14 16 18 M=log2R/G -4 -2 0 2 4 Normalizace není splněná podmínka, že průměr (medián) všech logaritmů poměrů R/G je roven 0 Před normalizací: Po normalizaci: nalezení a odstranění systematických chyb, které nejsou způsobeny biologickým objektem Array 1 Array 2 Array 3 Array 4 Gen 111 Gen 112 Gen 113 Gen 114 Gen 115 0.450.540.490.88 0.38-0.130.13-0.19 0.440.280.14 0.640.370.33-0.28 0.06-0.390.39 : : Nalezení rozdílně exprimovaných genů 0.99 p hodnota 0.02 0.38 0.25 0.78 Nulová hypotéza: medián exprese daného genu se statisticky neliší od teoretické hodnoty mediánu (v našem případě 0) T = ...... p hodnota riziko s jakou lze nulovou hypotézu odmítnout rozdílně exprimované geny … p hodnota < 0.01 (volitelný práh) 10 Statistické problémy při studiu tisíců genů s malým počtem opakování experimentů rozdílně exprimované geny … p hodnota < 0.01 Příklad: studujeme 20 000 genů na jednom sklíčku během normalizace a kontroly kvality vyřadíme 12000 genů testujeme 8 000 genů (pro každý vypočítáme p hodnotu) p hodnota < 0.01 připouštíme, že 1% testovaných genů je označeno jako rozdílně exprimované pouze náhodnou variabilitou pokusů 8000 * 0.01 = 80 genů korekce p hodnot s ohledem k počtu testovaných genů použití alternativních statistik Obsah přednášky Technologie přípravy microarrays Oblasti použití microarrays v biologii Úvod do statistického hodnocení dat Příklady konkrétních aplikací z literatury Klastrování (shluková analýza) je obecná metoda, kterou je možno použít ke spojování prvků (s podobnými vlastnostmi) do skupin (klastrů) Microarray analýza: Klastrování genů (řádků) identifikace skupin genů, které mohou být společně regulované Klastrování vzorků (sloupců) nalezení skupin vzorků, které mají podobné změny v expresi genů (změny na úrovni DNA) Klastrování Příklad: Sorlie et al., Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. PNAS 98: 10869-10874, 2001. 78 karcinomů prsu (71 duktálních, 5 lobulárních a 2 in-situ) 3 fibroadenomy 4 vzorky normální tkáně prsu Microarrays: 8 102 cDNA klonů každý vzorek (Cy3) hybridizován s referenční RNA (Cy5) Analýza: nalezeno 456 cDNA klonů (427 genů) s velkou variabilitou exprese mezi různými vzorky, ale podobnou expresí u příbuzných vzorků Otázka: Zda existuje rozdělení karcinomů do podskupin, které mají podobné změny v expresi genů? Sorlie et al., PNAS 98: 10869-10874, 2001. Design experimentu 11 Sorlie et al., PNAS 98: 10869-10874, 2001. Klastrování Sorlie et al., PNAS 98: 10869-10874, 2001. Sorlie et al., PNAS 98: 10869-10874, 2001. Rozdělení do skupin a prognóza vývoje onemocnění Podobné studie 12 Veřejné databáze microarray dat ArrayExpress ChipDB ExpressDB Gene Expression Atlas Gene Expression Database (GXD) Gene Expression Omnibus (GEO) GeneX GermOnline Human Gene Expression Index (HuGE Index) List Of Lists Annotated (LOLA) M-CHiPS (Multi-Conditional Hybridization Intensity Processing System) MUSC DNA Microarray Database NASCArrays Oncomine Public Expression Profiling Resource (PEPR) READ (RIKEN cDNA Expression Array Database) Rice Expression Database (RED) RNA Abundance Database (RAD) Saccharomyces Genome Database (SGD): Expression Connection SGMD Standford Microarray Database (SMD) Yale Microarray Database yeast Microarray Global Viewer (yMGV)