1
Principy microarrays
Pavla Gajdušková
Analytická cytometrie, 19. listopadu 2013
Microarrays
Kolekce DNA sond přichycených k pevnému podkladu
Fotolitografie„Tištěná“ microarrays
Microarray technologie
I. Výběr sond (probes): cDNA vektory, BAC vektory,
krátké nebo dlouhé oligonukleotidy, proteiny, tkáně
II. Příprava microarray: nanesení sond na sklo nebo
membránu
III. Design experimentu: zvolení správné metody, použití
referečního vzorku, záměna fluorescenčních barev
IV. Fluorescenční značení vzorků
V. Analýza microarray obrazů: nalezení sond v obraze,
korekce pozadí, výpočet intenzity v jednotlivých
bodech
IV. Analýza dat: filtrování, normalizace, porovnání
výsledků získaných z více microarray experimentů –
klastrovací analýza
exprese proteinů (ELISA)proteinprotilátkyProtein
všechno dříve zmíněné,
sekvenování, anotace genů
všechno dříve zmíněnéDNATilling
místa vazby transkripčních
faktorů, modifikace histonů
DNA (ChiP
obohacená)
DNA (promotorové
oblasti ~ 1kb)
Promoter
míra metylace promotorových
oblastí
DNA (ovlivněná
bisulfidem sodným)
DNA (CpG islands)Metylace
detekce „Single Nucleotid
Polymorphysms“; změny v
genomu
DNADNA
(oligonukleotidy)
SNP
změny v genomu (zisk, ztráta
chromozomů nebo jejich částí
DNADNA (BAC vektory,
oligonukleotidy)
CGH
měření množství miRNAmiRNAoligonukleotidymiRNA
měření množství mRNA v
bunkách, nádorech ...
cDNA / mRNADNA (cDNA,
oligonucleotidy)
Expresní
... analýza čeho
Co se
fluorescenčně
značí a hybridizuje
Sondy
na microarray
Typ array
Oblasti použití microarrays v biologii
2
Oblasti použití microarrays v biologii
DNA RNA protein
transkripce translace
Oblasti použití microarrays v biologii
DNA RNA protein
Schena M., Shalon D., Davis R. W., Brown P. O.
Quantitative monitoring of gene expression patterns with a
complementary DNA microarray. Science 270: 467-70, 1995.
transkripce translace
Genová exprese
Exon1 Exon2 Exon3 Exon4 Exon5 Exon6
mRNA
Intron1 Intron2 Intron3 Intron4 Intron5
DNA
5’ 3’
transkripce
translace
protein
ATG STOP
untranslated regions
Genová exprese
Exon1 Exon2 Exon3 Exon4 Exon5 Exon6
mRNA
Intron1 Intron2 Intron3 Intron4 Intron5
DNA
5’ 3’
transkripce
cDNA
zpětná
transkripce
(RT)
cDNA: jednořetězcová DNA (v dalším kroku je možné syntetizovat druhý řetězec)
u genů s dlouhou mRNA nemusí vznikat vždy celá cDNA
5’3’
3
Metody měření množství mRNA
From Lee N. H. presentation: Introduction to High Density Microarrays
•RT-PCR and Real-time RT-PCR
Měření množství mRNA
(microarrays tištěné pomocí skleněných kapilár)
Microarrays tištěná pomocí skleněných kapilár
I. dlouhé oligonukleotidy:
~ 60 - 70mers
komerčně dostupné (Operon, Agilent)
II. cDNA:
knihovny cDNA vektorů (IMAGE, MGC)
dostatečné množství DNA se vyprodukuje pomocí PCR
(univerzální primery pro daný typ vektorů)
5’ 3’
mRNA
dlouhé oligonukleotidy
c DNA
Typ sond
4
Experimentální design
Příklady použití v molekulární biologii (na úrovni mRNA):
• aplikace chemické látky na buněčnou kulturu a její vliv na expresi
různých genů (najít geny, které sníží nebo naopak zvýší expresi mRNA)
• zvýšení exprese mRNA zvoleného genu vnesením plasmidu →
nalezení dalších genů se změněnou expresí
• snížení exprese mRNA zvoleného genu po vnesení specifické siRNA →
nalezení dalších genů se změněnou expresí
Experimentální design
Porovnání exprese mezi vzorky:
Loop design: každé dva vzorky
jsou hybridizovány na jedno sklo
(plus vzájemná záměna
fluorochromů)
Reference design: každý vzorek
je hybridizován s referenčním
vzorkem, který pak slouží jako
převodník mezi různými vzorky
A E
C
AB
DB
ECA DB
R
???
E
CA
D
B
E
CA
D
B1.
2.
Loop design
poskytuje přímé srovnání mezi vzorky
o každém vzorku získáme více informací - kontrola
vyžaduje větší množství RNA z každého vzorku
špatný vzorek více ovlivní celý experiment
Reference design
lze jednoduše rozšířit o nový vzorek
jednodušší interpretace výsledků
vyžaduje méně RNA ze vzorků
špatný vzorek méně ovlivní celý experiment
Experimentální design
Měření množství mRNA
(fotolitograficky připravené microarrays)
5
Fotolitografický způsob přípravy (Affymetrix)
sondy = oligonukleotidy délky 25 bazí
sondy = oligonucleotidy 45-85 bazí
podobná teplota tání (Tm)
Fotolitografický způsob přípravy (NimbleGen)
Typ sond
oligonukleotidy 25 bazí
Perfect Match vs MisMatch oligonukleotidy
PM MM
cDNA
Dříve:
sondy blíže k 3’ konci mRNA
11-16 na jeden gen
PM, MM sondy
Typ sond
oligonukleotidy 25 bazí
Nyní:
sondy v různých exonech genu (ideálně 4 sondy v každém exonu)
jenom PM sondy
umožňuje studovat alternativní sestřih
6
Experimentální design
Příklady použití v molekulární biologii (na úrovni mRNA):
• aplikace chemické látky na buněčnou kulturu a její vliv na expresi
různých genů (najít geny, které sníží nebo naopak zvýší expresi mRNA)
• zvýšení exprese mRNA zvoleného genu vnesením plasmidu →
nalezení dalších genů se změněnou expresí
• snížení exprese mRNA zvoleného genu po vnesení specifické siRNA →
nalezení dalších genů se změněnou expresí
Měření množství mRNA
(Allumina samosestavovací arrays)
Samosestavování silikonových kuliček
základní stavební jednotka: silikonová kulička (3uM)
kulička nemá přesně dané místo na sklíčku, po fixaci na sklíčku je její
typ identifikován díky sekvenci části oligonukleotidu
oligonukleotid:
I. adresa (definuje typ kuličky)
II. vlastní sonda - oligonucleotid (50 bp), který je specifický
pro jednotlivé transkripty
míra exprese mRNA = intenzita fluorescence navázané cRNA
Objevování nových transkriptů
objevování nových transkriptů, které nejsou ještě ve veřejných
databázích (např. SeqRef, Emsembl)
nebylo to možné pomocí výše zmíněných technologií, protože ty
jsou založené na znalostech obsažených v databázích
Řešení:
tilling arrays (Affymetrix)
mRNA sequencing (Illumina, SOLID, Torrent, Roche 454)
7
„Tilling“ arrays
sondy na sklíčku pokrývají kompletně určitou oblast
genomu popř. celý genom
repetitivní sekvence nejsou pokryty (před návrhem sond jsou
odstraněny pomocí programu „RepeatMasker“)
sondy: oligonukleotidy
např: 14 arrays, každé obsahuje 2x 3 250 000 sond
25 bazí sonda, PM a MM, mezera mezi sondami 10 bazí
po hybridizaci s fluorescenčně značenou cRNA „svítí“ sondy, které představují
transkribovaná místa ve studované oblasti (genomu)
sondy v místech „bez transkripce“ mají intenzitu fluorescence na úrovni pozadí
lze detekovat nové exony, jejich alternativní sestřih
mRNA sequencing
objevování nových transkriptů pomocí sekvenační technologie
není potřeba navrhovat, tisknout nebo syntetizovat sondy
mRNA first strand cDNA double-stranded cDNA fragmentace
sekvenace ligace adapterů
mRNA sequencing
Použití microarrays ke studiu DNA
Komparativní genomická hybridizace
BAC arrays
oligo arrays
SNP arrays
tilling arrays (BAC a oligonukleotidy)
exon-specific arrays
(dříve i cDNA arrays používané pro expresi)
Genotypování
SNP arrays
Sekvenování
Re-Sequencing arrays
ChIP-Chip exprerimenty
tilling arrays (oligonukleotidy)
8
Komparativní genomická hybridizace (CGH)
molekulárně cytogenetická metoda, která slouží k analýze změn
obsahu DNA v živých organismech
(delece, zisk, amplifikace různých oblastí genomu)
porovnávání intenzity fluorescence zkoumaného vzorku DNA a
normálního diploidního vzorku DNA v různých místech
genomu
Komparativní genomická hybridizace (CGH)
Mantripragada et al. Trends in Genetics 2003
metafázní chromozomy
- dárce s normálním
diploidním karyotypem
DNA:
cy3
zkoumaný vzorek
cy5
referenční DNA – 2n
From Szuhai K. presentation: Determination of Genomic Imbalances by
Genome-wide Screening Approaches
Komparativní genomická hybridizace (CGH)
rozlišení ~ 20MB
From Szuhai K. presentation: Determination of Genomic Imbalances by
Genome-wide Screening Approaches
Komparativní genomická hybridizace (CGH)
9
From Szuhai K. presentation: Determination of Genomic Imbalances by
Genome-wide Screening Approaches
Komparativní genomická hybridizace (CGH) „Array“ komparativní genomická hybridizace
(Array CGH)
chromozomy nahrazeny body na mikroskopickém sklíčku,
které obsahují specifické DNA sekvence
Typy sond natištěných na microarray sklíčku
BAC klony až 32 000 BAC klonů na jednom sklíčku
~ 160 kb dlouhé úseky DNA
Oligonukleotidy 25 – 80 bazí dlouhé oligonukleotidy
mohou pokrývat i celý genom (repetitivní
sekvence jsou vynechány)
známe polohu a pořadí všech sond v lidském genomu
Array CGH s použitím BAC klonů
Log2Rat = Log2 R/G
Log2Rat = 0 2 kopie
Log2Rat = 0.5 3 kopie (“gain”)
Log2Rat = 1 4 kopie (“gain”)
Log2Rat = 2 8 kopií (“amplification”)
2464 BAC klonů UCSF HumArray3.1
Log2Rat = -1 1 kopie (“loss”)
Log2Rat < -1 homozygotní delece
10
Array CGH - oligonukleotidy (NimbleGen)
Selzer RR et al. Genes Chromosomes Cancer, 2005
6-kb median
probe spacing
50- or 140-bp median
probe spacing
SNPs
SNP = single nucleotide polymorphism
jednonukleotidové variace, které jsou náhodně rozmístěny v
genomu (bodové mutace rozšířené v populaci)
nukleotidová variace, která se vyskytuje alespoň u 1% jedinců v
populaci
předpokládaný počet SNPs: 10 milionů
výskyt specifických SNP spojen s predispozicí k určitým chorobám
SNP Arrays – probe design (Affymetrix)
From Xiao Y. presentation: Exploration and Analysis of Affymetrix SNP Arrays. Center for
Bioinformatics & Molecular Biostatistics, UCSF Division of Biostatistics
SNP Arrays – probe design
From Xiao Y. presentation: Exploration and Analysis of Affymetrix SNP Arrays. Center for
Bioinformatics & Molecular Biostatistics, UCSF Division of Biostatistics
11
SNP arrays x expression arrays
From Xiao Y. presentation: Exploration and Analysis of Affymetrix SNP Arrays. Center for
Bioinformatics & Molecular Biostatistics, UCSF Division of Biostatistics
SNP Arrays - APEX technologie
APEX = Arrayed Primer Extension
Kurg A. et al., Arrayed primer extension: solid-phase four-color DNA
resequencing and mutation detection technology. Genet Test 4:1-7, 2000.
Velké studie SNP
HapMap projekt: mezinárodní projekt, jehož cílem je identifikovat a
katalogizovat SNPs v lidské populaci a vybrat z nich „tag“ SNPs,
kterými se skupiny lidí odlišují
SNPs, které jsou na DNA
blízko sebe se také
společně dědí a určují
haplotyp dané skupiny lidí
„tag“ SNPs odlišují dané haplotypy
HapMap kolekce lidské DNA 270 vzorků DNA
populace: Nigerie 30 trojic vzorků (matka, otec, dítě)
Japonsko 45 nepříbuzných vzorků
Čína 45 nepříbuzných vzorků
USA 30 trojic vzorků (matka, otec, dítě)
HapMap projekt
http://www.hapmap.org/index.html.en
The International HapMap Consortium. A second generation human haplotype map
of over 3.1 million SNPs. Nature 449, 851-861. 2007.
The International HapMap Consortium. A Haplotype Map of the Human Genome.
Nature 437, 1299-1320. 2005.
12
Velké studie SNP
Wellcome Trust Case control Consortium. Genome-wide association study of 14,000
cases of seven common diseases and 3,000 shared controls. Nature. 2007 Jun
7;447(7145):661-78.
3000 zdravých jedinců
2000 pacientů bipolar disorder (1 SNP)
„ coronary artery disease (1 SNP)
„ Crohn’s disease (9 SNPs)
„ hypertension
„ rheumatoid arthritis (3 SNPs)
„ type 1 diabetes (1 SNP)
„ type 2 diabetes (3 SNPs)
Studovali 500 000 SNPs pomocí Affymetrix microarrays
P value < 5x10-7
Odchylky od referenčního genomu větší než 1kb
ještě v roce 2003 se myslelo, že většina „zdravých“ lidí se od
referenčního genomu liší velmi nepatrně (SNPs, mikrosatelity)
array komparativní genomická hybridizace odhalila mnoho větších
oblastí DNA, které se u zdravých lidí vyskytují v různém počtu
DNA segment (většinou větší než 1 kb), který se u daného jedince
vyskytuje v jiném počtu kopií než v referenčním lidském genomu
existuje mnoho takových oblastí v genomu (řádově tisíce)
“Database of Genomic Variants”
http://projects.tcag.ca/variation/
Copy number polymorphism – výskyt u více než 1% jedinců dané populace
Využití HapMap kolekce ke studiu copy number variant
všichni jedinci v této kolekci byli zdraví, přesto se našlo velké množství oblastí
DNA (12% genomu), které se u těchto lidí nacházejí v různém počtu kopií
Copy number variation
hledání fenotypových projevů CNV („neškodná“ genomová
varianta nebo příčina nemoci???)
CNV: pathogenic x benign x unknown clinical significance
vnášejí „zmatek“ do experimenů, které např. hledají příčinu
vrozených genetických poruch (mentální opožděnost, vývojové
odchylky)
Copy number variation
13
Chromatin ImmunoPrecipitation on chip
ChIP-Chip
Nalezení vazebného místa
256 kb oblast 1p32 pokrytá překrývajícími se PCR produkty (~400 bp)
protilátka: trimethylace histonu H3 Lys4
Carter and Vetrie 2004 Human Mol Genet
Úvod do statistického hodnocení dat
Předpříprava dat pro statistické hodnocení
analýza obrazu (měření intenzity bodů a pozadí)
normalizace (nalezení a odstranění systematických chyb, které
nejsou způsobeny biologickým objektem)
filtrování dat (odstranění špatných bodů nebo hybridizací ze studie)
Nalezení rozdílně exprimovaných genů
výpočet zvolené statistiky a následné určení p hodnot
úprava p-hodnot
Analýza obrazu
rozdělení pixelů v nasnímaném
obraze na ty, které nesou informaci o
intenzitě bodů na sklíčku nebo
pozadí
Subarray
mnoho programů na analýzu
microarray obrazů (GenePix, Spot, ...)
výsledek: txt soubor – každý řádek
obsahuje informaci o jednom bodu na
sklíčku (průměrná intenzita uvnitř
bodu, intenzita okolí, variabilita mezi
pixely uvnitř bodu, ...)
14
Analýza obrazu
Nejdůležitější hodnota: poměr mezi intenzitami fluorescence R a G
R/G
Nejčastěji se vyjadřuje pomocí logaritmu o základu 2
M = Log2 R/G
Log2 R/G = 1
Log2 R/G =-1
ve vzorku značeném červeně je dvakrát více kopií
specifické mRNA než v zeleně značeném vzorku
ve vzorku značeném červeně je poloviční množství
kopií specifické mRNA než v zeleně značeném
vzorku
Důležité předpoklady
Sondy na sklíčku jsou rozmístěny zcela náhodně
do stejné pozice na sklíčku neseskupujeme geny s podobnou funkcí;
sekvenčně příbuzné; ležící na stejném chromosomu
Hybridizace byly prováděny v náhodném pořadí
kontroly byly hybridizovány dohromady se zkoumanými vzorky
Předpokládáme, že experiment ovlivní expresi pouze malého
počtu genů v daném objektu (většina genů svoji expresi nemění)
průměr (medián) všech poměrů R/G je roven 1
průměr (medián) všech logaritmů poměrů R/G je roven 0
nestačí mít na sklíčku sondy pro geny, které nás zajímají nebo očekáváme, že
jejich exprese se bude měnit
pro normalizaci jsou nutné i další geny, jejichž exprese se nemění (těch by
měla být většina)
Odstranění „špatných“ bodů
odstranění bodů: body s morfologickými abnormalitami
(problematický tisk)
s nízkou intenzitou (není exprese v
daném systemu)
s vysokým pozadím (negativní hybridizace)
Kontrolní body: prázdné body bez DNA (negativní kontrola)
„spiked“ body (pozitivní kontrola)
stejné sondy na různých místech sklíčka
A = log2 (R/G)/2
0 2 4 6 8 10 12 14 16 18
M=log2R/G
-4
-2
0
2
4
A = log2 (R/G)/2
0 2 4 6 8 10 12 14 16 18
M=log2R/G
-4
-2
0
2
4
Normalizace
není splněná podmínka, že průměr (medián)
všech logaritmů poměrů R/G je roven 0
Před normalizací: Po normalizaci:
nalezení a odstranění systematických chyb, které nejsou
způsobeny biologickým objektem
15
Array 1 Array 2 Array 3 Array 4
Gen 111
Gen 112
Gen 113
Gen 114
Gen 115 0.450.540.490.88
0.38-0.130.13-0.19
0.440.280.14
0.640.370.33-0.28
0.06-0.390.39
:
:
Nalezení rozdílně exprimovaných genů
0.99
p hodnota
0.02
0.38
0.25
0.78
Nulová hypotéza: medián exprese daného genu se statisticky
neliší od teoretické hodnoty mediánu (v našem případě 0)
T = ...... p hodnota riziko s jakou lze nulovou
hypotézu odmítnout
rozdílně exprimované geny … p hodnota < 0.01 (volitelný práh)
Statistické problémy při studiu tisíců genů
s malým počtem opakování experimentů
rozdílně exprimované geny … p hodnota < 0.01
Příklad:
studujeme 20 000 genů na jednom sklíčku
během normalizace a kontroly kvality vyřadíme 12000 genů
testujeme 8 000 genů (pro každý vypočítáme p hodnotu)
p hodnota < 0.01 připouštíme, že 1% testovaných genů je označeno
jako rozdílně exprimované pouze náhodnou
variabilitou pokusů
8000 * 0.01 = 80 genů
korekce p hodnot s ohledem k počtu testovaných genů
použití alternativních statistik
Klastrování (shluková analýza) je obecná metoda, kterou je
možno použít ke spojování prvků (s podobnými vlastnostmi)
do skupin (klastrů)
Microarray analýza:
Klastrování genů (řádků) identifikace skupin genů, které mohou
být společně regulované
Klastrování vzorků (sloupců) nalezení skupin vzorků, které mají
podobné změny v expresi genů (změny na
úrovni DNA)
Klastrování
Příklad:
Sorlie et al., Gene expression patterns of breast carcinomas distinguish
tumor subclasses with clinical implications. PNAS 98: 10869-10874, 2001.
78 karcinomů prsu (71 duktálních, 5 lobulárních a 2 in-situ)
3 fibroadenomy
4 vzorky normální tkáně prsu
Microarrays: 8 102 cDNA klonů
každý vzorek (Cy3) hybridizován s referenční RNA (Cy5)
Analýza: nalezeno 456 cDNA klonů (427 genů) s velkou
variabilitou exprese mezi různými vzorky, ale podobnou
expresí u příbuzných vzorků
Otázka: Zda existuje rozdělení karcinomů do podskupin, které
mají podobné změny v expresi genů?
Sorlie et al., PNAS 98: 10869-10874, 2001.
Design experimentu
16
Sorlie et al., PNAS 98: 10869-10874, 2001.
Klastrování
Sorlie et al., PNAS 98: 10869-10874, 2001.
Sorlie et al., PNAS 98: 10869-10874, 2001.
Rozdělení do skupin a
prognóza vývoje onemocnění
Podobné studie
17
Veřejné databáze microarray dat
ArrayExpress
ChipDB
ExpressDB
Gene Expression Atlas
Gene Expression Database (GXD)
Gene Expression Omnibus (GEO)
GeneX
GermOnline
Human Gene Expression Index (HuGE Index)
List Of Lists Annotated (LOLA)
M-CHiPS (Multi-Conditional Hybridization Intensity Processing System)
MUSC DNA Microarray Database
NASCArrays
Oncomine
Public Expression Profiling Resource (PEPR)
READ (RIKEN cDNA Expression Array Database)
Rice Expression Database (RED)
RNA Abundance Database (RAD)
Saccharomyces Genome Database (SGD): Expression Connection
SGMD
Standford Microarray Database (SMD)
Yale Microarray Database
yeast Microarray Global Viewer (yMGV)