Výuka IBA Analýza genomických a proteomických dat Vznik a charakter dat -> Affymetrix čipy Jaro 2023 15., 22.,29. Březen Eva Budinská (budinska@recetox.muni.cz) Vznik a charakter dat -> Affymetrix čipy Anatomie Affymetrix GeneChipu® I. Anatomie GeneChipu® II. • Sondy = oligonukleotidy, jednořetězcové, délky 25 bp (AGCATGACTAG……) • Každý gen reprezentován sadou 11-20 párů sond (probeset) • Každý pár sond se skládá z Perfect Match (PM) a Mismatch (MM) sondy • PM je perfektní komplementární sekvence genu • MM – jako PM, kromě prostřední (13té) báze • MM je interní kontrola, měřící nespecifické vazby (šum) Skenování a analýza obrazu Affymetrix • U jednokanálových oligonukleotidových mikročipů je použita pouze jedna vlnová délka a pomocí UV skeneru je vytvořený jen jeden obraz • U Affymetrix mikročipů je tento obraz ve formátu DAT, a je zpracovaný v software firmy Affymetrix • Po nasazení mřížky pro identifikaci čtvercových spotů, jsou obvodové pixely každého spotu vyřazeny a to z těchto důvodů: • - s největší pravděpodobností můžou patřit jinému spotu vzhledem k možnosti špatného nasazení mřížky (vyhodnocuje se pouze 36 pixelů z celkových 64) • - signál na obvodu bývá nejslabší • Z pixelů, které jsou zařazeny je signál odhadnut jako 75% kvantil – tato informace/kvantifikace je uložena v .CEL souboru • Mapování sond na sady sond je uloženo v souboru s příponou .CDF Affymetrix vs cDNA • Vzhledem k odlišnému kontextu sond, odlišné úpravy dat než u cDNA • 11-20 (dle platformy) sond na gen (transkript) - nutná sumarizace, je potřebná jediná hodnota reprezentující gen/transkript! • Rozlišujeme dvě úrovně základních datových matic – úroveň sondy (anglicky probe level) a úroveň sady sond (anglicky probeset level) Kontrola kvality a normalizace • Jen jeden kanál => většina kontroly kvality a normalizace se provádí vzhledem k ostatním čipům v experimentu • Některé nástroje kontroly kvality využívají statistiky, které jsou výsledkem modelování normalizovaných intenzit sond • Kontrolu kvality a normalizaci proto nebudeme dělit na uvnitř čipu a mezi čipy, jako u dvoukanálových cDNA experimentů, ale na: • kontrolu a normalizaci sond • kontrolu a normalizaci sady sond Kontrola kvality na úrovni sondy/sady sond • Nejčastejší v případě, pokud potřebujeme vědět, zda je určitá sada sond funkční ve smyslu správné reprezentace cílové sekvence • Nedělá se plošně na všech sondách! Můžeme úplně přeskočit! • POZOR – jeden ze způsobů kontroly kvality celého mikročipu využívá modelu úrovně sondy (PLM model) AffyBatch • Třída pro uskladnění a analýzu Affymetrix GeneChip dat v prostředí Bioconductor • Tvoří se s pomocí read.affybatch() nebo ReadAffy() • Sloty v této třídě: cdfName, nrow, ncol, assayData, phenoData, annotation, protocolData, featureData, experimentData Příkladová data pro ilustraci • Zde si načteme další datový soubor, na kterém budeme demonstrovat kontrolu kvality. Jedná se o data akutní lymfoblastické leukemie (Ross a kol., 2004). Soubor je součastíbalíku ALLMLL a již je ve formátu AffyBatch. install.packages(ALLMLL) library(ALLMLL) data(MLL.B) • Pro ilustraci z dat vybereme pouze osm mikročipů a jejich názvy změníme na čísla. Data = MLL.B[,c(1:7,14)] sampleNames(Data) = c(1:7,14) Příklad - kontrola kvality na úrovni sady sond pm(Data,"240060_at") par(mfrow=c(1,2)) matplot(pm(Data,"240060_at"), type="l", ylab="PM intensita sondy", xlab="Sada sond 240060_at", las=1, main="PM") matplot(mm(Data,"240060_at"), type="l", ylab="MM intensita sondy", xlab="Sada sond 240060_at", las=1, main="MM") • Efekt dávky, gen ESR1, data karcinom kolorekta • Porovnání ESR1 MM a PM intenzit u ER+ a ER- karcinomu prsu ER+ ERDávka 1 Dávka 2 Příklad - kontrola kvality na úrovni sady sond Kontrola kvality na úrovni mikročipu Rozlišujeme 3 hlavní způsoby kontroly kvality na úrovni mikročipu: • Kontrola kvality na základě doporučených parametrůAffymetrix • Kontrola kvality s pomocí základních diagnostických grafů • Kontrola kvality na základě vyhodnocení modelu úrovně sondy (PLM – probe level model) Efekt barviva není problémem, protože máme pouze jeden kanál. Kontrola kvality na základě doporučených parametrů Affymetrix Affymetrix vydal sadu doporučení k analýze dat GeneChip mikročipů ”GeneChip® Expression Analysis Data Analysis Fundamentals” http://media.affymetrix.com/support/downloads/manuals/data_analysis_fundamentals_manual.p df Ve zkratce: - průměrné hodnoty pozadí mělybýt porovnatelné (a mezi 20 a 100) - škálové faktory by se mezi čipy neměly lišit více než trojnásobně - procento nalezených (present) sond by mělo být porovnatelné, přičemž extrémně nízké hodnoty jsou znakem nízké kvality - Nakonec, 3’/5’ poměry interních kontrolních genů (beta actin a GADPH) by neměly překročit hranici 3 Kontrola kvality na základě parametrů Affymetrix Balík simpleaffy implementuje základní funkce, které počítají sumarizace parametrů kvality Affymetrix GeneChip mikročipu library(simpleaffy) Data.qc = qc(Data) #funkce qc() • Podle návodu Affymetrixu by průměrné hodnoty pozadí mělybýt porovnatelné (a mezi 20 a 100) > avbg(Data.qc) 1 2 3 4 5 6 7 14 67.34494 68.18425 42.12819 61.31731 53.64844 49.39112 75.14030 128.41264 • Škálové faktory by se neměly lišit více než trojnásobně mezi čipy: > sfs(Data.qc) 4.905489 9.765986 10.489529 7.053323 7.561613 13.531238 3.394921 2.475224 Kontrola kvality na základě parametrů Affymetrix • Procento nalezených (present) sond by mělo být porovnatelné, přičemž extrémněnízké hodnoty jsou znakem nízké kvality. V našem případě je na tom nejhůř čip 6. > percent.present(Data.qc) 1.present 2.present 3.present 4.present 5.present 6.present 7.present 14.present 26.53124 21.65158 25.58181 23.53279 23.35615 17.96423 25.98808 25.25061 • Nakonec, 3’/5’ poměry interních kontrolních genů (beta actin a GADPH) by neměly překročit hranici tří, v našem příkladu tedy nenalézáme problém s degradací RNA. > ratios(Data.qc) Kontrola kvality na základě parametrů Affymetrix Kontrola kvality s pomocí základních diagnostických grafů Tyto grafy jsou stejné jako pro cDNA mikročipy Kontrola kvality s pomocí základních diagnostických grafů • Krabicové grafy a hustoty rozložení logaritmovaných hodnot intensit sond u všech mikročipů par(mfrow=c(1,2)) boxplot(Data, las=1, ylab="log intensity") hist(Data, las=1, col=c(1:8), lty=1) legend("topright",col=c(1:8), lty=1, legend=c(1:7,14)) X1 X2 X3 X4 X5 X6 X7 X14 6 8 10 12 14 logintensity 6 8 10 12 14 0.0 0.2 0.4 0.6 0.8 1.0 log intensity density 1 2 3 4 5 6 7 14 • Podobně jako u cDNA mikročipů, i u oligonukleotidových čipů může dojít k prostorovému efektu nerovnoměrné hybridizace, která se pak také odhaluje pomocí heatmapy virtuálně zrekonstruovaného mikročipu a zobrazení rozložení hodnot par(mfrow=c(1,2)) hist(Data[,2], las=1, col=2, lty=1) image(Data[,2]) Kontrola kvality s pomocí základních diagnostických grafů ▪ Jako další lze podobně jako u cDNA čipů vykreslit MA graf ▪ M a A hodnoty se buď počítají mezi dvěma mikročipy, nebo úlohu referenčního kanálu zastoupí referenční pseudo-mikročip (medián) windows(12,7) par(mfrow=c(2,4), mar=c(2,2,3,1)) MAplot(Data, cex=0.75, las=1) mtext("M", 2, outer=T, line=-1.5, las=1) mtext("A", 1, line=2, at=-6) Kontrola kvality s pomocí základních diagnostických grafů Kontrola kvality na základě tzv modelu úrovně sondy (PLM – probe level model) Bolstad BM (2004). Low Level Analysisof High-density Oligonucleotide ArrayData:Background,Normalization and Summarization.Ph.D. thesis, University of California, Berkeley. Bolstad BM, Collin F, BrettschneiderJ, SimpsonK, Cope L, Irizarry RA, Speed TP (2005).“Quality Assessmentof Affymetrix GeneChip Data.” In Gentleman R, Carey V, Huber W, Irizarry R, Dudoit S (eds.), Bioinformatics and ComputationalBiologySolutionsusing R and Bioconductor,chapter 3, 33–47.Springer,New York. BrettschneiderJ, Collin F, Bolstad BM, Speed TP (2007).“Quality assessmentfor short oligonucleotide arrays.” Technometrics PLMres <- fitPLM(Data) Kontrola kvality na základě tzv modelu úrovně sondy (PLM – probe level model) Vignette: https://www.bioconductor.org/packages/devel/bioc/vignettes/affyPL M/inst/doc/AffyExtensions.pdf Jak kvantifikovat kvalitu? Kontrola kvality na základě tzv modelu úrovně sondy (PLM – probe level model) • Relative Log Expression (RLE) • Normalized Unscaled Standard Error (NUSE) kde gi představuje intenzitu genu g na sklíčku i a mg medián genu i počítaný přes všechny sklíčka • Počítané pro každý gen, mohou se využít jako kontrola kvality sond i sklíček Kontrola kvality na základě tzv modelu úrovně sondy (PLM – probe level model) • Pokud vzhledem k druhu experimentu a mikročipu můžeme očekávat, že platí předpoklad o nezměněné expresi většiny transkriptů, můžeme odstranit čip jako nekvalitní, pokud má výrazně posunuté RLE hodnoty mimo 0, a NUSE hodnoty nad 1 (>1.02) > nuse.stat = nuse(PLMres, type="stats") > W = nuse.stat["median",]<1.02 > W 1 2 3 4 5 6 7 14 TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE > Data.clean = Data[,W] Funkce Mbox vykreslí krabicové grafy RLE hodnoty pro všechny čipy a funkce NUSE vykreslí krabicové grafy hodnot NUSE : > Mbox(PLMres, main="RLE", las=1) > NUSE(PLMres, ylim=c(0.9,2), las=1, main="NUSE") Kontrola kvality na základě tzv modelu úrovně sondy (PLM – probe level model) Předzpracování oligonukleotidových čipů (Affymetrix etc) Hlavní kroky (ne vždy v tomto pořadí a ne vždy všechny): • Korekce na pozadí (background correction) • Normalizace na úrovni sondy (probe level normalization) • Korekce PM hodnot (PM correction) • Sumarizace sond do úrovně sady sond (probe set summarization) • Normalizace sady sond (probe set normalization) Metody předzpracování a normalizace • Mnoho metod pro úpravy dat oligonukleotidových mikročipů představuje pipeliny, které provedou komplexní normalizaci a sumarizaci dat. • V případě, že tyto pipeliny poprvé představily některou z metod, na tuto metodu se pak odkazuje jménem algoritmu. • Nejznámější pipeliny/algoritmy • MAS 5.0 (Microarray Suite 5.0) • PLIER (Probe Logarithmic Intensity ERror) • https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2623311/ • dChip • https://www.pnas.org/doi/10.1073/pnas.98.1.31 • RMA(log scale Robust Multi-arrayAnalysis) • Methods for Affymetrix OligonucleotideArrays R package • http://www.bioconductor.org • GCRMA(RMAs korekcí na GC obsah) Souhrn normalizačních technik/algoritmů Souhrn normalizačních technik/algoritmů MAS 5.0 algoritmus korekce signálu • Původní algoritmus navržený Affymetrix • Základní model: Pozorovaná hodnota = S+N+P S - skutečný signál N - šum P - nespecifická hybridizace (modeluje se MM) • Používá PM i MM sondy • 2 kroky: 1. Odečtení intensity pozadí / šumu od každé sondy (PM i MM) 2. Odečtení signálu nespecifickéhybridizace sondy i v sadě sond j Metoda odhadu signálu pozadí: Rozdělení čipu na K čtvercových oblastí (K=16), označme je Zk. 2% sond s nejnižší intensitou je pak použito pro odhad signálu pozadí u každé oblasti bZk,odhad variability bZk je považován za šum NZk Odhad pozadí pro sondu na pozici (x,y), b(x,y) je pak vypočten váženým průměrem odhadů signálů všech zón, kde váha závisí na vzdálenosti od centroidů regionů Odhad šumu pro sondu na pozici (x,y) je pak vypočten stejně, ale s použitím NZk Intenzita sondy adjustovaná na pozadí je vypočtená jako A(x,y)=max(I(x,y)-b(x,y),0.5*n(x,y)) kde I(x,y) - je pozorovaná intenzita signálu na pozici (x,y) > Data.bg.mas5 <- bg.correct(Data, method=“mas“) MAS 5.0 - krok 1 - odečtení pozadí / sumu Další krok řeší odečet nespecifické hybridizace MM od signálu PM. Protože MM hodnota (nespecifická hybridizace) může být vyšší než hodnota PM, musíme provést korekci PM hodnot trochu jinak. Vi,j = PMi,j – IMi,j • Definujeme IM - „ideal mismatch“. Je to vlastně MM, ale v případě, že MM>PM, MM se odhadne na základě ostatních sond ze sady, s pomocí specifického Tukeyho dvouváhového odhadu > Data.bg.masim <- threestep(Data, background.method=“MASIM“) MAS 5.0 - krok 2 – korekce nespecifické hybridizace Souhrn normalizačních technik/algoritmů RMA (Robust Multichip Average) konvoluce • Tato metoda, po které byl pojmenován jeden celý algoritmus normalizace dat zahrnující normalizaci mezi sklíčkami a následnou sumarizaci (Irrizary a kol, 2003), normalizuje PM hodnoty s pomocí globálního modelu rozdělení PM intensit sond. Pracuje tedy se všemi čipy v experimentu. • Nepoužívá MM!!! • Lineární aditivní model • Předpoklady - všechny čipy mají stejné rozložení pozadí • Je robustní • Zvýrazňuje odlehlé hodnoty, které jsou jenom v jednom mikročipu a jinak by zůstali skryté • Odhad zároveň není těmito hodnotami ovlivněn • Používá už všechny čipy, počítá jen s PM hodnotami, všechny MM používá na odhad pozadí > Data.bg.rma = bg.correct(Data, method="rma") RMA (Robust Multichip Average) konvoluce Krok 1: odstranění pozadí, dle modelu • PMijg=Sijg+Bijg • Sijg je signál čipu i,sondy j genu g, kde Sijg ~ Exp(lijg) • Bijg je pozadí čipu i,sondy j genu g, kde Bijg ~ N(b,si 2) Krok 2: Proveď kvantilovou normalizaci na již upravených PMijgnorm hodnotách Krok 3: Aplikuj log2 na hodnoty po kvantilovénormalizaci RMA (Robust Multichip Average) konvoluce Krok 4: pro každou sadu sond g fituj model log2(PMijnorm)=m+ai+bj+eij kde m+ai je log2 odhad exprese sady sond g na čipu i bj je log2 afinita sondy j. eij je chyba Kodhadu těchto hodnot je používán robustní odhad s pomocí mediánového vyhlazování Normalizace mezi mikročipy • Podobně jako u cDNA mikročipů hlavně: • Centrování mediánem • Cyklická loess • Kvantilová normalizace • Některé metody využívají informaci všech mikročipů i pro normalizaci pozadí a sumarizaci (RMA) • Funkce normalize implementuje několik normalizačních metod. Centrování průměrem: > Data.norm.scale = normalize(Data, method="constant") Kvantilová normalizace: > Data.norm.quant = normalize(Data, method="quantiles") Cyklická loess: > Data.norm.loess = normalize(Data, method="loess") Také funkce threestep balíku affyPLM implementuje několik druhů normalizace. Jak již bylo řečeno výše, tato funkce vrací již sumarizované hodnoty. Sumarizace • Sumarizace intenzit sond ze sady do jediné hodnoty představující expresi transkriptu (genu) je poslední částí zpracování základních dat oligonukleotidových mikročipů. • Podobně jako u normalizace, některé sumarizační metody operují pouze v rámci jednoho mikročipu, jiné berou do úvahy všechny mikročipy. Metody sumarizace v rámci jednoho mikročipu1. Průměr, nebo medián logaritmů sond 2. Tukeyho dvouváhový odhad, který se používá v algoritmu MAS5.0 3. PLIER (probe logarithmic intensity error) - navržená affymetrixem jako update Tukeyho dvouváhového odhadu (https://www.affymetrix.com/support/technical/technotes/plier_technote.pdf) E(pmij)=μij=aicj+Bij E(mmij)=Bij Bij je nespecifická hybridizace na pozadí příslušná sondě i na mikročipu j (pozadí je stejné pro každý PM a MM pár) μij je vazební hladina sondy i na čipu j ai je vazební afinita sondy i cj je koncentrace RNA vzorku j, který je hybridizován na čip j • PLIER počítás rozdílem v signálu mezi sondami v rámci stejné sady sond pomocí parametru nazývaného afinita sondy (odhad specifické vazby sondy).Afinita sondy představuje sílu signálu produkovaného při specifické koncentracipro danou sondu. PLIER se snaží vytvořit přesnější odhad úrovně exprese sady sond využitím těchto inherentních afinit sond, empirického výkonu sondy a chyb při manipulaci s nízkými a vysokými koncentracemi. • Afinity sond byly vypočteny pomocíexperimentálníchdat napříč více mikročipy. PLIER také využívá chybový model,který předpokládá,že chyba je úměrná sondě,spíšenež signálu. Modelování chyby se tak může vhodně upravit pro nízké a vysoké hodnoty koncentrace. Metody sumarizace vícečipové Tyto metody zahrnují: • lineární regresi • robustní regresi (PLM model) • mediánové vyhlazování (median polish) Poslední metoda je specifická pro algoritmus RMA, který je implementovaný ve funkci rma, která provede korekci na pozadí pomocí RMA konvoluce, kvantilovou normalizaci a sumarizaci založenou na mediánovém vyhlazování. Data.rma = rma(Data.clean) Affymetrix .cdf files Popis formátu cdf file: http://dept.stat.lsa.umich.edu/~kshedden/Courses/Stat545/Notes/AffxFileFormats/cdf.html Stáhnutí .cdf ke konkrétní platformě (např. hg-u133-plus) http://www.affymetrix.com/support/technical/byproduct.affx?product=hg-u133-plus BiocInstaller::biocLite("hgu133a2cdf") # instalace již existující platformy BiocInstaller::biocLite("makecdfenv") # nástroj pro vytvoření prostředí k jakékoliv platformě (nutno mít cdf file) Cvičení na doma • Pracujte se souborem Cviceni-Affy-breast.zip, který rozbalíte • Pokračujte instrukcemi v souboruAffy-normalize.R Další čtení http://www.affymetrix.com/support/downloads/manuals/data_analysis_fundamentals_manual.pdf https://www.affymetrix.com/support/technical/whitepapers/sadd_whitepaper.pdf https://www.bioconductor.org/packages/devel/bioc/vignettes/affyPLM/inst/doc/AffyExtensions.pdf https://www.ncbi.nlm.nih.gov/pmc/articles/PMC150247/ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2623311/ https://mdozmorov.github.io/BIOS567.2017/presentations/06b_Summarization/Tukey_MAS5_NO TES.pdf Online skripta předmětu https://portal.matematickabiologie.cz/index.php?pg=analyza-genomickych-a-proteomickych-dat--analyza- genomickych-a-proteomickych-dat Gen Vzorky M hodnota genu i vzorku j M = Log2(Cy5 / Cy3) – cDNA arrays Funkce(PM, MM) z MAS, dchip nebo RMA vzorek1 vzorek2 vzorek3 vzorek4 vzorek5 … 1 0.46 0.30 0.80 1.51 0.90 ... 2 -0.10 0.49 0.24 0.06 0.46 ... 3 0.15 0.74 0.04 0.10 0.20 ... 4 -0.45 -1.03 -0.79 -0.56 -0.32 ... 5 -0.06 1.06 1.35 1.09 -1.09 ... Konečná podoba dat