MUNI RECETOX Analýza genomických a proteomických dat cDNA mikročipy - Kontrola kvality a normalizace Jaro 2022 9. a 16. březen 2022 Eva Budinská (budinska@recetox.muni.cz) cDNA mikročipy - kontrola kvality Úrovně kontroly kvality Úroveň mikročipu (základní datová matice) f 1 Kvalita sondy Kvalita mikročipu o Úroveň experimentu (finální datová matice) Kvalita experimentu c~c~c t: t: Mikročipy 1... n Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň m ikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipu v experimentu MUIU I RECETOX Úrovně úpravy datových souborů Úroveň mikročipu (základní datová matice) f 1 Kvalita sondy Kvalita mikročipu Odstranění nekvalitních spotů Sumarizace duplikátů Normalizace uvnitř mikročipu Úroveň experimentu (finální datová matice) Kvalita experimentu Normalizace mezi mikročipy ivi irvi uuipy—i ... n Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň m ikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipu v experimentu MUIU I RECETOX Úrovně úpravy datových souborů Úroveň mikročipu (základní datová matice) f 1 Kvalita sondy Kvalita mikročipu Odstranění nekvalitních spotů Sumarizace duplikátů Normalizace uvnitř mikročipu Úroveň experimentu (finální datová matice) Kvalita experimentu Normalizace mezi mikročipy ivi irvi uuipy—i ... n Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň m ikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipu v experimentu MUIU I RECETOX Kontrola dat v rámci mikročipového sklíčka • Replikáty sond • Sumární statistiky replikátů spotů (nekvalitní spoty už vyloučené) clone Replicate mean median SD No. of non-flagged replicates 1 2 3 A 23 P347643 -0.186 -0.265 -0.313 -0.254 -0.265 0.052 3 A 23 P60243 0.523 flagged flagged 0.523 0.523 0 1 A_23_P116057 0.039 -0.978 flagged -0.495 -0.495 0.5 2 A_23_P203743 -0.614 0.537 1.589 0.504 0.537 0.899 3 Buď odstranit sondy s příliš velkou variabilitou mezi replikáty... - ...nebo si uschovat informaci o počtu validních replikátů (a vyhodit klony jen s jedním replikátem) Kvalita mikročipového sklíčka - Procento nekvalitních spotů nesmí být příliš velké (<25 %) • Systematické odchylky odstraníme procesem NORMALIZACE MUNI I RECETQX Úrovně úpravy datových souborů Úroveň mikročipu (základní datová matice) f 1 Kvalita sondy Kvalita mikročipu Odstranění nekvalitních spotů Sumarizace duplikátů Normalizace uvnitř mikročipu Úroveň experimentu (finální datová matice) Kvalita experimentu Normalizace mezi mikročipy ivi irvi uuipy—i ... n Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň m ikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipu v experimentu MUIU I RECETOX Systematické odchylky uvnitř mikročipu Nerovnoměrná hybridizace (prostorové odchylky) ■ Příčina: nerovnoměrně umytý čip, nerovnoměrně distribuovaný vzorek, print-tip efekt (defektní jehla) Signál pozadí (background) ■ Může být velmi silný, buď špatně umytý čip, nebo špatná segmentace (část popředí je kvantifikovaná jako pozadí) Efekt barviva (rozdíly intenzit mezi kanály) ■ Příčina: odlišná schopnost inkorporace molekul barviva (Cy3, Cy5) odlišná reakce na excitaci (slabší intenzita UV, ...) ODHALUJEME GRAFICKOU REPREZENTACÍ DAT MUNI Diagnostika nerovnoměrné hybridizace Virtuální rekonstrukce mikročipu, vykreslení heatmapy log2 poměru Cy5/Cy3 intenzit na základě jejich pozice na sklíčku ■2-10 1 Value A) ' " I I I ■ Krabicové grafy jednotlivých oblastí (nejčastěji print-tip) JO ÍL t -I i I I I I I i ! I I 1 I i l i 3 5 7 Š 11 13 15 Print lip Diagnostika efektu barviva Často je efekt barviva větší u sond s nízkou expresí Graf intensit kanálů MA graf 0 2000 4000 3000 8000 Cy3 = BO + B1 *Cy5 M = lo9 (R/G) (Cy3-B0)/B1=Cy5' A = 1/2 (log(R)+log(G)) Neukáže nelineárni trendy Ukáže nelineárni trendy! M U N I | RECETOX Cvičení! ■ Budeme pracovat v programu R-Studio ■ Ukážeme si jak instalovat baliky pro specifické analýzy genomických a proteomických dat ■ Na příkladových datech uděláme diagnostiku kvality sklíčka M U l\l I R E C E T 0 X Bioconductor • Bioconductor je projekt v R speciálně určený pro analýzu molekulárních dat • Obsahuje nejenom speciální balíky, ale i typy objektů, smyslem je standardizace a minimalizace chyb! • Jak instalovat: • https://www.bioconductor.orq/install/ • Do R příkazového řádku zadáme: • if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install(version = "3.12") • Instalace základních balíků: • if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install()MUNIIRECETOX Bioconductor - instalace balíků Pro instalaci specifického baliku použijeme kód: BiocManager::install(c("nazevbalikul", Mnazevbaliku2")) POZOR NA uvozovky, musi být ", ne " Balík marray • Balík marray poskytuje sadu funkcí pro analýzu cDNAčipů BiocManager : rinstall ("marray") • Základní strukturou, s kterou pracuje a která obsahuje základní data všech matic experimentu je třída marrayRaw new('marrayRaw', maRf = ...., # matice intensit spotů červeného kanálu maGf = ...., # matice intensit spotů zeleného kanálu maRb = ...., # matice intensit pozadi červeného kanálu maGb = . . . ., # matice intensit pozadi zeleného kanálu maLayout = . . . . , # objekt třidy marrayLayout, popis mikročipu maGnames = # objekt třidy marraylnfo, popis sond maTargets = # objekt třidy marraylnfo, popis vzorků maNotes = # text - poznámky ) M U l\l I R E C E T 0 X Další objekty balíku marray m ar ray Lay out - popisuje mikročip, umístění spotů a jejich sondy new('marrayLayout' , maNgr = maNgc = maNsr = maNsc = maNspots maNsc maSub = #počet řádků matic #počet sloupců matic #počet řádků v matici #počet sloupců v matici ., # maNgr x maNgc x maNsr x maNsr- # vektor TRUE/FALSE, které spoty se použivaji maPlate = ..., # faktor - print tip maControls = # faktor - status sondy (kontrolná nebo ne?) maNotes = # Object of class character) maNgr- maNsc _*_ maNgc _Ji_ oooooooooooo o o o o o oo o o o o o oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooononooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo I I REC ETOX Další objekty balíku marray • marraylnfo - popisuje vzorky nebo sondy new('marraylnfo1, maLabels = . . . . , # vektor jmen/názvů malnfo = ...., # datová tabulka s dalšími charakteristikami maNotes = . . . . , # text s poznámkami ) V Rstudiu Si Otevřeme SOUbor cDNA-kontrolaKvality-prikladl. R cDNA mikročipy - normalizace Normalizace uvnitř mikročipu I. • Cíl: Upravit hodnoty signálu tak, abychom odstranili systematické odchylky uvnitř mikročipu • Princip: Centrování a/nebo škálování hodnot exprese M _M-l M nor m > S kde / a s jsou normalizační hodnoty střední hodnoty (/) a škály (s) MUIU RECETOX Normalizace uvnitř mikročipu I - metody Typy normalizace: 1) Logaritmická transformace-většinou používaná z důvodu transformace dat na normální rozdělení Mnorm = log2(M) Normalizace uvnitř mikročipu I - metody Typy normalizace: 1) Logaritmická transformace-většinou používaná z důvodu transformace dat na normální rozdělení 2) Korekce na pozadí - odstraňuje efekt pozadí - odlišné přístupy: 1) odpočítá se odhadnutý signál pozadí - založené na předpokladu aditivity signálu Pozorovaný signál (OS) = Signál pozadí (BS) + Signál sondy (TS) M norm = log2(M) TS = OS -BS - buď pro každý spot zvlášť, nebo globálně M norm = M -l * střední hodnota odhadnutého signálu pozadí 2) bez korekce! II U í J1 RE Normalizace uvnitř mikročipu I - metody 3) Normalizace prostorového efektu a rozdílů intenzit mezi kanály • Centrování m ed iánem • odečítá medián signálu od intenzit signálu všech spotů • nejjednodušší, ale není schopný zkorigovat nelinearitu i RSRBB I ~i-1-1-1-1-1-1-1-1-1-1-r~ 1 2 3 4 5 e 7 8 9 10 11 12 M norm = M-l, I je medián intenzit signálu všech spotů MUIU I RECETOX Problémy s mediánovým centrováním Jedná se o globální metodu, není schopna vyrovnat lokální efekty, problémy odlišných intenzit, print-tip efekty atd. o O Graf intensit kanálů -1.0 -0.5 0.0 0.5 1.0 1 5 ó o ó in ó MA graf -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 Log2(Cy3) A S nelinearitou si umí poradit lokálně regresní metody (lo(w)ess) I I REC ETOX Lowess normalizace I Princip: 1. Odhad křivky pomocí neparametrické lokálního (váženého) vyhlazování (lo(w)ess - locally (weighted) scatterplot smoothing) 2. Odečtení odhadnuté křivky od naměřených hodnot Výhoda : není nutné znát funkci křivky, je odhadnuta z dat! Před lowess normalizací Po lowess normalizaci »-| % " Lokální 4 6 B 10 4 6 B 10 I IM I I R E C E T 0 X Lowess normalizace II Princip lowess •V každém kroku se určí lokální množina dat, na které se odhadne křivka s pomocí polynomiálu a metody nej menších čtverců • Parametr X určuje stupeň polynomiálu {X=0 půměr, X= 1 lineární regrese, X=2 kvadratická regrese) • Množina dat na které se pracuje se určuje pomocí algoritmu nejbližšího souseda • Vyhlazovací parametr a určuje velikost této množiny (na bodů v okolí odhadovaného bodu) • a nabývá hodnot mezi (X + 1)/n a 1 MUIU RECETOX Normalizace uvnitř mikročipu II. • Křivky odhadujeme: • na základě signálů všech sond na mikročipu • Předpoklad: exprese většiny genů, které sondy představují, není změněná mezi porovnávanými skupinami! (závisí od mikročipu a od testované hypotézy) na základě signálu skupiny sond: i) skupina sond by měla mít přibližně stejnou expresi ve všech vzorcích (abychom neodstranili reálné biologické rozdíly) ii) množina by měla být dostatečně velká, aby zachytila variabilitu sklíčka Např. housekeeping geny MUIU RECETOX Úrovně úpravy datových souborů Úroveň mikročipu (základní datová matice) f 1 Kvalita sondy Kvalita mikročipu Odstranění nekvalitních spotů Sumarizace duplikátů Normalizace uvnitř mikročipu Úroveň experimentu (finální datová matice) Kvalita experimentu Normalizace mezi mikročipy ivi irvi uuipy—i ... n Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň mikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipu v experimentu MUIU I RECETOX Normalizace mezi mikročipy ■ Když jsou všechny datové matice mikročipů znormalizované, tak vytváříme finál ní datovou matici, kterou použijeme pro následnou analýzu řádky ~ vzorky, sloupce ~ geny ■ Jednotlivé soubory musíme normalizovat navzájem, abychom odstranili efekty mezi sklíčky, způsobené rozdílnou hybridizací, rozdílným množstvím vzorku (mRNA), rozdílným efektem skenování, chybami v segmentaci... apod. ■ Princip - sjednocení rozložení (průměr, směrodatná odchylka, případně kvantily) MUIU RECETOX Metody normalizace mezi mikročipy • Globální centrování • Nastaví průměr a škálu všech sklíček na jednu hodnotu (medián, průměr, ořezaný průměr... všech čipů nebo hodnoty referenčního čipu) • Nevýhoda: předpokládá, že rozdíly jsou jen posunové, lineární • Škálování • Tato metoda sjednocuje variabilitu jednotlivých mikročipu, například podělením hodnot mediánovou absolutní odchylkou jejich intenzit. Obvykle se kombinuje s centrováním. • Loess • Probíhá cyklickým způsobem - vždy mezi páry mikročipu až do konvergence. Také je možné vybrat množinu sond na kterých se udělá odhad loess křivky • Kvantilová normalizace MUIU RECETOX Kvantilová normalizace Je založena na pořadí pozorování, je tedy neparametrická. Buď na skupině všech sond, nebo jen na skupině vybraných sond. Princip: U každého mikročipu se geny seřadí dle hodnoty exprese a tyto hodnoty se potom nahradí průměrnou hodnotou kvantilu, který představuje v celém čipu hodnoty Gen čipl čip2 čip3 A 5 4 3 A B 2 1 4 —► B C 3 4 6 C D 4 2 8 D pořadí Gen čipl čip2 čip3 iv ^mj) i i Äii 30i m ii iv ii v Seřazené hodnoty čipl čip2 čip3 2 3 4 5 1 2 4 4 3 4 6 8 M U l\l I R E C E T O X Kvantilová normalizace Je založena na pořadí pozorování, je tedy neparametrická. Buď na skupině všech sond, nebo jen na skupině vybraných sond. Princip: U každého mikročipu se geny seřadí dle hodnoty exprese a tyto hodnoty se potom nahradí průměrnou hodnotou kvantilu, který představuje v celém čipu hodnoty Gen čipl čip2 čip3 A 5 4 3 A B 2 1 4 —► B C 3 4 6 C D 4 2 8 D pořadí Gen čipl čip2 čip3 iv ^mj) i i Äii 30i m ii iv ii v Seřazené hodnoty čipl čip2 čip3 2 3 4 5 1 2 4 4 3 4 6 8 průměr (2+l+3)/3 = 2.00 = pořadí (3+2+4)/3 = 3.00 = pořadí (4+4+6)/3 = 4.67 = pořadí (5+4+8)/3 = 5.67 = pořadí Kvantilová normalizace Je založena na pořadí pozorování, je tedy neparametrická. Buď na skupině všech sond, nebo jen na skupině vybraných sond. Princip: U každého mikročipu se geny seřadí dle hodnoty exprese a tyto hodnoty se potom nahradí průměrnou hodnotou kvantilu, který představuje v celém čipu hodnoty Gen čipl čip2 čip3 B C D ÔÓ 2 8 pořadí Gen čipl čip2 čip3 A iv (]ľj) i -* B i _J ii c a O O D (iii) ii iv (2+l + 3)/3 (3+2+4)/3 (4+4+6)/3 (5+4+8)/3 prumer 2.00 = pořadí ^XIO - pnřarU 4^67 = pořady = S. b 7 = poraor m v Seřazené hodnoty čipl čip2 čip3 2 13 3 2 4 4 4 6 5 4 8 normalizované hodnoty Gen A - B čipl ÍJQ2 5.67<ľ4~6 2.00 C 3-QQ -B—*(a^6% 3.00 5.67 uni I r e c e t 0 x Shrnutí Základní data nejsou m RNA koncentrace Musíme zkontrolovat kvalitu dat na různých úrovních • Úroveň sondy • Úroveň sklíčka (všechny sondy na sklíčku) • Úroveň genu (gen mezi sklíčky) Data vždy transformujeme logaritmem, abychom zabezpečili normální rozložení Data normalizujeme abychom odstranili systematické (technické) chyby lvi u im i Procvičování na doma • Podíváme se do našeho adresáře s cDNA příkladem a otevřeme cDNA.R v programu Rstudio. • Postupujeme dle instrukcí, na konci je dobrovolný úkol. MUIU RECETOX