Analýza genomických a proteomických dat Proteomické analýzy Jaro 2022 19. duben 2022 Eva Budinská (budinska@recetox.muni.cz) Analýza proteomu Zdroj: https://www.creative-proteomics.com/services/proteomics-service.htm Analýza proteomu 3. Analýza funkce: Modelovaní makromolekulárních systémů – odvozování vlastností z atomových interakcí 1. Analýza struktury: Proteínová sekvenace – Edmanova degradace, hmotnostní spektrometrie 2. Analýza abundance: Hmotnostní spektrometrie, proteínové mikročipy, 2D gelová elektroforéza.. Dělení proteomických experimentů Dle toho co zkoumají: kvalita (struktura, funkce) nebo kvantita (abundance) Dle komplexity vzorku: jeden, několik, tisíce? Dle úrovně frakcionace: zkoumáme peptidy nebo proteiny? Dle značení: label-free, SILAC, iTRAQ, ... Dle rozlišení: nízké vs vysoké 2D gelová elektroforéza Princip Proteiny jsou separované na gelu ve dvou dimenzích – na základě hmotnosti a na základě pH pH molekuoární hmotnost Postup experimentu 1. Proteiny jsou extrahovanéze vzorku 2. Vzorky se umístí na gel a proteiny migrují až dosáhnou izoelektronický bod (kdy je jejich náboj nula) - pH(I) * Důležitý je výběr gelu, který musí být dostatečně pórovitý, aby umožnil proteinům pohyb (agaróza nebo polyakrylamidový gel) 3. Takto se proteiny oddělí vzhledem ke svému izoelektrickému bodu 4. Následně proteiny necháme se pohybovat na základě hmotnosti ve druhé dimenzi 5. Nakonec je gel zabarvený, aby se detekovaly jednotlivé oblasti výskytu proteinů (spoty) 6. Zabarvený gel je pak digitalizován do obrazu (podobně jako mikročipy) 7. Intenzita pixelů koreluje s množstvím proteinu, používá se speciální SW pro analýzu spotů Jak vypadá obrázek 2-D gelová elektroforéza Jak vypadají data SSP wt_A wt_A wt_A wt_S 101 2338.84 2078.42 2625.1 2550.54 102 118.92 68.65 125.8 109.66 103 221.89 55.32 NA NA 104 215.3 189.02 220.28 NA 105 106.56 NA 238.36 NA 202 328.32 226.46 522.52 1281.75 203 259.8 228.13 340.37 NA 205 1439.72 1213.28 1187.43 1353.14 206 1094.33 754.83 1291.89 1240.82 208 97.78 41.51 164.49 33.25 209 NA NA NA 22.42 301 212.63 92.12 307.19 317.67 302 1491.34 1703.79 1830.19 1976.66 304 71.25 72.72 127.87 199.31 Vzorky Peptidy DIGE * Speciální typ 2-DE je 2-D FluorescenceDifference Gel Electrophoresis (DIGE). • Proteiny se nejprve zabarví fluorescenčním barvivem • Každé barvivo se skenuje pod jiným filtrem • Takto se může porovnávat více vzorků Nutnost úpravy dat * Tak jako mikročipový experiment i 2-DE je vystavená experimentálním chybám, které jsou zdrojem šumu * Je nutná úprava a normalizace dat * Neexistuje tu ale taková automatická kvantifikace spotů tak jako u mikročipů, protože spoty nejsou fixně dané předem! * existující automatická kvantifikace vyžaduje manuální úpravu * proměnné kvality spotů * Data z 2DE nejsou normálně rozložené – je nutná transformace (log) Normalizace a úpravy dat * Důležitým krokem v úpravě dat je kalibrace všech expresních hodnot a gelů navzájem * V tomto procesu se odstraňuje prostorový efekt, i efekt barviva * Na každém gelu jsou kontrolní proteiny, podle kterýchse každý gel kalibruje (posouvá) Kontrola kvality spotů Hmotnostní spektrometrie Hmotnostní spektrometrie Technika používaná pro charakterizaci (nejen) proteomu v biologickém vzorku (plasma, sérum, . . .) různé konzistence (pevná konzistence, tekutina, plyn) Založená na rozdílném náboji a hmotnosti peptidů a proteinů (nebo jiných molekul) Hmotnostní spektrometr je separuje na základě poměru hmotnosti k náboji (anglicky mass to charge ratio – m/z, jednotka Dalton), který je specifický pro každou molekulu. Často používané systémy - TOF nebo Orbitrap Hmotnostní spektrometrie 1. Ionizace molekul pomocílaseru 3. Pohyb iontů nulovým elektrickým polem dolů po délce MS přístroje k detektoru, který měříTOF Technika používaná pro charakterizaci (nejen) proteomu v biologickém vzorku (plasma, sérum, . . .) různé konzistence (pevná konzistence, tekutina, plyn) Založená na rozdílném náboji a hmotnosti peptidů a proteinů (nebo jiných molekul) Hmotnostní spektrometr je separuje na základě poměru hmotnosti k náboji (anglicky mass to charge ratio – m/z, jednotka Dalton), který je specifický pro každou molekulu. Často používané systémy - TOF nebo Orbitrap 2. Urychlení iontů pomocí akceleračního potenciálu m/z Intensita Hmotnostní spektrometr TOF - princip ▪ TOF (time-of-flight) závisí na hmotnosti proteinů nebo přesněji na jejich m/z a představuje sumu těchto časů: je čas letu v akcelerační oblasti, je čas přeletu v oblasti s nulovým elektrickým polem je čas detekce ▪ TOF lze aproximovat pouze pomocí mass-to-charge ratio je vypočteno podle: ▪ A a B jsou stanoveny pomocí kalibrace dDa t+t+t=TOF , at Dt dt 2^)(/ AtB=zm D − Dt Hmotnostní spektrometr TOF - druhy ▪ Příklady TOF spektrometrů: ▪ Matrix-Assisted Laser Desorption-Ionisation(MALDI)-TOF ▪ Surface-Enhanced Laser Desorption-Ionisation (SELDI)-TOF ▪ Způsob uchycení proteinů a ionizace ▪ Proteiny vzorku jsou před samotnou analýzou upevněny na podklad, který se v závislosti od typu hmotnostní spektrometrie liší. ▪ Jeho úkolem je také absorbovat energii v ionizátoru a předat ji vzorku a tak usnadnit jeho ionizaci. ▪ u MALDI se jedná o energii-absorbující matrici (matrix), co je nejčastěji organická kyselina s aromatickým jádrem ▪ SELDI využívá proteinový čip (s několika - obvykle osmi - spoty), opatřen speciálním chromatografickým povrchem, takže se na povrch váží různé proteiny v závislosti na svých chemických vlastnostech a vlastnostechčipu. A až potom dojde k nanesení matrice, která se vzorkem vytvoří krystaly. , MALDI-TOF ▪ Matrix-Assisted Laser Desorption-Ionisation- TOF SELDI-TOF ▪ Surface-Enhanced Laser Desorption-Ionisation – TOF ▪ Existuje několik druhů čipů (IMAC30, H50, NP20...), které se liší svým aktivním povrchem (anionický, kationický, kovový, normální fáze, hydrofobický, …) a proto také přednostně vážou jiné molekuly. Výhoda SELDI: Možnost odmýt látky, které by jinak ovlivňovali spektrum vzorku (např. močovina používaná k přípravě vzorku, nebo Na+ ionty přítomné fyziologicky ve vzorcích). Kapalinová chromatografie – LC-MS/MS ▪ Další druh hmotnostní spektrometrie pro identifikaci proteinů ▪ Vzorky nejsou na matrici jako u MALDI nebo SELDI, ale v kapalině ▪ MS/MS - tandemová hmotnostní spektrometrie Tandemová hmotnostní spektrometrie (MS/MS) Jde o použití dvou spektrometrií jednu po druhé. 1. Molekuly vzorku jsou ionizovány a první spektrometr (označený MS1) odděluje tyto ionty podle jejich poměru hmotnosti k náboji (m/z). 2. Ionty s konkrétním poměrem m/z pocházející z MS1 jsou vybrány a poté se rozštěpí (fragmentují) na menší ionty (kolizí indukovanou disociací, reakcí iontů a molekul nebo fotodisociací). 3. Tyto fragmenty dále putují do druhého hmotnostního spektrometru (MS2), který dále odděluje fragmenty podle jejich poměru m/z a detekuje je. Fragmentační krok umožňuje identifikovat a separovat ionty, které mají velmi podobné m/z-poměry v běžných hmotnostních spektrometrech. Používá se v proteínovém sekvencování. Výsledkem je peptide sequence tag 0 20406080 100 intensity 0 10000 20000 30000 40000 50000 mz Jak vypadají data vzorku z hmotnostního spektrometru 0 204060 Intensity 0 5000 10000 15000 20000 Mass to charge ratio (m/z) 0 204060 Intensity 0 5000 10000 15000 20000 Mass to charge ratio (m/z) Dvě spektra z jednoho vzorku 0 20406 Intensity 0 5000 10000 15000 20000 Mass to charge ratio (m/z) 0 204060 Intensity 0 5000 10000 15000 20000 Mass to charge ratio (m/z) Spektra z různých vzorků Zpracování dat 1. úprava hrubých dat (MS/MS i MS), normalizace, identifikace píků Vznik a úprava dat ▪ Kalibrace ▪ Signál je přeměněný na škálu m/z pomocí množství kalibračních proteinů ze známou m/z hodnotou. Toto se děje ještě v přístroji Základní data (formáty raw, mzXML, mzML, ...) ▪ Odstranění baseline ▪ Odstranění baseline šumu z profilu, například pomocí loess ▪ Normalizace ▪ Abychom mohli porovnat spektra mezi vzorky 0 20406080 100 intensity 0 10000 20000 30000 40000 50000 mz 0 20406080 100 0 10000 20000 30000 40000 50000 mz intensity baseline Baseline subtraction 0 20406080 100 0 10000 20000 30000 40000 50000 mz Upravená data Normalizace ▪ Odstraňujeme technickou variabilitu (přístrojové chyby, odlišné množství vzorku) ▪ Koncentrace proteinu se odhaduje jako plocha pod píkem (Area Under Curve – AUC) ▪ Normalizace pomocí průměrné AUC (TIC – total ion current) AUC celého spektra / průměrná AUC všech spekter Detekce píků a jejich zarovnání ▪ Pík ~ peptid/proteín, definuje se jako lokální maximum na základě porovnání variability v okolí ▪ Existují nepřesnosti na x (m/z) a y (signál) osách ▪ Píky každého spektra můžou být definované jako body které jsou maximálně +/- N bodů v okolí m/z ▪ first, second, estimated.. ▪ Důležité je brát do úvahy signal-tonoise ratio – píky musí překročit nějakou běžnou hranici šumu Jak vypadají data po zarovnání a detekci píků ▪ SELDI-TOF Clus ter Group Norm. Log Intensity M/Z Intensity Norm. Linear Intensity Type Mass Dev. 1 chemoresistentni 0.581550 2392.84 3.058176 30.578211 estimated 0.000007 1 chemoresistentni -0.072123 2392.84 1.943959 12.984676 estimated 0.000007 1 chemoresistentni 0.023116 2392.84 2.076621 15.079403 estimated 0.000007 1 chemoresistentni 0.160910 2392.84 2.284742 18.365652 estimated 0.000007 1 chemoresistentni 0.199591 2392.84 2.346828 19.345988 estimated 0.000007 1 chemoresistentni 0.161331 2392.82 2.285410 18.376190 first -0.000004 Úprava hrubých dat - dvě možnosti Profilové spektrum ▪ Získané z experimentu Čárové spektrum ▪ Vypočítané z profilového 612.5 613.0 613.5 614.0 614.5 615.0 615.5 616.0 616.5 m/z 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 RelativeAbundance 614.34 615.34 612.5 613.0 613.5 614.0 614.5 615.0 615.5 616.0 616.5 m/z 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 614.37 615.32 RelativeAbundance Čipy pro SELDI hmotnostní spektrometrii ▪ Kvantitativní hodnoty proteomu jsou také ovlivněné různými zdroji variability (experimentální i biologické) ▪ Velmi velké rozdíly mezi typy použitého čipu! H50 IMAC30 NP20acid NP20alkaline N % N % N % N % H50 75 100.0 19 47.5 24 52.2 56 59.6 IMAC30 19 25.3 40 100.0 19 41.3 21 22.3 NP20acid 24 32.0 19 47.5 46 100.0 30 31.9 NP20alkaline 56 74.7 21 52.5 30 65.2 94 100.0 separate M/Z 15 20.0% 15 37.5% 12 30.0% 28 29.8% 2500 5000 7500 10000 2500 5000 7500 10000 0 25 50 75 100 2500 5000 7500 10000 0 25 50 75 100 2500 5000 7500 10000 0 25 50 75 100 2500 5000 7500 10000 0 25 50 75 100 2500 5000 7500 10000 2500 5000 7500 10000 2500 5000 7500 10000 0 25 50 75 100 2500 5000 7500 10000 0 25 50 75 100 2500 5000 7500 10000 0 25 50 75 100 2500 5000 7500 10000 0 25 50 75 100 2500 5000 7500 10000 2500 5000 7500 10000 2500 5000 7500 10000 0 25 50 75 100 2500 5000 7500 10000 0 25 50 75 100 2500 5000 7500 10000 0 25 50 75 100 2500 5000 7500 10000 0 25 50 75 100 2500 5000 7500 10000 Citrat e EDTA Heparin Serum CM10 IMAC-Cu - H50 m/z m/z m/z Intensit y Peaky profilů 3 odlišných SELDI čipů Vzorky zpracované 4 různými způsoby Banks et al, Clinical Chemistry 2005 Příklad ▪ Shlukování profilů stejných vzorků ze 4 typů SELDI sklíček: IMAC30, H50, NP20zas, NP20kys Aplikace I – identifikace bakterií 5176 6105 6797 779773954790 102688305 949942652795 3405 8972 4976 116763897 0.0 0.2 0.4 0.6 0.8 1.0 5x10 Intens.[a.u.] 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 m/z Acinetobacter johnsonii 53814364 6255 5096 9553 2833 71584776 6507 8368 89937869 4183 10299 0 2 4x10 Intens.[a.u.] 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 m/z Escherichia coli 4435 6048 5211 6678 7236 7923 8357 9091 97002213 3020 3613 0 500 1000 Intens.[a.u.] 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 m/z Pseudomonas aeruginosa Kingella kingae 50502524 44263154 3592 2212 4120 59684704 71842746 5320 0 2000 4000 Intens.[a.u.] 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 Aplikace I – identifikace bakterií 5176 9931 6105 6832 83204265 947773814966 89722585 34143051 4486 5932 3879 11082 0.0 0.2 0.4 0.6 0.8 5x10 Intens.[a.u.] 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 m/z Acinetobacter bouvetii 5175 6105 74486930 92942585 833542653723 47843051 89866642 7186 99745626 0 1 2 3 4 4x10 Intens.[a.u.] 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 m/z Acinetobacter haemolyticus 5176 6105 739668024265 922377972585 47553399 66113050 1001683203897 59335393 0 1 2 4x10 Intens.[a.u.] 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 m/z Acinetobacter johnsonii NIPH 2122 5176 6105 6814 739642652585 95115729 779747553405 8320 102693050 6611 89733897 0 2 4 4x10 Intens.[a.u.] 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 m/z Acinetobacter johnsonii NIPH 2124 41 01002003004005006007008009001000 Duskova KAS 151 Duskova KAS 152 Duskova KAS 153 Duskova KAS 115 Duskova KAS 110 Duskova KAS 113 Duskova KAS 137 Duskova KAS 175 Duskova KAS 155 Duskova KAS 106 Duskova KAS 102 Duskova KAS 140 Duskova KAS 105 Duskova KAS 139 Duskova KAS 112 Duskova KAS 111 Duskova KAS 114 Duskova KAS 180 Duskova KAS 187 Duskova KAS 184 Duskova KAS 190 Duskova KAS 191 Duskova KAS 192 Duskova KAS 185 Duskova KAS 186 Duskova KAS 169 Duskova KAS 188 Duskova KAS 168 Duskova KAS 170 Duskova KAS 171 Duskova KAS 121 Duskova KAS 104 Duskova KAS 183 Duskova KAS 193 Duskova KAS 223 Duskova KAS 224 Duskova KAS 88 Duskova KAS 119 Duskova KAS 125 Duskova KAS 149 Duskova KAS 89 Duskova KAS 94 Duskova KAS 91 Duskova KAS 120 Duskova KAS 148 Duskova KAS 126 Duskova KAS 99 Duskova KAS 117 Duskova KAS 118 Duskova KAS 92 Duskova KAS 236 Duskova KAS 238 Duskova KAS 242 Duskova KAS 243 Duskova KAS 237 Duskova KAS 229 Duskova KAS 231 Duskova KAS 230 Duskova KAS 239 Duskova KAS 258 Duskova KAS 209 Duskova KAS 210 Duskova KAS 226 Duskova KAS 206 Duskova KAS 205 Duskova KAS 215 Duskova KAS 124 Duskova VI Duskova XIII Duskova VII Duskova XIV Duskova KAS 240 Duskova KAS 241 Duskova KAS 244 Duskova KAS 259 Duskova KAS 212 Duskova KAS 207 Duskova KAS 208 Duskova KAS 211 Duskova KAS 213 Duskova KAS 227 Duskova KAS 228 Duskova KAS 216 Duskova KAS 167 Duskova KAS 136 Duskova KAS 165 Duskova KAS 133 Duskova KAS 247 Duskova KAS 268 Duskova KAS 225 Duskova V Duskova KAS 252 Duskova KAS 256 Duskova KAS 232 Duskova IV Duskova XV Duskova KAS 267 Duskova XI Duskova XVII Duskova XVI Duskova KAS 264 Duskova KAS 266 Duskova KAS 265 Duskova KAS 253 Duskova KAS 255 Duskova I Duskova II Duskova III Duskova KAS 248 Duskova KAS 158 Duskova KAS 203 Duskova XX Duskova XII Duskova KAS 202 Duskova KAS 142 Duskova XXI Duskova KAS 245 Duskova KAS 263 Duskova KAS 257 Duskova KAS 246 Duskova KAS 234 Duskova KAS 249 Duskova KAS 260 Duskova KAS 270 Duskova KAS 254 Duskova KAS 262 Duskova KAS 261 Duskova KAS 199 Duskova KAS 196 Duskova KAS 200 Duskova KAS 194 Duskova KAS 195 Duskova KAS 201 Duskova KAS 189 Duskova KAS 197 Duskova KAS 198 Duskova KAS 204 Duskova KAS 178 Duskova KAS 172 Duskova KAS 132 Duskova KAS 129 Duskova KAS 181 Duskova KAS 173 Duskova KAS 134 Duskova KAS 128 Duskova KAS 182 Duskova KAS 162 Duskova KAS 163 Duskova KAS 130 Duskova KAS 135 Duskova KAS 84 Duskova KAS 83 Duskova KAS 85 Duskova IX Duskova XVIII Duskova X Duskova VIII Duskova XIX Duskova KAS 251 Duskova KAS 164 Duskova KAS 141 Duskova KAS 86 Duskova KAS 96 Duskova KAS 101 Duskova KAS 95 Duskova KAS 97 Duskova KAS 176 Duskova KAS 160 Duskova KAS 179 Duskova KAS 122 Duskova KAS 123 Duskova KAS 147 Duskova KAS 90 Duskova KAS 144 Duskova KAS 145 Duskova KAS 127 Duskova KAS 116 Duskova KAS 138 Duskova KAS 100 Duskova KAS 98 Duskova KAS 93 Duskova KAS 108 Duskova KAS 107 Duskova KAS 217 Duskova KAS 221 Duskova KAS 177 Duskova KAS 222 Duskova KAS 174 Duskova KAS 154 Duskova KAS 166 Duskova KAS 156 Duskova KAS 143 Duskova KAS 146 Duskova KAS 218 Duskova KAS 219 Duskova KAS 220 Duskova KAS 150 Duskova KAS 109 Duskova KAS 161 Duskova KAS 131 Duskova KAS 103 Duskova KAS 87 Distance Level Lactococcus lactis Lactococcus garvieae Lactobacillus brevis Lactobacillus sakeiLactobacillus curvatusEnterococcus faecalis Enterococcus thailandicusEnterococcus faeciumEnterococcus spp. Enterococcus hermanniensis Enterococcus devriesei Lactobacillus plantarum Lactobacillus plantarum/paraplantarum Pseudomonas spp.Weissella viridescens Corynebacterium variabile Corynebacterium spp. Streptococcus parauberisStreptococcus salivariusStreptococcus spp.Vagococcus fluvialis Leuconostoc citreum Bacillus spp.Bacillus subtilis Staphylococcus carnosusStaphylococcus spp. Staphylococcus hominisBacillus cereus Staphylococcus epidermidisStaphylococcus spp.Staphylococcus aureus Pediococcus pentosaceus Pediococcus spp. Pediococcus acidilactici Aplikace II ** * * * ** * * ** * ** *** *** * MALDI-TOF MS fingerprint containing proteins 2564 3281 2812 3623 5589 6225 7239 10014 9690 10305 0.5 1.0 1.5 2.0 2.5 4x10 Intens.[a.u.] 2000 3000 4000 5000 6000 7000 8000 9000 10000 9851 10144 MALDI-TOF MS fingerprint containing maltooligosaccharides 1517 1355 1030 2167 2329 1193 2004 1680 2490 1842 867 2652 2976 2814 3138 705 3300 3462 3624 3785 2425 2586 2263 3947 4109 1614 2749 1776 4270 1451 3233 3073 4432 1939 4594 4755 0.00 0.25 0.50 0.75 1.00 1.25 4x10 Intens.[a.u.] 1000 1500 2000 2500 3000 3500 4000 4500 5000 m/ z Šedo et al., 2012 Aplikace II 1002003004005006007008009001000 Brewery 1 bottle 3 Brewery 1 bottle 4 Brewery 1 bottle 5 Brewery 1 bottle 1 Brewery 1 bottle 2 Brewery 2 bottle 3 Brewery 2 bottle 4 Brewery 2 bottle 5 Brewery 2 bottle 1 Brewery 2 bottle 2 Brewery 3 bottle 1 Brewery 3 bottle 2 Brewery 3 bottle 3 Brewery 3 bottle 4 Brewery 3 bottle 5 Distance Level Aplikace II 01002003004005006007008009001000 Pilsner Urquell bottle 3 analysis I Pilsner Urquell bottle 3 analysis II Pilsner Urquell bottle 1 analysis I Pilsner Urquell bottle 1 analysis II Pilsner Urquell bottle 2 analysis I Pilsner Urquell bottle 2 analysis II Branik bottle 1 analysis I Branik bottle 1 analysis II Branik bottle 3 analysis I Branik bottle 3 analysis II Starobrno bottle 1 analysis II Starobrno bottle 2 analysis I Starobrno bottle 3 analysis I Starobrno bottle 3 analysis II Starobrno bottle 2 analysis II Budweiser Budvar bottle 1 analysis I Budweiser Budvar bottle 1 analysis II Budweiser Budvar bottle 2 analysis I Budweiser Budvar bottle 3 analysis I Primator bottle 1 analysis I Primator bottle 1 analysis II Cerna Hora bottle 2 analysis I Rychtar bottle 2 analysis II Rychtar bottle 3 analysis I Rychtar bottle 1 analysis I Rychtar bottle 2 analysis I Rychtar bottle 3 analysis II Rychtar bottle 1 analysis II Budweiser Budvar bottle 2 analysis II Budweiser Budvar bottle 3 analysis II Cerna Hora bottle 1 analysis I Cerna Hora bottle 1 analysis II Cerna Hora bottle 3 analysis I Cerna Hora bottle 3 analysis II Cerna hora bottle 2 analysis II Primator bottle 2 analysis I Primator bottle 2 analysis II Primator bottle 3 analysis I Primator bottle 3 analysis II Krusovice bottle 3 analysis I Staropramen bottle 3 analysis I Branik bottle 2 analysis I Branik bottle 2 analysis II Staropramen bottle 2 analysis II Staropramen bottle 2 analysis I Gambrinus bottle 1 analysis I Gambrinus bottle 1 analysis II Gambrinus bottle 3 analysis I Gambrinus bottle 3 analysis II Gambrinus bottle 2 analysis I Gambrinus bottle 2 analysis II Krusovice bottle 1 analysis II Krusovice bottle 2 analysis I Krusovice bottle 3 analysis II Starobrno bottle 1 analysis I Krusovice bottle 2 analysis II Zlaty Bazant bottle 3 analysis I Zlaty Bazant bottle 3 analysis II Zlaty Bazant bottle 2 analysis I Zlaty Bazant bottle 2 analysis II Staropramen bottle 1 analysis I Staropramen bottle 3 analysis II Staropramen bottle 1 analysis II Velkopopovicky Kozel bottle 1 analysis I Velkopopovicky Kozel bottle 2 analysis I Velkopopovicky Kozel bottle 1 analysis II Velkopopovicky Kozel bottle 3 analysis I Velkopopovicky Kozel bottle 3 analysis II Velkopopovicky Kozel bottle 2 analysis II Krusovice bottle 1 analysis I Heineken bottle 1 analysis I Zlaty Bazant bottle 1 analysis I Heineken bottle 2 analysis I Zlaty Bazant bottle 1 analysis II Heineken bottle 1 analysis II Heineken bottle 3 analysis I Heineken bottle 2 analysis II Heineken bottle 3 analysis II Bernard bottle 1 analysis I Bernard bottle 1 analysis II Bernard bottle 2 analysis I Bernard bottle 2 analysis II Bernard bottle 3 analysis II Bernard bottle 3 analysis I Carlsberg bottle 1 analysis I Carlsberg bottle 1 analysis II Carlsberg bottle 2 analysis II Carlsberg bottle 2 analysis I Carlsberg bottle 3 analysis I Carlsberg bottle 3 analysis II Stella Artois bottle 1 analysis I Stella Artois bottle 1 analysis II Stella Artois bottle 2 analysis II Stella Artois bottle 2 analysis I Stella Artois bottle 3 analysis I Stella Artois bottle 3 analysis II Corona bottle 1 analysis I Corona bottle 1 analysis II Corona bottle 3 analysis I Corona bottle 2 analysis I Corona bottle 2 analysis II Corona bottle 3 analysis II ALE MY CHCEME JEŠTĚ URČIT PROTEINY... Zpracování dat 1. Úprava hrubých dat (MS/MS i MS), normalizace, identifikace píků 2. Identifikace proteinů s pomocí databáze Identifikace proteinů Princip: Porovnáváme získaná spektra s cílovou databází pomocí databázových vyhledávačů (Sequest a Mascot), výsledkem je seznam shod spekter vzorku se spektrami proteinů v db (peptide sequence matches - PSMs) => identifikace Problém: Posoudit přesnost těchto identifikací však není triviální. Řešení: Statistické přístupy a machine learning Tři základní kroky identifikace proteinů 1. Příprava dat ▪ Výběr „reprezentativních“ signálů MS/MS ▪ Odstranění „méně kvalitních“ spekter MS/MS ▪ Top N (z okna), dekonvoluce signálu a šumu ▪ Získáme tabulku m/z hodnot a intenzit 2. Příprava databáze ▪ in silico štěpení sekvencí z databáze ▪ Přiřazení jednoho a nebo více peptidů k jednomu spektru (s pomocí statistiky a machine-learning přístupů) 3. Výběr peptidových identifikací (kam patří, přiřazení k proteinu) 1 2 3 1. prohledání dat MS/MS 2. výpočet „vlastností“ peptidů 3. propočítání skóre peptidů Propočítání skóre peptidů • Použití support vector machines (SVM) • sady identifikací • falešně pozitivní – decoy databáze • pozitivní – původní databáze (skóre) • přiřazení vah vlastnostem v SVM • např. skóre; chyba hmotnosti intenzita, modifikace, ... • víc identifikovaných peptidů Percolator (http://percolator.ms) Rekonstrukce sady proteinů Analogie puzzle, ALE: • Tisíce kousků: • Stejné • Poškozené • Chybějící • Z jiných skládaček • Pasují na stejná místa Korf, Nat Methods, 2013 Metody rekonstrukce sady proteinů * Cíl: zjistit, které peptidy patří kterým proteinům s větší pravděpodobností * Dva základní přístupy: 1. N – peptidové pravidlo *Proteiny, u kterých pozorujeme alespoň N peptidů *Vysoká falešná pozitivita *Používané na sekvenční homologické proteiny 2. Pravděpodobnostní přístupy *ProteinProphet, Nested mixtures, Fido Princip parsimonie a Occamové břitvy A. Vytvoření biparitního grafu: peptidy- možné proteiny B. Sloučení proteinů a peptidů do skupin (např. pep 3,7,9;pro 4,9) C. Rozdělení skupin D. Výběr minimální sady proteinů Zhang, B. et al. J. Proteome Res., 2007, 6, 3549–3557. Důsledek: falešná negativita výsledků Co s identifikovanými proteiny? * Závisí od původního experimentu * Typicky doplnění anotace proteinů z databáze (GO, KEGG, TAIR) a použití metod analýzy genových sad (další přednáška) Identifikace proteinů ▪ NCBI Protein -http://www.ncbi.nlm.nih.gov/protein * jen pro proteinové sekvence odvozené translací nukleotidových sekvencí ▪ RefSeq - http://www.ncbi.nlm.nih.gov/RefSeq/ ▪ UniProt– administrovaná databáze; kompozit SwissProt,TrEMBL a PIR-PSD– http://www.uniprot.org Cvičení a R balíky * Provedeme cvičení MassSpectrometry.R * Využívá bioconductor balík PROcess * Další balíky - rTANDEM (an R/Bioconductor package for MS/MS protein identification) - dagLogo: An R/Bioconductor package for identifying and visualizing differential amino acid group usage in proteomics data Databáze dat Výuka IBA Veřejně přístupné databáze ▪ Velké experimenty mají až stovky, a nebo tisíce vzorků, v každé se studují desetitisíce až stovky genů ▪ Pro publikaci výsledků je vyžadované vložit data ve standardizovaném formátu (MIAME– Minimal Information About a Microarray Experiment) do jedné z veřejně přístupných databází tak, aby kdokoliv byl schopný výsledky zreprodukovat ▪ Toto přináší velkou výhodu: ▪ Můžeme data podrobit meta-analýze (simultánně porovnat data z různých experimentů) ▪ Díky standardnímu formátu můžeme vyhledávat soubory s parametry, které potřebujeme ▪ Data můžeme automaticky stahovat GEO na NCBI Array Express na EBI http://www.ebi.ac.uk/arrayexpress/ Další čtení ▪ E-learningová skripta analýzy dat IBA ▪ http://portal.matematickabiologie.cz/index.php?pg=analyza-genomickych-a- proteomickych-dat--analyza-genomickych-a-proteomickych-dat