Blok 2 Sekundární struktura proteinů C3211 Aplikovaná bioinformatika Přednášející: Josef Houser Struktura proteinů primární (sekvence) sekundární terciární kvartérní ADSQTSSNRAGEFSIPPNTDFRAIFFANAAEQQHIKLFIGDSQEPAAYHKLTTRDGPREATLNSGNGKIRFEVSVNGKPSATDARLAPINGKKSDGSPF TVNFGIVVSEDGHDSDYNDGIVVLQWPIG PAIIL monomer PAIIL tetramer 5de36d73376b8521 2 Kostra polypeptidového řetězce –Peptidová vazba – planární phipsi Konformaci kostry určují dva torzní úhly φ a ψ (úhel ω je 180°) • 3 Ramachandranův diagram f1,7 4 Vazby zprostředkovávající vyšší struktury •Vodíková vazba (H-můstek) • •Nabité AK •Kontakty polárních AK •Nepolární / hydrofobní AK •Stacking – aromatické AK •Cystein / cystin – vazba síra-síra •Vazba iontů kovů 5 α-helix f2,2up Alpha_helix_neg60_neg45_topview 6 Jiné helixové struktury •310 helix • • •π-helix • • •kolagen – levotočivá šroubovice 99px-Collagentriplehelix 3 10 Helix Neg49 Neg26 Sideview 310 Helix Topview Pi Helix Neg55 Neg70 Sideview Pi Helix Topview 7 β-list •Paralelní ecb4x10b f2,6 f2,5 8 Antiparalelní Otáčky (turns) •více typů otáček, různé počty AK •příklad β -turn RTurntypeI_II 9 Určení 2D struktury proteinů •Cirkulární dichroismus (CD) • •Infračervená spektroskopie (IR) • •Nukleární magnetická resonance (NMR) • •Predikce in silico • 10 Cirkulární dichorismus 11 •Cirkulární Dichroismus (CD) - různá absorpce levé a pravé složky cirkulárně polarizovaného světla; Δε ≡ εL- εR •Opticky aktivní jsou chirální molekuly •Určení sekundární a terciární struktury biomakromolekul •Určení stability a konformačních změn proteinů v různých podmínkách (teplota, iontová síla, pH, polarita rozpouštědla, …) • 12 Cirkulární dichorismus - veličiny Určení sekundární struktury pomocí CD 13 •Characteristická CD spektra ve vzdálené UV oblasti pro a-helix, b-sheet a random coil • • An external file that holds a picture, illustration, etc. Object name is nihms126151f1.jpg Object name is nihms126151f1.jpg Význam určení 2D struktury •Folding (skládání) proteinu •Interakce proteinu s vazebným partnerem •Sledování stability proteinu – teplotní, pH, polarita prostředí,… •Identifikace proteinu (PCDDB) •Zařazení proteinu v rámci databáze SCOP (Structural Classification of Proteins) 14 PCDDB 15 http://pcddb.cryst.bbk.ac.uk/home.php Protein Circular Dichroism Data Bank Možnost porovnání CD spekter se záznamy v databázi DichroWeb logo http://2struc.cryst.bbk.ac.uk/site-media/2struc_larger.gif Výpočet zastoupení sekundárních struktur •Různé SW dostupné jako freeware • •k2d – aktuálně 3. generace K2D3 • •http://k2d3.ogic.ca/ 16 Úloha ØVyhodnoťte data získaná měřením cirkulárního dichroismu roztoku neznámého proteinu (Input_CD_data.txt). Určete, zda se ve vzorku nachází protein převážně ve stavu α-helixu, β-skládaného listu nebo náhodného klubka (coil). K vyhodnocení využijte program k2d3 (http://k2d3.ogic.ca/). Ø • 17 SCOP databáze Class Number of folds Number of superfamilies Number of families All alpha proteins 284 507 871 All beta proteins 174 354 742 Alpha and beta proteins (α/β) 147 244 803 Alpha and beta proteins (α+β) 376 552 1055 Multi-domain proteins 66 66 89 Membrane and cell surface proteins 58 110 123 Small proteins 90 129 219 Total 1195 1962 3902 18 http://scop.mrc-lmb.cam.ac.uk/scop/I/scop_logo_small.gif Další čtení o cirkulárním dichorismu •Norma J. Greenfield Using circular dichroism spectra to estimate protein secondary structure Nat Protoc. 2006; 1(6): 2876–2890. doi: 10.1038/nprot.2006.202 • •http://www.niu.edu/analyticallab/cd/handout.pdf 19 Predikce 2D struktury •Cíl: Určit umístění 2D elementů v rámci konkrétní sekvence in silico 20 http://t0.gstatic.com/images?q=tbn:ANd9GcSSRynmLgJYKXrjsnbxcRul11rJmz1L9h2VvgRZYL8AotMPKls5iQ http://www.chem.ucla.edu/harding/IGOC/B/beta_sheet02.jpg MAILSAIRRWHFRDGASIREIARRSGLSRNTVRKYL QSKVVEPQYPARDSVGKLSPFEPKLRQWLSTEHKKT KKLRRNLRSMYRDLVALGFTGSYDRVCAFARQWKDS EQFKAQTSGKGCFIPLRFACGEAFQFDWSEDFARIA GKQVKLQIAQFKLAHSRAFVLRAYYQQKHEMLFDAH WHAFQIFGGIPKRGIYDNMKTAVEFVGRGKSAGSIS GSLPWSATTCLMRSSVIQHRVGRKARLRRTCRIPAN ACGKGHQTFKALLI Predikce 2D struktury •Rozlišujeme tři základní typy 2D struktury –H – helix –E – β-list –C/(-) – smyčka/náhodné klubko (coil) – někdy jsou rozlišovány tyto dvě varianty – •S dobrou přesností lze určit helix, u β -listu úspěšnost určení 2D struktury klesá • •Některé programy přidávají i číslo vyjadřující pravděpodobnost pro daný AK zbytek (např. H 60% - znamená, že s 60% pravděpodobností se jedná o helix) 21 Typické znaky α -helix •Často je helix částečně exponovaný – tj. jedna strana je otočena dovnitř proteinu (hydrofobní), druhá ven (hydrofilní) • •Potom pro 3.6 helix (α-helix) platí, že i, i+3, i+4 & i+7 -té reziduum míří na tutéž stranu. Jsou-li všechna hydrofobní či naopak hydrofilní = zřejmě α -helix helix 22 Typické znaky β -list •U β -listu se střídají rezidua po 180° •Pro částečně zanořený β -list platí: •i, i+2, i+4, i+8 –té reziduum je polární a zároveň •i+1, i+3, i+5 –té je nepolární •Zcela zanořený β -list (typicky u α/β barelu) je tvořen nepolárními AK • amph_strand 23 bur_strand Úloha ØNa základě základních znalostí o uspořádání sekundárních struktur odhadněte bez použití predikčních programů, zda následující krátké peptidy jsou součástí α-helixu, β-skládaného listu nebo náhodného klubka. Můžete využít přehlednou tabulku aminokyselin. • 24 Úloha •Peptid 1 •KALSQVIRL • •Peptid 2 •GGASPAPPK • •Peptid 3 •LELQIRVYA 25 1545_1556_2 Predikční algoritmy •1. generace: vycházela z fyzikálně-chemických vlastností a ze statistiky pro jednotlivá rezidua • •2. generace: zahrnovala i vliv nejbližších AK na zkoumané reziduum – předpověď max. 60% správnost, u β -listu do 40% • •3. generace: zahrnuje navíc multiple sequence alignment a využívá skutečnosti, že 2D struktura se zachovává déle než sekvenční podobnost – až 80% spolehlivost (závisí na metodě) 26 Programové balíky •AGADIR - An algorithm to predict the helical content of peptides •APSSP - Advanced Protein Secondary Structure Prediction Server •GOR - Garnier et al, 1996 •HNN - Hierarchical Neural Network method (Guermeur, 1997) •HTMSRAP - Helical TransMembrane Segment Rotational Angle Prediction •Jpred - A consensus method for protein secondary structure prediction at University of Dundee •JUFO - Protein secondary structure prediction from sequence (neural network) •nnPredict - University of California at San Francisco (UCSF) •Porter - University College Dublin •PredictProtein - PHDsec, PHDacc, PHDhtm, PHDtopology, PHDthreader, MaxHom, EvalSec from Columbia University •Prof - Cascaded Multiple Classifiers for Secondary Structure Prediction •PSA - BioMolecular Engineering Research Center (BMERC) / Boston •PSIpred - Various protein structure prediction methods at Brunel University •SOPMA - Geourjon and Deléage, 1995 •SSpro - Secondary structure prediction using bidirectional recurrent neural networks at University of California •DLP-SVM - Domain linker prediction using SVM at Tokyo University of Agriculture and Technology •… • 27 User friendly Většina programů má uživatelsky jednoduché rozhraní J 28 •Agadir 29 (http://agadir.crg.es/) Predikce obsahu helixu ve struktuře peptidů Nevhodné pro delší proteiny (max 200-300 AK) Nutná registrace PSIPRED • 30 • 31 PSIPRED Jpred 32 Predikce sekundární struktury proteinu http://www.compbio.dundee.ac.uk/jpred/ •3D > 2D • •PDB (Protein Data Bank) – databáze 3D struktur 33 Jpred •PSI-Blast > Predikce 2D struktur > Konsensus • •Výstupní formáty: –Jednoduchý –HTML –PostScript –PDF 34 Jpred •Jednoduchý výstup • 35 Jpred • 36 • 37 Úloha ØSeznamte se s programem Jpred 4 (http://www.compbio.dundee.ac.uk/jpred/). Pro následující proteinové sekvence predikujte zastoupení sekundárních struktur. Patří tyto proteiny do skupiny tzv. α/β proteinů, tj. proteinů, ve kterých jsou zastoupeny obě typické sekundární struktury (α-helix, β-skládaný list)? • 38 Úloha •Protein A: •GTYRQLFHPEQLISGKEDAANNYARGHYTIGKEIIDLVLDRVRKLADQCTGLQGFLVFHSFGGGTGSGFTSLLMERLSVDYGKKSKLEFSIYPAPQVS TAVVEPYNSILTTHTTLEHSDCAFMVDNEAIYDICRRNLDIERPTYTNLNRLMSQIVSSITASLRFDGALNVDLTEFQTNLVPYPRIHFPLATYAPVIS AEKAYHEQLSVAEITNACFEPANQMVKCDPRHGKYMACCLLYRGDVVPKDVNAAIATIKTKRTIQFVDWCPTGFKVGINYQPPTVVPGGDLAKVQRAVC MLSNTTAVAEAWARLDHKFDLMYAKRAFVHWYVGEGMEEGEFSEAREDMAALEKDYEEVGADSYEDEDEGEEY • •Protein B: •SIRLPAHLRLQPIYWSRDDVAQWLKWAENEFSLRPIDSNTFEMNGKALLLLTKEDFRYRSPHSGDVLYELLQHILKQAGPNIFEMLRIDEGLRLKIYK DTEGYYTIGIGHLLTKSPSLNAAKSELDKAIGRNTNGVITKDEAEKLFCQDVDAAVRGILRNAKLKPVYDSLDCVRRAALINMVFQMGETGVAGFTNSL RMLQQKRWDEAAVNLAKSRWYNQTPNRAKRVITTFRTGTWDAYK • •Protein C: •ADVCMDPEPIVRIVGRNGLCVDVRDGRFHNGNAIQLWPCKSNTDANQLWTLKRDNTIRSNGKCLTTYGYSPGVYVMIYDCNTAATDATRWQIWDNGTI INPRSSLVLAATSGNSGTTLTVQTNIYAVSQGWLPTNNTQPFVTTIVGLYGLCLQANSGQVWIEDCSSEKAEQQWALYADGSIRPQQNRDNCLTSDSNI RETVVKILSCGPASSGQRWMFKNDGTILNLYSGLVLDVRASDPSLKQIILYPLHGDPNQIWLPLF • 39 Rozšíření možností 2D predikce •Přístupnost pro solvent Jpred, NetSurfP • •Předpověď transmembránového helixu TMpred, HTMSRAP • •Predikce dalších typů 2D struktur GOR4, SSpro8 – 40 41 Jpred •Tři úrovně přístupnosti pro solvent (zcela zanořené residuum, 5% a 25% exponováno) • 42 TMpred •Predikce přítomnosti transmembránových helixů, včetně orientace (zevnitř ven nebo zvenku dovnitř) http://www.ch.embnet.org/software/TMPRED_form.html Úloha ØPokuste se pomocí programu TMpred předpovědět, kolik transmembránových helixů obsahuje protein NMU-R1 z myši (UniProtKB/Swiss-Prot: O55040.1). Bude podle predikce jeho C–terminální doména orientována spíše dovnitř buňky nebo ven? 43 • 44 GOR4 • 45 SSpro8 – výstup 46 Name: AB2 Amino Acids: MTPPTSSQLSKKTRWSYANGCTWSVKDDDHVLFIEGSGTSGMLRFKTFSGDFFTLVPGIHNLVSLVHLQGDVYAPGVVSYGLNCSPPLGSLHVVASIYQ LSEKNSTIASSFYRLRHFFTTKATSSGRS Predicted Secondary Structure (8 Class): CCCCCCHHHCHHCEEEEETTCEEEEECTTEEEEEEECSCCEEEEEEEECSCEEEEETTCCEEEEEEEETTCEECTTEEEEEECCCCCTSCHEEEHEHHE HHHHHHHHHHHHHHHHHHHEEECCCTSCC H: alpha-helix G: 310-helix I: π-helix E: extended strand B: beta-bridge T: turn S: bend C: the rest E-mailem Úloha •Následující sekvenci analyzujte pomocí programu CFSSP (http://www.biogem.org/tool/chou-fasman/). Tutéž sekvenci analyzujte pomocí programu GOR4 (http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_gor4.html) a výsledky porovnejte. • •Sekvence: •MSTDKPLVIQSDKTLLLDVHSPFAQECRDSITAFSELVKSPEHVHTFLLTPLSLWNANAAGMTTEDIMGRLRTWSRYDIPEPVSYFITDISARFGSFV MTDIPDDADHYLLTVTIPRYAKEISSHKTVSSLLFPRGNDTFLLNRYARGEVKLKLIKLGFPVDDRIPLKKGFPVPMNLRQQTLSGKDFSIRDYQEAAA RSLLGDRGPGTGY 47 2D je málo pro 3D svět… • Predikce 3D struktury je komplikovanější – viz samostatný blok • • 48 http://blblog.rubikovo.name/wp-content/uploads/nehoda2.jpg Úloha ØNejspolehlivější informace o sekundární struktuře můžeme získat analýzou 3D struktury, je-li tato známa. 3D struktury jsou ukládány v tzv. PDB databázi. (např.). Vyhledejte na webových stránkách http://pdb.rcsb.org libovolný protein a podívejte se na informace o jeho sekundární struktuře. • 49 2struc •http://2struc.cryst.bbk.ac.uk/twostruc •Přiřazení sekundární struktury na základě známé 3D struktury •Možnost vybrat z několika programů, včetně tvorby tzv. „konsenzu“ 50 http://2struc.cryst.bbk.ac.uk/site-media/2struc_larger.gif Úloha ØStejný protein, který jste již analyzovali v PDB databázi analyzujte rovněž pomocí nástrojů na serveru 2struct (http://2struc.cryst.bbk.ac.uk/twostruc). Porovnejte přiřazení sekundárních struktur v jednotlivých programech. • 51 • 52 Porovnání predikce a experimentu •Predikce: –Rychlá (sekundy), levná/dostupná (Freeware) –Spolehlivá pro známé (!) proteiny a pro proteiny s vysokou homologií –Málo spolehlivá pro neznámé proteiny –Nepoužitelná pro unikátní případy •Experiment: –Teoreticky použitelný pro libovolný protein –Finančně (i miliony Kč) a časově (týdny až roky) – náročná příprava proteinu a optimalizace měření 53