Predikce sekundárních struktur proteinů Struktura proteinů primární (sekvence) sekundární terciární kvartérní ADSQTSSNRAGEFSIPPNTDFRAIFFANAAEQQHIKLFIGDSQEPAAYHKLTTRDGPREATLNSGNGKIRFEVSVNGKPSATDARLAPINGKKSDGSPF TVNFGIVVSEDGHDSDYNDGIVVLQWPIG PAIIL monomer PAIIL tetramer 5de36d73376b8521 Aminokyseliny amino acids amino acids glycin alanin valin leucin izoleucin asparagová kys. asparagin glutamová kys. glutamin arginin lysin histidin fenylalanin serin threonin tyrozin tryptofan methionin cystein prolin selenocystein Gly Ala Val Leu Ile Asp Asn Glu Gln Arg Lys His Phe Ser Thr Tyr Trp Met Cys Pro Sec G A V L I D N E Q R K H F S T Y W M C P U Třídění aminokyselin •Aminokyseliny s podobnými vlastnostmi mohou plnit v proteinu stejné funkce – bývají vzájemně zastupitelné Courtesy of http://prowl.rockefeller.edu Hemoglobin S - vliv jediné substituce HbS2 HbS (Glu6Val) – deoxyHb je 50x méně rozpustný než oxyHb à dlouhé asociované řetězce Kostra polypeptidového řetězce – phipsi –– Peptidová vazba – planární (úhel ω je 180°) –– Konformaci kostry určují dva torzní úhly φ a ψ Image:torsionangles.jpg Ramachandranův diagram f1,7 Ramachandranův diagram Vazby zprostředkovávající vyšší struktury •Vodíková vazba (H-můstek) • •Nabité AK •Kontakty polárních AK •Nepolární / hydrofobní AK •Stacking – aromatické AK •Cystein / cystin – vazba S-S •Vazba iontů kovů 2-D struktury •Stabilní konformace polypeptidového řetězce •Důležité pro udržení proteinové 3-D struktury •Cca 50 % aa residuí je součástí a-helixů nebo b-skládaných listů •Predikce sekundárních struktur znamená předpověď zda residuum spadá mezi H (helix), E (list) nebo C (smyčka) •Důležité pro klasifikaci proteinů •Separace domén a funkčních motivů •SS jsou mnohem konzervovanější než aminokyselinová sekvence •Předpověď SS předchází obvykle jako mezikrok při předpovědi terciární struktury při threadingových metodách. Predikce 2D struktury Predikce 2D struktury •Rozlišujeme tři základní typy –H – helix –E – β-list –C/(-) – smyčka/náhodné klubko (coil) – někdy jsou rozlišovány tyto dvě varianty – •S dobrou přesností lze určit helix (jejich tvorba je určena interakcemi „krátkého“ dosahu), u β -listu (interakce „dlouhého“ dosahu) úspěšnost určení 2D struktury klesá • •Některé programy přidávají i číslo vyjadřující pravděpodobnost pro daný AK zbytek (např. H 60% - znamená, že s 60% pravděpodobností se jedná o helix) α-helix stabilizace mezi rezidui i+4 a i-4 H-vazbami • f2,2up 5.4 Å Vzestup 1.5 Å per residuum Boční a horní pohled • Alpha_helix_neg60_neg45_topview 200px-Alpha_helix_neg60_neg45_sideview Jiné helixové struktury •310 helix – obvykle na začátku nebo konci a-helixu •p-helix – zřídka, považován za málo stabilní – • •kolagen – levotočivá šroubovice 99px-Collagentriplehelix 310 helix • 3 10 Helix Neg49 Neg26 Sideview 310 Helix Topview p-helix • Pi Helix Neg55 Neg70 Sideview Pi Helix Topview Porovnání 16 aa v typických helixech a-helix 310-helix p-helix Vodíkové můstky 0i k Ni+4 0i k Ni+3 0i k Ni+5 Počet residuí na otáčku 3.6 3 4.4 Počet atomů na otočku 13 10 16 Vinutí (na 1 aa) 1.5 2.0 1.15 β-list • ecb4x10b Antiparalelní β-list • f2,5 Paralelní β-list • f2,6 Výskyt b-listů v proteinech • Pootočení b-listů v realitě • Torze řetězce 0°- 30° na reziduum Otáčky (turns) •větší množství otáček (obrácení směru polypeptidového řetězce), různé počty AK b-otočky nejčastější H-vazby ob reziduum Coils – smyčky, neuspořádané klubko •Vše ostatní, co nespadá mezi a-helix, b-list či otočky • 3D vizualizace 2D struktur • Jednoduché motivy • helix-otáčka-helix β -vlásenka • hth beta_hairpin Jednoduché motivy • Řecký klíč (greek key) β-α–β motiv • • 2875003373_a17fdac764_m 100px-Anthrax_toxin_protein_key_motif 2875830928_5049ee0cec Motivy - Domény •Kombinací jednoduchých motivů jsou tvořeny motivy •Motivy vytvářejí proteinové domény •Dle zastoupení 2D struktur dělíme proteiny na: –α -proteiny –β-proteiny –α / β proteiny – kombinace β-α–β motivů –minoritní skupiny – oddělené domény tvořené jen α či jen β strukturami, domény bohaté na kovy,… β -struktury • β –barel propeller blade f5,2 f5,7 •Greek key barel •Jelly roll barel •β -helix • β -struktury f5,16 f5,10opr f5,28 α -proteiny/motivy •Globinový fold • • •Membránové proteiny • f2,9d f12,3b •Strukturní proteiny – keratiny, cytoskelet,… –coiled-coil –čtyřhelixový svazek (Four-Helix Bundle) • α -proteiny/motivy f3,3 α / β motivy •Centrální jádro tvořené β -listy obklopené α -helixy • •TIM barrel • •Rossmanův fold • •Horseshoe fold – leucin-rich motivy f4,11 Organizace proteinů – jedno- i vícedoménové proteiny • f4,5 f3,10new myoglobin pyruvátkináza f10,1 Zinkový prst •Výskyt: transkripční faktory •Několik typů – Zn atom je vázán AK zbytky Cys a His Typické znaky α -helix •Často je helix částečně exponovaný – tj. jedna strana je otočena dovnitř proteinu (hydrofobní), druhá ven (hydrofilní) • •Potom pro 3.6 helix (α-helix) platí, že i, i+3, i+4 & i+7 -té reziduum míří na tutéž stranu. Jsou-li všechna hydrofobní či naopak hydrofilní = zřejmě α -helix helix Typické znaky β -list •U β -listu se střídají rezidua po 180° a pro částečně zanořený β -list platí analogicky: •i, i+2, i+4, i+8 –té reziduum je polární a zároveň •i+1, i+3, i+5 –té je nepolární amph_strand Typické znaky β -list •Zcela zanořený β -list (typicky u α / β barelu) je tvořen řadou nepolárník AK bur_strand Predikční algoritmy 1.generace: ab-initio, vycházela z fyzikálně-chemických vlastností a ze statistiky pro jednotlivá rezidua (Chou-Fasman, GOR (Garnier, Osguthorpe, Robson)) 2. •2. generace: plus incorporation of more local residue interactions, zahrnovala i vliv nejbližších AK na zkoumané reziduum – předpověď max. 60% správnost, u β -listu do 40% • •3. generace: homology-base models, zahrnuje navíc multiple sequence alignment a využívá skutečnosti, že 2D struktura se zachovává déle než sekvenční podobnost – až 80% spolehlivost (závisí na metodě) Relative Amino acid Propensity Values for Secondary Structure Elements Used in the Chou-Fasman Methods Scan0002.tif Ri(SS) Rt (SS) S Ri S Rt 3. Generace - Homology-based methods Predikce sekundárních struktur pro každou sekvenci HHHCHCCEEEECCHH HHHHHCCEEEECCHH ECCHHCEEEECCCEE HHHHHCCCCEEECCH HHHHCCCEEEECHHC HHHHHCCEEEECCHH MSA fitování předpovězené sekundární struktury do AA přiložení Konečná předpověď Založená na konsensuální sekvenci 3. Generace – neuronové sítě Sekvence se známou sek. strukturou Trénink, přiřazování Váh jednotlivým funkcím Aplikace nalezených algoritmů na neznámou sekvenci Hydrophobic cluster analysis Programové balíky •AGADIR - An algorithm to predict the helical content of peptides •APSSP - Advanced Protein Secondary Structure Prediction Server •GOR - Garnier et al, 1996 •HNN - Hierarchical Neural Network method (Guermeur, 1997) •HTMSRAP - Helical TransMembrane Segment Rotational Angle Prediction •Jpred - A consensus method for protein secondary structure prediction at University of Dundee •JUFO - Protein secondary structure prediction from sequence (neural network) •nnPredict - University of California at San Francisco (UCSF) •Porter - University College Dublin •PredictProtein - PHDsec, PHDacc, PHDhtm, PHDtopology, PHDthreader, MaxHom, EvalSec from Columbia University •Prof - Cascaded Multiple Classifiers for Secondary Structure Prediction •PSA - BioMolecular Engineering Research Center (BMERC) / Boston •PSIpred - Various protein structure prediction methods at Brunel University •SOPMA - Geourjon and Deléage, 1995 •SSpro - Secondary structure prediction using bidirectional recurrent neural networks at University of California •DLP-SVM - Domain linker prediction using SVM at Tokyo University of Agriculture and Technology • •Predikce obsahu helixu ve struktuře – Agadir (http://www.embl-heidelberg.de/Services/serrano/agadir/agadir-start.html) • PSIpred • • • APSSP Většina programů má uživatelsky jednoduché rozhraní • • aal.png sl20l.png Rozšíření možností 2D predikce •Vedle předpovědi 2D struktury je rovněž analyzována –Přístupnost pro solvent –Předpověď transmembránového helixu •Určení zda je/není transmembránový •Podíl hydrofobních řetězců (AK zbytků) na povrchu – umožňuje postihnout i částečně zanořené membrány •SSpro8 (http://scratch.proteomics.ics.uci.edu/) • •Nepoužívá pouze základní tři typy 2D struktury (helix, β-list a ostatní), ale využívá kompletní klasifikaci dle DSSP (Database of Secondary Structure Assignments) – tj. 8 typů struktury: •H: alpha-helix •G: 310-helix •I: π-helix (extremely rare) •E: extended strand •B: beta-bridge •T: turn •S: bend •C: the rest • •Výsledná přesnost cca 63% • Rozšíření možností 2D predikce SSpro8 – ukázka výstupu • Benchmark – porovnání algoritmů •Porovnání výsledků predikce se skutečně zjištěnou strukturou. • •Benchmark EVA (http://www.pdg.cnb.uam.es/eva/) –průběžné testování existujících serverů –v provozu cca 10 let… –testování 2D i 3D predikce per-residue accuracy (Q3) per-segment accuracy (SOV) Benchmark •Dle benchmarku EVA v současnosti na předních místech: • –PROFsec (http://cubic.bioc.columbia.edu/predictprotein ) – –PSIpred (http://insulin.brunel.ac.uk/psiform.html ) – –SABLE (http://sable.cchmc.org/ ) Zopakování / shrnutí ▼2D struktura – vzájemné uspořádání AK jednotek proteinu (α-helix, β-list) ▼ ▼3D struktura – celkové rozmístění atomů proteinu v prostoru ▼ ▼Strukturní motivy – na rozhraní mezi 2D a 3D, vznikají kombinací 2D struktur ▼ Zopakování / shrnutí ▼Řada programů využívajících rozdílné přístupy – použití závisí na vstupních datech a účelu ▼ ▼Neexistuje univerzální program – nejlepší je kombinace výsledků z více programů ▼ ▼Predikce 2D struktury je do značné míry spolehlivá – zejména pro proteiny s α-helix; vzrůstá při podobnosti s proteinem se známou strukturou •