Predikce sekundárníchPredikce sekundárních struktur proteinů Struktura proteinůStruktura proteinů ADSQTSSNRAGEFSIPPNTDFRAIF FANAAEQQHIKLFIGDSQEPAAYHK LTTRDGPREATLNSGNGKIRFEVSV NGKPSATDARLAPINGKKSDGSPF TVNFGIVVSEDGHDSDYNDGIVVL primární (sekvence) TVNFGIVVSEDGHDSDYNDGIVVL QWPIG (sekvence) sekundární terciární kvartérní AminokyselinyAminokyselinygly ala va leu izole asparag aspa glutamo gluta arg lys hist fenyla se threo tyro trypt meth cyst pro selenoc ycin nin alin cin eucin ovákys. ragin ovákys. amin inin sin tidin alanin rin onin ozin tofan hionin tein olin cystein Gly Ala Val Leu Ile Asp Asn Glu Gln Arg Lys His Phe Ser Thr Tyr Trp Met Cys Pro Sec G A V L I D N E Q R K H F S T Y W M C P U Třídění aminokyselinTřídění aminokyselin Aminokyseliny s podobnými vlastnostmi mohou plnit v proteinu éstejné funkce – bývají vzájemně ézastupitelné OCH3 O CH NH2 CH3 OH NH2 CH3 CH3 OH Isoleucine LeucineIsoleucine Leucine Hemoglobin S - vliv jediné substituce HbSHbS ((GluGlu66Val)Val) –– deoxyHbdeoxyHb je 50xje 50x méně rozpustnýméně rozpustný nežnež oxyHboxyHb dlouhé asociovanédlouhé asociovanédlouhé asociovanédlouhé asociované řetězceřetězce Kostra polypeptidového řetězce á á íPeptidová vazba – planární – Konformaci kostry určují dva torzní úhlyKonformaci kostry určují dva torzní úhly φ a ψ (úhel ω je 180°) Ramachandranův diagramRamachandranův diagram a) Colored areas show sterically allowed combinations of the φallowed combinations of the φ and ψ angles. b) Observed values for all residue types except for glycine Eachtypes except for glycine. Each point represents φ and ψ values for an amino acid residue in a well-refined x-ray structure. c) Observed values for glycine Ramachandranův diagramRamachandranův diagram Vazby zprostředkovávající vyšší struktury • Vodíková vazba (H-můstek) • Nabité AK • Kontakty polárních AK • Nepolární / hydrofobní AK • Stacking – aromatické AK • Cystein / cystin – vazba S-SCys e / cys a ba S S • Vazba iontů kovů 2 D struktury2-D struktury • Stabilní konformace polypeptidového řetězce • Důležité pro udržení proteinové 3-D strukturystruktury • Cca 50 % aa residuí je součástí α-helixů nebo β-skládaných listů • Predikce sekundárních struktur znamená• Predikce sekundárních struktur znamená předpověď zda residuum spadá mezi H (h li ) E (li t) b C ( čk )(helix), E (list) nebo C (smyčka) Predikce 2D strukturyPredikce 2D struktury • Důležité pro klasifikaci proteinů • Separace domén a funkčních motivůSeparace domén a funkčních motivů • SS jsou mnohem konzervovanější než i k li á kaminokyselinová sekvence • Předpověď SS předchází obvykle jakoedpo ěď SS p edc á ob y e ja o mezikrok při předpovědi terciární struktury při threadingových metodáchpři threadingových metodách. Predikce 2D strukturyPredikce 2D struktury R liš j tři ákl d í t• Rozlišujeme tři základní typy – H – helix – E – β-listE β list – C/(-) – smyčka/náhodné klubko (coil) – někdy jsou rozlišovány tyto dvě varianty • S dobrou přesností lze určit helix (jejich tvorba je je určena interakcemi „krátkého“ dosahu), u β -listu„ ), β (interakce „dlouhého“ dosahu) úspěšnost určení 2D struktury klesá • Některé programy přidávají i číslo vyjadřující pravděpodobnost pro daný AK zbytek (např H 60% -pravděpodobnost pro daný AK zbytek (např. H 60% znamená, že s 60% pravděpodobností se jedná o helix) α-helixα e stabilizace mezi rezidui i+4 a i-4 H-vazbami 5 4 Å5.4 Å Vzestup 1.5 Å per residuump Boční a horní pohledBoční a horní pohled Jiné helixové strukturyJiné helixové struktury čá• 310 helix – obvykle na začátku nebo konci α-helixu • π-helix – zřídka, považován za málo stabilní • kolagen – levotočivá šroubovice 3 helix310 helix π helixπ-helix Porovnání 16 aa v typických helixechyp ý α-helix 310-helix π-helix Vodíkové můstky 0i k Ni+4 0i k Ni+3 0i k Ni+5 Počet residuí na otáčku 3.6 3 4.4 Počet atomů na otočku 13 10 16 Vinutí (na 1 aa) 1.5 2.0 1.15 β listβ-list Antiparalelní β listAntiparalelní β-list Paralelní β listParalelní β-list Výskyt β listů v proteinechVýskyt β-listů v proteinech Pootočení β listů v realitěPootočení β-listů v realitě T ř tě 0° 30° idTorze řetězce 0°- 30° na reziduum Otáčky (turns)y ( ) • větší množství otáček (obrácení směru polypeptidového řetězce), různé počty AKpolypeptidového řetězce), různé počty AK β-otočky jč tější H b b idnejčastější H-vazby ob reziduum Coils smyčky neuspořádané klubkoCoils – smyčky, neuspořádané klubko • Vše ostatní, co nespadá mezi α-helix, β-list či otočkyβ y 3D vizualizace 2D struktur3D vizualizace 2D struktur Jednoduché motivyJednoduché motivy helix-otáčka-helix β -vlásenka Jednoduché motivyJednoduché motivy ŘŘecký klíč (greek key) β-α–β motiv Motivy DoményMotivy - Domény K bi í j d d hý h ti ů j• Kombinací jednoduchých motivů jsou tvořeny motivy M ti t ář jí t i é d é• Motivy vytvářejí proteinové domény • Dle zastoupení 2D struktur dělíme t iproteiny na: – α -proteiny β t i– β-proteiny – α / β proteiny – kombinace β-α–β motivů minoritní skupiny oddělené domény tvořené– minoritní skupiny – oddělené domény tvořené jen α či jen β strukturami, domény bohaté na kovy,…y β strukturyβ -struktury β –barel propeller blade β strukturyβ -struktury • Greek key barel • Jelly roll barel• Jelly roll barel • β -helix α proteiny/motivyα -proteiny/motivy • Globinový foldGlobinový fold • Membránové proteinyMembránové proteiny α proteiny/motivy k í k α -proteiny/motivy • Strukturní proteiny – keratiny, cytoskelet,…y , – coiled-coil – čtyřhelixový svazek– čtyřhelixový svazek (Four-Helix Bundle) α / β motivyα / β motivy Centrální jádro tvořené β -listy obklopené α -helixyobklopené α helixy • TIM barrel• TIM barrel • Rossmanův fold• Rossmanův fold H h f ld l i i h• Horseshoe fold – leucin-rich motivy Organizace proteinů – jedno- i vícedoménové proteiny myoglobin pyruvátkináza Zinkový prstZinkový prst Výskyt: transkripční faktory Několik typů – Zn atom je vázán AKNěkolik typů Zn atom je vázán AK zbytky Cys a His Typické znaky α -helix Často je helix částečněČasto je helix částečně exponovaný – tj. jedna strana je otočena dovnitřstrana je otočena dovnitř proteinu (hydrofobní), druhá ven (hydrofilní)( y ) Potom pro 3.6 helix (α-helix)Potom pro 3.6 helix (α helix) platí, že i, i+3, i+4 & i+7 -té reziduum míří na tutéž stranu. Jsou-li všechna hydrofobní či naopak h d fil í ř j ě h lihydrofilní = zřejmě α -helix Typické znaky β listTypické znaky β -list U β -listu se střídají rezidua po 180° a pro částečně zanořený β -list platí analogicky:ý β p g y • i, i+2, i+4, i+8 –té reziduum je polární a zároveňzároveň • i+1, i+3, i+5 –té je nepolární Typické znaky β listTypické znaky β -list • Zcela zanořený β -list (typicky u α / β barelu) je tvořen řadou nepolárník AK) j p Predikční algoritmyg y 1. generace: ab-initio, vycházela z fyzikálněchemických vlastností a ze statistiky prochemických vlastností a ze statistiky pro jednotlivá rezidua (Chou-Fasman, GOR (Garnier, Osguthorpe, Robson)) 2. generace: plus incorporation of more local id i t ti h l i li jbližší hresidue interactions, zahrnovala i vliv nejbližších AK na zkoumané reziduum – předpověď max. 60% správnost u β -listu do 40%60% správnost, u β listu do 40% 3 generace: homology-base models zahrnuje3. generace: homology base models, zahrnuje navíc multiple sequence alignment a využívá skutečnosti, že 2D struktura se zachovává déle ž k č í d b t ž 80% l hli tnež sekvenční podobnost – až 80% spolehlivost (závisí na metodě) Relative Amino acid Propensity Values for Secondary Structure Elements Used in the Chou-Fasman M th dMethods Ri(SS) Rt (SS) Σ Ri Σ Rt 3. Generace - Homology-based methods MSA Predikce sekundárních struktur pro každou sekvenci HHHCHCCEEEECCHH HHHHHCCEEEECCHH fitování předpovězené sekundární struktury ECCHHCEEEECCCEE HHHHHCCCCEEECCH HHHHCCCEEEECHHC sekundární struktury do AA přiložení HHHHHCCEEEECCHH Konečná předpověď Založená na konsensuální HHHHHCCEEEECCHHZaložená na konsensuální sekvenci 3 Generace neuronové sítě3. Generace – neuronové sítě Sekvence se známou sek. strukturou Trénink, přiřazování Váh jednotlivým funkcím Aplikace nalezených algoritmů na neznámou sekvenci Hydrophobic cluster analysis Programové balíkyProgramové balíky • AGADIR An algorithm to predict the helical content of peptides• AGADIR - An algorithm to predict the helical content of peptides • APSSP - Advanced Protein Secondary Structure Prediction Server • GOR - Garnier et al, 1996 • HNN - Hierarchical Neural Network method (Guermeur, 1997) • HTMSRAP - Helical TransMembrane Segment Rotational Angle Prediction • Jpred - A consensus method for protein secondary structure prediction at University of Dundee • JUFO - Protein secondary structure prediction from sequence (neural network)JUFO Protein secondary structure prediction from sequence (neural network) • nnPredict - University of California at San Francisco (UCSF) • Porter - University College Dublin • PredictProtein - PHDsec, PHDacc, PHDhtm, PHDtopology, PHDthreader, MaxHom, EvalSec from Columbia UniversityEvalSec from Columbia University • Prof - Cascaded Multiple Classifiers for Secondary Structure Prediction • PSA - BioMolecular Engineering Research Center (BMERC) / Boston • PSIpred - Various protein structure prediction methods at Brunel Universityp p p y • SOPMA - Geourjon and Deléage, 1995 • SSpro - Secondary structure prediction using bidirectional recurrent neural networks at University of California • DLP-SVM - Domain linker prediction using SVM at Tokyo University of AgricultureDLP SVM Domain linker prediction using SVM at Tokyo University of Agriculture and Technology Predikce obsahu helixu ve struktuře AgadirPredikce obsahu helixu ve struktuře – Agadir (http://www.embl-heidelberg.de/Services/serrano/ agadir/agadir-start.html)agadir/agadir start.html) PSIpredp APSSP Větši ů áVětšina programů má uživatelsky jednoduché rozhraní Rozšíření možností 2D predikceRozšíření možností 2D predikce Vedle předpovědi 2D struktury je rovněž analyzovánay – Přístupnost pro solvent Předpověď transmembránového– Předpověď transmembránového helixu Určení zda je/není transmembránový• Určení zda je/není transmembránový • Podíl hydrofobních řetězců (AK zbytků) na povrchu umožňuje postihnout i částečněpovrchu – umožňuje postihnout i částečně zanořené membrány Rozšíření možností 2D predikce SSp o8 Rozšíření možností 2D predikce SSpro8 (http://www.igb.uci.edu/tools/scratch/ ) Nepoužívá pouze základní tři typy 2D struktury (helix, β-list a t t í) l ží á k l t í kl ifik i dl DSSP (D t b fostatní), ale využívá kompletní klasifikaci dle DSSP (Database of Secondary Structure Assignments) – tj. 8 typů struktury: • H: alpha-helix • G: 310-helix• G: 310 helix • I: π-helix (extremely rare) • E: extended strand • B: beta-bridgeB: beta bridge • T: turn • S: bend • C: the rest Výsledná přesnost cca 63% SSpro8 – ukázka výstupup ý p Rozšíření možností 2D predikceRozšíření možností 2D predikce Predikce 3D struktury? Viz. Další přednáška: 3-D topologie proteinů, předpověď 3 D strukturypředpověď 3-D struktury, threading Benchmark – porovnáníBenchmark porovnání algoritmů Porovnání výsledků predikce se skutečně zjištěnou strukturou. Benchmark EVA (http://cubic.bioc.columbia.edu/eva/) – průběžné testování existujících serverůp j – v současnosti v provozu přes 300 týdnů… – testování 2D i 3D predikce BenchmarkBenchmark Dl b h k EVA č tiDle benchmarku EVA v současnosti na předních místech: – PROFsec (http://cubic bioc columbia edu/predictprotein )(http://cubic.bioc.columbia.edu/predictprotein ) – PSIpredPSIpred (http://insulin.brunel.ac.uk/psiform.html ) – SABLE (http://sable.cchmc.org/ ) Zopakování / shrnutíZopakování / shrnutí ▼ 2D struktura – vzájemné uspořádání AK jednotek proteinu (α-helix, β-list) ▼ 3D struktura – celkové rozmístění▼ 3D struktura celkové rozmístění atomů proteinu v prostoru ▼ Strukturní motivy – na rozhraní mezi 2D 3D ik jí k bi í 2D t kt2D a 3D, vznikají kombinací 2D struktur Zopakování / shrnutíZopakování / shrnutí ▼Ř d p og amů ží jí í h o dílné▼Řada programů využívajících rozdílné přístupy – použití závisí na vstupních datech a účeludatech a účelu ▼Neexistuje univerzální program – nejlepší▼Neexistuje univerzální program nejlepší je kombinace výsledků z více programů ▼Predikce 2D struktury je do značné míry spolehlivá – zejména pro proteiny s α helix; vzrůstá při podobnostis α-helix; vzrůstá při podobnosti s proteinem se známou strukturou