Predikce struktury proteinů i Struktura proteinů ADSQTSSNRAGEFSIPPNTDFRAIFFANAAE QQHIKLFIGDSQEPAAYHKLTTRDGPREATL NSGNGKIRFEVSVNGKPSATDARLAPINGK KSDGSPFTVNFGIVVSEDGHDSDYNDGIVV LQWPIG primární (sekvence) Pred: Pred: CCCCCEECCCCCCCCCCCCEEEECCCCCEEEEEEECCCCC AA i DSQEPAA i' HKLTTPCGPP EATLÍÍ SCHCKIRFEVSVNGK PS SO 60 ::0 p"d; -€D=>-1 :>-cz Pr ed: CCHHEEEEC C C CC CCCCC CEEEE EEEEC CCCCC CCCCCEE AA: ATDARIAPINGKXSDGSPFTVNFGIVVS EQGHDSDVNDGI 90 100 110 120 sekundární kvartérní terciární Primární struktura ID ^ Sekvence aminokyselin zapsaná od N' konce k C konci N'konec Ckonec Amino Amino Amino acid 1 acid 2 acid 3 3 Sekundární struktura ^ Definována pomocí torzních úhlů peptidové páteře > Pro každou aminokyselinu lze definovat tři úhly: > § - úhel kolem vazby N-Ca > \\) - úhel kolem vazby Ca-C(karb.) > co - úhel kolem peptidové vazby (180°, výjimečně 0°) > Stabilizována pomocí vodíkových můstků mezi atomy peptidové kostry HJM V V 4> CH W Ramachandranuv diagram Ramachandranův diagram > Každé aminokyselině odpovídá jeden bod v diagramu Sekundární struktura > Stabilní konformace polypeptidového řetězce > Důležité pro udržení 3D struktury > a-šroubovice (helix), (3-skládaný list (sheet), otáčky, smyčky > Cca 50 % aminokyselin je součástí a a (3 struktur Šroubovice (helix) > a-helix- nejčastější > 310-helix - obvykle na začátku nebo na konci a-helixu > R-helix - málo stabilní, málo častý a-helix 310-helix Ti-helix Vodíkové můstky n ... n+4 n ... n+3 n ... n+5 Residua na otáčku 3,6 3 4,4 Vinutí (Ä na 1 AK) 1,5 2 1,15 Skládaný list (extended ß-sheet) n _ N > Paralelní, antiparalelní, mix Paralelní Face view Side view Antiparalelní Reverse turns. Type I Type II i Ostatní Úseky které nespadají do kategorií helix nebo list Kombinace povolených torzních úhlů Nestabilní konformace Nestandardní konformace (glycin, prolin) Otáčky (turns), „náhodné klubko" (random coil) 10 Znázornění 2D struktury > Písmeny - H (helix), E (extended sheet), C (coil) > Barevně - např. červená (helix), žlutá (skládaný list) > Grafickými elementy - spirála/válec (helix), plochá šipka (skládaný list), linka (ostatní) MQVWPIEGIKKFETLSYLPPLTVEDLLKQIEYLLRSKWVPCLEFSKVG ----------EEEE--------HHHHHHHHHHHHH---E E EE EE- 10 20 1 G T Y R Q L F H P E Q L 1 S G K E D A A N N Y A R G H Y 51 G L Q G F L V F H S F G G G T G S G F T S L L M E R L S 101 V V E P Y N S 1 H T T H T T L E H S D C A F M V D N E A 151 M S Q I V S S 1 T A S L R F D G A L N V D L T E F Q T N 201 A Y H E Q L s V M T N A C F E P A N Q M V K C D P R 251 A I A T I K T K R T 1 Q F V D W C P T G F K V G 1 N Y Q 301 T T A V A E A W A R L D H K F D L M Y A K R A F V H W Y 351 D Y E E V G A D S Y E D E D E G E E Y 10 20 Strand Helix Coil -\A/-n- /V- ---- POB s L S G FRKMAFPSGKVEGCMVQVTCGTTTLNGLWLDDTVYCPRHVI CT A E D MLNPNYEDL L ■j 1A ttk in «i cň ' c ó I R K S N H S F LVQAGNVQL RV I G H S M Q N C L L RL KVDTSNPKTPKYKFVR I Q P G Q T F S V L A C Y CO ' Tft *A A A 1 Á/k IIA ' llÓ PDBNG S PSGVYQCAMRPNHT I KGSFLNGSCGSVGFN IDYDCVSFCYMHHMELPTGVHAGTDLE PDB^M TJ» IM IC* IC« ITA ' ITS "-vAArVW-v/VWWV- PDBYEPLTQDHVD I L G P L S AQT G I AVL DM C A A L KE L L QN G DSSP Legend _ empty: no secondary structure assigned PDB 239 250 260 270 ^^^^^ B: beta bridge S: bend E: beta strand Gi 3/10-helix ^ ^ H: alpha helix Dělení proteinů dle 2D struktury Zejména pro účely klasifikace, hledání společných rysů Každý protein obsahuje mj. smyčky a ohyby > Jen a struktury > Jen P struktury >a/p > Motivy kombinující a i (3 struktury > a + p > Oddělené domény tvořené jen a nebo jen (3 strukturami > Malé proteiny > Speciální případy, např. obsahující ionty kovů, stabilizované disulfidickými můstky 12 Terciární struktura > Konkrétní umístění jednotlivých atomů polypeptidového řetězce v prostoru > Stabilizována pomocí: • Vodíková vazba (H-můstek) mezi polárními AK, mezi hlavním řetězcem • Iontová interakce - nabité AK • Hydrofobní interakce - nepolární AK • „Stacking" (ti-ti, CH-ti interakce) - aromatické AK • Kovalentní vazba síra-síra - cystein / cystin • Vazba iontů kovů 13 Od 2D ke 3D > Motivy > 2-3 prvky sekundární struktury > Foldy > Kombinace jednoduchých motivů > Domény > Tvořeny motivy/foldy > Část struktury s vlastní funkcí (nejmenší funkční jednotka) > Nezávislá jednotka (alespoň částečně nezávislá) Jednoduché motivy Složené ot-motivy/foldy go) 4-helix bundle 7-helix barel 18 19 Složené a/ß-motivy/foldy Rossmanův fold TIM-barel 20 Structural classification of proteins (SCOP) https://scop.mrc-lmb. com.ac. uk/ fC®9 About Contact Download The legacy SCOP websites can be accessed at SCOP 1.75 and SCOP2 prototype SCOP 2 SCOP: Structural Classification of Proteins Nearly all proteins have structural similarities with other proteins and, in some of these cases, share a common evolutionary origin. The SCOP database, created by manual inspection and abetted by a battery of automated methods, aims to provide a detailed and comprehensive description of the structural and evolutionary relationships between all proteins whose structure is known. As such, it provides a broad survey of all known protein folds, detailed information about the close relatives of any particular protein, and a framework for future research and classification. Latest update on 2020-03-31 includes 44,218 non-redundant domains representing 532,428 protein structures. Folds, superfamilies and families statistics here. Keyword and ID search Sequence search Enter free text. SCOP ID, PDB ID or UniProl ID GO Browse by structural class • All alpha proteins • All beta proteins • Alpha and beta proteins(a/b) • Alpha and beta proteins(a+b) • Small proteins Browse by protein type • Globular proteins • Membrane proteins • Fibrous proteins • Non-globular/lntrinsically unstructured proteins CATH - Protein structure classification database >Domény jsou klasifikovány podle CATH hierarchie > Třída (Class) • Podle sekundární struktury • Jen a, jen (3, a i (3, minimum sekundární struktury > Architektura • 3D uspořádání sekundární struktury > Topologie/fold • Jak jsou prvky sekundární struktury uspořádané za sebou > Homologní nadrodina • V případě, že jsou domény evolučně příbuzné (homologní proteiny) https://www.cathdb.info/ >Q Matching CATH superfamilies 2.120.10.70 Fucose-specific lectin >Q Matching CATH Domains QB3 4agiA00 PDB code 4agi, chain A, domain 00 Supertamily: 2 120 10.70 non-polymer water water, polypept«3e(L) ASPERGILLUS FUMIGATUS, tUmenc, Omerio SUGAR-BINDING PROTEIN SUGAR-BINDING FVCOSE-SPECIFIC LECTIN FLEA, polymer METHYL G-DEOXY- 1-SELENO-ALPHA-L-GALAC TOPYRANO SIDE non-polymer r, polypeptKte(L) ASPERGILLUS FUMIGATUS, dknehc, dknenc, SUGAR-BINDING PROTEIN, SUGAR-BINDING PROTEIN, >Q Matching PDB Structures 4agi PDB code 4agi non-polymer, water, waler, polypeptiOe(L) ASPERGILLUS FUMIGATUS, water, water, poiypeptide(L), ASPERGILLUS FIMIGATUS, dkneric, dimeric, SUGAR-BINDING PROTEIN, SUGAR-BINDING PROTEIN, FUCOSE-SPECIFIC LECTIN FLEA polymer METHYL S-OEOXY-1 -SELENO-ALPHA-L-GALACTOPYRANOSIDE. non-polymar water SUGAR-BINDING PROTEIN SUGAR-BINDING 22 Kva rtérn í struktura > Vzájemná kombinace více řetězců (monomerů) > Podle typu podjednotek: • Homooligomery (identické jednotky) • Heterooligomery (alespoň dva různé typy jednotek) > Komplexy proteinů s dalšími makromolekulami • Ribosom, proteasom, replikační komplex,... > Nadmolekulární komplexy • Virové částice, buněčná membrána, organely,... Způsob uložení 3D (4D) strukturních dat > Veřejně dostupné databáze • Protein Data Bank (PDB), Biological Magnetic Resonance Data Bank, EM Data Bank > Koordináty atomů, doplňkové informace (meta data) > Definovaný formát • PDB • mmCIF Predikce struktury > Predikce struktury znamená přiřazení strukturních atributů jednotlivým aminokyselinám (2D struktura, koordináty - tvorba 3D modelu) >Struktura 2D a 3D je konzervovaná více než samotná sekvence > Vstupní informace: • Sekvence • Fyzikálně-chemické parametry • Informace v databázích > Výstup: • Model struktury (2D, 3D, 4D) 31 Proč predikovat strukturu > Klasifikace proteinů > Vytvoření modelu struktury pro další studium > Před poveď funkce proteinu • Homologní struktury • Vazebná místa > Analýza povrchu • Přístupnost solventu, tunely, kavity Predikce sekundární struktury > Predikce 3 základních typů: H (helix), E ((3-list), C/- (smyčka/vše ostatní) > 1. GENERACE • ab-initio • Vychází z fyzikalně-chemických vlastností a ze statistik pro jednotlivé aminokyseliny 1. Generace - ab inicio Relative Amino acid Propensity Values for Secondary Structure Elements Used in the Chou-Fasman Methods Amino Acid (a-Helix) P (^-Strand) P (Turn) Alanine 1.42 0.83 0.66 Arginine 0.98 0.93 0.95 Asparagine 0.67 0.89 1.56 Aspartic acid 1.01 0.54 1.46 Cysteine 0.70 1.19 1.19 Glutamic acid 1.51 0.37 0.74 Glutamine 1.11 1.11 0.98 Glycine 0.57 0.75 1.56 Histidine 1.00 0.87 0.95 Isoleucine 1.08 1.60 0.47 Leucine 1.21 1.30 0.59 Lysine 1.14 0.74 1.01 Methionine 1.45 1.05 0.60 Phenylalanine 1.13 1.38 0.60 Proline 0.57 0.55 1.52 Serine 0.77 0.75 1.43 Threonine 0.83 1.19 0.96 Tryptophan 0.83 1.19 0.96 Tyrosine 0.69 1.47 1.14 Valine 1.06 1.70 0.50 1st helix in Myoglobin Typické znaky a-šroubovice > Často je částečně exponovaná • Jedna strana je otočená dovnitř proteinu (hydrofobní) a druhá ven (hydrofilní) • Residuum (aminokyselina) n, n+3, n+4, n+7 míří na stejnou stranu >Transmembránový helix • Všechny aminokyseliny hydrofobní Typické znaky (3 -list Sekvence „se namotá" na válec (a-helix) > HCA graf je zobrazení válce v rovině > Hydrofobní aminokyseliny jsou ohraničeny a tvoří specifické tvary pro a-helixy a (3-listy Hydrophobic Cluster Analysis 2D suppor human a 1 antitrypsin -IQ 227 ...GNATA ■ PDEGK QH ENE THDJJTKFLENEDRR ...♦NAĎA ÍTDE*K QH ENE DHDIinKFLENEDRR ...00000 00000 00 000 000 00 2000000 2D V (11), M (101) RPBS Web Portal - HCA https://mobvleTpbs.univ-paris-diderotir/cgi-bin/portal.py?form=HCA#forms::HCA RPBS Web Portal (guest) set email sign-in sign-out refresh workspace L [more] Programs □ Drugs □ Peptides o Sequence o Structure a Test Tutorials □ Data formats w Howtocite & Overview & PDBInput w Policy S# Registration w Stepbystep Data Bookmarks Sequence : query.data Jobs ✓ HCA - 04/28/21 21:50:44 Services Help Pages ti> BCSearch v FAF-Drugs4 U fpocket w Frog2 & HHalign-Kbest V lnterEvDock2 y MTiAutoDock/MTiOpen Screen Welcome Forms Data Bookmarks Jobs Tutorials HCA HCA 1.0.2 Hydrophobic Cluster Anak/sis. v Input Data Run Reset Help pages Diour. aiiu wiiiiu-rrrr- /I 1 Predikce sekundární struktury > Predikce 3 základních typů: H (helix), E ((3-list), C/- (smyčka/vše ostatní) > 1. GENERACE • ob-initio • Vycházela z fyzikálně-chemických vlastností a ze statistik pro jednotlivé aminokyseliny > 2. GENERACE • Zahrnuje i vliv okolních aminokyselin > 3. GENERACE • Homology-based models • Metody strojového učení • Využívá multiple sequence alignmentu a toho, že 2D struktura je více konzervovaná než sekvence 42 Metody založené na homologii [Homology- bosed) > Vychází z předpokladu, že 2D struktura je více konzervovaná než sekvence 1. Multiple sequence alignment 2. Predikce sekundárních struktur pro každou sekvenci zvlášť 3. Porovnání predikovaných sekundárních struktur s alignmentem 4. Konsenzus sekundární struktury a g c t t a c t aatc c g g g c c g a a t t a g g t c a g t t t a " t aattcgag c t g a a c - a g g t c a g t c t a t t aattcgag c a g a a c t t g g c a g t t t a aattcgag c t g a a c t t g g c c a g t c t a c t aattcgag c t g a a a g g - c a g a t t a aattcgag c t g a a c t t g g i c a g a t t G r t aattcgag c C g a a t t a g g t c a g a t t a t t aatccggg c t g a a t t a g g t r a g t c t a t t aattcgag r t g a a t t a g g a c a g c t t a t t aattcgtg c r g a a c t c g g a c a g c t t a t t aattcgag c r g a a c t c g g a c a g c t t t t aattcgag c c g a a Ľ I c g g g c agtttttt a a t t CM a H r t r a a t t aIÄ c. \ ECCHHCEEEECCCEE HHHHHCCCCEEECCH HHHHHCCEEEECCHH HHHHCCCEEEECHHC HHHCHCCEEEECCHH HHHCHCCEEEECCHH HHHHHCCEEEECCHH ECCHHCEEEECCCEE HHHHHCCCCEEECCH HHHHCCCEEEECHHC HHHHHCCEEEECCHH Metody strojového učení {Machine learning) > Model, který je natrénovaný na známé sadě dat 44 PSIPRED >Predikce sekundární struktury pomocí 2 neuronových sítí > Časově náročnější > Ve srovnání s většinou programů na predikci sekundární struktury má lepší výsledky http://bioinf.cs.ucl.ac.uk/psipred/ Choose prediction methods Popular Analyses I PSIPRED 4.0 (Predict Secondary Structure) MEMSAT-SVM (Membrane Helix Prediction) DISOPRED3 (Disopred Prediction) pGenTHREADER (Profile Based Fold Recognition) Contact Analysis DeepMetaPSICOV 1.0 (Structural Contact Prediction) MEMPACK (TM Topology and Helix Packing) Fold Recognition GenTHREADER (Rapid Fold Recognition) pDomTHREADER (Protein Domain Fold Recognition) Structure Modelling Bioserf 2.0 (Automated Homology Modelling) DMPfold 1.0 Fast Mode (Protein Structure Prediction) Domserf 2.1 (Automated Domain Homology Modelling) Domain Prediction DomPred (Protein Domain Prediction) Function Prediction FFPred 3 (Eurkaryotic Function Prediction) 51 101 151 201 251 301 351 401 451 501 551 601 651 701 751 801 851 901 PSIPRED 10 2Z 30 4C 50 M P R S V P P N I s P L P 0 K D D S S L S A S E Y P N I A S R T A P P S P S A V R R T H S L L S E T H T G Y Q S L E S Q M E A G E T T S L L G K T R E N H R G T P R R S Y T S I S A I P T P D N Y L R H S L T S G S L R R S R H H S R A N S Q S L R F S R R S S I D D E Q D E D L P P S A K D G M T A S F L D E R N W Y D 0 F T S T D w V H D S I A D G A R L R E L R K R K D F R G R L L A A F D G A Q G W I L V A L I G C I T A A I A Y FVDVTEDFVFDLK E G F C T T R IN F H N R E S C C A D T L D C S L W R S W S Q I L S P S G S D N G W V D H S M F V L W V V I L S V I S C Y L T L F T K T V V P S S V S L T T L D E N L G A G T s R G T N H D A s E D N S P A S L I N P K A H Y P T I S T R P A M T Y Y s A A G S G V A E V K V I N s G F V L H G Y L G F K T L V I K T I A L V F S V S S G L S L G K E G P Y V H I G A c V G N I A C R L F S K Y N D N D G K R E S A A A S G V A V A F G A P I G G V L F S L E E V s Y Y F P P K T L F R T F F C C I A A A L S L K F L N P Y G T S K I V L F 0 V R Y V T D W E F E ' v v F A L [ G V L G G A A G A L F I K A S S L W A K S F R K L S I I K R W P M L E V V A L V T G V V S F W N R Y A K L P V S E L L F E L A S P c D P E S V T S T G L C P T E D G E I I s D L L V A F K L L T V V T F G I K V P A G V p S M V V G G L M G R I V G H VVQF LVVK F P N F F L F S T c P V Y s G M E S C V V P G V Y A M V A A G A T M C G V T R L S V T L A V F E L T G S L D H V L P F s L A V L C A K W T A D A I E P R S I Y D L ■■■ M N S Y P F L D N K I Q L L S D D E L G D I V R P V R K S R V I D I S E S P F V P A T E L R S K L o H L L M A G E L D S G L P 1 L R N D I L C G I I P A P D L E Y A L D T I E D E E H T M C L M s M D T A S A V V D S E D S N G N S W V D F R R Y I D K E P N A E P I S L D I H S P I D L V Y Q C F A K L G L R Y L C V L R D G 0 Y A G L V H K 10 20 30 40 50 Strand Disordered, protein binding Extracellular Helix Putative Domain Boundary Re-entrant Helix Coil Membrane Interaction Cytoplasmic ~] Disordered Transmembrane Helix Signal Peptide Get PNG Get SVG Rozšíření predikce 2D struktury 2D ^ Predikce VÍCe typŮ 2D Struktury (dle DSSP-Database of Secondary Structure Assignments) > a-helix(H) > (3-bridge (B) > 310-helix (G) > turn (T) > R-helix (I) > bend (S) > (3-řetězec, extended strand (E) > ostatní, coil (C) > Predikce přístupnosti solventu > Predikce transmembránových helixů 47 Predikce terciární struktury Klasifikace proteinů Předpověď funkce Vytvoření modelu pro další studium • Ab initio • Homologní modelování • Threading („navlékání") Metody pro predikci funkce h „klasické" metody: vícenásobné aminokyselinové přiložení pozitivní alignment pouze mezi sekvencemi stejné rodiny G^i,4-^fii£}|ýza 2D 5i.rukti cdkvlyldidvlv^sltpli^tdlgdnwlgacid G'Ca1'3"GI[^|||^jf j^^j^ APKVLYLDADIICQGTIEPLINFSFPDDKVAMWT Galct1,3-Glcct- QIKVLYLDADIACKGSIQELIDLNFAENEIAAWA Glca1.2-Glca-R Rf%I E.coli LDRLLYLDADWCKGDISQLLHLGLN-GAVAAWK .. «T