LOSCHMID, LABORATORIES Predikce proteinové struktury INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ □ Důležitost proteinové struktury □ Predikce sekundární struktury □ Predikce proteinového foldu □ Predikce terciární struktury □ Predikce molekulárních komplexů □ Hodnocení predikčních metod Predikce proteinové struktury http://multimedia.mcb.harvard.edu/ Predikce proteinové struktury Důležitost proteinové struktury MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCA GLGRLIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVV HDWGSALGFDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRS QAGEELVLQD funkce Predikce proteinové struktury □ Predikce proteinového foldu ■ Navlékání - angl. Threading □ Predikce terciární struktury ■ Homologní modelování - angl. Homology modelling ■ Ab initio predikce - angl. Ab initio prediction □ Predikce molekulárních komplexů ■ Molekulární dokování - angl. Molecular docking Predikce proteinové struktury Predikce sekundární struktury □ Přiřazení jednoho konformačního stavu každému aminokyselinovému zbytku v proteinové sekvenci: o oc-šroubovice (H, angl. helix) P-řetězec (E, angl. strand) otočka (C, angl. coil) Predikce proteinové struktury Predikce sekundární struktury □ Přiřazení jednoho konformačního stavu každému aminokyselinovému zbytku v proteinové sekvenci: o Přesnost >80% Klasifikace proteinů Identifikace proteinových domén a funkčních motivů Zlepšení spolehlivosti sekvenčních přiložení Příprava na predikci terciární struktury Predikce proteinové struktury Predikce sekundární struktury Flavodoxin nnpredict PredictProtein SSPRED GOR Levin DPM SOPMA CNRS Consensus 10FV 1 10 20 30 40 50 aki qlfygtqtgvtqti aesi qqefggesi vdlndianadasdlnaydylii E E El 60 g c p t wn v g h h - - hhh--hhhhhhhhhhh e_e e_e - ■ - • eehhhhhhhhh - - t t - - e h - - - - h - - - - h - - - - i li- H H HHHHM eaga- ■ hhth ĚŠ h H h h tt - h hhh h Beta 1 Alpha J Beta 2 Alpha 2 Beta 3 Flavodoxin nnpredict PredictProtein SSPRED GOR Levin DPM SOPMA CNRS Consensus 10FV 70 60 90 100 110 120 elqsdwegi yddldsvnfqgkkvayfgagdqvgysdnfqdamgi leeki sslgsqtvgyw immn - - e - - e - - EEEEE- - - e e e - • - e e e e e e Alpha 3 Alpha 4 Beta 4 Alpha 5 Flavodoxin nnpredict PredictProtein SSPRED GOR Levin DPM SOPMA CNRS Consensus 10FV 130 140 150 160 pi egydfneskavrnnqfvglai dednqpdltknri ktwvsql ksefgl - e..............hh ...........eee--eeee ............... eeeee eee- - - hhhhhhhhhhhhhe t e - eee - - hhhh- h- t- - ee..... ---t---th-hhhh---ee-hhhhh ..........TTEETTEE- ■ ........h* hhhh- t- ee- gjO- t T h h h HQJTJRIl IOh- h - - - h hETGIí BetaS Alpha 6 Predikce proteinové struktury Predikce sekundární struktury □ PSI-PRED Kombinuje evoluční informaci s predikcí neuronovou sítí Pred: Pred: ÄA > HHHHHHHHHHHHHHHHHHCCCCCCCCCCCCCCCEEEEEEE QQMNQKÄVTSFLSVQDGIYNSDLTPKSDIKNPDVWYEFF 130 140 150 160 Legend: ( ) ) = helix Conf: ]a □ D ] ]E = confidence o f prediction [ = strane + Pred: predicted secondary structure coil AA: target sequence Predikce proteinové struktury Predikce sekundární struktury □ Quick2D Přiřazení sekundárních elementů: a-šroubovic, (3-řetězců, otoček, transmembránových šroubovic a neuspořádaných regionů Metody PSI-PRED, JNET, Prof, Coils, MEMSAT2, HMMTOP, ... SS PSIPRED SS JNET SS Prof (Ouali) CC Coils TH HHHTOP TH HEMSAT-SVM TH PHOEIUS DO DIS0PPED2 DO IUPRED SO JNET £0 I I I I I I I I MS L G-AKP F G-EEEFIEIKGRRMAYID E G-T G-D PILFQHG-NP T SSTLXJPJJIHPHCAG-L GPLIACD LIGMGD SDKLD P S GP E RY EEEEE EEEEEEEE EEEEE HHHHHHHHHHHHH EEEEE EEE EEEEEE EEEEEE HHHHHHHHHHH EEEEE EEEE EEEEEEE EEEEE HHHHHHHHHHHH EEEEEE DD E E EEE E E EEEE E EEEEEEEEEEEE EE EE E EEEEEEEEEEEE EE E Predikce proteinové struktury Predikce sekundární struktury □ GeneSilico MetaServer ■ Meta-server pro predikci struktury proteinů, včetně predikce sekundární elementů = konsensus SECONDARY STRUCTURE PREDICTION Secondary Structure sspro4 cdm psipred fdm jnet porter sable prof gor consensus 1........10........20........ 30........ 40........SO........60_____ MTISADIS LHHRAVL GS THAYRE T DRSDAPHVL FLHGNPTS S YIWPJJIMP LVAPVGHCIAPDLID1 ---------EEEEE —EEEEEEEE-------EEEE------HHHH---HHHH-----EEEE----- ---------EEEEE —EEEEEEEE-----EEEEEE------HHHH—-HHHH----EEEEE----- ------EEEEEEEE —EEEEEEE-------EEEEE------HHHHHHHHHHHH---EEEEE----- -----HHEEEEEEE —EEEEEEEE-----EEEEEE------HHHH---HHHH----EEEEE----- -------EEEEEEE —EEEEEEEE------EEEEEE----HHHHHHHHHHHH----EEEEEE---- -EEEEEE —EEEEEE- ---------EEEEEEE- ----------EEEEE — — EEEEE —EEEEEEE- ■EEEEE----HHHHHHHHHHHHHH- —EEEEE- ■EEEEEE-----HHHHHHHHHHHHH—EEEE- ■EEEEE---------HHHHHHHHH---EEEEE- ■EEEEE------HHHHHHHHHHH----EEEEE- Predikce proteinové struktury Predikce proteinového foldu □ Navlékání Rozpoznávání proteinového foldu Hledá strukturu, která nejlépe odpovídá proteinové sekvenci prohledáváním knihovny známých foldů a hodnocením skóre Používá se pro struktury, pro které není k dispozici vhodný templát pro homologní modelování Neposkytne výsledek, pokud správný fold není v knihovně o Predikce proteinové struktury Predikce proteinového foldu i □ Navlékání MSLGAKPFGE... modelovaná sekvence Predikce proteinové struktury 3 Predikce proteinového foldu □ Navlékání MSLGAKPFGE... modelovaná sekvence fold 1 fold 2 fold n Predikce proteinové struktury fold 1 MSLGAKPFGE... modelovaná sekvence konstrukce modelu fold n Predikce proteinové struktury fold 1 MSLGAKPFGE... modelovaná sekvence konstrukce modelu výpočet energie fold n Predikce proteinové struktury Predikce proteinového foldu □ Navlékání fold 1 MSLGAKPFGE... modelovaná sekvence konstrukce modelu výpočet energie výpočet skóre a klasifikace fold n Predikce proteinové struktury Predikce proteinového foldu □ Navlékání PHYRE GenTHREADER oíiyre rotein omology/analogY Recognition Engine Version 0.2 The Phyre webserver is for Academic use only E-mail Address Optional Job description Amino Acid Sequence Google groups Subscribe to Phyre Email: r Subscribe | Visitthis group Quick Phyre Search | Predikce proteinové struktury Predikce terciární struktury 1 □ Homologní modelování □ Ab initio predikce Predikce proteinové struktury Predikce terciární struktury □ Homologní modelování ■ Vytváří atomistický model založený na experimentálně určené struktuře, která je sekvenčně blízce příbuzná ■ Vyžadovaná sekvenční identita >25% ■ Základní princip = struktura je konzervována déle než sekvence o Predikce proteinové struktury □ Homologní modelování MSLGAKPFGE... modelovaná sekvence Predikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE... modelovaná sekvence prohledání databáze párovým přiložením Predikce proteinové struktury Predikce terciární struktury 1 □ Homologní modelování MSLGAKPFGE... modelovaná sekvence prohledání databáze párovým přiložením identifikace templátu Predikce proteinové struktury □ Homologní modelování MSLGAKPFGE... modelovaná sekvence prohledání databáze párovým přiložením identifikace templátu MSLGAKPFGE... MGV-AKTYGE... přiloženi sekvencí Predikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE... modelovaná sekvence prohledání databáze párovým přiložením identifikace templátu MSLGAKPFGE... MGV-AKTYGE... přiložení sekvencí extrakce páteře náhrada vedl. řetězců Predikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE... modelovaná sekvence prohledání databáze párovým přiložením identifikace templátu doplnění smyček MSLGAKPFGE... MGV-AKTYGE... přiložení sekvencí extrakce páteře náhrada vedl. řetězců Predikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE... modelovaná sekvence prohledání databáze párovým přiložením optimalizace modelu identifikace templátu doplnění smyček MSLGAKPFGE... MGV-AKTYGE... přiložení sekvencí extrakce páteře náhrada vedl. řetězců Predikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE... modelovaná sekvence Residue number hodnocení modelu prohledání databáze párovým přiložením optimalizace modelu identifikace templátu doplnění smyček MSLGAKPFGE... MGV-AKTYGE... přiložení sekvencí extrakce páteře náhrada vedl. řetězců Predikce proteinové struktury Predikce terciární struktury □ Homologní modelování ■ Swiss-Model ■ Modeller diůzcntrum SWISS-MODEL Workspace Modelling [ my Workspace ] SwissModel Automatic Modelling Mode Ö Email: Project Title: r r Tools Repository Document [ l°E Provide a protein sequence or a UniProt AC Code: O Submit Modelling Request) Advanced options: Use a specific template: or Template file: © PDB-ID: I" Chain: |" r Procházet... | Predikce proteinové struktury Predikce terciární struktury □ Ab initio predikce ■ Vytváří atomistický model založený na základních fyzikálních principech ■ Hledá geometrii struktury v globálním energetickém minimu ■ Umožňuje navrhovat struktury neexistující v přírodě ■ "Svatý Grál" bioinformatiky o Predikce proteinové struktury □ Ab initio predikce □ Ab initio predikce ■ Rosetta, Robetta native model 4 Predikce terciární struktury □ Meta-servery ■ GeneSilico ■ 3D-Jury TERTIARY STRUCTURE PREDICTION 3dpssm server not updated score identity scop EC ld07 A 0.071 42% c.69.1.8 3.8.1.5 lbn7 A 49% c. 69.1.8 3.8.1.5 lekl A2 21% c. 69.1.11 3.3.2.9 ls8o A 23% c.69.1 3.3.2.9 lcr6 A 0.42 21% c.69.1 3.3.2.9 lehy A 0.71 20% c.69.1.11 3.3.2.9 lb6g 0.93 25% 3.8.1.5 ljli A 2 20% c.69.1.10 3.7.1.8 liuo A 2,2 20% c.69.1.10 3.7.1.9 lbrt 2,7 19% 1.11.1.10 1........10........20........ 30........40........SO........ 60........ 70........80........ 90..... HTI SAD IS LHHRAVL GS THAYRE T GRSD APHVL FLHGNPTS SYIWPJTIHP LVAP VGHCIAPD LIGYGQ S GKPDIS YRF FD Q AD YLD AL ID E L GI AS - GAKP F GEKKFIEIKGRRHAYID EG--TGDPILFOHGHPTS SYLURNIHPHCAGL GEL IACD LIGHGD SDKPPE RYAYAEHRDYLDALWEALD LD E IGTGFPFD PHYVE VL GE RHHYVDVGP ED GT PVL F LHGHP T S SYLWRNIIPHVAP SHECIAFD LIGHGKSDKPD LDYF FDDHVEYLDAFIEAL GL E E L PVPNDVSHGYVTVKGIRLHFVEHGS — GPAL C L CHGF P E SOF SWRYQIP AL AAGF EVLAIDHKGYGD SSSPPE EYAHE L L CKEHVT F LDKL GIP Q HCHP SDHSHGYVT VKRVRLHFVE LGS — GP AVC LCHGFPE SWYSWRYQ IP AL AAGYEVLAHDHKGYGE S SAP P E EYCHEVL CKEHVT F LDKL GL S Q HPVPNDVSHGYVTVKGI RLHFVEHGS --GPAL C L CHGF P E SWF SWRYQI PAL AAGF EVLAIDHKGYGD SSSPPE EYAHE LLCKEHVTFLDKLGIPQ -AIPEDFKHYEVQLPDVKIHWEEG--AGPTLLLLHGUPGFmWEWSKVIGPLAEHYDVIVPDLEGFGDSEKPDSKYSLDKAADDQAALLDALGIEK HLD QYP F S PHYLD YP GL RAHYLD E GNSDAEVF LCLHGEP TUSYLYRKHIPVFAE GAEVIAPD FFGFGKSDKPEEDYTFE FHRHF LLALIEELDLEH -----AYVE EF VHAGGVE T RYL EAG- -KGQ P VILIHGGAE S E GMTRHVIPILARHYEVIAHDHL GF GKT AKPDIE YT QD EEIEHLHD FIKAHNFDK ---HLEIG-KSILAAGVL THYHDVG- - EGQPVILIHGSP GS AYAWRL TÍPAL SKFYEVIAFDHVGF GF TD RP E YHYSKD SWVDHIIGIHDALEIEK -------PFITVQEHSID LYYEDHG— TGQPWLIHGFPLS GHSWE EQ S AALDAGYEVITYDEEGFGQSSQPTT GYD YD T FAAD LNTVL E T LD L QD TERTIARY STRUCTURE PREDICTION phyre i........10........20........30........40........so........so........70........so........90..... score identity scop EC HT I SAD IS LHHRAVL GS THAYRE T GRSDAPHVL F LHGNP T S SYITJlTRNIHP LVAP VGHC IAPD LIGYGQ S GKPDISYRF FD Q AD YLD AL ID E L GI AS lbn7A l.Se-43 50% c.69.1.8 3.8.1.5 -----P FD PHYVEVL GE RHHYVDVGP ED GTPVLF LHGHP TSSYLWPJTIIPHVAP SHEC IAPD LI GHGKSDKPD LDYFFDDHVEYLDAFIEAL GLEE ly37B 5.8e-41 22% c.69.1.11 3.8.1.3 --HFEGFEEELVDVGDVTIHC WGG- - SGPALLLLHGFP QHLHMUARVAP L L AHEYT WC AD L EGYGGS SKPHAHYS F EAHASD QRELHRTLGFEE lehy A 2.7e-40 21% c.69.1.11 3.3.2.9 IERPEDFKHYEVQLPDVKIHYVEEG—AGP T L L L LHGUP GFWWEWSKVI GP L AEHYDVIVPD L EGF GD S EKPD SKYS LDKAADD QAAL LD AL GI EK 2o2h A 4.2e-40 40% c.69.1.8 3.8.1.5 HTAF P YGQ PKYL EIAGKRHAYID E G—KGD AI VF QHGNP T S SYLDlTRNIHPHL E GL GEL VACD LIGHGASDKL SD RYS YGE Q RD F L F ALTtfD ALD LDH lmj5A S,8e-40 43% c.69.1.8 3.8.1.5 L GAKP F GEKKF IEIKGERHAYID EG--TGDPILFQHGHPTS SYLURNIHPHC AGL GEL IACD LI GHGD SDKLD E RYAYAEHRDYLDALWEALD LD E lua4A 2.6e-39 17% c.69.1.12 3.1.1.2 ---------T F VAKD GT QIYFKDUG- - S GKP VL F SHGUL LD ADHUE YQHE YL S S GYET IAFD EEGFGESDQ PUT GHD YD TFADDIAQLIEHLDLKE ljli A 4.U-39 13% c.69.1.10 3.7.1.8 ----RAYVERFVMAGGVETRYLEAG—KGQ P VILIHGGGAS E GHWRNVIPI LARHYEVIAHDHL GF GKT AKPD IE YT QD EEI EHLHD F IKAHNFDK 2rllA 4.7e-39 16% c.69.1.12 3.1.1.1 —UPVECKSFYISTEFGQTIWIASGPEDAPPLVLLHGALFSSTHMYPNIADUSSKYETYAVDIIGDKHKSIPEHSGTETDYANULLDVFDHLGIEK 2vf2 A 5.4e-39 21% c.69.1.10 3.7.1.8 -TFESTSEFAEVDVD GLKLHYHEAGVGHD Q T WL LHGGGF GAASUTHFIAVL ARHFHVLAVD Q P GYGHSDKEAEHQ FNEYAAHALKGL FD Q L GL GE laBsA 5.6e-39 17% c.69.1.12 1.11.1.10--------TTFTTEDGTQIYYKDUG- - SGQPIVFSHGUP LHAD SUE S QHIF L AQ GYEVIAHD EEGHGES S Q PUS GHDHD T YADD LAQLIEHLDLED Predikce proteinové struktury Predikce molekulárních komplex □ Molekulární dokování ■ Umísťování malých organických molekul - ligandů - do vazebných domén receptoru, aktivních center enzymů nebo žlábků DNA ■ Náhodně generované orientace a konformace ligandu v blízkosti biomolekuly jsou hodnoceny energetickým skóre ■ Energetické skóre = interakční energie = van der Waalsova energie + elektrostatická energie + energie vodíkových vazeb + entropie o Predikce proteinové struktury Predikce molekulárních komplex □ Molekulární dokování Predikce proteinové struktury Hodnocení predikčních metod □ CASP Critical Assessment of Techniques for Protein Structure Prediction Mezinárodní soutěž spolehlivosti predikčních metod = umožňuje kritické a objektivní hodnocení K hodnocení jsou využívány slepé predikce = soutěžící obdrží proteinové sekvence se známou, avšak dosud nepublikovanou strukturou - organizátoři porovnají predikované a experimentální struktury o Predikce proteinové struktury Hodnocení predikčních metod □ CAS P Predikce terciární struktury Predikce molekulárních komplexů Predikce kontaktů mezi zbytky Predikce neuspořádaných regionů Predikce domén Predikce funkce proteinů Hodnocení kvality modelů Upřesnění modelů Predikce proteinové struktury Hodnocení predikčních metod □ CASP # GR ^ GR Name Domains Count Cumulative T Z-score (GDT_TS) 1. 426 s Zhang-Seruer 164 129.070 2. 433 s RAPTOR 164 103.274 3. 425 s bAKbK-KcJbb 1 1 A 164 101.546 4. 409 s pro-sp3-TASSER 164 99.062 5. 132 s METATASSER 164 96.045 6. 322 s Phyre_de_nouo 164 91.397 7. 012 s HHpredS 164 39.393 S. 020 s MULTICOM-CLUSTER 164 37.470 9. 122 s HHpred4 164 36.429 10. 256 s SAM-TOS-seryer 164 34.731 11. 013 s M U LTICOM-REFINE 164 33.332 12. 443 s MUProt 164 31.140 13. 279 s GS-KudlatyPred 161 73.994 14. 154 s HHpred2 164 77.955 Predikce proteinové struktury □ □ Claverie, J-M., & Notredame, C. (2006). Bioinformatics For Dummies (2nd ed.). Wiley Publishing, Hoboken, p. 436. Xiong, J. (2006). Essential Bioinformatics. Cambridge University Press, New York, p. 352. □ PSI-PRED: http://bioinf.cs.ucl.ac.uk/psipred/psiform.html □ Quick2D (MPI Toolkit): http://toolkit.tuebingen.mpg.de/quick2 d □ Modeller: http://salilab.org/modeller/ □ Modeller (GeneSilico): https://genesilico.pl/toolkit/unimod?method=Modeller □ Swiss-Model: http://swissmodel.expasy.org/ □ GenTHREADER: http://bioinf.cs.ucl.ac.uk/psipred/psiform.html □ PHYRE: http://www.sbg.bio.ic.ac.uk/~phyre/index.cgi □ GeneSilico MetaServer: https://www.genesilico.pl/meta2/ □ 3D-Jury: http://meta.bioinfo.pl/submit wizard.pl □ Rosetta@home: http://boinc.bakerlab.org/rosetta/ □ CASP: http://predictioncenter.org/index.cgi Predikce proteinové struktury