L LOSCHMIDT , LABORATORIES Predikce proteinové struktury ■!§< r? m ^T^^ I MINISTERSTVO SKOLSTvi opv«iai*.*hi '.^^^..y EVROPSKÁ UNIE ■ pru LionkurercoscIioiiiioBt l/4rVA«* INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ □ Důležitost proteinové struktury □ Predikce sekundární struktury □ Predikce proteinového foldu □ Predikce terciární struktury □ Predikce molekulárních komplexů □ Hodnocení predikčních metod redikce proteinové struktury Důležitost proteinové struktury •v http://multimedia.mcb.harvard.edu/ redikce proteinové struktury Důležitost proteinové struktury MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCA GLGRLIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVV HDWGSALGFDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRS QAGEELVLQD funkce Predikce proteinové struktury □ Predikce sekundární struktury □ Predikce proteinového foldu ■ Navlékání - angl. Threading □ Predikce terciární struktury ■ Homologní modelování - angl. Homology modelling ■ Ab initio predikce - angl. Ab initio prediction □ Predikce molekulárních komplexů o Molekulární dokování - angl. Molecular docking Predikce sekundární struktury □ Přiřazení jednoho konformačního stavu každému aminokyselinovému zbytku v proteinové sekvenci ■ a-šroubovice (H, angl. helix) ■ (3-řetězec (E, angl. strand) ■ otočka (C, angl. coil) Predikce sekundární struktury □ Přiřazení jednoho konformačního stavu každému aminokyselinovému zbytku v proteinové sekvenci: ■ Přesnost >80% ■ Klasifikace proteinů ■ Identifikace proteinových domén a funkčních motivů ■ Zlepšení spolehlivosti sekvenčních přiložení ■ Příprava na predikci terciární struktury Predikce sekundární struktury Flavodoxin nnpredict PredictProtein SSPRED GOR Levin DPM SOPMA CNRS Consensus 10FV Flavodoxin nnpredict PredictProtein SSPRED GOR Levin DPM SOPMA CNRS Consensus 10FV Flavodoxin nnpredict PredictProtsin SSPRED GOR Levin DPM SOPMA CNRS Consensus 10FV 1 10 20 30 40 50 60 aki glfygtqtgvt qt i a e s i qqefggesi vdlndi anadasdlnaydyli i gcptwnvg e e e |E • - - - HH - - HT - T E - 4E- - Beta 1 Alpha 1 Beta 2 Alpha 2 70 SO 90 100 ELQSOWEGI YDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDA Beta 3 110 120 SSLGSOTVGYW HHHHHHHHHHH HHHH IH - - - H H H H H - HÜ Mi lUlilH HHTT-E - T - - -EE-TT-HHHTT- ..........h- - mims CTIKin- - - - - - e - - e - -----HHHHHH ijaaaaa TlTTTl- - - E e E E E - i..........h fn ... E e e . . ■ ee.....h h IuJIeE E e - - - e E e e e e - • e e e e • t- HHE i- - T e - ttt - HHill!l!l!l!IT IIIJIllI T ■ ■ ■ • • EE- E ■ Ie t t f] 1 1 1 \i[ l!l?l!l!l!inE T - • ee- . - -ee.....h h i:i!l!l.'l!lfl lílillllj- lH- • • - ee- Alpha 3 Alpha 4 Beta 4 Alpha 5 130 140 150 160 PI EGYDF NESKAVRNNQFVGLAI DEDNQPDLTKNRI K T WV SQL KSEFGL - E..............HH - • ...........EEE-EEEE ...............EEEEE EEE- - - HHHHHHHHHHHHHE TE- EEE- - HHHH- H- T- - EE..... ---T---TH-HHHH---EE-HHHHH ..........TTEETTEE- - ........H-HHHH-T-EE- Betas Alpha 6 Predikce proteinové struktury 8/39 961198 Predikce sekundární struktury □ PSI-PRED Kombinuje evoluční informaci s predikcí neuronovou sítí Pred: Pred: AÄ: > EHHHHKHHHHKHHHHKHHCCCCCCCCCCCCCCCEEEEEEE QQMNQKAVTSFLSVQDGIYNSDLTPKSDIKNPDVWYEFF 130 140 150 160 Legend: n i helix Conf: ],,]]][ confidence of prediction > - + strand Pred: predicted secondary structure = coil AA: target seguence redikce proteinové struktury Predikce sekundární struktury □ Quick2D Přiřazení sekundárních elementů: a-šroubovic, (3-řetězců, otoček, transmembránových šroubovic a neuspořádaných regionů Metody PSI-PRED, JNET, Prof, Coils, MEMSAT2, HMMTOP, ... 50 I I I I I I I I HSL GAKP F G-EKKFIEIKGRPMAYID EGTGDPILF QHGNP T S SYLtJRHIMPHCAGIi GPL IACD LIG-MG-D SDKLD P S GP E PY SS PSIPPED SS JNET SS Prof (Ouali) CC Coils TM HMMTOP TM MEMSAT-SUM TM PHOBIUS DO DISOPPEDZ DO IUPPED SO JHET DD B B EEEEE EEE EEEE EEEEEEEE EEEEEE EEEEEEE EEEEE EEEEEE EEEEE HHHHHHHHHHHHH HHHHHHHHHHH HHHHHHHHHHHH EEEEE EEEEE BBB B B BBBB B BBBEBBBBBBBB BB BB B BBBBBBBBBBBB BB redikce proteinové struktury Predikce sekundární struktury □ GeneSilico MetaServer Meta-server pro predikci struktury proteinů, včetně predikce sekundární elementů = konsensus SECONDARY STRUCTURE PREDICTION Secondary Structure sspro4 cdm psipred fdm jnet porter sable prof gor consensus 1........ 10........ 20........30........40........£0........60..... HTISADISLHHRAVLGSTHAYEETGE.SDAPHU'LFLHGNPTSSYITiJElJIHPLVAPVGHCIAPDLIG1 ---------EEEEE —EEEEEEEE-------EEEE------HHHH---HHHH-----EEEE----- ---------EEEEE —EEEEEEEE-----EEEEEE------HHHH---HHHH----EEEEE----- ------EEEEEEEE —EEEEEEE-------EEEEE------HHHHHHHHHHHH—-EEEEE----- -----HHEEEEEEE —EEEEEEEE-----EEEEEE------HHHH---HHHH----EEEEE----- -------EEEEEEE —EEEEEEEE------EEEEEE----HHHHHHHHHHHH----EEEEEE---- -EEEEEE---EEEEEE-------EEEEE----HHHHHHHHHHHHHH---EEEEE----- ---------EEEEEEE-------EEEEEE-----HHHHHHHHHHHHH—-EEEE----- ----------EEEEE--------EEEEE---------HHHHHHHHH— EEEEE----- --EEEEE —EEEEEEE-------EEEEE------HHHHHHHHHHH----EEEEE----- redikce proteinové struktury Predikce proteinového foldu □ Navlékání ■ Rozpoznávání proteinového foldu ■ Hledá strukturu, která nejlépe odpovídá proteinové sekvenci prohledáváním knihovny známých foldů a hodnocením skóre ■ Používá se pro struktury, pro které není k dispozici vhodný templát pro homologní modelování ■ Neposkytne výsledek, pokud správný fold není v knihovně o redikce proteinové struktury Predikce proteinového foldu □ Navlékání MSLGAKPFGE. modelovaná sekvence redikce proteinové struktury fold n redikce proteinové struktury Predikce proteinového foldu □ Navlékání fold 1 MSLGAKPFGE. modelovaná sekvence konstrukce modelu fold 2 fold n redikce proteinové struktury Predikce proteinového foldu □ Navlékání fold 1 MSLGAKPFGE. modelovaná sekvence fold 2 fold n konstrukce modelu výpočet energie redikce proteinové struktury Predikce proteinového foldu □ Navlékání fold 1 MSLGAKPFGE. modelovaná sekvence fold 2 fold n konstrukce modelu výpočet energie výpočet skóre a klasifikace redikce proteinové struktury Predikce proteinového foldu □ Navlékání ■ PHYRE ■ GenTHREADER phyre Protein Homology/analogY Recognition Engine Version 0.2 The Phyre webserver is for Academic use only E-mail Address Optional Job description Amino Acid Sequence Google groups Subscribe to Phyre Email: r Subscribe | Visitthis group Quick Phyre Search | redikce proteinové struktury Predikce terciární struktury □ Homologní modelování □ Ab initio predikce redikce proteinové struktury Predikce terciární struktury □ Homologní modelování ■ Vytváří atomistický model založený na experimentálně určené struktuře, která je sekvenčně blízce příbuzná ■ Vyžadovaná sekvenční identita >25% o Základní princip = struktura je konzervována déle než sekvence redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE... modelovaná sekvence redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná prohledání databáze sekvence , v., párovým priložením redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná sekvence prohledání databáze párovým přiložením identifikace templátu redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná sekvence prohledání databáze párovým přiložením identifikace templátu MSLGAKPFGE... MGV-AKTYGE... přiloženi sekvencí redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná sekvence prohledání databáze párovým přiložením identifikace templátu MSLGAKPFGE. MGV-AKTYGE. přiložení sekvencí extrakce páteře náhrada vedl. řetězců redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná sekvence prohledání databáze párovým přiložením identifikace templátu doplnění smyček MSLGAKPFGE. MGV-AKTYGE. přiložení sekvencí extrakce páteře náhrada vedl. řetězců redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná sekvence prohledání databáze párovým přiložením optimalizace modelu identifikace templátu doplnění smyček MSLGAKPFGE. MGV-AKTYGE. přiložení sekvencí extrakce páteře náhrada vedl. řetězců redikce proteinové struktury Predikce terciární struktury □ Homologní modelování MSLGAKPFGE. modelovaná sekvence Residue number hodnocení modelu prohledání databáze párovým přiložením optimalizace modelu identifikace templátu doplnění smyček MSLGAKPFGE. MGV-AKTYGE. přiložení sekvencí extrakce páteře náhrada vedl. řetězců redikce proteinové struktury Predikce terciární struktury □ Homologní modelování ■ Swiss-Model ■ Modeller BLŮZE N-rnuM SWISS-MODEL Workspace Modelling Tools [ myWorkspace ] SwissModel Automatic Modelling Mode 1 Repository Document [ loc Email: Project Title: Provide a protein sequence or a UniProt AC Cod 9 Submit Modelling Request) Advanced options: Use a specific template: Ö PDB-ID: ^ or _ Template til e:« I- Chain: fj Procházet... 3redikce proteinové struktury Predikce terciární struktury □ Ab initio predikce ■ Vytváří atomistický model založený na základních fyzikálních principech ■ Hledá geometrii struktury v globálním energetickém minimu o Umožňuje navrhovat struktury neexistující v přírodě ''Svatý Grál" bioinformatiky redikce proteinové struktury Predikce terciární struktury □ Ab initio predikce redikce proteinové struktury Predikce terciární struktury □ Ab initio predikce ■ Rosetta, Robetta Target 77 native model 4 Target 56 nať ve redikce proteinové struktury Predikce terciární struktury □ Meta-servery ■ GeneSilico ■ 3D-Jury TERTIARY STRUCTURE PREDICTION 3dpssm server not updated ld07 ň lbn7 A lekl A2 ls8o A lcr6 A lehy A lb6g ljli A liuo A lbrt score 0,071 0.2 0,42 0,71 0,93 2 2.2 2.7 1........10........10........30........40........SO........60........ 70........80........90..... identity scop EC HTISÍlDISLHHEAULGSTHAYRETGRSDAPHVLFLHGUPTSSYIWEIIIHPLUAPVGHCIAPDLIGYGQSGKPDISYRFFDQADTLDALIDEL&IAS 42% c.69.1.8 3.8.1.5 -GAKPFGEKKFIEIKGRR1IAYIDEG—TGDPILFQHGNPTSSYLWB1IIMEHCAGLGRLIACDLIGMGDSDKPPEBYAYAEHRDYLDALWEALDLDE 49% c.69.1.8 3.8.1.5 IGT&FPFDPHWEVLGERHHYVDVGPI^GTPVLFLHGNPTSSYLWPJIIIPHUAPSHRCIAPDLIGHGKSDKPDLDYFFDDHVRYLDAFIEAL&LEE 21% c. 69.1.1 1 3.3.2.9 LPVPHDVSHGYVTVKGIRLHFVEMGS— GPALCLCHGFPES¥FSWRYQ.IPALAAGFRVLAIDMKGYGDSSSPPEEYAMELLCKEHVTELDKLGIPQ 23% c.69.1 3.3.2.9 HCHPSDMSHGYVTVKRVRLHFVELGS—GP AVC L CHGF P E SUYSWILYQ IP ALAAGYRVL AMDHKGYGE S SAP P EE YCHEVL CKEMVTF LDKL GL S Q 21% c.69.1 3.3.2.9 MPVPtfDVSHGYVTVKGIRLHFVEMGS—GPALCLCHGFPESWFSWEYQIPALAAGFRVLAIDraíGYGDSSSPPEEYAMELLCKEHVTFLDKLGIPQ 20% c.69.1.1 1 3.3.2.9 -AIP ED FKHYEVQ L PDVKIHYVREG—AGP T LL L LHGWP GFUTflEWSKVIGP LAEHYDVIVPDL RGFGD S EKPD SKYS LDKAADD QAAL LDAL GIEK 25% 3.8.1.5 HLDQYPFSP^LDYPGLPJLHYLDEGHSDAEVFLCLHGEPTMSYLYP^IPVFAEGARVIAPDFFGFGKSDKPEEDYTFEFHPJIFLLALIERLDLEH 20% c.69.1.10 3.7.1.8 -----AYVERFVUAGGVETEYLEAG—KGQPVILIHGGAESEGHMPUVIPILAPHYRVIAHDHLGFGKTAKPDIEYTQDPRIEHLHDFIKAHIIFDIÍ 20% c.69.1.10 3.7.1.9 ---IILEIG-KSILAAGVLTHYHDVG—EGQPVILIHGSPGSAYAMRLTIPALSKFYRVIAPDHVGFGFTDRPEYHYSKDSWDHIIGIHDALEIEK 19% 1.11.1.10-------P FITVQ EHS ID LYYEDHG—TGQPTOLIHGFPLSGHSWEEQSAALDAGYRVITYDERGFGQSSQFTTGYDYDTFAADLNTVLETLDLQD 1........10........20........30........40........£0........60........ 70........80........90..... identity scop EC HTISADISLHHRAVLGSTHAYRETGRSDAPHVLFLHGIIPTSSYIME1IIHPLVAPVGHCIAPDLIGYGQSGKPDISYRFFDQADYLDALIDELGIAS 50% c.69.1.8 3.8.1.5 -----PFDPHWEVLGEPJHYVI>VGPPJ>GTPV1FLHGHPTSSYL¥PJIIIPHVAPSHRCIAPD1IGHGKSDKPDLDYFFDI1HVEYLI>AFIEA1GLEE 22% c.69.1.1 1 3.8.1.3 —MFEGFERRLVDVGDVTINCWGG—SGPALLLLHGFPQHLHHKTAEVAPLLANEYTWCADLRGYGGSSKPHAHYSFEAHASDQRELHRTLGFEE 21% C.69.1.1 1 3.3.2.9 IRRP ED FKHYEVQ L PD VKIHYVREG—AGP T LL L LHGWP GFUTflEWSKVIGP LAEHYDVIVPDL RGFGD S EKPD SKYS LDKAADD QAAL LDAL GI EK 40% c.69.1.8 3.8.1.5 HTAF PYGQ PKYL EIAGKPJIAYIE1 EG—KGDAIVFQHGUPTSSYL¥EUIHFHLEGLGRLVACDLIGHGASDKLSDEYSYGEQPJ>FLFALIiJDALDLDH 43% c.69.1.8 3.8.1.5 L GAKP F GEKKFIEIKGRRHAYID E G—TGDPILFQHGHPTSSYLWP1IIHPHCAGLGRLIACDLIGHGDSDKLDERYAYAEHRDYLDAL¥EALDLDE 17% c.69.1.1 2 3.1.1.2 ---------TFVAKDGTQIYFKDWG—SGKPVLFSHGWLLDADIWEYQMEYLSSGYRTIAFDRRGFGRSDQPUTGHDYDTFADDIAQLIEHLDLKE 18% c.69.1.10 3.7.1.8 ----EAYVE RFVNAGGVE T EYL EAG—KGQPVILIHGGGASEGOTEUVIFILAEHYRVIAHDHLGFGKTAKFDIEYTQDERIEHLHDFIKAHIIFDK 16% c.69.1.12 3.1.1.1 —WPVRCKSFYISTREGQTHVIASGPEDAPPLVLLHGALFSSTmrYPHIADraSSKYRIYAVDIIGDKHKSIPEIISGTRTDYAHWLLDVFDHLGIEK 21% c.69.1.10 3.7.1.8 -TFESTSE.FAEVDVDGLKLHYHEAGVGNDQTWLLHGGGPGAASWTNFIAVLAEHFHVLAVDQPGYGHSDKPAEHQFNRYAAHALKGLFDQLGLGE 17% c.69.1.1 2 1.11.1.10--------TTFTTRDGTQIYYKDWG—SGQPIVFSHGWPLHADSMESQHIFLAQGYRVIAHDERGHGESSQPraSGHDHDTYADDLAQLIEHLDLPJ) TERTIARV STRUCTURE PREDICTION phyre lbn7 A ly37 B lehy A 2o2h A lmjS A 1 va4 A ljli A 21-11 A 2vf2 A la8s A score 1.8e-43 5.8e-41 2.7e-40 4.2e-40 8.8e-40 2.6e-39 4.16-39 4.7e-39 5.4e-39 5.6e-39 3redikce proteinové struktury Predikce molekulárních komplex □ Molekulární dokování Umísťování malých organických molekul - ligandů - do vazebných domén receptoru, aktivních center enzymů nebo žlábků DNA ■ Náhodně generované orientace a konformace ligandu v blízkosti biomolekuly jsou hodnoceny energetickým skóre ■ Energetické skóre = interakční energie = van der Waalsova energie + elektrostatická energie + energie vodíkových vazeb + entropie o redikce proteinové struktury Predikce molekulárních komplex □ Molekulární dokování ■ DOCK ■ AUTODOCK redikce proteinové struktury Hodnocení predikčních metod □ CASP Critical Assessment of Techniques for Protein Structure Prediction ■ Mezinárodní soutěž spolehlivosti predikčních metod = umožňuje kritické a objektivní hodnocení ■ K hodnocení jsou využívány slepé predikce = soutěžící obdrží proteinové sekvence se známou, avšak dosud nepublikovanou strukturou - organizátoři porovnají predikované a experimentální struktury O Hodnocení predikčních metod □ CASP ■ Predikce terciární struktury ■ Predikce molekulárních komplexů ■ Predikce kontaktů mezi zbytky ■ Predikce neuspořádaných regionů ■ Predikce domén ■ Predikce funkce proteinů ■ Hodnocení kvality modelů ■ Upřesnění modelů Hodnocení predikčních metod □ CASP # # ^ GR Name Domains Count Cumulative T Z-score (GDT_TS) 1. 426 i Zhang-Server 164 129.070 2. 433 i RAPTOR 164 103.274 3. 425 i BAKER-ROB ETTA 164 101.546 4. 409 i pro-sp3-TASSER 164 99.062 5. 132 i METATASSER 164 96.045 6. 322 i Phyre_de_noYO 164 91.397 7. 012 i HHpredS 164 39.393 S. 020 i MULTICOM-CLUSTER 164 37.470 9. 122 i HHpred4 164 36.429 10. 256 i SAM-T03-server 164 34.731 11. 013 i M U LTICOM-REFIHE 164 33.332 12. 443 i MUProt 164 31.140 13. 279 i GS-KudlatyPred 161 73.994 14. 154 i HHpred2 164 77.955 redikce proteinové struktury □ Claverie, J-M., & Notredame, C. (2006). Bioinformatics For Dummies (2nd ed.). Wiley Publishing, Hoboken, p. 436. □ Xiong, J. (2006). Essential Bioinformatics. Cambridge University Press, New York, p. 352. □ PSI-PRED: http://bioinf.cs.ucl.ac.uk/psipred/psiform.html □ Quick2D (MPI Toolkit): http://toolkit.tuebingen.mpg.de/quick2 d □ Modeller: http://salilab.org/modeller/ □ Modeller (GeneSilico): https://genesilico.pl/toolkit/unimod?method=Modeller □ Swiss-Model: http://swissmodel.expasv.org/ □ GenTHREADER: http://bioinf.cs.ucl.ac.uk/psipred/psiform.html □ PHYRE: http://www.sbg.bio.ic.ac.uk/~phyre/index.cgi □ GeneSilico MetaServer: https://www.genesilico.pl/meta2/ □ 3D-Jury: http://meta.bioinfo.pl/submit wizard.pl □ Rosetta@home: http://boinc.bakerlab.org/rosetta/ □ CASP: http://predictioncenter.org/index.cgi 39/39