Predikce struktury proteinů 1 C2131 Úvod do bioinformatiky Jaro 2023 Mgr. Josef Houser, Ph.D. primární (sekvence) sekundární terciárníkvartérní ADSQTSSNRAGEFSIPPNTDFRAIFFANAAE QQHIKLFIGDSQEPAAYHKLTTRDGPREATL NSGNGKIRFEVSVNGKPSATDARLAPINGK KSDGSPFTVNFGIVVSEDGHDSDYNDGIVV LQWPIG 2 Struktura proteinů 2D1D Primární struktura ➢ Sekvence aminokyselin zapsaná od N‘ konce k C‘ konci 3 N‘konec C‘konec 1D Sekundární struktura Definována pomocí torzních úhlů peptidové páteře Pro každou aminokyselinu lze definovat tři úhly: ➢ φ – úhel kolem vazby N-Cα ➢ ψ – úhel kolem vazby Cα-C(karbonyl) ➢ ω – úhel kolem peptidové vazby (180°, výjimečně 0°) Stabilizována pomocí vodíkových můstků mezi atomy peptidové kostry 4 2D ωψ φ Ramachandranův diagram 5 Každé aminokyselině odpovídá jeden bod v diagramu 2D Sekundární struktura ➢ Stabilní konformace polypeptidového řetězce ➢ Důležité pro udržení 3D struktury ➢ Základní typy: • α-šroubovice (helix) • β-skládaný list (sheet) • otáčky, smyčky ➢ Cca 50 % aminokyselin je součástí α a β struktur 6 2D Šroubovice (helix) ➢ α-helix – nejčastější ➢ 310-helix – obvykle na začátku nebo na konci α-helixu ➢ π-helix – málo stabilní, málo častý 7 α-helix 310-helix π-helix Vodíkové můstky n ... n+4 n ... n+3 n ... n+5 Residua na otáčku 3,6 3 4,4 Vinutí (Å na 1 AK) 1,5 2 1,15 2D Skládaný list (extended β-sheet) ➢ Paralelní, antiparalelní, mix 8 Paralelní Antiparalelní 2D • Úseky které nespadají do kategorií helix nebo list • Kombinace povolených torzních úhlů • Nestabilní konformace • Nestandardní konformace (glycin, prolin) • Otáčky (turns), „náhodné klubko“ (random coil) 9 Ostatní 2D Znázornění 2D struktury ➢ Písmeny – H (helix), E (extended sheet), C (coil), ... ➢ Barevně – např. červená (helix), žlutá (skládaný list) ➢ Grafickými elementy – spirála/válec (helix), plochá šipka (skládaný list), linka (ostatní) 10 2D Dělení proteinů dle 2D struktury Zejména pro účely klasifikace, hledání společných rysů Každý protein obsahuje mj. smyčky a ohyby ➢ Jen α struktury ➢ Jen β struktury ➢ α/β – Motivy kombinující α i β struktury ➢ α + β – Oddělené domény tvořené jen α nebo jen β strukturami ➢ Malé proteiny – speciální případy, např. obsahující ionty kovů, stabilizované disulfidickými můstky 11 2D Terciární struktura Konkrétní umístění jednotlivých atomů polypeptidového řetězce v prostoru Stabilizována pomocí různých typů vazeb: • Vodíková vazba (H-můstek) mezi polárními AK, mezi N-H a C=O hlavního řetězce • Iontová interakce – nabité AK • Hydrofobní interakce – nepolární AK • „Stacking“ (π-π, CH-π interakce) – aromatické AK • Kovalentní vazba síra-síra – cystein / cystin • Vazba iontů kovů 12 Absolutní souřadnice Vztažené k definovanému počátku soustavy souřadnic [0, 0, 0] ➢ Kartézské souřadnice – x, y, z ➢ Sférické souřadnice – r, θ, φ nebo ρ, θ, φ Pro N atomů → 3N souřadnic 13 x y z (x, y, z) Kartézské (r, θ, φ) Sférické Relativní souřadnice Vztažené k předchozímu definovanému bodu (atomu) ➢ Vzdálenost od předchozího atomu ➢ Úhel mezi třemi atomy ➢ Torzní úhel mezi čtyřmi atomy Pro N atomů → 3N – 6 souřadnic 14 A - - B rAB - C rBC θABC D rCD θBCD ωABCD E rDE θCDE ωBCDE ... rAB B ωABCD rBC rCD C D θBCD rDE atd. A θABC Od 2D ke 3D Motivy ➢ 2-3 prvky sekundární struktury Foldy ➢ Kombinace jednoduchých motivů Domény ➢ Jsou tvořeny jedním nebo několika motivy/foldy ➢ Část proteinu s vlastní funkcí (nejmenší funkční jednotka) ➢ Nezávislá jednotka (alespoň částečně nezávislá) 15 Jednoduché motivy 16 Helix-otáčka-helix β-vlásenka β-α-β Složené α-motivy/foldy 17 4-helix bundle 7-helix barel Složené β-motivy/foldy 18 Řecký klíč β-meandr β-barel Složené α/β-motivy/foldy 19 Rossmanův fold TIM-barel Structural classification of proteins (SCOP) 20 2D http://scop.mrc-lmb.cam.ac.uk/ CATH – Protein structure classification database Domény jsou klasifikovány podle CATH hierarchie ➢ Třída (Class) • Podle sekundární struktury • Jen α, jen β, α i β, minimum sekundární struktury ➢ Architektura • 3D uspořádání sekundární struktury ➢ Topologie/fold • Jak jsou prvky sekundární struktury uspořádané za sebou ➢ Homologní nadrodina • V případě, že jsou domény evolučně příbuzné (homologní proteiny) 21 2D https://www.cathdb.info/ Kvartérní struktura ➢ Vzájemná kombinace více řetězců (monomerů) ➢ Podle typu podjednotek: • Homooligomery (identické jednotky) • Heterooligomery (alespoň dva různé typy jednotek) ➢ Komplexy proteinů s dalšími makromolekulami • Ribozom, proteazom, replikační komplex,... ➢ Nadmolekulární komplexy • Virové částice, buněčná membrána, organely,... 22 Strukturní data (3D) 23 Způsob uložení 3D (4D) strukturních dat ➢ Veřejně dostupné databáze • Protein Data Bank (PDB), Biological Magnetic Resonance Data Bank, EMDataBank ➢ Několik typů dat: • Koordináty atomů • Experimentální data • Doplňkové informace (meta data) ➢ Definovaný formát • PDB • mmCIF 24 ➢ Stále častý, dnes již zastaralý ➢ Fixní pozice sloupců, kapacitní omezení Typ aminokyseliny Číslo rezidua Souřadnice Řetězec Formát PDB ➢ Novější, preferovaný ➢ Bezkontextová gramatika, možnost rozšiřování o další typy údajů Formát mmCIF Typ aminokyseliny Číslo rezidua Souřadnice Řetězec Zobrazení 3D struktury • Zobrazovací SW: PyMol, LiteMol, Mol*, Jmol, Chimera, RasMol, VMD, … • Konkrétní styl záleží na účelu zobrazení Kuličky (spheres) Tyčky (sticks, balls and sticks) Stuha (cartoon/ribbon) Povrch (surface) Zobrazení 3D struktury • Časté je kombinované zobrazení Zobrazení 3D struktury • Možnost zobrazení dalších informací, např. vodíkové vazby, elektronová hustota, hydrofobicita povrchu Predikce struktury 30 Predikce struktury ➢ Predikce struktury znamená přiřazení strukturních atributů jednotlivým aminokyselinám (2D struktura, koordináty – tvorba 3D modelu) ➢ Struktura 2D a 3D je konzervovaná více než samotná sekvence ➢ Vstupní informace • Sekvence • Fyzikálně-chemické parametry • Informace v databázích 31 ➢ Výstup • Model struktury (2D, 3D, 4D) • Doplňkové informace (např. spolehlivost predikce) Proč predikovat strukturu? ➢ Klasifikace proteinů ➢ Vytvoření modelu struktury pro další studium ➢ Předpověď funkce proteinu • Homologní struktury • Vazebná místa ➢ Analýza povrchu • Přístupnost pro solvent, tunely, kavity 32 Predikce sekundární struktury Predikce 3 základních typů: H (helix), E (β-list), C/− (smyčka/vše ostatní) ➢ 1. GENERACE • ab-initio • Vycházela z fyzikálně-chemických vlastností a ze statistik pro jednotlivé aminokyseliny 33 2D Typické znaky α-šroubovice Často je částečně exponovaná • Jedna strana je otočená dovnitř proteinu (hydrofobní) a druhá ven (hydrofilní) • Residuum (aminokyselina) n, n+3, n+4, n+7 míří na stejnou stranu Transmembránový helix • Všechny aminokyseliny hydrofobní 34 2D n n+3 n+4 n+7 Typické znaky β-listu Residua (aminokyseliny) se střídají po 180° Částečně zanořený list • Residua n, n+2, n+4 atd. jsou polární • Residua n+1, n+3, n+5 atd. jsou nepolární Úplně zanořený list • Všechna residua jsou nepolární 35 2D α-šroubovice nebo β-list? 36 ELKAHIRVDLTLQ ELKAHIRVDLTLQ ELKAHIRVDLTLQ Polární Nepolární α β 2D α-šroubovice nebo β-list? 37 ELKAHIRVDLTLQ ELKAHIRVDLTLQ ELKAHIRVDLTLQ Polární Nepolární α β  ✓ 2D ✓✓✓✓✓✓✓✓✓✓✓✓✓ ✓✓  ✓✓  ✓✓  Analýza hydrofobních klastrů (HCA) ➢ Sekvence „se namotá“ na válec (α-helix) ➢ HCA graf je zobrazení válce v rovině ➢ Hydrofobní aminokyseliny jsou ohraničeny a tvoří specifické tvary pro α-helixy a β-listy Callebaut, I et al. “Deciphering protein sequence information through hydrophobic cluster analysis (HCA): current status and perspectives.” (1997) 38 2D RPBS Web Portal – HCA https://mobyle.rpbs.univ-paris-diderot.fr/cgi-bin/portal.py?form=HCA#forms::HCA Callebaut, I et al. “Deciphering protein sequence information through hydrophobic cluster analysis (HCA): current status and perspectives.” (1997) 39 2D Predikce sekundární struktury Predikce 3 základních typů: H (helix), E (β-list), C/- (smyčka/vše ostatní) ➢ 1. GENERACE • ab-initio • Vycházela z fyzikálně-chemických vlastností a ze statistik pro jednotlivé aminokyseliny ➢ 2. GENERACE • Zahrnovala i vliv okolních aminokyselin ➢ 3. GENERACE • Homology-based models • Metody strojového učení • Využívá multiple sequence alignmentu a toho, že 2D struktura je více konzervovaná než sekvence 40 2D Metody založené na homologii (Homology-based) Vychází z předpokladu, že 2D struktura je více konzervovaná než sekvence 1. Multiple sequence alignment 2. Predikce sekundárních struktur pro každou sekvenci zvlášť 3. Porovnání predikovaných sekundárních struktur s alignmentem 4. Konsenzus sekundární struktury 41 HHHHHCCEEEECCHH HHHCHCCEEEECCHH HHHHCCCEEEECHHC HHHHHCCCCEEECCH ECCHHCEEEECCCEE HHHCHCCEEEECCHH HHHHHCCEEEECCHH ECCHHCEEEECCCEE HHHHHCCCCEEECCH HHHHCCCEEEECHHC HHHHHCCEEEECCHH 2D Metody strojového učení (Machine learning) ➢ Model, který je natrénovaný na známé sadě dat ➢ Neuronové sítě ➢ Skryté Markovovy modely 42 2D PSIPRED ➢Predikce sekundární struktury pomocí 2 neuronových sítí ➢ Časově náročnější ➢ Ve srovnání s většinou programů na predikci sekundární struktury má lepší výsledky 43 2D http://bioinf.cs.ucl.ac.uk/psipred/ 44 PSIPRED 2D Rozšíření predikce 2D struktury ➢ Predikce více typů 2D struktury (dle DSSP – Database of Secondary Structure Assignments) ➢ Predikce přístupnosti solventu ➢ Predikce transmembránových helixů 45 ➢ α-helix (H) ➢ 310-helix (G) ➢ π-helix (I) ➢ β-řetězec, extended strand (E) ➢ β-bridge (B) ➢ turn (T) ➢ bend (S) ➢ ostatní, coil (C) 2D Predikce terciární struktury • Ab initio • Homologní modelování • Threading („navlékání“) Ab initio • Nejuniverzálnější – vychází pouze ze sekvence • Výpočetně nejnáročnější • Zahrnuje řadu kroků: • Predikce 2D struktury • Modelování jednotlivých fragmentů • Kombinace fragmentů navzájem • Doplnění smyček a flexibilních úseků • Nízká spolehlivost zejm. pro větší proteiny Ab initio • Quark • RaptorX Homologní modelování • Leží na opačném konci spektra než ab initio • Je založeno na existenci blízkého strukturního homologu (typicky 50 % sekvenční podobnosti a více) • Využívá skutečnosti, že dva proteiny ze stejné rodiny a s podobnou sekvencí mají i podobnou 3D strukturu • Kromě sekvence modelovaného proteinu potřebujeme znát strukturu homologního proteinu = templát • Pro vysoce homologní sekvence je spolehlivost velmi vysoká Homologní modelování 1. Alignment zadané sekvence a sekvence templátu 2. Extrakce proteinové páteře ze struktury templátu a umístění postranních řetězců 3. Modelování otoček a smyček 4. Minimalizace energie 5. Validace vytvořené struktury 50 Swiss-Model • Výběr modelu (manuální, automatický) • Podle vybraného modelu pak predikuje strukturu zadané sekvence • Součástí výstupu je sada parametrů hodnotících kvalitu modelu. Při využití více templátů je tak možno porovnat jednotlivé modely http://swissmodel.expasy.org/ Threading • Z hlediska náročnosti i spolehlivosti leží mezi ab initio a homologním modelováním • Používá se pro případy, kdy zkoumaný protein má nízkou homologii s proteiny se známou strukturou (typicky cca 15-40 %) • Porovnává možnost přiložení sekvence na proteiny známých foldů Threading 1. S využitím strukturních databází (PDB, SCOP, CATH) je vytvořena databáze existujících foldů 2. Sekvence je porovnána s potenciálními templáty • Alignment • Každou aminokyselinu se pokusí umístit do pozice aminokyseliny v templátu • Hodnocení umístění 3. Výběr templátu pro výsledný model ➢ Proteiny s více doménami je nutné rozdělit a modelovat zvlášť 53 • Server pro 3D predikci struktur pomocí threadingu • Vysoce výkonný – poměrně spolehlivá detekce foldu i při nízké homologii (i pod 15%) Phyre2 http://www.sbg.bio.ic.ac.uk/phyre2/ I-TASSER • Několikrát vyhodnocen jako nejlepší predikční server https://zhanglab.ccmb.med.umich.edu/I-TASSER/ Jakou metodu zvolit? 1. Mám homologní protein se známou strukturou → homologní modelování 2. Využiji experimentální data ➢ Threading ➢ Kombinace více templátů pro jednotlivé části struktury ➢ Různé predikční nástroje 3. Ab initio modelování smyček a částí sekvence bez vhodného templátu 4. Mám unikátní sekvenci – ab initio 56 AlphaFold Kombinace strukturních dat, alignmentu a neuronových sítí První verze AlphaFold – spolehlivost predikce < 60 % Od roku 2020 AlphaFold2 – spolehlivost predikce > 90 % 57 AlphaFold Protein Structure Database 2021: Predikovaná struktura proteomu člověka a 47 dalších klíčových organismů (celkem 992 316 predikovaných struktur) 2023: > 200 000 000 predikovaných struktur 58 https://alphafold.ebi.ac.uk/ AlphaFold Výhody • Vysoká přesnost určení foldu • Známé sekvence jsou již predikovány • Dostupný pro širokou veřejnost Rizika • Nízká přesnost určení pozice bočních řetězců • Přesnost klesá u unikátních sekvencí • Bez posttranslačních modifikací • Nevhodné pro komplexy (aktuálně v řešení) 59 Predikce kvartérní struktury Zahrnuje různé úrovně, např.: • Predikce vazebných míst • Predikce aminokyselin podílejících se na interakci • Odhad oligomerního stavu • Protein-protein docking (protein-nukleová kyselina docking) ➢ SW dosud často nedokonalý, nízká spolehlivost predikce ➢ Složitější postupy většinou nejsou automatizované 60 Predikce kvartérní struktury Programy většinou vycházejí z podobnosti sekvence a/nebo 3D struktury se známými proteiny Příklady SW: • QuatIdent • QuaBingo • M-TASSER • Quad-PRE • AlphaFold-Multimer Evaluace kvality struktur a modelů 62 Evaluace kvality struktur a modelů ➢ Shoda strukturního modelu a vstupních dat ➢ Základní fyzikální principy ➢ Správně získaná Experimentální struktura vs. Predikce 63 PDB – validace dat ➢ Struktury vytváří lidé → můžou obsahovat chyby ➢ Kontrola při nahrávání struktur do databáze ➢ Informace o kvalitě u každé struktury 64 Shoda modelu a dat Vnitřní kvalita modelu 65http://webchem.ncbr.muni.cz/ValTrendsDB ValTrends DB https://webchem.ncbr.muni.cz/ValTrendsDB/ Přehledová analýza struktur v PDB databázi MotiveValidator • Kontrola struktury malých molekul – ligandů • Úplnost struktury • Správná chiralita • Anotace 66https://cs.wikipedia.org/wiki/Chiralitahttp://webchem.ncbr.muni.cz/Platform/MotiveValidator 67 MotiveValidator Kontrola predikovaného modelu ➢ Programy vytvoří nějaký model vždy → NUTNÁ KONTROLA ➢ Vizuální kontrola struktury • Je roztržená? • Dochází k překrytí aminokyselin? ➢ Nastavení programu • Obsahuje model celou zadanou sekvenci? • Byl zvolen smysluplný templát? ➢ Skóre • QMEAN (https://swissmodel.expasy.org/qmean/) 68 Hodnocení kvality predikčních nástrojů - CASP ➢ Critical Assessment of Techniques for Protein Structure Prediction ➢ 2022 – CASP15 ➢ Predikce vyřešených, ale zatím nepublikovaných struktur ➢ Rozsáhlá analýza predikčních programů ➢ Predikce terciárních struktur ➢ Identifikace neuspořádaných oblastí ➢ Funkční predikce (predikce vazebných míst) ➢ Interakce mezi doménami, podjednotkami a proteiny ➢ Hodnocení spolehlivosti 69 Závěrem ➢ Struktura je klíčová pro správnou funkci proteinu ➢ Predikovat na základě sekvence (1D) lze 2D, 3D i 4D strukturu ➢ Vždy je nutné kriticky kontrolovat výstupy programů ➢ Ideální je využít více predikčních programů s různou metodologií a porovnat výsledky 70