Proteinová krystalografie Jaromír Marek, Centrum strukturní biologie, CEITEC MU Historický úvod • Monokrystalová strukturní analýza - studium 3-D struktur „molekul“ difrakčními technikami • Potřeba vhodné „sondy“ – například rentgenového záření (1895, N.c. za fyziku 1901 – W. C. Röntgen) • 1912 - průkaz vlnové povahy rentgenového záření jeho difrakcí na krystalu (N.c. za fyziku 1914 – M. von Laue) • 1913-14 - První analýzy struktur krystalů (N.c. za fyziku 1915 –W.H. Bragg & W.L. Bragg) „Přípravné“ metodiky pro proteinovou krystalografii • 1926 - chemie - T. Svendberg - příprava koncentrovaných roztoků proteinů - ultracentrifugace, jednoznačná Mr • 1946 - chemie - J.B. Sumner, J.H. Northrop, W. M. Stanley - purifikace enzymů a virů, enzymy jsou proteiny, enzymy a viry jde krystalizovat • 1958 - chemie - F. Sanger - primární struktura proteinů • 1980 - chemie – P. Berg, W. Gilbert, F. Sanger – metody na sekvenování DNA Další strukturní krystalografové nositelé Nobelovy ceny • 1954 - chemie - L. Pauling - „The nature of the chemical bond and the structure of molecules and crystals“ • 1962 - chemie - M.F.Perutz & J. C. Kendrew – první proteiny • 1962 - medicína - F.H.C.Crick, J.D.Watson, M.H.F.Wilkins-DNA • 1964 - chemie - D. Crowfood-Hodgkin - biochemické molekuly • 1982 - chemie – A. Klug – užití elektronové mikroskopie – struktury virů a komplexů protein-DNA • 1988 - chemie - J.Deisenhofer, R.Huber & H. Michel první membránový protein Strukturní (bio)krystalografové nositelé Nobelovy ceny po roce 2000 • 2003 - chemie (1/2) - R. MacKinnon - „structural and mechanistic studies of ion channels" • 2006 - chemie - R. D. Kornberg - „molecular basis of eukaryotic transcription“ (= struktura RNA polymerázy) • 2009 - chemie - V. Ramakrishnan, T.A. Steitz, A.E. Yonath „structure and function of the ribosome • 2012 – chemie - Robert Lefkowitz, Brian Kobilka - „studies of Gprotein–coupled receptors Předmět studia strukturní strukturní proteomiky/biologie • Proteiny – biopolymery, polypeptidy • Stavební jednotky – levotočivé aminokyseliny • Primární struktura – posloupnost aminokyselin (NC 1953 – F. Sanger – struktura inzulinu) Nárůst užití difrakčních metodik pro určování 3-D struktur krystalů v čase biologické makromolekuly/ proteiny => databáze PDB Zlom - 90. léta: -PCR [objev 1983, (1/2) N.C. za chemii -1993 - Kary B. Mullis] -plošné detektory RTG záření -synchrotronové záření -PC http://www.rcsb.org/pdb/statistics/contentGrowthChar t.do?content=total&seqid=100 Techniky studia 3D struktur biomolekul Z roztoků PDB NMR 2001 : 2 a ¼ tisíce 2008 : 7 a ½ tisíce 2017 : méně než 12 tisíc Krystaly Difrakční techniky Přes 12 tisíc 44 a ½ tisíce cca 115 tisíc Očekává se, že převážná většina struktur globulárních proteinů (=proteinů s dobře určenou terciární strukturou) bude určována difrakcí RTG (resp. synchrotronového) záření i v budoucnu. Teoretické základy difrakčního studia 3-D struktur • „sonda“ vhodné velikosti pro studium atomů – např. rentgenové/el.mag. záření o vlnové délce v oboru standardních meziatomových vzdáleností (~ 1 Å) • Foton s látkou interaguje rozptylem nebo absorbcí • Rozptyl fotonů - se ztrátami – Comptonovský - beze ztrát energie - Thompsonův • Rozptyl jiných typů záření (dualismus vlna/částice) nastává jinými mechanismy • Elektrony jsou rozptylovány nabitými částicemi • Rozptyl neutronů - na nukleonech, resp. jádrech atomů Teoretické základy difrakčního studia 3-D struktur: Thompsonův rozptyl rentgenového záření Každá nabitá částice se v poli rovinného monochromatického záření stane sekundárním zdrojem elektromagnetického pole I I e m r cQ Oi= 4 2 2 4 2 sin ϕ => rozptyl fotonů na protonech je nevýznamný (18372x slabší než na elektronech), difrakcí RTG záření proto studujeme zejména elektronovou strukturu látky Základy difrakčního studia 3-D struktur: Rozptyl záření na krystalech Rozptyl záření na látce: víc (než jedno) rozptylové centrum => prostorem se současně šíří několik (mnoho) sekundárních kulových vln Současné šíření kulových vln => složené vlnění, interference Roztok/amorfní látka: náhodně orientované molekuly => vlny z nesouvisejících počátků a směrů => slabý rozptylový signál Krystal/periodické prostředí => koherentní záření => možnost zesílení signálu pozitivní interferencí Difrakční podmínky – podmínky pro záření s vyšší (=měřitelnou) amplitudou Etapy určování struktur enzymů 1. Výběr genu 2. Příprava rekombinantního proteinu, čištění, zahušťování… 3. Krystalizace 4. Difrakční experiment 5. Fázový problém + příprava modelu 6. Zpřesňování modelu 7. Publikace/užití výsledku Proteinová krystalografie jako pohoří Volba genu, krystalografické studium genetické informace • Jakou genetickou informaci strukturně studovat? • Není dosud přesně známo, kolik genů v lidské DNA je (lidský genom: v průběhu času 25000⇒ 28000 ⇒ ±23500 genů/2011) • Zatím jen u cca 1/10 lidských enzymů je známa jejich funkce • Strategický cíl – určit struktury všech lidských proteinů (Human proteome project) • Prohledávání velkých databází a hledání jednotlivých genů • Zpracování - není možné bez počítač. SW + HW • Problematické místo - formulace hypotéz o polohách genů a funkcích jejich produktů Příprava biologického materiálu • Naprostá většina v současnosti studovaných proteinů se připravuje biotechnologickými metodami (rekobinantní DNA, nadprodukce v modelovém systému, …) • Výhody – „snadnost“ provádění genetických modifikací – jde připravovat Se-Met proteiny (fázový problém) • Kritická místa : - (ne)funkčnost rekombinantních proteinů - produkovaný protein musí být rozpustný - čištění, (ne)stabilita, tendence k agregacím,… Krystalizace • Až doposud nejkritičtější a časově nejnáročnější část určování 3-D struktur makromolekul difrakcí • Urychlení: využití již získaných zkušeností o krystalování (jiných) proteinů + automatizace/robotizace opakovaně prováděných experimentů • Empirie + statistické zpracovávání => krystalizační screens = množiny roztoků (s různým chemickým složením, pH, aditivy, …) pokrývající v minulosti úspěšně použité krystalizační podmínky • Robotika na automatickou krystalizaci: automatické míchání/ředění + pipetování roztoků, pipetování nanolitrových objemů, strojem řízené mikroskopování + počítačové vyhodnocování obrazu) • Průchodnost: potenciálně až desítky proteinů (desítky tisíc testovacích krystalizací) týdně http://en.wikipedia.org/wiki/X-ray_crystallography#Crystallization Difúzní krystalizační techniky • Růst proteinových krystalů je relativně pomalý => pomalé změny koncentrací • Možný „pomalý“ řídící děj: difúzní vyrovnávání koncentrací (rozpouštědla =vody) • Metoda sedící/visící kapky (sitting/hanging drop) • Krystalizace ze směsí látek: voda/rozpouštědlo, srážedlo/precipitant, pufry (stabilizace pH), krystalovaná makromolekula, ionty/soli, malé molekuly a aditiva, … • Kapka + zásobník/rezervoár: různě velké objemy, rozdílné složení • Velikost objemu x doba potřebná k difúznímu ustanovení rovnováhy Metoda sedící kapky (protein) (srážedlo) Automatizace pro pěstování proteinových krystalů • Pipetování mililitrových objemů (pro automatizovanou přípravu krystalizačních „screens“/roztoků) • Pipetování mikrolitrových objemů (např. příprava roztoků do zásobníků/reseivoirs pro difúzní techniky) • Pipetování nanolitrových objemů (např. příprava kapek pro metody sedící kapky/hanging drop) • Skladování + manipulace s krystalizačními deskami + automatizovaný mikroskopický monitoring změn v krystalizačních kapkách http://www.rigakuautomation.com/desktop Automatizace pro pěstování proteinových krystalů Difrakční experiment pro určení 3-D struktury: Generování rentgenového záření Konvenční laboratorní zdroje RTG záření: – brzdné záření (nízká účinnost při generování RTG) – rentgenová lampa (A) – rotační anoda (B) – X-ray CF – svítivost 2.109 Limitace konvenčních zdrojů: – fixní vlnová délka (charakteristické RTG záření) – „bodový“ zdroj kulových vln Synchrotrony (C až F) – zdroje vysoce intenzivního záření (krátký experiment) – spojité spektrum (fázový problém: Se proteiny + MAD) Difrakční experiment pro určení 3-D struktury: Generování konvenčního RTG záření Brzdné RTG záření => vlastní RTG – jen jednotky % dodané energie – hlavní faktor limitující výkon – je nutné odvádět teplo Difrakční experiment : synchrotron jako „nekonvenční“ zdroj RTG záření • záření od nabitých částic na zakřivené dráze • relativistické rychlosti, pohyb ve vakuu, … • ohyb dráhy pomocí dipólových magnetů • jeden ohybový (bending) magnet • sady magnetů: undulátory a wigglery Difrakční experiment : ohybový magnet, undulátor, wiggler wiggler – ohybové magnety jsou od sebe „daleko“, intenzity záření vystupující z jednotlivých ohybových magnetů se sčítají, I~N (N je počet magnetů) undulátor– ohybové magnety jsou k sobě „blízko“, záření z nich proto interferuje (=sčítají se jejich amplitudy), I~N2 Difrakční experiment pro určení 3-D struktury: Plošný detektor s polovodičovými CCD prvky Detekce RTG: scintilační krystal (=„phosphor“, např. z NaI legovaného Tl) převádí RTG záření do pásma viditelného světla Viditelné světlo se detekuje podobnými mikroelektronic. prvky, jaké obsahuje např. digitální fotoaparát Klady CCD: rychlost +-: velikost CCD prvku – osvětluje se zužovacím segmentem ze světlovodivých vláken Největší zápor: vlastní teplotní šum Difrakční experiment: automatický difraktometr-schéma Experiment: omezené množství dat • Geometrická limitace počtu měřitelných dat – měříme data jen do určitého (max.) difrakčního úhlu (limitace: prostorové, časové, …) • Limit pro max. délku experimentu: radiační poškození • Braggova rovnice • Difrakční experiment a jeho limitované rozlišení (resolution): θmax => dmin • Nedokonalost („mosaicita“) krystalů • Kryokrystalografie σ 2λ/ (θ),sin š íRozli en [Å] 2dH sinθ λ= Difrakční experiment • Naprostá většina proteinových struktur je v současnosti určována ze synchrotron. difrakčních dat (hlavní klady: intenzita záření, rychlost experimentu, možnost optimalizace vlnové délky) a za kryopodmínek (dlouhodobá stabilita krystalu před experimentem + zvýšená odolnost vůči radiačnímu poškození při měření, lepší difrakční schopnosti, …). • „Domácí“ laboratoře: testování difrakční kvality krystalů, „ladění“ kryoexperimentů, předzmražování krystalů. • Sběr úplných difrakčních synchrotron. dat – řádově desítky minut, často i výrazně méně • Automatizovaná výměna a měření zmražených (kryo)vzorků • Obrovský „boom“ Se-proteinů & MAD/SAD experimentů Teoretické základy difrakčního studia 3-D struktur: Strukturní faktor, elektronová hustota a fázový problém Strukturní faktor – popisuje amplitudu difraktované vlny ( )[ ] ( ) F i d i d f i M j j j N V j j j j j j j j N Vj N ( ) ( )exp( . ) ( )exp . ( )exp . * * * * * r r r r r r R r r R R r r r = − = = + = = == ∑∫ ∑∫∑ ρ π ρ π π 2 2 2 1 11 Uvedená suma/integrál = Fourierova transformace (FT). Analogicky k tomu je krystalová elektronová hustota obráceným Fourierovým obrazem strukturních amplitud ( ) [ ]ρ π π( ) ( )exp . exp ( )* * * , ,* r r r r r= − = − + + =−∞ +∞ ∑∫ F i d V F i hx ky lzhkl h k lV 2 1 2 Fázový problém – neměříme strukturní amplitudy, ale intenzity difrakcí, neznámé amplitudy (resp. fáze amplitud) se musí určit/dopočítat Fázový problém • hlavní cíl – zjistit 3-D model studované (makro)molekuly • mezicíl – určit při difrakčním experimentu ztracenou informaci o fázích strukturních amplitud a poté pomocí FT spočítat mapy elektronových hustot • nejjednodušší metoda – fázový problém vůbec neřešit, využít podobnost studovaného sytému se systémem s již známou 3-D strukturou=modelem (metoda MR, Molecular Replacement, molekulové nahrazení) a fáze počítat na základě tohoto modelu • stačí jedno měření • je nutná relativně vysoká 3-D podobnost mezi modelem a studovaným systémem (indikátor podobnosti – 1-D podobnost: identita AA cca 30% a lépe, podobnost AA 50% a víc) FH – strukturní amplituda = komplexní vektor φH – fáze = úhel vektoru FH vůči reálné ose Schéma MR Nehledáme jednotlivé fázové úhly φH , ale pozici modelu v krystalu =3 rotace + 3 posuvy modelu Fázový problém a deriváty proteinů V proteinových krystalech existují makroskopicky dlouhé „kanály“ rozpouštědla (krystalograficky neuspořádané vody) umožňující difúzi cizích „malých“ molekul do celého objemu krystalu Terciální struktury globulárních proteinů mohou být až natolik stabilní, že je chemická interakce proteinů s „malými“ molekulami „příliš“ neovlivní Dobrá „derivující“ molekula – silný vliv na strukturní amplitudu („těžké“ atomy, kovy), malý vliv na 3-D strukturu proteinu (=isomorfní deriváty) Hledání dobrých protein. derivátů je experimentálně pracné. Je nutné znát odpovědi mj. na otázky: Jak koncentrovaný roztok použít? Jaké molekuly s jakým centr. atomem? Jak dlouho to má na krystal působit? … Fázový problém: metody používající deriváty proteinů Jeden (single) derivát: SIR, Single Isomorphous Replacement = jednoduché isomorfní nahrazení Vektorové znázornění: Známe velikost strukturní amplitudy pro nativní a derivovaný protein FP a FPD, můžeme určit/ spočítat velikost i směr FD (příspěvku těžkého kovu), hledáme neznámé úhly φP Jednoznačné řešení - několik (Multiple) derivátů a několik měření: MIR, Multiple Isomorphous Replacement = vícečetné isomorfní nahrazení MAD/SAD, Multi/Single wavelength Anomalous Dispersion MAD/SAD - experimentálně relativně jednoduché řešení fázového problému Opakované měření na jediném krystalu využívající spektrální závislosti (=disperze) rozptylových vlastností prvků. Změna vlnové délky = synchrotron Vhodný prvek: Se (SeMet), S (S-S můstky), kovy v metaloproteinech, … Zpřesňování proteinů: omezené množství dat Rozlišení Počet nezáv. Poměr počtů reflexí reflexí a proměnných [ Å ] {x,y,z} {x,y,z,B} 40.0-3.0 3500 0.8 - 40.0-2.5 6800 1.6 1.2 40.0-1.9 13500 3.1 2.3 40.0-1.5 29800 6.8 5.1 40.0-1.2 58800 13.3 10.0 40.0-1.0 81300 18.5 13.8 •Protein s 182 AA, 40% solventu a 1468 atomy •+/- 4500 souřadnic, 6000 proměnných včetně faktorů B •Parametr B - teplotní kmity (=započtení neurčitosti/neuspořádanosti) Geometrická limitace počtu měřitelných dat – měříme jen do určitého (max.) difrakčního úhlu Zpřesňování proteinových struktur • Experimentální proměnné – difrakce • Modelová funkce – strukturní amplituda • Startovní strukturní model (z MR) a/nebo mapa el. hustoty (získaná po vyřešení fázového problému) • Kritérium správnosti – R faktory Možné problémy: • Limitovaný počet pozorování daný rozlišením experimentu • Nelineárnost problému – iterativnost, konvergence • Lokální vs. globální minima • „Přefitování“ (možnost biologicky nesmyslného “řešení“ obsahujícího (jen) molekuly H2O) Limit. počet dat: snížení počtu proměnných • „constrained“ minimalizace: • „Tvrdé“ vazební podmínky • Triviální aplikace – operace symetrie pro S.G. vyšší než P1 • „rigid body refinement“ + volné proměnné popisující AA • příklad: 17 atomový fragment fenylalanin-alanin • 51 vs 11 parametrů • aplikace – zpřesňování el. hustoty X C X c= ′ +. Limit. počet dat: zvýšení počtu „pozorování“ • „měkké“ vazební podmínky • „restrained“ minimalizace – využití nekrystalografických dat • popis pomocí „tolerancí“ • chemická „energie“ popisující vzdálenosti, úhly, planarity, … • zdroj dodatečných. údajů – strukturní databáze, spektrální data, QM výpočty • 2 stupňové zpřesňování – generování chem. informace + minimalizace rozdílů model/experiment • váhové koeficienty, současné zpřesňování RTG dat + molekulární mechanika/molekulární dynamika dist Atom Atom D D( , ) ( )1 2 = ± σ ( )S W w d dD D j j IDEAL j MODEL j = −∑ , , 2 Zpřesňování proteinových struktur: minimalizace • Krystalografie malých molekul – metoda nejmenších čtverců • Taylorův rozvoj kolem minima se členy 1. řádu vede na soustavu lineárních rovnic Zdroje nelinearity: • Proteiny – jde doopravdy o rozvoj kolem globálního minima? • Špatně určené startovní fáze => pomalá konvergence ke správnému řešení ( )S w F Fo c 1 2 = −∑ H H H H ( )S w F Fo c 2 2 2 2 = −∑ H H H H ( ) ( )S w F F x x Wi i c i k k k = −         = − −∑∑ − H H H H F AX F AX∆ ∆ δ δ 2 1 Iterativní zpřesňování proteinů Startovní model Minimalizace K Výpočet nových strukturních faktorù Výpočet nových map elektronové hustoty Manuální úprava modelu Iterativní zpřesňování proteinů φk φk+2 ρ k+1 φk+1 ρk „Reciproký“ prostor = prostor po FT „Přímý“ prostor, prostor atomových souřadnic + elektron. hustot Elektronová hustota vs 3-D model Kritériua správnosti 3-D modelů