C7790 Počítačová chemie a molekulové modelování -1- 5. Struktura Petr Kulhánek kulhanek@chemi.muni.cz Národní centrum pro výzkum biomolekul, Přírodovědecká fakulta Masarykova univerzita, Kotlářská 2, CZ-61137 Brno C7790 Počítačová chemie a molekulové modelování I C7790 Počítačová chemie a molekulové modelování -2Konfigurační prostor )( RE R = bod v 3N rozměrném prostoru (N je počet atomů) },,,....,,,,,,{ 222111 NNN zyxzyxzyxR kartézské souřadnice prvního atomu Jednotlivé body tvoří konfigurační prostor. Každý bod v konfiguračním prostoru pak představuje unikátní strukturu daného systému. C7790 Počítačová chemie a molekulové modelování -3Modely – malé molekuly čárový model tyčinkový model CPK model vdW model stejná struktura jiná vizualizace C7790 Počítačová chemie a molekulové modelování -4Modely – biomolekuly čárový model čárový model páteř proteinu cartoon model povrch biomolekuly stejná struktura jiná vizualizace Různé modely slouží k zvýraznění určité strukturní informace nebo vnitřní vlastnosti molekuly či uskupení molekul, které pak usnadňuje snadnější pochopení studovaného problému. C7790 Počítačová chemie a molekulové modelování -5Hrubozrné modely C7790 Počítačová chemie a molekulové modelování -6Počítačová reprezentace struktury Strukturu lze reprezentovat různým způsobem. V chemii se používá více jak 100 formátů, jedná se buď o textové nebo binární soubory. Formát popisuje geometrii systému, jména atomů, skupin atomů, konektivitu mezi atomy (vazby) a další informace. Geometrie systému může být uvedena v:  kartézských souřadnicích  interních souřadnicích  varianty interních souřadnich C7790 Počítačová chemie a molekulové modelování -7Kartézské vs interní souřadnice O -0.180077 -0.046023 -0.062789 H 0.196208 -0.747659 0.498793 O 0.006537 1.047922 0.877207 H -0.931885 1.299156 0.951390 O H 1 0.974298 O 1 1.454349 2 96.868054 H 3 0.974298 1 96.868054 2 239.552651 Kartézské souřadnice Interní souřadnice (Z-matrix) vazebná délka vazebný úhel torzní úhel 3N 3N-6 3N-5 Počet stupňů volnosti: Počet stupňů volnosti: (lineární dvouatomová molekula) x y z C7790 Počítačová chemie a molekulové modelování -8Interní souřadnice 1 O 2 H 1 0.974298 3 O 1 1.454349 2 96.868054 4 H 3 0.974298 1 96.868054 2 239.552651 2-1 4-3 4-3-1 3-1-2 4-3-1-2 vazebná délka (a) vazebný úhel (b) torzní úhel (c) http://www.ccl.net/cca/documents/molecular-modeling/node4.html C7790 Počítačová chemie a molekulové modelování -9Domácí úkol 1. Zamyslete se nad výhodou a nevýhodou reprezentace geometrie systému pomocí kartézských a interních souřadnic. C7790 Počítačová chemie a molekulové modelování -10Formát XYZ počet atomů komentář značka x y z značka x y z ................... značka x y z 24 chorismate C -1.86100 -0.57700 0.31800 O -2.56800 0.47600 0.32600 O -2.20900 -1.75300 0.64200 C -0.38900 -0.41000 -0.18800 ................................................ H -0.50900 1.67900 -0.44800 Formát xyz je textový soubor s volným formátováním (hodnoty ve sloupcích mohou být odděleny libovolným počtem mezer nebo jiných bílých znaků). Formát popisuje pouze geometrii systému, neobsahuje informace o vazbách v systému. Program, který s formátem pracuje, musí tyto informace dopočítat (např. pomocí atomových poloměrů). polohy jsou v angströmech (Å) C7790 Počítačová chemie a molekulové modelování -11Formát PDB .................................................................. ATOM 7 CB SER 1 5.814 16.335 8.213 1.00 0.00 ATOM 8 HB2 SER 1 6.870 16.427 7.958 1.00 0.00 ATOM 9 HB3 SER 1 5.610 16.900 9.123 1.00 0.00 ATOM 10 OG SER 1 5.491 14.946 8.427 1.00 0.00 ATOM 11 HG SER 1 6.026 14.600 9.145 1.00 0.00 ATOM 12 C SER 1 3.604 16.323 6.927 1.00 0.00 ATOM 13 O SER 1 2.605 16.742 7.521 1.00 0.00 ATOM 14 N GLN 2 3.567 15.251 6.134 1.00 0.00 ATOM 15 H GLN 2 4.401 14.914 5.675 1.00 0.00 ATOM 18 CB GLN 2 2.452 13.545 4.753 1.00 0.00 ATOM 19 HB2 GLN 2 3.006 12.696 5.153 1.00 0.00 .................................................................. Formát pdb se používá k ukládání struktur biomolekul a jejich komplexů. klíčové slovo číslo atomu jméno atomu kartézské souřadnice atomu číslo residua jméno residua Formát neobsahuje informace o vazbách v systému. Program, který s formátem pracuje, musí tyto informace dopočítat (na základě templátových struktur). U nestandardních residuích je možné použít klíčové slovo CONECT. v angströmech (Å) C7790 Počítačová chemie a molekulové modelování -12Džungle formátů I acr -- ACR format adf -- ADF cartesian input format adfout -- ADF output format alc -- Alchemy format arc -- Accelrys/MSI Biosym/Insight II CAR format bgf -- MSI BGF format box -- Dock 3.5 Box format bs -- Ball and Stick format c3d1 -- Chem3D Cartesian 1 format c3d2 -- Chem3D Cartesian 2 format cac -- CAChe MolStruct format caccrt -- Cacao Cartesian format cache -- CAChe MolStruct format cacint -- Cacao Internal format can -- Canonical SMILES format. car -- Accelrys/MSI Biosym/Insight II CAR format ccc -- CCC format cdx -- ChemDraw binary format cdxml -- ChemDraw CDXML format cht -- Chemtool format cif -- Crystallographic Information File ck -- ChemKin format cml -- Chemical Markup Language cmlr -- CML Reaction format com -- Gaussian 98/03 Input copy -- Copies raw text crk2d -- Chemical Resource Kit diagram(2D) crk3d -- Chemical Resource Kit 3D format csr -- Accelrys/MSI Quanta CSR format cssr -- CSD CSSR format ct -- ChemDraw Connection Table format cub -- OpenDX cube format for APBS cube -- OpenDX cube format for APBS dmol -- DMol3 coordinates format dx -- OpenDX cube format for APBS ent -- Protein Data Bank format fa -- FASTA format fasta -- FASTA format fch -- Gaussian formatted checkpoint file format fchk -- Gaussian formatted checkpoint file format fck -- Gaussian formatted checkpoint file format feat -- Feature format fh -- Fenske-Hall Z-Matrix format fix -- SMILES FIX format fpt -- Fingerprint format fract -- Free Form Fractional format fs -- FastSearching fsa -- FASTA format g03 -- Gaussian98/03 Output g92 -- Gaussian98/03 Output g94 -- Gaussian98/03 Output g98 -- Gaussian98/03 Output gal -- Gaussian98/03 Output gam -- GAMESS Output gamin -- GAMESS Input gamout -- GAMESS Output C7790 Počítačová chemie a molekulové modelování -13Džungle formátů II gau -- Gaussian 98/03 Input gjc -- Gaussian 98/03 Input gjf -- Gaussian 98/03 Input gpr -- Ghemical format gr96 -- GROMOS96 format gukin -- GAMESS-UK Input gukout -- GAMESS-UK Output gzmat -- Gaussian Z-Matrix Input hin -- HyperChem HIN format inchi -- InChI format inp -- GAMESS Input ins -- ShelX format jin -- Jaguar input format jout -- Jaguar output format k -- Compare molecules using InChI mcdl -- MCDL format mcif -- Macromolecular Crystallographic Information mdl -- MDL MOL format ml2 -- Sybyl Mol2 format mmcif -- Macromolecular Crystallographic Information mmd -- MacroModel format mmod -- MacroModel format mol -- MDL MOL format mol2 -- Sybyl Mol2 format molden -- Molden input format molreport -- Open Babel molecule report moo -- MOPAC Output format mop -- MOPAC Cartesian format mopcrt -- MOPAC Cartesian format mopin -- MOPAC Internal mopout -- MOPAC Output format mpc -- MOPAC Cartesian format mpd -- Sybyl descriptor format mpqc -- MPQC output format mpqcin -- MPQC simplified input format msi -- Accelrys/MSI Cerius II MSI format msms -- M.F. Sanner's MSMS input format nw -- NWChem input format nwo -- NWChem output format outmol -- DMol3 coordinates format pc -- PubChem format pcm -- PCModel Format pdb -- Protein Data Bank format png -- PNG files with embedded data pov -- POV-Ray input format pqr -- PQR format pqs -- Parallel Quantum Solutions format prep -- Amber Prep format qcin -- Q-Chem input format qcout -- Q-Chem output format report -- Open Babel report format res -- ShelX format rsmi -- Reaction SMILES format rxn -- MDL RXN format sd -- MDL MOL format sdf -- MDL MOL format C7790 Počítačová chemie a molekulové modelování -14Džungle formátů III smi -- SMILES format smiles -- SMILES format sy2 -- Sybyl Mol2 format t41 -- ADF TAPE41 format tdd -- Thermo format test -- Test format therm -- Thermo format tmol -- TurboMole Coordinate format txt -- Title format Výše uvedené formáty obsahují většinou kromě 3D/2D struktury také doprovodné informace jako jsou konektivita, parametry silových polí, náboje, různé vlastnosti apod. http://openbabel.org/wiki/Main_Page Open Babel is a chemical toolbox designed to speak the many languages of chemical data. It's an open, collaborative project allowing anyone to search, convert, analyze, or store data from molecular modeling, chemistry, solid-state materials, biochemistry, or related areas. txyz -- Tinker MM2 format unixyz -- UniChem XYZ format vmol -- ViewMol format xed -- XED format xml -- General XML format xtc -- XTC format xyz -- XYZ cartesian coordinates format yob -- YASARA.org YOB format zin -- ZINDO input format OpenBabel prostředí pro konverzi mezi formáty včetně metod pro výpočet celé řady molekulárních vlastností (chemoinformatika) C7790 Počítačová chemie a molekulové modelování -15- 2D versus 3D struktura 2D struktura obsahuje informaci o atomech a vazbách, kterými jsou spojeny. Tato informace popisuje konstituci (topologii) systému. 3D struktura obsahuje informaci o prostorovém rozmístění atomů. Ostatní informace (např. vazby) jsou dopočitatelné. kyselina benzoová C7790 Počítačová chemie a molekulové modelování -16- 3D -> 2D převod 2D struktura obsahuje informaci o atomech a vazbách, kterými jsou spojeny. Tato informace popisuje konstituci (topologii) systému. 3D struktura obsahuje informaci o prostorovém rozmístění atomů. Ostatní informace (např. vazby) jsou dopočitatelné. převod je snadný kyselina benzoová C7790 Počítačová chemie a molekulové modelování -17- 2D -> 3D převod 2D struktura obsahuje informaci o atomech a vazbách, kterými jsou spojeny. Tato informace popisuje konstituci (topologii) systému. 3D struktura obsahuje informaci o prostorovém rozmístění atomů. Ostatní informace (např. vazby) jsou dopočitatelné. převod je komplikovaný kyselina benzoová C7790 Počítačová chemie a molekulové modelování -18- 2D -> 3D převod 2D struktura obsahuje informaci o atomech a vazbách, kterými jsou spojeny. Tato informace popisuje konstituci (topologii) systému. 3D struktura obsahuje informaci o prostorovém rozmístění atomů. Ostatní informace (např. vazby) jsou dopočitatelné. převod je komplikovaný u velkých systémů nemusí být jednoznačný v důsledku existence více konformerů kyselina benzoová C7790 Počítačová chemie a molekulové modelování -19- 2D -> 3D převod, komplikace cyklohexan židličková konformace konformace zkřížená vanička C7790 Počítačová chemie a molekulové modelování -20- 2D -> 3D převod, komplikace zavřená forma enzymu otevřená forma enzymu Stejná primární struktura (sekvence aminokyselin). C7790 Počítačová chemie a molekulové modelování -21Využití 2D struktur Representace molekul ve 2D formátech se využívá převážně pro ukládání informací do databází a jejich prohledávání, dále k předpovědi chemických vlastností molekul pomocí chemoinformatických přístupů. Nejrozšířenější formáty:  SMILES (Simplified Molecular-Input Line-Entry System)  InChI (IUPAC International Chemical Identifier) kyselina benzoová C(=O)(O)c1ccccc1 InChI=1S/C7H6O2/c8-7(9)6-4-2-1-3-5-6/h1-5H,(H,8,9) C7790 Počítačová chemie a molekulové modelování -22Zdroje 3D struktur - experiment Obsahuje zhruba půl miliónu struktur malých molekul určených pomocí rentgenové a neutronové difrakce. Software pro práci s daty: Mercury http://www.ccdc.cam.ac.uk/Solutions/CSDSystem/Pages/Mercury.aspx Cambridge Structural Database (CSD) http://www.ccdc.cam.ac.uk/Solutions/CSDSystem/Pages/CSD.aspx Obsahuje zhruba 94 tisíc struktur biomolekulárních systémů uřčených převážně pomocí rentgenostrukturní analýzy. Protein Data Bank (PDB) http://www.pdb.org Experimentální metoda Proteiny (P) Nucleové kyseliny (NA) P/NA komplexy Jiné Celkově X-ray 77445 1481 4069 3 82998 NMR 8851 1046 193 7 10097 elektronová mikroskopie 469 45 129 0 643 stav v září 2013 C7790 Počítačová chemie a molekulové modelování -23Zdroje 3D struktur – in silico Výpočetní metody  molekulové modelování  homologní modelování http://www.unil.ch/pmf/en/home/menuinst/technologies/homology-modeling.html Homologní modelování In silico modelování se provádí i u experimentálních struktur, které jsou neúplné:  nedostatečné rozlišení – X-Ray  jsou určeny jen částečné strukturní informace - NMR