Pokročilá chemoinformatika •Databáze, chemický prostor •únor 2017 Chemické databáze Chemické databáze •Informace o molekulách, struktury molekul, vlastnosti, aktivity, … •PubChem •DrugBank •ZINC •ChEMBL •ChemSpider •PHYSPROP http://esc.syrres.com/fatepointer/search.asp PubChem DrugBank ZINC ChEMBL ChemSpider PHYSPROP PDB databáze Velikost základních chemických databází •    Chemický prostor (chemical space) Práce s chemickým prostorem Formáty pro ukládání chemických, chemoinformatických a bioinformatických dat Alchemy, Boogie, Cambridge CADPAC, Chem3D Cartesian 1, CSD CSSR, CSD GSTAT, Free Form Fractional, Gaussian Z-Matrix, Hyperchem HIN, Mac Molecule, Micro World, MM2 Ouput, MMADS, MOLIN, Mopac Internal, PC Model, Quanta, Spartan, Spartan Mol, Sybyl Mol2, Maccs 2d, UniChem XYZ, XED, AMBER PREP, Biosym , Cacao Cartesian, CHARMm, Chem3D Cartesian 2, CSD FDAT, Feature, GAMESS Output, Gaussian Output, MDL Isis, Macromodel, MM2 Input, MM3, MDL MOLfile, Mopac Cartesian, Mopac Output, PDB, ShelX, Spartan Semi-Empirical, Sybyl Mol, Conjure, Maccs 3d, XYZ Formáty pro ukládaní struktury mokul •MOL (V2000, V3000), SDF http://c4.cabrillo.edu/404/ctfile.pdf •MOL2 •PDB, mmCIF •XYZ •Smiles a InChI, InChIKey •ASN.1 (textový a binární formát pro molekuly v PubChemu) Formáty pro ukládaní informací •SDF •csv •XML MOL (V2000) MOL (V3000) Simplified molecular-input line-entry system SMILES •vodíky (které mohou být snadno dopočítány, například v alkanech) se v notaci vynechávájí a dopočítávají se •atomy jdoucí za sebou jsou spojeny jednoduchou vazbou příklady: C (metan), CC (ethan), ..., CO (H3COH, methanol) •dvojná vazba je znázorněna “=” a trojná “#” příklady: C=C (ethen), C=O (formaldehyd), C#C (ethyn), C#N (kyanovodík) •pomocí závorek “()” znázorňujeme větvení X(YW)Z... - na X je jednoduchou vazbou navázano Y a Z, Y a W jsou spojeny jednoduchou vabou, mezi Y nebo W a Z není žádná vazba příklady: CC(CC)CCC (2-ethylpentan), CC(Cl)C (2-chloropropan), CC(=O)C (aceton) •pomocí čísel jsou označovány kruhy: C1 .... C1 (začátek a konec kruhu) příklady: C1CCCCC1 (cyklohexan), C1OC1 (oxiran) •malými písmeny označujeme aromatické atomy příklady: c1ccccc1 (benzen), n1ccccc1 (pyridin) •[NH] explicitně vyjadřený vodík, [O-] vyjádřený ion, [C@@H] vyznačená chiralita, ... •tutoriál v angličtině: http://www.daylight.com/meetings/summerschool98/course/dave/smiles-intro.htm International Chemical Identifier InChI & InChIKey •Podobně jako SMILES se jedná o textový zápis molekuly, který se skládá z několika vrstev, které nemusí být vždy všechny zastoupeny • • • •INCHIkey je pak hash INChI z InChIKey nelze zpětně vytvořit InChI! Nástroje pro práci se strukturami molekul OpenBabel •Chemoinformatický nástroj pro práci s různými formáty molekul a dalšími pomocnými nástroji •https://openbabel.org •Pro práci na wolfech použijte: module add openbabel • OpenBabel - konverze různých formatů •Spouštíme v příkazové řádce pomocí obabel nebo babel •Seznam podporovaných formátů babel –L formats •Převod struktury mezi různými formáty (2.31) obabel –ixxx molecule.xxx –oyyy -O molecule.yyy kde xxx je vstupní a yyy je výstupní format molekuly •Převod struktury mezi různými formáty (<2.31) obabel –ixxx molecule.xxx –oyyy molecule.yyy • OpenBabel - konverze různých formatů (windows) OpenBabel – přiložení dvou struktur •Spouštíme v příkazové řádce pomocí obfit •program obfit potřebuje celkem 3 parametry, vzor, podle kterého bude přikládat (SMILES) a dvě struktury, první zafixuje a druhou se snaží hýbat •obfit “N1([C@@H](CCC1)c1cccnc1)C” CID_89594.sdf zinc_1798.sdf • Fingerprinty a podobnost Podobnostní hledání Fingerprint •Binární data informující o výskytu nějaké konkretní skupiny •10010001010011110101001010001 … •Příklad z openBabelu: >3rfm.pdb 256 bits set 0407002a 81807e18 60180100 47910f50 041c12c0 0200c110 0200a020 2000200c 86600b80 820f4be2 2c30800c 5007b800 1e01983e 01542801 853a00c0 001c000c 14801000 0e088001 00e02418 404e2301 e0000d40 383d8e78 238007c3 9770001c 00043801 c0a00200 68120600 10040100 0c004016 0046803b e00c4200 23c12ea0 Podobnost/vzdálenost Podobnostní koeficienty Podobnostní hledání v OpenBabelu •babel mysmiles.smi mymols.sdf -ofpt MOL_00000067 Tanimoto from first mol = 0.0888889 MOL_00000083 Tanimoto from first mol = 0.0869565 MOL_00000105 Tanimoto from first mol = 0.0888889 MOL_00000296 Tanimoto from first mol = 0.0714286 MOL_00000320 Tanimoto from first mol = 0.0888889 MOL_00000328 Tanimoto from first mol = 0.0851064 MOL_00000338 Tanimoto from first mol = 0.0869565 MOL_00000354 Tanimoto from first mol = 0.0888889 MOL_00000378 Tanimoto from first mol = 0.0816327 MOL_00000391 Tanimoto from first mol = 0.0816327 11 molecules converted Podobnostní hledání v PubChemu