Predikce molekuly z hmotnostního spektra Adam Hájek, Aleš Křenek, Filip Jozefov Sitsem, 14.9.2023, Telč 1/25 ! Cesta zpátky ...aneb důvod, proč jsme šli tam • Pomocí techniky plynové chromatografie a hmotností spektrometrie změříme spektrum vzorku 2/25 ! Cesta zpátky ...aneb důvod, proč jsme šli tam • Pomocí techniky plynové chromatografie a hmotností spektrometrie změříme spektrum vzorku • ze spektra se snažíme získat strukturu molekuly (vzorec) 3/25 ! Standardní přístup • Podobnostní vyhledávání v databázi naměřených spekter • Problém, pokud v databázi daná molekula není (de novo predikce) 4/25 ! Standardní přístup • Podobnostní vyhledávání v databázi naměřených spekter • Problém, pokud v databázi daná molekula není (de novo predikce) • Databáze NIST • málo kvalitních spekter • 260k unikátních molekul • řídké porkytí chemického prostoru (odhadem 1060 možných molekul) 4/25 ! Standardní přístup • Podobnostní vyhledávání v databázi naměřených spekter • Problém, pokud v databázi daná molekula není (de novo predikce) • Databáze NIST • málo kvalitních spekter • 260k unikátních molekul • řídké porkytí chemického prostoru (odhadem 1060 možných molekul) • Více dat umožní predikci molekul mimo databázi • Více dat umožní trénink větších modelů • Proto "Cesta tam" 4/25 ! Fragmentační metody GC-MS • Jednofázová fragmentace (MS) • molekula je ionizovaná a fragmentovaná pouze jednou • námi zvolená metoda • Dvoufázová fragmentace (MS/MS, tandemová spektrometrie) • dva (nebo více) spektrometrů spojených za sebou • po první fragmentaci získáváme spektra tzv. prekurzorů (větší odlomky molekuly) • prekurzory jsou dále fragmentovány v dalším přístroji • k dispozici je více informace o vzorku 5/25 ! Přístupy pomocí ML • DeepEI • Hongchao Ji et. al, 2020, https://doi.org/10.1021/acs.analchem.0c01450 • spektrum → fingerprint, dále databázové vyhledávání • metoda fragmentace molekul MS • MassGenie • Aditya D. Shrivastava et. al, 2021, https://doi.org/10.3390/biom11121793 • spektrum → SMILES, encoder-decoder transformer • metoda fragmentace molekul MS/MS • model ani kód nejsou veřejné • Spec2Mol • Eleni E. Litsa et. al, 2023, https://doi.org/10.1038/s42004-023-00932-3 • spektrum → SMILES, CNN encoder, GRU decoder • metoda fragmentace MS/MS 6/25 ! Náš přístup k problému ...cesta zpátky • Metoda neurálního překladu spektrum → SMILES • Encoder-decoder transformer architektura • Autoregresivní generování SMILESU (podobně jako u přirozeného jazyka) 7/25 ! Vstup a výstup modelu ...cesta zpátky 8/25 ! Vstup a výstup modelu ...cesta zpátky • vstup • vektor m/z hodnot [70,84,98,100,112,115,129,155,182,196,210,224,225,253,268,281,296,2,2,2,2,2,2,2,2] • vektor intenzit [7,6,6,9,6,7,9,8,9,8,8,9,7,6,9,4,8,-1,-1,-1,-1,-1,-1,-1,-1] • výstup • tokenizovaný SMILES: [3, 1234, 224, 276, 11, 70, 20, 280, 286, 12, 286, 11, 38, 289, 38, 12, 38, 12, 50, 0, 2, 2, 2] → SMILES v textové podobě [CCC(c1ccc(cc1OC)OC(C)(C)C)O] 9/25 ! Architektura ...cesta zpátky 10/25 ! Náš přístup k problému ...cesta tam a zase zpátky 11/25 ! Náš přístup k problému ...cesta zpátky 12/25 ! Náš přístup k problému ...cesta zpátky 13/25 ! Náš přístup k problému ...cesta zpátky 14/25 ! Náš přístup k problému ...cesta zpátky 15/25 ! Trénink na více datasetech Myšlenka: každý dopředný model může pokrývat část dovednosti, kterou chceme zpětný model naučit • Trik ze strojového překladu • První token v sekvenci označuje dopředný model • např. , 16/25 ! Trénink na více datasetech Myšlenka: každý dopředný model může pokrývat část dovednosti, kterou chceme zpětný model naučit • Trik ze strojového překladu • První token v sekvenci označuje dopředný model • např. , • Data z různých zdrojů se v hlavičce transformeru nebijí • ‘feature extraction’ ze spekter je společná • generování SMILESu je podmíněno informací o zdroji 16/25 ! Trénink Pretraining • Velká datová sada chemických formulí (ZINC) • Spektra vygenerovaná dopřednými modely • Učení "do šířky" Finetuning • Malá datová sada (NIST) • Čistá naměřená spektra • Učení "do hloubky" 17/25 ! Experimenty ... přehled natrénovaných modelů Pretraining Finetuning None NIST 4.8M NEIMS NIST 4.8M RASSP NIST 4.8M RASSP + 4.8M NEIMS * 30M NEIMS NIST Tabulka: Přehled natrénovaných modelů 18/25 ! Experimenty Pretraining • model trénovaný na RASSPu dosahuje za stejný čas vyšších validačních hodnot → lepší konzistence dat 19/25 ! Experimenty Finetuning • předtrénované modely mají vyšší konvergenční hladinu a mají menší sklon k overfittingu • více dat při pretrainingu pomáhá 20/25 ! Experimenty Pretraining Pretraining Finetuning NIST cosine similarity None NIST 0.60 4.8M NEIMS NIST 0.64 4.8M RASSP NIST 0.67 4.8M RASSP, 4.8M NEIMS NIST - 30M NEIMS NIST 0.69 21/25 ! Experimenty Ukázky predikcí, aneb najdi pět rozdílů 22/25 ! Experimenty Ukázky predikcí, aneb najdi pět rozdílů 23/25 ! Další cíle • Experimenty s mixováním datasetů • Využití dalších dopředných modelů • Srovnání výsledků modelu s podobnostním vyhledáváním na de novo datech • Větší modely 24/25 ! Zdroje obrázků • https://www.mooreanalytical.com/gc-ms/ 25/25