QSPR II Pokročilá chemoinformatika PARAMETRIZACE Parametrizace neboli učení modelu • lineární, logistická, zobecněná regrese • MLR (Multiple Linear Regression) • KNN (K-Nearest Neighbors) • Decision Tree • ASNN (Associative Neural Networks) • Naive Bayes Lineární regrese • proměnné xay, hledáme takové a a b, které nejlépe popise vzájemný lineární vztah y = ox + b_ • Používáme metodu nejmenších čtverců pro minimalizaci výsledné sumy vzdálenosti bodů od přímky X MLR - princip multilineární regrese MLR-důvod multilineární regrese \\// MI, R v o bad model |_ good model \^\ model r log l/C = 0.009 Es + 3.411 0.03 log l/C = -0.626 a+3.314 0.27 log l/C = -0.078 logP + 3.432 0.38 log l/C = -0.210 logP - 2.214 a + 3.154 0.80 log l/C = 0.21 Es - 0.238 logP - 3.81 a + 3.046 0.95 MLR - maticový zápis multilineární regrese Y = biXi + b2x2 + b3x3 + ... + bmxm + e m y = Zj bJxj+ e Matrix notation: Y=x7b + e MLR-hledáme b I multilineární regrese MLR-hledáme b II multilineární regrese The transposed of the original descriptors matrix. A transposed The M« indicates matrix replaces columns with ma+rjx JnversJon rows and vice versa. b = (XrX)1Xry (2) í í Í The unknown vector The original The known vector of coefficients descriptors matrix of activities KNN (K-Nearest Neighbors) Algoritmus k-nejbližších sousedů patří mezi nejjednodušší "machine lerning algoritmy může sloužit ke klasifikaci nebo predikci pokud budeme klasifikovat zelené kolečko podle 3-KK (bereme v úvahu 3 sousedy) bude patřit do trojúhelníků, a V v 5-KK do čtverců v případě regrese se hodnota B bude počítat na základě nejbližších sousedů a vzdálenosti ▲ Decision Tree Rozhodovací stromy • může sloužit ke klasifikaci (classification trees) nebo predikci (regression trees) • V těchto stromových strukturách představují listy (leafs) třídy a větve představují spojky mezi třídami. yěš] is sex male? HjjH (died) is sibsp > 2.5? 0.17 61% Zdroj: wiki | A tree showing survival of passengers on the Titanic ("sibsp" is the number of spouses or siblings aboard). The figures under the leaves show the probability of survival and the percentage of observations in the leaf. 0.05 2% 0.89 2% Decission tree - příklad predikce mutagenity < 0.015 32 polycyclic aromatic hydrocarbons (PAH) < 0.3325 < 0.2045 Gs >0.3325 Gs >0.2045 R5m+ >0.015 Mut Non-Mut Non-Mut Mut Gs: G total symmetry index/weighted by atomic electrotopological states (3D-WHIM descriptor) R5m+: R maximal autocorrelation of lag 5/weighted by atomic masses (3D-GETAWAY descriptor) Zdroj: P. Gramatica, E. Papa, A. Marrocchi, L. Minuti, A. Taticchi, Ecotoxicology and Environmental Safety 2007, 66(3), 353-361. ASNN (Associative Neural Networks) • Statistické metody používají informace a učeni . • Mozek ale nepotřebuje žádné statistické metody pro učení. • Neuronové sítě simulují nervový systém za použití algoritmů a matematických modelů. NN-black box? input A black box ? NN-black box? NE! spojene funkční jednotky NEURONY Biologický neuron Dendrites 3 Axon terminal Cell body The human nervous system has ca. 1015 neurons. Transmission of an electric signal between dendrites and axons occurs through the transport of ions. Biologický neuron Neurons in the superficial layers of the visual cortex in the brain of a mice. PLoS Biology Vol.4, No. 2, e29 DOI: 10.1371/journal.pbio.0040029 Co je důležité pro neurony? SÍŤ (NETWORK) Co je důležité pro neurony? Přenos signálu Signal s received from a previous neuron Synapse with weight w Signal p arriving at the neuron after crossing a synapse In artificial neurons, the synaptic strength is called weight. Synapse a učení • Učení a pamět jsou považovány za výsledek dlouhodobých změn synaptické síly. • V umělých neuronových sítích dochází k učení opravou váhy. sítě Input data Input layer | Hidden layer Output layer KVALITA MODELŮ Kvalita QSPR modelů I • kvalitu modelu můžeme posuzovat podle dvou kritérií (l)kvalitu modelu na tréninkové sadě dat - reprodukce - data byla použita pro naučení modelu - jak moc dobré modely jsme připravili? @kvalitu modelu na testovací sadě dat - predikce (na nových datech) - data nebyla použita na parametrizaci modelu - jaká je predikční sada molekul? Kvalita QSPR modelů II nekvalitní model na tréninkové sadě dat kvalitní model na tréninkové sadě dat nekvalitní model na testovací sadě dat — špatně rozdělené sady, "overfiting" neboli přeučení = použito příliš moc deskriptorů kvalitní model na testovací sadě dat — KVALITNÍ MODEL Kvalita QSPR modelů III Reproducibility Predictibility equation tailored to training set Complexity level Kvalita QSPR modelů IV • na základě chyb modelu • = residua, nevysvětlitelná část modelu 10 9 8 v 7 6 5 0 1 2 3 4 5 pexp pcalc X j (3I*I*OI* _ i ycocp j yccX/L c • • • pKaexp • • • • • • error 10.0 • • • 10.1 • • • -0.1 • • • vyjadřujeme pomocí R2, adjR2, RMSE, MAE a F Pearsonův korelační koeficient I Upcalc _ pcalc^ . ^pexP _ pexp i=l_ N N fpcalc _ pcalc\2 . íp^xp _ peXp\2 i=l i=l pcalc prUměrná vypočítaná hodnota, pexp průměrná experimentální hodnota Nabývá hodnot od -1 do 1. Pearsonův korelační koeficient II Koeficient determinace R21 • Leží v intervalu <0;1> a udává jaký podíl rozptylu v pozorování závislé proměnné se podařilo regresí vysvětlit (vetší hodnoty znamenají větší úspěšnost). • Možná interpretace koeficientu R2 je z kolika procent vysvětlují regresory (deskriptory) hodnotu závisle proměnné (predikované vlastnosti). Koeficient determinace R2 II Residual sum of squares: RSS = Eti error2 = Ef=i(^dc - P?*? Total sum of squares: TSS = J2Zi(PiXP ~ Pexpf Explained sum of squares: ESS = (pPaZc — pcaicy, R2 ESS ~ TSS RSS TSS T,i=i(Prc- pcalc^2 X^N / pcalc _ pfxpy, pexp^2 Ef=1 (pr _ pexp^2 Korigovaný koeficient determinace adjR2 pokud do modelu přidáme deskriptor, hodnota R2 nemůže klesnout, proto se někdy používá tzv. korigovaný koeficient determinace (adjusted coefficient of determination), který zohledňuje počet deskriptorů -9 , «N N - 1 R2 = 1 - (1 - R2)--- v JN-k-l kde N je velikost sady, k počet deskriptorů RMSE root mean square error (deviation) N MAE mean absolute error (abs(error)) — \error N N i=l Test významnosti modelu F „ N — k + 1 RS S — TS S N-k + 1 R2 F k TS S k 1-R2 Kvalita QSPR modelů V • Kvalitní model by měl splňovat tato kritéria: — vysoké hodnoty R2 (>0.8) a F - nízké hodnoty RMSE a MAE Křížová validace Cross validation v případě menší sady molekul nejčastěji se používá tzv. k-fo\ó cross validation; příklad 5-fold: Stage 1 Stage 2 Stage 3 Stage 4 Stage 5 compounds 1-10 compounds 11-20 compounds 21-30 compounds 31-40 compounds 41-50 Training Training Training Training Training Training Training Training Training Training Training Training Training Training Training Training Training Training raining Training