Pokročilá chemoinformatika •Úvod do QSAR/QSPR modelovaní únor 2017 QSAR a QSPR modely – základní principy (Q)SAR a QSPR •SAR a QSAR •(Quantitative) Structure-Activity Relationship •modely pro predikci aktivity (účinnosti) chemických látek na konkretní protein nebo jinou biomolekulu •kvalitativní nebo kvantitativní modely •QSPR •(Quantitative) Structure-Property Relationship •modely pro predikci fyzikálně chemických vlastností molekul Ukázka QSAR – predikce toxicity = f ( ) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2796713/ https://academic.oup.com/toxsci/article/56/1/8/1646041/The-Practice-of-Structure-Activity-Relations hips Ukázka QSPR – predikce disociační konstanty = f ( ) pKa https://jcheminf.springeropen.com/articles/10.1186/1758-2946-5-18 Princip QSAR a QSPR modelů Chemoinformatický nástroj pro výpočet aktivity nebo vlastností na základě struktury Obecné schéma: Tělo člověka struktura Číselný popis (deskriptory) Aktivita (vlastnost) = funkce (deskriptory) Ilustrativní příklad ze života: Výška a váha BMI = váha / výška2 BMI (Body Mass Index): Podváha: BMI < 18,5 Obezita: BMI > 30 Příklad reálné aplikace: 3D struktura molekuly Náboje na atomech pKa = cH.qH + cO.qO + cC1.qC1 Kde cH, cO a cC1 jsou parametry modelu C:\Users\ischemy\Desktop\číslování.png qH qO qC1 Molekula, její struktura, deskriptor a model C:\Users\ischemy\Desktop\číslování.png molekula a její struktura matematická, logická nebo statistická operace 4.6 deskriptory black box 8.2 -100 model Tvorba modelu - schématicky datová sada tréninková sada testovací sada model tvorba modelu validace modelu Tvorba modelu – best practicies http://onlinelibrary.wiley.com/doi/10.1002/minf.201000061/abstract Studijní materiály > Články > QSAR_best_practices.pdf Datová sada •molekuly a jejich experimentální aktivita nebo vlastnost, kterou hodláme predikovat •struktura molekuly (nejméně SMILES) •další kriteria na datovou sadu: •sada je dostatečně rozsáhlá •molekuly jsou dostatečně chemicky různorodé •hodnoty vlastnosti nebo aktivity musí být dostatečně různorodé • Základní aspekty čištění datové sady •kontola molekul •odstranění duplicitních struktur •odstranění nadbytečných informací ze struktury •validace struktur (vazebné délky, počet vazeb, …) •kontrola vlastností •správnost přiřazení, … Čištění datové sady Kriteria kvality modelů Kvalita QSAR/QSPR modelů •kvalitu modelu můžeme posuzovat podle dvou kritérií ①kvalitu modelu na tréninkové sadě dat •reprodukce – data byla použita pro naučení modelu •jak moc dobré modely jsme připravili? ②kvalitu modelu na testovací sadě dat •predikce (na nových datech) – data nebyla použita na parametrizaci modelu •jaká je predikční sada molekul? Kvalita QSAR/QSPR modelů reprodukce a predicke nekvalitní model na tréninkové sadě dat kvalitní model na tréninkové sadě dat nekvalitní model na testovací sadě dat – špatně rozdělené sady, “overfiting” neboli přeučení = použito příliš moc deskriptorů kvalitní model na testovací sadě dat – KVALITNÍ MODEL Kvalita QSAR/QSPR modelů – přeučení Kvalita na základě chyb modelu •chyby, rozdíly mezi predikovanou a naměřenou hodnotou = residua, nevysvětlitelná část modelu • • • • •vyjadřujeme pomocí R2, adjR2, RMSE, MAE a F latex-image-1.pdf Pearsonův korelační koeficient – vzorec latex-image-1.pdf Nabývá hodnot od -1 do 1. Pearsonův korelační koeficient – ukázka Koeficient determinace R2 – definice •Leží v intervalu <0;1> a udává jaký podíl rozptylu v pozorování závislé proměnné se podařilo regresí vysvětlit (vetší hodnoty znamenají větší úspěšnost). •Možná interpretace koeficientu R2 je z kolika procent vysvětlují regresory (deskriptory) hodnotu závisle proměnné (predikované aktivity/vlastnosti). Koeficient determinace R2 – vzorec latex-image-1.pdf Korigovaný koeficient determinace adjR2 •pokud do modelu přidáme deskriptor, hodnota R2 nemůže klesnout, proto se někdy používá tzv. korigovaný koeficient determinace (adjusted coefficient of determination), který zohledňuje počet deskriptorů latex-image-1.pdf RMSE root mean square error (deviation) latex-image-1.pdf MAE mean absolute error latex-image-1.pdf Test významnosti modelu F latex-image-1.pdf Předpokládané hodnoty pro kvalitní modely •Kvalitní model by měl splňovat tato kritéria: •vysoké hodnoty R2 (>0.8) a F •nízké hodnoty RMSE a MAE • Rozdělění datové sady - terminologie datová sada tréninková sada testovací sada model tvorba modelu validace modelu R2 Q2 predikce reprodukce Křížová validace Cross validation •v případě menší sady molekul •nejčastěji se používá tzv. k-fold cross validation; příklad 5-fold: