Pokročilá chemoinformatika •Lineární modely únor 2017 První QSAR modely Historie •První QSAR modely využité pro popis biologické aktivity: • • • •Kde: •C je koncentrace nutná pro vyvolání reakce •log P je rozdělovací koeficient •s je Hammetův parametr •Publikováno pány Hanschem a Fujitou v letech 1964 - 1969 • •3 Metody tvorby QSAR/QSPR modelů Metody tvorby modelů •lineární, logistická, zobecněná regrese •MLR (Multiple Linear Regression) •KNN (K-Nearest Neighbors) •Decision Tree a Random Forest •ASNN (ASsociative Neural Networks) •Naive Bayes •Support Vector Machine Regrese Rplot.png Lineární regrese •proměnné x a y, hledáme takové a a b, které nejlépe popiše vzájemný lineární vztah • y = ax + b •Používáme metodu nejmenších čtverců pro minimalizaci výsledné sumy vzdálenosti bodů od přímky •Požadavek na normální rozložení dat! Lineární regrese – výpočet parametrů •Při hledání parametrů a a b potřebujeme znát sadu hodnot x a y (hodnoty deskriptorů a vlastností: Lineární regrese – Excel a Calc •V Excelu a Calcu (LibreOffice a OpenOffice.org) lze koeficient a zjistit funkcí SLOPE(Y; X) a konstantu b funkcí INTERCEPT(Y; X). •Případně lze oba koeficienty zjistit maticově zadanou funkcí {=LINEST(Y;X)}. V českém Excelu se tato funkce nazývá LINREGRESE. Lineární regrese v R •dataset = read.csv(“filename.csv”, sep = ”;”) model = lm(Y~x, data = dataset) model plot(model) Proč více proměnných (regresorů, deskriptorů) v modelu? Více deskriptorů v modelu - důvod Více rozměrné modely Vícerozměrné modely •QSAR/QSPR modely jsou popsány rovnicí: • •A = p1.d1 + p2.d2 + p3.d3 + … + pn.dn + pn+1 • •Kde: •p1, p2, …, pn+1 jsou parametry modelu •pn+1 je intercept •d1, d2, …, dn jsou deskriptory (nezávislé proměnné, regresory) •A je predikovaná aktivita případně vlastnost • Vícerozměrné modely – maticový zapis Vícerozměrné modely – výpočet koeficientů Vícerozměrné modely •Obecně: • •kde ε je chyba, residuum •tuto chybu se snažíme minimalizovat a označit jako nezávislou chybu Vizualizace chyby v quantilech – QQ plot Odlehlé a pákové body •Jedná se o pozorování nebo měření, která nezapají do modelu. •Jejich residuální chyba je příliš velká. Odlehlé body (outliers) •Mohou nepříjemně ovlivňovat kvalitu modelu. •Můžeme jejich hodnoty odstranit nebo přeměřit/ověřit. •Můžeme ověřit jestli například nepatří tyto molekuly do stejné skupiny a vyřadit tuto skupinu. •Detekce na základě velikosti chyby – residua. Pákové body (leverage points) •Podobně jako odlehlé body nezapadají do modelu a mají vysokou hodnotu chyby. •Tyto hodnoty bohužel velice zásadně ovlivňují kvalitu modelu. •Detekce pomocí Cookovi vzdálenosti. Rozdíl mezi odlehlým a pákovým bodem leverage outlier Logistická regrese •Výsledek nabývá hodnot v rozsahu <0;1> • •Vícerozměrově • • •⍺ a β jsou parametry modelu Logistická regrese - graficky Kvalita logistické křivky - ROC •ROC (Receiver Operating Characteristic) křivka je nástroj pro hodnocení a optimalizaci binárního klasifikačního systému (testu), který ukazuje vztah mezi specificitou a senzitivitou daného testu nebo detektoru pro všechny přípustné hodnoty prahu. Specificita a senzitivita https://www.dropbox.com/s/jv93rhtwuboosag/Screenshot%202017-02-03%2016.48.14.png?dl=0 Interagující regresory Interakce regresorů (deskriptorů) •Y – závislá proměnná •x1 a x2 nezávislá proměnná •Y = aᐧx1 + bᐧx2 + z Y = aᐧx1 + bᐧx2 + cᐧx1ᐧx2 + z Y = aᐧx1 + cᐧx1ᐧx2 + z • V Rku: Y ~ x1 + x2 Y ~ x1*x2 Y ~ x1 + x1:x2