Detekce biomarkerů z omics experimentů •Mgr. Eva Budinská, PhD •RECETOX •budinska@recetox.muni.cz •Podzim 2023 Predikce skupin (klasifikace) • Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce (skupin)? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza Co je to biomarker? •Biologický marker (biomarker): •Charakteristika, která je objektivně měřena a hodnocena jako indikátor normálních biologických procesů, patogenních procesů nebo farmakologických odpovědí na terapeutický zásah. • Biomarkers Definitions Working Group (March 2001). "Biomarkers and surrogate endpoints: preferred definitions and conceptual framework". Clin. Pharmacol. Ther. (Review). 69 (3): 89–95. Biomarkerem může být Biomarkery a modely •Biomarker může být založen na jediném analytu, nebo na jejich kombinaci v modelu (klasifikátoru) • •Je to právě kombinace více analytů (genů, proteinů, metabolitů…), která je typická pro biomarkery z omicsových dat Jaká je to nemoc? Jaké je riziko onemocnění u zdravého jedince? Jak bude nemoc probíhat? Zhoršuje se nemoc? Jaká je šance, že se nemoc vrátí? Bude terapie úspěšná? Co musí biomarker (nebo model) splňovat Checkmark •Musí být použitelný rutinně v praxi: • •přesný (dostatečně citlivý a dostatečně specifický) •robustní (co nejméně omezen technologií měření) •reproducibilní (obecně platný na cílové populaci) • Absence jasného biologického odůvodnění testů omics biomarkerů – proč je to problém Doporučení IOM komise pro vývoj testů založených na omicsových datech page19image1832064 Jak (ne) predikovat téměř cokoliv Biomarkery jako pomůcky pro diagnostiku, predikci odpovědi na léčbu nebo prognózu ●Používáme metody klasifikace! > > > > > Predikce a klasifikace AML ALL ? • V tomto typu analýzy se snažíme předpovědět příslušnost k jedné ze známých skupin na základě jejich molekulárního profilu • Například určujeme: • diagnózu • odpověď na terapii • přežití pacienta •… • Cílem je vytvořit klasifikační pravidlo (soubor pravidel), které toto umožní • Vytvoření klasifikátoru může sloužit jako nástroj pro selekci genů, které významně diskriminují mezi skupinami > > Princip tvorby klasifikátoru 1. Výběr proměnných pro klasifikaci •Vybíráme geny nebo proteiny, které se v klasifikátoru použijí • 2. Trénování •Na trénovacích datech vytvoříme klasifikační pravidlo (klasifikátor, model) • 3. Testování •Vytvořený klasifikátor se otestuje na testovacích datech •K odhadnutí výkonnosti (přesnosti) klasifikátoru a optimalizaci parametrů > Výběr proměnných I. > Důvody výběru proměnných • •Ze statistického hlediska •Eliminace tisíců nerelevantních genů významně ovlivní komplexitu vybraného klasifikátoru, stane se robustnější. • •Z biologického hlediska •Výběr vhodných genů/proteinů silně korelovaných s danou skupinou pomůže pochopit mechanismus jejich působení. • •Z praktického hlediska •Čím méně genů potřebujeme pro predikci, tím snadnější je uplatnění klasifikátoru v praxi. > > Výběr proměnných II. •U omics dat je výběr proměnných trochu problematický, protože jsou velmi korelované •Výběr jednoho reprezentanta je víceméně náhodný •Malé změny v trénovacích datech, případně aplikace jiného klasifikátoru může vyústit do úplně jiné selekce genů •To je v pořádku, ale pozor na interpretaci! • •Při celkové interpretaci je třeba brát v potaz, že se jedná pouze o podskupinu genů • •Biologické závěry o podskupinách vzorků by měly být založené na studiu celé množiny významných genů > Příklad Je statisticky významně odlišně exprimovaný gen vhodný pro klasifikaci? • > > Metody klasifikace Black-box metody Ke klasifikaci nového vzorku používají celý trénovací soubor. Obvykle nejsou jednoduše interpretovatelné K-nejbližších sousedů Support vector machines Neuronové sítě > Metody vytvářející srozumitelná klasifikačná pravidla Více intuitivní, jednoduše použitelné v praxi Pouze na vybraných proměnných Regresní modely Diskriminační analýza Klasifikační stromy a lesy Top scoring pairs AdaBoost... > > Odhad výkonnosti klasifikátoru I •Výkonnost každého klasifikátoru musí být testována • •Proč odhadovat výkonnost klasifikátoru? •Omezení trénovacím souborem •Bez předpokladu o rozložení neexistuje žádný vzorec pro výpočet velikosti vzorku •Často existuje jen jeden datový soubor pro trénování a testování klasifikátoru • •POZOR - Odhad výkonnosti klasifikátoru na trénovacích datech je VŽDY optimisticky zkreslený proto nutnost testovat na nezávislém souboru > > Odhad výkonnosti klasifikátoru II Základní myšlenka: •Převzorkováním rozdělit (opakovaně) datový soubor na trénovací a testovací, vytvořit klasifikátor na trénovacím souboru a změřit výkonnost klasifikátoru jen na datech, které nebyly použity pro jeho vytvoření (křížová validace) • • • • • •UPOZORNĚNÍ: Všechny kroky, které závisí na převzorkování, a které vedou k finálnímu modelu musí být zopakované identicky na každém rozdělení na trénovací a testovací soubor. •Patří sem například výběr proměnných, trénovaní klasifikátoru, optimalizace parametrů,... > > > > > Trénovací soubor Testovací soubor Původní soubor Zde klasifikátor vytváříme Zde klasifikátor testujeme > Odhad výkonnosti – proč nestačí křížová validace •Každé dva trénovací soubory vytvořené z původního datového souboru s pomocí převzorkování se do jisté míry překrývají -> vytvořené klasifikátory tedy nejsou úplně nezávislé • •Variabilita je obvykle podhodnocená •NUTNOST TESTOVAT NA JINÉM VALIDAČNÍM SOUBORU > Co získáme odhadem výkonnosti? •Zjistíme očekávanou výkonnost klasifikátoru na validačním, nebo jakémkoliv jiném souboru! • •Můžeme identifikovat nejstabilnější proměnné (geny/proteiny) – tedy ty, které jsou vybrány nejčastěji! • •Zjistíme, které vzorky bývají často špatně klasifikované (pokud takové jsou, naznačuje to odlehlé hodnoty) Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (negativní) Nemocný (pozitivní) Skutečnost Zdravý (negativní) Pravdivá negativita (PN) Falešná pozitivita (FP) Chyba I. druhu Nemocný (pozitivní) Falešná negativita (FN) Chyba II. druhu Pravdivá pozitivita (PP) Pozitivní prediktivní hodnota (precision, PPV – positive predictive value) – jaký podíl ze všech klasifikovaných jako nemocných je opravdu nemocných? Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP+PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Senzitivita / Úplnost (sensitivity/recall/TPR - true positive rate) – jaký podíl skutečně nemocných odhalíme? Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP+PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Specificita (specificity) – ze všech, kteří jsou zdraví, jaký podíl byl označen za zdravých? Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP+PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Podíl falešné pozitivity (FPR) – ze všech, kteří jsou zdraví, jaký podíl byl označen za nemocných? Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP+PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP+PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Celková přesnost (accuracy) – jaké procento je správně klasifikováno? Vyhodnocení přesnosti klasifikátoru Vyhodnocení přesnosti klasifikátoru – příklad 1 Klasifikátor Populace Predikce nemocný Predikce zdravý Arrow Straight Arrow Counterclockwise curve Arrow Counterclockwise curve Nemocný Zdravý Klasifikace Zdravý Nemocný Celkem Skutečnost Zdravý 7 0 7 Nemocný 2 1 3 Celkem 9 1 10 Vyhodnocení přesnosti klasifikátoru – příklad 2 Klasifikátor Populace Predikce nemocný Predikce zdravý Arrow Straight Arrow Counterclockwise curve Arrow Counterclockwise curve Nemocný Zdravý Klasifikace Zdravý Nemocný Celkem Skutečnost Zdravý 4 3 7 Nemocný 0 3 3 Celkem 4 6 10 ROC křivka •Receiver operator characteristics (ROC) •Mějme binární klasifikátor který má být založený na nějaké proměnné (například na velikosti exprese genu) •Musíme zvolit hranici exprese genu, která bude rozdělovat vzorky na pozitivní a negativní •ROC křivka ukazuje, jak dobrý klasifikátor jsme schopni na základě této proměnné sestavit z pohledu senzitivity a specificity ROC křivka •Receiver operator characteristics (ROC) •ROC křivka zobrazuje vztah mezi FPR a TPR •AUC – area under curve (plocha pod křivkou) - míra přesnosti testu, vyjadřuje šanci, že model bude schopen rozlišit naše skupiny ROC křivka PP (pravdivá positivita) PN (pravdivá negativita) Dělící hranice Exprese genu 0 0.5 1 0 1 1 0 FPR TPR AUC = 1 Model perfektně diskriminuje ROC křivka PN (pravdivá negativita) PP (pravdivá positivita) FN FP falešná negativita falešná positivita 0 1 1 0 FPR AUC = 0.8 TPR Exprese genu 0 1 ROC křivka 0 1 1 0 FPR AUC = 0.5 TPR Exprese genu 0 1 Model není lepší než hod mincí (proměnná nemá žádnou diskriminační schopnost) ROC křivka FP (falešná positivita) FN (falešná negativita) Dělící hranice Exprese genu 0 0.5 1 0 1 1 0 FPR TPR AUC = 0 Model určuje přesně naopak! ROC křivka •Animace principu (jak se křivka kreslí) • •http://arogozhnikov.github.io/2015/10/05/roc-curve.html • Bez validace není publikace (?) Není validace jako validace Validace samotného výběru biomarkeru na cílové populaci! Validace technologie Validace biologická Validace aplikovatelnosti ●36 nezávislých tímů analytiků z celého světa analyzovalo 6 mikročipových studií a vytvořilo klasifikátory pro predikci 13 endpointů (ER+ vs ER-, ...) ●Každý tým navrhl plán tvorby a validace klasifikátoru ●Tyto plány byly předem posouzeny odbornými statistiky a ohodnoceny dle jejich názoru na škále od 1 do 10 MAQC II – endpointy štúdia endpoint model A Lung tumorigen vs non tumorigen mouse B Non genotoxic liver carcinogens vs non-carcinogens rat C Liver toxicants vs non-toxicants based on overall necrosis score rat D Breast cancer - Pre-operative treatment response (pCR, pathologic complete response) human E Breast cancer – Estrogen receptor status human F Multiple myeloma – overall survival milestone outcome human G Multiple myeloma – event-free survival milestone outcome human H Clinical parameter S1 – positive control, gender human I Clinical parameter S1 – random assignment, negative control human J Neuroblastoma – overall survival milestone outcome human K Neuroblastoma – event-free survival milestone outcome human L Newly established parameter – positive control, gender human M Newly established parameter – negative control, random human human Výkonnost klasifikátorů dle experimentu Úspěšnost odhadu pohlaví, pozitivní kontrola Úspěšnost predikce náhodného zařazení, negativní kontrola Rozdíl výkonnosti odhadnuté na základě krosvalidace (CV) a na validačním souboru (Validation) Rozdíl v AUC (plocha pod ROC křivkou) mezi odhadem výkonu krosvalidací a výkonu na validačním souboru by měl být 0 Aby to nebylo jednoduché... Rozdíl v AUC (plocha pod ROC křivkou) mezi odhadem výkonu krosvalidací a výkonu na validačním souboru jako funkce průměrného hodnocení externími hodnotiteli navržených algoritmů To, že se algoritmus zdál hodnotitelům správný neznamená, že opravdu byl... Bez validace není (dobrá) publikace Doporučené předměty • •PřF:Bi7490 Pokročilé neparametrické metody •PřF:Bi0034 Analýza a klasif. dat - Informace o předmětu •PřF: ENV003 Environmentální informace a modelování – specifika u chemických dat •