Analýza genomických a proteomických dat •Mgr. Eva Budinská, PhD •RECETOX •eva.budinska@recetox.muni.cz •Jaro 2023 Klasifikace (předpovídání skupin) Společné schéma analýzy dat Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Kontrola kvality Normalizace Sumarizace Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Design experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Tradiční schéma analýzy •Učení s učitelem (supervised learning) •V tomto případě zobecňujeme známou strukturu dat na nové data •Porovnávání skupin (class comparison) •hledáme rozdíly v expresi, počtu kopií genů nebo abundanci proteinů mezi již definovanými skupinami •Předpovídání skupin (class prediction) •na známých skupinách se snažíme vytvořit klasifikátor, který by dokázal zařadit nového pacienta do jedné ze skupin •Učení bez učitele (unsupervised learning) •V tomto případe struktura v datech není známá a musíme ji objevit •Objevování skupin (class discovery) •na základě informací o genech/proteinech hledáme nové skupiny •onemocnění X je velmi heterogenní a snažíme se identifikovat specifičtější podtypy, které by mohli být cílem cílené terapie Co je to biomarker? •Biologický marker (biomarker): •Charakteristika, která je objektivně měřena a hodnocena jako indikátor normálních biologických procesů, patogenních procesů nebo farmakologických odpovědí na terapeutický zásah. • Biomarkers Definitions Working Group (March 2001). "Biomarkers and surrogate endpoints: preferred definitions and conceptual framework". Clin. Pharmacol. Ther. (Review). 69 (3): 89–95. Biomarkerem může být Biomarkery a modely •Biomarker může být založen na jediném analytu, nebo na jejich kombinaci v modelu (klasifikátoru) • •Je to právě kombinace více analytů (genů, proteinů, metabolitů…), která je typická pro biomarkery z omicsových dat Jaká je to nemoc? Jaké je riziko onemocnění u zdravého jedince? Jak bude nemoc probíhat? Zhoršuje se nemoc? Jaká je šance, že se nemoc vrátí? Bude terapie úspěšná? Co musí dobrý klasifikátor splňovat Checkmark •Musí být použitelný rutinně v praxi: • •přesný (dostatečně citlivý a dostatečně specifický) •robustní (co nejméně omezen technologií měření) •reproducibilní (obecně platný na cílové populaci) • … tvorba klasifikátorů z molekulárních dat z omicsových technologií má svá specifika… Fingerprint Specifika dat z omics experimentů Error Skandál na Duke university Severní Karolína, USA •Anil Potti - Více info: https://ori.hhs.gov/content/case-summary-potti-anil Jak skandál změnil svět omicsového výzkumu IOM (Institute of Medicine). 2012. Evolution of Translational Omics: Lessons Learned and the Path Forward. Washington, DC: The National Academies Press. IOM komise: Specifika testů založených na omics Absence jasného biologického odůvodnění testů omics biomarkerů Biologické zdůvodnění testu s jedním analytem je často zcela zřejmé: Test je užitečný, protože gen, RNA, protein nebo metabolit hraje pochopitelnou roli v patologii onemocnění nebo jiném vyšetřovaném biologickém procesu. Příklady testů s jedním analytem zahrnují testování karcinomu prsu lidským epidermálním růstovým faktorem 2 (HER2) nebo měření hladiny cholesterolu lipoproteinů s nízkou hustotou (LDL) pro hodnocení srdečního rizika. Naproti tomu biologické zdůvodnění souboru biomarkerů v testu založeném na omics není často vědecky definováno. Tento rozdíl představuje další zatížení statistiků a bioinformatických odborníků zapojených do validace testů, aby bylo zajištěno, že biologická data a výpočetní model jsou vědecky spolehlivé. Vzhledem ke zvýšenému riziku překročení velkých souborů dat ve vývoji výpočetního modelu je potřeba přísnosti, validace a odpovědnosti ještě vyšší než u jiných samostatných testů založených na biomarkerech. Absence jasného biologického odůvodnění testů omics biomarkerů – proč je to problém Problém (ne) sdílení komplexních datových souborů a výpočetních modelů Doporučení IOM komise pro vývoj testů založených na omicsových datech page19image1832064 Jak (ne) predikovat téměř cokoliv Biomarkery jako pomůcky pro diagnostiku, predikci odpovědi na léčbu nebo prognózu ●Používáme metody klasifikace! > > > > > Predikce a klasifikace AML ALL ? • V tomto typu analýzy se snažíme předpovědět příslušnost k jedné ze známých skupin na základě jejich molekulárního profilu • Například určujeme: • diagnózu • odpověď na terapii • přežití pacienta •… • Cílem je vytvořit klasifikační pravidlo (soubor pravidel), které toto umožní • Vytvoření klasifikátoru může sloužit jako nástroj pro selekci genů, které významně diskriminují mezi skupinami > > Princip tvorby klasifikátoru 1. Výběr proměnných pro klasifikaci •Vybíráme geny nebo proteiny, které se v klasifikátoru použijí • 2. Trénování •Na trénovacích datech vytvoříme klasifikační pravidlo (klasifikátor, model) • 3. Testování •Vytvořený klasifikátor se otestuje na testovacích datech •K odhadnutí výkonnosti (přesnosti) klasifikátoru a optimalizaci parametrů > Výběr proměnných I. > Důvody výběru proměnných • •Ze statistického hlediska •Eliminace tisíců nerelevantních genů významně ovlivní komplexitu vybraného klasifikátoru, stane se robustnější • •Z biologického hlediska •Výběr vhodných genů/proteinů silně korelovaných s danou skupinou pomůže pochopit mechanismus jejich působení. • •Z praktického hlediska • Čím méně genů potřebujeme pro predikci, tím snadnější je uplatnení klasifikátoru v praxi. > > Výběr proměnných II. •U omics dat je výběr proměnných trochu problematický, protože jsou velmi korelované •Výběr jednoho reprezentanta je víceméně náhodný •Malé změny v trénovacích datech, případně aplikace jiného klasifikátoru může vyústit do úplně jiné selekce genů • To je v pořádku, ale pozor na interpretaci! • •Při interpretaci je třeba brát na zřetel, že se jedná pouze o podskupinu genů • •Biologické závěry o molekulárních změnách mezi podskupinami vzorků by měly být založené na studiu celé množiny významných genů > Příklad > > Metody klasifikace Black-box metody Ke klasifikaci nového vzorku používají celý trénovací soubor. Obvykle nejsou jednoduše interpretovatelné K-nejbližších sousedů Support vector machines Neuronové sítě > Metody vytvářející srozumitelná klasifikačná pravidla Více intuitivní, jednoduše použitelné v praxi Pouze na vybraných proměnných Regresní modely Diskriminační analýza Klasifikační stromy a lesy Top scoring pairs AdaBoost... > > Odhad výkonnosti klasifikátoru I •Výkonnost každého klasifikátoru musí být testována • •Proč odhadovat výkonnost klasifikátoru? •Omezení trénovacím souborem •Bez předpokladu o rozložení neexistuje žádný vzorec pro výpočet velikosti vzorku •Často existuje jen jeden datový soubor pro trénování a testování klasifikátoru • •POZOR - Odhad výkonnosti klasifikátoru na trénovacích datech je VŽDY optimisticky zkreslený proto nutnost testovat na nezávislém souboru > > Odhad výkonnosti klasifikátoru II – křížová validace Základní myšlenka: •Převzorkováním rozdělit (opakovaně) datový soubor na trénovací a testovací, vytvořit klasifikátor na trénovacím souboru a změřit výkonnost klasifikátoru jen na datech, které nebyly použity pro jeho vytvoření (křížová validace) • • • • > > > > > Trénovací soubor Testovací soubor Původní soubor Zde klasifikátor vytváříme Zde klasifikátor testujeme > > Odhad výkonnosti klasifikátoru II – křížová validace •k-fold cross validation • • • • • • • • •Alternativně: LODO (leave one dataset out), monte-carlo CV… Train Test Train Step 1. Test Train Train Step 2. Train Train Test Step 3. k=3 Odhad výkonnosti klasifikátoru - bootstrapping > > Odhad výkonnosti klasifikátoru III – důležité!!! •Všechny kroky, které závisí na převzorkování, a které vedou k finálnímu modelu musí být zopakované identicky u každého rozdělení na trénovací a testovací soubor. •Patří sem například výběr proměnných, trénovaní klasifikátoru, optimalizace parametrů,... > Odhad výkonnosti – proč převzorkování nestačí •Každé dva trénovací soubory vytvořené z původního datového souboru s pomocí převzorkování se do jisté míry překrývají -> vytvořené klasifikátory tedy nejsou úplně nezávislé • •Variabilita je obvykle podhodnocená •NUTNOST TESTOVAT NA JINÉM VALIDAČNÍM SOUBORU > Co získáme odhadem výkonnosti? •Zjistíme očekávanou výkonnost klasifikátoru na validačním, nebo jakémkoliv jiném souboru! • •Můžeme identifikovat nejstabilnější proměnné (geny/proteiny) – tedy ty, které jsou vybrány nejčastěji! • •Zjistíme, které vzorky bývají často špatně klasifikované (pokud takové jsou, naznačuje to odlehlé hodnoty) Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (negativní) Nemocný (pozitivní) Skutečnost Zdravý (negativní) Pravdivá negativita (PN) Falešná pozitivita (FP) Chyba I. druhu Nemocný (pozitivní) Falešná negativita (FN) Chyba II. druhu Pravdivá pozitivita (PP) Pozitivní prediktivní hodnota (precision, PPV – positive predictive value) – jaký podíl ze všech klasifikovaných jako nemocných je opravdu nemocných? Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP+PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Senzitivita / Úplnost (sensitivity/recall/TPR - true positive rate) – jaký podíl skutečně nemocných odhalíme? Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP+PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Specificita (specificity) – ze všech, kteří jsou zdraví, jaký podíl byl označen za zdravých? Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP+PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Podíl falešné pozitivity (FPR) – ze všech, kteří jsou zdraví, jaký podíl byl označen za nemocných? Vyhodnocení přesnosti klasifikátoru Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP+PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Klasifikace Zdravý (-) Nemocný (+) Celkem Skutečnost Zdravý (-) PN FP PN + FP Nemocný (+) FN PP FN + PP Celkem PN + FN FP + PP PN+FN+FP+PP Všichni klasifikováni jako zdraví (negativní) Všichni klasifikováni jako nemocní (pozitivní) Všichni skutečně zdraví (negativní) Všichni skutečně nemocní (pozitivní) Celková přesnost (accuracy) – jaké procento je správně klasifikováno? Vyhodnocení přesnosti klasifikátoru Vyhodnocení přesnosti klasifikátoru – příklad 1 Klasifikátor Populace Predikce nemocný Predikce zdravý Arrow Straight Arrow Counterclockwise curve Arrow Counterclockwise curve Nemocný Zdravý Klasifikace Zdravý Nemocný Celkem Skutečnost Zdravý 7 0 7 Nemocný 2 1 3 Celkem 9 1 10 Vyhodnocení přesnosti klasifikátoru – příklad 2 Klasifikátor Populace Predikce nemocný Predikce zdravý Arrow Straight Arrow Counterclockwise curve Arrow Counterclockwise curve Nemocný Zdravý Klasifikace Zdravý Nemocný Celkem Skutečnost Zdravý 4 3 7 Nemocný 0 3 3 Celkem 4 6 10 ROC křivka •Receiver operator characteristics (ROC) •Mějme binární klasifikátor který má být založený na nějaké proměnné (například na velikosti exprese genu) •Musíme zvolit hranici exprese genu, která bude rozdělovat vzorky na pozitivní a negativní •ROC křivka ukazuje, jak dobrý klasifikátor jsme schopni na základě této proměnné sestavit z pohledu senzitivity a specificity ROC křivka •Receiver operator characteristics (ROC) •ROC křivka zobrazuje vztah mezi FPR a TPR •AUC – area under curve (plocha pod křivkou) - míra přesnosti testu, vyjadřuje šanci, že model bude schopen rozlišit naše skupiny ROC křivka PP (pravdivá positivita) PN (pravdivá negativita) Dělící hranice Exprese genu 0 0.5 1 0 1 1 0 FPR TPR AUC = 1 Model perfektně diskriminuje ROC křivka PN (pravdivá negativita) PP (pravdivá positivita) FN FP falešná negativita falešná positivita 0 1 1 0 FPR AUC = 0.8 TPR Exprese genu 0 1 ROC křivka 0 1 1 0 FPR AUC = 0.5 TPR Exprese genu 0 1 Model není lepší než hod mincí (proměnná nemá žádnou diskriminační schopnost) ROC křivka FP (falešná positivita) FN (falešná negativita) Dělící hranice Exprese genu 0 0.5 1 0 1 1 0 FPR TPR AUC = 0 Model určuje přesně naopak! ROC křivka •Animace principu (jak se křivka kreslí) • •http://arogozhnikov.github.io/2015/10/05/roc-curve.html • ●36 nezávislých tímů analytiků z celého světa analyzovalo 6 mikročipových studií a vytvořilo klasifikátory pro predikci 13 endpointů (ER+ vs ER-, ...) ●Každý tým navrhl plán tvorby a validace klasifikátoru ●Tyto plány byly předem posouzeny odbornými statistiky a ohodnoceny dle jejich názoru na škále od 1 do 10 Standardy pro mikročipy MAQC II – endpointy štúdia endpoint model A Lung tumorigen vs non tumorigen mouse B Non genotoxic liver carcinogens vs non-carcinogens rat C Liver toxicants vs non-toxicants based on overall necrosis score rat D Breast cancer - Pre-operative treatment response (pCR, pathologic complete response) human E Breast cancer – Estrogen receptor status human F Multiple myeloma – overall survival milestone outcome human G Multiple myeloma – event-free survival milestone outcome human H Clinical parameter S1 – positive control, gender human I Clinical parameter S1 – random assignment, negative control human J Neuroblastoma – overall survival milestone outcome human K Neuroblastoma – event-free survival milestone outcome human L Newly established parameter – positive control, gender human M Newly established parameter – negative control, random human human Výkonnost klasifikátorů dle experimentu Úspěšnost odhadu pohlaví, pozitivní kontrola Úspěšnost predikce náhodného zařazení, negativní kontrola Rozdíl výkonnosti odhadnuté na základě krosvalidace (CV) a na validačním souboru (Validation) Rozdíl v AUC (plocha pod ROC křivkou) mezi odhadem výkonu krosvalidací a výkonu na validačním souboru by měl být 0 Aby to nebylo jednoduché... Rozdíl v AUC (plocha pod ROC křivkou) mezi odhadem výkonu krosvalidací a výkonu na validačním souboru jako funkce průměrného hodnocení externími hodnotiteli navržených algoritmů To, že se algoritmus zdál hodnotitelům správný neznamená, že opravdu byl... Jeden z navržených a úspěšných algoritmů validace Na k-1 fold datech výběr modelu (typ nebo parametrů) – opakuje se pro každý model (sadu parametrů modelu) Nejlepší model bude jiný v každé externí CV Znovu se opakuje interní krosvalidace na novém rozdělení k-fold (zde je k jiné číslo než v externí CV) Statistika performance vybraných modelů v k-fold externí CV Bez validace není (dobrá) publikace Finální validace •Vždy na nezávislém datovém souboru •Velmi důležitá pro otestování skutečné robustnosti klasifikátoru •Absolutně nevyhnutné v medicíně •Testovací soubor by měl splňovat následující vlastnosti: •Musí obsahovat parametry použité v klasifikátoru •Musí být známá příslušnost vzorků ke skupinám, které se klasifikátor snaží diskriminovat •Podobná struktura s ohledem na klinické a patologické parametry (např. stejné rozložení věku, zastoupení pohlaví apod.) Design experimentu je důležitý! •Myslete na dostatečně velký trénovací i testovací datový soubor! Příklad: 5 podtypů karcinomu prsu – 96 vzorků (N1=48, N2=16, N3=8, N4=8, N5=16) •Datové soubory musí reprezentovat populaci, na které budete klasifikátor používat Trénovací soubor Testovací soubor Málo vzorků ve skupině, nemožnost tuningu, malá variabilita -> přetrénování => nefunguje na testovacím souboru. Stačí jeden špatně klasifikovaný vzorek a výrazně se sníží výkonnost! Další doporučené předměty • •PřF:Bi7490 Pokročilé neparametrické metody •PřF:Bi0034 Analýza a klasif. dat - Informace o předmětu •PřF: ENV003 Environmentální informace a modelování – specifika u chemických dat •