Analýza genomických a proteomických dat
•Mgr. Eva Budinská, PhD
•RECETOX
•eva.budinska@recetox.muni.cz
•Jaro 2023

Klasifikace (předpovídání skupin)


Společné schéma analýzy dat
Biologická otázka
(hypotéza)
N matic základních dat
(jedna pro každý z N vzorků)
Kontrola kvality
Normalizace
Sumarizace
Provedení experimentu
(hybridizace mikročipů,
hmotnostní spektrometrie...)
Design experimentu
Objevování skupin?
(Shlukování)
Porovnání skupin?
(Testování)
Predikce skupin?
(Klasifikace)
Analýza přežití
Analýza časových řad
Charakterizace nových
skupin
List genů
se stejným profilem
změn exprese v čase
Interpretace
Validace
Publikace
Matice informací o vzorcích
N x P
(např. klinická data v medicíně)
Finální datová matice
N vzorků a K genů
(proteinů)
Nové skupiny
genů nebo vzorků
List genů
s odlišnou expresí
mezi skupinami vzorků
Klasifikační pravidlo
využívající
genovou expresi
Seznam
prognostických genů

Tradiční schéma analýzy
•Učení s učitelem (supervised learning)
•V  tomto případě zobecňujeme známou strukturu dat na nové data
•Porovnávání skupin (class comparison)
•hledáme rozdíly v expresi, počtu kopií genů nebo abundanci proteinů mezi již definovanými
skupinami
•Předpovídání skupin (class prediction)
•na známých skupinách se snažíme vytvořit klasifikátor, který by dokázal zařadit nového pacienta do
jedné ze skupin
•Učení bez učitele (unsupervised learning)
•V tomto případe struktura v datech není známá a musíme ji objevit
•Objevování skupin (class discovery)
•na základě informací o genech/proteinech hledáme nové skupiny
•onemocnění X je velmi heterogenní a snažíme se identifikovat specifičtější podtypy, které by mohli
být cílem cílené terapie

Co je to biomarker?
•Biologický marker (biomarker):
•Charakteristika, která je objektivně měřena a hodnocena jako indikátor normálních biologických
procesů, patogenních procesů nebo farmakologických odpovědí na terapeutický zásah.
•
Biomarkers Definitions Working Group (March 2001). "Biomarkers and surrogate endpoints: preferred
definitions and conceptual framework". Clin. Pharmacol. Ther. (Review). 69 (3): 89–95.

Biomarkerem může být


Biomarkery a modely
•Biomarker může být založen na jediném analytu, nebo na jejich kombinaci v modelu (klasifikátoru)
•
•Je to právě kombinace více analytů (genů, proteinů, metabolitů…), která je typická pro biomarkery
z omicsových dat

Jaká je to nemoc?
Jaké je riziko onemocnění u zdravého jedince?
Jak bude nemoc probíhat?
Zhoršuje se nemoc?
Jaká je šance, že se nemoc vrátí?
Bude terapie úspěšná?

Co musí dobrý klasifikátor splňovat
Checkmark
•Musí být použitelný rutinně v praxi:
•
•přesný  (dostatečně citlivý a dostatečně specifický)
•robustní (co nejméně omezen technologií měření)
•reproducibilní (obecně platný na cílové populaci)
•

… tvorba klasifikátorů z molekulárních dat z omicsových technologií má svá specifika…
Fingerprint


Specifika dat z omics experimentů


Error
Skandál na
Duke university
Severní Karolína, USA


•Anil Potti -
Více info: https://ori.hhs.gov/content/case-summary-potti-anil


Jak skandál změnil svět omicsového výzkumu


IOM (Institute of Medicine). 2012. Evolution of Translational Omics: Lessons Learned and the Path
Forward. Washington, DC: The National Academies Press.


IOM komise:
Specifika testů založených na omics


Absence jasného biologického odůvodnění testů omics biomarkerů

Biologické zdůvodnění testu s jedním analytem je často zcela zřejmé: Test je užitečný, protože gen,
RNA, protein nebo metabolit hraje pochopitelnou roli v patologii onemocnění nebo jiném vyšetřovaném
biologickém procesu. Příklady testů s jedním analytem zahrnují testování karcinomu prsu lidským
epidermálním růstovým faktorem 2 (HER2) nebo měření hladiny cholesterolu lipoproteinů s nízkou
hustotou (LDL) pro hodnocení srdečního rizika. Naproti tomu biologické zdůvodnění souboru
biomarkerů v testu založeném na omics není často vědecky definováno. Tento rozdíl představuje další
zatížení statistiků a bioinformatických odborníků zapojených do validace testů, aby bylo zajištěno,
že biologická data a výpočetní model jsou vědecky spolehlivé. Vzhledem ke zvýšenému riziku
překročení velkých souborů dat ve vývoji výpočetního modelu je potřeba přísnosti, validace a
odpovědnosti ještě vyšší než u jiných samostatných testů založených na biomarkerech.

Absence jasného biologického odůvodnění testů omics biomarkerů – proč je to problém


Problém (ne) sdílení komplexních datových souborů a výpočetních modelů


Doporučení IOM komise pro vývoj testů založených na omicsových datech
page19image1832064


Jak (ne) predikovat téměř cokoliv


Biomarkery jako pomůcky pro diagnostiku, predikci odpovědi na léčbu nebo prognózu
●Používáme metody klasifikace!


> > > > >
Predikce a klasifikace
AML
ALL
?
• V tomto typu analýzy se snažíme předpovědět příslušnost k jedné ze známých skupin na základě
jejich molekulárního profilu
• Například určujeme:
• diagnózu
• odpověď na terapii
• přežití pacienta
•…
• Cílem je vytvořit klasifikační pravidlo (soubor pravidel), které toto umožní
• Vytvoření klasifikátoru může sloužit jako nástroj pro selekci genů, které významně diskriminují
mezi skupinami

> >
Princip tvorby klasifikátoru
1. Výběr proměnných pro klasifikaci
•Vybíráme geny nebo proteiny, které se v klasifikátoru použijí
•
2. Trénování
•Na trénovacích datech vytvoříme klasifikační pravidlo (klasifikátor, model)
•
3. Testování
•Vytvořený klasifikátor se otestuje na testovacích datech
•K odhadnutí výkonnosti (přesnosti) klasifikátoru a optimalizaci parametrů

>
Výběr proměnných I.
>
Důvody výběru proměnných
•
•Ze statistického hlediska
•Eliminace tisíců nerelevantních genů významně ovlivní komplexitu vybraného klasifikátoru, stane se
robustnější
•
•Z biologického hlediska
•Výběr vhodných genů/proteinů silně korelovaných s danou skupinou pomůže pochopit mechanismus
jejich působení.
•
•Z praktického hlediska
• Čím méně genů potřebujeme pro predikci, tím snadnější je uplatnení klasifikátoru v praxi.

> >
Výběr proměnných II.
•U omics dat je výběr proměnných trochu problematický, protože jsou velmi korelované
•Výběr jednoho reprezentanta je víceméně náhodný
•Malé změny v trénovacích datech, případně aplikace jiného klasifikátoru může vyústit do úplně jiné
selekce genů
• To je v pořádku, ale pozor na interpretaci!
•
•Při interpretaci je třeba brát na zřetel, že se jedná pouze o podskupinu genů
•
•Biologické závěry o molekulárních změnách mezi podskupinami vzorků by měly být založené na studiu
celé množiny významných genů

>
Příklad


> >
Metody klasifikace
Black-box metody
Ke klasifikaci nového vzorku používají celý trénovací soubor.
Obvykle nejsou jednoduše interpretovatelné
K-nejbližších sousedů
Support vector machines
Neuronové sítě
>
Metody vytvářející srozumitelná klasifikačná pravidla
Více intuitivní, jednoduše použitelné v praxi
Pouze na vybraných proměnných
Regresní modely
Diskriminační analýza
Klasifikační stromy a lesy
Top scoring pairs
AdaBoost...

> >
Odhad výkonnosti klasifikátoru I
•Výkonnost každého klasifikátoru musí být testována
•
•Proč odhadovat výkonnost klasifikátoru?
•Omezení trénovacím souborem
•Bez předpokladu o rozložení neexistuje žádný vzorec pro výpočet velikosti vzorku
•Často existuje jen jeden datový soubor pro trénování a testování klasifikátoru
•
•POZOR - Odhad výkonnosti klasifikátoru na trénovacích datech je VŽDY optimisticky zkreslený proto
nutnost testovat na nezávislém souboru

> >
Odhad výkonnosti klasifikátoru II – křížová validace
Základní myšlenka:
•Převzorkováním rozdělit (opakovaně) datový soubor na trénovací a testovací, vytvořit klasifikátor
na trénovacím souboru a změřit výkonnost klasifikátoru jen na datech, které nebyly použity pro jeho
vytvoření (křížová validace)
•
•
•
•
> > > > >
Trénovací soubor
Testovací soubor
Původní soubor
Zde klasifikátor
vytváříme
Zde
klasifikátor testujeme

> >
Odhad výkonnosti klasifikátoru II – křížová validace
•k-fold cross validation
•
•
•
•
•
•
•
•
•Alternativně: LODO (leave one dataset out), monte-carlo CV…
Train
Test
Train
Step 1.
Test
Train
Train
Step 2.
Train
Train
Test
Step 3.
k=3

Odhad výkonnosti klasifikátoru - bootstrapping


> >
Odhad výkonnosti klasifikátoru III – důležité!!!
•Všechny kroky, které závisí na převzorkování, a které vedou k finálnímu modelu musí být zopakované
identicky u každého rozdělení na trénovací a testovací soubor.
•Patří sem například výběr proměnných, trénovaní klasifikátoru, optimalizace parametrů,...

>
Odhad výkonnosti – proč převzorkování nestačí
•Každé dva trénovací soubory vytvořené z původního datového souboru s pomocí převzorkování se do
jisté míry překrývají -> vytvořené klasifikátory tedy nejsou úplně nezávislé
•
•Variabilita je obvykle podhodnocená
•NUTNOST TESTOVAT NA JINÉM VALIDAČNÍM SOUBORU

>
Co získáme odhadem výkonnosti?
•Zjistíme očekávanou výkonnost klasifikátoru na validačním, nebo jakémkoliv jiném souboru!
•
•Můžeme identifikovat nejstabilnější proměnné (geny/proteiny) – tedy ty, které jsou vybrány
nejčastěji!
•
•Zjistíme, které vzorky bývají často špatně klasifikované (pokud takové jsou, naznačuje to odlehlé
hodnoty)

Vyhodnocení přesnosti klasifikátoru
Klasifikace
Zdravý
(negativní)
Nemocný
(pozitivní)
Skutečnost
Zdravý
(negativní)
Pravdivá negativita (PN)
Falešná pozitivita (FP)
Chyba I. druhu
Nemocný
(pozitivní)
Falešná negativita (FN)
Chyba II. druhu
Pravdivá pozitivita (PP)

Pozitivní prediktivní hodnota (precision, PPV – positive predictive value) – jaký podíl ze všech
klasifikovaných jako nemocných je opravdu nemocných?
Vyhodnocení přesnosti klasifikátoru
Klasifikace
Zdravý (-)
Nemocný (+)
Celkem
Skutečnost
Zdravý (-)
PN
FP
PN + FP
Nemocný (+)
FN
PP
FN + PP
Celkem
PN + FN
FP + PP
PN+FN+FP+PP
Všichni klasifikováni jako zdraví (negativní)
Všichni klasifikováni jako nemocní (pozitivní)
Všichni skutečně zdraví (negativní)
Všichni skutečně nemocní (pozitivní)

Senzitivita / Úplnost (sensitivity/recall/TPR - true positive rate) – jaký podíl  skutečně
nemocných odhalíme?
Vyhodnocení přesnosti klasifikátoru
Klasifikace
Zdravý (-)
Nemocný (+)
Celkem
Skutečnost
Zdravý (-)
PN
FP
PN + FP
Nemocný (+)
FN
PP
FN + PP
Celkem
PN + FN
FP + PP
PN+FN+FP+PP
Všichni klasifikováni jako zdraví (negativní)
Všichni klasifikováni jako nemocní (pozitivní)
Všichni skutečně zdraví (negativní)
Všichni skutečně nemocní (pozitivní)

Specificita (specificity) – ze všech, kteří jsou zdraví, jaký podíl byl označen za zdravých?
Vyhodnocení přesnosti klasifikátoru
Klasifikace
Zdravý (-)
Nemocný (+)
Celkem
Skutečnost
Zdravý (-)
PN
FP
PN + FP
Nemocný (+)
FN
PP
FN + PP
Celkem
PN + FN
FP + PP
PN+FN+FP+PP
Všichni klasifikováni jako zdraví (negativní)
Všichni klasifikováni jako nemocní (pozitivní)
Všichni skutečně zdraví (negativní)
Všichni skutečně nemocní (pozitivní)

Podíl falešné pozitivity (FPR) – ze všech, kteří jsou zdraví, jaký podíl byl označen za nemocných?
Vyhodnocení přesnosti klasifikátoru
Klasifikace
Zdravý (-)
Nemocný (+)
Celkem
Skutečnost
Zdravý (-)
PN
FP
PN + FP
Nemocný (+)
FN
PP
FN + PP
Celkem
PN + FN
FP + PP
PN+FN+FP+PP
Všichni klasifikováni jako zdraví (negativní)
Všichni klasifikováni jako nemocní (pozitivní)
Všichni skutečně zdraví (negativní)
Všichni skutečně nemocní (pozitivní)

Klasifikace
Zdravý (-)
Nemocný (+)
Celkem
Skutečnost
Zdravý (-)
PN
FP
PN + FP
Nemocný (+)
FN
PP
FN + PP
Celkem
PN + FN
FP + PP
PN+FN+FP+PP
Všichni klasifikováni jako zdraví (negativní)
Všichni klasifikováni jako nemocní (pozitivní)
Všichni skutečně zdraví (negativní)
Všichni skutečně nemocní (pozitivní)
Celková přesnost (accuracy) – jaké procento je správně klasifikováno?
Vyhodnocení přesnosti klasifikátoru

Vyhodnocení přesnosti klasifikátoru – příklad 1
Klasifikátor
Populace
Predikce nemocný
Predikce zdravý
Arrow Straight Arrow Counterclockwise curve Arrow Counterclockwise curve
Nemocný
Zdravý
Klasifikace
Zdravý
Nemocný
Celkem
Skutečnost
Zdravý
7
0
7
Nemocný
2
1
3
Celkem
9
1
10

Vyhodnocení přesnosti klasifikátoru – příklad 2
Klasifikátor
Populace
Predikce nemocný
Predikce zdravý
Arrow Straight Arrow Counterclockwise curve Arrow Counterclockwise curve
Nemocný
Zdravý
Klasifikace
Zdravý
Nemocný
Celkem
Skutečnost
Zdravý
4
3
7
Nemocný
0
3
3
Celkem
4
6
10

ROC křivka
•Receiver operator characteristics (ROC)
•Mějme binární klasifikátor který má být založený na nějaké proměnné (například na velikosti
exprese genu)
•Musíme zvolit hranici exprese genu, která bude rozdělovat vzorky na pozitivní a negativní
•ROC křivka ukazuje, jak dobrý klasifikátor jsme schopni na základě této proměnné sestavit z
pohledu senzitivity a specificity

ROC křivka
•Receiver operator characteristics (ROC)
•ROC křivka zobrazuje vztah mezi FPR a TPR
•AUC – area under curve (plocha pod křivkou) - míra přesnosti testu, vyjadřuje šanci, že model bude
schopen rozlišit naše skupiny

ROC křivka
PP (pravdivá positivita)
PN
(pravdivá negativita)
Dělící hranice
Exprese genu
0
0.5
1
0         1
1
0
FPR
TPR
AUC = 1
Model perfektně diskriminuje

ROC křivka
PN
(pravdivá negativita)
PP (pravdivá positivita)
FN
FP
falešná negativita
falešná positivita
0         1
1
0
FPR
AUC = 0.8
TPR
Exprese genu
0
1

ROC křivka
0         1
1
0
FPR
AUC = 0.5
TPR
Exprese genu
0
1
Model není lepší než hod mincí (proměnná nemá žádnou diskriminační schopnost)

ROC křivka
FP (falešná positivita)
FN
(falešná negativita)
Dělící hranice
Exprese genu
0
0.5
1
0         1
1
0
FPR
TPR
AUC = 0
Model určuje přesně naopak!

ROC křivka
•Animace principu (jak se křivka kreslí)
•
•http://arogozhnikov.github.io/2015/10/05/roc-curve.html
•

●36 nezávislých tímů analytiků z celého světa analyzovalo  6 mikročipových studií a vytvořilo
klasifikátory pro predikci 13 endpointů (ER+ vs ER-, ...)
●Každý tým navrhl plán tvorby a validace klasifikátoru
●Tyto plány byly předem posouzeny odbornými statistiky a ohodnoceny dle jejich názoru na škále od 1
do 10
Standardy pro mikročipy

MAQC II – endpointy
štúdia
endpoint
model
A
Lung tumorigen vs non tumorigen
mouse
B
Non genotoxic liver carcinogens vs non-carcinogens
rat
C
Liver toxicants vs non-toxicants based on overall necrosis score
rat
D
Breast cancer - Pre-operative treatment response (pCR, pathologic complete response)
human
E
Breast cancer – Estrogen receptor status
human
F
Multiple myeloma – overall survival milestone outcome
human
G
Multiple myeloma – event-free survival milestone outcome
human
H
Clinical parameter S1 – positive control, gender
human
I
Clinical parameter S1 – random assignment, negative control
human
J
Neuroblastoma – overall survival milestone outcome
human
K
Neuroblastoma – event-free survival milestone outcome
human
L
Newly established parameter – positive control, gender
human
M
Newly established parameter – negative control, random
human
human

Výkonnost klasifikátorů dle experimentu
Úspěšnost odhadu pohlaví, pozitivní kontrola
Úspěšnost predikce náhodného zařazení, negativní kontrola

Rozdíl výkonnosti odhadnuté na základě krosvalidace (CV) a na validačním souboru (Validation)
Rozdíl v AUC (plocha pod ROC křivkou) mezi odhadem výkonu krosvalidací a výkonu na validačním
souboru by měl být 0

Aby to nebylo jednoduché...
Rozdíl v AUC (plocha pod ROC křivkou) mezi odhadem výkonu krosvalidací a výkonu na validačním
souboru jako funkce průměrného hodnocení externími hodnotiteli navržených algoritmů
To, že se algoritmus zdál hodnotitelům správný neznamená, že opravdu byl...

Jeden z navržených a úspěšných algoritmů validace
Na k-1 fold datech výběr modelu (typ nebo parametrů) – opakuje se pro každý model (sadu parametrů
modelu)
Nejlepší model bude jiný v každé externí CV
Znovu se opakuje interní krosvalidace na novém rozdělení k-fold (zde je k jiné číslo než v externí
CV)
Statistika performance vybraných modelů v k-fold externí CV

Bez validace není (dobrá) publikace


Finální validace
•Vždy na nezávislém datovém souboru
•Velmi důležitá pro otestování skutečné robustnosti klasifikátoru
•Absolutně nevyhnutné v medicíně
•Testovací soubor by měl splňovat následující vlastnosti:
•Musí obsahovat parametry použité v klasifikátoru
•Musí být známá příslušnost vzorků ke skupinám, které se klasifikátor snaží diskriminovat
•Podobná struktura s ohledem na klinické a patologické parametry (např. stejné rozložení věku,
zastoupení pohlaví apod.)

Design experimentu je důležitý!
•Myslete na dostatečně velký trénovací i testovací datový soubor!
Příklad: 5 podtypů karcinomu prsu – 96 vzorků (N1=48, N2=16, N3=8, N4=8, N5=16)
•Datové soubory musí reprezentovat populaci, na které budete klasifikátor používat
Trénovací soubor
Testovací soubor
Málo vzorků ve skupině, nemožnost tuningu, malá variabilita -> přetrénování => nefunguje na
testovacím souboru.
Stačí jeden špatně klasifikovaný vzorek a výrazně se sníží výkonnost!

Další doporučené předměty
•
•PřF:Bi7490 Pokročilé neparametrické metody
•PřF:Bi0034 Analýza a klasif. dat - Informace o předmětu
•PřF: ENV003 Environmentální informace a modelování – specifika u chemických dat
•