Předpovídání skupin (class prediction)
Výuka IBA


Společná schéma analýzy dat
Biologická otázka
(hypotéza)
N matic základních dat
(jedna pro každý z N vzorků)
Kontrola kvality
Normalizace
Sumarizace
Provedení experimentu
(hybridizace mikročipů,
hmotnostní spektrometrie...)
Design experimentu
Objevování skupin?
(Shlukování)
Porovnání skupin?
(Testování)
Predikce skupin?
(Klasifikace)
Analýza přežití
Analýza časových řad
Charakterizace nových
skupin
List genů
se stejným profilem
změn exprese v čase
Interpretace
Validace
Publikace
Matice informací o vzorcích
N x P
(např. klinická data v medicíně)
Finální datová matice
N vzorků a K genů
(proteinů)
Nové skupiny
genů nebo vzorků
List genů
s odlišnou expresí
mezi skupinami vzorků
Klasifikační pravidlo
využívající
genovou expresi
Seznam
prognostických genů

Tradiční schéma analýzy
•Učení s učitelem (supervised learning)
•V  tomto případě zobecňujeme známou strukturu dat na nové data
•Porovnávání skupin (class comparison)
•hledáme rozdíly v expresi, počtu kopií genů nebo abundanci proteinů mezi již definovanými
skupinami
•Předpovídání skupin (class prediction)
•na známých skupinách se snažíme vytvořit klasifikátor, který by dokázal zařadit nového pacienta do
jedné ze skupin
•Učení bez učitele (unsupervised learning)
•V tomto případe struktura v datech není známá a musíme ji objevit
•Objevování skupin (class discovery)
•na základě informací o genech/proteinech hledáme nové skupiny
•onemocnění X je velmi heterogenní a snažíme se identifikovat specifičtější podtypy, které by mohli
být cílem cílené terapie

Společné znaky analýzy dat
•Velké množství proměnných
•Malé množství vzorek
•Proměnné jsou často korelované, s velmi komplexními vztahy
•Data obsahují množství šumu – biologická i technická variabilita

>

Předpovídání skupin
AML
ALL
?
•V tomto typu analýzy se snažíme předpovědět příslušnost k jedné ze známých skupin na základě
jejich genomického nebo proteomického profilu
•Například předpovídáme:
•typ diagnózy
•odpověď na terapii
•přežití pacienta
•Cílem je vytvořit klasifikační pravidlo (soubor pravidel), které toto umožní
•Vytvoření klasifikátoru může sloužit jako nástroj pro selekci genů, které významně diskriminují
mezi skupinami
•Shlukování s učitelem (supervised clustering)
•Regresní metody

Princip
1.Výběr proměnných pro klasifikaci
•Vybíráme geny nebo proteiny, které se v klasifikátoru použijí
2.Trénování
•Na trénovacích datech vytvoříme klasifikační pravidlo (klasifikátor, model)
3.Testování
•Vytvořený klasifikátor se otestuje na testovacích datech
•K odhadnutí výkonnosti (přesnosti) klasifikátoru a optimalizaci parametrů

Výběr proměnných I.
•Důvody k redukci dimenzionality dat:
•Ze statistického hlediska
Eliminace tisíců nerelevantních genů významně ovlivní komplexitu vybraného klasifikátoru, stane se
robustnější.
•Z biologického hlediska
Výběr vhodných genů/proteinů silně korelovaných s danou skupinou pomůže pochopit mechanismus jejich
působení.
•Z praktického hlediska
Čím méně genů potřebujeme pro predikci, tím snadnější je uplatnení klasifikátoru v praxi.

>

Výběr proměnných II.
•U genomických a proteomických dat je výběr proměnných trochu problematický, protože geny jsou
velmi korelované
•Výběr jednoho reprezentanta je víceméně náhodný
•Malé změny v trénovacích datech, případně aplikace jiného klasifikátoru může vyústit do úplně jiné
selekce genů
To je v pořádku, ale pozor na interpretaci!
•Při interpretaci je třeba brát na zřetel, že se jedná pouze o podskupinu genů
•Biologické závěry o podskupinách vzorků by měly být založené na studiu celé množiny významných
genů

Příklad


Výběr proměnných III.
•Dva základní typy metod výběru proměnných:
•Filtrace
•Na základě diskriminační schopnosti jednotlivých proměnných (odlišně exprimované geny,
prognostické geny,…)
•Wrapper metody
•Vybírají se přímo skupiny genů, na kterých se vybuduje klasifikátor, jehož výkon se následně
otestuje
•Forward sequential selection: geny jsou postupně vybrané na základě informace, kterou přispívají k
diskriminaci
•Backward selection začíná s celou množinou a postupně odstraňuje ty, které nepřispívají k
diskriminaci (vzhledem k ostatním genům)
•Tento přístup je výpočtově náročný, protože nemůžeme otestovat všechny možné podskupiny
•Můžou být velmi nestabilní, výběr i-tého genu je velmi závislý na podmnožině už vybraných genů

Metody klasifikace vzorků I.
Black-box metody
•Často používají celý datový soubor použitý na trénování
•Obvykle nejsou jednoduše interpretovatelné
•K-nejbližších sousedů
•Support vector machines
•Neuronové sítě

Metody klasifikace vzorků II.
Metody vytvářející klasifikační pravidla
•Více intuitivní, jednoduše použitelné v praxi
•Dostáváme přímo skupinu důležitých parametrů, připadně jasně interpretovatelné klasifikační
pravidlo
•Regresní modely
•Bayesovský klasifikátor
•Fisherova diskriminační analýza
•Klasifikační stromy a lesy
•Top Scoring Pairs
•AdaBoost
Gene 356
ALL
Gene 3850
>2.5
<=2.5
ALL
AML
<-1.5
>= -1.5

Odhad výkonnosti
•Výkonnost každého klasifikátoru musí být otestovaná na jiném validačním souboru
Proč odhadovat výkonnost klasifikátoru?
•Omezení trénovacím souborem
•Bez předpokladu o rozložení neexistuje žádný vzorec pro výpočet
•Často existuje jen jeden datový soubor pro trénování a testování klasifikátoru
•Odhad výkonnosti klasifikátoru na trénovacích datech je optimisticky zkreslený

Odhad výkonnosti
Základní myšlenka:
Převzorkováním rozdělit (opakovaně) datový soubor na trénovací a testovací, vytvořit klasifikátor
na trénovacím souboru a změřit výkonnost klasifikátoru jen na datech, které nebyly použity pro jeho
vytvoření.
UPOZORNĚNÍ: Všechny kroky, které závisí na převzorkování a které vedou k finálnímu modelu musí být
zopakované identicky na každém rozdělení na trénovací a testovací soubor.
Patří sem například výběr proměnných, trénovaní klasifikátoru, optimalizace parametrů,...
Trénovací soubor
Testovací soubor
Původní soubor
Zde klasifikátor
vytváříme
Zde
klasifikátor testujeme

Odhad výkonnosti II.
•Každé dva trénovací soubory vytvořené z původního datového souoboru s pomocí převzorkování se do
jisté míry překrývají -> vytvořené klasifikátory tedy nejsou úplně nezávislé
•Variabilita je obvykle podhodnocená

Převzorkovací metody
•Jednoduché rozdělení na dva soubory
•k-násobná křížová validace (k-fold cross validation)
•Opakovaná k-násobná křížová validace
•Monte-Carlo křížová validace
•Leave-one-out křížová validace (n-násobná křížová validace, kde n je počet vzorků)
•Bootstraping

Krížová validace
•Oddělený trénovací a testovací soubor
•Náhodné rozdělení dat do k podmnožin
•Vytvoření klasifikátoru na k-1 množinách a otestování na zůstávající
•Každá podmnožina je jednou testovací
•Obvykle k=5 nebo k=10 (pokud se k=počtu vzorků, pak se jedná o leave-one-out odhad)
•Opakovaná křížová validace – ještě lepší odhad
Train
Test
Train
Step 1.
Test
Train
Train
Step 2.
Train
Train
Test
Step 3.
k=3

>

Bootstrapping


Odhad výkonnosti III
•Zjistíme očekávanou výkonnost klasifikátoru na validačním souboru
•Můžeme identifikovat nejstabilnější proměnné (geny/proteiny)
•Které vzorky jsou stále špatné klasifikované (pokud takové jsou, naznačuje to odlehlé hodnoty)

Standardy pro mikročipy


Standardy pro mikročipy II


Validace
•Vždy na nezávislém datovém souboru
•Velmi důležitá pro otestování skutečné robustnosti klasifikátoru
•Absolutně nevyhnutné v medicíně
•Testovací soubor by měl splňovat následující vlastnosti:
•Musí obsahovat parametry použité v klasifikátoru
•Musí být známá příslušnost vzorků ke skupinám, které se klasifikátor snaží diskriminovat
•Podobná struktura s ohledem na klinické a patologické parametry (např. stejné rozložení věku,
zastoupení pohlaví apod.)

Design experimentu je důležitý!
•Myslete na dostatečně velký trénovací i testovací datový soubor!
Příklad: 5 podtypů karcinomu prsu – 96 vzorků (N1=48, N2=16, N3=8, N4=8, N5=16)
•Datové soubory musí reprezentovat populaci, na které budete klasifikátor používat
Trénovací soubor
Testovací soubor
Málo vzorků ve skupině, nemožnost tuningu, malá variabilita -> přetrénování => nefunguje na
testovacím souboru.
Stačí jeden špatně klasifikovaný vzorek a výrazně se sníží výkonnost!

Shrnutí
•Je užitečné vybrat proměnné před aplikováním klasifikátoru
•Je lepší používat jednoduché klasifikátory
•Odhadujte výkonnost klasifikátoru a optimalizujte parametry na trénovacím souboru
•Vždy klasifikátor validujte na úplně jiném datovém souboru

Úloha [1 bod]
Pracujte s datovým souborem golub.Rdata, který naleznete v IS.
•X – matice genových expresí, kde v řádku jsou jednotlivý pacienti a ve sloupcích jednotlivé sondy
•Y – vektor určující, do které skupiny patří pacienti
1.Vhodnou metodou vyberte ty geny, které jsou odlišně exprimovány mezi skupinami.
2.Datový soubor náhodně rozdělte na trénovací (2/3 původního datového souboru) a testovací (1/3
původního datového souboru).
3.Na tyto geny aplikujte metodu k-nejbližších sousedů.
4.Porovnejte výsledky z klasifikátoru se známým zařazením pacientů do skupiny. Výsledky sumarizujte
do čtyřpolní tabulky.
R skript obsahující komentáře k výsledkům zašlete do středy 10.5.2017 do 10:00 odevzdávárny.