Předpovídání skupin (class prediction)
Výuka IBA
Společné schéma analýzy dat
Biologická otázka
(hypotéza)
N matic základních dat
(jedna pro každý z N vzorků)
Kontrola kvality
Normalizace
Sumarizace
Provedení experimentu
(hybridizace mikročipů,
hmotnostní spektrometrie...)
Design experimentu
Objevování skupin?
(Shlukování)
Porovnání skupin?
(Testování)
Predikce skupin?
(Klasifikace)
Analýza přežití
Analýza časových řad
Charakterizace nových
skupin
List genů
se stejným profilem
změn exprese v čase
Interpretace Validace Publikace
Matice informací o vzorcích
N x P
(např. klinická data v
medicíně)
Finální datová matice
N vzorků a K genů
(proteinů)
Nové skupiny
genů nebo vzorků
List genů
s odlišnou expresí
mezi skupinami vzorků
Klasifikační pravidlo
využívající
genovou expresi
Seznam
prognostických
genů
Tradiční schéma analýzy
• Učení s učitelem (supervised learning)
• V tomto případě zobecňujeme známou strukturu dat na nové data
• Porovnávání skupin (class comparison)
• hledáme rozdíly v expresi, počtu kopií genů nebo abundanci
proteinů mezi již definovanými skupinami
• Předpovídání skupin (class prediction)
• na známých skupinách se snažíme vytvořit klasifikátor, který by
dokázal zařadit nového pacienta do jedné ze skupin
• Učení bez učitele (unsupervised learning)
• V tomto případe struktura v datech není známá a musíme ji objevit
• Objevování skupin (class discovery)
• na základě informací o genech/proteinech hledáme nové skupiny
• onemocnění X je velmi heterogenní a snažíme se identifikovat
specifičtější podtypy, které by mohli být cílem cílené terapie
Společné znaky analýzy dat
• Velké množství proměnných
• Malé množství vzorek
• Proměnné jsou často korelované, s velmi komplexními vztahy
• Data obsahují množství šumu – biologická i technická variabilita
Předpovídání skupin
AML
ALL
?
• V tomto typu analýzy se snažíme předpovědět příslušnost k jedné ze
známých skupin na základě jejich genomického nebo proteomického
profilu
• Například předpovídáme:
• typ diagnózy
• odpověď na terapii
• přežití pacienta
• Cílem je vytvořit klasifikační pravidlo (soubor pravidel), které toto
umožní
• Vytvoření klasifikátoru může sloužit jako nástroj pro selekci genů, které
významně diskriminují mezi skupinami
• Shlukování s učitelem (supervised clustering)
• Regresní metody
Princip
1. Výběr proměnných pro klasifikaci
• Vybíráme geny nebo proteiny, které se v klasifikátoru použijí
2. Trénování
• Na trénovacích datech vytvoříme klasifikační pravidlo
(klasifikátor, model)
3. Testování
• Vytvořený klasifikátor se otestuje na testovacích datech
• K odhadnutí výkonnosti (přesnosti) klasifikátoru a optimalizaci
parametrů
Výběr proměnných I.
• Důvody k redukci dimenzionality dat:
• Ze statistického hlediska
Eliminace tisíců nerelevantních genů významně ovlivní komplexitu
vybraného klasifikátoru, stane se robustnější.
• Z biologického hlediska
Výběr vhodných genů/proteinů silně korelovaných s danou skupinou
pomůže pochopit mechanismus jejich působení.
• Z praktického hlediska
Čím méně genů potřebujeme pro predikci, tím snadnější je uplatnení
klasifikátoru v praxi.
Výběr proměnných II.
• U genomických a proteomických dat je výběr proměnných trochu
problematický, protože geny jsou velmi korelované
• Výběr jednoho reprezentanta je víceméně náhodný
• Malé změny v trénovacích datech, případně aplikace jiného
klasifikátoru může vyústit do úplně jiné selekce genů
To je v pořádku, ale pozor na interpretaci!
• Při interpretaci je třeba brát na zřetel, že se jedná pouze o podskupinu
genů
• Biologické závěry o podskupinách vzorek by měly být založené na
studiu celé množiny významných genů
Příklad
Výběr proměnných III.
• Dva základní typy metod výběru proměnných:
• Filtrace
• Na základě diskriminační schopnosti jednotlivých proměnných
(odlišně exprimované geny, prognostické geny,…)
• Wrapper metody
• Vybírají se přímo skupiny genů, na kterých se vybuduje
klasifikátor, jehož výkon se následně otestuje
• Forward sequential selection: geny jsou postupně vybrané na základě
informace, kterou přispívají k diskriminaci
• Backward selection začíná s celou množinou a postupně odstraňuje ty,
které nepřispívají k diskriminaci (vzhledem k ostatním genům)
• Tento přístup je výpočtově náročný, protože nemůžeme
otestovat všechny možné podskupiny
• Můžou být velmi nestabilní, výběr i-tého genu je velmi závislý na
podmnožině už vybraných genů
Metody klasifikace vzorků I.
Black-box metody
•Často používají celý datový soubor použitý na trénování
•Obvykle nejsou jednoduše interpretovatelné
•K-nejbližších sousedů
•Support vector machine
•Neuronové sítě
Metody klasifikace vzorků II.
Metody vytvářející klasifikační pravidla
•Více intuitivní, jednoduše použitelné v praxi
•Dostáváme přímo skupinu důležitých parametrů, připadně jasně
interpretovatelné klasifikační pravidlo
•Regresní modely
•Bayesovský klasifikátor
•Fisherova diskriminační analýza
•Klasifikační stromy a lesy
•Top Scoring Pairs
•AdaBoost
Gene 356
ALL Gene 3850
>2.5<=2.5
ALL AML
<-1.5>= -1.5
Odhad výkonnosti
• Výkonnost každého klasifikátoru musí být otestovaná na jiném
validačním souboru
Proč odhadovat výkonnost klasifikátoru?
• Omezení trénovacím souborem
• Bez předpokladu o rozložení neexistuje žádný vzorec pro výpočet
• Často existuje jen jeden datový soubor pro trénování a testování
klasifikátoru
• Odhad výkonnosti klasifikátoru na trénovacích datech je optimisticky
zkreslený
Odhad výkonnosti
Základní myšlenka:
Převzorkováním rozdělit (opakovaně) datový soubor na trénovací a
testovací, vytvořit klasifikátor na trénovacím souboru a změřit výkonnost
klasifikátoru jen na datech, které nebyly použity pro jeho vytvoření.
UPOZORNĚNÍ: Všechny kroky, které závisí na převzorkování a které
vedou k finálnímu modelu musí být zopakované identicky na každém
rozdělení na trénovací a testovací soubor.
Patří sem například normalizace dat, výběr proměnných, trénovaní
klasifikátoru, optimalizace parametrů,...
Trénovací soubor Testovací soubor
Původní souborZde
klasifikátor
vytváříme
Zde
klasifikátor
testujeme
Odhad výkonnosti II.
• Každé dva trénovací soubory vytvořené z původního datového
souoboru s pomocí převzorkování se do jisté míry překrývají ->
vytvořené klasifikátory tedy nejsou úplně nezávislé
• Variabilita je obvykle podhodnocená
Převzorkovací metody
• Jednoduché rozdělení na dva soubory
• k-násobná křížová validace (k-fold cross validation)
• Opakovaná k-násobná křížová validace
• Monte-Carlo křížová validace
• Leave-one-out křížová validace (n-násobná křížová validace, kde n
je počet vzorků)
• Bootstraping
Krížová validace
• Oddělený trénovací a testovací soubor
• Náhodné rozdělení dat do k podmnožin
• Vytvoření klasifikátoru na k-1 množinách a otestování na zůstávající
• Každá podmnožina je jednou testovací
• Obvykle k=5 nebo k=10 (pokud se k=počtu vzorků, pak se jedná o
leave-one-out odhad)
• Opakovaná křížová validace – ještě lepší odhad
Train TestTrainStep 1.
Test TrainTrainStep 2.
Train TrainTestStep 3.
k=3
Bootstrapping
Odhad výkonnosti III
• Zjistíme očekávanou výkonnost klasifikátoru na validačním souboru
• Můžeme identifikovat nejstabilnější proměnné (geny/proteiny)
• Které vzorky jsou stále špatné klasifikované (pokud takové jsou,
naznačuje to odlehlé hodnoty)
Standardy pro mikročipy
Standardy pro mikročipy II
Validace
• Vždy na nezávislém datovém souboru
• Velmi důležitá pro otestování skutečné robustnosti klasifikátoru
• Absolutně nevyhnutelné v medicíně
• Testovací soubor by měl splňovat následující vlastnosti:
• Musí obsahovat parametry použité v klasifikátoru
• Musí být známá příslušnost vzorků ke skupinám, které se klasifikátor
snaží diskriminovat
• Podobná struktura s ohledem na klinické a patologické parametry
(např. Stejné rozložení věku, zastoupení pohlaví apd.)
Design experimentu je důležitý!
• Myslete na dostatečně velký trénovací i testovací datový soubor!
Příklad: 5 podtypů karcinomu prsu – 96 vzoriek (N1=48, N2=16, N3=8,
N4=8, N5=16)
• Datové soubory musí reprezentovat populaci, na které
budete klasifikátor používat
Trénovací soubor Testovací soubor
Málo vzorků ve skupině, nemožnost tuningu, malá variabilita ->
přetrénování => nefunguje na testovacím souboru.
Stačí jeden špatně klasifikovaný vzorek a výrazně se sníží výkonnost!
Shrnutí
• Je užitečné vybrat proměnné před aplikováním klasifikátoru
• Je lepší používat jednoduché klasifikátory
• Odhadujte výkonnost klasifikátoru a optimalizujte parametry na
trénovacím souboru
• Vždy klasifikátor validujte na úplně jiném datovém souboru
Úloha [1 bod]
Pracujte s datovým souborem golub.Rdata, který naleznete v IS.
• X – matice genových expresí, kde v řádku jsou jednotlivý pacienti a
ve sloupcích jednotlivé sondy
• Y – vektor určující, do které skupiny patří pacienti
1. Vhodnou metodou vyberte ty geny, které jsou odlišně exprimovány mezi
skupinami.
2. Datový soubor náhodně rozdělte na trénovací (2/3 původního datového
souboru) a testovací (1/3 původního datového souboru).
3. Na tyto geny aplikujte metodu k-nejbližších sousedů.
4. Porovnejte výsledky z klasifikátoru se známým zařazením pacientů do
skupiny. Výsledky sumarizujte do čtyřpolní tabulky.
R skript obsahující komentáře k výsledkům zašlete do úterý 5.4.2016 na
email (hanakova@recetox.muni.cz).