Popis formátu cdf file:
http://dept.stat.lsa.umich.edu/~kshedden/Courses/Stat545/Notes/AffxFileFormats/cdf.html
Stiahnutie cdf ku konkrétnej platforme (hg-u133-plus)
http://www.affymetrix.com/support/technical/byproduct.affx?product=hg-u133-plus
BiocInstaller::biocLite("hgu133a2cdf") – instalacia platformy uz existujucej
BiocInstaller::biocLite("makecdfenv") – nastroj na vytvorenie prostredia k akejkolvek platforme
(nutno mat cdf file)
Affymetrix cdf files

https://wiki.metacentrum.cz/wiki/How_to_compute/Accessing_machines/From_Window
Krátky úvod metacentrum


Kapitola III.
Společné principy analýzy genomických a proteomických dat
Výuka IBA

Genová exprese
§ Gen je exprimovaný, pokud se přepisuje  do mRNA
§ Pokud se gen přepisuje, znamená to, že je aktivní
§ Aktivitu genu můžeme měřit měřením množství příslušné mRNA v buňce
DNA
mRNA
Proteín
přepis ~  exprese
překlad

Tradiční schémata analýzy I.
§Každý experiment má odlišné cíle, v závislosti od typu dat a zájmů výzkumníků, ale existují
tradiční schémata které se opakují:
§Učení s učitelem (supervised learning)
Známa struktura dat musí byt zevšeobecněná na nové data
§Porovnávání skupin (class comparison)
§hledáme rozdíly v expresi, v počtě kopií či struktůře genů/proteinů mezi už definovanými skupinami
§Předpovídání skupin (class prediction)
§na známých skupinách se snažíme vytvořit klasifikátor, který by dokázal zařadit nového pacienta do
jedné ze skupin

Tradiční schémata analýzy II.
§Učení bez učitele (unsupervised learning)
§Objevování skupin (class discovery)
§Struktura v datach není známa, je potřebné ji vytvořit, objevit!
§Na základě informací o genech/proteinech hledáme nové skupiny
§Příklady:
•Existují nějaké soubory genů které se exprimují stejně ve všech podmínkách?
•Onemocnění X je velmi heterogenní. Můžeme identifikovat specifičtější podtypy, které by mohli být
cílem cílené terapie?

Společná schéma analýzy dat
Biologická otázka
(hypotéza)
N matic základních dat
(jedna pro každý z N vzorků)
Kontrola kvality
Normalizace
Sumarizace
Provedení experimentu
(hybridizace mikročipů,
hmotnostní spektrometrie...)
Dizajn experimentu
Objevování skupin?
(Shlukování)
Porovnání skupin?
(Testování)
Predikce skupin?
(Klasifikace)
Analýza přežití
Analýza časových řad
Charakterizace nových
skupin
List genů
se stejným profilem
změn exprese v čase
Interpretace
Validace
Publikace
Matice informací o vzorcích
N x P
(např. klinická data v medicíně)
Finální datová matice
N vzorků a K genů
(proteinů)
Nové skupiny
genů nebo vzorků
List genů
s odlišnou expresí
mezi skupinami vzorků
Klasifikační pravidlo
využívající
genovou expresi
Seznam
prognostických genů
Analýza genových sad / genových sítí

Kapitola V.1.
Porovnávání skupin
Výuka IBA

Příklady porovnávání skupin
§Pokud chceme zjistit
§jaké geny jsou aktivní/neaktivní
§jaký je rozdíl v přítomných proteinech mezi dvěma nebo více skupinami:
§nemocní vs. zdraví pacienti
§pacienti před vs. po terapii
§pacienti v čase diagnózy a v čase relapsu
§bakterie v aerobním vs. anaerobním prostředí
§druh 1 vs. druh 2
§porovnáváme podtypy onemocnění

Základní metody pro porovnávání
Můžeme rozdělit do tří hlavních skupin:
§Metody studující velikost efektu změny mezi skupinami
§Testování hypotéz
§Regresní strategie

Základní metody pro porovnávání
Můžeme rozdělit do tří hlavních skupin:
§Metody studující velikost efektu změny mezi skupinami
§Testování hypotéz
§Regresní strategie

Velikost efektu / změny II.
1.Porovnává se poměr průměrů/mediánů jedné a druhé skupiny: mean(X)/mean(Y).
2.Stanoví se fixní dělící hranice, které určují, jaká velikost efektu je pro nás zajímavá
§Příklad: genová exprese, mean(X)/mean(Y), kde X a Y jsou genové exprese ve skupinách. Použitá
hranice: 2!
§Výhody:
§jednoduché

Velikost efektu / změny III.
>
DNA
mRNA
DNA
mRNA
Skupina A. Zdravá tkáň
Skupina B. Nádor
9/3 = 3
Gen g1 je 3x více exprimován v nádoru, než ve zdravé tkáni

Velikost efektu / změny IV.
§Nevýhody:
§I menší změny mohou být biologicky významné
(malý efekt genu/proteinu může být znásobený kooperací více genů v dráze)
§Data jsou ovlyvněné technickou a biologickou variabilitou:
§Co pokud máme 1.9?
§Poměry mohou být vychýlené směrem k nule (například u nádorů s příměsí normálních buněk ve vzorce)
§Neberou do úvahy variabilitu!
Testování hypotéz

Základní metody pro porovnávání
Můžeme rozdělit do tří hlavních skupin:
§Metody studující velikost efektu změny mezi skupinami
§Testování hypotéz
§Regresní strategie

Testování hypotéz
§Klademe si otázku: Je aktivita/množství proteinu/genu ve skupině A odlišné od průměrné
aktivity/množství proteinu/genu ve skupině B?

§Na každý protein/gen aplikujeme statistický test, kterým získáme Tg statistiku a příslušné
p-hodnoty
§Výběr testu
Počet skupin pro porovnání
Data jsou normální
Data jsou normální
2
>2
T-test
Mann-Whitney
test
ANOVA
Kruskal-Wallis
test
ANO
NE
ANO
NE

Testování hypotéz II.
Testuje se
§ Nulová hypotéza (H0):
Gen / protein není odlišně exprimovaný mezi skupinami
versus
§ Alternativní hypotéza (H1):
Gen je odlišně exprimovaný mezi skupinami
èNa základě našich dat musíme rozhodnout, co je pravda
§ Nulovou hypotézu zamítneme jen pokud existuje dostatečně silná evidence, že je neplatná
§Evidence –  statistika a p-hodnota!

T-statistika I.
§Abychom rozhodli, která hypotéza je pravdivá, sumarizujeme data do jednoho čísla
§V testovaní hypotéz se toto číslo nazývá statistika (T-statistika, Z-statistika, F-statistika...)
§T-statistika porovnává signál se šumem
§Signál = rozdíl průměrů ve skupinách (u microarray dat se jedná o log(skupina 1)-log(skupina 2) =
log(skupina1/skupina2))
§Šum = směrodatná odchylka rozdílu (SD)
§T = log(skupina 1/skupina 2)/SD
§T hodnoty daleko od nuly indikují  snížení a nebo zvýšení exprese v jedné ze skupin

T-statistika II.
§Dvouvýběrový T-test pro porovnání rovnosti dvou průměrů μ1, μ2:
§Průměr exprese genu ve skupině 1 vs. průměr ve skupině 2
§Pokud data mají normální rozložení a neexistuje                                        rozdíl mezi
skupinami, tak T-statistiky pocházejí                                            z T-rozložení.
§p-hodnota = pravděpodobnost že dostaneme danou hodnotu T-statistiky nebo hodnotu větší, v případě,
že neexistuje rozdíl mezi skupinami
pg = Pr(Tg ≤ T)
§Dostatečně malá p-hodnota = významný rozdíl (silná evidence)
>
variabilita

Testování hypotéz III.
H0 nezamítneme
H0 zamítneme
H0 je pravdivá
(gen není odlišně exprimovaný)
Pravdivá negativita (PN)
Falešná pozitivita (FP)
Chyba I. druhu
H0 není pravdivá
(gen je odlišně exprimovaný)
Falešná negativita (FN)
Chyba II. druhu
Pravdivá pozitivita (PP)

Testování hypotéz IV.
§Typické rozhodovací pravidlo:
§ Výpočet T-statistiky a p-hodnoty
§Pokud p < 5%, gen je označený za odlišně exprimovaný
§Důležité: V případě, že platí nulová hypotéza, jsou p-hodnoty rovnoměrně rozložené (vlevo). V
případě, že je značná část genů odlišně exprimovaná, rozložení p-hodnot už není uniformní (vpravo).

Problém mnohonásobného porovnávání
Porovnáváme tisíce genů/proteinů mezi skupinami.

Hypotézu testujeme pro každý gen!

Máme zvýšenou šanci falešně pozitivních výsledků!
Příklad: 10 000 genů, žádný odlišně exprimovaný mezi skupinami => 0.05 x 10 000 = 500 s p < 0.05.

p <0.05 už negarantuje významnost výsledku

Musíme tedy udělat korekci p-hodnot na mnohonásobné porovnání

Korekce problému mnohonásobného porovnávání
# nezamítnuté (NZ)
# zamítnuté (Z)
#bez rozdílu
Pravdivá negativita (PN)
Falešná pozitivita (FP)
Chyba I. druhu
# odlišné geny/proteiny
Falešná negativita (FN)
Chyba II. druhu
Pravdivá pozitivita (PP)
Chyby 1. druhu:
1.Family–wise error rate (FWER): Pravděpodobnost alespoň jedné chyby prvního druhu (falešné
pozitivity): FWER = Pr(FP > 0)
1.False discovery rate (FDR)(Benjamini & Hochberg,1995):
Očakávaný podíl falešně pozitivních výsledků mezi zamítnutými hypotézami
FDR= E[FP/Z]

Korekce p-hodnot
§Kontrolujeme FWER
§Bonferroniho korekcia (pro nezávislé testy!)
p <  / m  (napr. p < 0.05/10 000)
§Kontrolujeme FDR
§Benjamini/Hochberg procedura
FDR = 10% (ze 100 zamítnutých hypotéz očekáváme 10 falešně pozitivních)

Který typ korekce použít?
§FWER pokud chceme aby VŠECHNY vybrané geny/proteiny byly opravdu významné. Na druhou stranu,
nevybereme tak všechny významné geny!
§FDR pokud preferujeme vybrat většinu významných genů/proteinů, a nevadí nám nějaké falešně
pozitivní
§q-hodnota je nejmenší FDR při které daný gen ještě zůstává na listu pozitivních
III.1. Porovnávání skupin

Moderovaná T-statistika
•Problém ve statistickém testovaní mikročipových dat:
Příliš malé hodnoty exprese (blízké šumu) vykazují malou variabilitu => vysoké T-statistiky u
biologicky nerelevantních genů!
Příklad:
•Aby se daly statistiky porovnat, je potřeba sjednotit variabilitu:
•Moderovaná T-statistika:
Konstanta korigující
variabilitu
> > >

Significance analysis of microarrays (SAM)
•Tusher, Tibshirani a Chu (2001)
•Založená na moderované t-statistice (dg), počítá FDR
•Statistická významnost dg je následně stanovená permutacemi původních dat a kalkulací očekávaného
skóre v případě, že platí nulová hypotéza (de)
•Gen je statisticky významný, pokud splňuje podmínku |dg - de | > Δ.
•Výhody: jednoduché
-Nevýhody: výpočtově náročné (permutace)
-Výstup: q-hodnoty
-biocLite(“samr“)
-library(samr)
>

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků
>

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků
>

  dp             Seřaď      Zkombinuj permutace    de
>
SAM - výpočet  očekávaných hodnot
•Pro každou permutaci p spočítej dgp
•Seřaď statistiky podle velikosti
•Definuj g-tou očekávanou hodnotu na základě N permutací

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků
>

SAM – určení významných genů I
de
dg

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků
>

SAM – výpočet FDR
•t1 a t2 budou použité jako hranice
•Vypočítej průměrný počet genů, které v permutacích tyto hranice překročily (byly významné)
•Odhadni počet falešně pozitivních genů v případě, že platí nulová hypotéza podělením počtem
významných genů v originálním pozorování:

SAM – výpočet FDR, příklad
dg
dp

SAM - algoritmus
Genová exprese vzorků
Definuj a spočítej statistiku dg
Odhadni rozdělení dg
Urči potenciálně významné geny
Odhadni FDR
Permutace vzorků
Vyber 
Skupiny vzorků
>

SAM – jak vybrat 
    Parametr
Počet falešně pozitivních
(z permutací)
Počet označených za významné
(v orig.)
FDR

Limma
•Smyth, G. K. (2004). Linear models and empirical Bayes methods for assessing differential
expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology,
Volume 3, Article 3. http://www.bepress.com/sagmbvol3/iss1/art3
•Lineární modely pro stanovení odlišné exprese z mikročipových dat
•Balík se souborem funkcí pro normalizaci dat a porovnání exprese mezi skupinami (včetně časových
řad)
•Moderovaná statistika: variabilita je vyhlazená pomocí empirických bayesovských metod
•biocLite(“limma“)
•library(limma)

Volcano plots I.
- log10(q-value) ~ -log10(0.1)=2.3


Volcano plots II.
library(limma)
volcanoplot(fit2, highlight=100)

Základní metody pro porovnávání
Můžeme rozdělit do tří hlavních skupin:
§Metody studující velikost efektu změny mezi skupinami
§Testování hypotéz
§Regresní strategie

Regresní strategie
§Pokud máme víc jak 1 proměnnou, která může ovlivnit genovou/proteinovou expresi
§genová exprese ~ skupina + pohlaví
Lineární modelování
§ Pokud se snažíme zjistit, jak velmi se genová exprese změní, pokud se změní hodnota nějaké
spojité proměnné
§genová exprese ~ prežití
§genová exprese ~ věk
Lineární modelování, Coxův model proporcionálních rizik
§Chceme najít pravděpodobnost, že vzorek patří do určité skupiny na základě expresní hodnoty daného
genu
Logistická regrese

Porovnání skupin
Počet skupin
Normální data?
Normální data?
2
>2
Počet
faktorů
Mann-Whitney
test, SAM
ANOVA,
Lineární modely,
SAM
Kruskal-Wallis test,
SAM
Lineární modely,
Coxův model
proporcionálních rizik
(časy prežití)
spojitá odpovědná proměnná
ANO
ANO
NE
NE
T-test,
Lineární modely, SAM
Lineární modely
1
>1