zahlavi-IBA logo-IBA logo-MU © Institut biostatistiky a analýz Pokročilé metody analýzy dat v neurovědách Jaro 2016 RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Blok 6 Ordinační analýzy II 2 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova 1.Analýza nezávislých komponent (ICA) 2.Vícerozměrné škálování (MDS) 3.Varietní učení (manifold learning) 4.Korespondenční analýza (CA) 5.Metoda parciálních nejmenších čtverců (PLS) 6.Redundanční analýza (RDA) 7.Kanonická korelační analýza (CCorA) 8. 8. 3 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Schéma analýzy a klasifikace dat – opakování 4 Data Předzpracování Redukce Klasifikace nebo ? ? Výřez obrazovky Výřez obrazovky Data Předzpracování Redukce Ukázka - kognitivní data apod. Ukázka - obrazová data logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Extrakce proměnných – opakování •jednou z možných přístupů redukce dat (vedle selekce) 5 •transformace původních proměnných na menší počet jiných proměnných Þ tzn. hledání (optimálního) zobrazení Z, které transformuje původní p-rozměrný prostor (obraz) na prostor (obraz) m-rozměrný (m ≤ p) •pro snadnější řešitelnost hledáme zobrazení Z v oboru lineárních zobrazení •metody extrakce proměnných: –analýza hlavních komponent (PCA) –faktorová analýza (FA) –analýza nezávislých komponent (ICA) –korespondenční analýza (CA) –vícerozměrné škálování (MDS) –redundanční analýza (RDA) –kanonická korelační analýza (CCorA) –manifold learning metody (LLE, Isomap atd.) –metoda parciálních nejmenších čtverců (PLS) • •metody extrakce proměnných často nazývány jako metody ordinační analýzy •metody extrakce proměnných: –analýza hlavních komponent (PCA) –faktorová analýza (FA) –analýza nezávislých komponent (ICA) –korespondenční analýza (CA) –vícerozměrné škálování (MDS) –redundanční analýza (RDA) –kanonická korelační analýza (CCorA) –manifold learning metody (LLE, Isomap atd.) –metoda parciálních nejmenších čtverců (PLS) • - my se budeme nyní zabývat prvním kritériem – z tohoto kritéria vychází analýza hlavních komponent logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent 6 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent (ICA) 7 Nevýhody: - velmi časově náročná, předstupněm je redukce pomocí PCA - je třeba expertní znalost pro výběr komponent Výhody: + analýza na celém mozku, vícerozměrná metoda + dokáže vytvořit lépe interpretovatelné komponenty než PCA Princip: Hledání statisticky nezávislých komponent v původních datech. http://mialab.mrn.org/software/fit/images/fmri_fmri_fusion.jpg http://mialab.mrn.org/software/fit/images/fmri_fmri_fusion.jpg logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Srovnání s analýzou hlavních komponent (PCA) 8 PCA y2 y1 x2 x1 y1 y2 Nevýhody: - nevyužívá informaci o příslušnosti subjektů do skupin - potřebné určit, kolik hlavních komponent se použije pro transformaci Výhody: + analýza na celém mozku + vícerozměrná metoda Princip: Vytvoření nových proměnných (komponent) z původních proměnných tak, aby zůstalo zachováno co nejvíce variability. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent •anglicky Independent Component Analysis (ICA) 9 x1(t) = a11.s1(t) + a12.s2(t) x2(t) = a21.s1(t) + a22.s2(t) •úloha spočívá v nalezení originálních neznámých signálů z jednotlivých zdrojů s1(t) a s2(t) máme-li k dispozici pouze zaznamenané signály x1(t) a x2(t) •ICA umožňuje určit koeficienty aij za předpokladu, že známé signály jsou dány lineárních kombinací zdrojových, a za předpokladu statistické nezávislosti zdrojů v každém čase t logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent – model dat •mějme x =T(x1,x2,…, xm), což je m-rozměrný náhodný vektor •xi = ai1orig.s1orig + ai2orig.s2orig+…+ aimorig.smorig , i = 1,2,…,m • nebo maticově •x = Aorig.sorig • sorig je vektor originálních skrytých nezávislých komponent a s1orig jsou nezávislé komponenty (předpoklad vzájemně statisticky nezávislosti) • Aorig je transformační matice 10 Janoušová: Analýza a klasifikace dat •skryté nezávislé komponenty je možno vyjádřit pomocí vztahu: s = W.x •cíl: nalézt lineární transformaci (koeficienty transformační matice W) tak, aby vypočítané nezávislé komponenty si byly vzájemně statisticky nezávislé [W = A-1] • logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent - omezení •pouze jedna originální nezávislá komponenta může mít normální rozložení pravděpodobnosti (pokud má více zdrojů normální rozložení, není ICA schopna tyto zdroje ze vstupních dat extrahovat) 11 Janoušová: Analýza a klasifikace dat •pro dané m-rozměrné obrazové vektory je ICA schopna najít pouze m nezávislých komponent •nelze obecně určit polaritu nezávislých komponent •nelze určit pořadí nezávislých komponent logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent - omezení 12 •jsou identifikovány správné původní signály, ale pořadí signálů a jejich polarita je jiná než v původních datech Janoušová: Analýza a klasifikace dat původní neznámé signály měřené signály signály identifikované pomocí ICA 3 lidi vydávající zvuky + hučení projektoru: 1. člověk např. uíuíuíuíuí, 2. člověk např. chichichichi, 3. člověk např. uáuáuáuá, 4. signál je šum (např. hučení projektoru) – naměříme signály pomocí 4 mikrofonů - signály identifikované pomocí ICA – jiné pořadí signálů (nedokázalo se poznat, který člověk to řekl) a 1. i 2. identifikovaný signál mají jinou polaritu než původní signály (tedy u 1. signálu je to áuáuáuáu apod.) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Odhad nezávislých komponent •optimalizace pomocí zvolené optimalizační (účelové, kriteriální, objektové) funkce •ß •a) nalézt kriteriální funkci •b) vybrat optimalizační algoritmus • •ad a) možnost ovlivnit statistické vlastnosti metody •ad b) spojitá optimalizační úloha s „rozumnou“ kriteriální funkcí – gradientní metoda, Newtonova metoda – ovlivňujeme rychlost výpočtu (konvergenci), nároky na paměť,… • 13 Janoušová: Analýza a klasifikace dat logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Odhad nezávislých komponent – základní úvaha •nechť existuje m nezávislých náhodných veličin s určitými pravděpodobnostními rozděleními (jejich součet za obecných podmínek konverguje s rostoucím počtem sčítanců k normálnímu rozdělení – tzv. centrální limitní věta); •o vektoru x (který máme k dispozici) předpokládáme, že vznikl součtem nezávislých komponent sorig 14 Janoušová: Analýza a klasifikace dat jednotlivé náhodné veličiny xi mají pravděpodobnostní rozdělení, které je „bližší“ normálnímu než rozdělení jednotlivých komponent siorig •používané míry „nenormality“: –koeficient špičatosti –negativní normalizovaná entropie –aproximace negativní normalizované entropie ß logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Odhad nezávislých komponent – koeficient špičatosti •kurt(s) = E{s4} – 3(E{s2}) 2 •Gaussovo rozložení má koeficient špičatosti roven nule, zatímco pro jiná rozložení (ne pro všechna) je koeficient nenulový •při hledání nezávislých komponent hledáme extrém, resp. kvadrát koeficientu špičatosti veličiny s = wi.x 15 Janoušová: Analýza a klasifikace dat •výhody: –rychlost a relativně jednoduchá implementace •nevýhody: –malá robustnost vůči odlehlým hodnotám (pokud v průběhu měření získáme několik hodnot, které se liší od skutečných, výrazně se změní KŠ a tím i nezávislé komponenty nebudou odhadnuty korektně) –existence náhodných veličin s nulovým KŠ, ale nenormálním rozdělením logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Odhad nezávislých komponent – NNE •Negativní normalizovaná entropie (NNE) = negentropy •Informační entropie - množství informace náhodné veličiny •pro diskrétní náhodnou veličinu s je: H(s) = -Si P(s=ai).log2P(s=ai), • kde P(s=ai) je pravděpodobnost, že náhodná veličina S je rovna hodnotě ai •pro spojitou proměnnou platí • •entropie je tím větší, čím jsou hodnoty náhodné veličiny méně predikovatelné •pro normální rozd. má entropie největší hodnotu ve srovnání v dalšími rozd. •NNE: J(s) = H(sgauss) – H(s), kde sgauss je náhodná veličiny s normálním rozd. 16 Janoušová: Analýza a klasifikace dat •výhody: –přesné vyjádření nenormality –dobrá robustnost vůči odlehlým hodnotám •nevýhody: časově náročný výpočet Þ snaha o vhodnou aproximaci NNE, aby byly zachovány její výhody a současně byl výpočet méně náročný logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Odhad nezávislých komponent – aproximace NNE •použití momentů vyšších řádů • • kde s je náhodná veličina s nulovou střední hodnotou a jednotkovým rozptylem 17 Janoušová: Analýza a klasifikace dat •nevýhoda: –opět menší robustnost vůči odlehlým hodnotám •použití tzv. p-nekvadratických funkcí • • kde ki>0 je konstanta, Gi jsou šikovně navržené nelineární funkce a sgauss je normální náhodná proměnná, která spolu s s má nulovou střední hodnotu a jednotkový rozptyl. Je-li použita pouze jedna funkce G, pak je J(s) » [E{G(s)} - E{G(sgauss)}]2 •doporučuje se kde a1Îá1,2ñ nebo logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent – příklad použití 18 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent – příklad použití 19 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent – příklad použití 20 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent – příklad použití 21 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent – příklad použití 22 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent – příklad 2 •Zadání: určete nezávislé komponenty ve fMRI datech zdravých subjektů, u nichž byl proveden vizuomotorický test. 23 •Řešení (s pomocí GIFT toolboxu v software MATLAB) http://mialab.mrn.org/software/gift/ logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent – příklad 3 •Zadání: nalezněte nezávislé komponenty, které dokáží odlišit tři skupiny subjektů 24 #N Age* [years] Gender F / M Education* [years] HC 57 68 (47 – 81) 40 / 17 16 (12 – 21) ADmci 27 69 (52 – 86) 17 / 10 13 (10 – 22) AD 12 75 (55 – 88) 11 / 1 12 (8 – 25) V1 V2 … S1 S2 … voxely * Datová matice V1 V2 … K1 K2 ... = K1 K2 ... S1 S2 … komponenty voxely Mixing matice Source matice pro nalezení odlišujících komponent pro vizualizaci Janoušová: Analýza a klasifikace dat logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent – příklad 3 25 Janoušová: Analýza a klasifikace dat •komponenta č. 1: Výřez obrazovky p = 0.0052 komponenta č.1 ukazuje místa, kde je úbytek šedé hmoty v ADmci a v AD, nicméně v AD větší logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent – příklad 3 26 Janoušová: Analýza a klasifikace dat •komponenta č. 2: komponenta č.2 ukazuje místa, kde je úbytek šedé hmoty v ADmci a AD víceméně stejný Výřez obrazovky p = 0.0089 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent – příklad 3 27 Janoušová: Analýza a klasifikace dat •komponenta č. 6: komponenta č.6 ukazuje místa, kde je úbytek šedé hmoty pouze u AD Výřez obrazovky p = 0.0126 zbylé komponenty byl jen šum logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrné škálování 28 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrné škálování •anglicky Multidimensional scaling (MDS) •přesnější název: nemetrické vícerozměrné škálování •cíl: dosáhnout řešení, které při nejmenším počtu vytvořených os zachovává pořadí vzdáleností objektů v původní asociační matici •jde o iterační algoritmus řešící převod libovolné asociační matice do Euklidovského prostoru (různé SW mohou dosahovat mírně odlišné výsledky) • •vstupem analýzy je libovolná asociační matice (včetně nemetrických koeficientů) •výstupem je zadaný počet „faktorových os“ • •pokud je vstupní asociační matice maticí Euklidovských vzdáleností, je MDS totožná s PCA • 29 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrné škálování – příklad •Data vzdáleností evropských měst - > rekonstrukce mapy • 30 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách •kvalita dodržení pořadí vzdáleností v datech při daném počtu os je kontrolována Shepardovým diagramem 31 2 osy 1 osa Vícerozměrné škálování – příklad → jedna osa není dostačující (data příliš daleko od diagonály), zatímco dvě osy jsou v tomto případě dostačující logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vzdálenosti v původních datech a vytvořených faktorových osách 32 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Reprezentace výstupu 33 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách evropa.jpg Reprezentace výstupu 34 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Varietní učení (manifold learning) 35 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Úvod – redukce dimenzionality •klasické metody redukce dimenzionality: –PCA (principal component analysis) – snaha o nalezení „podstruktury“ (embedding) v datech tak, aby byl zachován rozptyl –MDS (multidimensional scaling) – snaha o nalezení „podstruktury“ v datech tak, aby byly zachovány vzdálenosti mezi body; ekvivalentní s PCA při použití Euklidovské vzdálenosti Tenenbaum et al. 2000, Science Swiss roll •tyto klasické metody redukce dimenzionality nedokáží zachytit složité nelineární struktury Janoušová: Analýza a klasifikace dat → metody varietního učení logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metody varietního učení •metody pro nelineární redukci a reprezentaci dat •manifold = „nadplocha“ – čáry a kruhy jsou 1D nadplochy, koule je příklad 2D nadplocha Janoušová: Analýza a klasifikace dat •základní metody varietního učení: 1.ISOMAP (Tenenbaum et al. 2000) 2.Metoda lokálně lineárního vnoření = LLE (Roweis & Saul 2000) •další metody varietního učení: Laplacian Eigenmaps, Sammon's Mapping, Kohonen Maps, Autoencoders, Gaussian process latent variable models, Curvilinear component analysis, Curvilinear Distance Analysis, Kernel Principal Component Analysis, Diffusion Maps, Hessian LLE, Modified LLE, Local Tangent Space Alignment, Local Multidimensional Scaling, Maximum Variance Unfolding, Data-Driven High Dimensional Scaling, Manifold Sculpting, RankVisu •některé z manifold learning metod implementovány v mani.m demu (http://www.math.ucla.edu/~wittman/mani/index.html) 1. 1. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Tenenbaum et al. 2000 Science, A Global Geometric Framework for Nonlinear Dimensionality Reduction •založena na MDS •ISOMAP = isometric feature mapping •snaha o zachování vnitřní geometrie dat, která je zachycena pomocí geodézních vzdáleností (geodesis distance) založených na hledání nejkratších cest v grafu s hranami spojujícími sousední datové body • • ISOMAP metoda logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ISOMAP metoda – algoritmus se 3 kroky Tenenbaum et al. 2000 Science, A Global Geometric Framework for Nonlinear Dimensionality Reduction Janoušová: Analýza a klasifikace dat 3.Aplikace nemetrického vícerozměrného škálování (MDS) na matici geodézních vzdáleností – tzn. transformace dat do Euklidovského prostoru tak, aby byly co nejlépe zachovány geodézní vzdálenosti. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Interpolace podél os x a y v podprostoru obrazů tváří Výsledek k-ISOMAP algoritmu u 698 obrazů tváří ISOMAP metoda – ukázka 1 Tenenbaum et al. 2000 Science, A Global Geometric Framework for Nonlinear Dimensionality Reduction Janoušová: Analýza a klasifikace dat Výsledkem je redukce původních 4096 proměnných (obrazy měly rozměry 64 x 64 pixelů) na pouze tři komponenty logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Interpolace podél os x a y v podprostoru obrazů číslic Výsledek ISOMAP algoritmu u obrazů ručně psaných číslic ISOMAP metoda – ukázka 2 Tenenbaum et al. 2000 Science, A Global Geometric Framework for Nonlinear Dimensionality Reduction Janoušová: Analýza a klasifikace dat výsledkem pouze 2 komponenty logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metoda lokálně lineárního vnoření (LLE) • •Locally Linear Embedding (LLE) •založena na zachování mapování sousedů (neighborhood-preserving mapping) •LLE rekonstruuje globální nelineární struktury z lokálních lineárních fitů • • Černě vyznačeno okolí (sousedi) jednoho bodu. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 1. Výběr k nejbližších sousedů. 3. Mapování do „nadplochy“ s nižší dimenzionalitou (lineární mapování – skládající se z translací, rotací a přeškálování) pomocí výpočtu vlastních vektorů LLE - algoritmus Janoušová: Analýza a klasifikace dat logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Výsledek LLE algoritmu u obrazů tváří LLE – ukázka 1 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Výsledek LLE algoritmu u hodnocení počtu a výskytu slov v encyklopedii LLE – ukázka 2 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách •výhody a nevýhody ISOMAP: + zachovává globální strukturu dat + málo parametrů - citlivost k šumu - výpočetně náročné Výhody a nevýhody ISOMAP a LLE Janoušová: Analýza a klasifikace dat •výhody a nevýhody Locally Linear Embedding (LLE): + rychlý + jeden parametr + jednoduché operace lineární algebry - může zkreslit globální strukturu dat • logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Další práce •Laplacian Eigenmaps for Dimensionality Reduction and Data Representation (Belkin & Niyogi 2003): –snaha o zachování mapování sousedů jako u Locally Linear Embedding –podobný algoritmus jako LLE, ale používá se zde výpočet vlastních vektorů a vlastních čísel s využitím Laplaciánu grafu –souvislost s klastrováním – lokální přístup k redukci dimenzionality způsobuje přirozené klastrování dat (klastrování tedy nastává u Laplacian Eigenmaps a LLE, nenastává u ISOMAP, protože to je globální metoda) • •Manifold Learning for Biomarker Discovery in MR Imaging (Wolz et al. 2010) –použití Laplacian eigenmaps u obrazů pacientů s Alzheimerovou chorobou (data ADNI) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Korespondenční analýza 48 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Korespondenční analýza •anglicky Correspondence Analysis (CA) •cíl: nalezení vztahu mezi řádky a sloupci kontingenční tabulky •vstupní data: –tabulka obsahující souhrny proměnných (počty, průměry) za skupiny subjektů/objektů •výstupy analýzy: –vztahy všech původních faktorů a/nebo skupin subjektů v jednoduchém xy grafu •kritické problémy analýzy –skupiny s malým počtem hodnot mohou být zatíženy značným šumem a náhodnou chybou –obtížná interpretace velkého množství malých skupin subjektů – •Výpočet probíhá prostřednictvím rozkladu na singulární hodnoty (singular value decomposition) na matici chí-kvadrát vzdáleností (tedy na matici příspěvků buněk tabulky k celkovému chí-kvadrátu obdobně jako v klasickém testu dobré shody na kontingenční tabulce) • 49 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza kontingenčních tabulek jako princip výpočtu vícerozměrných analýz •Počet pacientů s nežádoucími účinky na typu léčby lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (typ léčby – lék A, lék B) a sloupci (nežádoucí účinky – ano, ne) je velikost chí-kvadrátu 50 pozorovaná četnost očekávaná četnost očekávaná četnost = 2 - Počítáno pro každou buňku tabulky N J A 10 0 B 0 10 Pozorovaná tabulka N J A 5 5 B 5 5 Očekávaná tabulka Hodnota chí-kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu nežádoucích účinků a typu léčby) od situace, kdy mezi řádky a sloupci (nežádoucími účinky a typem léčby) není žádný vztah logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Princip korespondenční analýzy •Korespondenční analýza hledá, které kombinace řádků a sloupců hodnocené tabulky nejvíce přispívají k její variabilitě • 51 Vs. Realita Teoretická vyrovnanost logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Výřez obrazovky Výstupy korespondenční analýzy 52 Variabilita vyčerpaná danou faktorovou osou Vzájemná pozice faktorů a skupin objektů/subjektů: vzájemnou pozici lze interpretovat Výřez obrazovky logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Kanonická korelační analýza 53 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Kanonická korelační analýza •anglicky Canonical Correlation Analysis (CCorA) •cíl: nalezení maximální lineární korelace mezi dvěma sadami proměnných (tzn. zjištění, zda se jedna skupina proměnných chová stejně jako druhá skupina proměnných pro ty samé objekty, a pokud ano, co je podstatou této shody) •vstupem do CCorA dvě matice: –se vzájemně závislými proměnnými –nebo jedna matice se závisle proměnnými a jedna s nezávisle proměnnými (v tom případě velmi podobné jako RDA) •princip: CCorA hledá lineární kombinaci proměnných z první sady a lineární kombinaci proměnných z druhé sady, které mají maximální korelaci mezi sebou •CCorA je zobecněním vícerozměrné lineární regrese, která hledá závislost pouze jedné závisle proměnné na sadě nezávislých proměnných •příklad použití: hledání vztahu skupiny rizikových faktorů a skupiny symptomů nemoci 54 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Kanonická korelační analýza – předpoklady •data musí být kvantitativní •data nesmí obsahovat odlehlé hodnoty (proměnné ale nemusí mít nutně normální rozdělení) •počet proměnných první sady plus počet proměnných druhé sady musí být menší než počet objektů •proměnné musí mít mezi sebou lineární vztah (ne nelineární) 55 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Redundanční analýza 56 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Redundanční analýza •anglicky Redundancy Analysis (RDA) •cíl: zjištění závislosti jedné skupiny proměnných na druhé skupině proměnných •vhodná v případech, kdy mají dvě sady proměnných lineární vztah •dává podobné výsledky jako kanonická korelační analýza •princip: RDA je v podstatě vícerozměrnou regresní analýzou, která je následovaná analýzou hlavních komponent •předpoklady: stejné jako u PCA 57 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Redundanční analýza – označení a postup •Označení: X - matice nezávisle proměnných; Y - matice závisle proměnných • •Postup: 1.regrese každé závisle proměnné Yi na sadě nezávislých proměnných X pomocí vícerozměrné regrese a získání regresních koeficientů 2.PCA na sadě regresních koeficientů z vícerozměrné regrese a získání matice kanonických vlastních vektorů 3.použití kanonických vlastních vektorů k získání skóre objektů buď ve faktorovém prostoru X (skóre označovány jako lineární kombinace), nebo v prostoru závislých proměnných Y (skóre označovány jako vážené průměry) 58 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Ordinační analýzy – shrnutí •analýza hlavních komponent, faktorová analýza, korespondenční analýza, multidimensional scaling a metody varietního učení se snaží zjednodušit vícerozměrnou strukturu dat výpočtem souhrnných os 59 •metody se liší v logice tvorby těchto os –Maximální variabilita (analýza hlavních komponent, korespondenční analýza) –Maximální interpretovatelnost os (faktorová analýza) –Převod asociační matice do Euklidovského prostoru (vícerozměrné škálování) •redundanční analýza a kanonická korelační analýza se snaží nalézt vztah mezi dvěma sadami vícerozměrných dat logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metoda parciálních nejmenších čtverců 60 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metoda parciálních nejmenších čtverců •anglicky Partial Least Squares (PLS) •cíl: zjištění vztahu (kovariance) mezi dvěma sadami proměnných (např. mezi funkčními obrazovými daty a behaviorálními daty) 61 •lze rovněž srovnávat skupiny mezi sebou – lze srovnat i více skupin (při porovnávání více skupin nedetekuje pouze rozdílné patterny mezi skupinami, ale i podobné či stejné) •vhodné i pouze jako doplňková analýza, dokonce se doporučuje, aby byla v kombinaci s nějakým dalším typem analýzy •reference pro využití PLS v neurozobrazování: McIntosh, A.R., Bookstein, F., Haxby, J., Grady, C., 1996. Spatial pattern analysis of functional brain images using partial least squares. Neuroimage 3, 143–157 • srovnávání skupin mezi sebou – to dostudovat, o co se jedná logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách PLS – metody 62 Krishnan, A., Williams, L.J., McIntosh, A.R., Abdi, H., 2011. Partial least squares (PLS) methods for neuroimaging: a tutorial and review. Neuroimage 56 (2), 455–475. logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách PLSC – princip 63 X YT = R (n x v) (p x n) (p x v) * 1.Výpočet matice R – ukazuje vztah mezi maticemi X a Y (korelace, pokud X a Y předem standardizovány; kovariance, pokud X a Y jen centrovány) subjekty voxely Obrazová data Behaviorální data voxely 2.Rozklad matice R na U×S×VT pomocí SVD (singular value decomposition) = s1 s2 s3 ... (p × v) (p × p) (p × v) U R voxely * S VT * (v × v) v článku McIntoshe je, že matice S je čtvercová a matice V’ obdélníková – je to zřejmě proto, že to zjednodušili, protože hodnost matice R je p, proto u matice V budou některé řádky odpovídat nulovým singulárním číslům ??? http://www.sciencedirect.com/science/article/pii/S1053811904003866 http://www.tqmp.org/RegularArticles/vol10-2/p200/p200.pdf https://www.utd.edu/~herve/abdi-PLSC_and_PLSR2012.pdf logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách PLSC – výstup 64 V každém sloupci váhy odpovídající nalezeným korelačním vzorům mezi obrazovými a behaviorálními daty V každém řádku váhy pro korelaci s nalezeným behaviorálním vzorem v jednotlivých voxelech S - diagonální matice singulárních hodnot (s1 ≥ s2 ≥ ... ≥ sp), odpovídajících kovarianci jednotlivých párů latentních proměnných. Z těchto hodnot lze odvozovat jakousi významnost dané latentní proměnné. = s1 s2 s3 ... (p × v) (p × p) (p × v) U R voxely * S VT * (v × v) logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách PLSC – optimalizace •Cílem PLSC je nalezení takových párů latentních proměnných, které: 1.Mají vzájemnou maximální kovarianci 2.Pro index l1 a l2 ,kdy l1 ≠ l2, jsou latentní vektory nekorelované 3.Koeficienty u u a v jsou normalizovné • 65 Latentní proměnné …. První podmínka …. Druhá podmínka …. Třetí podmínka …. Z SVD plyne, že kovariance mezi dvěma latentními proměnnými je rovna příslušné singulární hodnotě s. co znamená to delta? logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Významnost latentní proměnné •umožní určit, jaké proměnné interpretovat •významnost testována pomocí permutací – permutace v matici Y – matice s behaviorálními daty •pro každou permutaci se opět vypočte PLSC a p-hodnota testu pak odpovídá pravděpodobnosti, že náhodně sestavená data měla vyšší singulární hodnotu u dané latentní proměnné než v originálním datovém souboru 66 logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Stabilita prostorového vzorce •pro zjištění stability nalezených výsledků v závislosti na obrazech vstupujících do analýzy se dělají bootrapové výběry (řádově stovky až tisíce náhodných výběrů s vracením) – opět spočítáno PLSC •stabilní latentní proměnné pak mají v daném voxelu přes všechny výběry menší směrodatnou odchylku •poměr původní váhy z originálního PLSC k odhadnuté směrodatné odchylce se pak chová jako z-score → možnost vybrat pouze ty voxely, které jsou stabilní (např. s tímto poměrem ≥ 1.96) 67 •z boostrapových výběrů lze také odhadnout velikost intervalu spolehlivosti pro jednotlivé korelace behaviorálních dat s obrazovými → pokud obsahují 0, pak danou behaviorální proměnnou nemá moc cenu interpretovat x x x logo-MU logo-IBA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách“ byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU“ 68